AICAT ─ 全球3000+优质AI工具盘点,热门AI教程推荐
标签:AI项目和框架
OmniGen
OmniGen是一种创新的统一图像生成扩散模型,旨在通过单一框架解决多种图像生成任务,包括文本生成图像、图像编辑、主题驱动生成以及视觉条件生成等。它将传统计算机视觉任务转化为……
WeaveFox:蚂蚁团队出品,根据设计图直接生成源代码
WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,且……
EMMA-X:具身多模态动作模型推动人机交互的革新与应用
EMMA-X是一款由新加坡科技设计大学开发的具身多模态动作模型,拥有70亿参数,旨在提升机器人在复杂环境中的任务执行能力。该模型基于有根据的链式思维(CoT)推理数据,对OpenVLA进……
AI 3D世界生成模型,文本图像秒变3D渲染场景
产品名称:Explorer产品简介:Explorer是Odyssey公司推出的生成性世界模型,能将任何图像转化为详细的3D世界。Explorer模型擅长生成真实感世界,且支持动态效果的生成。Explorer基……
X-AnyLabeling:多样化图像与视频标注样式的智能AI工具
X-AnyLabeling是一款先进的图像标注软件,集成了多种深度学习算法,致力于显著提高标注的效率与准确性。它能够处理多种标注样式,适用于图像和视频的标注需求,覆盖多个AI训练场景……
UniReal:港大携手Adobe推出创新图像生成与编辑框架提升创作效率与灵活性
UniReal是一款由香港大学与Adobe研究院联合开发的创新框架,旨在实现多种图像生成与编辑任务。该框架基于对现实世界动态的模拟,能够在一个统一模型中处理图像生成、编辑、定制和合……
OpenELM
OpenELM是Apple最新发布的一系列高效开源语言模型,涵盖了不同参数规模的版本,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B。该系列模型采用创新的层间缩放策略,实……
PersonaTalk
PersonaTalk是一款由字节跳动开发的先进视觉配音工具,基于注意力机制的双阶段框架,能够实现高保真度和个性化的唇形同步视频合成。它不仅能确保合成视频中的嘴型与输入音频精准匹……
CodeFormer
CodeFormer是一款由南洋理工大学与商汤科技联合开发的人工智能图像和视频修复工具,旨在通过先进的算法提升模糊和马赛克图像的质量。它结合了变分自动编码器(VQGAN)与Transformer……
BrushEdit:智能指令驱动的图像编辑与修复框架全面提升创作效率与质量
BrushEdit是腾讯与北京大学等多家机构联合开发的一款前沿图像编辑框架,作为BrushNet模型的高级版本,它结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,支持基于指令的图……