AI项目和框架 | 第 49 页

Apollo是Meta与斯坦福大合推出的一款大型多模态模型（LMMs），专注于提升视频理解能力。该项目通过系统研究揭示了视频理解在LMMs中的关键驱动因素，提出了“ScalingConsistency”现象……

7个月前

产品名称：Leffa产品简介：Leffa（LearningFlowFieldsinAttention）是MetaAI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基……

7个月前

LargeActionModels（LAMs）是微软推出的一款前沿开发框架，旨在创造能够在现实世界中执行复杂任务的智能系统。相比于传统的大型语言模型（LLMs），LAMs不仅具备本生成的能力，更能……

7个月前

产品名称：Ruyi产品简介：Ruyi是图森未来科技有限公司推出的图生视频大模型，专为在消费级显卡上运行设计，支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、幅度控制和镜头控……

7个月前

Lyra是一款由香港中大学、SmartMore和香港科技大合开发的高效多模态大型语言模型（MLLM），旨在增语音、视觉和本之间的交互能力。该模型利用开源的大型模型、多模态LoRA模块和潜在……

7个月前

产品名称：LatentLM产品简介：LatentLM是微软研究院和清华大学同推出的多模态生成模型，能统一处理离散数据（如本）和连续数据（如图像、音频）。模型用变分自编码器（VAE）将连续……

7个月前

产品名称：RDT产品简介：RDT（RoboticsDiffusionTransformer）是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能在无需人类操控……

7个月前

Veo2是GoogleDeepMind最推出的一款AI视频生成模型，能够根据本或图像提示创作出高质量的视频内容。它支持高达4K分辨率的输出，能够理解镜头控制指令，并可以模拟现实中的物理现象及……

7个月前

产品名称：BochaSemanticReranker产品简介：BochaSemanticReranker是博查AI推出的语义排序模型，能提升搜索应用和RAG应用中的搜索结果准确性。BochaSemanticReranker模型基于本语义……

7个月前

产品名称：VMB产品简介：VMB（VisualsMusicBridge）是中国科学院信息工程研究所、中国科学院大学网络间安全学院、上人工智能实验室、上交通大学等机构推出的多模态音乐生成框架，能……

7个月前

1…47 484950 51…68

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐