标签:AI项目和框架

Apollo:Meta与斯坦福大学携手推出创多模态模型,实现图像与本的深度融合与理解
Apollo是Meta与斯坦福大合推出的一款大型多模态模型(LMMs),专注于提升视频理解能力。该项目通过系统研究揭示了视频理解在LMMs中的关键驱动因素,提出了“ScalingConsistency”现象……
Meta 开源的图像生成框架,精确控制人物的外观和姿势
产品名称:Leffa产品简介:Leffa(LearningFlowFieldsinAttention)是MetaAI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基……
Large Action Models:微软行动大模型开发框架助力高效智能应用构建与部署
LargeActionModels(LAMs)是微软推出的一款前沿开发框架,旨在创造能够在现实世界中执行复杂任务的智能系统。相比于传统的大型语言模型(LLMs),LAMs不仅具备本生成的能力,更能……
图森未来推出的图生视频大模型
产品名称:Ruyi产品简介:Ruyi是图森未来科技有限公司推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、幅度控制和镜头控……
Lyra:提升多模态交互体验的SmartMore创解决方案
Lyra是一款由香港中大学、SmartMore和香港科技大合开发的高效多模态大型语言模型(MLLM),旨在增语音、视觉和本之间的交互能力。该模型利用开源的大型模型、多模态LoRA模块和潜在……
微软联合清华推出的多模态生成模型
产品名称:LatentLM产品简介:LatentLM是微软研究院和清华大学同推出的多模态生成模型,能统一处理离散数据(如本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将连续……
清华开源的双臂机器人扩散基础模型
产品名称:RDT产品简介:RDT(RoboticsDiffusionTransformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类操控……
Veo 2:高分辨率4K视频生成的先进AI模型,助力创意无限
Veo2是GoogleDeepMind最推出的一款AI视频生成模型,能够根据本或图像提示创作出高质量的视频内容。它支持高达4K分辨率的输出,能够理解镜头控制指令,并可以模拟现实中的物理现象及……
博查推出的语义排序模型
产品名称:BochaSemanticReranker产品简介:BochaSemanticReranker是博查AI推出的语义排序模型,能提升搜索应用和RAG应用中的搜索结果准确性。BochaSemanticReranker模型基于本语义……
中科院联合多所高校机构推出增多模态音乐生成的框架
产品名称:VMB产品简介:VMB(VisualsMusicBridge)是中国科学院信息工程研究所、中国科学院大学网络间安全学院、上人工智能实验室、上交通大学等机构推出的多模态音乐生成框架,能……
1474849505168