标签:AI项目和框架

Apollo:Meta与斯坦福大学携手推出创新多模态模型,实现图像与文本的深度融合与理解
Apollo是Meta与斯坦福大合推出的一款大型多模态模型(LMMs),专注于提升视频理解能力。该项目通过系统研究揭示了视频理解在LMMs中的关键驱动因素,提出了“ScalingConsistency”现象……
Meta 开源的图像生成框架,精确控制人物的外观和姿势
产品名称:Leffa产品简介:Leffa(LearningFlowFieldsinAttention)是MetaAI推出的用在可控人物图像生成框架,基于在注意力机制中引入流场学习,精确控制人物的外观和姿势。Leffa基……
Large Action Models:微软行动大模型开发框架助力高效智能应用构建与部署
LargeActionModels(LAMs)是微软推出的一款前沿开发框架,旨在创造能够在现实世界中执行复杂任务的智能系统。相比于传统的大型语言模型(LLMs),LAMs不仅具备文本生成的能力,更……
图森未来推出的图生视频大模型
产品名称:Ruyi产品简介:Ruyi是图森未来科技有限公司推出的图生视频大模型,专为在消费级显卡上运行设计,支持多分辨率、多时长视频生成,具备首帧、首尾帧控制、幅度控制和镜头控……
Lyra:提升多模态交互体验的SmartMore创新解决方案
Lyra是一款由香港中文大学、SmartMore和香港科技大合开发的高效多模态大型语言模型(MLLM),旨在增强语音、视觉和文本之间的交互能力。该模型利用开源的大型模型、多模态LoRA模块……
微软联合清华推出的多模态生成模型
产品名称:LatentLM产品简介:LatentLM是微软研究院和清华大学共同推出的多模态生成模型,能统一处理离散数据(如文本)和连续数据(如图像、音频)。模型用变分自编码器(VAE)将……
中科院联合多所高校机构推出增强多模态音乐生成的框架
产品名称:VMB产品简介:VMB(VisualsMusicBridge)是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框……
AI工作流可视化构建器,拖放节点设计复杂工作流
产品名称:NodeTool产品简介:NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool……
PromptWizard
PromptWizard微软开源的AI提示词自动化优化框架PromptWizardPromptWizard是微软推出的一款自动化提示优化框架,旨在提升大型语言模型(LLMs)在特定任务上的表现。该框架采用自我演……
RWKV-7
RWKV-7RWKV系列的最新大模型架构版本,有强大的上下文学习能力RWKV-7是一款最新的大型模型架构,超越了传统的注意力机制,拥有更加灵活的状态演化能力,能够在相同算力条件下解决以……
1424344454668