标签:AI项目和框架

AI文本到图像生成框架,提升单步扩散模型的效率和性能
产品名称:SNOOPI产品简介:SNOOPI是创新的文本到图像生成框架,基于增强单步扩散模型的指导提升模型性能和控制力。SNOOPI包括PG-SB(适当指导SwiftBrush)和NASA(负向远离转向注……
clone-voice:多语言声音克隆工具支持16种语言,实现个性化语音合成
Clone-voice是一款基于深度学习技术的开源声音克隆工具,能够高质量地分析和模拟人类声音。它支持中文、英文、日文、韩文等16种语言,用户可以将文本转化为语音,或在不同声音风格……
O1-CODER:智能编码助手O1版提升开发效率与代码质量
O1-CODER是一个由北京交通大学研究团队开发的开源项目,旨在重现OpenAI的O1模型,专注于编码任务。通过结合强化学习(RL)和蒙特卡洛树搜索(MCTS)技术,O1-CODER显著增强了模型的……
南洋理工推出的VR端3D角色扮演AI系统
产品名称:SOLAMI产品简介:SOLAMI是创新的VR端3D角色扮演AI系统,是南洋理工大学研究团队推出的。支持用户用语音和肢体语言与虚拟角色进行沉浸式互动,基于社交视觉-语言-行为模型……
英伟达推出的视觉语言大模型
产品名称:NVILA产品简介:NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统……
开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
产品名称:OOTDiffusion产品简介:OOTDiffusion是开源的AI虚拟试衣工具,能智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。OOTDiffusion支持半身和全身……
开源文本转语音工具,ChatTTS扩展版支持语音克隆
产品名称:ChatTTSPlus产品简介:ChatTTSPlus是ChatTTS的扩展版本,基于集成TensorRT加速、语音克隆和移动模型部署等先进技术,提升语音合成的性能和灵活性。在Windows平台上,能实……
书生·万象InternVL 2.5:创新驱动的多模态大语言模型提升智能交互体验
书生·万象InternVL2.5是上海AI实验室OpenGVLab团队推出的一款开源多模态大型语言模型(MLLM)系列,基于InternVL2.0进行了显著的改进,尤其是在训练、测试策略和数据质量方面。该系……
谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型
产品名称:Gemini2.0产品简介:Gemini2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini2.0Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比1.5Pro快两……
MMAudio:高质量AI音频合成的多模态联合训练技术创新
MMAudio是一项创新的音频合成技术,专注于将视频内容转化为音频,通过多模态联合训练,使模型能够在多种视听和文本数据集上进行高效学习。其核心组件是同步模块,确保生成的音频与……
1545556575868