标签:AI项目和框架

OCTAVE:Hume AI语音语言模型:自然交流与情感智能的完美结合
OCTAVE是一款由HumeAI开发的先进语音与语言模型,融合了EVI2模型与OpenAI、Elevenlab、GoogleDeepmind等技术的优势。它能够根据简短的文本提示或录音生成个性化的声音特征,包括语……
OCTAVE:Hume AI语音语言模型:自然交流与情感智能的完美结合
OCTAVE是一款由HumeAI开发的先进语音与语言模型,融合了EVI2模型与OpenAI、Elevenlab、GoogleDeepmind等技术的优势。它能够根据简短的文本提示或录音生成个性化的声音特征,包括语……
InvSR:高清修复老旧照片的开源超分辨率模型提升细节与清晰度
InvSR是一款创新的图像超分辨率模型,它依托扩散模型的逆向过程,从低分辨率图像中恢复出高分辨率图像。通过利用大型预训练扩散模型所蕴含的丰富图像先验知识,InvSR显著提升了超分……
DisPose:提升动画质量的智能人物图像控制技术
DisPose是一项由北京大学、中国科学技术大学、清华大学和香港科技大学的研究团队共同开发的先进技术,旨在提升人物图像动画的质量。该技术通过从骨骼姿态和参考图像中提取有效的控……
DreamOmni
DreamOmni港中文、字节等机构共同推出的统一图像生成和编辑模型DreamOmni是什么DreamOmni是由香港中文大学、字节跳动和香港科技大合开发的一款综合图像生成与编辑模型。该模型融合……
OmniAudio-2.6B
OmniAudio-2.6BNexaAI推出的端侧多模态音频语言模型OmniAudio-2.6B是NexaAI推出的一款创新音频语言模型,专为边缘部署而设计,旨在实现快速且高效的音频文本处理。该模型拥有2.6亿……
Sketch2Sound
Sketch2SoundAdobe联合西北大学推出的AI音频生成技术Sketch2Sound是什么Sketch2Sound是一项由Adobe研究院与西北大学合作推出的先进AI音频生成技术。该技术能够根据声音模仿和文本提……
Granite 3.1
Granite3.1IBM推出的新版语言模型Granite3.1是IBM最新推出的语言模型,具备卓越的性能和更为强大的上下文处理能力。该模型系列包含四种不同的规模和两种架构:密集模型的2B和8B参数……
Midscene.js
Midscene.jsAI驱动的UI自动化测试框架Midscene.js是什么Midscene.js是一款基于人工智能技术的自动化软件开发工具包(SDK),旨在通过大型语言模型(LLM)简化用户界面(UI)自动化……
PC Agent
PCAgent上海交大联合GAIR推出的电脑智能体AI系统PCAgent是什么PCAgent是由上海交通大学与GenerativeAIResearchLab(GAIR)共同开发的一款前沿人工智能系统。该系统模拟人类的认知过程……
1313233343568