AICAT ─ 全球3000+优质AI工具盘点,热门AI教程推荐
标签:AI项目和框架
开源的实时多模态 AI 代理框架
产品名称:TENAgent产品简介:TENAgent是集成OpenAIRealtimeAPI和RTC技术的开源实时多模态AI代理框架。TENAgent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低……
FLOAT:音频驱动的流匹配技术实现动态说话人头像生成
FLOAT是一款由DeepBrainAI与韩国先进科技研究院合作开发的音频驱动说话人头像生成模型。该模型运用了流匹配生成技术,通过学习运动潜在空间来实现高效的时间一致性运动设计。FLOAT……
谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物
产品名称:ProjectMariner产品简介:ProjectMariner是谷歌DeepMind推出的浏览器助手。ProjectMariner基于Gemini2.0技术,用Chrome扩展程序实现浏览器自动化,理解和执行网页任务。P……
Ultravox:智能多模态助手实现文本与语音的无缝理解
Ultravox是一款创新的多模态大型语言模型(LLM),能够直接理解文本和人类语音,而无需依赖独立的自动语音识别(ASR)阶段。通过多模态投影器技术,Ultravox将音频数据转化为高维空……
Llama-3.1-Minitron
Llama-3.1-Minitron是一种由英伟达与Meta携手开发的先进AI模型,旨在通过剪枝和知识蒸馏技术将Llama3.18B模型精简为更小巧的4B参数模型。这一优化过程显著降低了模型的体积和复杂性……
DeepSeek V2.5 的最终版微调模型,支持联网搜索
产品名称:DeepSeek-V2.5-1210产品简介:DeepSeek-V2.5-1210是DeepSeek推出的DeepSeekV2系列收官AI模型,DeepSeekV2.5的最终版微调模型。模型基于Post-Training迭代,在数学、编程……
构建视频智能体AI框架,用自然语言执行搜索、总结等复杂视频任务
产品名称:Director产品简介:Director是构建视频智能体的框架,用户能用自然语言命令执行复杂的视频任务,如视频搜索、编辑、合成和生成,并能即时流式传输结果。基于VideoDB的“视……
上海大学联合腾讯等高校推出的3D服装生成技术
产品名称:ClotheDreamer产品简介:ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术,能根据文本描述生成高保真、可穿戴的3D服装资产。……
中科院联合美团推出的交互式驾驶世界模型数据集
产品名称:DrivingDojo产品简介:DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频……
EXAONE 3.5:LG推出的开源AI模型助力精准长文本处理与幻觉问题减少
EXAONE3.5是一款由LGAI研究院推出的开源人工智能模型,提供24亿、78亿和320亿参数的三个版本,专注于长文本处理并在多个基准测试中表现出色。该模型采用了检索增强生成技术和多步推……