AI项目和框架 | 第 24 页

VisionParse开源的PDF转Markdown工具VisionParse是一个开源的PDF文档转换工具，它利用视觉语言模型（VisionLLMs）将PDF文件转化为Markdown格式。该工具具备智能识别和提取PDF文件中……

6个月前

PartGen牛津大合MetaAI推出的3D对象生成和重建框架PartGen是什么PartGen是一款前沿的3D对象生成与重建框架，由牛津大学视觉几何组与MetaAI联合开发。该系统能够识别并生成由有意义……

6个月前

PeterCatAI问答机器人，自动抓取GitHub上的文档和issue作为知识库PeterCat是一款开源智能问答机器人助手，旨在帮助开发者和社区维护者更高效地解决技术问题，从而提升社区的支持效……

6个月前

video-analyzerAI视频分析工具，提取视频关键帧、生成视频详细描述video-analyzer是什么video-analyzer是一款开源的视频分析工具，结合了Llama的11B视觉模型与OpenAI的Whisper模型……

6个月前

EDTalk上海交大联合网易推出高效解耦的情感说话头像合成模型EDTalk是什么EDTalk是由上海交通大学与网易共同研发的一种音频驱动唇部同步模型。该技术能够控制嘴型、头部姿态和情感表……

6个月前

VE-Bench北京大学开源首个针对视频编辑质量评估的新指标VE-Bench是什么VE-Bench是由北京大学的研究团队MMCAL最新推出的首个专门针对视频编辑质量评估的指标。其设计目标是与人类的……

6个月前

DynamicControl腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架DynamicControl是什么DynamicControl是腾讯优图与南洋理工大学、浙江大学等研究机构联合开发的一种新型……

6个月前

琅琊中国科学院海洋研究所自主研发的海洋大模型1.0版本琅琊是中国科学院海洋研究所自主研发的海洋人工智能大模型1.0版本，专注于全球海洋状态变量的精准预报。该模型融合了先进的人……

6个月前

MindGPT-3o理想汽车推出的多模态端到端大模型MindGPT-3o是什么MindGPT-3o是理想汽车推出的一款先进的多模态端到端大模型，融合了语音、视觉和语言理解等技术，旨在实现高效和实时的……

6个月前

Qwen-Agent阿里通义开源的Agent应用开发框架Qwen-Agent是什么Qwen-Agent是一个开源的智能代理开发框架，基于通义千问模型（Qwen）构建。该框架使开发者能够利用Qwen模型的指令遵循……

6个月前

1…22 232425 26…68

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐