标签:AI项目和框架

Vision Parse
VisionParse开源的PDF转Markdown工具VisionParse是一个开源的PDF文档转换工具,它利用视觉语言模型(VisionLLMs)将PDF文件转化为Markdown格式。该工具具备智能识别和提取PDF文件中……
PartGen
PartGen牛津大合MetaAI推出的3D对象生成和重建框架PartGen是什么PartGen是一款前沿的3D对象生成与重建框架,由牛津大学视觉几何组与MetaAI联合开发。该系统能够识别并生成由有意义……
PeterCat
PeterCatAI问答机器人,自动抓取GitHub上的文档和issue作为知识库PeterCat是一款开源智能问答机器人助手,旨在帮助开发者和社区维护者更高效地解决技术问题,从而提升社区的支持效……
video-analyzer
video-analyzerAI视频分析工具,提取视频关键帧、生成视频详细描述video-analyzer是什么video-analyzer是一款开源的视频分析工具,结合了Llama的11B视觉模型与OpenAI的Whisper模型……
EDTalk
EDTalk上海交大联合网易推出高效解耦的情感说话头像合成模型EDTalk是什么EDTalk是由上海交通大学与网易共同研发的一种音频驱动唇部同步模型。该技术能够控制嘴型、头部姿态和情感表……
VE-Bench
VE-Bench北京大学开源首个针对视频编辑质量评估的新指标VE-Bench是什么VE-Bench是由北京大学的研究团队MMCAL最新推出的首个专门针对视频编辑质量评估的指标。其设计目标是与人类的……
DynamicControl
DynamicControl腾讯优图联合南洋理工等机构推出的动态条件控制图像生成新框架DynamicControl是什么DynamicControl是腾讯优图与南洋理工大学、浙江大学等研究机构联合开发的一种新型……
琅琊
琅琊中国科学院海洋研究所自主研发的海洋大模型1.0版本琅琊是中国科学院海洋研究所自主研发的海洋人工智能大模型1.0版本,专注于全球海洋状态变量的精准预报。该模型融合了先进的人……
Mind GPT-3o
MindGPT-3o理想汽车推出的多模态端到端大模型MindGPT-3o是什么MindGPT-3o是理想汽车推出的一款先进的多模态端到端大模型,融合了语音、视觉和语言理解等技术,旨在实现高效和实时的……
Qwen-Agent
Qwen-Agent阿里通义开源的Agent应用开发框架Qwen-Agent是什么Qwen-Agent是一个开源的智能代理开发框架,基于通义千问模型(Qwen)构建。该框架使开发者能够利用Qwen模型的指令遵循……
1222324252668