AI项目和框架 | 第 67 页

MagicCopy是一款开源的AI抠图工具，兼容Chrome浏览器扩展，基于Meta的SegmentAnythingModel技术，能够自动识别并提取图像中的前景对象，并将其复制到用户的剪贴板。这款工具大大简……

11个月前

Agent-E是一款基于AutoGen代理框架的智能自动化系统，专注于浏览器内的操作自动化。它利用自然语言交互技术，能够执行表单填写、电子商务产品搜索与排序、定位网页内容、管理网络媒……

11个月前

GenerativeOmnimatte是一种由GoogleDeepMind等机构开发的先进视频编辑技术，能够将视频智能化地分解为多个透明背景的RGBA图层。每个图层都对应一个独立物体及其相关效果（如阴影和……

11个月前

Voice-Pro是一款开源的全能音频处理工具，具备语音转文字（STT）、文本转语音（TTS）、实时翻译、YouTube视频下载和人声分离等多种强大功能。它支持超过100种语言，适用于教育、娱……

11个月前

CodeDPO是一款由北京大学与字节跳动携手推出的代码生成优化框架，旨在提高代码模型在准确性和效率方面的表现。该框架利用自生成与验证机制，构建和评估代码及其相应的测试用例，通……

11个月前

TryOffDiff（VTOFF）是一种创新的虚拟试穿技术，基于先进的扩散模型，实现了高保真服装重建，旨在从单张穿着者照片生成标准化的服装图像。与传统的虚拟试穿技术不同，TryOffDiff专……

11个月前

GLM-PC是一款由智谱科技研发的先进通用Agent，基于CogAgent视觉多模态模型，旨在模拟人类操作计算机，实现“无人驾驶”PC的技术创新。它能够自主执行多种任务，包括安排会议、处理文……

11个月前

FlagEvalMM是北京智源人工智能研究院推出的开源多模态模型评测框架，旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和评估指标，通过将评测与模型推理过程……

11个月前

GLM-Edge是一系列优化的大语言对话模型及多模态理解模型，专为端侧部署而设计。该系列包含多款模型：GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。其中，……

11个月前

MultiFoley是一款由AdobeResearch和密歇根大学联合开发的音效生成系统，能够通过多模态的文本、音频和视频输入，生成高质量的Foley声音效果。该系统允许用户根据文本提示、参考音频……

11个月前

1…65 666768

AICAT ─ 全球3000+优质AI工具盘点，热门AI教程推荐