AICAT ─ 全球3000+优质AI工具盘点,热门AI教程推荐
标签:AI项目和框架
Magic Copy:智能浏览器抠图工具自动识别图像轻松实现抠图功能
MagicCopy是一款开源的AI抠图工具,兼容Chrome浏览器扩展,基于Meta的SegmentAnythingModel技术,能够自动识别并提取图像中的前景对象,并将其复制到用户的剪贴板。这款工具大大简……
Agent-E:智能化网页操作助手提升浏览效率与用户体验
Agent-E是一款基于AutoGen代理框架的智能自动化系统,专注于浏览器内的操作自动化。它利用自然语言交互技术,能够执行表单填写、电子商务产品搜索与排序、定位网页内容、管理网络媒……
Generative Omnimatte:创新视频分解技术实现精准图像分离与增强
GenerativeOmnimatte是一种由GoogleDeepMind等机构开发的先进视频编辑技术,能够将视频智能化地分解为多个透明背景的RGBA图层。每个图层都对应一个独立物体及其相关效果(如阴影和……
Voice-Pro:一站式音频处理解决方案集转录翻译与语音合成于一体
Voice-Pro是一款开源的全能音频处理工具,具备语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种强大功能。它支持超过100种语言,适用于教育、娱……
CodeDPO:北京大学与字节联手打造的智能代码生成与优化解决方案
CodeDPO是一款由北京大学与字节跳动携手推出的代码生成优化框架,旨在提高代码模型在准确性和效率方面的表现。该框架利用自生成与验证机制,构建和评估代码及其相应的测试用例,通……
TryOffDiff:智能虚拟试穿技术打造个性化标准化服装图像
TryOffDiff(VTOFF)是一种创新的虚拟试穿技术,基于先进的扩散模型,实现了高保真服装重建,旨在从单张穿着者照片生成标准化的服装图像。与传统的虚拟试穿技术不同,TryOffDiff专……
GLM-PC:智谱CogAgent驱动的智能视觉助手,赋能创新与效率提升
GLM-PC是一款由智谱科技研发的先进通用Agent,基于CogAgent视觉多模态模型,旨在模拟人类操作计算机,实现“无人驾驶”PC的技术创新。它能够自主执行多种任务,包括安排会议、处理文……
FlagevalMM:智源多模态模型评测框架的创新特性与应用潜力
FlagEvalMM是北京智源人工智能研究院推出的开源多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和评估指标,通过将评测与模型推理过程……
GLM-Edge:智谱端侧大语言与多模态模型的创新应用与优势分析
GLM-Edge是一系列优化的大语言对话模型及多模态理解模型,专为端侧部署而设计。该系列包含多款模型:GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B。其中,……
MultiFoley:创新音效生成系统助力创作者实现无限灵感
MultiFoley是一款由AdobeResearch和密歇根大学联合开发的音效生成系统,能够通过多模态的文本、音频和视频输入,生成高质量的Foley声音效果。该系统允许用户根据文本提示、参考音频……