AICAT ─ 全球3000+优质AI工具盘点,热门AI教程推荐
标签:AI项目和框架
AI工作流可视化构建器,拖放节点设计复杂工作流
产品名称:NodeTool产品简介:NodeTool是开源的AI工作流可视化构建器。NodeTool集成广泛的AI工具和模型,基于简单、可视化的界面,让用户无需编码即可快速原型设计和测试。NodeTool……
清华和腾讯同推出的图像序列着色模型
产品名称:ColorFlow产品简介:ColorFlow是清华大学和腾讯ARC实验室同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增、上下学习和超分辨率……
AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型
产品名称:Ivy-VL产品简介:Ivy-VL是AISafeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型……
开源漫画图片字翻译工具,多语言翻译无缝嵌入原图
产品名称:MangaImageTranslator产品简介:MangaImageTranslator是开源的漫画图片字翻译工具,能一键翻译漫画和图片中的字。MangaImageTranslator基于OCR技术识别本,结合机器翻译……
谷歌推出的评估大模型能力的基准测试
产品名称:FACTSGrounding产品简介:FACTSGrounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下生成事实准确且无捏造信息的本的能力。FACT……
豆包推出3D生成模型,自然语言交互实时生成3D场景图
产品名称:豆包3D生成模型产品简介:豆包3D生成模型是豆包推出的3D生成模型,属于豆包大模型家族。模型基于3D-DiT架构,能生成高质量3D模块。与火山引擎数字孪生台veOmniverse结合……
MV-Adapter:多视图一致图像生成模型的创应用与技术优势
MV-Adapter是一款多视图一致性图像生成模型,由北京航航天大学、VAST和上交通大学的研究团队联合开发。该模型能够将预训练的本到图像扩散模型转变为多视图图像生成器,而无需对原有……
豆包推出视觉理解模型,具备识别和推理能力
产品名称:豆包视觉理解模型产品简介:豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解……
微软开源的多功能、多格式档转Markdown工具
产品名称:MarkItDown产品简介:MarkItDown是微软开源的多功能档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的件转换成Markdown格式。支持OCR字识别、语音转……
Allegro
Allegro是由RhymesAI推出的一款创的本转视频生成模型,能够将简洁的字输入转化为高达720p分辨率、每秒15帧、最长6秒的高质量视频内容。该模型在视频生成域表现卓越,展现出优秀的质……