标签:AI项目和框架

清华和腾讯共同推出的图像序列着色模型
产品名称:ColorFlow产品简介:ColorFlow是清华大学和腾讯ARC实验室共同推出的图像序列着色模型,能精细化地保持图像序列中个体身份的同时进行着色。基于检索增强、上下文学习和超……
AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型
产品名称:Ivy-VL产品简介:Ivy-VL是AISafeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型……
开源漫画图片文字翻译工具,多语言翻译无缝嵌入原图
产品名称:MangaImageTranslator产品简介:MangaImageTranslator是开源的漫画图片文字翻译工具,能一键翻译漫画和图片中的文字。MangaImageTranslator基于OCR技术识别文本,结合机……
谷歌推出的评估大模型能力的基准测试
产品名称:FACTSGrounding产品简介:FACTSGrounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。……
MV-Adapter:多视图一致图像生成模型的创新应用与技术优势
MV-Adapter是一款多视图一致性图像生成模型,由北京航空航天大学、VAST和上海交通大学的研究团队联合开发。该模型能够将预训练的文本到图像扩散模型转变为多视图图像生成器,而无需……
豆包推出3D生成模型,自然语言交互实时生成3D场景图
产品名称:豆包3D生成模型产品简介:豆包3D生成模型是豆包推出的3D生成模型,属于豆包大模型家族。模型基于3D-DiT架构,能生成高质量3D模块。与火山引擎数字孪生平台veOmniverse结……
豆包推出视觉理解模型,具备识别和推理能力
产品名称:豆包视觉理解模型产品简介:豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解……
微软开源的多功能、多格式文档转Markdown工具
产品名称:MarkItDown产品简介:MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、……
WeaveFox:蚂蚁团队出品,根据设计图直接生成源代码
WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,且……
BrushEdit:智能指令驱动的图像编辑与修复框架全面提升创作效率与质量
BrushEdit是腾讯与北京大学等多家机构联合开发的一款前沿图像编辑框架,作为BrushNet模型的高级版本,它结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,支持基于指令的图……
1414243444568