标签:AI项目和框架

VisionFM
VisionFM通用眼科AI大模型,具备少样本多种疾病诊断能力VisionFM(伏羲慧眼)是一款先进的多模态多任务视觉基础模型,专门为通用眼科人工智能而研发。该模型通过对340万张来自560,4……
INFP
INFP音频驱动的生成逼真面部表情和头部姿态的AI框架INFP是什么INFP是一个音频驱动的头部生成框架,专门为双人对话交互而设计。该框架能够根据对话音频自动进行角色转换,无需手动分……
PromptWizard
PromptWizard微软开源的AI提示词自动化优化框架PromptWizardPromptWizard是微软推出的一款自动化提示优化框架,旨在提升大型语言模型(LLMs)在特定任务上的表现。该框架采用自我演……
RWKV-7
RWKV-7RWKV系列的最新大模型架构版本,有强大的上下文学习能力RWKV-7是一款最新的大型模型架构,超越了传统的注意力机制,拥有更加灵活的状态演化能力,能够在相同算力条件下解决以……
StyleStudio
StyleStudio文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合StyleStudio是什么StyleStudio是由西湖大学AI实验室、复旦大学、南洋理工大学与香港科技大学(广州)联……
OpenAI o3
OpenAIo3OpenAI推出的新一代最强推理模型OpenAIo3是一款新一代的推理模型,继o1之后推出,包括o3和o3-mini两个版本。o3在某些条件下的表现接近通用人工智能(AGI),在ARC-AGI基准……
Agent-S
Agent-S是什么Agent-S是一款前沿的智能代理框架,旨在通过图形用户界面(GUI)实现人机交互的高度自动化。该系统模拟人类的操作方式,通过鼠标和键盘直接与计算机进行互动,能够高……
Illuminate
Illuminate是谷歌推出的一款创新项目,旨在将学术论文转化为人工智能生成的音频讨论。借助谷歌先进的语言模型Gemini,该项目能够将学术内容转变为引人入胜的对话,使用户能够在、驾……
LabelU
LabelU是一款开源的多模态数据标注工具,专为图像、视频和音频数据的标注而设计。它支持多种标注方式,包括拉框、多边形、标点、标线以及分类和描述等,适用于目标检测、图像分类和……
微软和马里兰大学共同开源的多模态大语言模型
产品名称:Florence-VL产品简介:Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示……
1454647484968