标签:AI项目和框架

Excalidraw:实时协作的手绘风格在线白板工具
Excalidraw是什么Excalidraw是一款开源的在线绘图工具,以其独特的手绘风格和大的实时协作功能而闻名。该工具无需安装,可以直接在浏览器中使用,支持多人同时在同一画布上进行编辑……
PyVideoTrans
PyVideoTrans是一个开源的视频翻译与配音工具,旨在将视频内容从一种语言自动转换为另一种语言,同时附加相应的字幕和配音。该工具支持多种语言,具备高效的语音识别和精准的文本翻……
PearAI
PearAI是一款开源的AI驱动代码编辑器,基于VisualStudioCode(VSCode)平台开发。通过集成先进的AI技术,PearAI显著降低了开发者的编程负担,并提升了工作效率。用户可以与代码库进行……
kimi推出的 k1 系列强化学习模型
产品名称:k1视觉思考模型产品简介:k1视觉思考模型是kimi推出的k1系列强化学习AI模型,原生支持端到端图像理解和思维链技术,将能力扩展到数学之外的更多基础科学领域。k1模型在图……
Snap联合港科大等机构推出的移动端文生图模型
产品名称:SnapGen产品简介:SnapGen是SnapInc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(10241024像素)的图像,且……
西工大联合微软和香港大学推出的说唱乐生成模型
产品名称:Freestyler产品简介:Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模……
无需微调的推理框架,提升扩散模型生成能力首次实现8K分辨率图像
产品名称:FreeScale产品简介:FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架,提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基于处理和……
无问芯穹开源的端侧全模态理解模型
产品名称:Megrez-3B-Omni产品简介:Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现……
阿里开源的语音生成大模型
产品名称:CosyVoice2.0产品简介:CosyVoice2.0是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推……
巨人网络推出的有声游戏生成大模型
产品名称:千影QianYing产品简介:千影QianYing是巨人网络推出的有声游戏生成大模型,包含游戏视频生成大模型YingGame和视频配音大模型YingSound。YingGame面向开放世界游戏,是巨……
1495051525368