Voxtral TTS – Mistral AI开源的文本转语音模型
Voxtral TTS是什么 Voxtral TTS 是 Mistral AI开源的文本转语音模型,基于 40 亿参数架构,支持 9 种语言。模型具备 90 毫秒超低延迟和 6 倍实时生成速度,仅需 ...
Gemini 3.1 Flash Live – 谷歌推出的实时语音模型
Gemini 3.1 Flash Live是什么 Gemini 3.1 Flash Live是Google最新推出的高质量实时语音模型,专为自然流畅的对话交互设计。模型在语调理解、推理能力和响应速度上...
Suno v5.5 – Suno推出的 AI 音乐生成模型
Suno v5.5是什么 Suno V5.5 是Suno推出的 AI 音乐生成模型,标志着从”生成即完成”向”精细化制作”的重大转型。模型新增 Voices 声音定制、Custom Models 自定...
Sand.ai – AI视频生成平台,一键直出完整视频
Sand.ai是什么 Sand.ai(北京三呆科技)是AI视频生成平台。平台专注自回归世界模型技术路线,现已开源150亿参数音视频模型daVinci-MagiHuman、分布式训练组件MagiAtte...
SClaw – 超算互联网推出的科研专属 AI Agent
SClaw 是什么 SClaw 是超算互联网推出的科研专属 AI Agent(智能体),是基于 OpenClaw 打造、深度集成于 SCNet 客户端。产品支持「对话即指令」的自然交互,无需配置环境即...
LongCat-Next – 美团 LongCat 推出的多模态模型
LongCat-Next是什么 LongCat-Next是美团LongCat推出的多模态模型,核心创新是LoZA稀疏注意力机制。模型通过智能筛查模块重要性,将50%低重要模块替换为流式稀疏注意力,形成...
daVinci-MagiHuman – Sand.ai等开源的音视频生成模型
daVinci-MagiHuman是什么 daVinci-MagiHuman 是上海创智学院 GAIR 实验室与 Sand.ai 联合开源的音视频联合生成基座模型。模型采用 150 亿参数的单流 Tr...
TurboQuant – 谷歌推出的向量量化算法
TurboQuant是什么 TurboQuant 是 Google Research 推出的向量量化算法,可将大模型 KV Cache 从 32-bit 压缩至 3-bit,实现内存降低 6 倍、推理...
Lyria 3 Pro – 谷歌推出的 AI 音乐生成模型
Lyria 3 Pro是什么 Lyria 3 Pro 是谷歌推出的 AI 音乐生成模型,支持创作最长 3 分钟的完整音轨,具备结构感知能力,可精准处理前奏、主歌、副歌、桥段等编曲要素。模型已集成至 G...
DataChef – 上海AI Lab联合复旦开源的AI数据配方生成模型
DataChef是什么 DataChef是上海人工智能实验室与复旦大学联合开源的AI数据配方生成模型。模型通过强化学习自动生成大模型适配任务的完整数据处理流水线,包括数据选择、清洗、合成、配比等步骤的...