Fun-Audio-Chat – 阿里通义开源的端到端语音交互模型 Fun-Audio-Chat是什么 Fun-Audio-Chat是阿里云通义百聆团队开源的新一代端到端语音交互模型,具备语音理解、情感感知和任务执行能力。模型采用双分辨率设计,通过5Hz和25Hz帧率... AI工具集# 阿里云通义 2个月前580
MedASR – 谷歌开源的医疗语音识别模型 MedASR是什么 MedASR 是 Google 推出的专注于医学领域的语音识别模型,基于 Conformer 架构,拥有 105M 参数。模型通过大量医学语音数据(约 5000 小时)进行预训练... AI工具集# MedASR 2个月前840
TurboDiffusion – 清华大学等推出的视频生成加速框架 TurboDiffusion是什么 TurboDiffusion 是清华大学、生数科技和加州大学伯克利分校联合推出的视频生成加速框架。框架通过 SageAttention、SLA(稀疏线性注意力)和 ... AI工具集# TurboDiffusion 2个月前590
Seed Prover 1.5 – 字节跳动推出的新一代数学推理模型 Seed Prover 1.5是什么 Seed Prover 1.5 是字节跳动 Seed 团队推出的新一代形式化数学推理模型。模型采用创新的 Agentic Prover 架构,通过大规模强化学习... AI工具集# Seed Prover 2个月前760
opcode – 为Claude Code打造的开源桌面图形界面工具 opcode是什么 opcode 是为Claude Code 打造的开源桌面图形界面工具,支持将复杂的命令行操作转化为直观的可视化体验,极大提升用户体验。通过 opcode,用户能更便捷地管理项目和会... AI工具集# opcode 2个月前580
Replymer – AI产品营销工具,用自然真实的方式推广产品 Replymer是什么 Replymer 是通过真实人类撰写的回复推广产品的工具。工具能帮助品牌在 Reddit、X(Twitter)和 LinkedIn 等社交平台上找到合适的对话场景,用自然、真实... AI工具集# Replymer 2个月前550
QuantiPhy – 李飞飞团队推出的VLM物理推理量化评估基准 QuantiPhy是什么 QuantiPhy 是斯坦福大学李飞飞团队推出的首个量化评估视觉 – 语言模型(VLM)物理推理能力的基准。QuantiPhy 通过 3300 多个视频 – 文本实例,要求模... AI工具集# QuantiPhy 2个月前750
Aident AI – AI自动化编辑工具,自然语言构建工作流 Aident AI是什么 Aident AI 是AI自动化工具编辑工具,支持通过自然语言描述构建自动化流程,无需复杂编程或图形化操作。用户用日常语言表达需求,Aident AI 能快速生成可运行的自动... AI工具集# Aident AI 2个月前590
Stickerbox – AI创意贴纸打印机,语音交互生成贴纸 Stickerbox是什么 Stickerbox是专为儿童设计的AI驱动创意贴纸打印机,将孩子的想象力瞬间转化为可触摸的实体艺术品。采用语音交互方式,孩子只需开口描述想法(如“一只骑滑板的恐龙”),设... AI工具集# Stickerbox 2个月前790
Infographic – 阿里AntV团队开源的信息图生成框架 Infographic是什么 Infographic 是阿里前端 AntV 团队开源的新一代信息图框架。框架基于 G2 可视化引擎和 Ant Design,能快速生成高质量、稳定的信息图。Infogr... AI工具集# Infographic 2个月前780