GlodChain

帅气的我简直无法用语言描述!

LongCat-AudioDiT – 美团开源的文本转语音模型

LongCat-AudioDiT是什么 LongCat-AudioDiT 是美团开源的高保真扩散式文本转语音(TTS)模型,核心创新在于直接在波形潜空间进行扩散生成,非传统梅尔频谱等中间表示,有效避免...
3周前
630

harrier-oss-v1 – 微软开源的多语言文本嵌入模型

harrier-oss-v1是什么 harrier-oss-v1 是微软开源的多语言文本嵌入模型,在 Multilingual MTEB v2 基准测试中取得 SOTA 成绩。模型采用仅解码器架构,通...
3周前
730

ColaMD – 开源 Markdown 编辑器,实时同步修改内容

ColaMD是什么 ColaMD 是开源的 Markdown 编辑器。工具解决了传统编辑器在 AI 修改文件后需手动刷新才能看到更新的痛点,实现 Agent 后台修改与前台内容的实时同步,如同观看 A...
3周前
680

wecom-cli – 企业微信官方开源的命令行工具

wecom-cli 是什么 wecom-cli(企业微信 CLI) 是企业微信官方团队开源的命令行工具,让人类和 AI Agent 能在终端中操作企业微信。工具覆盖通讯录、待办、会议、消息、日程、文档...
3周前
560

Multi-Shot – Runway 推出的 AI 视频生成应用

Multi-Shot是什么 Multi-Shot 是 Runway 推出的 AI 视频生成应用,支持实现”一键成片”。用户只需输入场景描述,系统自动拆解为最多5个连贯镜头,同步完成构图、运镜、对话、音...
3周前
880

Pretext – 开源 AI 前端开发工具,解决中文字布局性能瓶颈

Pretext是什么 Pretext 是前 React 核心成员 Cheng Lou 开源的,纯 JavaScript/TypeScript 的多行文本测量与布局库,用于纯算术方式精确测量多行文本尺寸...
3周前
710

Qwen3.5-Omni – 阿里通义推出的全模态大模型

Qwen3.5-Omni 是什么 Qwen3.5-Omni 是阿里通义实验室推出的全模态大模型,可同时理解文本、图像、音频及音视频输入。模型采用Thinker-Talker分工架构与Hybrid-Mo...
4周前
660

PixVerse V6 – 爱诗科技推出的最新 AI 视频生成模型

PixVerse V6是什么 PixVerse V6 是爱诗科技推出的最新 AI 视频生成模型。模型在镜头控制、角色表现和多镜头音视频生成方面实现突破,运镜更精准,角色情绪跨帧连贯,物理交互更真实,生...
4周前
690

Pretext – 开源 AI 前端开发工具,解决中文字布局性能瓶颈

Pretext是什么 Pretext 是前 React 核心成员 Cheng Lou 开源的,纯 JavaScript/TypeScript 的多行文本测量与布局库,用于纯算术方式精确测量多行文本尺寸...
4周前
640

Multi-Shot – Runway 推出的 AI 视频生成应用

Multi-Shot是什么 Multi-Shot 是 Runway 推出的 AI 视频生成应用,支持实现”一键成片”。用户只需输入场景描述,系统自动拆解为最多5个连贯镜头,同步完成构图、运镜、对话、音...
4周前
630