Protenix-v1 – 字节Seed团队开源的生物分子结构预测模型

AI工具集2小时前发布 商道网
58 0 0

 Protenix-v1是什么

Protenix-v1 是字节跳动 Seed 团队开源的生物分子结构预测模型,是首个在严格对齐 AlphaFold 3 数据截止日(2021-09-30)、模型规模和推理预算条件下,性能达到甚至超越 AF3 的完全开源模型。模型复现了 AF3 的 Inference-Time Scaling 能力,增加采样预算可带来对数线性性能提升,抗体-抗原预测 DockQ 成功率可从 36% 提升至 47.68%。模型采用双版本策略:标准版用于学术公平比较,数据扩展版(2025-06-30)面向实际药物发现场景。模型同时支持蛋白质模板、RNA MSA 等新功能,配套推出评估工具包 PXMeter 解决基准测试混乱问题。

Protenix-v1 – 字节Seed团队开源的生物分子结构预测模型

 Protenix-v1的主要功能

  • 复合物结构预测:支持蛋白质-蛋白质、抗体-抗原、蛋白质-核酸、蛋白质-小分子等多类生物分子复合物的高精度三维结构预测。
  • RNA MSA 支持:集成 RNA 多序列比对功能,能捕获 RNA 进化保守性和二级结构特征,显著提升蛋白质-RNA 复合物预测准确性。
  • 模板信息整合:引入已知蛋白质结构模板,通过同源信息增强预测可靠性,同时稳定模型训练过程的收敛性。
  • 推理时扩展能力:支持通过增加采样种子数量实现性能提升,用户可在计算成本与预测精度之间灵活权衡,特别适用于高难度对接任务。
  • 物理约束引入:提供原子级接触约束和结合口袋约束功能,允许融入先验实验数据或物理知识指导结构生成。
  • 双版本模型策略:同时发布学术对标版本(数据截止 2021-09-30)和应用优化版本(数据截止 2025-06-30),兼顾公平比较与实战需求。

Protenix-v1的技术原理

  • 基础架构:基于 AlphaFold 3 的端到端扩散架构,包含 MSA 编码器、Pairformer 关系建模模块和扩散生成模块,通过迭代去噪过程直接输出原子坐标。
  • Inference-Time Scaling:核心创新在于复现了 AF3 的推理时扩展特性,通过并行采样数百个候选结构并结合打分函数筛选最优解,使抗体-抗原等柔性对接任务的预测成功率随计算投入呈对数线性增长。
  • 模板集成机制:采用 Kalign 等工具搜索同源模板,将模板特征注入 Pairformer 的 pair representation,提升对保守折叠家族的识别能力和缓解早期训练阶段的不稳定性。
  • RNA 特征工程:扩展 MSA 模块以支持 RNA 序列比对,编码核苷酸进化信息和共变信号,弥补传统蛋白质-centric 模型在核酸相互作用建模上的不足。
  • 轻量化设计(Protenix-Mini):通过线性注意力机制降低计算复杂度,引入蛋白质语言模型实现单序列推理,消除 MSA 数据库检索开销,适用大规模虚拟筛选场景。

Protenix-v1的项目地址

  • GitHub仓库:https://github.com/bytedance/Protenix
  • 技术论文:https://github.com/bytedance/Protenix/blob/main/docs/PTX_V1_Technical_Report_202602042356.pdf

Protenix-v1的应用场景

  • 药物发现与开发:抗体-抗原复合物预测是 Protenix-v1 的核心优势场景,推理时扩展能力可显著提升高难度免疫治疗靶点的结构建模精度,为抗体工程和表位设计提供可靠基础。
  • 蛋白质设计:通过约束功能指定结合口袋和关键接触残基,指导理性设计高亲和力分子;Protenix-Mini 系列可用于快速筛选海量候选序列。
  • 结构生物学研究:为实验结构生物学提供预测模型,辅助解析低分辨率晶体结构或冷冻电镜密度图,减少实验试错成本,加速靶点结构表征。
  • RNA 相关研究:蛋白质-RNA 复合物预测功能适用 RNA 干扰、CRISPR 系统、RNA 药物递送等前沿领域,弥补传统工具在核酸-蛋白相互作用建模上的不足。
  • 大规模虚拟筛选:轻量化 Mini 版本支持高通量对接评估,可在药物发现早期阶段快速过滤化合物库或蛋白质变体,与全精度模型形成”粗筛-精修”组合工作流。
© 版权声明

相关文章