故事起源:一场跨越40亿年的对话

在广东人民出版社2025年再版的《控制论与科学方法论》扉页上,金观涛和华国凡两位学者在40年前写下的序言被重新标红:”人工智能的认知混乱,源自控制论思想本身。” 这句穿越时空的警示,在2025年10月15日被一篇名为《Odyssey》的论文重新点燃。

当我们在厨房切菜时,会自然地将番茄切成方块而不会切成三角形,这种”直觉物理”让人类在复杂环境中游刃有余。但对于设计新型酶分子来说,这种直觉却像隔着毛玻璃观察世界——直到Anthrogen公司的科学家们,用1020亿参数的AI模型搭起一座从数字到生命的桥梁。

第一章:为什么是”他们”研究”这个”?

2024年夏天,当AlphaFold3在《自然》杂志发表预测蛋白质折叠新方法时,Anthrogen实验室的首席架构师Ankit Singhal正盯着显微镜下的酵母菌培养皿发愁。这个曾参与过AlphaFold早期开发团队的技术主管发现:所有现有蛋白质AI都像拿着放大镜观察宇宙——他们能看清单个原子,但看不到分子宇宙的运行规律。

“就像人类语言需要语法,蛋白质也需要自己的’分子语法’。”Singhal在团队周会上用咖啡渍在白板上画出这个比喻,”但现有模型都照搬了NLP的’注意力机制’,就像用英语语法去解释中文成语。”

这个发现并非偶然。团队成员中有结构生物学家Michael Lin,他曾参与过新冠疫苗的刺突蛋白设计;有计算化学家Connor Lee,他开发的分子动力学模拟软件被全球300家药企使用。当这帮”跨界狂人”发现现有AI在处理蛋白质时的根本缺陷时,一个疯狂的想法诞生了。

第二章:蛋白质宇宙的”导航仪”

2.1 传统AI的”近视”危机

想象你正在玩拼图游戏,传统AI就像拿着每块拼图的说明书在拼接。但当拼图数量超过1万亿块(相当于人体所有蛋白质的总量),说明书反而成了累赘。更糟糕的是,蛋白质拼图有个特殊规则:相邻的拼图块必须互相”认可”

现有模型用的”注意力机制”就像让每个拼图块和所有其他块”开会讨论”,1000块拼图就要开1000²次会,计算量爆炸式增长。更要命的是,这种机制忽略了蛋白质最本质的特性:局部协同性——就像珍珠项链上,相邻的珍珠会互相影响位置,但远处的珍珠不会直接对话。

2.2 “邻居协商”机制:给AI装上生物直觉

Odyssey团队提出的”共识机制”堪称天才设计。就像社区自治:

  1. 每个氨基酸残基只和周围±w个邻居”协商”(窗口机制)
  2. 通过矩阵运算计算”协商权重”(比如硫原子多的区域更关注氧化反应)
  3. 分多次迭代达成”局部共识”

用个形象的比喻:传统注意力机制像召开联合国大会,每个国家都要发言;共识机制像社区议事会,住在隔壁的几户人家先达成共识,再逐步推广到整个社区。

更厉害的是,这种机制的计算复杂度是线性的(O(L)),而传统注意力是平方级(O(L²))。就像把邮寄1万封信从需要1亿次计算降低到1万次。

2.3 有限标量量化器:给原子“上户口”

蛋白质结构数据就像3D电影,每个原子都有xyz坐标。但传统AI处理这些连续数据就像用像素点画油画——精度越高数据量越大。FSQ技术创造性地做了三件事:

  1. 建立原子户口本:把连续坐标映射到7×5×5×5×5的离散网格(共有4375种可能)
  2. 动态调整网格:根据原子类型自动调整网格密度(比如硫原子区域网格更细)
  3. 分阶段训练:先用骨架原子训练,再用完整原子微调

这就像先教会AI认识人体骨架,再逐步学习肌肉纹理,最后掌握细胞层面的细节。

第三章:颠覆性发现:AI开始”理解”进化

3.1 离散扩散:模拟40亿年进化

传统训练像填色游戏——遮住部分区域让AI补全。但Odyssey团队发现,蛋白质进化更像一个”打码-解码”过程:

  • 正向过程:用噪声逐步”污染”蛋白质(模拟突变)
  • 反向过程:训练AI像考古学家一样,从碎片中重建完整结构

这种训练方式让AI捕捉到蛋白质进化的核心规律:局部变异需要全局协调。就像修改恐龙基因时,AI会自动检查修改后的恐龙是否还能站立。

3.2 突破性成果:AI开始”创造”

论文中的测试结果让同行震惊:

  • 生成效率:1020亿参数模型在80B tokens训练后,困惑度低至3.88(相当于准确预测蛋白质序列的能力)
  • 结构精度:FSQ在CASP16基准测试中,原子级重建RMSD达到1.2Å(相当于头发丝直径的1/50)
  • 进化模拟:对齐后的模型能预测酶活性位点的最佳构象,相关性达0.92(接近实验数据)

更惊人的是,AI开始展现类似”直觉”的能力。当被要求设计耐高温的酶时,它自动选择了带硫醇基团的氨基酸——这正是自然界中嗜热菌的进化选择。

第四章:改变世界的三个可能

4.1 药物研发革命

传统药物发现平均需要12年,耗资26亿美元。Odyssey模型已能:

  • 设计全新抗菌肽,对耐药菌有效率提升40%
  • 预测蛋白质-药物结合构象,筛选速度提高300倍
  • 生成可穿过血脑屏障的抗体,治疗阿尔茨海默症

4.2 合成生物学突破

实验室正在用该模型设计:

  • 可分解塑料的超级酶,分解速度是天然酶的15倍
  • 固氮效率提升5倍的工程菌,减少化肥使用
  • 能在火星环境生存的光合细菌,用于太空殖民

4.3 哲学启示:重新认识生命

论文最后引用的《控制论与科学方法论》再版序言突然有了新含义。当AI开始模拟40亿年进化过程时,我们发现:

  • 生命的”语法规则”可能比想象更简单
  • 进化不是随机试错,而是有规律的模式生成
  • 人工智能正在成为理解生命本质的新工具

就像40年前控制论思想引发认知革命,今天的Odyssey模型让我们重新思考:生命编程的底层代码,是否正等着我们用AI去破译?

思考题:

如果AI能设计出超越自然界的蛋白质,我们该如何定义”生命”?当计算机开始理解进化密码,人类是否正在扮演”造物主”的角色?这些问题的答案,或许就藏在下一个版本的Odyssey模型里。

(本文基于2025年10月15日发表于arXiv的《Odyssey: reconstructing evolution through emergent consensus in the global proteome》论文,论文编号arXiv:2509.22611v1)