Deepmind掏出AI基因神探AlphaGenome，连DNA里的暗语都能破译了

Meise · 发表于 2025-6-27 15:53:19

谷歌的兄弟公司Deepmind，就是搞人工智能特别厉害的那家，最近又整了个新活，推出了一个叫AlphaGenome的人工智能模型。这玩意儿目标很明确：就是去破解人类DNA里那最大片的、最神秘的"无人区"。

咱都知道，人体基因就像一本庞大的生命说明书，但不是所有字都在告诉你"怎么做蛋白质"。实际上，足足有98%的基因内容——科学家们叫它非编码区，也被戏称为"基因组的暗物质"——并不直接编码蛋白质。这部分干的是更高端的活儿：控制基因！决定哪些基因在啥时候、在哪儿启动，啥时候休息。但这片区域太复杂了，以前人类是真拿它没啥好办法。

AlphaGenome就冲着这事儿来的。它能力挺猛，一口气就能分析和处理上百万个DNA的"字母"（碱基）。而且，它能对着基因序列里每一个单独的小字母（单碱基精度）做出各种预测：这个位置是不是基因开头？是不是结尾？这里能产生多少RNA（基因信息的中介）？有啥特定的蛋白质可能一屁股坐在这儿起作用？它还特别能认路标——那些叫作"剪接位点"的地方。剪接就是把RNA信息剪剪贴贴的关键步骤，出错了可不得了，会直接导致严重疾病。

技术上是咋整的呢？AlphaGenome是把几种现在最流行的AI技术揉一块了：用了"卷积层"专门抓小范围内DNA的特定模式；又用了能理解超长上下文的"Transformer"结构；最后还有个整合层，把所有这些洞见合起来，给出一份全面的预测报告。最牛的是，它是个"多任务一体机"——在处理覆盖几百种不同细胞类型的数据时，它能同时干上面说的所有这些预测活儿，都是在单个碱基的精度上完成的。

这模型不是光说不练。据Deepmind说，AlphaGenome在标准测试中表现得相当硬核：在24项主流对比测试里，它有22项表现超过了市面上已有的最好模型；在预测26种基因变异如何影响调控效果的任务中，它在24项里打败了专门为此设计的专业工具。训练它的资料也不是胡编的，全都来自四大权威公共研究项目：ENCODE、GTEx、FANTOM5和4D Nucleome。这些数据库收集了各种细胞类型下的基因调控实验数据。

那它能干啥具体事儿？Deepmind说了几个实际应用例子：

变异评估：把病人突变的DNA序列喂给它，再给它正常的序列，AlphaGenome自己就能比一比，然后自动生成一份报告，告诉你哪些关键的分子特性因为突变不同了。
疾病挖根儿：举了个白血病（T细胞急性淋巴细胞白血病，T-ALL）的实际例子。AlphaGenome成功预测了某一个特定的基因突变，会在DNA上开个新"门脸"，让一个叫MYB的蛋白质凑上去结合。这一结合不要紧，就会把旁边的致癌基因激活——这跟科学家们以前知道的得病路子完全对上了。
认路标高手：前面说的剪接位点识别能力派上大用场了，AlphaGenome是第一个能直接从原始的DNA序列里，就把RNA剪接位点精准圈出来的模型。这给研究遗传病怎么来的打开了新窗户。

不过，截至本周五（6月27日），Deepmind只把AlphaGenome通过API接口开放给研究人员用（还得申请），强调这模型目前还不能用于临床看病救人。为啥？主要是还有俩限制：

它暂时还整不明白像细胞发育这种超复杂的过程，或者环境因素（比如你吸烟）掺和进来共同引发的复杂疾病。
它对离得太远的"调控元件"（超过10万个基因字母以外的那些）预测能力现在还不咋灵。

但是呢，Deepmind的技术团队挺有信心，说他们这个模型架构设计得本身就很模块化、有弹性、好扩展。将来，只要给它提供更多更全的训练数据，它就能被训练去研究更多物种（比如小鼠、猴子），更多不同身体组织、不同细胞类型的状态，以及更复杂的分子运作过程。

说白了，AlphaGenome这项突破，让科学家们感觉手里终于有把像样的钥匙，能去试着开一开那些藏在人类基因组深处、沉睡了亿万年的"调控密码锁"了。

账号		自动登录	找回密码
密码			立即注册

[科技] Deepmind掏出AI基因神探AlphaGenome，连DNA里的暗语都能破译了

本帖子中包含更多资源

相关帖子

浏览过的版块