|
谷歌的兄弟公司Deepmind,就是搞人工智能特别厉害的那家,最近又整了个新活,推出了一个叫AlphaGenome的人工智能模型。这玩意儿目标很明确:就是去破解人类DNA里那最大片的、最神秘的"无人区"。
咱都知道,人体基因就像一本庞大的生命说明书,但不是所有字都在告诉你"怎么做蛋白质"。实际上,足足有98%的基因内容——科学家们叫它非编码区,也被戏称为"基因组的暗物质"——并不直接编码蛋白质。这部分干的是更高端的活儿:控制基因!决定哪些基因在啥时候、在哪儿启动,啥时候休息。但这片区域太复杂了,以前人类是真拿它没啥好办法。
AlphaGenome就冲着这事儿来的。它能力挺猛,一口气就能分析和处理上百万个DNA的"字母"(碱基)。而且,它能对着基因序列里每一个单独的小字母(单碱基精度) 做出各种预测:这个位置是不是基因开头?是不是结尾?这里能产生多少RNA(基因信息的中介)?有啥特定的蛋白质可能一屁股坐在这儿起作用?它还特别能认路标——那些叫作"剪接位点"的地方。剪接就是把RNA信息剪剪贴贴的关键步骤,出错了可不得了,会直接导致严重疾病。
技术上是咋整的呢?AlphaGenome是把几种现在最流行的AI技术揉一块了:用了"卷积层"专门抓小范围内DNA的特定模式;又用了能理解超长上下文的"Transformer"结构;最后还有个整合层,把所有这些洞见合起来,给出一份全面的预测报告。最牛的是,它是个"多任务一体机"——在处理覆盖几百种不同细胞类型的数据时,它能同时干上面说的所有这些预测活儿,都是在单个碱基的精度上完成的。
这模型不是光说不练。据Deepmind说,AlphaGenome在标准测试中表现得相当硬核:在24项主流对比测试里,它有22项表现超过了市面上已有的最好模型;在预测26种基因变异如何影响调控效果的任务中,它在24项里打败了专门为此设计的专业工具。训练它的资料也不是胡编的,全都来自四大权威公共研究项目:ENCODE、GTEx、FANTOM5和4D Nucleome。这些数据库收集了各种细胞类型下的基因调控实验数据。
那它能干啥具体事儿?Deepmind说了几个实际应用例子:
变异评估:把病人突变的DNA序列喂给它,再给它正常的序列,AlphaGenome自己就能比一比,然后自动生成一份报告,告诉你哪些关键的分子特性因为突变不同了。
疾病挖根儿:举了个白血病(T细胞急性淋巴细胞白血病,T-ALL)的实际例子。AlphaGenome成功预测了某一个特定的基因突变,会在DNA上开个新"门脸",让一个叫MYB的蛋白质凑上去结合。这一结合不要紧,就会把旁边的致癌基因激活——这跟科学家们以前知道的得病路子完全对上了。
认路标高手:前面说的剪接位点识别能力派上大用场了,AlphaGenome是第一个能直接从原始的DNA序列里,就把RNA剪接位点精准圈出来的模型。这给研究遗传病怎么来的打开了新窗户。
不过,截至本周五(6月27日),Deepmind只把AlphaGenome通过API接口开放给研究人员用(还得申请),强调这模型目前还不能用于临床看病救人。为啥?主要是还有俩限制:
它暂时还整不明白像细胞发育这种超复杂的过程,或者环境因素(比如你吸烟)掺和进来共同引发的复杂疾病。
它对离得太远的"调控元件"(超过10万个基因字母以外的那些)预测能力现在还不咋灵。
但是呢,Deepmind的技术团队挺有信心,说他们这个模型架构设计得本身就很模块化、有弹性、好扩展。将来,只要给它提供更多更全的训练数据,它就能被训练去研究更多物种(比如小鼠、猴子),更多不同身体组织、不同细胞类型的状态,以及更复杂的分子运作过程。
说白了,AlphaGenome这项突破,让科学家们感觉手里终于有把像样的钥匙,能去试着开一开那些藏在人类基因组深处、沉睡了亿万年的"调控密码锁"了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|