生命是一个多层次、多尺度、动态互联、相互影响的复杂系统。在面对生命现象的极端复杂性、多尺度跨越和时空动态变化时,传统的生命科学研究范式往往只能从局部入手,通过实验验证或有限层次的组学数据分析建立有限生物分子和表型的关联关系。
AI技术,尤其是深度学习和预训练大模型等技术,以其优越的模式识别和特征提取能力,能够在庞大的参数堆叠情况下超越人类理性推理能力,从数据中更好地理解复杂生物系统中的规律。现代生物技术的不断发展,使生命科学领域的数据呈现跨越式增长,在过去全球范围生命科学研究中,人类已经积累了大量基于实验描述和验证的数据,为AI破解生命科学底层规律创造了基础。当拥有充足且高质量的数据和适配于生命科学的算法时,AI模型就能够在多层次的海量数据中以“低维”数据预测“高维”信息及规律,实现从基因序列和表达等低维数据到细胞、机体等高维复杂生物过程规律揭示的跨越,解析复杂的非线性关系,如生物大分子结构生成规律、基因表达调控机制,甚至个体发育、衰老等多因素交叉的复杂生物系统中的底层规律。
在此发展趋势下,近年来生命科学领域涌现出了蛋白质结构解析、基因调控规律解析等一批AI驱动生命科学研究发展的典型范例。
1.蛋白质结构解析
蛋白质作为生物体内关键功能的执行者,其结构直接影响运输、催化、结合和免疫功能等重要的生物过程。虽然测序技术可以揭示蛋白质所包含的氨基酸序列,但任何一个已知氨基酸序列的蛋白质链有可能折叠成天文数字中的任何一种可能构象,这使得准确解析蛋白质结构成为长期以来的挑战。利用传统技术如核磁共振、X射线晶体分析、冷冻电子显微镜等解析已知序列的蛋白质结构方法,需要数年时间才能描绘出单个蛋白质的形状,昂贵耗时且不能保证成功解析其结构。因此,捕获蛋白质折叠的底层规律从而实现对蛋白质结构的精准预测,一直是结构生物学领域最重要的挑战之一。
AlphaFold 2利用基于注意力机制的深度学习算法,对大量蛋白质序列和结构数据进行训练,并结合物理学、化学和生物学的先验知识,构建了包含特征提取、编码、解码模块的蛋白质结构解析模型。在2020年国际蛋白质结构预测竞赛(CASP14)中,AlphaFold 2取得了瞩目的成绩,其蛋白质三维结构预测准确性甚至可与实验解析的结果相媲美。这一突破为生命科学领域带来了全新的视角和前所未有的机遇,主要体现在3点。
(1)对药物发现领域产生了直接影响
大多数药物通过与体内蛋白质特殊结构域的结合而引发蛋白质功能的变化,AlphaFold 2能够快速计算出海量目标蛋白质的结构,从而有针对性地设计药物以有效地与这些蛋白质结合。
(2)对蛋白质的理性设计提供了新的可能性
一旦AI对蛋白质折叠的底层规律有了深刻理解,就可以利用这一知识设计出折叠成所需结构的蛋白质序列。这使得生物学家可以根据需求自由设计和改造蛋白质或酶的结构,如设计更高活性的基因编辑酶,甚至是自然界中不存在的蛋白质结构。同时也推动了人们对基因编码信息在蛋白质层面结构投射规律的理解,并将大幅提高人类对生命的改造能力。
(3)AlphaFold 2彻底改变蛋白质结构解析领域的研究范式
从只能通过费时费力的传统实验技术解析蛋白质结构转变为低门槛、高精度、高通量地预测蛋白质三维结构的新范式,证明通过将蛋白质知识和AI技术相结合,可以提取和学习到高维、复杂的知识,促进对蛋白质物理结构和功能的更深入理解。
2.基因调控规律解析
人类基因组计划被誉为20世纪人类三大科学计划之一,揭开了生命奥秘的序幕。尽管编码生命个体的遗传信息存储在DNA序列中,但每个细胞的命运和表型却因其独特的时空背景而千差万别。这种复杂的生命过程由精细的基因表达调控系统所控制,而探索生命普遍存在的基因调控机制是继人类基因组计划之后最为重要的生命科学问题之一。不同细胞的基因表达谱是理解生物系统内基因调控活动的理想窗口。然而,仅通过生物学实验全面解读基因调控机制,需要捕获不同生物个体的不同细胞类型在不同环境背景下的对照试验来观察。传统生物信息分析方法只能处理少量数据,对大规模、高维度且缺乏准确标注的生物组大数据难以捕捉数据中复杂的非线性关系。
近年来,自然语言处理技术的不断突破,特别是大语言模型的迅猛发展,能够通过训练语料数据使模型具有理解人类语言描述知识的能力,为解决这一领域问题带来了新思路。
国际多个研究团队借鉴大语言模型的训练思路,相继基于数以千万计的人类单细胞转录组谱数据和庞大的算力资源,利用Transformer等先进算法和多种生物学知识,构建了多个具有理解基因动态关系能力的生命基础大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。这些生命基础大模型以基因表达等底层生命活动信息为训练基础,利用机器来学习理解这些“低维”的生命科学数据与复杂“高维”的基因表达调控网络、细胞命运转变等底层生命机制之间的关联性和对应规律,实现以低维数据对高维信息的有效模拟和预测。这种对基因表达调控网络的模拟可以在广泛的下游任务中表现出卓越性能,为深入理解基因调控规律提供了全新的途径。
现有的AI驱动生命科学研究的成功案例向我们证明,面对更深入、更系统的生命科学问题,AI有望突破传统研究方法难以解决的困境、构建从基础生物层次到整个生命系统的投射理论体系,并进一步推动生命科学向更高阶段发展,开启生命科学研究的新范式。
随着新范式的不断发展,生命科学研究将迎来以AI预测、指导、提出假说、验证假设为特点的新型研究模态,迸发出一批快速发展的生命科学新范式前沿研究方向,并展现出新范式变革带来的发展增益。
3.新范式赋能的生命科学研究前沿
(1)结构生物学
目前在结构生物学领域,以AlphaFold为代表的AI应用技术仍停留在“从序列到结构”的蛋白质结构预测和设计阶段,还无法实现复杂生理条件下蛋白质结构和功能的模拟与预测。更高质量、更大规模的蛋白质数据和新型算法的出现,将有望对不同生理状态和时空条件下的生物大分子结构和功能进行系统解析,并实现蛋白质“从序列到功能”甚至“从序列到多尺度相互作用”的智能化结构解析与精细设计。
(2)系统生物学
当前的组学数据分析仍局限于较低维度的生物组学观测水平,还未形成从基因水平到细胞水平甚至生物个体乃至群体组学水平的全维度观测。新范式将融通多维度、多模态的生物大数据和专家先验知识,提取生物表型的关键特征,构建多尺度生物过程解析模型,还原复杂生物系统运行的底层规律,形成基础而广泛适用的系统生物学研究新体系。
(3)遗传学
随着多组学数据的积累和新型基因大模型的出现,遗传学研究已进入新范式推动的快速发展阶段,基于基因表达谱数据的自监督预训练大模型有望成为解析基因调控规律、预测疾病靶点的有力工具,拓展遗传学研究的探索边界。
(4)药物设计开发
随着AlphaFold的出现和一批分子动力学模型的发展,AI模型已经被用于预测和筛选药物候选分子。未来新范式将进一步推动该领域的发展,有望出现AI辅助的全流程药物设计开发体系,能够自主完成药物结构和性质的优化设计、实现候选药物的有效性和安全性模拟预测、生成药物的高效合成和生产工艺方案,极大加速药物的开发和生产过程。
(5)精准医学
计算机视觉、自然语言处理和机器学习等AI技术已广泛渗透到生物影像、医学影像、疾病智能分析及靶点预测等精准医学子领域。例如,基于AI的诊断系统在准确度上已经可以媲美甚至在某些方面超过资深的临床医生。然而,现有的模型大多受制于数据的偏好性,存在鲁棒性差、通用性低等问题,随着新范式驱动的通用精准医学模型的出现,将有助于更加快速准确地诊断疾病、解析疾病的分子机制、发现新的治疗靶点,提高人类的健康水平。
文章改编自《中国科学院院刊》2024年第1期,专题:大力推进科研范式变革。原文标题:人工智能驱动的生命科学研究新范式
责任编辑:胡惠雯