2024年9月13日,应医学研究院/免疫与代谢前沿科学中心刘胡丹教授邀请,华中科技大学生命科学与技术学院薛宇教授在医学部8号楼1712会议室进行了题为“Language models decode PTM”的学术报告。
本次报告中,薛宇教授首先介绍了自己进入生物信息学领域的初衷,并表示现在已经不是传统生物信息学的时代,随着时代发展更迭,已演变为新背景下的AI 生物信息学。紧接着薛宇教授由浅入深,给大家介绍了自己团队关注的生物学过程和对生物信息学模型的建立基础以及模型的训练方式,并由此开展了本次报告的主题——如何建立并调校语言模型来预测PTM发生位点以及具有功能的修饰位点,并以此为基础建立了多个强大的数据库。
薛宇教授借助最近发表的β-羟基丁酰化修饰的研究成果为例,进一步详细向大家介绍。在该工作中,通过对生酮饮食小鼠肝脏开展转录组学、蛋白质组学、代谢组学、赖氨酸β-羟基丁酰化组学的多组学定量,发现小鼠肝脏转录组、蛋白质组和赖氨酸β-羟基丁酰化组差异性地发生变化。为了找到发挥重要功能的赖氨酸β-羟基丁酰化修饰位点,基于前沿人工智能技术,设计了新的分层学习框架(Hierarchical learning framework)pFunK,是首个预测蛋白质修饰功能的语言模型。该框架采用分层思维,巧妙利用Transformer模型捕捉序列之间的上下文依赖关系,并结合十种蛋白质序列和结构特征,逐层学习赖氨酸修饰特征、赖氨酸β-羟基丁酰化修饰特征,再学习赖氨酸β-羟基丁酰化的功能特征,仅使用9个已知功能的赖氨酸β-羟基丁酰化位点,为预测功能重要的赖氨酸修饰位点提供了普遍适用的语言模型。
本次报告内容丰富,引人入胜。报告结束后,薛宇教授与医学研究院的老师和研究生同学们展开的深入的交流与讨论。本次报告在大家积极有好的互动中落下了帷幕,为PI的研究工作提供了新的思路,同时极大地开阔了研究生的学术视野,取得了很好的效果。
薛宇,华中科技大学生命科学与技术学院教授、湖北省生物信息与分子成像重点实验室主任、湖北省“人工智能生物学”创新群体负责人。现任中国生物物理学会人工智能生物学分会秘书长,中国生物信息学学会(筹)理事。主要研究方向为蛋白质化学修饰信息学,构建了全球最大的赖氨酸修饰和磷酸化修饰数据库,设计了预测重要修饰位点的新算法,解码了动态修饰在重要生命过程中的新调控机制。近5年在Nature Metabolism、Nature Biomedical Engineering和Immunity等国际期刊上发表通讯作者(含共同)论文27篇,其中IF>10的论文18篇。全部论文近5年引用9,125次,引用>100次的29篇,主要作者论文单篇最高引用837次,H指数50。已获授权发明专利12项、计算机软件著作权登记证书17项。