-
首个基因挖掘大模型问世
发布时间:2025-04-14 07:38:56,阅读次数:32 近日,北京大学定量生物学中心钱珑团队研发、构建了全球首个针对功能基因挖掘任务的大语言模型SYMPLEX。该模型能够自动高效地从海量生物文献中发现具有目标功能的关键基因,并进行精准筛选和功能验证,为后续的蛋白质功能设计、生物制剂开发以及生物制造的应用提供科学依据。团队与中科院深圳先进技术研究院娄春波研究员合作,将SYMPLEX应用于mRNA加帽酶基因的挖掘,获得的新加帽酶活性显著优于mRNA疫苗生产中采用的商业化酶,展示了大语言模型赋能生物制造的巨大潜力。相关研究成果日前发表于国际学术期刊《科学·进展》。
“自然界生物体内蕴含着数量庞大的有用基因,这些基因经过亿万年自然选择,形成了丰富多样的序列组成和基因组合,演化出各种精妙的功能,帮助生物在各种不同环境中更好地生存繁衍。随着测序获得的生物序列累计达数十亿量级,这些天然基因也为生物制造与合成生物技术提供了基因元件的‘宝库’。”钱珑告诉记者,尽管天然基因具备极为丰富的功能和潜力,但目前只有一小部分热门基因被高质量注释并构建了序列或结构模型。“原因在于,基于序列、结构或深度学习的基因挖掘与蛋白质设计方法由于技术瓶颈无法拓展至复杂基因,进而制约了对高价值基因元件的挖掘与开发利用。”
针对上述问题,团队创造性地将大型语言模型与结构化生物知识库深度融合,开发出SYMPLEX智能基因挖掘平台。这一平台是强大的功能基因搜索引擎,可通过自动化阅读与理解千万级体量的生物学文献,在基因、功能和知识水平上对文献内容进行提取分析,并与专家数据库进行概念对齐、交互和统计模式生成,从而产生高质量候选基因集合。对比结果表明,SYMPLEX大模型相比传统方法具有显著优势。
研究团队还通过大模型挖掘了mRNA加帽酶,并进行了实验验证。“以前,mRNA疫苗背后的一项关键工艺——mRNA 5’端加帽,一直是效率较低、成本高昂的‘卡脖子’环节。SYMPLEX发现了近2万个新型加帽酶,并对其中十余个序列进行了验证。我们从中找到了新酶,其活性超过当前mRNA疫苗制备使用的加帽酶的2倍。SYMPLEX挖掘的加帽酶数据库,有望为mRNA疫苗和基于mRNA的基因疗法研究提供关键技术。”钱珑介绍。
“本项研究开创了功能基因挖掘的新范式,为mRNA疫苗规模化生产提供了关键酶资源库。”钱珑表示,研究团队正在利用这一大模型进行更多可用于合成生物学的关键酶元件挖掘,并将该平台拓展至合成通路设计等领域,有望推动生物制造进入“人工智能驱动的科学研究”的新阶段。(记者 晋浩天)
-
相关、相似的资讯
- 为经济高质量发展注入更强动能2025/04/14
- 应对关税冲击,避免行业内卷—— 在河南新乡,看企业积极应变2025/04/14
- 税惠“红包”实 民企活力足2025/04/14
- 五位院士回答网友提问2025/04/14
- 人形机器人企业扎堆赴港上市2025/04/13
- 热门关注
-
- 奋楫十年 天翼云以科技创新刷新“中国速度”每个时代都有各自标志性的生产力,这是时代的烙印,也是衡量经济社会发展水平和质...
- 连续三年亏损 苏宁易购遭“ST”5月5日,苏宁易购停牌,5月6日开市起,这个昔日的零售巨头股票简称将变为“ST易购...
- 苏宁易购筹划股权转让 神秘接盘方近日将亮相2016年成功引入淘宝中国作为重要股东后,时隔4年多时间,苏宁易购再次发布重磅消息...
- 未来金融就在眼前,火星数字资产银行荣获“2018年度区块链创新服务奖”7月5日,“2018区块链世界论坛·深圳峰会”在深圳京基100举行,作为全方位为数字资...
- 公交车司机9年未过团圆年,苏宁彩电助其实现心愿转眼春节就要到了,游子已经踏上了回家的归程。提起回家团圆,大家都是归心似箭,...