李君一课题组在CCF A刊发表蛋白质功能预测等两项研究成果-计算机应用研究中心

首页 > 学术活动 > 学术交流 > 正文

李君一课题组在CCF A刊发表蛋白质功能预测等两项研究成果

发布时间：2026-05-06 17:58 浏览：[]

（文/崔博越、周靖力）2026年4 月，中心李君一教授课题组 2023 级硕士生崔博越同学、周靖力同学分别以第一作者在《Bioinformatics》期刊发表论文《MZSGO: multimodal zero-shot protein function annotation via evolutionary signals and textual semantics》与《GR2ST: Spatial Transcriptomics Prediction based on Graph-Enhanced Multimodal Contrastive Learning》。

《Bioinformatics》是 Oxford Academic 出版社旗下数学与计算生物学方向的顶级期刊之一，为CCF A类推荐期刊、JCR 一区，影响因子（IF）为 5.8。两项研究分别聚焦于蛋白质功能预测与空间转录组学两大生物信息学核心问题，是课题组在AI 驱动生命科学方向上持续深耕所取得的又一系列阶段性成果。

■ 研究成果一

17520

图 1 论文 MZSGO 在《Bioinformatics》在线发表网页

崔博越同学在李君一教授的指导下，一直致力于人工智能驱动的蛋白质功能预测研究，对将大语言模型、多模态融合等前沿技术引入生物信息学问题抱有浓厚的研究兴趣。在硕士阶段，他专注于蛋白质自动功能注释（Automated Function Prediction，AFP）方向，针对现有方法难以泛化到未见过的基因本体（Gene Ontology，GO）标签这一关键痛点，提出了多模态零样本蛋白质功能注释框架 MZSGO，实现了从有监督分类到语义对齐的研究范式转变。

蛋白质是生命活动的核心执行者，准确解析其功能是生物学、医学和药物发现的基石。然而，随着高通量测序技术的发展，新测得的蛋白质序列数量呈指数级增长，实验验证其功能却依然昂贵、耗时，序列与功能之间的注释鸿沟愈发显著。近年来，深度学习方法在 AFP 任务上取得了长足进步，从早期基于序列模式的 DeepGOCNN，到结合结构的 Struct2GO，再到融合神经符号推理的 DeepGO-SE，不断推动 AFP 性能前沿。然而，现有方法普遍受限于单一模态特别是蛋白质序列，将蛋白质结构域（domain）描述与功能标签仅作为附属监督信号，难以在语义层面真正统一蛋白质表示与功能概念；更为关键的是，当 GO 本体中出现新的功能标签时，传统的封闭集分类范式就会彻底失效——这正是亟待突破的零样本（zero-shot）注释难题。

针对上述问题，MZSGO 提出了一种以「语义对齐」为核心的多模态零样本功能注释框架。首先，在特征表示阶段，MZSGO 同时编码蛋白质的序列特征与 domain 级文本描述，引入大语言模型（LLM）为 domain 描述与 GO 标签定义构建统一的语义空间，将原本分散的生物实体与功能概念嵌入到同一可比对的向量空间中，从而为零样本预测奠定基础。其次，在多模态融合阶段，MZSGO 设计了自适应门控融合（Adaptive Gated Fusion）模块，根据上下文动态为序列、domain 和 GO 标签嵌入分配不同权重，并配合非对称 Dropout 策略缓解多模态输入中的噪声干扰。最后，融合后的表示通过 MLP 分类器输出蛋白质与 GO 功能的匹配分数进行预测。实验表明，在有监督评测（Fmax、AUPR）下，MZSGO 在 MF、CC、BP 三大本体上均取得最优性能——其中在最具挑战性的 BP 本体上 Fmax 达到 0.5045，超越 DPFunc（0.4984）和 DeepGO-SE（0.5006）等强基线；而在真正考察模型泛化能力的零样本场景中，MZSGO 在未见标签上的整体调和均值 H 达到 0.6669，远超同类方法，充分验证了语义对齐范式在蛋白质功能预测中的有效性与前瞻性。

82A0E

图 2 MZSGO 模型框架示意图

■ 论文信息

论文题目：MZSGO: multimodal zero-shot protein function annotation via evolutionary signals and textual semantics

论文作者：Boyue Cui（崔博越，第一作者）、Yujuan Li（李雨娟）、Shiqu Chen（陈识曲）、Jiaming Wei（魏佳明）、Xuan Wang（王轩）、Yadong Wang（王亚东）、Junyi Li（李君一，通讯作者）

作者单位：哈尔滨工业大学（深圳）计算机科学与技术学院；哈尔滨工业大学计算学部生物信息学研究中心；生物大数据教育部重点实验室（哈尔滨工业大学）

■ 研究成果二

周靖力同学的研究兴趣聚焦于 AI 驱动的空间组学分析，尤其关注如何从数字病理图像中挖掘隐藏的分子层面信息。在硕士阶段，他将对比学习、图神经网络与多模态表示学习等方法引入空间转录组预测任务，提出了基于图增强多模态对比学习的空间基因表达预测框架 GR2ST，在多个公开数据集上取得了优于现有方法的表现。

2020 年，《Nature Methods》将空间转录组学评为年度技术。与传统批量或单细胞转录组技术不同，空间转录组能够在保留组织空间结构的前提下刻画基因表达，为研究细胞通讯与分子信号提供了全新视角。然而，空间转录组实验成本高昂，难以大规模开展。为此，一条重要的研究路线是：借助与空间转录组配对的苏木精-伊红（H&E）染色病理图像，利用深度学习方法从图像中反推空间基因表达。沿着这一思路，已有 ST-Net、HisToGene、Hist2ST、THItoGene、mclSTExp、Reg2ST 等多种方法相继问世。但现有方法仍存在三方面显著不足：其一，大多仅依赖病理图像进行预测，忽视了细胞类型组成对基因表达的关键调控作用；其二，图像特征提取方式较为简单，难以充分挖掘病理切片中丰富的生物学信息；其三，对空间信息的利用过于粗糙，仅基于简单邻接关系建模空间依赖。

针对上述问题，GR2ST 提出了一种以对比学习为桥梁、以双分支图建模为核心的图增强多模态空间转录组预测框架。在特征提取阶段，GR2ST 使用大型预训练视觉模型提取高层图像特征，并将每个空间位点（spot）的基因表达与其细胞类型嵌入融合，得到类型增强基因表达特征。在此基础上，GR2ST 设计了双分支图处理组件：功能图将每个位点投影为头节点与尾节点嵌入，通过二者之间的相似度显式建模位点间的功能关联；空间图则基于组织切片中的空间邻接关系构建，两路图均通过图注意力网络自适应聚合邻域信息，并引入注意力熵最小化损失以缓解深层图网络常见的过平滑问题，使模型更加聚焦于真正重要的功能/空间邻居。在对比学习模块，GR2ST 将视觉特征与基因表达特征投影到共享语义空间，拉近同一位点的图像-转录组正样本对、推远不匹配的负样本，从而学习到具有跨模态一致性的表示。最后，Cell-Type Guided Multi-Branch 回归头根据位点的细胞类型信息分支预测基因表达，实现细胞类型感知的自适应生成。实验结果表明，在 HER2+、cSCC、Alex 三个公开数据集上，GR2ST 在 PCC 等基因表达预测指标上稳定领先；在空间区域检测任务中，其 ARI 与 NMI 显著优于 HisToGene、THItoGene等 8 种代表性基线方法，验证了方法的有效性与鲁棒性。

图3 GR2ST 模型框架示意图

■ 论文信息

论文题目：GR2ST: Spatial Transcriptomics Prediction based on Graph-Enhanced Multimodal Contrastive Learning

论文作者：Jingli Zhou（周靖力，第一作者）、Siyuan Li（李思源）、Rui Han（韩睿）、Xuan Wang（王轩）、Yadong Wang（王亚东）、Junyi Li（李君一，通讯作者）

作者单位：哈尔滨工业大学（深圳）计算机科学与技术学院；哈尔滨工业大学计算学部生物信息学研究中心；生物大数据教育部重点实验室（哈尔滨工业大学）；广东省安全智能新技术重点实验室（哈尔滨工业大学（深圳））

MZSGO 与 GR2ST 分别从蛋白质功能预测、空间转录组学两大生物信息学核心问题出发，借助大语言模型语义对齐、多模态对比学习、图神经网络等前沿技术，在各自任务上取得了显著超越现有方法的表现，集中体现了课题组在AI for Bioinformatics方向上的持续积累。两篇论文的第一作者均为 2023 级硕士研究生，通讯作者均为李君一教授。应用中心的王轩教授参与了论文的研究工作。该系列研究得到了国家自然科学基金面上项目、广东省安全智能新技术重点实验室等项目和平台的支持。

■ 第一作者简介：

崔博越，哈尔滨工业大学（深圳）2023级硕士研究生，研究方向为蛋白质功能预测。指导老师为李君一教授。

周靖力，哈尔滨工业大学（深圳）2023级硕士研究生，研究方向为空间转录组基因预测。指导老师为李君一教授。

■ 通讯作者简介：

李君一，哈尔滨工业大学（深圳）计算机学院教授，博士生导师。研究方向为生物信息学以及计算生物学的理论、算法和分析技术，尤其专注生物医学多模态数据的挖掘。研究基于人工智能从大数据多模态水平、系统层面来揭示特定生物学过程和重大疾病发生发展过程中的分子调控机制。在此方向发表了70多篇国际期刊和会议文章，主持参与了多项科研项目。

热文排行