2024年5月,中心李君一副教授课题组的论文“MCDHGN: Heterogeneous Network-based Cancer Driver Gene Prediction and Interpretability Analysis”被《Bioinformatics》期刊正式接收并在线发表。《Bioinformatics》期刊由牛津大学出版社(Oxford University Press)出版,该期刊在多个领域中被分类为顶级四分位数(Q1),包括生物化学、计算数学和计算机科学应用等,属于生物信息学领域的顶级期刊,影响因子(IF)为5.8。
癌症已经成为世界范围内影响人类预期寿命长度的重要障碍,癌症驱动基因的预测是预防癌症发生和增强人类对癌症认识的重要一环。生物信息学是一种癌症驱动基因重要的预筛选工具,但目前基于同构图神经网络的癌症驱动基因预测算法不能充分包含与癌症驱动基因相关的生物学实体,且模型缺乏有生物学意义的可解释性输出。为了更好的利用生物异构信息网络的复杂知识,同时依托生物网络进行模型预测结果可解释性分析,该论文提出了一种基于异构网络元路径的新型癌症驱动基因挖掘方法(MCDHGN),该方法的创新之处在于采用人工设计的基于生物学语义的元路径来提取异构网络中的基因节点表征,将癌症驱动基因的甄别转化为利用异构网络表征进行的的基因节点分类任务,通过案例分析增强模型的可解释性。
图1 MCDHGN模型流程示意
MCDHGN首先使用多种与癌症驱动基因相关的数据构建了一个生物多组学异构网络。通过计算肿瘤样本的基因异常表达情况,包括突变率,甲基化率和基因表达产物的相对量拼接作为网络中基因节点的初始特征,并在多组学异构网络中手动标记了九种包含一定的生物学语义的元路径,通过聚合元路径节点内部和跨元路径的信息聚合获得的表示向量作为后续预测任务的新基因特征。将MCDHGN模型在两个标签数据集上与8个同质和异质网络模型进行了比较,使用AUC和AUPR值评估了模型性能。结果表明,MCDHGN在两个标签数据集中均显示出最佳值。论文还通过分析不同元路径对节点预测结果的贡献,以案例分析的形式讨论了模型的可解释性,将案例基因的预测依据显示为生物学实体的联系并为之寻找到相关的文献证据。
论文第一作者王乐翔,为21级硕士研究生,本科就读于哈尔滨工业大学本部,研究生期间曾在《Computational Biology and Chemistry》,《IEEE/ACM Transactions on Computational Biology and Bioinformatics》等期刊分别以第一作者和第二作者的身份发表过文章,担任课题组的学生负责人。
通讯作者为李君一副教授,博士生导师,研究方向为生物信息学以及计算生物学的理论、算法和分析技术,尤其专注生物医学大数据的挖掘。研究基于全基因组、多组学的生物医学大数据,从大数据水平、系统层面来揭示特定生物学过程和重大疾病发生发展过程中的分子机制。在此方向发表了50多篇国际期刊和会议文章,主持参与了科技部国家重点研发计划项目等多项研究项目。
中心王轩教授以及23级硕士研究生周靖力共同参与了论文的研究工作。