首页  >  学术活动  >  学术交流  > 正文
哈工大(深圳)计算机学院施少怀教授课题组论文荣获IEEE ICDCS 2025杰出论文奖
发布时间:2025-07-25 14:32 浏览:[]

IEEE ICDCS 2025720日至723日在英国格拉斯哥召开。哈尔滨工业大学(深圳)计算机应用研究中心施少怀教授课题组与香港科技大学(广州)褚晓文教授以及香港科技大学李波教授合作论文Mast: Efficient Training of Mixture-of-Experts Transformers with Task Pipelining and Ordering荣获IEEE ICDCS 2025杰出论文奖Distinguished Paper Award)。


图1 杰出论文奖现场颁奖合影(获奖论文第一作者:施少怀教授博士生林稳翔(左三)

香港科技大学(广州)合作师生:褚晓文教授(左二),博士生潘星霖(右三))


IEEE ICDCS(国际分布式计算系统会议,International Conference on Distributed Computing Systems)是分布式计算领域国际顶级学术会议之一。该会议致力于展示和交流分布式系统各个方面的前沿研究成果与实际应用,涵盖云计算、分布式算法、分布式操作系统与中间件、边缘计算、移动计算、安全与隐私、区块链与数据库、分布式AI/ML系统等多个研究方向。自创办以来,ICDCS已成为全球分布式计算研究者和工程师的重要交流平台,出版了众多具有广泛学术影响力的论文,并在学术界和工业界产生了深远影响。

ICDCS 2025为第45届,本届会议于7月20日至7月23日在英国格拉斯哥召开,会议共收到投稿529篇,共有104篇论文入选,录用率为19.66%,最终评选出三篇杰出论文奖。

哈尔滨工业大学(深圳)计算机学院施少怀教授课题组,隶属于王轩教授领衔的计算机应用研究中心,长期聚焦于机器学习系统、高性能计算等方向的研究,同时与香港科技大学(广州)褚晓文教授的高性能机器学习实验室以及香港科技大学李波教授保持紧密的合作。课题组在相关领域持续产出高质量研究成果,相关成果被应用于华为等公司的产品中,其中自主研发的超大规模分布式GPU算力管理平台被多家大学和科研机构应用。


图2 论文第一作者博士生林稳翔在会议现场


混合专家(MoE)技术的运用,使得大语言模型能够扩展至万亿参数规模,同时保持计算量的次线性增长。该技术通过在MoE层配置多个专家模块,每个输入数据仅激活其中一至两个专家来实现高效计算。然而,MoE专家的动态激活特性会引发大量通信开销,制约分布式系统的扩展效率。

此研究提出的Mast系统,通过流水线编排和通信-计算任务重排序来有效隐藏通信成本,实现MoE模型的高效训练。具体而言,研究团队首先提出在注意力层和MoE层实现任务重叠的机制;随后通过理论分析揭示通信与计算任务重叠中的效率瓶颈;进而建立优化模型,以最小化迭代时间为目标确定近最优的任务流水线调度方案。团队在两个32-GPU集群上开展大规模实验,测试涵盖432种配置的MoE层以及基于BERT、GPT-2和Mistral的三个真实MoE模型。实验结果表明,Mast相较当前最先进的MoE训练系统(DeepSpeed-MoE、Tutel、PipeMoE和CoCoNet)平均获得1.13至1.43倍的加速比。


图3 不同策略下的流水线任务并行示意图


图4 杰出论文奖获奖证书


该论文受国家自然科学基金委广东省安全智能新技术重点实验室、深圳市科创委等科研项目资助。


论文作者简介

第一作者:林稳翔,哈尔滨工业大学(深圳)计算机科学与技术学院二年级博士生。研究方向聚焦于MoE大模型的高效训练与推理系统优化,目前以第一作者/共同第一作者身份发表系统领域CCF-A类会议论文(ASPLOS)1篇、CCF-B类会议论文2篇。


通讯作者:施少怀,哈尔滨工业大学(深圳)计算机科学与技术学院教授、博士生导师,2022年入选国家级青年人才计划,“鹏城孔雀计划”特聘岗位B档。2020年在香港浸会大学获得博士学位,2020-2022年在香港科技大学计算机科学与工程系任研究助理教授。研究方向为机器学习系统和高性能计算,在相关领域共发表文章40余篇,包括TPDS、ASPLOS、EuroSys、INFOCOM、ICLR、MLSys、ICDCS等高水平期刊或会议论文。3篇论文分别获得国际会议IEEE DataCom 2018和IEEE INFOCOM 2021最佳论文奖以及IEEE ICDCS 2025杰出论文奖;总谷歌学术引用3500余次,H-index为28。入选2024年度“全球前2%顶尖科学家榜单”,荣获2024年度华为计算产品线最佳技术合作奖和2024年度华为“昇腾科研创新卓越贡献者”奖项。同时担任多个学术服务,包括国际智联网络系统学会理事、IEEE/ACM IWQoS 2024 Poster共同主席、ACM MobiSys 2021研讨会 EMDL程序委员会共同主席等。主持多项国家级、市级和华为合作项目。


其他合作作者为香港科技大学(广州)数据科学与分析学域博士生潘星霖,哈尔滨工业大学(深圳)计算机科学与技术学院教授王轩,香港科技大学计算机科学与工程系讲席教授李波,以及香港科技大学(广州)数据科学与分析学域主任褚晓文教授。


热文排行