(于晧暄 文/图,漆舒汉 审核)2024年5月30日,广东省安全智能新技术重点实验室主办,深圳市计算机学会大模型专委会协办的SAILING讲坛第十三期于哈尔滨工业大学(深圳)顺利召开。
广东省安全智能新技术重点实验室是由广东省科学技术厅于2022年批准成立的省级科研平台,依托哈尔滨工业大学(深圳)进行建设管理。实验室遵循“开放、流动、联合、竞争”的发展方针。以提高自主创新能力为目标,聚焦广东优势学科、支柱产业以及重大战略需求,科学规划、整体布局,推进实验室体系提质增效,着力加强基础研究和源头创新能力,着力推进科技研发和成果转化,着力培育创新型人才队伍,着力强化开放共享,使之成为支撑广东建设更高水平科技创新强省的战略科技力量。
图1 讲坛宣传海报
本期论坛围绕《高效大模型训练系统》展开。随着ChatGPT和GPT4.0等大模型发布,如何高效训练大模型系统已经成为AI领域研究中的一个热门方向。本次SAILING讲坛由哈尔滨工业大学(深圳)漆舒汉副教授主持,由特邀嘉宾华为香港研究所研究员章霖博士做精彩报告。现场师生与嘉宾进行了积极友好的互动和讨论。
图2 章霖博士介绍讲座内容
章霖博士毕业于香港科技大学,现任华为(HKRC)系统研究员,主要从事机器学习系统与算法的研究工作,包括分布式深度神经网络训练、二阶优化以及图上的学习等领域。目前专注于大型语言模型的训练和推理工作。他曾在浙江大学获得学士学位,博士期间在李波教授的指导下进行研究工作。在研究生阶段,他发表了多篇关于机器学习和系统优化的论文,并多次在顶级学术会议上作报告。在科研方面,他积极参与国际学术交流。他的多项研究成果发表于ICDCS、NeurIPS、INFOCOM、ICLR等CCF A,B类会议和期刊上,为机器学习和人工智能的发展做出了重要贡献。
章霖博士做了题为《高效大模型训练系统》的特邀报告,主要围绕如何构建基于数千个GPU的大型语言模型高效训练系统的进行讲述。在报告中,他首先介绍了大模型基本架构和训练拥有数千亿参数的大型语言模型所面临的挑战。接着,他详细讲解了3D并行技术,包括数据并行、张量并行和流水线并行,展示了如何通过这些技术来应对训练过程中的复杂问题。他还探讨了在3D并行中实现减少内存、通信重叠和减少GPU空闲时间的方法,并分享了若干优化训练效率的性能提升的新机制,如flash attention和gradient checkpoint等。此外,他介绍了两种并行扩展方式,以支持长上下文和专家混合模型的训练。
图3 讲座过程中师生认真听取讲座内容
图4 章霖博士介绍Flash-Attention机制
最后,章霖博士逐一回答了现场师生提出的问题,深入探讨了大模型并行训练方法的各种问题,并分享了未来的研究方向和发展前景。
图 5 报告结束后章霖博士与现场师生合影