首页  >  学术活动  >  学术交流  > 正文
论文速递【视频生成大模型推理加速】PipeDiT:使用流水线和模型分解加速扩散Transformers视频生成
发布时间:2025-12-19 19:53 浏览:[]

近日,哈尔滨工业大学(深圳)施少怀教授课题组的一年级博士生王思杰作为第一作者的学术论文《PipeDiT: Accelerating Diffusion Transformers in Video Generation with Task Pipelining and Model Decoupling》被CCF-A类国际顶级学术会议The 40th Annual AAAI Conference on Artificial Intelligence(AAAI 2026)接收。该论文的合作作者包括王强副教授,通讯作者为施少怀教授,哈尔滨工业大学(深圳)为第一完成单位。

论文简介:视频生成技术近年来发展迅速,基于扩散Transformer(DiT)的视频生成模型(包括扩散模块和VAE生成模块)已展现出卓越的能力。然而,它们在实际应用中的部署仍常受到推理速度慢与内存消耗高的限制。为此,本文提出了一种名为 PipeDiT 的全新流水线加速框架,用于提升视频生成的效率。该框架包含三项核心创新。首先,本文提出了一种用于序列并行(SP)的流水线算法 PipeSP,使潜变量生成过程的计算与多 GPU 间的通信能够并行流水执行,从而降低推理延迟。其次,提出DeDiVAE 方法,将扩散模块与 VAE 模块解耦为两个 GPU 组,并将它们的执行过程进行流水化,以减少内存占用并进一步降低推理延迟。第三,为了更充分地利用 VAE 组中的 GPU 资源,本文提出了一种注意力协同处理(Aco)方法,进一步降低整体视频生成的延迟。

本文将PipeDiT 集成到两个先进的开源视频生成框架——OpenSoraPlan和 HunyuanVideo中,并在两个8-GPU系统上进行了大量实验。实验结果表明,在多种常见分辨率和时间步配置下,PipeDiT相较于OpenSoraPlan和HunyuanVideo能实现1.06×到4.02×的加速效果。


1. PipeSP流程


2.PipeDiT整体流程


1. PipeDiT相较于基线的效率比较



作者简介:

第一作者:王思杰,哈尔滨工业大学(深圳)2025级博士研究生,研究方向为视频生成领域推理加速,强化学习框架设计。目前以第一作者身份发表 CCF-A类会议论文1篇。


通讯作者:施少怀,哈尔滨工业大学(深圳)计算机科学与技术学院教授、博士生导师,2022年入选国家级青年人才计划,“鹏城孔雀计划”特聘岗位B档。2020年在香港浸会大学获得博士学位,2020-2022年在香港科技大学计算机科学与工程系任研究助理教授。研究兴趣为机器学习系统和高性能计算,在相关领域共发表文章50余篇,包括TPDS、ASPLOS、EuroSys、INFOCOM、ICLR、MLSys等顶刊或顶会论文,总谷歌学术引用3500余次,H-index为30。荣获国际会议IEEE DataCom 2018和IEEE INFOCOM 2021最佳论文奖以及IEEE ICDCS 2025杰出论文奖。入选2024年和2025年度“全球前2%顶尖科学家榜单”,荣获2024年度华为计算产品线最佳技术合作奖和2024年度华为“昇腾科研创新卓越贡献者”奖项。同时担任多个学术服务,包括国际智联网络系统学会理事、IEEE/ACM IWQoS 2024 Poster共同主席、ACM MobiSys 2021研讨会 EMDL程序委员会共同主席等。主持多项国家级、市级和华为合作项目。


热文排行