近日,北京大学-腾讯协同创新实验室(以下简称:实验室)宣布,北京大学与腾讯大数据团队将联合共建Angel4.0——新一代分布式深度学习平台,面向拥有海量训练数据、超大模型参数的深度学习训练场景,为产业界带来新的大规模深度学习破局之策。

实验室成立于2017年,主要在人工智能、大数据等科研领域展开前沿探索和人才培养,由北京大学计算机系副主任崔斌教授担任实验室主任,腾讯公司副总裁、数据平台部总经理蒋杰出任副主任。

实验室打造的Angel分布式机器学习平台(https://github.com/Angel-ML),于2017年对外开源1.0版本;2018年发布2.0版本,同时正式宣布加入LF AI基金会;2019年,Angel发布3.0版本,升级为覆盖机器学习全流程的全栈平台。其后不久,Angel顺利从LF AI基金会毕业,成为国内首个从该基金会毕业的顶级开源项目。

在深度学习领域,分布式训练已成为趋势。但分布式系统设计复杂,而且目前业界常用的深度学习框架在分布式训练方面存在不足,例如混合并行扩展性不灵活、领域类模型库不丰富等,这为从业者带来了不可忽视的挑战。为此,实验室将对Angel平台进行升级,通过扩展其深度学习能力,构建能够充分兼容现有生态、具备业界领先性能、同时提供丰富功能支持的工业级分布式深度学习平台,助力AI产业化发展,推动AI普适应用。

值得提出的是,实验室自主研发了河图(Hetu)深度学习引擎,解决超大模型训练时的自动并行问题,并具备通用、高效、敏捷、灵活和可扩展等特性。

现有的分布式深度学习系统,存在三大类问题:1、系统功能性问题,支持的通信架构、并行策略、一致性协议受限;2、系统易用性问题,分布式执行部署复杂,学习成本高;3、系统复杂性问题,计算与通信耦合程度高,不利于扩展和优化。

针对以上问题,河图进行了相应的优化设计。首先,河图支持所有主流通信架构、并行模式、同步协议以及常见优化方案,提供了更加丰富的功能,通用性更强;其次,河图支持半自动以及自动并行模式,硬件自适应感知最优分布式部署方案,部署更加便捷,提高了易用性;最后,河图支持统一分布式计算图中间表达,编译后适配多种通信算子,显著降低了系统架构的复杂性。

除此之外,实验室还在河图基础上进行了多项系统优化和学术创新,相关成果已经发表在SIGMOD、VLDB、ICDE、TKDE等国际顶级学术会议和期刊上,其他创新成果还将持续发布,并借助于Angel4.0生态应用到腾讯业务场景上,敬请关注。

目前,河图已对外开源(https://github.com/PKU-DAIR/Hetu)。在7月30日-8月1日举办的2021ACM中国图灵大会上,河图主要研发负责人、北京大学崔斌教授也进行了特邀报告,为与会的专家学者分享了河图的设计理念与系统亮点,受到广泛认可。近日,河图已经在由国家自然科学基金委等单位举办的第四届中国开源软件创新大赛上发起了赛题,邀请更多的开发者参与到河图研发之中。

除河图外,Angel4.0中也将实现与TensorFlow、PyTorch等业界主流框架,以及更多腾讯自研组件的生态兼容,极大降低使用复杂度,努力成为业务友好的、高效易用的工业级分布式深度学习框架。