论文:
译文:大规模分布式深度网络
摘要
最近,无监督特征学习和深度学习的相关工作表明,训练大模型可以显著提高模型的性能。本文,我们考虑使用上万个CPU核心来训练有数十亿参数的深度网络问题。我们已经开发出名为DistBelief的软件框架,可以利用上千台机器组成的集群来训练大模型。在DistBelief内部,我们开发了两种用于大规模训练的算法。(i)Downpour SGD,一个异步随机梯度下降过程,支持大量模型副本做数据并行。(ii)Sandblaster,一个框架,支持大量分布式批量优化过程,包括L-BFGS的分布式实现。Downpour SGD和Sandblaster L-BFGS都提升了深度网络训练的规模和速度。
分布式优化算法
DistBelief的并行计算让我们可以实例化,以及运行比之前大很多的神经网络。为了在合理的时间内训练完这么大的网络,我们不仅需要在单个模型实例内并行训练,还要跨模型实例分布式训练。这一节,我们阐述分布式并行。