博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大规模分布式深度网络
阅读量:5170 次
发布时间:2019-06-13

本文共 484 字,大约阅读时间需要 1 分钟。

论文:

译文:大规模分布式深度网络

摘要

最近,无监督特征学习和深度学习的相关工作表明,训练大模型可以显著提高模型的性能。本文,我们考虑使用上万个CPU核心来训练有数十亿参数的深度网络问题。我们已经开发出名为DistBelief的软件框架,可以利用上千台机器组成的集群来训练大模型。在DistBelief内部,我们开发了两种用于大规模训练的算法。(i)Downpour SGD,一个异步随机梯度下降过程,支持大量模型副本做数据并行。(ii)Sandblaster,一个框架,支持大量分布式批量优化过程,包括L-BFGS的分布式实现。Downpour SGD和Sandblaster L-BFGS都提升了深度网络训练的规模和速度。

分布式优化算法

DistBelief的并行计算让我们可以实例化,以及运行比之前大很多的神经网络。为了在合理的时间内训练完这么大的网络,我们不仅需要在单个模型实例内并行训练,还要跨模型实例分布式训练。这一节,我们阐述分布式并行。

 

转载于:https://www.cnblogs.com/yangwenhuan/p/11319711.html

你可能感兴趣的文章
windows下使用lighttpd+php(fastcgi)+mysql
查看>>
二分查找算法
查看>>
结对学发音
查看>>
在gfs2中关闭selinux
查看>>
eclipse 安装svn插件
查看>>
运行Myeclipse时,如何删除IVM窗口
查看>>
转:运行yum报错Error: Cannot retrieve metalink for reposit
查看>>
ROS-turtlesim
查看>>
电子书下载:MySQL Stored Procedure Programming
查看>>
Linux目录初识
查看>>
从贝叶斯定理说开去
查看>>
markdown公式编辑参考
查看>>
JS的IE和FF兼容性问题汇总
查看>>
hdu 2642 Stars 树状数组
查看>>
linux下的5款桌面环境
查看>>
巴西柔术第三课:封闭式防守的降服技术
查看>>
chrome下使用JS检测浏览器是否使用开发者工具
查看>>
自定义Angular服务
查看>>
【转】正则表达式括号的作用
查看>>
Core Data持久化数据存储(1)
查看>>