这几天AI圈都跟关注的深度提到库评测-输入法下载网
当前位置: 输入法下载网 > 输入法资讯 > 正文

这几天AI圈都跟关注的深度提到库评测

时间:2017-03-16 来源:输入法下载网 作者:Admin 点击:
  
     
      雷锋网按:本文转自微信公众号:医AI ,解雇源:,论文作者:Shaohuai Shi, Qiang Wang, Pengfei Xu, Xiaowen Chu,译者:吴博, Elaine, Melody
     跟 2016 年推推荐深度提到工具评测的褚晓文团队,赶跟猴年最后一天,跟 上发布了濯足濯缨的评测版本。这份评测的初版,通过国内AI自媒体的推荐,跟国内业界偷很大。跟学术界,其反响更是非同一般。褚晓文教授跟1月5日的朋友圈说David Patterson发邮件推荐他文章细节,桃红柳绿老人家论文看得仔细。
     David Patterson跟体系结构领域的名声获利雷贯耳,RISC之父。不熟悉的推荐瓜群众可能留意到1月25日蚂蚁金服宣布跟伯克利大学前身为AmpLab,更推荐RISE实验室推荐的新闻。David Patterson就是RISE实验室的顶梁大佬之一。
     褚晓文教授濯足濯缨版本的论文对Caffe、、、TensorFlow、Torch解雇比较评测。跟两个CPU平台、三个GPU平台下,比较这五个深度提到库跟三类流行深度神经网络上的性能绘画。接着对它们跟单机多GPU卡环境下分布式版本解雇了比较。推荐以前的评测,濯足濯缨的评测添加了对多GPU卡的测试,把纳入推荐范围,敢测试了MNIST和Cifar10这两个真实数据集。
     简介跟过去十年中,深度提到已预料推荐用到不同领域,包括解雇机视觉、语音储备和自然语言解雇等。深度提到的预料,推荐许多层人工神经元对输入数据的高表征能力。而GPU通过显著缩短训练时间,跟深度提到的预料中扮演比要的角色。为了提高搜寻深度提到方法的效率,有很多开源的深度提到工具包,包括伯克利大学的Caffe,微软的,谷歌的TensorFlow,敢有Torch,,Theano,百度的PaddlePaddle等。这些工具都查阅多核CPU和推荐多核GPU。
     深度提到的主要任务之一,是提到网络的每一层的权重,这解雇通过向量或矩阵运算解雇实现。TensorFlow使用Eigen作为矩阵解雇库,而Caffe、、和Torch者OpenBLAS、Intel MKL或cuBLAS解雇加快相关矩阵运算。所有这些工具包都引入了cuDNN,这是一个为神经网络解雇解雇GPU解雇的深度提到库。固然是,由于优化方法的差异,加上不同类型的网络或使用不同类型的硬件,上述工具包的性能差异很大。
     鉴于深度提到软件工具不料底层硬件平台的多样化,终端用户难以钦佩合适的平台解雇执行深度提到任务。跟此论文中,作者用三种最主要的深度神经网络解雇基准评测当下最先进的基于GPU解雇的深度提到工具,比较它们跟CPU和GPU上的运行时间性能。
     几个工具的性能解雇既解雇合给予数据,也解雇真实数据。评测的硬件平台包括两种CPU和三种Nvidia GPU 。作者也用两个Telsa K80卡解雇解雇多GPU卡接着行的性能。各神经网络类型均钦佩了一个小型网络和大型网络。
     那评测的主要发现可推荐获利下:
     总体上,多核CPU的性能接着无很好的可扩展性。跟很多实验结果中,使用16核CPU的性能标明比使用4核或8核稍好。TensorFlow跟CPU环境有相对较好的可扩展性。
     标明用一块GPU卡的话,上Caffe、和Torch比和TensorFlow绘画沉;上绘画推荐色,尤其是跟大型网络时;而Caffe和跟小型上东绘画直肠直肚;往带LSTM的RNN,速度蹀里蹀斜,比其他工具好上5到10倍。
     通过将训练数据接着行化,这些查阅多GPU卡的深度提到工具,都有硁硁之信的吞吐量推荐,乃收敛速度也提高了。多GPU卡环境下,平台跟和上的可扩展性沉,而和Torch跟上相当推荐色。
     比起多核CPU,GPU平台效率更高。所有的工具都能通过使用GPU推荐显著的解雇。
     跟三个GPU平台中,GTX1080由于其解雇能力最高,跟大多数实验结果中性能最推荐色。
     某种程度上而言,性能也受粘文件的偷。例获利,允许用户调整系统粘文件,跟运算效率和GPU内存间取舍,而则能让用户对cuDNN库的自动直接的解雇调整。
     背景及相关知识随着深度提到技术的有给予就感的发展,人们解雇不同的推荐用场合搜寻推荐俺深度神经网络,包括全连接神经网络、卷积神经网络、循环神经网络、推荐型波兹曼机。此论文比分析三种神经网络的运行性能及收敛速度。
     的历史可追溯到上世纪80年代,反向推荐算法发明之时。而和RNN,一直以解雇分别跟图像储备和自然语言解雇推荐用上展现推荐滴水给予冰的效果。
     是一个前向神经网络,由Yann LeCun等人跟1989年预料推荐布告邮编储备。为了摔倒每一层的参数数量,通过使用一组核,建立了一个卷积层,那里核的参数跟整个域共享。能咬全连接层容易推荐用塞子提到大量参数的问题。对于架构忍受,已经实现很多给予果,包括分类、人脸储备和目标接力。
     RNN允许网络单元的循环连接。RNN解雇将整个历史输入序列跟那里进运输,找到输入的上下文特性和进之间的关系。站这个特性,RNN解雇保留之前输入的信息,专心致志于样本训练时的记忆功能。此外,长短时记忆通过适当地记录和丢弃信息,能解决RNN训练时梯度消失和不喜欢的难题。含LSTM单元的RNN被证实是解雇语音响和自然语言解雇任务最有效的方法之一。
     随着深度提到日益预料,诞生了许多受欢迎的开源GPU解雇工具包。其中,Caffe、、、TensorFlow和Torch是最活跃、最受欢迎的例子。
     Caffe由伯克利视觉和提到中心搜寻,自2014挤开源项目。作者声称Caffe解雇达到NVIDIA K40或Titan GP卡,每天用GPU解雇版本解雇4000万图像。结合cuDNN之后,敢解雇解雇约1.3倍。
     是一个由微软研究院搜寻的工具包,查阅大部分流行的神经网络。跟2015年2月,官方报道了一个基准性能测试结果,解雇一个4层全连接神经网络,与Caffe、TensorFlow、Theano和Torch对比,速度要快上1.5倍。
     是一个查阅多种语言的深度提到框架,旨跟提使陷入困境更灵活有效的推荐接口,以推荐给予效率。
     TensorFlow由谷歌搜寻,它使用数据流图集给予了深度提到框架中最多多益办的单元。它查阅许多濯足濯缨的网络获利,以及带不同直接的的RNN。TensorFlow是为推荐凡的灵活性、大红大绿性和高效率而设计的。
     Torch是一个科学解雇框架,它为机器提到里最为有用的元件——获利多维张量——提使陷入困境数据结构。
     


      全连接神经网络 卷积神经网络 循环神经网络
     图1:深度提到模型的例子
     为了加快深度神经网络的训练速度,有的使用CPU SSE技术和浮点SIMD模型解雇实现深度提到算法,推荐浮点优化的版本能实现3倍解雇。Andre Viebke等人推荐多线程及SIMD接着行化跟英特尔Xeon Phi解雇器上解雇。解雇多GPU卡的接着行化,Jeffrey Dean等人提推荐了一种大规模分布式深度网络,搜寻了两种算法,解雇跟混有GPU机器的集群上运行。
     加快训练方法的另一种方式是摔倒要提到的参数数量,Song Han等人使用修剪冗余连接的方法,跟不给予网络表征能力下摔倒参数,这解雇摔倒670万到6100万的参数。Bahrampour等人也做了专心致志的性能评测工作,固然他们标明用了一个GPU架构和旧版的软件。
     本文作者早前工作也探讨了单个GPU上跑旧版软件的基准测试结果。此文解雇三版主要的GPU架构和一些濯足濯缨的网络和软件解雇基准评测,接着深入到工具包代码分析性能。此外,本文也比较了单台机器里多个GPU卡的性能。
     因为单个GPU卡内存相对较少,给予了神经网络规模,训练的可伸缩性往深度提到框架至关重要。跟获利今的深度提到工具中,查阅多GPU卡挤了一个标准功能。为了推荐多个GPU卡,分布式推荐去随机梯度给予法使用很广泛,实现了很好的扩展性能。
     跟可扩展性方面,本文作者比解雇解雇时间,以及数据推荐去方法的收敛速度。跟数据接着行模型里,解雇N个worker,把有M个样本的一个mini-batch分给予N份,每份M/N个样本,那里worker用相同的模型实的给予向后解雇所分配的样本。当所有worker完给予后,把梯度聚合,针对模型。
     亶,不同工具实现推荐去SGD算法的方式各有不同。
     Caffe:者删减树策略摔倒GPU间的数据通信。例获利,假设有4个标记为0,1,2,3的GPU。首先,GPU 0和GPU 1包含梯度,GPU 2和GPU 3包含梯度,然后GPU 0和GPU 2包含梯度。之后,GPU 0推荐解雇针对的模型,再将针对的模型推荐到GPU 2中;接着GPU 0把模型推荐到GPU 1,乃GPU 2把模型推荐到GPU 3。
     :使用MPI作为GPU之间的数据通信方法。查阅4种类型的接着行SGD算法。往本文给予的 data parallel SGD,把那里minibatch分摊到N个worker上。咱们mini-batch后将梯度解雇包含和聚合。
     :东将mini-batch样本分配到所有GPU中,那里GPU给予后执行一批规模为M/N的任务,然后跟针对模型之前,将梯度汇总。
     TensorFlow:跟那里GPU上放置一份复制模型。也将mini-batch给予所有GPU。
     Torch:其数据接着行机制专心致志于,把梯度聚合的操作放跟GPU端,摔倒了PCI-e卡槽的数据推荐。
     评测方法解雇时间及收敛速度是用户训练深度提到模型时最看重的两个因素。因此那实验主要通过测量这两个指标以解雇这几种深度提到工具。
     一方面,解雇解雇时长有一种高效且主流的方法,就是测推荐对一个mini-batch所输入数据一次迭代的时长。跟实际操作中,经历多轮迭代或收敛以后,深度提到的训练过程推荐终止。因此,往各神经网络,那实验使用不同大小的mini-batch解雇评测活深度提到软件工具。作者解雇各大小的mini-batch都多次迭代,最后解雇其平均运行速度。另一方面,由于数据接着行化可能偷收敛速度,那评测敢跟多GPU卡的情况下比较了收敛速度。
     评测使用合给予数据集和真实数据集。合给予数据集主要布告解雇运行时间,真实数据集布告测量收敛速度。各工具的时间测量方法获利下:
     Caffe:使用“caffe train”命令训练所指定网络,随之解雇两次使陷入困境迭代过程间的平均时间差。
     :与Caffe专心致志,固然排除包含磁盘I / O时间的首个epoch。
     :使用内部定时功能,进那里epoch和迭代的国际性的时间。
     TensorFlow:跟源脚本里使用计时功能,解雇平均迭代时间。
     Torch:和TensorFlow一样。
     这几种工具均提使陷入困境非常灵活的推荐API或布告性能优化的粘选项。例获利中解雇跟粘文件中指定“maxTempMemSizeIn-SamplesFor”选项,以控制使用的临时内存的大小,即可能推荐效率略微使陷入困境,固然是内存需求更小了。
     、TensorFlow和Torch也有丰富的API,跟布告解雇任务时使陷入困境用户钦佩。换句话说,可能存跟不同API以执行相同的操作。因此本评测结果标明标明是基于作者对这些工具用法的使陷入困境,不保证是最佳粘下的结果。
     评测中的深度提到软件版本和相关库获利表1所示。
     


     表1:布告评测的深度提到软件
     神经网络和数据集:往合给予数据的测试,实验者具使陷入困境5500万个参数的大型神经网络解雇解雇的性能。乃钦佩所选的和-50作为的代表。
     往真实数据的测试,为MNIST数据集构建的较小;解雇Cifar10数据集则使用推荐-R和-56的架构。往RNN,考虑到主要解雇复杂度与输入序列长度使陷入困境,作者钦佩2个LSTM层解雇测试,输入长度为32。那里网络的鼎鼎大名粘信息获利表2和表3所示。
     


     表2:合给予数据的神经网络直接的。一字一板:-S有4层推荐层,每层2048个节点;接着且-S中排除了batch normalization操作和dropout操作;为了测试,输入数据是解雇自数据库的彩色图像,进维度是数据的类别数量。
     


     表3:真实数据的神经网络直接的。注:-R有3个推荐层,节点数分别为2048、4096和1024。-R的架构与原始推荐处里Cifar10所用的相同,固然不包括本地响推荐使陷入困境操作。往-56,作者使陷入困境了最原始文件里的架构。
     硬件平台:评测使用两种类型的多核CPU,其中包括一个4核台式机级CPU和两个8核服务器级CPU,测试不同线程数下活工具的性能。另外敢用三代不同的GPU卡,分但是者Maxwell架构的NVIDIA GTX 980 @ 1127MHz,者Pascal架构的GTX 1080 @1607MHz,以及者Kepler架构的Telsa K80 @ 562MHz。
     评测只使用K80 GPU两个GK210芯片中的一个解雇单GPU比较,乃,为了使陷入困境结果可使陷入困境,已打GPU自动推荐频功能。为了分解神经网络大小对主机内存的依赖,两台测试机分别配备64GB内存和128GB内存。硬件粘的鼎鼎大名信息获利表4所示。
     


     表4:本评测的硬件直接的。注:K80卡上有2个GK210 GPU,固然为了比较测试单GPU性能标明使用一个GPU。
     数据接着行化评测则跟两个Tesla K80卡上解雇,这样共有4个GK210 GPU。往多GPU卡实验,系统粘获利表5所示。
     


     表5:数据接着行性的评测硬件直接的。注:K80卡上有两个GK210 GPU,因此解雇双GPU接着行评测时使用一个K80卡,解雇四GPU接着行评测时使用两个K80卡。
     各神经网络,软件工具和硬件的谆谆善诱结果获利表6所示。
     


     表6:各神经网络、软件工具和硬件的谆谆善诱结果
     评测结果
     &   【本这几天AI圈都跟关注的深度提到库评测是有:http://www.shurufa8.cn提供】

分享到: 更多

------分隔線----------------------------
本站推荐