首页 > IT业界 > 正文

探秘百度无人车背后的异构超算服务器
2016-07-12 20:49:32   来源:   评论:0 点击:

目前,国内人工智能技术已经日趋成熟,科大讯飞的语音识别、小米的智能硬件、百度的无人驾驶汽车都从各个领域影响着我们的生活。人工智能背...
目前,国内人工智能技术已经日趋成熟,科大讯飞的语音识别、小米的智能硬件、百度的无人驾驶汽车都从各个领域影响着我们的生活。人工智能背后,是由深度学习建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,让机器会思考会判断。但是深度学习所需要的并行计算不是CPU的强项,因此高性能的CPU+GPU协处理加速的服务器正成为实现深度学习必不可少的基础硬件。

但是,目前市场上GPU服务器的配置各异,有2U2卡,1U4卡,3U8卡,4U4卡,4U8卡等等服务器形态。如何做好选择,搭建最合理的训练架构,是开启深度学习之路的第一步,这一步也会关系到后期训练的效果。作为人工智能领域的先行者,百度在其无人车路况模型训练中,选择的是浪潮NF5568M4 异构超算服务器,在4U空间内配备双路E5-2600v3 CPU和4块GPU卡,单机最高双精度浮点计算能力可达每秒7.5万亿次。那么,百度、阿里巴巴、奇虎等领先的互联网企业为何选择NF5568M4这类4U4卡的异构超算服务器?

性能为王,但仍需考虑适用性

多卡GPU+CPU架构架构需要大量的GPU核心数,在单机内的选型原则,以最多卡数为主。理论上,单机越多GPU卡的堆叠,性能也会达到更高。但是,每块GPU卡的功耗在235W—250W左右,加上服务器的CPU和其他部件,一台4卡GPU机器在工作状态会达到近2000W的功率,而8卡的甚至能达到3600W以上。

GPU卡因强大的并行计算能力而成为“功耗大户”

目前,大部分公司的机房都是租赁的IDC机房,现在国内机房提供的机柜一般为42U高度,电量10A,13A或者16A,换算为功率就是2200W,2860W或者3520W。而42U的机柜用电,被4U高度的GPU全部占用,这显然不能被接受。因此,像浪潮NF5568M4这类单机4块GPU卡的配置是目前互联网行业的主流,既能达到足够的计算能力,又能兼顾机房用电。

4U高度,给热空气一点出路

一台4卡GPU机器在工作状态会达到近2000W的功率,而8卡的甚至能达到3600W以上,如此大的功率就有大量的散热需求,一般情况下,GPU卡和服务器风扇的设计比例是1:1,以满足散热需求。但是根据实测1U或2U高度的服务器,一旦达到4卡或8卡跑满,整机温度曾经飙升到96摄氏度!

为了解决散热问题,只能大幅度的提高机器风扇的转速,这样会大大提高机器的功耗,功耗问题还是其次,问题是提高风扇转速之后带来较大的噪音和震动,会严重缩减机器的寿命,甚至会发生宕机,给业务带来严重影响。另外1U、2U由于空间受限,也会对扩展能力产生影响,没有办法实现双网卡+raid保护功能。

浪潮NF5568M4拥有4U的高度,因此内部有更多的空间和通道用于散热,并且单机设计了多达10个散热风扇,给热空气留一点出路,也就为GPU卡降低一点温度。

优化Caffe框架,实现多机多卡GPU集群

随着神经网络模型的日趋复杂,模型训练所需要的计算性能也急剧攀升。单机单卡甚至单机多卡的设计已经不能满足部分用户的需求。为此,浪潮发布集群版Caffe-MPI计算框架,实现跨GPU服务器的并行计算。

它采用高性能计算行业成熟的MPI技术对Caffe版本进行数据并行的优化,可通过IB网络将多台NF5568M4组成GPU并行计算集群。据实测,由4台NF5568M4组成的16卡GPU集群,性能较单卡提升13倍,节点扩展效率达到90%以上。既发挥4卡机器稳定性、散热等优势,又能实现多机多卡的高性能GPU计算集群,满足客户高强度并行计算需求。

新一代Caffe-MPI在4节点下16卡的性能较单卡提升13倍

另外,浪潮Caffe-MPI增加了对cuDNN库的支持,利用这款针对深度神经网络的GPU加速数学例程库,开发者可以将其集成到更高级的机器学习框架中,从而加速其深度学习项目和产品的开发工作。

浪潮NF5568M4的4U4卡设计更适合当前的数据中心的电力、散热设计,并且可以通过开源的浪潮Caffe-MPI构建多机多卡的GPU计算集群,因此成为目前互联网行业GPU服务器的主流机型。目前,浪潮的深度学习解决方案已经应用在腾讯、百度、阿里、奇虎、科大讯飞、京东等众多互联网公司,正在支持各种不同类型的“超级大脑”为社会提供智能化的服务

相关热词搜索:背后 服务器

上一篇:分期乐肖文杰:互联网消费金融仍是万亿级蓝海
下一篇:最后一页

分享到: 收藏
评论排行