热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

当计算停留着网格内Mellanox用智能网络助跑AI

随着大数据、人工智能和高性能计算的热度不断升温,Mellanox的身影开始出现在越来越多的场合中,其高性能网络被越来越多的用户采用。不论是国外的微软、I

随着大数据、人工智能和高性能计算的热度不断升温,Mellanox的身影开始出现在越来越多的场合中,其高性能网络被越来越多的用户采用。不论是国外的微软、IBM、Facebook,还是国内的腾讯、阿里巴巴、百度、京东等大型互联网企业均选择Mellanox以太网或InfiniBand网络搭建高性能的IT系统平台。

当计算停留着网格内 Mellanox用智能网络助跑AI

作为RDMA(远程直接内存访问)技术的推动者,Mellanox一直以提供出色性能的网络著称,50%以上的HPC系统和主流人工智能公司均采用其RDMA网络(包括InfiniBand和RoCE)。近日由国际高性能计算咨询委员会主办的第五届大学生RDMA编程挑战赛落幕,作为重要的支持企业,Mellanox在接受至顶网采访时重申了RDMA的魅力以及Mellanox网络被越来越多用户青睐的原因。

当计算停留在网格内

熟悉了TCP/IP的人也许对RDMA感到陌生,其实RDMA作为一种零复制网络技术使网卡可以直接与应用内存相互传输数据,并且应用程序可以访问远程内存,而不占用CPU资源。InfiniBand则是最早实现RDMA的网络协议,被广泛应用到高性能计算中。除此外,RDMA的实现方式还包括RoCE和iWARP。近期,阿里巴巴和百度相继采用Mellanox RDMA以太网(RoCE)构建高性能系统。

当计算停留着网格内 Mellanox用智能网络助跑AI

Mellanox亚太及中国区市场开发高级总监刘通

Mellanox亚太及中国区市场开发高级总监刘通表示,RDMA是解决人工智能时代数据传输瓶颈的最高效网络传输协议。无论是传统的高性能计算应用还是新兴的深度学习框架,RDMA通信方式都是其中的关键环节。

当计算停留着网格内 Mellanox用智能网络助跑AI

Mellanox公司市场部副总裁Gilad Shainer

RDMA所代表的技术体系是CPU卸载,Mellanox公司市场部副总裁Gilad Shainer指出,这也将是未来云发展的趋势,即让计算更靠近数据,数据在网卡里完成计算,Mellanox称其为网络内计算(In-Network Computing)。

当计算停留着网格内 Mellanox用智能网络助跑AI

2年前,Mellanox收购EZchip半导体公司,融合了其ARM CPU技术,加之Mellanox自己的网络芯片,从而把两者整合起来推出一款新的智能网卡为BlueField。“让网络具备计算能力和强大的数据处理能力,无论是加了FPGA还是加ARM CPU,总之这个网卡自己就会处理很多数据。”Gilad Shainer表示,数据一到网卡就已经处理完毕,而不必再经过PCIe到CPU,从而提升数据的运算效率,这就是BlueField所具备的能力。

如果说此前,Mellanox所倡导的“网络计算一部分数据、CPU计算一部分数据”,代表了Mellanox的CPU卸载技术理念,那么网络内计算则更近了一步,即让网络完成了大部分计算。Mellanox认为这种智能网卡将成为未来云计算中心的发展趋势。

Gilad Shainer说到智能网卡几个典型的应用领域,比如高速存储,利用NVMe over Fabrics的存储资源池化解决方案,Mellanox智能网卡可以卸载很多NVMe的通讯协议,从而构建大型存储资源池,实现更低的延迟和更高的性能,满足用户对高性能存储的需求。

智能网卡应用在安全场景也将是其施展拳脚的另一大领域,“把CPU上做的安全算法移到高速网络上面去,让智能网卡做安全,它的安全控制力更强。也就是当数据到网卡这一层,其中恶意流量就已经被拦截。BlueField上面有ARM CPU,可以编程一些复杂的安全算法。”Gilad Shainer说。

在Mellanox看来,智能网卡会在云计算中心大有用武之地,Mellanox的网络无论是性能还是卸载能力,再加上ARM芯片,两者结合起来会让BlueField在云市场十分具有竞争力。

Mellanox InfiniBand不是贵的代名词

很多人提到RDMA,可能会给它加上“昂贵”的标签。说到这,就不得不提英特尔的Omni-Path,近年来英特尔对Omni-Path进行大力推广,其提到的关键词就是“质优价廉”,特别是和Mellanox相比。不过Gilad Shainer却不认同,他用现实案例向记者介绍Mellanox的InfiniBand最终成为用户的选择,即使很多用户曾经选择过Omni-Path。他以BP英国石油举例,去年BP采购1000节点的集群,其中700台为Mellanox InfiniBand网络,300台为英特尔Omni-Path网络。但是经过1年的试用,今年再采购新系统时,BP已经完全不考虑Omni-Path了,而是变成完全采用InfiniBand。

“因为BP测试出,Mellanox网络的系统性能是Omni-Path的2.5倍,这就意味着它其实完全没必要花那么多钱去买那么多的CPU。完成同样的任务,Mellanox的InfiniBand对它来讲整套系统部署的成本更低,而不是单独去考虑网络本身的价格。”在Gilad Shainer看来,用户是很聪明的,他考虑的是整体的投资回报值不值得,所以最后BP切回InfiniBand,其实是省了总体成本。

不过,在性能方面,英特尔和Mellanox却是各说各话,英特尔说它的网络性能跟Mellanox的网络是一样甚至超越后者,所以价格更便宜。不过Mellanox一直回击,Gilad Shainer指出,“英特尔讲到的网络的性能跟我们差不多、价格更便宜,但是其所对比的Mellanox性能都远低于我们自己测试的性能。”

当计算停留着网格内 Mellanox用智能网络助跑AI

“拿实际应用程序的性能做一个基本的标杆进行对比,我们的性能会在8个节点到16个节点超出Omni-Path 40%、50%、70%甚至翻倍,所以这是非常大的区别。”Gilad Shainer说,简单比较带宽、延迟,双方也许差不多,但是如果真的拿应用程序比,我们的优势还是非常非常明显的,这是Mellanox向市场传达的声音。

Gilad Shainer甚至说,如果只是简单地看Linpack测试对用户来讲都是一种误导,只有跑在不同类型的应用程序上,数据才有价值。

当然,各种测试和数据也许搞得用户有点懵,不过Mellanox倒是希望用户拿去做实际应用程序测试,能够正确使用最优化的MPI,比如Mellanox 提供的HPC-X MPI。Mellanox会免费提供产品和技术支持。

小结

实际上抛开产品竞争的因素不说,今天的市场给了以Mellanox为代表的智能网络企业非常大的机遇。人工智能发展到今天,计算力是重要的驱动力, AI既然对计算的要求高,必然是Mellanox发挥重要价值的一个用武之地。实际上,目前已有大量先进的深度学习框架(如TensorFlow、Caffe2、Microsoft Cognitive Toolkit 和百度 PaddlePaddle)借助Mellanox的智能卸载功能,为多台人工智能服务器提供世界领先的性能和近线性扩展能力。

随着未来人工智能在云上大量应用,那就意味着高性能的网络会在AI云上大量被采用,这对于Mellanox及智能网络技术都是一个全新的机会。


原文发布时间为:2017年11月7日

本文作者:陈广成

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。




推荐阅读
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 嵌入式处理器的架构与内核发展历程
    本文主要介绍了嵌入式处理器的架构与内核发展历程,包括不同架构的指令集的变化,以及内核的流水线和结构。通过对ARM架构的分析,可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • Python脚本编写创建输出数据库并添加模型和场数据的方法
    本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块,然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据,本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外,作者还建立了关于Abaqus的学习交流群,欢迎加入并提问。 ... [详细]
  • Window10+anaconda+python3.5.4+ tensorflow1.5+ keras(GPU版本)安装教程 ... [详细]
  • 当写稿机器人真有了观点和感情,我们是该高兴还是恐惧?
    目前,写稿机器人多是撰写以数据为主的稿件,当它们能够为文章注入观点之时,这些观点真的是其所“想”吗?最近,《南 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
author-avatar
Yx宵夜
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有