国内云计算的缺失环节: GPU并行计算

2016-05-03 祁海江博士 智能投资研究院

祁海江:青岛五脉泉信息有限公司技术主管,宾夕法尼亚大学博士,南京大学硕士。多年从事图形图像、3D视觉、神经计算、机器学习等算法研究。

【IT时代周刊编者按】云计算特有的优点和巨大的商业前景,让其成为了近年来的IT界最热门词汇之一。当然,这也与中国移动互联网的繁荣紧密相关,它们需要有相应的云计算服务作为支撑。但本文作者祁海江结合自身的经验,对国内目前的云计算服务进行观察后认为,国内云服务商多数采用过于简单粗放的“远程机房+移动大硬盘”模式,不能满足并行图形处理的计算需求,“应认清技术潮流,整合前沿计算工具,尽快推进云GPU并行计算服务,促进中国移动互联网整体技术水准攀升。”那么云GPU并行计算服务有多重要?作者在文中作了深入浅出的解读,字里行间也能一窥国内云服务的夸大与事实上的落后现状。

很长时间以来,云计算成了一个热闹词汇。那么到底什么是云计算呢?它本质上是一种社会智力资源的共享,通过云端的技术封包,降低了难度门槛,使得更多用户可以采用各种原本“很难很先进”的技术。

这种技术可以应用到什么地方呢?我们看到现在中国的移动互联新经济高度繁荣,这就需要有相应技术高度的云计算服务作为龙骨支撑。但现在中国的云服务商多数采用过于简单粗放的“远程机房+移动大硬盘”模式,不能满足并行图形处理的计算需求。按照当今计算技术的趋向看——“视频音图+3D+规模机器学习+大数据分析=》高强度计算任务=》云GPU并行运算”,运营商应尽快认清技术潮流,整合前沿计算工具,尽快推进云GPU并行计算服务。这是因为:

1:现行的图形、图像及3D计算在各种视频游戏、电影产业、工业设计、医疗成像、空间探索、远程通讯等方面有着广泛的应用。

        随着计算机技术的发展,人们对图形和图像的处理要求也越来越高,尤其现在兴起的3D技术,使图形图像处理和3D计算已经应用到了各种视频游戏,电影产业,医疗成像,空间探索,远程通信等各个方面。

现在风靡的大型3D游戏,诸如《使命召唤》《极品飞车》等,这些游戏画面逼真,3D特效强烈,所以要求计算机对图形图像的处理能力要求也非常高。 2010年放映的电影《阿凡达》开创了动画形象代替了演员的3D电影的先河,它完美的运用了3D立体画面的创造了逼真的效果使画面美轮美奂。在工业设计上,有很多广为人们熟知的3D处理软件,例如AutoCAD,Maya,SolidWorks等知名软件。在医疗成像方面,3D/4D立体成像技术,使医护人员可以获得从传统平面显示无法捕捉到的信息数据,能够360度全方位立体读取影像信息,为临床诊断提供了更丰富、精准的影像资料,大幅度降低了对病灶的漏诊,提高了诊疗质量,必将掀起医疗影像信息处理的一次技术革命。

伴随着IT互联网以及手持终端的发展和普及,要处理的数据量的爆发式增长,手机上也出现了3D游戏的发展趋势,这些都对数据图像和3D计算提出了更多的需求。

由此看来,目前对图形图像以及3D计算的巨大需求,已经要求计算机需要具备强大的3D建模能力,然而CPU的串行处理能力远不能满足高效的处理图像以及3D计算的能力,因此并行计算技术的使用日益广泛。

2:以美国NVIDIA公司图形显示卡的CUDA运算包为代表的GPU并行运算技术,已成为工作站、服务器、个人电脑的标准组件。

       GPU是电脑图形显示卡上负责图像运算工作的微处理器。著名的显示卡公司NVIDIA为其主流显卡产品设计了专门的GPU并行计算工具包,称之为CUDA(ComputeUnifiedDeviceArchitecture,统一计算架构)。

以GeForce8800GTX为例,其核心拥有128个内处理器。利用CUDA技术,就可以将那些内处理器串通起来,成为线程处理器去解决数据密集的计算。而各个内处理器能够交换、同步和共享数据。利用NVIDIA的C-编译器,通过驱动程序,就能利用这些功能。亦能成为流处理器,让应用程序利用进行运算。GeForce8800GTX显示卡的运算能力可达到520GFlops,如果建设SLI系统,就可以达到1TFlops。

有软件厂商利用CUDA技术,研发了一个AdobePremierePro的插件。通过插件,用户就可以利用显示核心去加速H.264/MPEG-4AVC的编码速度。速度是单纯利用CPU作软件加速的7倍左右。

NVIDIA从所有基于G80及之后架构的民用与专业显卡或运算模块皆支持CUDA技术。整体运算能力比单纯利用CPU的速度提高7倍甚至更高。TeslaGPU是针对工作站和服务器的加速器,与消费级显卡和专业图形卡相比,具有完整的双精度浮点运算性能,具备双DMA引擎可满足双向PCIe通信,板载内存达到12G(TeslaK40GPU),具有专门的Linux补丁、InfiniBand驱动程序以及CUDA驱动程序,针对Windows 操作系统的CUDA驱动程序可实现更高性能,TCC驱动程序可减少CUDA内核的系统总开销并支持远程桌面(WindowsRemoteDesktop) 以及Windows服务。

3:以CUDA为代表的GPU并行计算技术,在多个领域已发挥重要作用。

  • 在科研界,CUDA应用广泛。例如,CUDA现已能够对AMBER进行加速。AMBER是一款分子动力学模拟程序,全世界在学术界与制药企业中有超过60,000名研究人员使用该程序来加速新药的探索工作。
  • 在金融市场,Numerix以及CompatibL针对一款全新的对手风险应用程序发布了CUDA支持并取得了18倍速度提升。Numerix为近400家金融机构所广泛使用。
  • 在消费级市场上,几乎每一款重要的消费级视频应用程序都已经使用CUDA加速或很快将会利用CUDA来加速,其中不乏ElementalTechnologies公司、MotionDSP公司以及LoiLo公司的产品。

4:NVIDIA公司非常重视GPU并行计算在云服务器上的嫁接,美国已有数家云服务商提供GPU并行的云计算服务

  • 2009年10月20日,NVIDIA与Mentalimages联合推出一款基于云计算的高端服务器——RealityServer。
  • 2012年5月17日,NVIDIA推出利用GPU加速云计算技术。
  • 2012年10月17日,NVIDIA推出了首款云计算虚拟GPU加速平台——VGXK2。
  • 2013年GTC大会上,NVIDIA带来了在云计算领域最新的产品服务器平台——NVIDIAGRID。

随后几年时间里,美国多家服务器厂商推出了各自的基于GPU并行计算的云服务平台。现在提供GPU云计算的服务提供商主要有Amazon,Nimbix,Peer1Hosting,SoftLayer, PenguinComputing等。

5:一个让人十分费解的局面是,国内各大云服务提供商(诸如阿里云、盛大云、万网云)似乎对GPU并行计算没有任何动作。

        自从云计算的概念提出,迅速在中国IT界形成了热点,大大小小的云服务商如雨后春笋般出现。几大云服务商以各种名目强调自身特色的云计算服务组合,如阿里云的“飞天”平台;百度BAE云平台;浪潮集团建立的HPC/IDC、媒体云、教育云;华为公司弹性云计算FusionCloud战略;腾讯云生态系统;华云数据公司推出的运营型PaaS平台。

然而在形形色色的各种名号之下,各家公司的服务内容非常同质化,基本都是网络存储 + 虚拟CPU计算时段租用的模式。对用户真正的运算需求理解挖掘不够,往往只是把一些浅层的PC功能简单转移到云端,对于复杂度高、维护难度大的运算功能未能提供虚拟层的解决方案。换句话说,凡是用户在PC端已经能轻松愉快做的事(比如办公软件),云服务商不厌其烦的去劝说用户将其转移到云端,而中小企业用户感到力不从心、真正需要帮助的具有技术难度的运算功能,云服务商就一问三不知了。

近期,笔者单位由于为客户开发的应用涉及高强度的数据处理,需要并行运算。我们与多个云服务商接洽,均未见有提供GPU并行运算服务。这是一个让人难以理解的局面,电话联系云服务商相关工作人员,他们的典型反应如下:

(客服人员)“这个我们不是很清楚,帮你转接技术人员”。

(技术支持)“没怎么听说过,这个国内好像还没有吧?”

(技术经理)“我们的服务器能不能加载GPU并行运算不清楚,不太了解市场有没有这样的需求”。

高性能并行计算主要采用CPU+GPU的异构模式,这种构架已经成功的在云服务器端实现资源虚拟化。但令人迷惑的是,中国国内各大云服务商的官网连 GPU并行运算的影子都看不到,甚至接触过的各大公司技术服务及营销人员似乎对GPU并行运算毫无概念。以下我们分别就几个问题,探讨这一尴尬局面的成因:

(1)难道GPU并行运算目前在国内没有市场?

(2)虚拟化GPU并行运算在国内的实施遇见技术上的困难?

(3)各大云服务公司管理层,是否对计算需求缺乏了解、对高性能技术发展不敏感?

(4)亦或是商务决策层与先进技术圈形成脱节?

        对上述的第(1)点市场因素:如前所述,随着图形图像、动画视频、3D运算、及大数据分析的广泛应用,对GPU并行运算的需求很高;而玩儿转这种高大上的前沿计算,普通中小企业在系统搭建、程序开发及维护都缺乏足够档次的常备技术队伍,因此非常需要云服务商的界入,降低此类技术的使用门槛,提供包括IaaS、PaaS、SaaS等整套共享租用服务。因此国内的市场需求是非常旺盛的。

        关于上述的第(2)点技术实施因素:虚拟化GPU运用于云计算服务的技术也早已成熟。如前所述,NVIDIA公司CUDA体系与云服务器已经有了完美的对接,在此基础上美国Amazon,Google,Joyent等公司均已提供相应的商业云计算租用服务。

2014年1月,曙光公司、NVIDIA公司、思杰公司合作推出“云图”(W760-G10),具备GPU硬件虚拟化的能力;虽然尚未见有明确的云租用服务,但是可以看出,技术实现并非阻碍所在。

       对上述的(3)管理层因素:近年成长起来的国内明星公司,如腾讯、阿里等,都经历了一个极短时间内的快速膨胀,很多早期人员随之自然升入高级管理层。然而,早期人员许多在自身的知识基础、学习能力方面存着严重的不足。大专生去面试本科生、研究生的现象实属常见。随着公司业务的拓展,整体技术积淀不足的弱点显露出来,管理层对技术的理解力与敏感度不够。

       对上述的第(4)点因素:中国IT及互联网的发展,曾长期奉行技术“拷贝主义”,精力心思多用于摸索中国土壤上的营利模式。中国企业对于应用层面的市场敏感度是相当出色的。但是,对于深层的技术策源动向,一直是忽视的。商务决策层需倚靠技术管理层的建议,而技术管理层或者自身够不着技术前沿、或者早已脱离技术前沿;中国高校科研机构以纯文章数为导向的研究风气,培养不出既尖端又实用的新鲜血液给企业,也鲜有学术专家真正花心思做好企业顾问。种种原因,商务决策层和先进技术圈是脱节的。

因此我们认为,对GPU并行云计算的市场需求和技术实现都不是问题所在。中国有志于做好云计算服务的各个公司,有必要进一步提升其技术管理层的技术素养、商务决策层的技术意识。

【IT时代周刊批注】虽然全球云计算市场保持着平稳增长的态势,但也应看到,各个国家间的云计算产业、市场和服务现况相距非常大。以中国为例,除了上述云服务企业存在的技术和服务因素外,传统的网络安全也不容忽视。有专家就指出,国内云服务商在网络安全方面的防护措施仍比较薄弱。国内典型云服务企业发生的安全事件中有50%是传统网络攻击造成的,占比达53%,随着我国云服务用户规模的不断扩大,安全问题数量也将迅速增长。

6:云计算商应脚踏实地、聚焦本质价值:帮助众多中小公司运用前沿计算工具,提升中国移动互联新经济的技术档次。

中国过去三十多年的经济奇迹,是从无到有、从低到高的迅速变换过程。在经济层次迅速攀升的年代,昨日的成功者、今日的弄潮儿,难免不受以往经验与习惯思维的影响。出于习惯,凡起商业项目,重视商业渠道的争夺、善于造势,对于产品内涵价值的挖掘却很欠缺。此种做生意的方式,不可否认在以往也取得过巨大的成功,但是我们也看到,每当新流行概念出现,就呈现“众口一词、一拥而上、简单复制、同质单一”的局面。善于热炒,而不扎实做事,不深入挖掘概念的内涵价值,如纳米、物联、机器人、3D打印等等流行热点比比皆是。概念固然很好,不做实做真,终究增加不了硬实力。

云计算服务,通过将繁琐的技术维护的移至云端,把“很难很先进”的技术功能打包封装,降低用户使用的技术门槛,实现社会智力资源共享。而现今中国的大大小小云服务商,简单讲就是个“远程机房+移动大硬盘”模式,意义着实有限。当今世界经济几乎唯中国一枝独秀,中国名企牛气冲天,何以搞个云计算却停留在如此低的层次?归根结底还在于商务观念未脱落低水平市场中粗放竞争的历史烙印,不习惯通过深挖技术内涵,发挥内在价值而建立商务优势的路线。

云计算作为一个“很实在很技术”东西,服务对象是商业应用型公司,具有理智化决策的行为特征。脑白金式的蒙蔽营销手法登峰造极,放在这里却未必有效。中国的移动互联新经济在应用层面,欣欣向荣,活力四射,全世界数一数二。相应的,云计算服务作为其龙骨支撑,不跟上是不行的。大量的视频音图+3D+ 规模机器学习+大数据分析=》高强度计算任务=》云GPU并行运算,这是一个非常简单明了的推导链条。何必瞻前顾后,剪不断理还乱?

【IT时代周刊编后】作者的这篇文章直接点出了国内云计算与先进国家的差距。在美国,以微软、谷歌、亚马逊等巨头为代表的IT企业,正在不断巩固自身在云服务上的优势地位,而且不断向海外市场拓展。有数据显示,全球前100个云计算企业中,超过80家是美国企业。而相比之下,国内云计算市场的体量虽说也在不断增大,但云服务企业的技术和服务有待提高、服务易用性、安全性、数据的迁移与分配等都有非常大的提高的空间,要做出调整和改进,首先需要改变以硬件采购为主的市场结构才行。