碧居士>热搜>正文

英特尔依然是那个英特尔,且看英特尔的城防体系

2019-07-02 09:10:56 it产业网 分享

  数字时代所带来的变化是深刻的。在这一概念的驱使下,不仅发明了新的应用形态,更在这种新的应用及业务需求下规划了整个企业it架构。在这种新的it架构中,传统的计算、存储、网络等资源已经不再是用户关注的重点,取而代之的则是包括ai、大数据、云计算、iot等在内的各种能力。

  在这一it行业的整体变革中,无数新极速崛起。因此,短短几年内,在it的几乎所有领域都能看到新概念的崛起和流行。

  凡有新人笑,便有旧人哭。

  新进崛起的it一方面在开拓新的市场和需求,另一方面,他们也在积极的革各大老牌it企业的命。应用软件、数据库、中间件、管理软件、基础架构等各个领域的传统厂牌都在这场轰轰烈烈的变革中受到了或多或少的冲击。

  正如星星之火可以燎原,发生在应用层面的变革绝不会止于应用层面,而是会向着更上游的半导体领域蔓延。那么这场在应用领域引发无数“血雨腥风”的变革在上游半导体领域是否也会掀起同样的波澜?半导体行业的传统大佬能否靠自己的力量顺应并驾驭变革?

  没错,这里要谈的就是英特尔。

  变革的黎明,英特尔面临众多挑战

  作为行业中当之无愧的领导者,多年以来,英特尔凭借自身强大的产品和技术能力引领了整个行业的辉煌。但在新时代,英特尔却面临着诸多层面的挑战:

  挑战1:amd?

  以不错的架构性能为前提,推出了epyc系列处理器;在相同价位下提供更大的内存通道数和更多的核心数量,成功抬升了自身产品在数据中心市场中的占有率。。

  挑战2:arm?

  优势在于其可以提供更好的集成度、可扩展性及能效表现。目前,一些冷存储、原生androids服务或serverless计算已经开始尝试使用arm处理器。

  挑战3:nvidia?

  以gpgpu为代表的多元化算力正在ai大热的加持下迅速崛起。而作为这一领域中的代表,nvidia也正迅速扩大自己在数据中心市场中的地位并通过收购及合作拓展自己领土。

  此外,包括gen-z和risc-v在内的新架构、新指令集也都开始以自身的优势挑战英特尔所主导的传统计算机架构。如此看来,英特尔的前路的确布满荆棘。但已经平定四方稳坐龙头位置十几年的英特尔,真的就如此后知后觉、没有防备吗?

  这里,先不说利剑,只谈城墙。

  英特尔的城防

  虽然近几年在制程工艺领域进展缓慢的英特尔会被消费市场的用户时常以“挤牙膏”来调侃,但实际上,英特尔并没有真的闲下来。对于取得优势之后的英特尔来说,除了在新领域不断尝试之外,当然也会投入巨量精力在已经取得优势的领域中持续巩固优势,这才是符合商业逻辑的行为。

  经过十几年间不懈的努力,英特尔已经成功构建起了一圈由六大技术支柱共同组成的坚实城防。

  1、 制程与封装

  对于制程与封装技术的追求目前仍旧是整个半导体行业永久不变的核心目标。

  就目前的产品线而言,英特尔的14nm工艺虽不能算是行业中最领先的存在;这是不争的事实。但论对现有工艺的掌握程度而言,英特尔仍旧是行业中的翘楚。

  以英特尔最新推出的第二代至强可扩展处理器而言,其中顶级的至强铂金9282处理器已经能够在单一处理器上实现56个物理核心和3.8gb的turbo频率,整体tdp达到400w。处理器由两个die组成,每个单独的die约为694平方毫米。能够在商用产品中实现这样的频率、这样的核心面积、这样的功耗密度,足以说明英特尔对14nm工艺及相关封装技术的熟练程度。即便是量产工艺领先半步的三星和台积电也无法在7nm技术条件下生产出这样的产品。

  这样恐怖的工艺成熟度意味着使用英特尔至强铂金9282处理器的系统(目前仅有原厂系统)可以在双路情况下提供112个物理内核,实现同等机架空间内2倍的计算密度。

  而在5月底,使用10nm工艺的ice lake处理器也终于千呼万唤始出来,最终产品将于2019年底最先在笔记本平台面市。届时,英特尔将至少追平行业顶尖制程工艺水平,甚至还将在晶体管密度和成品性能等方面再次领先行业。当然,按照以往经验,新工艺下的数据中心产品则将会在消费级产品面市的一年后上市。

  对于英特尔来说,重回行业巅峰需要时间,但这一目标已经被列上日程。

  这里还要顺便再提一句。最新推出的英特尔® agilex™ fpga已经采用了10nm工艺,并实现了3d封装。通过将多个不同功能、不同ip、不同制程的die进行堆叠之后统一封装,agilex能够在片上实现更完整的功能、更好的集成性和更小的体积。这与在手机领域常见的“先封装再堆叠”原理相同,但效率不可同日而语。

  2、 xpu架构

  针对不同的应用负载,算力的多元化在当前技术条件下已经成为公认的趋势。

  虽然竞争对手都会用自己的gpu、asic、mips等处理器或芯片在某一应用领域对标英特尔的通用处理器,并宣称自身具备xx倍的优势;但坦率的讲,把针对某一计算类型或某些特定算法而制造的处理器(芯片)在单一应用场景中与通用处理器来对标性能,这种做法本身是欠妥的。

  面对算力多元化的趋势,英特尔有自己的解决方案——xpu体系。

  cisc指令架构虽然强调在单一处理器内针对多种计算类型进行特别优化以获得更好的应用编程及运行效果,但作为一款通用处理器,其核心目标依然是为所有计算类型提供支持,而非限定在某一特定计算类型。

  掌握了这一思路,便不难理解英特尔的xpu架构。

  在cpu领域中,第二代至强可扩展处理器内部集成了vnni深度学习加速指令集,能够针对tensorflow、caffe、mxnet等目前主流的深度学习框架提供加速。配合专门的openvino工具包,开发人员可以对程序、算法和模型进行深度优化,进而在对应的处理器上获得更高性能。相对于上一代至强铂金8100系列处理器,加入vnni指令集的铂金8200系列处理器能够在caffe resnet-50测试中取得接近2.5倍的性能,而更强大的铂金9200系列则能够实现5.2倍的性能。

  这种级别的性能提升在基于ai算法的推理应用有着相当重要的意义,能够让用户在不使用额外协处理器或计算卡的情况下就获得可观的推理性能提升,让ai应用的部署门槛更低、系统构型更简单。

  在实际应用中,vnni指令集让京东云在文本检测应用中获得了2.4倍的性能,让腾讯云在视频分析应用中实现了3.26倍的性能,让微软在图像识别应用中获得了3.4倍的性能,让阿里巴巴在8种不同工作负载中实现了2-4倍不等的性能。同时,百度自研的paddlepaddle框架也能在vnni指令集的加持下获得2至3倍的推理应用性能。

  最右侧的一列都是负载优化型至强

  当然,除了在指令集方面的进化之外,针对不同的应用类型,英特尔也在至强产品框架内推出了更多负载优化型产品。例如面向nfv领域的后缀为n的系列产品,面向大规模云化基础架构的v后缀系列处理器,面向应用的s后缀系列、面向物联网应用的t后缀系列以及采用speed select技术的、后缀为y的三合一系列处理器(适配多种profile,在bioses中切换以实现对相应负载的优化)。此外,英特尔还专门推出了一款面向网络应用及网络边缘解决方案至强d-1600处理器,基于这款处理器,英特尔还推出了专门应用在cdn等领域的数据加密和压缩加速卡——qat。

  而除了这些cpu领域中的应用场景细分产品之外,英特尔还有应用在海量数据吞吐设备中的fpga、面向能效敏感型应用的atom系列、专业的神经网络加速芯片nervana、面向ai编程用户和学生群体的movidius神经网络计算加速棒(u盘设计、无风扇)等等一系列面向不同负载类型和应用场景的产品。

  这些产品加在一起共同构成了英特尔的xpu体系。

  这些产品虽然无法做到所有计算领域和场景的全覆盖,但其中的每一款产品都包含了有的放矢的针对性设计,是可以满足不同类型用户需求的。

  3、 内存和存储

  除了以处理器为中心之外,冯诺依曼计算机架构的最大特点就要算是多级存储了。

  根据性能的不同,计算机内部的存储部件大致可以分为三层:性能最好的cpu内置缓存、性能第二的系统内存以及性能最差但容量更高的磁记录存储。

  在通常的认知下,存储分层颗粒度越小,性能过度越平滑,计算机系统的整体运行效率也就越高。因此,以现在的眼光来审视传统计算机架构内部的三级存储划分,很容易发现其中的不合理之处:内存与磁介质存储之间性能差距过大。闪存介质的出现能够通过在两者之间增加一个热数据层的方式在一定程度上解决这一问题。

  之所以要用“一定程度上”这个词,是因为即便是在带宽更高、延迟更小的nvme协议之下,目前的ssd产品也普遍只能达到3xxx mb/s和ms级响应的性能水平,这与ddr4内存到cpu缓存之间动辄10万mb/s的带宽和以ns为单位的延迟之间仍然有巨大的性能差距。

  如果再加一层,对于操作系统和应用的挑战太大,很难在短时间内普及。因此,英特尔给出的解决方案便是傲腾数据中心级持久性内存。

  简单来讲,傲腾内存所采用的3d xpoint介质是一种在延迟响应、传输速率、使用寿命等方面远超过目前的nand闪存的产品;而相对于dram颗粒,3d xpoint介质则拥有非易失性和容量方面的优势。将它与dram在dimm上混合使用能够在不对现有计算机体系造成太大挑战的情况下实现计算机性能的大幅提升(现阶段,性能提升的幅度与使用场景密切相关)。

  第二代至强可扩展处理器已经全面加入了对傲腾数据中心级持久内存的支持。目前,傲腾持久内存有两种应用模式,一种是app direct mode,另一种是memory mode。

  在app direct mode中,dram与傲腾持久内存同时作为系统内存出现在操作系统与应用面前,应用需要针对两种内存的性能特点有区别的使用两种介质;dram负责承担io性能,而傲腾持久内存则凭借容量和非易失性的特点提供容量和可靠性。当然,这需要应用在内存操作机制上做出调整并进行针对性的调优。

  目前,支持这一模式的主要应用便是sap的hana内存数据库和开源的redis内存数据库。在sap hana应用中,傲腾持久内存与dram的联合应用创造了9.1b的io性能世界纪录,而在redis中,傲腾持久内存的使用也能带来最多8倍的性能提升。

声明:本站部分资源来源于网络,版权归原作者或者来源机构所有,如作者或来源机构不同意本站转载采用,请通知,将第一时间删除内容。本站刊载文章出于传递更多信息之目的,所刊文章观点仅代表作者本人观点,并不意味着本站赞同作者观点或证实其描述,其原创性及对文章内容的真实性、完整性、及时性本站亦不作任何保证或承诺,请读者仅作参考。
编辑: