目前GPU服务器主要应用于科学计算、深度学习、高性能计算、视频编解码等不同场景领域。它为应用程序提供非凡的加速计算能力,将应用程序的计算密集型工作负载转移到GPU上。根据Market Growth Insight数据显示,到2026年底,应用于人工智能市场的GPU份额预计将达到20亿美元。
一、什么是GPU服务器?
GPU即图形处理器,又称显示核心、视觉处理器、显示芯片,是一种专门用做图像和图形相关运算工作的微处理器。GPU服务器是基于GPU的应用于视频编解码、深度学习、科学计算等多种场景的快速、稳定、弹性的计算服务。
二、GPU服务器有什么作用?
GPU加速计算可以提供非凡的应用性能,能将应用计算密集部分的工作量转移到GPU中,同时CPU仍然运行其余的程序代码。从用户的角度来看,应用程序的运行速度明显加快。
理解GPU和CPU区别的一个简单方法是比较它们处理任务的方式。CPU由几个针对顺序串行处理进行优化的核心组成,而GPU则具有由成千上万个更小、更高效的核心组成的大规模并行计算架构(专为同时处理多个任务而设计)。
三、GPU服务器的主要应用场景
1、海量计算处理
GPU 服务器超强的计算功能可应用于海量数据处理方面的运算,如搜索、大数据推荐、智能输入法等:
- 原本需要数天完成的数据量,采用 GPU 服务器在数小时内即可完成运算。
- 原本需要数十台 CPU 服务器共同运算集群,采用单台 GPU 服务器可完成。
2、深度学习模型
GPU服务器可作为深度学习训练平台:
- GPU服务器可直接加速计算服务,亦可直接与外界连接通信。
- GPU服务器和云服务器搭配使用,云服务器为 GPU 服务器提供计算平台。
- 对象存储 COS 可以为 GPU 服务器提供大数据量的云存储服务。
四、如何正确选择GPU服务器?
选择GPU服务器时,首先要考虑业务需求,选择合适的GPU型号。在HPC高性能计算中,也需要根据精度进行选择。比如一些高性能计算要求双精度,这时如果用P40或P4就不合适,只能用V100或P100。同时对显存容量也会有要求。比如石油或石化勘探中的计算应用,对显存的要求更高;有的还对总线标准有要求,所以GPU型号的选择首先要看业务需求。
当GPU型号选定后,再考虑用什么样GPU的服务器。这时我们需要考虑以下几种情况:
1、租用边缘服务器时,需要根据数量选择相应的服务器如T4或P4,同时需要考虑服务器的使用场景,如火车站卡口、机场卡口或公安卡口等;中心端做Inference时可能需要V100的服务器;需要考虑吞吐量以及使用场景、数量等。
2、需要考虑客户本身的使用人群和IT运维能力,对于BAT这样的大公司来说,自身的运营能力比较强,所以这个时候会选择通用的PCI-e服务器;对于一些IT运维能力不太强的客户,更注重数字和数据标注。我们把这些人称为数据科学家,选择GPU服务器的标准会有所不同。
3、需要考虑配套软件和服务的价值。
4、考虑整体GPU集群系统的成熟度和工程效率。比如像DGX这种集成GPU一体化的超级计算机,它有非常成熟的从底端的操作系统驱动Docker到其他部分都是固定且优化过的,这时效率比较高。
作为国内品牌服务器厂商,蓝海大脑机架式GPU服务器拥有大规模并行处理能力和无与伦比的灵活性。它主要用于为计算密集型应用程序提供足够的处理能力。GPU的优势在于可以由CPU运行应用程序代码,同时图形处理单元(GPU)可以处理大规模并行架构的计算密集型任务。专用GPU服务器是医疗成像、广播和视频转码市场的理想选择。
五、GPU服务器的种类有哪些?
对GPU服务器的分类,首先需要确定一个角度(维度)来对GPU服务器做分类。
1、按GPU服务器外形分类。 分为塔式GPU服务器、机架式GPU服务器
1)塔式GPU服务器
塔式GPU服务器机箱比较大,服务器的配置也可以很高,冗余扩展更可以很齐备,所以它的应用范围非常广,应该说使用率最高的一种服务器就是塔式服务器。我们平时常说的通用服务器一般都是塔式服务器,它可以集多种常见的服务应用于一身,不管是速度应用还是存储应用都可以使用塔式服务器来解决。成本低于机架、刀片服务器。由于机箱较大,具备良好的扩展能力和散热性能,可以配置多路处理器、多根内存、多块硬盘、多个冗余电源和散热风扇。
2)机架式服务器
外形看不像计算机,而像交换机,有1U(1U=1.75英寸=4.445cm)、2U、4U等规格。机架式服务器安装在标准的19英寸机柜里面。该结构多为功能型服务器。
对于信息服务企业(如ISP/ICP/ISV/IDC)而言,选择服务器时首先要考虑服务器的体积、功耗、发热量等物理参数,因为信息服务企业通常使用大型专用机房统一部署和管理大量的服务器资源,机房通常设有严密的保安措施、良好的冷却系统、多重备份的供电系统,其机房的造价相当昂贵。如何在有限的空间内部署更多的服务器直接关系到企业的服务成本,通常选用机械尺寸符合19英寸工业标准的机架式服务器。机架式服务器也有多种规格,例如1U(4.445cm高)、2U、4U、6U、8U等。通常1U的机架式服务器最节省空间,但性能和可扩展性较差,适合一些业务相对固定的使用领域。4U以上的产品性能较高,可扩展性好,一般支持4个以上的高性能处理器和大量的标准热插拔部件。管理也十分方便,厂商通常提供相应的管理和监控工具,适合大访问量的关键应用,但体积较大,空间利用率不高。
2、按GPU服务器接口进行分类
目前市面上可以进行交付的主要是传统PCI-e总线和NV-Link接口。
1)NV-Link总线技术标准GPU服务器
NV-Link接口GPU的典型代表是NVIDIA V100,采用SXM2接口。DGX 2上有一个SXM3的接口。具有NV-Link总线标准的GPU服务器可以分为两类:一类是英伟达设计的DGX超级计算机,另一类是英伟达合作伙伴设计的具有NV-Link接口的服务器。DGX超级计算机不仅提供硬件,还提供相关的软件和服务。
2)传统PCI-e数据总线GPU服务器
传统PCI-e总线GPU服务器分为两类,一类是OEM服务器,如曙光、浪潮、华为等国际品牌;另一类是非OEM服务器,也包括很多种。
3、按服务器环境分类
加固GPU服务器 也叫抗恶劣环境GPU服务器。一般是指在特殊的环境下工作的GPU服务器,如:车载GPU服务器、弹载GPU服务器、机载GPU服务器、船舶GPU服务器等特殊行业应用。不同应用行业、不同应用环境下的GPU服务器应用指标也不相同。一般来说车载GPU服务器最重要的技术指标是高低温指标,机载GPU服务器最重要的技术指标是震动指标(冲击震动或均速震动),船舶GPU服务器最重要的技术指标是三防指标(盐、雾、霜),弹载GPU服务器要求的技术指标是就更全面啦!生产厂商几乎都是国家队如:706、716、909等。
4、按GPU散热分类
液冷GPU服务器和水冷GPU服务器最大的不同点是散热的方式不同。水冷服务器散热方式是水(水的热效比目前是优于液体的热效比),但水有导电的通用性,所以水冷服务器目前还没有在市上大量应用,液冷GPU服务器则不同,液冷GPU服务器是综合热效比、导热比、可靠性等各项指标技术的综合性技术的产物。最大的特点就是静音、节能35%。目前生产厂商有如:蓝海大脑、阿里、百度、字节跳动(正在研发中)等。
5、按CPU品牌分类
按照GPU品牌类型可分为Intel 处理器的GPU服务器、AMD 处理器的 GPU服务器或者ARM芯片的GPU服务器等。
6、按应用场景分类
按照应用场景可将GPU服务器分为图形加速GPU服务器(如视频编解码)、AI训练 GPU服务器、AI推理GPU服务器、科学计算GPU服务器。