中科云达-GPU服务器-深度学习集群-HPC高性能计算-超微服务器

NVIDIA 语言理解新突破，有望实现实时会话AI

发表时间：2019年12月10日作者：浏览次数：1574

NVIDIA日前宣布在语言理解方面取得了突破性成果，令企业能够以更加自然的方式，使用实时会话 AI与客户进行互动。

BERT是当前最先的AI语言模型之一，NVIDIA 借助其 AI 平台率先将BERT的训练时间控制在一小时之内，并以仅比2 毫秒多一点的时间完成了 AI 推理。这种具有突破性的性能水平能够让开发者将先进的语言理解技术应用于大型应用程序之上，为全球数亿消费者提供服务。

早期采用 NVIDIA 性能提升技术的公司中包括Microsoft，平安科技以及全球范围内一些最具创新性的初创公司。借助于NVIDIA平台，这些公司为客户开发了高度直观、响应即时且基于语言的服务。

有限的会话 AI 服务已经存在多年。但由于此前无法实现超大型AI 模型的实时部署，聊天机器人、智能个人助理和搜索引擎的理解能力很难达到与人类相当的水平。然而，NVIDIA通过在其AI平台中添加关键性的优化功能，将此问题迎刃而解，在 AI 训练和推理方面都创造了新的速度纪录，并构建了迄今为止同类型中最大的语言模型。

NVIDIA 深度学习应用研究副总裁 Bryan Catanzaro 表示：“对于适用于自然语言的AI而言，大型语言模型正在为其带来革新。它们正在帮助我们解决那些最为棘手的语言问题，让我们距离实现真正的会话 AI 更进了一步。NVIDIA 所取得的突破性工作成果加速了这些模型的创建，让企业能够打造全新的高质量服务，以前所未有的方式服务客户，为其带来愉快的客户体验。”

最快的训练速度、最短的推理时间和最大的模型规模

预计未来几年，基于自然语言理解的 AI 服务将呈指数级增长。根据Juniper Research 的研究表明，在未来4年中，仅数字语音助手的数量就将有望从25 亿攀升到 80 亿。此外，据Gartner 预计，到 2021 年，15% 的客服互动都将完全通过 AI 完成，相比于2017 年，将增长 4 倍。

在引领这个新时代的过程中，NVIDIA 对其 AI 平台进行了多项关键性优化，从而创造了三项新的自然语言理解性能记录：最快的训练速度：BERT（Bidirectional Encoder Representations from Transformers）是世界上最先进的AI语言模型之一。NVIDIA使用搭载了92台 NVIDIA DGX-2H™ 系统的 NVIDIA DGX SuperPOD™运行该模型的大型版本，凭借 1,472 个 NVIDIA V100 GPU的强大性能，NVIDIA将 BERT-Large 的典型训练时间从几天缩短至仅仅 53 分钟。此外，NVIDIA还在单独一台NVIDIA DGX-2系统上执行了BERT-Large 模型的训练任务，用时也仅为 2.8天，这充分体现了 NVIDIA GPU 在会话 AI 方面的可扩展性。最短的推理时间：借助于运行了 NVIDIA TensorRT™ 的 NVIDIA T4 GPU，NVIDIA 执行 BERT-Base SQuAD 数据集的推理任务，用时仅为 2.2 毫秒，远低于许多实时应用程序所需的 10 毫秒处理阈值，与使用高度优化的 CPU 代码时所测得的 40 多毫秒相比，有着显著改进。最大的模型规模：开发者们对于更大模型的需求正在日益增长，NVIDIA 研究团队基于Transformer构建并训练了世界上最大的语言模型， Transformer是 BERT 的技术构件，也正被越来越多的其他自然语言 AI 模型所使用。NVIDIA定制的模型包含 83 亿个参数，是 BERT-Large 的 24 倍。

生态系统的采用情况

全球数以百计的开发者都已使用 NVIDIA 的 AI 平台，来推进他们自己的语言理解研究并创建新的服务。

在中国，基于GPU加速的BERT已经陆续在搜索引擎、广告系统、内容推荐、智能客服等实际应用中发挥重要作用。

中科云达V100 SXM2

适用范围GPU高性能计算深度学习、科学计算同时运用GPU与CPU服务器的数据中心。

人工智能训练

Tesla V100 拥有 640 个 Tensor 内核，是世界上第一个突破 100 万亿次 (TFLOPS) 深度学习性能障碍的 GPU。新一代 NVIDIA NVLink™ 以高达 300 GB/s 的速度连接多个 V100 GPU，在全球打造出功能极其强大的计算服务器。现在，在之前的系统中需要消耗数周计算资源的人工智能模型在几天内就可以完成训练。随着训练时间的大幅缩短，人工智能现在可以解决各类新型问题。

人工智能推理

Tesla V100 就是为了在现有的超大规模服务器机架上提供更高的性能。由于将人工智能作为核心，Tesla V100 GPU 可提供比 CPU 服务器高 30 倍的推理性能。这种吞吐量和效率的大幅提升将使人工智能服务的扩展变成现实。

高性能计算

Tesla V100 的设计能够融合人工智能和高性能计算。它为高性能计算系统提供了一个平台，在用于科学模拟的计算机科学和用于在数据中发现见解的数据科学方面表现优异。通过在一个统一架构内搭配使用 NVIDIA CUDA® 内核和 Tensor 内核，配备 Tesla V100 GPU 的单台服务器可以取代数百台仅配备通用 CPU 的服务器来处理传统的高性能计算和人工智能工作负载。现在，每位研究人员和工程师都可以负担得起使用人工智能超级计算机处理最具挑战性工作的做法。