数码之家

 找回密码
 立即注册
搜索
查看: 785|回复: 0

[业界] 跨越物理世界的藩篱 NVIDIA加速数字化未来

[复制链接]
发表于 2021-5-13 15:26:24 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x

  [  中关村在线 原创  ]   作者:徐鹏







      人类与AI和机器人共存的虚拟实时3D世界,不再只是科幻小说中的故事情节。在NVIDIA GPU技术大会的主题演讲中,NVIDIA首席执行官黄仁勋除了介绍一系列新品和AI技术,还重点提及了用于仿真、协作和自主机器训练的NVIDIA Omniverse,该云原生平台可以扩展至多个GPU,具有高物理精度,能够充分运用RTX实时路径追踪和DLSS,以及可以使用NVIDIA MDL模拟材料、NVIDIA PhysX模拟物理学,并与NVIDIA AI完全集成。随着3D设计在生产环境中运用得广泛而深入,复杂性也随之大幅提升,成为了团队在离线/在线混合式渲染、分布式运算等多平台作业时需要分工协作的系统工程。此时,一款专业的可视化生产力工具就显得尤为重要。

      “Omniverse会是NVIDIA未来的一个发展重点。”NVIDIA专业可视化亚太区业务主管沈威说。如今,要想调用3D工作流程具备丰富的技能,涉及不同行业、不同岗位的专业人士,还要受网络带宽、图形渲染等条件的影响,可能使用到数十款ISV工具(导入/导出、相互兼容等),在建模时产生的数据量甚至会超过GB,对传统的硬件平台和工作流程造成了不小的挑战。同时,过去的设计、仿真、调试等过程过于复杂,拉长了研发周期,导致研发成本增加。

      借助NVIDIA Omniverse等专业可视化工具,用户可以大幅缩短研发时间和成本,快速实现线上协作、数据迁移、软硬件就绪,提升各个环节的工作效率。例如,用户在使用3ds MAX、Omniverse View、Adobe Substance等典型工作流时,可能会用3ds MAX构建内外部元素、 用Adobe Substance调整光源等,之后还要导出生成给不同的人员协作,流程较为复杂。使用Omniverse之后,基于交换项目增量的服务器Nucleus可以为每一位使用者提供身临其境的实时交互体验,并且能高效连接数十种ISV工具,通过光线追踪、物理模拟、AI运算等新技术带来全新的视觉呈现。


                               
登录/注册后可看大图

NVIDIA Omniverse应用场景示例

      利用USD,用户在NVIDIA Omniverse中可以调用各类组件完成工作,例如通过Connector连接ISV、通过NVIDIA Kit工具包连接应用扩展程序、通过RTX Render做实时光线追踪、通过Audio2Face进行自然语言理解、通过Omniverse Create或Omniverse Mahinima创建3D仿真设计等等,而Nucleus就是Omniverse的核心,能够以云原生的混合方式,基于映射存取分布在本地数据中心或云端的数字资产。


NVIDIA Omniverse功能特性

      “我们深信,世界上所有可以构建出来的零组件都可以被虚拟化、可视化,可以把它拆成不同的3D建模放到Omniverse里,以可视化的方式进行如同真实制造出来模型一般的模拟和仿真。我们也相信,所有可移动的物体,都是可以自主驾驶的,而且所有自主驾驶的机器都可以进行仿真。”NVIDIA中国区高级技术市场经理施澄秋表示,“如果Omniverse可以虚拟出一个世界,导入基于HD map的数据,把渲染出来的图像‘喂给’无人驾驶车辆的行车电脑,让它们觉得这个就是它们的摄像头,当它们的雷达感知到真实世界的时候,我们可以让这些车辆不用上路便可以开始路训,这是Omniverse的愿景。我们希望能创造出一个全能的虚拟世界,帮助工业设计、自动驾驶等行业进行物理的模拟和仿真。”

      针对不同属性的用户,NVIDIA提供了相应配置的产品支持,包括RTX GPU、网卡、DPU等等,基于Ampere架构的RTX A5000和A4000就是两款新品,可以满足主流性能级别的图形计算需求。目前,NVIDIA有超过一百款专业级应用程序认证了Ampere架构RTX GPU,可满足多GPU、多任务、多工具之间的数据流调配、调度、渲染任务,搭载第二代光线追踪核心和第三代Tensor Core,支持TF32精度数据运算模式,只需调用一半的运算量,例如A5000 FP32吞吐量提升了2.7倍、光线追踪能力提升2倍,通过稀疏式运算将Tensor Cores的TF32性能提升了10倍。


NVIDIA RTX桌面级GPU

      部署过程中,用户可以根据需求选择由A4000单插槽组建高性能产品,或是降低A5000 GDDR6显存配置以获得更好的成本控制,而在峰值单精度算力、PCIe Gen4、核心数量和性能、GPU虚拟化等方面,两款A系列RTX新品均有着大幅升级的表现。DiamondView在搭建虚拟演播室和专业虚拟布景时,用LED搭配NVIDIA RTX图形显卡打造的大型虚拟演播室取代了过去的绿幕,从而实现了降本增效,ASTEC基于RTX A5000使用EDEM软件模拟了复杂地形和农用机械操作,快速完成了此前CPU运算长达数月的工作任务,类似的案例在AEC、M&E行业比比皆是。


AI加速性能

      作为一家加速计算平台供应商,NVIDIA希望在任意环境都能为客户提供更快的使用体验,不仅局限于GPU场景。过去,如果用软件通过OVS做性能转换,在消耗8个CPU核的情况下,包转发率是35万个包/秒,延迟会达到18.2微秒,当前的软件定义网络若仍然通过OS传统方式进行,就会消耗更多的CPU资源,最终效果并不好。而通过DPU网络硬件对软件定义网络进行加速,就可以得到硬件级的性能,使得包转发率达到1800万个包/秒,无需消耗CPU核心资源,大幅降低延迟。

      考虑到微服务的进程是一个任务完成后再启动下一个任务,因此最长延迟直接影响着整个业务的进度。下图右侧可以看到在某个IO操作时,延迟在没有硬件加速时是18.2微秒,使用硬件加速后是12.9微秒,但最长延迟在没有硬件加速的情况下,会超过一千多微秒。如果有了硬件加速,最长延迟就可以在几十个微秒量级下完成相应操作。


硬件加速环境示例

      “这是因为硬件加速的时候用到了BlueField DPU。”NVIDIA网络事业部亚太区市场开发高级总监宋庆春称。在传统基于软件的业务模式下,软件定义的网络、安全、存储和管理操作都需要主机CPU参与,导致后者在多任务时可能会出现抖动等问题,影响业务性能,而把基础设施上的负载由CPU卸载到BlueField DPU,就可以显著提升CPU的利用率,这一趋势已经从企业级市场向云游戏等消费级领域延伸。

      GTC大会期间,NVIDIA发布了NVIDIA Morpheus应用框架,为网络安全合作伙伴提供了一整套能够实时检测和预防安全威胁的加速AI技术。作为一个云原生网络安全框架,NVIDIA Morpheus能够通过机器学习来识别、捕捉和应对从前无法识别的威胁和异常情况,包括未加密敏感数据的泄露、网络钓鱼攻击和恶意软件。为安全应用部署Morpheus,可以充分发挥NVIDIA AI计算和NVIDIA BlueField-3 DPU的优势,为用户提供从核心到边缘的数据中心保护能力。

      Morpheus与BlueField DPU相结合,使网络中的每个计算节点都成为边缘网络防御传感器,企业无需复制数据,也能够以线速分析每个数据包。相比之下,传统的AI安全工具通常只能采样5%左右的网络流量数据,因此威胁检测算法并非基于完整的模型。

      Morpheus通过在边缘和AI技术的结合,利用实时的遥测、策略执行及操作,可以在不牺牲成本和性能的情况下分析更多的安全数据,开发者还能够在现有IP投资的基础上,使用深度学习模型来创建Morpheus AI功能。下图右侧中,通过DPU可以把所有数据送到GPU服务器上训练,如果没有DPU的情况下,有限的采样率会导致有价值的数据被忽略,恶意攻击的发现和被攻击后的修复时间要在数月或半年以上。DPU的加入使得数据采集规模和利用率大幅提升,新的安全策略也可以加强数据中心的可靠性。


DPU应用示例

      宋庆春表示:“我们从核心到边缘采用了统一的计算架构——CPU、GPU、DPU,三‘U’一体架构,CPU、GPU、DPU之间的协调计算让数据中心成为新型计算单元,我们在数据中心和边缘环境可以协调工作,实现非常快的时钟同步,确保在性能和安全保障方面采用同样的架构,做到非常好的性能和非常高的安全性。”

      NVIDIA vGPU的性能已成为驱动云和数据中心图形与计算密集型工作负载的重要推动力,支持vGPU、基于Ampere架构的A10和A16提供了更高的功率、显存和用户密度,A10 GPU可以帮助设计师和工程师提高虚拟工作站性能,A16 GPU则提供了两倍的用户密度并增强VDI体验。

      单槽位的A10搭载了第二代RT Core和第三代Tensor Core,与上一代NVIDIA T4 Tensor Core GPU相比,其图形性能提升了2.5倍,推理性能提升了2.5倍以上。由于A10可以支持虚拟化基础设施上的图形和AI工作负载,数据中心管理员可以灵活调配资源,并运用任何未被充分利用的计算能力来运行AI推理或VDI工作负载。与上一代M10相比,双槽位的A16用户密度更高,每块板可容纳高达64个并发用户数,总拥有成本降低了20%。


NVIDIA数据中心GPU产品


NVIDIA AI解决方案

      NVIDIA A10可以和NVIDIA RTX Virtual Workstation、Virtual Compute Server组合提升复杂工作流程的性能,A16则更多面向vPC场景,处理Office、在线视频、视频会议、多屏显示等应用,预计在下半年发货。配备A16 和NVIDIA vPC的GPU加速VDI,还提供了更高的帧率和更低的终端用户延迟,使得生产力应用和工具的响应速度变得更快,为远程工作人员提供优质的用户体验。

      强劲的图形性能为AR/VR/MR在数字内容创作、医疗、AEC、设计、M&E等领域的快速应用提供了基础算力支撑,不过在硬件体验方面仍面临着一些挑战,例如线缆、头盔等限制。为了让用户更加自由、更高性能的应用AR/VR/MR,NVIDIA给出了CloudXR解决方案,充分利用桌面级GPU的性能,可以把任意位置产生的AR/VR/MR内容通过vGPU串流到终端上。

      “CloudXR的愿景是把任意地点里面产生的XR(AR/VR)渲染出来的内容,通过网络实时的传输到任意的设备上。任意的设备包括一体式头盔、MR眼睛、任意的平板,以及有线头盔远程用入门级的笔记本也能满足VR需求,我们将会持续扩展生态。”NVIDIA售前方案架构师宋燊称。

      当用户没有机会进行实时渲染而影响体验时,NVIDIA会在云端数据中心(下图左侧)安装插件,让传统VR运行软件认为自己连接了一个头盔,把虚拟头盔模拟器放置在Server端。然后,把内容进行编码,传输给客户端,让后者来解码音频和视频流,同时回传给Server端“我的动作信息”,实时渲染当前画面。这一过程中,严格验证的串流协议可以有效避免公网传输时的带宽抖动和延时。此前,NVIDIA已经与国内首家支持CloudXR Server公有云的厂商——腾讯云展开了合作。


NVIDIA VR能力示例

      可以看到,专业可视化已成为NVIDIA重要的发展方向之一,围绕图形运算所构建的软硬件技术和生态体系正在蓬勃发展,而这一系列的举措已经打破物理世界和数字世界的壁垒,为各行各业的客户和消费者打开了一扇通往未来的大门。




您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2024-3-29 09:04 , Processed in 0.156000 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2023 smzj.net

快速回复 返回顶部 返回列表