文章
当前位置: 主页 > 资讯 > 文章
老黄深夜炸场AIGC进入iPhone时刻Hugging Face接入最强超算神秘显卡胜过A100
发布日期:2023-08-11 阅读次数:

  昨天深夜,重返SIGGRAPH舞台的老黄,再次给全世界带来了「亿点点」震撼。

  就在8月8日,英伟达CEO黄仁勋,再次登上了世界顶级计算机图形学会议SIGGRAPH的舞台。

  一系列重磅更新接踵而至——下一代GH200超级芯片平台、AI Workbench、OpenUSD……

  而英伟达也借此将过去数十年的所有创新,比如人工智能、虚拟世界、加速、模拟、协作等等,一举融合到一起。

  在5年前的SIGGRAPH上,英伟达通过将人工智能和实时光线追踪技术引入GPU,重新定义了计算机图形学。

  老黄表示:「当我们通过AI重新定义计算机图形学时,我们也在为AI重新定义GPU。」

  随之而来的,便是日益强大的计算系统。比如,集成了8个GPU并拥有1万亿个晶体管的NVIDIA HGX H100。

  除了为NVIDIA GH200 Grace Hopper配备更加先进的HBM3e内存外,下一代GH200超级芯片平台还将具有连接多个GPU的能力,从而实现卓越的性能和易于扩展的服务器设计。

  而这个拥有多种配置的全新平台,将能够处理世界上最复杂的生成式工作负载,包括大语言模型、推荐系统和向量数据库等等。

  其中,全新的HBM3e内存要比当前的HBM3快了50%。而10TB/sec的组合带宽,也使得新平台可以运行比上一版本大3.5倍的模型,同时通过3倍更快的内存带宽提高性能。

  如果H100以及配套的产品线展示的是英伟达GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出的绝佳「刀法」。

  老黄发现后觉得可能是自己搞砸了,就很不好意思地和现场观众说对不起,表示这次产品发布可能是有史以来最差的一次。

  言归正传,作为旗舰级专业卡,RTX 6000的性能参数毫无疑问是4款新品中最强的。

  凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽,它可谓是一骑绝尘。

  基于新发布的4张新的GPU,针对企业客户,老黄还准备一套一站式解决方案—— RTX Workstation。

  而专为搭建数据中心而设计的NVIDIA L40S GPU,性能就更加爆炸了。

  对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。

  此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212 teraflops的光线追踪性能。

  对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。

  在L40S GPU的加持下,老黄又针对数据中心市场,推出了最多可搭载8张L40S的OVX服务器。

  对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。

  除了各种强大的硬件之外,老黄还重磅发布了全新的NVIDIA AI Workbench,来帮助开发和部署生成式AI模型。

  概括来说,AI Workbench为开发者提供了一个统一且易于使用的工具包,能够快速在PC或工作站上创建、测试和微调模型,并无缝扩展到几乎任何数据中心、公有云或NVIDIA DGX Cloud上。

  AI Workbench通过提供一个单一的平台来管理数据、模型和计算资源,简化了开发过程,支持跨机器和环境的协作。

  AI Workbench采用的是以项目为中心的架构,便于开发者进行自动化版本控制、容器管理和处理机密信息等复杂任务,同时也可以支持团队之间的协作。

  AI Workbench部署采用客户端-服务器模式。团队可以现在在本地计算资源上进行开发,然后在训练任务变得更大时切换到数据中心或云资源上。

  这时就可以通过DreamBooth,并使用8张Toy Jensen的图片对模型进行微调。

  现在,知道了Toy Jensen是谁的模型,就可以生成切合需求的图像了。

  作为最受AI开发者喜爱的平台之一,拥有200万用户、超25万个模型,以及5万个数据集的Hugging Face,这次也与英伟达成功达成了合作。

  现在,开发者可以通过Hugging Face平台直接获得英伟达DGX Cloud AI超算的加持,从而更加高效地完成AI模型的训练和微调。

  其中,每个DGX Cloud实例都配备有8个H100或A100 80GB GPU,每个节点共有640GB显存,可满足顶级AI工作负载的性能要求。

  对此,老黄激动得表示:「这次,Hugging Face和英伟达将世界上最大的AI社区与全球领先的云AI计算平台真正地连接在了一起。Hugging Face的用户只需点击一下,即可访问英伟达的最强AI算力。」

  为了进一步加速生成式AI的应用,英伟达也将其企业级平台NVIDIAAI Enterprise升级到了4.0版本。

  目前,AI Enterprise 4.0不仅可以为企业提供生成式AI所需的工具,同时还提供了生产部署所需的安全性和API稳定性。

  一个用于构建、定制和部署大语言模型的云原生框架。借助NeMo,英伟达AI Enterprise可以为创建和定制大语言模型应用提供了端到端的支持。

  帮助企业进行自动化和优化生产部署,使其在Kubernetes中能够自动部署多个推理服务器实例,并通过模型协调实现可扩展A 的高效运行。

  在接入了OpenUSD和AIGC工具之后,开发者可以更加轻松地生成模拟线D场景和图形。

  就像它的名字一样,Omniverse的定位是一个集合了各种工具的3D图形制作协作平台。

  3D开发者可以像文字编辑们在飞书或者钉钉中一样,在Omniverse上共同制作3D图形和场景。

  而且可以将不同的3D制作工具制作出来的成果直接整合在Omniverse之内,将3D图形和场景的制作工作流彻底打通,化繁为简。

  OpenUSD(Universal Scene Description)提供了一个开源,通用的场景描述格式,使不同品牌、不同类型的3D设计软件可以无障碍的协作。

  Omnivers本身就是建立在USD体系之上的,这次Omniverse针对OpenUSD的升级,使得Omniverse能为开发者,企业推出了更多的框架和资源服务。

  基于OpenUSD这个开源的3D图像编辑格式,5家公司(苹果,皮克斯,Adobe,Autodesk,英伟达)成立了AOUSD联盟,进一步推动了3D图像业界采用OpenUSD格式。

  此外,英伟达还发布了新的Omniverse Cloud API,让开发者可以更加无缝地部署OpenUSD管线和应用程序。

  基于大语言模型技术的ChatUSD能像Github Copilot一样,在Omniverse平台中回答开发者的相关问题,或者自动生成Python-USD的代码,让开发人员效率暴增。

  总而言之,英伟达再次用暴力的产品,令人惊叹的技术,高瞻远瞩的洞见,让全世界再次看到,它未来将如何引领世界AI和图形计算的新浪潮。

  在老黄的经典名言「the more you buy,the more you save!」中,老黄缓缓走下舞台,却把现场气氛推向了最高潮。

  本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,36氪经授权发布。

  特斯拉交出年内“最差”成绩单,蔚小理重聚榜首,7月的新能源车市可谓跌宕起伏。