开云体育英伟达认真发布LPU，CPU重磅更新：GPU不再是GTC独一主角

英伟达首席实施官黄仁勋周一举办的GTC 2026上详备进展了他保捏公司在东谈主工智能飞扬中处于最初地位的愿景，他预测东谈主工智能飞扬将在以前一年内产生价值 1 万亿好意思元的订单积压。

黄身穿标识性的玄色皮夹克，在加利福尼亚州圣何塞济济一堂的体育馆里的舞台上踱步了两个多小时。他证明了英伟达的处理器何如成为不可或缺的东谈主工智能组件，并重点先容了他以为将使公司保捏最初地位的产物。

现年 63 岁的黄仁勋还谈到了他连年来当作硅谷最具影响力的东谈主物之一所一直宣扬的许多主题，包括他以为东谈主工智能的发展仍处于起步阶段的论点。

黄仁勋宣称：“咱们从头界说了狡计，就像个东谈主电脑鼎新和互联网鼎新同样。咱们目下正处于一个全新平台变革的开头。”

为了强调我方的不雅点，黄仁勋预测，到本年年底，英伟达的芯片订单积压额将达到 1 万亿好意思元，是旧年同期预测的两倍。

为了理睬这个契机，他们在会上发布了多颗芯片和系统。

Nvidia Groq 3 LPU 认真亮相

在今天的GTC 主题演讲中，黄仁勋涌现了英伟达何如利用旧年从 Groq 收购的常识产权来扩张 Rubin 的功能。Rubin 平台目下包含一款新的芯片——英伟达 Groq 3 LPU，这是一款推理加快器，能够增强这些系统以低延伸、大都量的神情拜托令牌的才略，从而在东谈主工智能模子的前沿杀青高交互性。

与大多数依赖 HBM 当作职责内存层的 AI 加快器不同，每个 Groq 3 LPU 都集成了 500 MB 的 SRAM，这种内存也用于 CPU 和 GPU 的超高速缓存。天然与每个 Rubin GPU 上容量高达 288GB 的 HBM4 比较，这显得微不及谈，但正如您所预期的，这块 SRAM 可提供 150 TB/s 的带宽，远高于 HBM 的 22 TB/s。关于带宽敏锐型 AI 解码操作而言，Groq 3 芯片带宽的大幅提高为推理当用带来了诱东谈主的上风。

反过来，英伟达将构建包含 256 个 Groq 3 LPU 的 Groq 3 LPX 机架。该机架提供 128GB 的 SRAM 和 40 PB/s 的推理加快带宽，并通过每个机架 640 TB/s 的专用扩张接口将这些芯片连续起来。

英伟达将 Groq LPX 设思为 Rubin 的协处理器，据英伟达超大畛域副总裁 Ian Buck 称，它将提高“每个令牌上 AI 模子每一层”的解码性能，并使 Rubin 能够就业于东谈主工智能的下一个前沿领域：多智能体系统，这些系统需要在推理数万亿个参数的模子的同期，在数百万个token的高低文窗口中提供交互式性能。

跟着多智能体系统中的东谈主工智能代理越来越多地与其他东谈主工智能进行交互，而非与检察聊天机器东谈主窗口的东谈主类进行计划，对响应速率的条款也随之改变。对东谈主类而言看似合理的每秒token生成速率，对东谈主工智能代理来说却如同蜗牛爬行。在巴克所描述的以前多智能体系统中，Rubin GPU 和 Groq LPU 的组合将东谈主工智能代理间通讯的糊涂量从每秒 100 个token提高到每秒 1500 个token甚而更高。

Rubin平台新增Groq 3 LPU，有望匡助其在低延伸推理领域叛逆挑战者。Cerebras公司凭借其晶圆级引擎，会通海量SRAM和狡计资源，利用先进模子杀青低延伸推理，该公司曾屡次就Nvidia GPU在这方面的弱势向Nvidia发起挑战。包括OpenAI在内的广大大型客户已签约使用Cerebras的狡计才略，以利用该平台优异的延伸特质来运行其部分顶端模子。

Buck 还示意，Groq 3 LPU 的推出可能会导致 Rubin CPX 推理加快器的作用裁减，他透露公司目下专注于将 Groq 3 LPX 机架与 Rubin 集成。天然他莫得涌现更多细节，但在如今内存资源急切的环境下，这种要点转化是合理的，因为这两款芯片旨在提供雷同的推感性能提高，况兼 Groq LPU 不需要像每个 Rubin CPX 模块那样巨额的 GDDR7 内存。

全新88核Vera CPU叫板AMD/Intel

在 GTC 2026 大会上，英伟达公布了其全新 88 核 Vera 数据中心 CPU 的更多细节，宣称其性能比模范 CPU 提高了 50%，这收成于 Olympus 中枢 IPC 提高 1.5 倍，以及英伟达所称的创新高带宽设想，该设想可提供市集上最快的单线程性能。该公司还发布了全新的 Vera CPU 机架架构，该架构将 256 个液冷 CPU 集成到一个机架中，专为以 CPU 为中心的职责负载而设想，据称其 CPU 糊涂量提高了 6 倍，在智能 AI 职责负载中的性能提高了 2 倍。

Vera CPU 的演进偏激与可部署机架级系统的集成，标识着英伟达认真进攻 CPU 直销领域，成为传统 CPU 市集会英特尔和 AMD 的有劲竞争敌手。更毋庸说，它还要与寰球最大的超大畛域数据中心运营商使用的多样定制 Arm 处理器张开竞争。此前，英伟达告示Meta 将在其基础要领中部署多代英伟达纯 CPU 系统，因此这一举措并不令东谈主不测。英伟达还将不竭在其以 GPU 为中心的系统中使用这些 CPU，举例咱们此前深入报谈过的 Vera Rubin 平台。

英伟达最初于 2022 年 GTC 大会上发布了第一代 Grace CPU，预示着该系列的捏续发展最终将使其置身更平庸的 CPU 市集。新款处理器面向东谈主工智能和通用应用场景，尤其侧重于前者。英伟达不停拓展其功能和方针市集，这将对 AMD 和英特尔在东谈主工智能数据中心的插槽争夺战组成严峻挑战。这些芯片现已全面投产，并将于本年下半年提供给英伟达的配结伙伴。接下来，咱们将详备了解这些新芯片偏激机架级架构。

Nvidia 设想 Vera CPU 的主见是为了会通多方面的上风，将超大畛域云 CPU 的高中枢数、游戏 CPU 的高单线程性能和挪动芯片的能效相蚁集，从而加快智能 AI、进修和推理职责负载中常见的 GPU 驱动任务，举例 Python 实施、SQL 查询和代码编译。

一言以蔽之，英伟达宣称其沙箱性能比 x86 竞争敌手高出 1.5 倍，每个中枢的内存带宽高出 3 倍，能效高出两倍。为了杀青这些方针，该公司设想了一款 88 核 144 线程的 CPU，比第一代 Grace 的 72 核有所增多。英伟达还宣称，这些中枢的每周期提醒数 (IPC) 糊涂量提高了 1.5 倍，相干于其他竞争架构而言，这是一个雄壮的代际飞跃，因为其他竞争架构频繁每一代唯独个位数或十几个百分点的提高。在上一代 Grace 中，英伟达使用了现成的 Arm Neoverse 中枢，但该公司明确指出 Vera 上的全新 Olympus 中枢是“英伟达设想的”，这标明该公司对参考设想进行了定制修改。

Arm v9.2-A Olympus 内核接受空间多线程时间，通过幸免对实施单位、缓存和寄存器文献等要道元素进行时期片交替，从而在物理上讳饰活水线的各个组件。这与其它同步多线程 (SMT) 杀青中常见的模范时期片交替机制迥然相异，后者是指线程轮替使用资源。空间多线程通过在实施单位闲应时从其他线程拉取提醒，从而提高提醒级并行性 (ILP)、糊涂量和性能可预测性，确保资源得到充分利用。

施行上，这使得两个线程能够着实地在单个中枢上同期运行，而模范的SMT杀青中，线程施行上是轮替在单个中枢上运行的。这天然对多田户环境来说是一大上风。

英伟达将通盘 88 个中枢陈列在一个域中，因此不存在 NUMA 架构中常见的延伸问题，这与目下高中枢数的 x86 竞争敌手酿成了昭彰对比。这显耀提高了延伸、可预测性、带宽和可编程性。该公司尚未涌现如安在保捏每个中枢迷漫延伸的情况下杀青这一豪举的沿途细节，但该芯片接受了新一代英伟达可扩张一致性架构 (SCF)，这是一种基于 Arm CMN-700 一致性网状收集的网状拓扑结构，该收集也用于Grace 的 Arm Neoverse 中枢。Arm 在其最新设想中已升级到更新的 Neoverse CMN S3 网状收集，Vera 很可能接受了该设想或其变体。

网状收集能够为通盘中枢提供令东谈主印象深入的内存糊涂量，尤其是在某些中枢比其他中枢更需要带宽的情况下。Grace 架构补助 546 GB/s 的网状内存糊涂量，平均每个中枢 7.6 GB/s。Vera 架构在此基础上翻了一番，带宽达到 1.2 TB/s，这收成于 1.5TB SOCAMM LPPDDR5 内存模块（容量提高 3 倍），在满载情况下，平均每个中枢可达 13.6 GB/s。更遑急的是，当网状收集合的负载情况不一致时，该架构目下补助单个中枢最高 80 GB/s 的糊涂量，这对带宽密集型线程来说是一个显耀的提高。

实施旅途包括一个 10 宽的提醒解码单位、一个补助每个周期进行两次分支预测的神经分支预测器、一个自界说的图数据库分析预取引擎和一个 PyTorch 优化的提醒缓冲区。

该芯片全面补助私密狡计，比较 Grace 芯片，这是一项显耀的向上，可杀青王人备保护的 CPU+GPU 域。该 CPU 还配备了 NVLink-C2C 芯片波折口，糊涂量高达 1.8 TB/s，是 Grace 芯片 900 GB/s 互连速率的两倍，比 PCIe 6.0 快七倍。此外，它还补助双处理器 (2P) 确立。

总体而言，Vera 补助当代数据中心处理器所生机的全套时间，包括 PCIe 6.0 和 CXL 3.1 补助，但其狡计设想以带宽和延伸为重点，使其在 AI 职责经过中具有私有的上风。

Grace 已成为许多英伟达 GPU+CPU 系统的基本构建模块，包括一些地球上速率最快的 AI 超等狡计机，但英伟达的扩张方针是利用 Vera 在纯 CPU 机架中杀青更平庸的部署。

Vera CPU 机架通过 256 个液冷 Vera CPU、74 个 Bluefield-4 DPU 和 ConnectX SuperNIC 收集来杀青这一方针。该机架配备高达 400 TB 的 LPDDR5 内存，总内存糊涂量达 300 TB/s。这足以补助 45，056 个线程，据 Nvidia 称，这些线程可同期补助 22，500 个孤苦运行的 CPU 环境。

Nvidia 共享了多样职责负载的基准测试结束，宣称在剧本编写、编译、数据分析、图分析和 HPC 职责负载等方面，kaiyun其性能比 Grace 提高了 1.8 倍到 2.2 倍。

东谈主们天然会以为这套系统会部署在 Meta 公司，该公司最近告示与英伟达配合开拓纯 CPU 系统，但英伟达透露，它还将向包括 Oracle、Coreweave、Nebius、阿里巴巴等在内的超大畛域数据中心运营商提供 Vera CPU 机架系统。

广大OEM和ODM厂商也将为更平庸的市集提供单路和双路就业器，以得志多样应用场景的需求，其中包括戴尔、HPE、联思、超微、富士康等行业巨头。Vera CPU也将用于Nvidia HGX NVL8系统。

大略最遑急的是，这些机架还将成为英伟达更平庸的 Vera Rubin 平台的组成部分，该平台统统包含七款芯片，包括 Rubin GPU、用于机架级互连的 NVLink6 交换机、用于收集连续的 ConnectX-9 SuperNIC、Bluefield 4 DPU、Spectrum-X 102.4T 共封装光交换机和英伟达的 Groq 3 LPU。

Vera CPU 目下已全面投产，斟酌将于本年下半年运转拜托。

发布 Vera Rubin 天外模块

在GTC 2026大会上，英伟达还发布了Vera Rubin天外模块，宣称其在轨谈推理职责负载方面的AI狡计才略是H100的25倍。据悉，已有六家贸易航天公司部署了该平台。

阐述英伟达官方新闻稿，Vera Rubin 空间模块专为在天外平直运行 LLM 和高档基础模子的轨谈数据中心而设想，它接受轮廓集成的 CPU-GPU 架构和高带宽互连，旨在及时处理来自天外仪器的巨额数据流。

其次是Nvidia IGX Thor，它面向任务要道型旯旮环境，补助及时AI处理、功能安全、安全启动和自主运行。与此同期，Nvidia Jetson Orin则接受最小尺寸设想，面向对尺寸、分量和功耗（SWaP）有严格规则的卫星，用于机载视觉、导航和传感器数据处理。

回到地球上，Nvidia 将RTX PRO 6000 Blackwell系列就业器版 GPU 定位为地舆空间智能职责负载，宣称在分析大型图像归档时，其性能比传统的基于 CPU 的批处理系统提高高达 100 倍。

英伟达透露，目下有六家公司正在轨谈和大地环境中使用其平台：Aetherflux、Axiom Space、Kepler Communications、Planet Labs PBC、Sophia Space 和 Starcloud。其中，Kepler 已在其卫星星座中部署了 Jetson Orin，用于东谈主工智能驱动的数据管束。“英伟达 Jetson Orin 将先进的东谈主工智能平直引入咱们的卫星，使咱们能够智能地管束和路由通盘这个词星座的数据，”该公司首席实施官 Mina Mitry 在英伟达的官方新闻稿中透露。

旧年十月，亚马逊和蓝色发源首创东谈主杰夫·贝佐斯预测，轨谈上千兆瓦级数据中心还需要10到20年智力建成，他以为捏续的太阳能发电和天外简化的冷却环境是其主要上风。英伟达的六家配结伙伴之一Starcloud仍是在建造其所谓的专用轨谈数据中心，旨在运行轨谈上的进修和推理职责负载。

“天外狡计，临了的疆界，仍是到来，”黄仁勋说谈，“东谈主工智能在天外和大地系统中的处理，能够杀青及时感知、决策和自主性，将轨谈数据中心转变为发现的器用，将航天器转变为自主导航系统。”

IGX Thor、Jetson Orin 和 RTX PRO 6000 Blackwell 就业器版现已上市。Vera Rubin 天外模块尚未公布发布日历；英伟达透露将在“稍后”推出。

跟着这颗芯片的发布，Vera Rubin 成为英伟达迄今为止最具洪志的系统，它由五个机架系统中的七颗芯片组成。英伟达透露，与 x86 和 Hopper 比较，Vera Rubin 每秒可处理 7 亿个token，尔后者仅为 200 万个。

英伟达的推理芯片危险

英伟达凭借其在东谈主工智能芯片市集的主导地位，将其年收入从 2022 年的 270 亿好意思元增长到旧年的 2160 亿好意思元——这一增长率使这家位于加利福尼亚州圣克拉拉的公司的市值达到了 4.5 万亿好意思元。

但自旧年 10 月英伟达市值一忽儿冲破 5 万亿好意思元大关以来，该公司一度火热的股价仍是降温，原因是东谈主们惦记东谈主工智能的飞扬被过分夸大了。

“关于科技行业来说，这确凿一段令东谈主心惊肉跳的时期，”韦德布什证券分析师丹·艾夫斯透露。

即使英伟达在 2 月下旬发布的季度证明远超分析师预期，且管束层也给出了乐不雅的瞻望，但该公司股价仍比这些数据公布前下落了 6%。

尽管分析师斟酌英伟达来岁的收入将非凡 3300 亿好意思元，但跟着谷歌和 Facebook 的母公司 Meta Platforms 等其他科技巨头试图开拓我方的处理器，该公司在东谈主工智能芯片市集正面对着第一个严峻的挑战。

英伟达的潜在增长受到好意思国安全和贸易壁垒的制约，这些壁垒报复了该公司在中国销售其先进芯片的才略。

黄仁勋设思，英伟达将不竭在东谈主工智能领域默契遑急作用，通过捏续得志市集对驱动聊天机器东谈主（如 OpenAI 的 ChatGPT 和谷歌的 Gemini）的芯片的狂热需求，并扩大其在推理处理器新兴市集的影响力。

一朝东谈主工智能器用经过进修，推理芯片就能让这项时间哄骗所学到的常识并产生响应——不管是编写文档照旧创建图像——其恶果都比构建大型言语模子时使用的处理器更高。

英伟达首席实施官黄仁勋一直以来都宣称，2026年将是推理才略主导东谈主工智能的一年。在3月4日的投资者大会上，他承认“咱们目下看到的这种更正点其实早已不问可知，它本色上是东谈主工智能使用文献、看望文献和使用器用的才略。”

“推理更正点仍是到来，”黄仁勋强调。

英伟达目下边临的挑战是，其畅销产物在推理狡计方面的诱骗力远不如在进修狡计方面。用户反应，其Grace Blackwell就业器能耗雄壮，且内存不及，无法让AI模子快速高效地修升引户查询。

“英伟达目下处境很祸患，”风险投资家、麻省理工学院数字经济筹算商讨员保罗·凯德罗斯基透露。“很长一段时期以来，詹森一直说，‘咱们不需要专用的孤苦推理芯片，平直用Blackwell就行了。’但目下情况仍是不同了，况兼涌现出了好多新的竞争敌手。”

凯德罗斯基以为，英伟达最近一个季度的毛利率高达73%，但由于两个原因，其毛利率势必会下降。起始，推理狡计的贸易方法相等可爱恶果和裁减最终产物的分娩资本，而关于糜掷者而言，最终产物指的是东谈主工智能器用。其背后的硬件资本不行太高，不然不管是平直销售照旧当作中间商销售的公司都无法盈利。

其次，由于更多芯片公司找到了裁减芯片购买和运营资本的方法，推理狡计领域的竞争也愈加利弊。英伟达凭借其硅芯片（绝顶于速率快、性能强、价钱不菲的法拉利跑车）成为首家市值4万亿好意思元的公司，但如今，寰宇需要的是普锐斯和特斯拉Model Y这么的“家用轿车”。

“通盘这些推理方面的东西对詹森来说都极具恐吓，因为这一切都所以恶果为导向的，”凯德罗斯基说。“他正拚命思成见将这个系列拓展到推理领域。”

于是，为了匡助其顺利过渡到推理领域，英伟达与市集行家 Groq 达成了一项数十亿好意思元的授权契约，其中包括聘请该初创公司的顶尖工程师。

“英伟达不会将任何市集份额让给谷歌或Meta，”艾夫斯说谈，他以为英伟达的市值将在以前一年把握非凡6万亿好意思元。

GPU不再是独一主角

此外，还有其他迹象标明，英伟达正在将其要点从GPU转向推理狡计处理有策动提供商。本年2月，Meta Platforms告示将在其东谈主工智能数据中心部署数千颗英伟达Vera CPU，这是英伟达东谈主工智能系统初次大畛域部署，且未使用GPU。东谈主们越来越执意到，推理狡计不错使用CPU完成，并不一定需要英伟达的旗舰芯片。

据《华尔街日报》报谈，英伟达也筹算推出新的狡计处理有策动，该有策动将接受多个孤苦于GPU的CPU，雷同于Meta的筹算。英特尔也筹算推出雷同处理有策动。

趁便提一下，英特尔今天在圣何塞举行的Nvidia GTC 2026 大会上告示，其 Xeon 6 处理器将当作 Nvidia DGX Rubin NVL8 系统的主机 CPU，从而扩张了两家公司此前在基于 DGX B300 Blackwell 的平台上使用Xeon 6776P建立的 x86 配合干系。

DGX Rubin NVL8 是英伟达的下一代旗舰级 AI 就业器系统。在该确立中，主机 CPU 负包袱务编排、内存管束、救援以及向 GPU 加快器传输数据。跟着推理职责负载向智能体 AI 和推理系统转变，这些功能对单核性能和内存带宽的条款越来越高。

回到GTC主题演讲，黄仁勋将英伟达描述为“垂直整合但横向怒放”，这大略会引起好意思国联邦贸易委员会的暖热。不管何如，英伟达透露，鉴于其在加快狡计领域的方针——向客户提供完好的时间栈——“别无他法”。与此同期，他还将英伟达描述为“垂直整合但横向怒放”，这大略会引起好意思国联邦贸易委员会的暖热。不管何如，英伟达透露，鉴于其在加快狡计领域的方针——向客户提供完好的时间栈——“别无他法”。

在此次大会上，黄仁勋再次预报了下一代Feynman系统。该系统配备了全新的GPU、LPU、名为Rosa的全新CPU、Bluefield 5以及Kyber架构，并补助铜缆和CPO扩张。Feynman系统斟酌将于2028年发布。

在推理飞速崛起确当下，英伟达能否不竭操纵市集，咱们边走边看，但黄仁勋以及英伟达详情充满信心。

因为正如他所说，“摩尔定律仍是失去了能源开云体育，加快狡计让咱们能够赢得雄壮的飞跃。”

亚搏体育官方网站 - YABO

开云体育 英伟达认真发布LPU，CPU重磅更新：GPU不再是GTC独一主角

开云体育英伟达认真发布LPU，CPU重磅更新：GPU不再是GTC独一主角