谷歌TPU芯片论文，真实性存疑|谷歌|芯片|TPU

　　谷歌发表的一篇有争议的研究论文声称人工智能技术在制造芯片方面具有优越性，但其主张的真实性正在受到密切关注。科学出版物《Nature》正在调查谷歌的说法，即人工智能技术帮助其在不到六个小时内进行平面规划或建立其人工智能芯片的基本结构，比人类专家更快。

　　《Nature》在这篇论文上加了一个编辑的注释，表示：“读者请注意，本文中的性能声称已经受到质疑。编辑们正在调查这些问题，如果适当，调查完成后将采取编辑行动。”

　　该论文最初发表于 2021 年，涉及使用 AI 构建其张量处理单元 (TPU) 的一个版本，该公司正在其云数据中心中将其用于搜索、地图和 Google Workspace 等应用程序中的 AI。

　　研究人员Anna Goldie（该论文的 20 位作者之一）在 Twitter 上将有问题的芯片识别为 TPU v5 。《Nature》在这篇论文中打上了星号。

　　谷歌TPU板。来源：Google，“Google Cloud TPU 数据中心内部”视频

　　谷歌表示，其目的不是取代人类设计师，而是展示人工智能如何成为加速芯片设计的协作技术。

　　TPU-v5 的一个版本 TPU-v5e于上个月推出，现已在 Google Cloud 中提供。

　　这是谷歌发布的第一款人工智能芯片，附带一套软件、开发和虚拟化工具，以便客户可以预算和管理人工智能技术的编排和部署。新的AI芯片与Nvidia的H100 GPU竞争，并继承了上一代TPUv4，后者用于训练PaLM 2大型语言模型。

　　这篇备受争议的研究论文从一开始就遇到了麻烦。该论文的优点在内部受到质疑，该论文的一位直言不讳的作者 Satrajit Chatterjee被解雇，并对谷歌提起不当终止诉讼。

　　谷歌研究人员表示，该论文已经通过同行评审。但在独立研究人员的挑战下，这项研究并没有得到很好的支持。

　　谷歌因只发布极少量的与研究相关的信息，并拒绝全面发布数据以供公众监督的呼吁而受到批评。该公司最终在GitHub上放置了有限数量的信息。

　　该研究提供了一个框架，可以使用深度强化学习来对芯片进行布局规划或奠定 TPU-v5 芯片的构建模块。该论文围绕使用人工智能在逻辑点放置执行特定宏功能的大型电路块来生成芯片设计。宏布局对于芯片设计至关重要，也是一个非常具有挑战性的过程。

　　谷歌的强化学习技术使用输入信息（例如由连接的电路组件组成的电路网表）和数据（例如为线轮配置可用轨道）开发了一种芯片设计。输出是一个干净的芯片设计，有利于良好的宏布局。

　　在六个小时内，谷歌就能够在特定的功率和性能范围内的特定区域内将凝聚芯片的构建块组装在一起。随着时间的推移，AI 代理会利用过去的经验来强化当前的知识，从而更好地将芯片模块放置在 10 纳米以下。

　　谷歌技术使用的学习模型需要 48 小时来训练 200 多个 CPU 和 20 个 GPU，而这些时间并未计入设计芯片所需的总时间。

　　加州大学圣地亚哥分校计算机科学教授安德鲁·B·卡恩 (Andrew B. Kahng) 是谷歌研究的挑战者之一，他发现谷歌需要更加合作。他批评谷歌不愿意发布关键数据，例如电路训练数据集、基线信息或其他代码，以供其他研究人员重现结果。

　　他必须对谷歌的芯片设计技术进行逆向工程，发现人类芯片设计师和自动化工具有时可能比谷歌的纯人工智能技术更快。今年三月，他在国际物理设计研讨会上发表了一篇关于他的发现的论文，其中详细介绍了涉及人类和标准软件工具的芯片设计，有时速度更快或更有效。不过，他并没有质疑谷歌技术的价值。

　　抛开缺陷不谈，这项研究有助于芯片设计研究，谷歌是少数几家分享其用于芯片设计的人工智能技术信息的公司之一。它建立在 Cadence 和 Synopsys 已经完成的将人工智能引入芯片设计的幕后工作的基础上。AMD 和亚马逊声称在芯片设计中使用人工智能，但尚未讨论他们的技术。

　　诸如《Nature》杂志这次的闹剧并不是谷歌的硬件研究第一次受到关注。谷歌在 2019 年宣称量子霸权，量子计算机的性能超越了经典计算机。谷歌声称，其名为 Sycamore 的 54 量子位系统（其中量子位在 200 秒内排列成二维阵列）解决了传统超级计算机需要 10,000 年才能解决的特定问题。

　　IBM 对这一说法提出异议，称该论文存在缺陷，并且对量子和超级计算性能造成了混乱，并着手反驳谷歌的理论。随后IBM的一篇论文声称，其Summit计算机在额外的二级存储的帮助下，可以实现比谷歌量子霸权论文中宣称的性能高六倍的性能，并在合理的时间内解决问题。

　　谷歌2019年备受争议的量子论文在当时被认为具有开创性，但也是基于闭门实验，并且已经过时了。在随后的几年里，更多的研究人员站出来挑战谷歌的说法。该缺陷在于谷歌将其优化的量子算法与较旧、较慢的经典算法进行了苹果与橘子的比较。

　　目前尚不清楚 TPU v5e 是否是使用强化学习技术设计的，但谷歌声称该芯片的性能优于上一代 TPUv4。

　　八个 TPU v5e 芯片可以训练具有多达 2 万亿个参数的大型语言模型。本月，谷歌声称“每个 TPU v5e 芯片每秒提供高达 393 万亿次 int8 运算 (TOPS)，可以快速预测最复杂的模型”，这意味着该芯片主要是为低杠杆推理操作而设计的。训练通常需要浮点管道。

　　谷歌正试图在人工智能领域追赶微软，微软在其 Azure AI 超级计算机中使用了 OpenAI 的 GPT-4 和 Nvidia GPU。该公司最近将其 Bard 聊天机器人集成到 Google Workspace、网络搜索和其他工具中。Bard 工具在 TPU 上运行人工智能计算。

特别声明：以上文章内容仅代表作者本人观点，不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。