FX168财经报社(北美)讯 周四(2月23日),近期掀起的人工智能竞赛狂潮让微软和谷歌这样的大公司正在努力将尖端人工智能集成到他们的搜索引擎中,因为OpenAI和Stable Diffusion等价值数十亿美元的公司正在这个领域竞争。
为其中许多应用程序提供动力的是一块价值约1万美元的芯片,它已成为人工智能行业最关键的工具之一,那就是英伟达A100。
A100目前已成为人工智能专业人士的“主力”,根据New Street Research的数据,英伟达占据了可用于机器学习的图形处理器市场的95%。
A100非常适合支持ChatGPT、Bing AI或Stable Diffusion等工具的机器学习模型。它能够同时执行许多简单的计算,这对于训练和使用神经网络模型很重要。
A100背后的技术最初用于在游戏中渲染复杂的3D图形。它通常被称为图形处理器或GPU,但如今英伟达的A100被配置为机器学习任务并在数据中心运行,而不是在发光的游戏PC中运行。
开发聊天机器人和图像生成器等软件的大公司或初创公司需要数百或数千个英伟达芯片,并且要么自行购买,要么从云提供商处安全访问计算机。
人工智能模型需要数百个GPU来训练,例如大型语言模型。这些芯片需要足够强大以快速处理数庞大的数据以识别模式。之后,还需要像A100这样的GPU来进行“推理”,或者使用模型生成文本、进行预测或识别照片中的对象。
这意味着AI公司需要获得大量A100。该领域的一些企业家甚至将他们获得的A100数量视为进步的标志。
Stability AI首席执行官Emad Mostaque在一月份的推特上写道:“一年前我们有32台A100,但我们的梦想远大,需要堆叠更多GPU。” Stability AI是帮助开发Stable Diffusion的公司,Stable Diffusion是去年秋天引起关注的图像生成器,据报道其估值超过10亿美元。
根据State of AI报告的一项估计,Stability AI现在可以使用超过5,400个A100 GPU,该报告绘制并跟踪了哪些公司和大学拥有最多的A100 GPU。这些数据不包括云提供商,它们不会公开这些数字。
英伟达赶上人工智能“快车”
英伟达将从AI炒作周期中受益。在周三公布的第四财季财报中,虽然整体销售额下降了21%,但投资者在周四将该股推高了约14%,这主要是因为该公司的AI芯片业务,报告为数据中心,增长了11%至超过36亿美元本季度销售额呈现持续增长态势。
到2023年为止,英伟达的股价上涨了65%,超过了标准普尔500指数和其他半导体股票。
英伟达首席执行官黄仁勋周三在与分析师的电话会议上不停地谈论人工智能,暗示最近人工智能的繁荣是公司战略的核心。“围绕我们构建的AI基础设施的活动,以及围绕使用Hopper和Ampere影响大型语言模型进行推理的活动,在过去60天里刚刚爆发,毫无疑问,无论我们对今年的看法如何,因为过去60天、90天,在我们进入这一年之际,都发生了相当大的变化。”
Ampere是英伟达对A100代芯片的代号。 Hopper是新一代的代号,包括最近开始出货的H100。
更大需要
与其他类型的软件(如网页服务)相比,偶尔会在几微秒内突发性地使用处理能力,而机器学习任务可能会占用整个计算机的处理能力,有时会持续数小时或数天。
这意味着发现自己拥有热门AI产品的公司通常需要购买更多GPU来处理高峰期或改进他们的模型。这些GPU并不便宜。除了可以插入现有服务器的卡上的单个A100之外,许多数据中心还使用一个包含八个A100 GPU协同工作的系统。
该系统是英伟达推出的的DGX A100,售价接近200,000美元,但它配备了所需的芯片。周三,英伟达表示将直接出售对DGX系统的云访问,这可能会降低研究人员的入门成本。
很容易看出A100的成本是如何增加的。例如,New Street Research的一项估计发现,Bing搜索中基于OpenAI的ChatGPT模型可能需要8个GPU才能在不到一秒的时间内响应问题。
按照这个速度,微软将需要超过20,000台8-GPU服务器才能将Bing中的模型部署给每个人,这表明微软的功能可能需要40亿美元的基础设施支出。
“如果你来自微软,并且你想扩大规模,以Bing的规模,那可能是40亿美元。如果你想像谷歌这样每天服务80亿到90亿次查询的规模进行扩展,你实际上需要在DGX上花费800亿美元。” New Street Research技术分析师Antoine Chkaiban表示:“我们得出的数字是巨大的。但它们只是反映了这样一个事实,即每个使用如此大型语言模型的用户在使用时都需要一台大型超级计算机。”
根据Stability AI在线发布的信息,最新版本的图像生成器Stable Diffusion在256个A100 GPU或32台机器上进行了训练,每台机器有8个A100,总计200,000个计算小时。
Stability AI首席执行官Emad Mostaque在Twitter上表示,以市场价格计算,仅训练模型就需要60万美元,并在推特中暗示,与竞争对手相比,这个价格异常便宜。这还不包括“推理”或部署模型的成本。
英伟达首席执行官黄仁勋在接受采访时表示,就这些模型所需的计算量而言,该公司的产品实际上并不昂贵。“我们将原本价值10亿美元的运行CPU的数据中心缩小为1亿美元的数据中心,现在,当你把它放在云端并由100家公司共享时,几乎什么都不是。” 黄仁勋表示,英伟达的GPU允许初创公司以比使用传统计算机处理器低得多的成本训练模型。“现在你可以用大约10到 2000万美元构建类似大型语言模型的东西,比如ChatGPT,这真的非常实惠。”
新的竞争
英伟达并不是唯一一家生产用于人工智能的GPU的公司。AMD和英特尔也拥有图形处理器竞争的能力,还有像谷歌和亚马逊这样的大云公司正在开发和部署专为AI工作负载设计的芯片。
尽管如此,根据AI计算状态报告,“AI硬件仍然强烈地整合到英伟达”。截至12月,超过21,000篇开源AI论文表示他们使用了英伟达芯片。
AI计算中的大多数研究人员使用的是英伟达于2017年推出的芯片V100,但A100在2022年迅速增长,成为第三大使用最多的英伟达芯片,仅次于最初售价1500美元或更低的消费类图形芯片用于游戏。
由于国防原因,A100也是少数几个受到出口管制的芯片之一。去年秋天,英伟达在提交给美国证券交易委员会的一份文件中表示,美国政府实施了一项许可证要求,禁止将A100和H100出口到中国、香港和俄罗斯。
英伟达在其文件中表示,美国政府表示,新的许可要求将解决所涵盖产品可能用于或转移到中国和俄罗斯的军事最终用途。英伟达此前表示,它为中国市场调整了部分芯片,以符合美国出口限制的规定。
A100最激烈的竞争可能是它的继任者。A100于2020年首次推出,2022年推出的 H100 则开始量产。事实上,Nvidia在截至1月份的季度中录得的H100芯片收入高于A100,尽管H100的单价更高。
英伟达表示,H100是其数据中心GPU中第一款针对Transformer架构进行优化的产品,Transformer是许多最新和顶级AI应用程序使用的一项越来越重要的技术。英伟达周三表示,它希望将AI训练速度提高100万以上。这可能意味着,人工智能公司最终将不需要那么多英伟达芯片堆叠。