彭博長篇報道了亞馬遜的內部AI芯片計劃,這家雲計算巨頭承認短期內無法撼動現有市場領軍者的地位,但希望能夠減少對英偉達的依賴。雖然整篇報道有濃鬱的軟文氣息,但還是可以看到科技巨頭在AI芯片領域的思路和動作。
在奧斯汀北部一個平淡無奇的街區,沒有標識的辦公大樓林立。
亞馬遜公司的一群工程師正在這里埋頭研發科技行業最雄心勃勃的目標:削弱英偉達在超過1000億美元人工智能芯片市場的主導地位。
亞馬遜的工程實驗室外觀簡樸,里面是一排排長長的工作台,可以俯瞰德州首府迅速擴張的郊區。
實驗室的內部有些淩亂。工作台上散落着電路板、散熱風扇、電纜和網絡設備,這些設備處於各種組裝狀態,有些甚至沾滿了用於連接芯片與散熱組件的導熱膏。
這種場景更像是一個創業公司,而不是一家市值超過2萬億美元的巨頭。
這里的工程師對跑去家得寶買鑽床毫不在意,也樂於學習自己專業領域以外的知識,只要這樣能讓項目推進得更快。
在從零開始研發機器學習芯片的幾年努力中,他們已經肩負起快速推出一個能抗衡英偉達的產品的重任。這並不是單純追求計算能力,而是要構建一個簡單可靠的系統,讓亞馬遜的數據中心能迅速轉變為龐大的人工智能機器。
拉米·西諾是一位出生於黎巴嫩、性格開朗的工程師,在芯片行業工作了數十年。他負責芯片設計和測試。他曾參與設計亞馬遜前兩代人工智能半導體,如今正加緊確保最新版本Trainium2能在年底前可靠地運行於數據中心中。
西諾說:“讓我夜不能寐的是,如何盡快實現這個目標。”
過去兩年里,英偉達從一家小眾芯片制造商,變身為支持生成式人工智能的主要硬件供應商,幾度成為全球市值最高的公司。
英偉達的處理器單價高達數萬美元,由於需求旺盛,供貨十分緊張。
上周,在發布財報後,這家芯片制造商告訴投資者,最新硬件的需求將在未來幾個季度持續超過供應,這進一步加劇了供需緊張的局面。
英偉達的最大客戶,包括亞馬遜雲服務、微軟Azure以及Alphabet旗下的Google Cloud,都希望減少對英偉達芯片的依賴,甚至取而代之。這三家公司都在研發自有芯片,但目前亞馬遜作為最大的計算力出租商,部署的自研芯片數量最多。
亞馬遜在許多方面具備成為人工智能芯片領域強者的理想條件。
15年前,亞馬遜開創了雲計算業務,並隨着時間的推移,開始打造支撐這一業務的基礎設施。通過逐步減少對英特爾等供應商的依賴,亞馬遜拆除了數據中心中許多服務器和網絡交換機,用定制硬件取而代之。
大約十年前,亞馬遜高級副總裁兼資深工程師詹姆斯·漢密爾頓,敏銳地洞察時機,成功說服傑夫·貝索斯進軍芯片領域。
兩年前,OpenAI的ChatGPT拉開了生成式人工智能時代的序幕,當時亞馬遜被廣泛視為行業追趕者,措手不及且努力追趕。
盡管亞馬遜尚未推出能夠與ChatGPT或Anthropic開發的Claude等競爭的自有大語言模型,但已經投資80億美元支持Anthropic。然而,亞馬遜構建的雲計算基礎設施——包括定制服務器、交換機和芯片——使得首席執行官安迪·賈西能夠打造一個人工智能超市,為想使用其他公司模型的企業提供工具,也為訓練自有人工智能服務的公司提供芯片。
在芯片行業近四十年的經驗,使漢密爾頓深知,推動亞馬遜的芯片野心更上一層樓絕非易事。設計可靠的人工智能硬件本身已十分困難,而開發能夠讓這些芯片滿足廣泛客戶需求的軟件或許更加艱難。
英偉達的設備幾乎能順暢處理任何人工智能任務。這家公司不僅正向客戶(包括亞馬遜)交付下一代芯片,還開始宣傳明年推出的後續產品。
行業觀察人士認為,亞馬遜短期內不太可能撼動英偉達的地位。
漢密爾頓和亞馬遜的工程團隊多次證明,在緊張的預算下,他們有能力解決重大技術難題。
漢密爾頓表示:“英偉達是一家非常非常優秀的公司,做着出色的工作,因此它將長期為許多客戶提供良好的解決方案。然而,我們堅信可以生產出與之媲美的產品。”
漢密爾頓於2009年加入亞馬遜,此前曾供職於IBM和微軟。他是一位行業標誌性人物,最初在其家鄉加拿大修理豪華汽車,後來乘坐一艘54英尺的船通勤。
漢密爾頓加入亞馬遜時正值一個關鍵時刻。亞馬遜雲服務在三年前推出,開創了後被稱為雲計算服務的行業。AWS很快開始產生大量現金流,為亞馬遜提供資金支持一系列大膽的嘗試。
當時,亞馬遜自建數據中心,但使用的是其他公司生產的服務器和網絡交換機。漢密爾頓帶頭推動了用定制硬件替代這些設備的計劃,從服務器開始。
由於亞馬遜需要購買數百萬台服務器,漢密爾頓認為,通過定制這些設備以適應日益增長的數據中心,可以降低成本並提高效率,同時省略AWS不需要的功能。
這一嘗試非常成功。
彼時負責AWS業務的賈西詢問亞馬遜還能自行設計哪些其他硬件。漢密爾頓建議設計芯片,因為芯片正承擔越來越多以前由其他組件完成的任務。他還推薦使用能源高效的Arm架構,這種架構驅動了智能手機。
他認為這種技術的普及性以及開發者對其日益熟悉,將幫助亞馬遜取代長期主導服務器的英特爾芯片。
2013年8月,漢密爾頓向貝索斯提交了一份提案,他寫道:“所有的道路都通向我們組建一個半導體設計團隊。”
一個月後,漢密爾頓與納費亞·布沙拉在西雅圖Virginia Inn酒吧見面。
布沙拉是以色列芯片行業資深人士,2000年代初移居舊金山灣區。他共同創立了Annapurna Labs,並以尼泊爾安納普爾納山峰命名。(布沙拉和他的聯合創始人本計劃登頂這座山,但投資者希望他們盡快投入工作,因此未能成行。)
這家低調的創業公司,在整個行業都專注於手機時着手開發用於數據中心的芯片。亞馬遜最初委托Annapurna生產處理器,兩年後以約3.5億美元的價格收購了這家公司。
這一決定被證明十分有遠見。布沙拉和漢密爾頓從小規模做起,展現了他們對實用工程的共同追求。當時,每台數據中心服務器都需用一部分算力運行控制、安全和網絡功能。
Annapurna和亞馬遜工程師開發了一種名為Nitro的卡片,能夠將這些功能完全從服務器中分離出去,從而讓客戶使用服務器的全部性能。
隨後,Annapurna推出了漢密爾頓的Arm通用處理器,名為Graviton。這款產品比競爭對手英特爾設備成本更低,使亞馬遜成為台積電的十大客戶之一。
到這時,亞馬遜高層對Annapurna在不熟悉領域取得成就的能力充滿信心。布沙拉表示:“很多公司擅長CPU,或者網絡,但同時在多個領域表現出色的團隊非常罕見。”
Graviton研發期間,賈西再次問漢密爾頓亞馬遜還能自制哪些產品。
2016年底,Annapurna指派四名工程師研究開發機器學習芯片。這是又一次恰到好處的押注。幾個月後,谷歌研究人員發表了一篇重要論文,提出了一種可以實現生成式人工智能的流程。
這篇名為《Attention is All You Need》的論文介紹了一種名為Transformer的軟件設計原理,幫助人工智能系統識別訓練數據中最重要的部分。這一方法成為了從單詞關系中做出有依據猜測並生成文本的基礎。
大約在這個時候,拉米·西諾還在奧斯汀的Arm Holdings工作,並指導他上學的兒子參加機器人比賽。團隊開發了一款使用機器學習算法分析照片檢測夏季奧斯汀湖泊中藻類爆發的應用。這讓西諾感受到變革即將到來。
他於2019年加入亞馬遜,協助領導人工智能芯片研發。
亞馬遜團隊開發的首款芯片用於推理,即讓計算機基於數據模式做出預測,例如判斷一封郵件是否為垃圾郵件。這款芯片名為Inferentia,於2019年12月部署到亞馬遜數據中心,後來被用於幫助Alexa語音助手完成指令。
亞馬遜第二代人工智能芯片Trainium1針對希望訓練機器學習模型的企業。工程師還將芯片重新包裝,使其更適合推理用途,推出Inferentia2。
初期,亞馬遜AI芯片需求較少,這使客戶無需等待數周便能立即使用這些芯片,而英偉達硬件則需要等待批量供應。
日本企業抓住了這一機會,迅速參與到生成式AI的浪潮中。例如,理光公司利用亞馬遜的幫助,將基於英語數據訓練的大型語言模型轉換為日語。
據Annapurna早期員工加迪·哈特介紹,目前亞馬遜AI芯片的需求量已開始增長。
“現在我已經沒有多餘的Trainium芯片等待客戶使用了,”他說,“它們全部都在被使用中。”
Trainium2是亞馬遜第三代人工智能芯片。按照行業觀點,這將是一個成敗攸關的時刻。要麼第三代芯片實現足夠的銷售量以證明投資價值,要麼失敗,迫使公司另尋出路。
“我從未見過任何一款產品違背三代規則,”數據和分析軟件供應商Databricks人工智能業務負責人納文·拉奧說。
Databricks在10月同意在其與AWS的協議中使用Trainium。目前公司主要依賴英偉達芯片運行其AI工具,計劃逐步用Trainium部分取而代之。
拉奧表示,根據亞馬遜的說法,Trainium在性價比上可提供30%的提升。
“歸根結底,是經濟性和可用性的問題,”拉奧說,“這是競爭的戰場所在。”
Trainium1由八個芯片組成,它們並排嵌入一個深鋼箱內,提供充足的空間散熱。
AWS向客戶出租的完整設備由兩個這樣的陣列組成。每個設備箱都布滿電線,並用網狀包裹整齊封閉。
對於Trainium2,亞馬遜表示,其性能是上一代的四倍,內存是上一代的三倍。工程師們對設計進行了重大改進:去除了大部分電纜,將電信號通過印刷電路板傳輸。
此外,每個箱體的芯片數量從八個減少到兩個,這樣維護一個單元時會影響到的其他組件更少。
西諾認為數據中心本身就像是一台巨型計算機,這種思路正是英偉達CEO黃仁勳向整個行業推廣的理念。
西諾說:“簡化非常重要,這也確實讓我們更快推進。”
亞馬遜並沒有等待台積電生產出可用的Trainium2芯片,就開始測試新設計的運行方式。相反,工程師將兩個前代芯片固定在電路板上,從而爭取時間開發控制軟件並測試電磁幹擾。這種方法就像在飛機飛行中建造它一樣,是半導體行業的大膽嘗試。
亞馬遜已經開始向包括俄亥俄在內的數據中心交付Trainium2,並計劃將多達10萬顆芯片串聯成集群。更大規模的部署將在亞馬遜的主要數據中心展開。
公司目標是每18個月推出一款新芯片,部分原因是通過減少硬件送到外部供應商的次數來縮短研發周期。
在實驗室的鑽床對面,是一套用來測試芯片和卡片連接器或設計缺陷的示波器。西諾透露,未來版本的工作已經開始:在另一個實驗室里,刺耳的風扇冷卻着測試單元,天花板上懸掛着四對管道。這些管道目前封閉,但已經為未來AWS芯片產生的熱量超過風扇冷卻能力的那一天做好了準備。
其他公司也在突破極限。英偉達將對自家芯片的需求形容為“瘋狂”,正努力實現每年推出一款新芯片的節奏。雖然這一計劃導致了即將發布的Blackwell芯片的生產問題,但也將給整個行業帶來更大的競爭壓力。
同時,亞馬遜的兩大雲計算競爭對手,也在加速推進各自的芯片計劃。
谷歌大約10年前就開始研發一款人工智能芯片,用於加速搜索產品背後的機器學習工作。隨後,這款產品被提供給雲計算客戶,包括Anthropic、Cohere和Midjourney等AI初創公司。這款芯片的最新版本預計將在明年大規模供應。
此外,今年4月,谷歌推出了首款中央處理器,類似於亞馬遜的Graviton。
谷歌負責芯片及其他基礎設施工程團隊的副總裁阿明·瓦赫達表示:“通用計算是一個非常大的機會。”
他還說,最終目標是讓AI芯片與通用計算芯片無縫協作。
微軟進入數據中心芯片領域,比亞馬遜雲服務和谷歌晚了一些,直到去年底才宣布了一款名為Maia的AI加速器和一款名為Cobalt的CPU。
微軟也意識到,通過為數據中心量身定制硬件,可以為客戶提供更好的性能。
領導這一項目的是副總裁拉尼·博卡爾,她在英特爾工作了近三十年。本月早些時候,她的團隊為微軟的產品線新增了兩款產品:一款安全芯片,以及一款能加速CPU與GPU之間數據流動的數據處理單元。
這與英偉達銷售的類似產品功能相似。微軟目前正在內部測試其AI芯片,並開始將其與英偉達芯片一起使用,以支持客戶使用OpenAI模型創建應用程序的服務。
盡管微軟的努力被認為比亞馬遜落後了幾代,但博卡爾表示,對目前的結果感到滿意,並正在開發更新版本的芯片。
她說:“人們從哪里開始並不重要,我的關注點完全在於客戶需要什麼。因為即使你領先,如果你開發了客戶不需要的產品,那麼矽芯片的投資如此龐大,我絕不會想成為失敗故事中的一章。”
盡管競爭激烈,三大雲計算巨頭都對英偉達讚譽有加,並在英偉達新芯片如Blackwell推出時爭奪優先采購權。
如果亞馬遜的Trainium2能承擔更多公司內部的AI工作,以及一些AWS大客戶的項目,可能會被視為成功。這將幫助亞馬遜釋放其高端英偉達芯片的寶貴供應,用於專門的AI需求。
然而,要使Trainium2成為無可爭議的成功,工程師必須完善軟件,這絕非易事。
英偉達的優勢很大程度上來源於全面的軟件工具套件,可以讓客戶無需過多定制就能上線機器學習項目。相比之下,亞馬遜的軟件Neuron SDK還處於起步階段。即便企業可以輕松將項目遷移到亞馬遜芯片上,僅驗證切換過程中未出現問題,就可能耗費工程師數百小時。
據一位曾在亞馬遜和芯片行業工作的資深人士透露,這些複雜性依然是一個障礙。
一位幫助客戶處理AI項目的AWS合作夥伴高管也表示,亞馬遜在通用芯片Graviton易用性方面取得了成功,但AI硬件的潛在用戶仍面臨更多複雜性。
Gartner公司負責跟蹤人工智能技術的副總裁奇拉格·德卡特說:“英偉達主導市場是有原因的,你無需擔心那些細節。”
為了解決這些問題,亞馬遜尋求外部幫助,鼓勵大客戶和合作夥伴在與AWS簽訂新協議或續約時使用這些芯片。目標是讓最前沿的團隊充分測試這些芯片,找出需要改進的地方。
其中一家合作公司是Databricks。盡管預計需要幾周甚至幾個月的時間才能使系統上線,Databricks仍願意投入努力,希望實現承諾的成本節約。
生成式AI初創公司Anthropic是另一家合作夥伴。去年,Anthropic接受了亞馬遜40億美元的投資,同意在未來開發中使用Trainium芯片,盡管也在使用英偉達和谷歌的產品。
上周五,Anthropic宣布接受亞馬遜另外40億美元的投資,並深化了雙方的合作。
Anthropic的首席計算官湯姆·布朗表示:“我們對亞馬遜Trainium芯片的性價比印象深刻。我們正在逐步擴大其在各種工作負載中的使用範圍。”
漢密爾頓說,Anthropic正在幫助亞馬遜迅速改進。但他也清楚面臨的挑戰,強調創建易於客戶使用的優秀軟件是“必需的”。
他說:“如果不能彌合複雜性差距,你注定會失敗。”