兩家AI巨頭正討論建超級AI數據中心 每個耗資1250億美元

9月4日消息,全球頂尖的人工智能開發商對其最先進的技術一向保密,而對於開發這些技術所需的專業數據中心,他們則更加諱莫如深。

據美國科技媒體《The Information》披露,美國七個州有17個已建成或規劃中的人工智能數據中心,這些數據中心有時被稱爲超級計算機或人工智能芯片集羣。目前,這些超級計算數據中心或已投入運營,或正由微軟、OpenAI、Meta及埃隆·馬斯克(Elon Musk)旗下的xAI等公司籌備中。

總的來看,這些數據中心的建設與規劃總投資預計將超過500億美元,其中包括英偉達提供的價值近350億美元的人工智能服務器芯片,以及龐大的運營成本。值得注意的是,某些更具前瞻性的項目,如微軟與OpenAI探討的、價值高達1000億美元的超級計算機,尚未列入上述統計中,因爲這些項目仍處於理論構想階段,尚無明確的發展計劃。

這些公司基本上都在追求同一個目標,即實現超級智能,以期解決核聚變、全球變暖乃至人類星際殖民等重大挑戰。他們構想中的超級計算機規模空前,堅信計算能力的飛躍將賦予人工智能前所未有的超凡能力。

DataBank首席執行官勞爾·馬蒂內克(Raul Martynek)指出:“這一追求直接關聯到對更多人工智能服務器芯片、更多電力以及更大數據中心容量的渴求。”DataBank正在爲參與人工智能競賽的頂尖雲服務提供商建設數據中心。

在美國,部署這些超級計算機項目不僅耗時良久,還面臨芯片、土地和電力資源短缺的巨大挑戰。美國能源部已意識到潛在的電力供應不足問題,並正積極探索解決方案,如資助研發以提升人工智能計算效率的技術。

當前討論中的數據中心規模史無前例。在ChatGPT引發的生成式人工智能熱潮之前,英偉達的芯片集羣規模通常僅限於數千顆GPU芯片。然而,如今的頂尖集羣已突破三萬顆芯片大關,這些芯片相互連接和通信,就像它們是同一臺計算機的一部分。明年,多家公司計劃推出搭載十萬顆芯片的超大規模計算集羣。

與傳統芯片相比,GPU的能耗顯著增加,一個容納十萬顆GPU的集羣預計將消耗高達100兆瓦的電力。這種耗電量是傳統數據中心的十倍之多,足以供7萬至10萬戶家庭的日常用電。

微軟與OpenAI曾構想打造一臺價值千億美元的超級計算機,分別以“星門”(Stargate,OpenAI的代號)和“水星”(Mercury,微軟的代號)命名。這臺超級計算機預計將集成數百萬顆GPU,其電力需求高達數吉瓦(1吉瓦等於1百萬千瓦)。然而,這一壯舉面臨重重技術挑戰,包括如何實現芯片間的高效互聯,以及確保充足的電力供應。

據知情人士透露,由於項目融資路徑尚不明朗,微軟與OpenAI或將分別獨立探索這一宏偉計劃的實施路徑。

奔向“下一個高原”

英偉達首席執行官黃仁勳在這場數據中心競賽中佔據核心地位,他的言論進一步加劇了市場競爭的白熱化。他近期向分析師表示:“率先抵達下一個超級計算集羣平臺者,將引領人工智能領域的革命。”

連谷歌也加入了這場競爭。儘管谷歌採用的是與博通聯合設計的張量處理單元(TPU)芯片,但仍然對英偉達即將發佈的Blackwell芯片下了大額訂單。

GPU的激烈競爭不僅加劇了主要人工智能開發商與雲提供商之間的緊張關係,有時也波及到英偉達內部。例如,馬斯克曾考慮與甲骨文簽署一項鉅額協議。根據該協議,他的人工智能公司xAI將在未來幾年內斥資100億美元租用英偉達的GPU。談判最終破裂,部分原因是馬斯克對甲骨文構建超級計算機的速度不滿,而甲骨文則擔憂馬斯克計劃部署GPU集羣的地點電力供應不足。

儘管如此,馬斯克宣佈xAI已在田納西州孟菲斯建成一個包含十萬顆英偉達H100 GPU的計算集羣,該芯片是業界頂尖的通用解決方案之一。

馬斯克週一在一篇帖子中表示,這個名爲“巨人”(Colossus)的十萬顆芯片集羣已經啓動並運行,它是“世界上最強大的人工智能訓練系統”。然而,據兩位熟知xAI芯片訂單及工廠產能的知情人士透露,目前實際運行的芯片數量尚不足總數的一半,主要受限於電力或網絡設備。

無論馬斯克的表述是否誇大,其言論已在人工智能巨頭之間引起軒然大波,各開發商紛紛擔憂被趕超。據知情人士透露,OpenAI首席執行官薩姆·奧特曼(Sam Altman)曾向微軟高層表達過類似擔憂,認爲xAI很快將擁有比OpenAI更多的計算能力。這或許正是他積極推動開發新型人工智能芯片的原因之一。

更多芯片,更多問題

爲了最大限度地提高GPU在訓練新人工智能方面的效率,開發人員正在嘗試在單個數據中心或同一區域的多個數據中心部署大型GPU集羣。

然而,構建以GPU爲核心的數據中心仍然是新興領域,面臨諸多挑戰。Digital Realty首席技術官克里斯·夏普(Chris Sharp)指出,構建大型GPU集羣的一個挑戰是連接GPU的網絡設備能力有限,因爲這些設備並非爲大型集羣設計的。Digital Realty是一家數據中心的所有者,其客戶包括主要的雲服務提供商。

夏普補充道:“鑑於現有的技術制約,我們必須重新思考設計參數,以確保能夠順利構建並運行包含55,000顆乃至更多GPU的超大規模集羣。”

此外,熱量管理問題也不容忽視。傳統數據中心依賴空氣冷卻,但GPU服務器產生的熱量遠超傳統設備,行業必須尋求更高效的解決方案。微軟在威斯康辛州芒特普萊森特爲OpenAI建設的數據中心,計劃採用水冷技術替代空氣冷卻,以應對GPU產生的高熱量。

超級計算機先鋒

據知情人士透露,2019年左右,微軟在愛荷華州爲OpenAI建造了兩臺GPU超級計算機,這是兩家公司達成首次商業合作伙伴關係後的一部分。目前,其中一臺已退役,而另一臺則持續助力OpenAI訓練其旗艦大語言模型GPT-4,並且仍在運行。

近年來,微軟在鳳凰城的數據中心規模持續擴大,並同步推進威斯康辛州與亞特蘭大地區的超級計算機建設項目。儘管地理位置相隔甚遠,這兩地的集羣將協同工作,共同服務於新模型的訓練任務。

據內部人士透露,威斯康辛州設施全面竣工後,總投資可能達到100億美元,但預計從明年下半年起,部分設施將率先投入運營。

1250億美元鉅額項目

許多頂尖GPU集羣選址於電力充沛、數據中心資源豐富的地區,如鳳凰城,吸引了亞馬遜、Meta及微軟等巨頭在此部署人工智能服務器。然而,隨着集羣規模的擴展和電力需求的增加,這些公司開始將目光投向傳統數據中心樞紐之外的新區域。

亞馬遜就是一個典型例子。該公司在賓夕法尼亞州中部核電站附近購地,計劃建設一座電力容量高達1千兆瓦的數據中心,其供電能力足以媲美奧斯汀或舊金山等城市,或支持構建一個容納100萬顆GPU的龐大集羣。

與此同時,北達科他州也成爲焦點。該州商務專員喬希·泰根(Josh Teigen)透露,兩大全球頂尖人工智能開發商正在與該州政府接觸,探討建設超級人工智能數據中心的可行性。初期規劃電力需求在500至1000兆瓦之間,並計劃在未來幾年內擴展至5至10吉瓦。

這些擬建項目規模空前,遠超當前任何數據中心,凸顯了人工智能發展對電力和空間資源的巨大需求。以微軟Azure爲例,其全球數據中心去年底的總耗電量接近5吉瓦。

泰根透露,每個超級計算項目的造價可能飆升至1250億美元以上。儘管他沒有點名參與討論的公司,但指出這些公司均爲市值“萬億美元”級別的巨頭。這把名單縮小到了美國的六大企業:英偉達、亞馬遜、微軟、谷歌、Meta和蘋果。雖然特斯拉也在開發人工智能,且曾達到萬億美元市值,但目前其市值約爲7000億美元。

微軟由於與OpenAI探討的千億美元超級計算機計劃而備受矚目,成爲潛在的有力競爭者。同時,北達科他州州長伯格姆曾是微軟高管,他在2001年以11億美元的價格將一家公司賣給了這家科技巨頭。此外,谷歌和亞馬遜等公司也在積極擴展其人工智能計算能力。

泰根表示,過去六週內,“多家企業的代表”已到訪北達科他州,在雄厚資金支持下,項目推進速度非常快。他強調:“討論正處於加速階段”,並確信自己正與“最積極推動這一項目的公司”進行實質性談判。

泰根急切呼籲州內官員迅速採取行動,簡化土地重新劃分流程並促進與電力公司的合作,以吸引人工智能數據中心項目落戶北達科他州,否則恐錯失“千載難逢”的發展機遇。他警告道:“若我們行動遲緩,得州、俄克拉荷馬州乃至其他州將搶佔先機,而我們則將錯失經濟飛躍的良機,無法實現真正的多元化與韌性增長。”

數據中心行業的專家長期以來對北達科他州保持高度關注,因爲該州是美國少數能源產出大於消耗的州之一,具有獨特優勢。據美國能源情報署數據顯示,北達科他州在原油生產方面位列全美第三,僅次於得克薩斯州和新墨西哥州,這爲數據中心項目提供了堅實的能源保障。(小小)