谷歌向微軟英特爾全面宣戰!首款自研Arm CPU,最強大模型公測,AI視頻對壘Sora

新智元報道

編輯:Aeneas 好睏

【新智元導讀】昨晚的Google Cloud Next 2024大會上,谷歌接連放出一堆模型和產品王炸:Gemini 1.5 Pro公開可用、上線音頻處理能力;代碼模型CodeGemma上新,首款自研Arm處理器Axion正式向微軟和亞馬遜宣戰……這次,谷歌要以量取勝。

昨天的谷歌Next大會可是太精彩了,谷歌一連放出不少炸彈。

- 升級「視頻版」Imagen 2.0,下場AI視頻模型大混戰

- 發佈時被Sora光環掩蓋的Gemini 1.5 Pro,正式開放

- 首款Arm架構CPU發佈,全面對壘微軟/亞馬遜/英偉達/英特爾

此外,谷歌的AI超算平臺也進行了一系列重大升級——最強TPU v5p上線、升級軟件存儲,以及更靈活的消費模式,都讓谷歌雲在AI領域的競爭力進一步提升。

連放大招的谷歌,必不會在這場AI大戰中退讓。

從OpenAI跳槽的研究員Logan Kilpatrick,也在第一時間轉發了Gemini 1.5 Pro的消息。看得出來,他已經是一名真真正正的谷歌員工了

在短短兩個月內,谷歌一鍵將多種前沿模型引入Vertex AI,包括自家的Gemini 1.0 Pro、輕量級開源模型Gemma,以及Anthropic的Claude 3。

Gemini 1.5 Pro,人人可用了!

傳說中的谷歌最強殺器Gemini 1.5 Pro,已經在Vertex AI上開放公測了!

開發者們終於可以親自體驗到,前所未有的最長上下文窗口是什麼感覺。

Gemini 1.5 Pro的100萬token,比Claude 3中最大的200K上下文,直接高出了五倍!而GPT-4 Turbo,上下文也只有128K。

當然,超長上下文在無縫處理輸入信息方面,仍然有一定的侷限性。

但無論如何,它讓對大量數據進行本機多模態推理成爲可能。從此,多海量的數據,都可以進行全面、多角度的分析。

自然而然地,我們可以正式用Gemini 1.5 Pro開發新的用例了。比如AI驅動的客戶服務智能體和在線學術導師,分析複雜的金融文件,發現文檔中的遺漏,查詢整個代碼庫,或者自然語言數據集。

現在,已經有無數企業用Gemini 1.5 Pro真實地改變了自己的工作流。

比如,軟件供應商思愛普用它來爲客戶提供與業務相關的AI解決方案;日本廣播公司TBS用它實現了大型媒體檔案的自動元數據標註,極大提高了資料搜索的效率;初創公司Replit,則用它更高效、更快、更準確地生成、解釋和轉換代碼。

加入音頻處理能力

不僅如此,Gemini 1.5 Pro現在還增加了音頻功能。

它能處理音頻流,包括語音和視頻中的音頻。

這直接就無縫打破了文本、圖像、音頻和視頻的邊界,一鍵開啓多模態文件之間的無縫分析。

在財報電話會議中,一個模型就能對多種媒介進行轉錄、搜索、分析、提問了。

Imagen 2.0能生視頻了:4秒24幀640p

並且,這次谷歌也下場開卷AI模型了!

AI生圖工具Imagen,現在可以生成視頻了。

只用文本提示,Imagen就能創作出實時的動態圖像,幀率爲每秒24幀,分辨率達到360x640像素,持續時間爲4秒。

谷歌表示,Imagen在處理自然景觀、食物圖像和動物等主題時,表現尤爲出色。

它不僅能夠創造出一系列多樣的攝影角度和動作,還能確保整個序列的視覺一致性。

同時,這些動態圖像也配備了安全過濾和數字水印技術。

圖像編輯

並且,谷歌對Imagen 2.0也升級了圖像編輯功能,增加了圖像修復、擴展、數字水印功能。

想把圖中這個男人去掉?一鍵圈出,他就沒了!並且模型還自動補全了山上的背景。

想讓遠處的山高一點?Imagen 2.0也能輕鬆做到。

另外,它還可以幫我們擴大圖片邊緣,獲得更廣闊的視角。

而數字水印功能,由Google DeepMind的SynthID強力驅動。

這樣,用戶爲就可以圖片和視頻生成隱形水印,並且驗證它們是否由Imagen所生成。

全新代碼模型CodeGemma發佈,核心團隊華人佔6成

最新發布輕量級代碼生成模型CodeGemma,採用的是與Gemma系列相同的架構,並進一步在超過5000億個代碼Token上進行了訓練。

目前, CodeGemma已經全系加入Vertex AI。

論文地址:https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

具體來說,CodeGemma共有三個模型檢查點(Checkpoint):

CodeGemma 7B的預訓練版本(PT)和指令微調版本(IT)在理解自然語言方面表現出色,具有出衆的數學推理能力,並且在代碼生成能力上與其他開源模型不相上下。

CodeGemma 2B則是一個SOTA的代碼補全模型,可以進行快速的代碼填充和開放式生成。

預訓練數據

CodeGemma的訓練數據包括了來自網絡文檔、數學和代碼的5000億個Token(主要是英文)。

2B規模的模型完全使用代碼進行訓練,而7B規模的模型則採用了80%編程代碼外加20%自然語言的方式。

爲了確保數據的質量,谷歌對數據集進行了去重和過濾,移除了可能影響評估的代碼樣本和一些個人或敏感信息。

此外,谷歌還對CodeGemma模型的預訓練採用了一種改進的中間填空(Fill-in-the-Middle, FIM)方法,以此來提升了模型的訓練效果。

具體可以分爲兩種模式:PSM(前綴-後綴-中間)和SPM(後綴-前綴-中間)。

指令微調

通過讓模型接觸各種數學問題,可以提升它在邏輯推理和解決問題方面的能力,這對編寫代碼來說是非常重要的。

爲此,谷歌選用了多個主流的數學數據集進行監督微調,包括:MATH、GSM8k、MathQA,以及合成數學數據。

在代碼方面,谷歌採用了合成代碼指令的方法來創建數據集,用於後續的監督微調(SFT)和基於人類反饋的強化學習(RLHF)之中。

爲了確保生成的代碼指令數據既有用又準確,谷歌採取了以下方法:

- 示例生成:根據OSS-Instruct的方法,製作一系列獨立的問題與答案對;

- 後期過濾:利用大語言模型來篩選這些問題與答案對,評估它們的實用性和準確性。

代碼補全

如表2所示,CodeGemma 2B在代碼補全場景下展現出了卓越的性能,尤其是在低延遲的表現上。

其中,推理速度更是比不少模型快了有2倍之多。

Python

HumanEval和Mostly Basic Python Problems的評估結果如表3所示。

與Gemma基礎模型相比,CodeGemma在編程領域的任務上表現明顯更強。

多種編程語言

BabelCode通常用來評估模型在多種編程語言中的代碼生成性能,結果如表4所示。

語言處理能力

圖3展示了多個領域的性能評估結果,包括問答、自然語言處理以及數學推理。

可以看到,CodeGemma同樣有着Gemma基礎模型的自然語言處理能力,其PT和IT版本在性能上均優於Mistral 7B和Llama2 13B——分別領先了7.2%和19.1%。

進一步地,如表5所示,CodeGemma在數學推理方面,相比同等規模的模型有着更出色的表現。

推理建議

如圖4所示,在進行代碼補全任務時,比如函數補全、註釋文檔字符串生成或者導入模塊建議,應當按照一定的格式來設計輸入提示。

官宣自研Arm架構CPU處理器Axion

此次Next大會上,谷歌還正式宣佈,將自研首款基於Arm的CPU。

據稱這款CPU處理器Axion,將提供比英特爾CPU更好的性能和能源的效率,其中性能提高50%,能源效率提高60%。

據悉,比起目前基於Arm的最快通用芯片,Axion的性能還要高出30%。

憑着這個新武器,谷歌也在AI軍備競賽中,正式向微軟和亞馬遜宣戰!

新CPU Axion,顯然是谷歌跟隨亞馬遜AWS和微軟Azure的動作——它也想自研處理器了。

Axion將幫助谷歌提高通用工作負載的性能,比如開源數據庫、Web和應用程序服務器、內存緩存、數據分析引擎、媒體處理和AI訓練。

由此,谷歌在開發新的計算資源方面,又向前邁進了一步。在今年晚些時候,Axion就可用於雲服務了。

AI軍備競賽加快,CPU重要性凸顯

對於AI軍備競賽來說,像Axion這樣的CPU至關重要,因爲它能提升訓練AI模型所需的算力。

要訓練複雜的AI模型,就需要處理大型數據集,而CPU有助於更快地運行這些數據集。

要說此舉的最大的好處,那無疑就是——省錢!

衆所周知,購買AI芯片的成本驚人,英偉達的Backwell芯片,預計售價在3萬美元到4萬美元之間。

現在,Axion芯片已經在爲YouTube 廣告、Google Earth引擎提供加持了。

而且,很快就可以在谷歌計算引擎、谷歌Kubernetes引擎、Dataproc、Dataflow、Cloud Batch等雲服務中使用。

不僅如此,原本在使用Arm的客戶,無需重新架構或者重寫應用程序就可以輕鬆地遷移到Axion上來。

TPU v5p上線,與英偉達合作加速AI開發

在此次Google Cloud Next 2024年會上,谷歌宣佈:對自家超算平臺進行大規模升級!

升級列表中的第一位,就是谷歌雲的張量處理單元TPU v5p了。如今,該定製芯片全面向雲客戶開放。

谷歌的TPU,一直被用作英偉達GPU的替代品,用於AI加速任務。

作爲下一代加速器,TPU v5p專門用於訓練一些最大、最苛刻的生成式AI模型。其中,單個TPU v5p pod包含8,960個芯片,是TPU v4 pod芯片數量的兩倍之多。

另外,谷歌雲還將和英偉達合作加速AI開發——推出配備H100的全新A3 Mega VM虛擬機,單芯片搭載高達800億個晶體管。

而且谷歌雲還會將英偉達最新核彈Blackwell整合進產品中,增強對高性能計算和AI工作負載的支持,尤其是以B200和GB200提供支持的虛擬機形式。

其中,B200專爲「最苛刻的AI、數據分析和HPC工作負載而設計」。

而配備液冷的GB200,將爲萬億參數模型的實時LLM推理和大規模訓練提供算力。

雖然現在萬億參數的模型還不多(少量幾個選手是SambaNova和谷歌的Switch Transformer),但英偉達和Cerebras都在衝萬億參數模型硬件了。

顯然,他們已經預見到,AI模型的規模還會迅速擴大。

軟件

在軟件方面,谷歌雲推出了JetStream,這是一款針對LLM的吞吐量和內存優化了的推理引擎。

這個新工具可以提高開源模型的單位美元性能,並與JAX和PyTorch/XLA框架兼容,從而降本增效。

存儲大戰

此外,谷歌的存儲解決方案也在不斷升級——不僅加速了AI訓練和微調,優化了GPU和TPU的使用,還提高了能效和成本效益。

此次,谷歌推出的Hyperdisk ML,顯著縮短了模型加載時間,提高了吞吐量,並對AI推理和服務工作負載進行了優化。

不僅支持每個存儲卷承載2,500個實例,而且還提供了高達1.2TiB/s的數據吞吐量,性能直接超越微軟和AWS。

已發佈的Cloud Storage FUSE,可將基礎模型的訓練吞吐量提高2.9倍,性能提高2.2倍。

高性能並行文件系統Parallelstore可將訓練速度提高到3.9倍,並將訓練吞吐量提高到3.7倍。

而專爲AI模型量身定製的Filestore系統,允許在集羣中的所有GPU和TPU之間同時訪問數據,將訓練時間縮短56%。

總之,此次谷歌超算的大規模更新表明,谷歌在努力爲客戶帶來實際的商業利益,創建無縫集成、高效可擴展的AI訓練和推理環境。

參考資料:

https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-gemini-image-2-and-mlops-updates

https://storage.googleapis.com/deepmind-media/gemma/codegemma_report.pdf

https://www.businessinsider.com/google-ramped-up-ai-competition-against-microsoft-amazon-2024-4

https://www.theverge.com/2024/4/9/24125074/google-axion-arm-cpu-ai-chips-cloud-server-data-center

https://blogs.nvidia.com/blog/nvidia-google-cloud-ai-development/

https://venturebeat.com/ai/google-upgrades-its-ai-hypercomputer-for-enterprise-use-at-cloud-next/