歐洲版OpenAI,法國獨角獸推多模態大模型Pixtral 12B,源代碼已開放下載

智東西編譯 楊蕊伃編輯 漠影

智東西9月12日消息,據VentureBeat報道,法國大模型獨角獸Mistral AI昨日正式發佈Pixtral 12B,這是該公司首個能夠同時處理文本和圖像的多模態大模型。

Pixtral 12B擁有120億參數,大小約爲24GB,該模型允許用戶上傳圖像或提供圖像鏈接,並能針對圖像內容提出問題。

Mistral直接提供了一個磁力鏈接,用於下載新模型文件。目前Pixtral 12B模型尚未對公衆開放網絡使用,但其源代碼已經可以在Hugging Face和GitHub上下載,方便用戶在本地實例上進行測試。

磁力鏈接:Release v1.4.0 – Mistral common goes · mistralai/mistral-common · GitHub

此外,Mistral開發者關係負責人Sophia Yang在社交平臺X上發文透露,該模型將很快在Mistral的聊天機器人Le Chat和API平臺Le platform上提供。

Mistral AI由前DeepMind研究員Arthur Mensch、前Meta員工Timothée Lacroix和前Meta員工Guillaume Lample於2023年4月共同創立。

據悉,Mistral在6月份籌集了6.45億美元的資金,將其估值推高至60億美元。

▲Mistral開發者關係負責人Sophia Yang在社交平臺X上透露,Pixtral 12B將很快在Mistral的聊天機器人Le Chat和API平臺Le platform上提供(圖源:X截圖)

一、Pixtral 12B模型能夠原生支持任意圖像:40層架構、14336個隱藏維度、32個注意力頭

Pixtral 12B模型是Mistral AI的Nemo 12B文本模型的延伸,具備處理通過URL鏈接或base64編碼提供的圖像的能力。無論圖像的數量或尺寸如何,Pixtral 12B都能夠回答相關問題。

據悉,Pixtral 12B大小約爲24GB,其架構包含40層、有14336個隱藏維度和32個注意力頭,能夠執行廣泛的計算處理。

據TechCrunch報道,大多數生成式AI模型,包括Mistral的其他模型,都是基於來自網絡的大量公共數據進行訓練的,這些數據通常受版權保護。

儘管Pixtral 12B模型的官方細節和訓練數據目前仍然保密,但其核心功能是允許用戶分析圖片,並將文本提示與圖片結合起來進行綜合處理。

這意味着用戶可以上傳圖像或提供圖像鏈接,並針對圖像內容提出問題,Pixtral 12B將能夠理解和回答這些問題。

發佈Pixtral 12B對Mistral來說是首次嘗試,但需要注意的是,其他競爭對手,如OpenAI和Anthropic,已經推出了具備圖像處理功能的模型。

在X平臺上,當被問及Pixtral 12B模型的120億參數有何獨特之處時,Mistral AI的開發者關係負責人Sophia Yang回答說:“該模型的特別之處在於它能夠原生支持任意數量和任意尺寸的圖像。”

據外媒NewsBytes報道,該模型有望執行諸如爲圖像添加標題和計算照片中的對象等任務,類似於Anthropic的Claude家族和OpenAI的GPT-4o等其他多模態模型。

在視覺處理方面,該模型配備了一個專用的視覺編碼器,不僅能處理1024×1024分辨率的圖像,還具備24個隱藏層以支持高級圖像處理功能。

二、Mistral被譽爲“歐洲版OpenAI”,其Large 2模型支持80多種編程語言

Mistral AI成立僅一年多,就因爲其在AI技術上的影響力,被業界稱爲“歐洲版OpenAI”。

目前,Mistral已經與Microsoft、AWS和Snowflake等行業巨頭建立了合作關係,以擴大其技術的覆蓋範圍。

Mistral開發者關係主管Sophia Yang稱,Pixtral 12B將很快在Le Chat和Le Platforme上推出。

La Platforme是Mistral AI提供的一個服務平臺,它提供三個聊天端點,mistral-tiny、mistral-small和mistral-medium,這些端點能夠根據文本說明生成文本。

除聊天端點外,該平臺還提供了一個嵌入端點Mistral-embed。該端點具有1024維度的嵌入模型,專爲檢索功能設計,在MTEB上達到了55.26的檢索得分,適合需要進行文本相似性分析和數據檢索的應用場景。

此外,在Pixtral 12B發佈的幾個月前,Mistral就已經推出了Mistral Large 2模型。

Mistral Large 2具有1230億參數和128k的上下文窗口,支持包括中文、英語、法語、德語、西班牙語、意大利語、俄語、日語和韓語在內的多種語言,以及80多種編程語言。

這款GPT-4級別的模型不僅具備先進的多語言處理能力,還在推理、代碼生成和數學性能方面實現了顯著提升。

此外,該公司還推出了多個先進模型,包括具有專家混合架構的Mixtral 8x22B、開放權重編碼模型Codestral(參數規模達22B),以及專爲數學推理和科學發現設計的專用模型。

結語:Pixtral 12B輸出不受限制,確切性能有待考究

隨着Pixtral 12B的推出,Mistral將進一步拓展視覺應用程序的訪問渠道。

雖然該開放模型的確切性能尚待驗證,但這一舉措延續了Mistral在AI領域所採取的積極策略。

TechCrunch援引知情人士稱,Pixtral 12B模型可以在Apache 2.0許可下進行微調和使用。這意味着該模型的輸出可以不受限制地用於個人或商業用途。

作爲歐洲AI領域的新星,Mistral AI正以其獨特的商業模式和開放策略,迅速崛起爲全球AI競賽中的重要參與者,其未來發展值得我們持續關注。

來源:VentureBeat、TechCrunch、NewsBytes