清華系初創企業無問芯穹推出端側開源模型

欲做AI模型算力“超級放大器”、爲人工智能提供設施的清華系初創企業推出端側開源模型。

12月16日,上海無問芯穹智能科技有限公司推出端側全模態理解的開源模型Megrez-3B-Omni,30億參數尺寸適合手機、平板等端側設備,具備圖片、音頻、文本三種模態數據處理能力。

在文本理解方面,Megrez-3B-Omni將上一代14B大模型壓縮至3B規模,降低計算成本,提升計算效率。在語音理解方面,該模型支持中英文語音輸入,處理複雜多輪對話場景,支持對輸入圖片或文字的語音提問,不同模態間自由切換。在圖像理解方面,該模型在場景理解、OCR(光學字符識別)等任務上可識別並提取文本信息。同步開源的純語言版本模型Megrez-3B-Instruct爲單模態模型,最大推理速度領先同精度模型300%,具備AI搜索功能。

無問芯穹由清華大學電子工程系教授、系主任汪玉發起,他帶領的NICS-EFC實驗室早在2008年便投入到面向智能場景的軟硬件聯合優化技術路線,提出“算法創新-編譯映射-硬件架構”聯合優化的設計範式。聯合創始人、首席科學家戴國浩畢業於清華大學電子工程系NICS-EFC實驗室,現任上海交通大學長聘教軌副教授、清源研究院人工智能設計自動化創新實驗室負責人。聯合創始人兼CEO夏立雪是汪玉的博士生。

“我們做的主要是端側小模型,一是因爲端側是我們的重點業務之一,另一方面也證明我們有模型訓練和優化的能力。雲和端一直是我們的兩大業務,以前主要做雲,現在開始雲和端一起發力了。”無問芯穹表示,相較於雲端大模型,端側模型需要在資源有限的設備上快速部署、高效運行,對降低模型計算和存儲需求提出更高要求。Megrez-3B-Omni通過軟硬件協同優化策略,令各參數與主流硬件適配。該模型是能力預覽,接下來還將持續迭代,未來用戶只需給出簡單的語音指令,就可完成端設備的設置或應用操作,該方案支持CPU、GPU和NPU同時推理,通過跨越軟硬件層次的系統優化,額外帶來最高70%的性能提升,最大化利用端側硬件性能。