萬字梳理中國AIGC產業峰會激辯,大模型應用最全行業參考在此
在中國AIGC產業峰會的現場,20位大咖展開激辯。從軟件應用、智能終端乃至具身智能等,AIGC正在全面席捲,「你好,新應用!」成爲本屆AIGC峰會主題。
來自AIGC底層基礎設施、模型層、應用層的企業玩家,以及來自市場學術界的洞察者,暢談大模型落地元年這個萬億市場的的機遇與挑戰。
現場烏泱泱一片,500人的會場可以說是座無虛席(其實站也要沒有席了)。
線上也有數百萬網友圍觀並積極討論,以及數十家行業知名媒體參與了大會的直播跟報道,全網總曝光量超千萬。
爲了讓更多讀者更全面、系統地瞭解本次AIGC峰會的內容,深入感知這股時代浪潮的發展,量子位聯合各大模型做了萬字梳理,希望能爲大家提供一份有價值的行業參考。
(建議收藏再食用)
本次梳理主要圍繞五個方面展開,分別是AIGC的模型層、應用層、基礎設施層的參與者,以及行業洞察者的觀點,最後是圓桌討論的精彩觀點。
微軟李冕:AI應用已進入新階段,微軟助力企業級應用全球落地
微軟大中華區Azure雲事業部總經理李冕分享了微軟Copilot與Azure AI平臺如何助力企業級應用的全球落地。
李冕認爲,過去12個月AI經歷了數次迭代,現在AI應用已進入到一個新的階段。企業如何打造自己的應用?怎麼實現AI帶來的真正價值?可以從四個方面來考慮應用落地:提升員工生產力,重塑與用戶的互動關係,重塑企業內部流,加強產品和服務。
他強調了在企業打造自己的應用時微軟可以爲企業提供的一系列支持。
AI模型層面,李冕展開介紹了Azure平臺支持的三類模型,分別是OpenAI系列模型、第三方開源模型和企業自研模型(BYOM)。同時,也講述了小模型(SLM)在特定場景下的應用前景。
對於開發工具,李冕提到Azure提供低代碼、無代碼的Microsoft Copilot Studio工作臺以及針對深度定製的Azure AI Studio,方便企業快速開發AI應用。
考慮到企業級應用需求,李冕還表示微軟不僅在最上面的模型層爲企業提供支持,還提供下面的調度層、硬件層、雲數據中心等的一系列配套服務。
李冕在演講最後重申了微軟在數據隱私安全方面的承諾:
“客戶的數據就是客戶的數據,客戶的數據不會被用來訓練其它模型,所有客戶數據均有企業級防護,受到全面的企業合規和安全控制的保護。”
崑崙萬維方漢:天工SkyMusic音樂大模型將大大降低音樂創作的門檻和成本
崑崙萬維董事長兼CEO方漢分享了“天工多模態大模型的演進落地”。大會當天,崑崙萬維發佈了「天工3.0」,這是中國音樂AIGC領域首個實現SOTA水平的模型。同時,他還宣佈「天工3.0」基座大模型與「天工SkyMusic」音樂大模型正式開啓公測。
「天工3.0」擁有4000億參數,超越了3140億參數的Grok-1,是全球最大的開源MoE大模型。在MMbench和MMbench-CN測試集上,「天工3.0」性能指標全面超越GPT-4V。
通過專項的Agent訓練,目前大模型可以做到“能搜能寫能讀能聊能說能畫能聽能唱”,應對多種複雜的內容創作需求。例如,它可以準確識別“成都迪士尼”是個梗,並給出遊玩攻略;可以自動總結文獻,生成大綱、PPT和腦圖;還可以通過非代碼方式生成智能體。
方漢特別介紹了「天工SkyMusic」音樂大模型,得益於2000萬首音樂的訓練數據和獨特的模型架構,「天工SkyMusic」在人聲識別度、音質等方面已經超越Sora。「天工SkyMusic」支持根據音源和歌手特點生成音樂,並支持多種方言合成,大大降低了音樂創作的門檻和成本——
各行各業使用的歌曲都能通過AI生成,成本迅速從幾萬塊錢降到幾分錢。
最後,方漢分享了崑崙萬維的願景:“實現通用人工智能,讓每個人更好地塑造和表達自我。”他認爲,大模型的演進終將實現AGI,而AIGC能力普及則有助於打破強勢文化的壟斷,實現文化平權。作爲一家全球化互聯網企業,崑崙萬維希望用AI技術爲全球用戶賦能。
阿里通義千問林俊暘:智能模型應融入對視覺/語音的理解
阿里通義千問開源負責人林俊暘,在現場分享了阿里通義千問大模型爲“走向通用大模型”做出的努力。
林俊暘表示,自開源以來,通義千問Qwen(爲了更方便英文發音,對“千問”的音譯)系列模型受到了國內外開發者的廣泛關注。
從去年8月開始,通義千問Qwen系列模型陸續開源上新。從7B、14B參數規模大小開始,直到開源了72B參數版本;最新動作,阿里通義千問家族還有一名“小成員”,是14B參數的MoE模型。而開發者社區的迫切需求,促使阿里快速開源了32B模型——這個模型的表現與72B參數模型表現接近,並且在某些方面相比,比MoE模型還具有優勢。
林俊暘在現場強調,阿里通義千問同時十分專注打造大模型使用生態。
首先,通義千問的代碼已經官方融入了抱抱臉的代碼庫,開發者可以更方便地使用通義千問的模型。
其次,通義千問在第三方框架支持方面有不少進展,包括ollama在內的平臺,都能一鍵使用Qwen系列模型。
多語言、長序列、Post-training、Agent、多模態等能力相關問題,林俊暘也在現場做了分享。
多語言:通義千問模型本質上是多語言的,而非僅僅是中英雙語的;並且,團隊在多語言能力上進行了檢測和優化。
長序列:Qwen系列模型一直沒有卷長文本,這件事並不好做,不僅要保證“長”,同時要保證效果;目前32k版本表現已經比較穩定;大海撈針等評估發現長序列可以在Chatbot上落地實用功能。
Post-training:通過SAT等在數據等方面,優化post-training,讓大模型的潛力爆發。
Agent:實現方式(之一)是做更多數據標註、研究to use agent相關。
多模態(Qwen-VL):非常智能的模型應該融入對視覺、語音方面的理解,今年會重點關注視頻模態的研究,思考如何打造一個VL-Agent。
高通萬衛星:具有異構計算系統的高通AI引擎可以充分滿足生成式AI的多樣性要求
高通公司AI產品技術中國區負責人萬衛星在演講中表示,作爲芯片廠商,高通正通過提供領先的產品和解決方案,推動AIGC相關產業的規模化擴展。
他指出,高通認爲終端側生成式AI的時代已經到來。
高通在去年10月發佈的第三代驍龍8和驍龍X Elite兩款產品中,已經將大語言模型完整搬到了端側,賦能了衆多AI手機和AI PC。多模態趨勢下,今年2月,高通也把多模態大模型完整地搬移到端側。在發佈的驍龍X Elite這款產品上,高通也演示了全球首個在Windows PC上運行的音頻推理多模態大模型。
萬衛星表示,不同領域的生成式AI用例具有多樣化的要求,背後所需的AI模型也是千差萬別,很難有一種處理器可以完美適用所有用例。
在這方面,高通推出了具有異構計算系統的高通AI引擎,包含多種處理器組件,可以充分滿足生成式AI的多樣性要求。其中重點講了NPU。基於用戶需求和終端用例的多年演進,高通NPU不斷升級。第三代驍龍8的Hexagon NPU還集成了專門爲生成式AI打造的Transformer加速模塊,以及微架構升級、獨立供電軌道、微切片推理等先進AI技術。
萬衛星還透露高通今年會重點支持多模態模型端側化,以及支持更高參數量大語言模型在端側的部署。
說完硬件設計,萬衛星介紹了高通的重要AI軟件產品,包括跨平臺、跨終端的統一解決方案高通AI軟件棧(Qualcomm AI Stack)。
此外,高通還在今年的MWC巴塞羅那發佈了高通AI Hub(Qualcomm AI Hub)。該產品面向第三方開發者和合作夥伴,可以幫助開發者更加充分的利用高通和驍龍底層芯片的硬件算力,開發出自己的創新AI應用。
最後他總結了高通在AI方面的優勢,在於“無與倫比的硬件設計、頂尖的異構計算能力、可擴展的AI軟件工具以及廣泛的生態系統和模型支持”。
螞蟻李建國:超70%代碼問題單純靠基座模型是解決不了的
在中國AIGC產業峰會上,螞蟻代碼大模型CodeFuse負責人李建國這樣說道,他還指出,當前代碼大模型雖然在基座模型和應用產品上演進飛速,但要在企業中真正實現研發效率的大幅提升,仍面臨諸多挑戰。
從軟件研發全生命週期來看,從最初的需求設計到編碼開發、測試構建、發佈運維、數據洞察等環節,寫代碼可能只佔1/5甚至更少的工作量。
李建國表示,螞蟻集團希望打造一個“研發智能體”,通過智能Agents實現任務分發與銜接,將各環節連接起來,全面提升研發效能。
CodeFuse剛發佈時,就明確提出“要做全生命週期的代碼大模型”。CodeFuse目前已開源13個倉庫,覆蓋代碼訓練、測試、DevOps運維、程序分析、評測等8大軟件開發領域。李建國表示,這是全方位的開源。
最後再來看整個領域,結合外部統計與螞蟻實踐,基座模型在實際運用過程中只能解決大約30%的問題,剩下70%的問題還需要端到端代碼生成能力。除此之外,在Agent推理能力、需求需求拆解、跨模態交互等方面還需要持續演進。
李建國還重點提到,垂直場景中,比如金融場景,生成代碼的安全、可信、可靠的要求,這也是螞蟻正在重點攻克的難題。
雖然挑戰不少、道阻且長,但李建國認爲,螞蟻將攜手開源社區一起努力,在萬物摩爾定律的牽引下,未來兩三年可以一定程度解決這個問題。
小冰徐元春:市場真正的運營主體是非常樸素的
小冰公司聯合創始人兼首席運營官、人工智能創造力實驗室負責人徐元春的演講主題是“數字人+大模型:打造商業應用新場景”。
“作爲一家算法公司怎麼掙錢和作爲一家AIGC產業公司怎麼賺錢,這是最後要回答的問題。最先要回答的問題是,大家用這個東西怎麼賺錢?”,徐元春這樣講。
他通過幾個特別具體的例子,展現了小冰是如何讓大家賺到錢的。
第一個是一個美裝美業個體博主,她利用小冰虛擬人和大模型平臺,創作出了自己的數字人,在短視頻平臺用數字人分身分享創作服裝穿搭內容。僅用40多天,她的單條視頻播放量就達到200萬,日均爲線下門店引流6-8個意向客戶。而這,已經能讓她的生意更好地發展起來。
第二個是一家中小型的企業,一開始是做軟件開發、技術賦能、後臺的支持,現在使用小冰的技術平臺做轉型,成爲AI服務商,4個月內爲雲南300家中小企業提供了AI賦能服務。
第三個是更大的行業領軍企業,他們將小冰的數字人與大模型技術深度整合到了自家各類硬件產品中,實現“開箱即用”,每一個有屏的硬件設備都可以變成一個全新的交互載體。
在徐元春看來,真正能把產業化應用做得越來越深,不在於廟堂之高,而是在江湖之遠:
他進一步補充道,小冰將大模型和數字人更加深入地植入到了企業的工作流和任務系統中,數字員工相當於有了集合企業知識和數據閉環的大腦,可以讓業務流程和客戶溝通更加順暢。
最後徐元春講述了商業的閉環。有“雲+端”這樣的軟件+硬件產品的閉環,也有交互+內容這樣的形式上的閉環。而今天通過真實的企業、個體案例,使用技術去獲得更多競爭力、讓自己的生意變得更好這其實是所有閉環裡最重要的節點。
“找到並激活每個關鍵節點,才能實現技術商業化的真正閉環。”
美圖吳欣鴻:基於垂直場景的大模型應用創新,窗口期只有兩年
美圖公司創始人、董事長兼CEO吳欣鴻則分享了美圖視頻大模型的探索之路。
美圖作爲影像工具起家,經過16年的發展,現在主要聚焦在影像和設計產品,形成了圖像、視頻和設計三大AI產品品類。
吳欣鴻現場展示了一個僅用半天時間製作的60秒AI短片,運用了開拍、WHEE、Wink等一系列AI工具,相比傳統動畫工作流,大幅降低了製作門檻,提升了效率。
吳欣鴻預計今年下半年,將會有很多的國產Sora扎堆上市,美圖也是其中的一家。
其中基於垂直模型的大模型應用創新,吳欣鴻認爲有兩年窗口期。
展望未來,吳欣鴻認爲,視頻大模型的標配除了文生視頻,還將涌現圖生視頻、視頻生視頻、音頻生視頻等更多生成方式,應用場景非常廣闊。
今年,以Sora爲代表的視頻生成只是個開始。隨着視頻大模型對物理世界理解的加深,有望實現劇情設計、分鏡、轉場等更專業的能力,與視頻製作工作流深度結合,後續可以生成1-5分鐘視頻。
金山辦公姚冬:WPS已不再是一個文檔編輯器
金山辦公副總裁、研發中臺事業部總經理姚冬在本次大會上分享了金山辦公在擁抱AI浪潮中的思考與實踐。
作爲一家辦公軟件公司,金山辦公最近五年將“多屏、內容、雲、協作、AI”作爲戰略重點,在AIGC浪潮下,最近兩年尤其注重AI和協作這兩點的發展。
就在前幾日,金山辦公發佈企業級產品WPS 365。
姚冬表示,當前的WPS已經不再是一個文檔的編輯器,而是包含企業數據協作、知識管理、通信以及各種跟算法相關的模型服務等多種功能於一體的辦公平臺。在最近WPS 365發佈中,其包含的WPS AI企業版聚焦爲客戶打造企業大腦,主打三大類能力:AI Hub、AI Docs和Copilot Pro。
其中,AI Hub是企業使用AI能力的基座,提供了一個兼容市面上各種大模型的統一接口和開發體系,讓企業可以靈活選擇和切換適合自己的模型。
AI Docs是用來幫助企業盤活海量非結構化數據資產。
傳統的關鍵詞搜索很難準確命中文檔中的知識,而基於大模型和多模態技術,WPS 365實現了對企業內部各種格式文檔的智能化閱讀理解、搜索問答,並嚴格遵循文檔權限管控。
Copilot Pro則是通過AI驅動自然語言交互式辦公。比如做數據分析,傳統方式需要寫腳本、設計公式、繪製圖表等,門檻很高。在Copilot Pro中,用戶只需用自然語言表達需求,讓AI自動執行全流程。
姚冬強調,文檔數據在人和人之間沒有傳播其實一個數據孤島,而今天的辦公不再只是簡單寫寫文檔分析數據,更重要的是人和人、人和AI之間的協作。
印象筆記唐毅:AI驅動的“第二大腦”,既給用戶自由,又降低信息管理焦慮
印象筆記董事長兼CEO唐毅,有科技創業、跨國企業管理以及投融資領域的豐富經驗。
他帶領的印象筆記,2018年成立印象研究院,開啓了對AIGC的探索,去年3月起,利用自研印象大模型驅動“印象AI”產品和服務,落地賦能旗下全線軟件和智能硬件產品。
唐毅的分享聚焦“知識管理”領域。在他看來,AIGC的發展仍處於早期繁榮階段,挑戰和機遇並存。
他認爲,相比算力、數據集和模型規模的快速擴大,模型算法的進展則相對緩慢,且算力的投入和收益不成比例。此外,目前而言,隨着模型訓練對人類公共領域數據的窮盡,越來越多合成數據的加入也會導致模型輸出效果下降。
與此同時,在實踐和競爭中發現,特定數據驅動的模型能力的增長在不斷加強,模型的小型化和高效化趨勢也日益突出。
談及印象筆記的大模型及產品進化方向,唐毅表示將從複合AI系統(Compound AI System)角度出發,提升自研印象大模型的能力,同時發揮用戶、數據、場景、載體、交互等方面優勢,打造真正的AI超級應用。
在AI驅動下,印象筆記將幫助用戶智能匯聚信息、高效閱讀吸收、輔助靈感記錄與創作、自動完成知識整理與提煉,成爲用戶真正的、智能的“第二大腦”。
逐際動力張力:人形機器人未來將實現平臺化應用
通用機器人初創公司逐際動力的聯合創始人兼COO張力,在中國AIGC產業峰會現場分享了關於人形機器人發展及其與AGI關係的深刻見解。
目前,人形機器人的雙腿移動能力已經有了實質性突破,而操作能力仍然受限,是因爲AI還不能完全根據多模態場景形成自己的行爲,如何利用多模態大模型生成機器人自主的運動和控制,是產業界和學術界都在追趕和研究的部分。
在硬件和軟件算法方面,尤其是大腦和小腦的協同上,人形機器人仍需取得更多突破。
張力暢想,未來的人形機器人可以實現平臺化的應用,就像今天的iPhone+APP一樣。機器人通過安裝不同的應用程序,利用自身的運動控制能力,執行對應的各種任務,從而極大地擴展應用範圍。
從本質來講,機器人就是一個類似或者超越人運動能力、計算能力和感知能力的機電系統。技術方面,事先規劃好的運動控制這種是相對傳統的技術;而如果需要跟外界產生更多的交互,如環境認知感知、物體檢測、接觸反饋等,就需要新的技術。在這方面,AGI對於機器人的影響非常大。
在不斷研發迭代產品的過程中,逐際動力形成了通過模仿學習、深度強化學習以及基於感知的運動控制等關鍵的新技術,推出了人形機器人、雙足機器人,以及四輪足機器人。
張力分享了他對人形機器人市場前景的看法:
得到快刀青衣:AI給了很多人一個突破自己的機會
得到聯合創始人、AI學習圈主理人快刀青衣的演講主題是“六邊形戰士,AI 驅動下的個人能力革命”。
“六邊”在快刀青衣這裡指的是產品能力、輸出能力、提效能力、創新能力、管理能力、設計能力。在他看來,AI技術的發展讓他個人的六邊能力得到全面提升。
他從創新和輸出兩方面分享了過去一年的心得。
首先,快刀青衣認爲,AI創新的源泉可以從四個方面考慮:你自己也想用的產品、一個困擾你很久的痛點、你熟悉行業能預見到的巨大變化、你對它充滿熱情而又具有挑戰性的事情:
以此爲出發點,快刀青衣介紹了得到自主研發的AI陪練小程序“開始練練”,用來給員工進行AI實戰陪練,收到AI的反饋。如此一來,練習後的員工再面對真人客戶時就能輕鬆解答客戶的問題。
接着他分享了開發這款小程序的初衷。一開始是想讓自己公司的程序員用,後來程序員們都表示自己不是靠溝通幹活的,是靠寫代碼。後來有一次發朋友圈,一個連鎖美容院的老闆發現這對他們一線美容師介紹產品特別管用……
快刀青衣由此感慨,“最初那個起點可能跟你想象的不一樣,過程中可能會有很多不一樣的東西”。
此外,他還強調了企業專有知識庫、專有數據的重要性,並表示自己在做這個AI項目時給團隊設置了幾個限制:團隊不超過3人,缺的能力用AI補;不碰硬件,不訓大模型;只做提升用戶能力的培訓場景。
輸出能力提升方面,快刀青衣分享了自己從公衆號年更“保證號不被凍結”到365天日日更的轉變,以及每週都要做一場和AI有關的直播聊一下別人都在做什麼。這一切都是這波AI浪潮給他帶來的輸出能力的提升。
最後,快刀青衣引用了喬丹的一句話:“我可以接受失敗,但不能接受不去嘗試。”
亞馬遜雲科技王曉野:四個要點讓企業抓住生成式AI機遇
亞馬遜雲科技大中華區產品部技術總監王曉野在演講中表示,生成式AI將在18個月內顛覆所有產業,爲全球帶來高達4.4萬億美元的巨大市場商機。
對於企業如何抓住生成式AI機遇,王曉野總結了四大要點:選對場景、選對工具和合作夥伴、重視數據這一企業核心競爭力、關注人才培養與AI相關的監管與治理。
他指出生成式AI在跨語言溝通、商業決策以及洞察、智能服務和營銷素材的生成、整體運營效率提升等六大場景大有可爲。
王曉野指出,得益於模型能力和成本的優化,生成式AI正在從侷限的文生圖、營銷、聊天機器人等初級應用,進化到更廣泛的領域。比如在Claude等大模型支持下,語言翻譯、情感陪伴、遊戲內容審覈等更多場景的落地正在悄然發生。他強調多模態交互將是大模型發展的重要趨勢。
在助力企業應用生成式AI方面,亞馬遜雲科技提出了“三層原子能力”:底層基礎設施加速層、利用基礎模型構建生成式AI應用的工具比如Amazon Bedrock、頂層開箱即用的生成式AI應用。
從電商到雲計算,亞馬遜一直在用技術和AI顛覆和創新原有產業。王曉野最後表示,下一個亞馬遜正在構建並且持續投入的地方,就是生成式AI的三層原子能力,希望能與客戶共贏生成式AI時代。
商湯楊帆:打造AI基礎設施生態是降低AI應用門檻的關鍵
“中國AI應用正在變得越來越多,越來越多新的場景被打開,今年下半年或是明年上半年,我們將看到中國生成式AI市場的爆發。”
商湯科技聯合創始人、大裝置事業羣總裁楊帆在大會上做出了這樣的判斷。
楊帆分析道,當前尺度定律仍在主導AI的技術迭代,AI產業發展的核心問題在於“產業端的投入產出比不夠好”。隨着AI生產和應用成本的提高,用降低成本的方式降低使用門檻其實是必然趨勢。
而AI基礎設施的建設,正是破解這一難題的關鍵。
關於商湯在這方面的投入,楊帆先是介紹了商湯在臨港投建的智算中心的最新的進展:
截至去年底,包括臨港在內已經建成七八個節點形成連接,還有很多新的節點在建。連接算力超過12000P,領先單點算力接近10000P。同時,商湯在芯片層面也與產業鏈展開了廣泛合作,臨港智算中心已有超15%的國產芯片算力。
夯實算力基礎之外,楊帆還講述了商湯推出的不同層級的軟件產品和服務體系,其中提到了降低模型調用成本的全套解決方案。
他還分享了商湯自家大模型的發展,除了去年看到比較多的語言類的任務,現在更多在圖像、視頻、三維重建不同領域提供不同基礎模型的方案。
總的來講,商湯還是更希望以基礎設施平臺化能力支撐更加繁榮的場景生態。
北大袁粒:大模型幻覺問題,我們幾乎是公開最早提出檢索增強來解決
北京大學深圳研究生院助理教授袁粒在大會上分享了他們團隊在多模態模型垂直領域應用的實踐經驗。
他表示,用來閒聊的玩具並不能滿足用戶真正的需求,AI必須轉化爲實實在在的生產力,而生產力則是由垂直領域來轉化。
袁粒教授介紹了他們團隊基於鵬城的雲腦和自建算力,基於通用和行業數據開發的幾款代表性產品:
ChatExcel:一款面向數據表格處理的多模態AI助手,可用文字直接操縱表格,進行數據可視化和營銷策略分析等。這項成果已經在某奢侈品巨頭落地應用。開發這塊應用的博士生也創辦了元空AI。
ChatLaw:中文法律垂直領域應用,可爲用戶和律師提供信息分析、結構化抽取、生成法律文書等服務。該產品採用了檢索增強技術,引入法律文本數據庫參考,有效緩解了大模型的幻覺問題。
最後袁粒教授介紹了他們同北大校友企業兔展智能聯合發起的Sora復現開源計劃Open-Sora Plan,目標是實現一個視覺版LLaMA。該項目分爲三個技術部分:視頻編解碼器、Diffusion Transformer和條件注入。
目前已經開源了第一版預訓練模型和CausalVideoVAE,在開源社區引起廣泛關注,在GitHub上獲得近萬星。該框架最大特點是能夠生成較長視頻,得益於訓練時壓縮喂入的長視頻片段。
接下來,該項目將分三個階段實現更高的復現目標:第一階段已開源;第二階段爭取開源支持20秒720P視頻生成的模型;第三階段希望藉助產業界算力實現超越原版Sota的性能。
袁粒教授表示,開源推動了AI的繁榮,他們也希望通過開源回饋社區,讓學術界和產業界都能共享技術成果。
硅谷Fusion Fund張璐:初創企業在現階段都可走“雞尾酒”模式
作爲長期關注和佈局AI領域的頂級投資人,硅谷Fusion Fund創始合夥人、斯坦福大學客座講師張璐分享了她對全球尤其是硅谷AI技術與產業發展的深度洞察。
張璐指出,AI正在成爲一項全產業的數字化轉型工具,而海量高質量數據的涌現爲AI的大規模應用奠定了基礎。
在此背景下,AI將帶來比互聯網時代大10倍的機會,但其中只有三分之一會留給初創企業。
作爲初創企業,找到對的工業界和對的應用場景,找到合適的切入點非常關鍵,數據是核心。怎樣拿到高質量的數據?怎樣讓數據成爲你的競爭優勢點?
初創企業要想在AI浪潮中抓住先機,必須找準自身的創新切入點,充分利用大公司搭建的生態平臺實現共同發展。
現階段,初創企業基本上都可以做“雞尾酒”模式,即調動最前沿大模型的API,在上面配套使用開源模型,再自己做些修改進行模型調優。
“在這個優化過程中,很快會發現兩個特點。”張璐說,第一個特點是數據的質量比數據的數量更重要;第二是不需要一個模型去解決所有的問題。
在投資方向上,張璐表示,Fusion Fund聚焦AI的應用層和基礎設施兩個維度。
其中,應用層主要關注醫療、金融保險、機器人、太空等擁有海量高質量數據和廣闊應用前景的領域;基礎設施層則佈局從芯片到雲端的各個技術節點,旨在突破算力、能耗、隱私等AI發展的關鍵瓶頸。
張璐在演講中談到,隨着開源社區的蓬勃發展,小模型、行業專屬模型也將成爲AI應用的重要趨勢。
她強調,對於創業者而言,高質量數據的獲取與應用比海量數據更爲關鍵,定製化的小模型在特定場景下的效能甚至可以與通用大模型相媲美。
人大盧志武:有算力就有超越Sora的可能
中國人民大學高瓴人工智能學院教授盧志武分享主題爲《VDT:基於Transformer的通用擴散視頻生成》。
VDT是Video Diffusion Transformer的縮寫。這是盧志武帶隊的項目,去年5月發佈在arXiv上,並已被頂會ICLR接收。
它的創新之處是將Transformer應用於視頻生成——這遠在OpenAI發佈Sora之前,以及在模型中引入統一的時空掩碼建模。
爲什麼要將視頻生成從基於Diffusion模型轉向基於Transformer模型?
盧志武表示,Transformer模型具有捕捉長期或不規則時間依賴性的優勢,這在視頻領域尤爲重要;而Transformer模型的參數量可以根據需要增加,這爲提高模型性能提供了靈活性。
在演講中,盧志武提到了VDT模型中關鍵的時空Transformer block,並解釋了其與現有模型如Sora的細微差別。他指出,由於算力限制,團隊在設計時採取了空間和時間分開的處理方法,以提高效率。
那VDT與Sora這樣的SOTA模型相比如何?盧志武分析,兩者在時空Attention處理上有所不同,但這個差別並不是本質上的。
盧志武在最後表示,團隊通過實驗發現,VDT模型效果只和消耗的算力有關,這與OpenAI的圖像生成模型DiT的結論一致。
“算力越大效果越好。拿到更多算力,超越Sora也不是不可能。”
“你好,新應用!”峰會設置了一場圓桌論壇,討論的主題非常務實:怎麼落地?如何賺錢?
——從ChatGPT問世到現在,一年半的時間裡,AIGC有一個非常明顯的趨勢,就是從建設基礎層逐步向“用起來”去發展。今年也被很多人認爲是AIGC應用元年,在這個時間節點上,有必要坐下來聊一聊與AIGC相關的接地氣的話題。
本次邀請到的三位代表性嘉賓分別是:
輕鬆集團技術副總裁高玉石,主導了該集團在健康保障領域的AI智能體系研發建設。
阿里雲通義大模型業務負責人徐棟,在雲原生、端雲架構和AI大模型領域的深入實踐。
在AI和企業服務領域積累了寶貴經驗的瀾碼科技創始人兼CEO周健。
在量子位主編金磊的主持下,圓桌主要圍繞3個話題展開:大模型應用用得怎麼樣了、AI賺錢之道各有招、百模大戰利大於弊。
大模型應用用得怎麼樣了
高玉石表示,輕鬆問醫Dr.GPT的升級給醫患雙方都帶來很大便利。在醫生端,臨牀研究的效率提升2倍;科普內容創作實現月產萬篇規模;智能輔助診療的採納率達86%,診斷時間從十分鐘縮短爲1-2分鐘。患者端的健康顧問覆蓋30多萬用戶,活躍率70%。
周健的瀾碼科技基於大語言模型打造企業級AI Agent,服務於企業日常辦公場景下的增強自動化和創新業務的開展,在保險、銀行、政務等行業和領域已實現專家知識賦能基層員工和管理增效的典型應用。
徐棟從通義大模型的視角給了兩個維度的觀點,目前看到第一類是大模型塑造了產業的核心商業模式,比如遊戲行業的NPC、社交領域的角色扮演,以及像智能硬件端側的應用;第二類是企業級市場,未必是對商業模式做了根本性重塑,但大模型突出體現在降本增效上,最典型的客服場景、知識庫的問答等等,這些場景在企業內部提效幫助很大。
AI賺錢之道各有招
在AIGC商業化方面,徐棟表示目前AIGC應用尚未出現殺手級產品,未來可能出現基於訂閱制的創新商業模式,可以拭目以待。
高玉石則表示他們主要通過爲C端用戶提供增值服務獲利,如醫療健康類的保險、商城、科普付費等。對B端則主要是按需付費。
周健提到一種可能性是把AI Agent/基於大語言模型的數字員工按月收費。將專家知識、模型、算力等全新生產要素整合爲一套服務,面向金融等行業按使用量收費分成。
對於如何評判一款AIGC產品的價值,三位嘉賓一致認爲要看其能否提升ROI,包括降本增效、提高收入或改善用戶體驗等。但具體衡量方式要根據行業和場景特點而定。
百模大戰利大於弊
針對去年百家爭鳴的“百大模大戰”是否有必要,高玉石認爲從加速技術發展角度看是有價值的,但資源損耗問題需要注意。他預判最終可能在科技巨頭及其投資的創企中展開洗牌。
周健提出,未來通用大模型可能只需要少數幾家,但細分的垂直領域模型可能多達上百個,需要更多創業公司參與。
徐棟也認爲,“百模大戰”並非完全鋪張浪費,它培養了人才隊伍,積累了模型和數據方面的經驗,我們也歡迎非同質化的模型的競爭,這些培養的人才、積累的經驗也會幫助大模型落地到千行百業,對未來AIGC的商業化大有裨益。
後續還將有大會嘉賓更詳細版內容分享,盡情關注!