李開復周志華縱論AI,商湯徐立倡議「打臉時刻」|萬字梳理MEET25
「Scaling Law」和「打臉時刻」,絕對是2024年科技智能領域的年度關鍵詞。
這是20餘位工業界、學術界乃至投資界的頂流大咖,在量子位MEET 2025智能未來大會上反覆提及、探討的話題。
在座無隙地的會場,大牛們的深入討論當然沒有隻侷限於此——
站在諾貝爾獎對AI青睞有加的2024年年尾,他們回顧技術、產品和商業的發展,也毫無保留地傳遞對未來的規劃、已經洞察到的機遇;有人熱心站出來解答了近期熱議的困惑,有人坦白曾因技術的放緩有過短暫憂慮,也有人爲從業者、愛好者、觀望者指明值得一試的方向。
有深度,夠前瞻,思考碰撞,激情四濺。
320萬+線上觀衆、1000+現場觀衆和在場嘉賓一起,見證了乾貨滿滿的一天。
△連“站票”也很搶手喲
圍繞着「智變千行,慧及百業」這一主題,本次大會嘉賓們暢聊了關於「技術演進時」「無限未來時」「拐點來臨時」和「應用正當時」的所見所思所想。
來,跟着量子位真人編輯和ChatGPT、Claude等大模型一起劃重點。
MEET2024智能未來大會以零一萬物首席執行官、創新工場董事長李開復和量子位總編輯李根的深度對話拉開帷幕。
對話中,李開復透露出OpenAI的瓶頸與挑戰:GPT-5的訓練並非一帆風順。大規模GPU集羣的效率遞減、數據與算力瓶頸,讓Scaling Law(尺度定律)不再一騎絕塵。OpenAI也面臨着算力投入與商業回報的博弈。
在李開復看來,傳統Scaling Law的放緩這並不意味着大模型發展遭遇天花板,相反,中國AI 2.0創新者能在裡面找到彎道超車的機遇。
首先,AI 2.0已經成爲世界各國的“未來之戰”,將重塑經濟版圖和創新格局。中國絕對不能放棄大模型預訓練。從國家技術競爭力角度看,掌握了大模型預訓練就等於掌握模型能力的上限和安全可控的底線。
其次,當前大模型已“足夠好、足夠便宜”,中國開發者應抓住應用井噴的黃金窗口期,結合中國巨大的市場需求和落地場景,借鑑移動互聯網時代領先世界的工程能力和產品微創新迭代能力,打造“Made in China”的“ChatGPT時刻”。
他提醒AI 2.0創業者不妨先算一筆賬:自己的基座大模型能力是否有獨特價值?自己是否有預訓練技術優勢做出性能位居世界第一梯隊但又快又便宜的模型?如果自研的模型無法超越開源模型,不妨專注在應用創新上。
在商業策略上,零一萬物打造的預訓練模型Yi-Lightning不僅在國際權威的“大模型競技場”LMSYS盲測中創下中國大模型歷史最佳成績,而且推理成本僅爲GPT-4o的三十分之一。
零一萬物也積極探索AI 應用落地:國內以To B爲主,海外側重To C。以多快好省的方式訓出世界第一梯隊模型,同時用“又快又好”的大模型爲應用開發者賦能,打造健康良性的大模型創新生態。
李開復相信,未來大模型頭部玩家更應聚焦AI-First應用端的價值創造,就像過往PC、移動互聯網時代的創新發展路徑一樣,創造最大經濟價值的往往是應用層。
北京智源人工智能研究院院長王仲遠博士指出,當前人工智能正處於一個新的拐點。
大模型的出現標誌着弱人工智能向通用人工智能的轉變。儘管目前的大模型能力仍存在不足,但已能看到它對各行各業的深遠影響。
他談到了當下最熱門的一個話題:Scaling Law是否撞牆/失效了?
王仲遠介紹道,過去六年裡,北京智源人工智能研究院建立了一支頂尖的科研團隊,在國內最早從事大模型研發,並且從2020年10月開始,就成立了技術攻關團隊來持續推動大模型技術研發探索。
至於大模型未來的發展方向,在他看來,除了文本數據,世界上還存在大量的圖像、音頻、視頻等多模態數據。如何激發這些數據中的智能,是未來大模型研究的重要方向。
“最終將出現一個統一的多模態大模型,實現人工智能對世界的感知、理解和推理。”王仲遠說。
在螞蟻集團內部,大模型的應用已經滲透到財務數據分析領域,極大地提高了處理效率和深度。
螞蟻集團開源技術委員會副主席王旭,站在開源視角進行了演講分享——畢竟從ChatGPT掀起滔天巨浪開始,大模型的開閉源之爭就從未停止。
王旭強調,螞蟻集團的開源技術增長團隊十分重視對開源社區的數據洞察,並以此爲螞蟻的技術架構和技術演進提供參考。
社區數據顯示應用的 AI化和AI應用框架都在大量涌現。在應用方向單單是直接的數量提升和加速就已經可以引發顯著的變革,比如螞蟻的金融相關服務和它們背後的開源多智能體框架 agentUniverse。
他提供了一張可參考的折線統計圖,其數據顯示,在LLaMA模型開源後,相關項目迎來了爆發式增長。並且,大部分AI項目使用Python開發甚至允許用戶不用親手編碼,“這些AI應用框架讓用戶能夠以極低的門檻開發自己的AI應用,這反映了AI技術正逐漸貼近應用場景”。
另一個觀察是,除了硬件資源的變化,軟件基礎設施也在經歷着微妙的變化。王旭表示,雖然分佈式系統的基礎架構變化不大,但應用基礎設施和場景產生了新的需求。他提道,AI 2.0時代正在形成新一代的LAMP架構,應用會圍繞模型展開,這在基礎設施的每個環節都引發了深遠變化。
最後,王旭鼓勵技術從業者根據時代的需求調整軟件架構,並演進自己的基礎設施。
會上,華爲數據通信產品線NCE數據通信領域總裁王輝圍繞《AI大模型使能網絡邁向高階自智》這一話題,站在工業領域和ToB行業的視角開始了他的分享。
他指出,當前各行各業都面臨“如何讓自己的產品和產業變得更加智能”的問題,且落地過程面臨諸多挑戰。
在演講中,王輝把網絡與AI的關係總結爲兩種:
在Network for AI方面,王輝指出網絡是支撐AI訓練規模演進的關鍵底座;華爲通過實時動態的AI集羣網絡均衡負載和AI識別預警故障,避免了AI訓練中斷,同時讓AI訓練不受跨數據中心、跨地域的限制;爲大模型的規模化、分佈式訓練和推理帶來了本質性提升。
在AI for Network領域,王輝以網絡“自動駕駛”形態爲類比,詮釋了AI在工業垂直場景的真正挑戰:實時性、嚴謹性與場景泛化能力。在網絡行業這樣的關鍵性基礎設施中,毫秒級響應,零容錯成爲精準決策的剛性要求。爲此,華爲提出“一腦、一圖、一網”的三層架構,讓AI充分賦能網絡,爲工業應用提供智能的運營保障。
他還強調:
潞晨科技創始人兼董事長、新加坡國立大學校長青年教授尤洋,分享了對視頻大模型未來發展的深度洞察。作爲分佈式訓練技術領域的專家,他帶領團隊此前已爲谷歌、華爲等科技巨頭提供了大模型訓練優化解決方案。
尤洋認爲,未來三年視頻大模型的發展將經歷跨越式進步:
最關鍵的是要實現三大核心能力。
首先是精細化的文本控制能力。視頻大模型應當能夠準確理解並呈現用戶描述的細節內容,從人物特徵到場景要素都要做到精準把控。
其次是實現任意機位、任意角度的拍攝能力。這種突破可能徹底改變體育賽事直播等領域,讓觀衆能夠自主選擇觀看視角,“相當於在體育場裡能夠瞬間移動,移到教練席,移到最後一排,移到第一排”。
第三是保持角色一致性。尤洋指出,這對商業變現至關重要,“比如一個產品的廣告,這個視頻肯定從頭到尾不管是衣服、鞋、車子,它的樣貌不能有太大變化”。
對於視頻大模型的商業前景,尤洋認爲其將爲電影製作帶來革命性變革。通過AI技術,可以大幅降低特效場景製作成本,減少對危險鏡頭拍攝的實際需求,讓創作更加自由。
商湯科技董事長兼CEO徐立博士,十年前就是因爲見證了AlexNet,認爲AI已經跨越了工業紅線開始選擇創業。對於AGI新徵程,徐立在與量子位總編輯李根的交流中提出了他的認知和思考。
徐立表示,從過往十年來看,有兩個要素是推動行業發展進步的基礎,一是基礎設施,二是場景化。
在他看來,接下來的AGI時代一定也是場景化推動整個技術的迭代,“技術本身只是一個技術”。
繼而徐立又引出了現在做AI的兩條“生死線”,即算力成本折舊生死線和開源生死線,探討了商湯做大裝置、大模型和應用的“三位一體”戰略。
有意思的是,在被問到“什麼事情發生是可以確認“超級時刻”到來了?”,徐立的回答深入人心,以至於後面幾位嘉賓也反覆提到。
過去一年,小冰很沉默。
但沉默之下是靜水深流:2024年,小冰國內的AI toC產品,付費用戶數是Character.AI的20多倍,付費轉化率約爲ChatGPT的8倍。
站在這樣的成果上,當大模型熱潮趨於平穩,不少人開始陷入對下一步機遇FOMO時,小冰公司首席執行官李笛站出來談了談那些已現的機遇。
他強調,當前AI行業正處於技術創新震盪期,大模型准入門檻降低,基礎能力很難形成有效壟斷,故而一味等待技術奇點並不會爲產業創造實際價值,真正的機遇在於當技術進入相對平穩期後,如何用合理的商業策略將技術能力變現。
一個核心切入點是GPU算力成本與收入的比例(GPU cost vs Revenue),李笛將此作爲AI toC商業模式成敗的關鍵指標。只有當AI生產內容的成本顯著低於用戶付費,才能爲C端和產業鏈上下游提供可持續的價值分配。
此外,李笛還分享了關於AI產品形態和用戶價值認知的演變。
目前,Chatbot提供的對話形式和陪伴,對用戶來說已不再稀缺,同時對話的高耗能顯著,Chatbot註定不再成爲大衆產品(除非能提供非常高的附加值)。
相反,“私域運營”成爲大模型時代的新藍海,AI能夠爲成千上萬的私域用戶提供高併發且個性化的價值內容,從而在高留存、高價值的場景中實現商業閉環。
從700萬全球用戶生成的3D模型中,能看到3D生成的哪些可能?VAST創始人兼CEO宋亞宸有話說。
他分享說:“3D生成會成爲一種新的交互形式,就像有個成語叫作‘言出法隨’。”
VAST是一家自研3D大模型的公司,旗下3D大模型Tripo可以通過文字、圖片等多模態輸入,生成完整的3D模型,支持遊戲、動畫、元宇宙等多個領域應用。
宋亞宸表示,從技術成熟度看,目前效果已從年初的“360p水平”提升至”720P水平”,預計明年將達到”1080P甚至4K水平”。
目前,3D生成技術已在多個領域實現落地,包括傳統CG行業,如遊戲、動畫、影視等;工業領域,如3D打印、工業設計、家居等;新興領域,如元宇宙、XR、數字孿生等。
宋亞宸展望,明年在3D生成領域將聚攏百萬級開發者;到2025年,開發者數量或達千萬級別;2026年,這些AI原生3D創作者將探索出新的內容範式。
而在技術路線上,宋亞宸提出了三步走戰略:第一步是靜態內容生成,第二步是動態內容生成,第三步是實現全民零門檻3D創作。
南京大學副校長、國際人工智能聯合會理事會主席周志華帶來了一場關於“學件和異構大模型”的精彩分享,系統闡述了一個全新的AI技術範式。
在周志華看來,未來AI發展的關鍵不在於追求單一的龐大模型,而是如何讓數以百萬計的模型協同工作。
他提到了“學件”概念,可以簡單理解爲:學件=模型+規約。
周志華提出了一個令人耳目一新的觀點:不需要獲取開發者的原始訓練數據,就能實現模型的有效複用和協同。這種方式既保護了數據隱私,又最大化了模型價值。
他用了一個生動的比喻:
在技術實現上,周志華團隊構建了規約設計方案,包括語義規約和統計規約,並證明這種方案能有效保護開發者數據不泄露。
目前,他們已開源了“北冥塢學件基座系統”,邀請更多開發者參與其中。周志華表示,當前市面上的Hugging Face可以看作是學件1.0版本,而完整的學件體系將帶來更多可能性。
鈦動科技CTO陳德品分享了AI在出海營銷領域的創新實踐。
作爲一位曾在阿里工作十餘年、經歷了AI從1.0到2.0時代轉變的技術專家,陳德品對AI與營銷結合的前景充滿信心。
在他看來,營銷需要批量化、工業化的創意素材生產,而AIGC的爆發恰好能極大提升內容產能,這正是雙方的最佳結合點。
具體到出海場景,陳德品分析認爲,目前出海依託於兩大勢能:移動互聯網和供應鏈勢能,使得整個賽道保持30%-40%的年增長。
在具體實踐方面,陳德品分享了鈦動科技的核心AIGC產品Tec Creative 2.0,能夠幫助商家在幾分鐘內完成社媒營銷素材的生產,提升效率。
他特別強調了一個發現:
展望未來,陳德品表示鈦動科技正在優化營銷Agent化發展路徑,同時可能會打造一個營銷素材的Arena(競技場),用於快速測試各類通用模型在營銷場景中的適配度。
作爲深耕能源行業17年的產業老兵,新奧能源副總裁,新奧數能科技有限公司總裁(即新奧泛能網總裁)程路分享了傳統能源行業擁抱AI的實踐與思考。
作爲傳統能源行業的先行者,新奧泛能多年來一直在探索智能化,但此前更多是以局部算法和機理模型爲主。如今,大模型的出現改變了兩個重要環節——
一是大幅降低知識學習和推理成本,提高產業模型構建和優化效率,模型效能可提升達50%;二是讓普通從業者迅速“拉齊”到高水平決策層級,從而大規模提升行業整體認知水平與執行品質。
那麼,傳統能源行業要如何擁抱AI變革?程路表示可以總結爲“選用訓生”四個招式,分別是選擇開放大模型、用模型結合機理、產業認知與產業算法、訓練專業模型、最終生成可用大模型在具體應用中落地,綜合成三大智能:
他強調,這一切的底座在於強大的仿真模型——將物理世界映射到數字世界,讓企業不需要在物理世界付出大量試錯成本就可以實現參數調優或者解決問題,仿真強調大量的運行邊界條件與行業機理,需要模擬實時運行態。程路特別指出:“這種仿真更像現在‘汽車自動駕駛系統’”,最終將大幅度提高能源品質,降低損耗成本。
“垂直行業的AI顛覆一定會發生。”程路相信,隨着大模型技術門檻的不斷降低和產業數據資源的充分釋放,能源這類傳統領域也將涌現出顛覆性的創新。
小米技術委員會AI實驗室高級技術總監孟二利分享了小米如何運用工業大模型賦能汽車智能製造的探索與實踐。
他以獨特視角展示了AI技術給傳統制造業帶來的創新突破。
孟二利首先介紹了小米的科技戰略升級,總結爲公式就是(軟件×硬件)ᴬᴵ,表明小米將包括大模型在內的AI技術看作一種新的生產力,也是小米長期持續投入的底層賽道。
小米從2016年就佈局AI領域,2023年更是組建大模型團隊,將前沿技術應用到手機、汽車等產品中。在汽車製造領域,小米選擇從“大壓鑄”工藝突破,首先聚焦於材料研發和質量檢測兩個方面。
傳統新材料研發採用“試錯法”,週期可能長達10年,這是業務無法接受的。
爲解決這一難題,孟二利團隊創新性地提出“灰盒模型”方案:
最終形成了一套多元的材料AI仿真系統。基於此,團隊從上千萬候選空間中成功研發出小米泰坦合金材料。
此外,在質量檢測方面,團隊還研發了工業質檢大模型。解決了質檢行業難題,作爲AI+製造標杆多次被央視報道。
展望未來,孟二利認爲汽車行業正從“軟件定義汽車”邁向“AI定義汽車”的新拐點。他提出三點建議:加強數字化基建、推進行業標準化、探索適合工業場景的大模型技術。
大會現場,聲網首席運營官劉斌分享了一個看似離大模型有點距離,實則卻不可或缺的環節,那就是RTE實時互動在AI Agent時代的全新價值”。
2020年,聲網在納斯達克上市,目前是全球最大的實時互動雲服務商,平臺單月音視頻使用時長達700億分鐘。
對於AI Agent落地的關鍵要素,劉斌強調了兩點。
首先是實時性要求。與傳統的文本交互不同,多模態Agent需要雙工實時對話。根據聲網的測試數據,要達到自然對話體驗,延遲需要控制在1.7秒以內。
真正的產品化落地,不是在實驗室做個demo,而是要確保在各種終端、各種網絡環境下都能穩定運行。目前,聲網通過在音頻採集、傳輸、播放等多個環節的不斷優化,可以實現人與AI語音對話延遲低至500ms。
其次是工程化能力。聲網構建了覆蓋全球的SD-RTN網絡™,支持30多個平臺、30000多終端機型,能在400毫秒內實現端到端傳輸,這些積累讓AI Agent快速規模化成爲可能。
過去,人與AI的交互多以文本形式進行,延遲和體驗問題並不突出。但當下,大模型正在快速演進爲多模態Agent,用戶可以語音、視頻與AI交流,並期望獲得如同面對面對話的自然感。這要求極低的傳輸延遲與高度魯棒的網絡質量支撐。
“只有把交互延遲做到低延時,並具備智能打斷、超擬人化等特性,用戶纔會感受到與真人交流般順暢的對話體驗。”展望未來,劉斌提出,需要針對人機對話特點開發專門的優化方案。
大會現場,智譜COO張帆聚焦分享了大模型這兩年間的迅速迭代與商業化過程中的全新機遇。
張帆首先指出,大模型和其它現有技術一點點落地不太一樣,大模型天然是一個應用導向的技術,“生成式AI進入這個市場的速度遠比互聯網和PC要快”。
張帆表示,過去僅兩年時間,模型各方面能力得到了提升,與之相對應的是成本的下降,由此帶來了技術能力快速地落地和應用。
在這個過程中,智譜對AGI目標能力的理解分爲五級:
第一級是語言;第二級是對複雜問題的求解,像o1這樣的能力出現;第三級是使用工具,比如自主智能體可以像人一樣操作手機、PC甚至汽車界面來獲取信息;第四級是自我學習;第五級是超越人類,AI將具備探究科學規律、世界起源等終極問題的能力,所以通往AGI之路將是一個清晰和明確的鏈路。
張帆強調,大模型已不再只是技術,開始變成新型基礎生產要素,有可能對商業帶來很多底層、上層的變化,包括工作方式、組織形式、商業模式,甚至每個企業的壁壘。
最後張帆探討了大模型時代企業或個人該如何構建自己的科技戰略,他認爲關鍵有四個要素:
選擇合適的基座,構建與戰略目標和業務屬性相匹配的組織,基於場景和AI能力重新定義數據資產,把這些能力無縫融入到業務當中,從而形成一個飛輪。
火山引擎副總裁張鑫分享了2024年大模型應用落地的現狀與思考。在他看來,2024年是各行業對大模型應用廣泛探索的一年,其落地呈現出三大特點:速度、廣度與深度。
在應用場景上,大模型也完成了三個階段的跳躍:從最初的娛樂閒聊,到現在的嚴肅生產場景,甚至開始進入科研領域實現新知識的探索和發現。
正如狄更斯在《雙城記》所說:“這是最好的時代,也是最壞的時代。” 張鑫認爲,大模型帶來了無限創新機會,但如果企業不能跟上敏捷速度迭代,也有可能面臨失去競爭力。
張鑫提到,最近有一個新的感受:
HiAgent是火山引擎推出的企業專屬AI應用創新平臺,高度適配企業個性化需求,讓業務人員可以輕鬆構建智能體,讓業務創新不受生產技能的限制。提供低代碼、場景化模版及端到端諮詢服務,更懂AI轉型;提供可與企業業務系統無縫銜接的行業插件,更靈活適配企業需求;支持 RAG 知識庫和大模型全棧私有化部署,提供更強的安全保障,爲企業數據知識保駕護航。
在具體落地實踐上,張鑫也分享了火山引擎HiAgent在教育、消費、企業服務等多個行業的落地實踐,並分享了切實可行的落地方法,第一步企業需要繪製企業專屬的場景地圖,這一步往往是發散的,最終得出上百種不同的應用場景。下一步對這些場景圍繞可行性和價值高低進行一個魔力象限的劃分。從高價值、技術高可行性的場景先着手推進。
企業落地大模型應用的關鍵在於快速試錯、敏捷行動,火山引擎 HiAgent 平臺通過固化最佳實踐,助力企業高效搭建企業級智能體,在探索場景中沉澱資產,助力企業AI能力做深做厚。
張毅是原釘釘創始團隊成員、副總裁,在釘釘任職期間,他從用 8 年的時間帶領團隊陸續打造出釘釘考勤審批、智能人士日誌等爆款產品。
2022年起,張毅以BetterYeah AI(斑頭雁)CEO&創始人的身份,帶領團隊躬身入局,開始致力於探索幫助企業進入AI時代。
時至今日,已經有數百家頭部企業在斑頭雁上完成了企業級生產級Agent的落地,涉及場景包括客服、數據、營銷、經營系統等。張毅強調,客服場景落地速度最快,數據類任務增量價值明顯,Agent融入企業核心經營系統趨勢越來越顯著,正在爲企業直接供給生產力。
“對於Agent來說,企業生產級場景有很大不同。”張毅補充解釋,“Agent落地在覈心的業務流裡帶來生產力,這對Agent的集成能力、併發調用、數據安全要求和協同構建能力要求會更高。”
但與前沿科技相伴而行,就意味着更大的挑戰,不同於POC驗證和輕量AI應用開發,生產級Agent在應用構建、性能評估、快速迭代方面對企業開發團隊提出了更高要求。
BetterYeah持續專注在企業生產場景,以標準化產品提供滿足靈活集成能力、更大併發調用、更高數據安全和更復雜協同的AI Agent開發平臺。今年往後,預計企業級AI平臺將面臨更復雜的應用場景和更強的自規劃能力的挑戰。
當談及企業AI Agent成功的秘訣,張毅強調,生產級Agent開發70%的工作量在測試調試,基於數據和AI構建“反饋評估-自學習-驗證”閉環,充分發揮AI價值,能有效提升Agent開發效率和成功率,而這些方法已產品化融入BetterYeah平臺。
崑崙萬維董事長兼CEO方漢在大會上分享了公司在AI大模型浪潮中從技術到產品的佈局與思考。
崑崙萬維從2020年開始佈局AI,目前已經構建了從算力層、模型層到應用層的全棧AI能力。方漢介紹,崑崙萬維有語言大模型、多模態大模型、3D大模型、視頻大模型、音樂大模型,目前技術指標最好的是音樂大模型。
在探索過程中,方漢給出了他的一些商業思考。他認爲所有人都在不斷地思考AI大模型,在這中間企業選擇什麼樣的商業模式來進行產品研發和推廣,是一個很重要的問題。
方漢表示,中國AI企業在算力上受到極大限制,能拿到的硬件算力是比較有限的。這樣會倒逼企業在算法迭代上有極大的動機去投入,就是所謂的以軟補硬。同時生存壓力大、拿不到錢也是一個大問題,“使得中國AI企業都在拼命地打磨產品的商業模式”。
他還講到AIGC正在催生“文化平權”新時代,AIGC技術的進步會極大降低所有人創作內容的門檻和成本。
最後方漢提出,AI創業者應更關注產品形態創新,用產品形式上的創新擊中用戶的根本點,而不是看AI用了多少。
心言集團創始人、董事長兼CEO任永亮以一個垂直領域應用者的視角,分享了泛心理行業如何擁抱AI變革的實踐經驗。
任永亮首先介紹了心言集團旗下AI驅動的泛心理社區——測測APP。任永亮表示,早在2019年,測測就上線了首個基於BERT的泛心理領域問答模型,獲得了超出預期的用戶反響。
談到AI轉型歷程,任永亮坦言經歷了從“震驚”到“擔憂”再到“堅定”的心態轉變。他認爲一個行業既不能離AI太近也不能離得太遠,關鍵是找準平衡點,“如果太遠的話沒辦法用這樣的服務,如果太近的話很容易被淹沒”。
首先是期望管理。AI做到60分很容易,但要達到90分往往很難,需要管理好團隊的預期。
其次是組織工程。AI轉型不能依靠零敲碎打,而是要讓整個組織圍繞AI展開,包括產品、運營、技術等全方位轉變。
最後是相信年輕人。移動互聯網時代的成功經驗未必適用於AI時代,沒有束縛的年輕人更容易帶來創新。
展望未來,任永亮提出了兩個關鍵發展方向:
具身化是泛心理服務的必然趨勢。諮詢師除了文字語音,還需要表情動作、儀式感,這就要求AI服務也需要實現多模態輸入輸出。主動交互將成爲下一個突破口。目前的AI服務都是響應式的,未來需要能夠根據場景主動發問、展開對話。
MEET智能未來大會的老規矩,總是奉上精彩紛呈、乾貨瘋狂輸出的圓桌論壇,今年也不例外。
不過,本次大會討論的主題升級到了更廣泛、正熱門的具身智能領域。
具身智能圓桌邀請的嘉賓分別是:
羣核科技首席科學家兼副總裁、KooLab實驗室負責人唐睿。
千尋智能Spirit AI聯合創始人、清華大學交叉信息學院博導高陽。
雲深處科技聯合創始人兼CTO李超。
在量子位總編輯李根的主持下,嘉賓們華山論劍,話題圍繞“對具身智能的認知”“有何技術突破”“目前發展到哪一階段”等展開。
唐睿認爲,具身智能和AI最大的區別是從芯片、顯示器、內存、顯存裡走了出來,它不僅有一個腦子,通過屏幕和我們交互,更多可能是能夠和外部我們所處的物理世界做交互。雖然具身智能中有一個“身”字,但唐睿覺得可能不一定需要人形,只要能有這樣一個技能就可以,“像自動駕駛汽車也可以算作比較成熟且具象的具身智能的實現”。
高陽通過一個具體的例子非常直觀地回答了這個問題:有一次我在做一個關於具身智能的演講,一位大概六七十歲老奶奶聽我講了很多,問我說什麼時候機器人能給她養老,其實這個正是具身智能的一個應用場景。具身智能的目標是構建能夠幫助我們完成各種任務的機器人,這個機器人能幫我們做各種事情,比如幫我們的爺爺奶奶養老。
李超認爲雲深處是具身智能的的第一批受益者。具身智能給機器人賦予靈魂,在這個靈魂加持下,機器人應變能力加強,規模化應用進展加速,能夠面向更加開放的環境。
李超認爲隨着從基於規則的傳統控制方式轉變爲基於訓練、強化學習等新技術的出現與成熟,機器人的智能和適用性得以大幅提升,從而突破了過去的限制和邊界。
高陽也表示,現在做具身智能創業的一個最關鍵的因素是OpenAI已經證明,預訓練結合一系列post-training的方式,確實可以真的產生至少看起來像是人類智能,或者達到人類智能表象一樣的能力。
唐睿做圖形學出身,他指出,有了AI深度學習加成以後,算力的迭代體系就開始從指令級的迭代方向轉變爲並行計算的迭代方向,由此導致並行計算的成本會降到很低。而並行計算無非就是模擬兩件事,一是模擬人腦,通過深度學習先驗的知識預測未來或不同模態;另一種是模擬物理世界,還有具身智能中大家會用MuJoCo做物理、交互仿真。而羣核科技做的正是後者。
唐睿關注到越來越多原本從事圖形學和三維視覺研究的頂級學者與團隊(如李飛飛、Leo Guibas、蘇昊等),開始投身具身智能領域。他們憑藉在虛擬世界和環境模擬方面的先天優勢,爲具身智能的發展注入新的動力與視角。
高陽最關注的進展在於如何利用互聯網上的海量數據和中間層表示方法,將大模型預訓練範式引入具身智能。這不僅包括像VLA(視覺-語言-動作)模型的成熟應用,還涉及通過引入軌跡表示、粒子模擬等中間層結構來減少對人工採集操作數據的依賴,從而在未來三到四年爲具身智能的可持續發展奠定基礎。
李超認爲目前在他們關注的機器人本體與控制層面,數據並非主要挑戰,但隨着未來更復雜場景與操作需求出現,數據問題可能逐漸成爲明年的挑戰。
唐睿認爲目前具身智能非常大的卡點是缺少高維的物理正確數據,而羣核空間智能平臺要做的事情就是爲具身智能提供一個AI可交互世界,另外他強調了具身智能需要的真實物理模擬精度遠高於純視覺內容創作所需的精度。
他舉例,像Sora這樣的視頻生成工具,目前雖能逼真再現視覺效果,卻仍不足以提供精確的物理參數與交互反饋,從而難以直接滿足具身智能的訓練需求。這意味着在實現AGI級別機器人之前,如何獲取高精度、具可交互性的模擬數據仍是一個需解決的關鍵問題。
李超表示不僅有而且很明確,去年以前很多都是L1,準確說是L0,因爲很多是由人在操控。而現在要分行業劃分,在固定的小範圍場景下可以達到L4,機器人能自主決策判斷。
在高陽看來,制定一個標準,本意是爲了促進一個行業的發展,可以去衡量每個具身智能技術到底達到了怎樣的水平,但無論這個標準是什麼樣,可能最後因爲客觀技術的限制,這個標準到就變成了一個比較偏向宣傳話術的東西,有限時間內大家做不到廣泛場景的L4或L5的水平。
截至目前,具身智能走到了什麼階段?
唐睿將機器人各部分類比到人的“手、眼、腳、腦”四個核心的器官,分開來看每個部分都超越或接近人類,但尚未形成高度協調的一體化體系,因此整體仍處於早期階段。高陽認爲制定一個標準,本意是爲了促進一個行業的發展,可以去衡量具身智能技術到底達到了怎樣的水平,但無論這個標準是什麼樣,可能最後因爲客觀技術的限制,這個標準到就變成了一個比較偏向宣傳話術的東西,有限時間內大家做不到廣泛場景的L4或L5的水平。
李超更加樂觀,他沒有用類比的方法,而是認爲具身智能已在工業等特殊場景中帶來深刻改變,雖家用需求尚不明確,但在專業領域的實際應用已顯現強大影響力,推動行業格局加速變化,展現出更樂觀的發展前景。
後續還將有大會嘉賓更詳細版內容分享,敬請關注!