李彥宏戳破大模型“跑分”假象:榜單不代表所有實力,未來模型的差距會變大

每當有新版本的大模型發佈時,業界總是熱衷於引用第三方榜單數據,拿自家大模型和GPT-4一起"跑個分",聲稱已經在某些指標上實現了超越,以此來證明自己的大模型技術實力。

但在近日百度董事長李彥宏和內部員工的一場交流中,捅他破了大模型行業跑分的"窗戶紙"。"每次新模型發佈,都要和GPT-4o做比較,說我的得分已經跟它差不多了,甚至某些單項上得分已經超過它了,但這並不表明和最先進的模型就沒有差距了。"

他進一步解釋道,模型之間的差距是多維度的。一個維度是能力方面,不管是理解能力、生成能力、邏輯推理能力還是記憶能力等這些基本能力上的差距;另一個維度是成本方面,有些模型雖能達到同樣效果,但成本高、推理速度慢,其實還是不如先進模型。

"還有就是對於測試集的over-fitting,每一個想證明自己能力的模型都會去打榜,打榜時他就要猜別人到底在測什麼、哪些題我用什麼樣的技巧就能做對,所以從榜單或者測試集上看,你覺得能力已經很接近了,但到實際應用中還是有明顯差距的。"李彥宏說。

一位大模型從業者告訴記者,李彥宏提到的測視集的over-fitting(過擬合),主要是指模型訓練過程中,模型對訓練數據的學習過於精細,以至於模型在訓練數據上的表現非常好,但在沒見過的測試數據上表現較差的現象。這通常意味着模型過於複雜,以至於它能夠"記住"訓練數據中的噪聲和細節,但這些細節和噪聲並不具有普遍性,因此,模型無法很好地推廣到更多新數據上。

上述人士認爲,打榜跑分確實存在侷限性,例如由於評測數據集的公開性,模型可以有針對性地訓練來提升排名,出現"刷榜"現象,但並非完全沒有意義,榜單還是相對提供了一個量化的評估標準,幫助人們快速瞭解不同大模型的性能,促使大家通過競爭不斷優化大模型的技術水平,也有一定宣傳和推廣的作用。

在李彥宏看來,"部分自媒體的炒作,再加上每個新模型發佈的時候都有宣傳的動力,使得大家有一種印象,認爲模型之間的能力差別已經比較小了,其實真不是這樣。"李彥宏說,在實際使用過程當中,百度不允許技術人員去打榜,真正衡量大模型能力,應該是在具體應用場景中,看是否能滿足用戶需求、產生價值增益。

而對於大模型行業常常提到的"領先12個月或者落後18個月",他認爲也沒有那麼重要。因爲每個公司都處在完全競爭的市場環境中,不管做什麼方向都有很多競爭對手。"如果你能永遠保證領先對手12~18個月,那是天下無敵的,不要覺得12—18個月是很短的時間,哪怕你能保證永遠領先競爭對手6個月,那就贏了,你的市場份額可能是70%,而對手可能僅爲20%甚至10%的份額。"

他判斷,未來大模型之間的差距可能會越來越大。因爲大模型的天花板很高,現在距離理想情況還相差非常遠,所以模型要不斷快速迭代、更新和升級;需要能幾年、十幾年如一日地投入,不斷滿足用戶需求,降本增效。

除了討論大模型競爭還有沒有壁壘,在交流中,李彥宏還提到外界對大模型有相當多的誤解,包括開源閉源模型效率、AI Agent等話題。

李彥宏是閉源大模型的堅定支持者,"在大模型時代之前,大家習慣了開源意味着免費、意味着成本低。" 他解釋說,比如開源的Linux,因爲已經有了電腦,所以使用Linux是免費的。但這些在大模型時代不成立,大模型推理是很貴的,開源模型也不會送算力,還得自己買設備,無法實現算力的高效利用。

"效率上開源模型是不行的。" 他表示," 閉源模型準確講應該叫商業模型,是無數用戶分攤研發成本、分攤推理用的機器資源和GPU,GPU的使用效率是最高的,百度文心大模型3.5、4.0的GPU使用率都達到了90%多。"

李彥宏分析,在教學科研等領域,開源模型是有價值的;但在商業領域,當追求的是效率、效果和最低成本時,開源模型是沒有優勢的。

關於大模型的應用演進方式,他也表達了自己的觀點,首先出現的是Copilot,對人進行輔助;接下來是Agent智能體,有一定的自主性,能自主使用工具、反思、自我進化;這種自動化程度再發展,就會變成AI Worker,能獨立完成各方面的工作。

當前,智能體已經受到越來越多的大模型公司及客戶的關注,李彥宏認爲,雖然有很多人看好這個發展方向,但是到今天爲止,智能體還不是共識。

"智能體的門檻確實很低", 他說,很多人不知道怎麼把大模型變成應用,而智能體是一個非常直接、高效、簡單的方式,在模型之上構建智能體相當方便。