☰

李彥宏戳破大模型“跑分”假象：榜單不代表所有實力，未來模型的差距會變大

每當有新版本的大模型發佈時，業界總是熱衷於引用第三方榜單數據，拿自家大模型和GPT-4一起"跑個分"，聲稱已經在某些指標上實現了超越，以此來證明自己的大模型技術實力。

但在近日百度董事長李彥宏和內部員工的一場交流中，捅他破了大模型行業跑分的"窗戶紙"。"每次新模型發佈，都要和GPT-4o做比較，說我的得分已經跟它差不多了，甚至某些單項上得分已經超過它了，但這並不表明和最先進的模型就沒有差距了。"

他進一步解釋道，模型之間的差距是多維度的。一個維度是能力方面，不管是理解能力、生成能力、邏輯推理能力還是記憶能力等這些基本能力上的差距；另一個維度是成本方面，有些模型雖能達到同樣效果，但成本高、推理速度慢，其實還是不如先進模型。

"還有就是對於測試集的over-fitting，每一個想證明自己能力的模型都會去打榜，打榜時他就要猜別人到底在測什麼、哪些題我用什麼樣的技巧就能做對，所以從榜單或者測試集上看，你覺得能力已經很接近了，但到實際應用中還是有明顯差距的。"李彥宏說。

一位大模型從業者告訴記者，李彥宏提到的測視集的over-fitting（過擬合），主要是指模型訓練過程中，模型對訓練數據的學習過於精細，以至於模型在訓練數據上的表現非常好，但在沒見過的測試數據上表現較差的現象。這通常意味着模型過於複雜，以至於它能夠"記住"訓練數據中的噪聲和細節，但這些細節和噪聲並不具有普遍性，因此，模型無法很好地推廣到更多新數據上。

上述人士認爲，打榜跑分確實存在侷限性，例如由於評測數據集的公開性，模型可以有針對性地訓練來提升排名，出現"刷榜"現象，但並非完全沒有意義，榜單還是相對提供了一個量化的評估標準，幫助人們快速瞭解不同大模型的性能，促使大家通過競爭不斷優化大模型的技術水平，也有一定宣傳和推廣的作用。

在李彥宏看來，"部分自媒體的炒作，再加上每個新模型發佈的時候都有宣傳的動力，使得大家有一種印象，認爲模型之間的能力差別已經比較小了，其實真不是這樣。"李彥宏說，在實際使用過程當中，百度不允許技術人員去打榜，真正衡量大模型能力，應該是在具體應用場景中，看是否能滿足用戶需求、產生價值增益。

而對於大模型行業常常提到的"領先12個月或者落後18個月"，他認爲也沒有那麼重要。因爲每個公司都處在完全競爭的市場環境中，不管做什麼方向都有很多競爭對手。"如果你能永遠保證領先對手12~18個月，那是天下無敵的，不要覺得12—18個月是很短的時間，哪怕你能保證永遠領先競爭對手6個月，那就贏了，你的市場份額可能是70%，而對手可能僅爲20%甚至10%的份額。"

他判斷，未來大模型之間的差距可能會越來越大。因爲大模型的天花板很高，現在距離理想情況還相差非常遠，所以模型要不斷快速迭代、更新和升級；需要能幾年、十幾年如一日地投入，不斷滿足用戶需求，降本增效。

除了討論大模型競爭還有沒有壁壘，在交流中，李彥宏還提到外界對大模型有相當多的誤解，包括開源閉源模型效率、AI Agent等話題。

李彥宏是閉源大模型的堅定支持者，"在大模型時代之前，大家習慣了開源意味着免費、意味着成本低。" 他解釋說，比如開源的Linux，因爲已經有了電腦，所以使用Linux是免費的。但這些在大模型時代不成立，大模型推理是很貴的，開源模型也不會送算力，還得自己買設備，無法實現算力的高效利用。

"效率上開源模型是不行的。" 他表示，" 閉源模型準確講應該叫商業模型，是無數用戶分攤研發成本、分攤推理用的機器資源和GPU，GPU的使用效率是最高的，百度文心大模型3.5、4.0的GPU使用率都達到了90%多。"

李彥宏分析，在教學科研等領域，開源模型是有價值的；但在商業領域，當追求的是效率、效果和最低成本時，開源模型是沒有優勢的。

關於大模型的應用演進方式，他也表達了自己的觀點，首先出現的是Copilot，對人進行輔助；接下來是Agent智能體，有一定的自主性，能自主使用工具、反思、自我進化；這種自動化程度再發展，就會變成AI Worker，能獨立完成各方面的工作。

當前，智能體已經受到越來越多的大模型公司及客戶的關注，李彥宏認爲，雖然有很多人看好這個發展方向，但是到今天爲止，智能體還不是共識。

"智能體的門檻確實很低"，他說，很多人不知道怎麼把大模型變成應用，而智能體是一個非常直接、高效、簡單的方式，在模型之上構建智能體相當方便。

李彥宏戳破大模型“跑分”假象：榜單不代表所有實力，未來模型的差距會變大

相關資訊