“攜程問道”問不明白道

想靠AI旅遊的朋友,終究還是沒有在攜程上問明白道。

我有個犟種朋友,喜歡各類科技花活,每次網上有新東西他都要試試。這個十一他要嘗試的是靠旅遊行業垂直大模型——攜程問道,實現AI旅遊。

我告訴他,AI旅遊這事現在不靠譜。

整個大模型行業目前公認的事實是,AI大模型在發散性的內容上可能會超出預期,但在實際規劃和落地的任務上,基本只能處於copilot的角色,人力還是主導。問吃喝、本地遊玩、出規劃,還不如大衆點評、小紅書高效。

甚至不如問我。

因爲用戶在所謂的靠AI旅遊這件事上,需要的是一個AI Agent(AI智能體/助理/助手)。而AI Agent要求的是精確性,但目前AI大模型的發散性大於精確性,因此AI旅遊在當下還是一個悖論。

比如說想在上海玩,AI會搜索歷史數據和信息,告訴你外灘、石庫門、武康路、東方明珠、豫園、淮海路你都值得逛逛。但如果需要一個符合自己喜好的專屬行程,AI提供不了。你只能在AI提供的信息資料裡做二次的人工篩選。

如果你想玩的更local一點,比如想找一家有品位的精釀吧,演繹水平高的劇本殺店,小姐姐多套路少的夜店,AI更推薦不出來。也就是說,攜程問道目前成不了AI Agent。

但顯然,我的犟種朋友不想聽我嗶嗶賴賴。

於是我們直接進入測試,讓攜程問道出一個10月2號—10月6號在上海的行程規劃。結果攜程問道只幫我們把行程規劃到了10月4號,10月5號和10月6號的行程它讓我們自己發揮。嗯......我上一個00後實習生,是領導家親戚,也差不多是這個味兒。

我們又問了下武康路到底有點什麼獨特魅力,究竟能玩點啥?得出的結論是Citywalk。然後我們告訴攜程問道,如果不想在上海Citywalk,是否有更好的行程推薦。

結果攜程問道把之前推給我們的行程又重複了一遍。

好吧,黔驢技窮。

最後我們告訴攜程問道,想住在中山公園附近,讓他推薦幾家酒店。可能由於沒有精確的告訴它是上海中山公園,所以攜程問道給我推薦了天南地北,各個地方中山公園附近的酒店。這就很迷,咱們和攜程問道聊了半天,不一直都在聊上海旅遊的事麼?這點前後文語義的識別也這麼困難麼?

大模型行業裡有個詞叫“AI幻覺”,即人工智能系統(自然語言處理模型)生成的內容與真實數據不符,或偏離用戶指令的現象。

說白了就是,用戶問前門樓子,AI答胯骨軸子。

短短三四個問題,我們看到攜程問道一直沉浸在AI幻覺中,離需要準確性的AI Agent還有不少距離。誠然,造成AI幻覺的的原因有很多,從數據質量差到算法缺陷,再到缺乏接地和過度擬合,都會導致AI幻覺。

然而,所有這些原因的核心是:AI 模型的輸出取決於它們的輸入,或它們爲處理所述輸入而設計的方式。歸根結底,AI 模型無法自我推理、研究或事實覈查。因此,需要準確性的AI Agent,在當下還無法完美實現。

理想狀態下的AI Agent是,大多數時候你只需給它一個最終你想要達成的目標,它能直接交付結果,過程你啥都不用管。

康奈爾大學、華盛頓大學和滑鐵盧大學以及非營利研究機構AI2的研究人員,最近進行了一項研究,測試了GPT-4o、Meta的Llama370B、Mistral的Mixtral 8x22B、Cohere的Command R+,以及調用API的模型,比如Perplexity的Sonar Large(基於Llama)、Google的Gemini 1.5 Pro和 Anthropic的Claude 3 Opus等多個開源模型,

實驗證明,各家模型產生的AI幻覺半斤八兩。在答案來源不是維基百科的情況下,每個模型的平均回答事實性都較低。當然,從另一個維度看,沒有AI幻覺,大模型就沒有發展可言。

但在目前這種AI幻覺氾濫的環境下,用戶想要一個規劃行程的Agent,或是某個行業的最新資訊和報告,幻覺就是致命缺陷。很明顯在這種情況下,以AI Agent爲目標的AI旅遊大模型,目前基本都是悖論。最多隻是一個網絡素材整合工具。

這種窘態不止出現在攜程問道身上。字節的豆包、百度的文心一言等等,在AI旅遊的表現上都挺一般。尤其是在理解複雜用戶需求和提供精準個性化服務方面。要麼行程過於空洞,不知無謂。要麼AI幻覺爆發,自己加戲太多,甚至一些AI模型連門票價格都會報錯。

目前行業的共識是,基於大模型的發散性產生的AI幻覺是沒法解決的,所以必須要通過恰當的微調形成行業專用的深模型。但當下,即使在ChatGpt的GPTs應用或是字節的Coze平臺,也很少有真正可用的,更好解決問題的Agent。

如果AI Agent無法基於用戶目標形成個性化推薦,AI旅遊大模型又當如何?攜程問道目前在這上面抖了一個小聰明,即提供了一個涵蓋酒店、景點、餐飲及夜生活等多維度的“攜程口碑榜”,供用戶出遊參考。

也就是攜程集團聯合創始人樑建章所謂的:利用攜程自己長年積累的數據和榜單,爲用戶做推薦。直白點說就是,這些東西攜程的用戶玩了都說好,相信你也會覺得好。至於個性化,暫且不聊。

比如,我們問“上海最好的酒店是哪家?”

攜程問道基於“上海豪華酒店榜”得出結論,前灘香格里拉大酒店是上海最好的酒店。

略讓人驚訝,因爲這酒店我住過。不差,只不過馬桶有點智能了,智能到半夜會自己工作。很卷,但瑕不掩瑜。可要說在一衆奢華酒店雲集的上海,前灘香格里拉是TOP1,這個確實有點出乎意料。

於是我讓他問問這個“上海豪華酒店榜”是什麼機構評定的,基於什麼標準評定的?結果得出了一個比較好笑的結論。

實際上這個“上海豪華酒店榜”,就是攜程自己推出的“攜程口碑榜”其中一部分,會根據口碑、銷量等幾個維度來篩選,還有一些下榜規則。不過攜程點評現在避免不了人工干預成分在,且目前來看,下榜規則執行的也並不嚴格。

比如9月份剛被曝出來“1天2次6700元”事件的長春高新益田福朋喜來登,目前仍在“長春豪華酒店榜”名列第14,並沒有下榜。

實際上在整個AI服務流程中,攜程並沒有體現出來其所謂的,“通用AI大模型所沒有的旅遊產品資源庫優勢”。這份“攜程口碑榜”也從一開始就瀰漫着一股濃郁的商業氣息,看不出與大衆點評必吃榜、必玩榜有什麼明顯的產品差異。

換句話說,即便今天沒有AI大模型,也不影響攜程推出一份“攜程口碑榜”。兩者之間沒有任何因果關係,以及強關聯性。

事實上,對於AI旅遊大模型來說,真的可用的Agent一定不是簡單模塊組合可實現的,如果有,也只是曇花一現。AI大模型催生了Prompt Engineer的工作角色,AI Agent理應催生Flow Engineer一類崗位,需要一批兼具產品和編程思維能力的角色。

但在攜程的公開招聘中,目前沒有看到明顯具有Flow Engineer性質的崗位。

而在所有可公開查詢到的信息中,攜程距離AI Agent最近的一次,則是今年二季度財報的時候,攜程集團聯合創始人、董事局主席樑建章,CEO孫潔、CFO王肖璠等公司高管,首次以AI Agent形象,在財報會議上與投資人交流。

但很明顯,此AI Agent並非AI大模型行業的AI Agent,說穿了不過是類似數字人的奇技淫巧。

圖片來源於攝圖網和網絡截圖