谷歌AI搜索讓網站陷入絕境:共享數據,還是等死?

8月16日消息,谷歌已在其搜索頁面頂端展示基於人工智能生成的便捷答案,這可能導致用戶無需點擊原始內容來源網站。然而,許多網站所有者表示,他們無法阻止谷歌的人工智能對其內容進行摘要,因爲谷歌用於生成這些人工智能答案的網頁抓取工具與常規搜索引擎的抓取工具相同。如果選擇屏蔽谷歌,也會妨礙網站被用戶發現。

谷歌在搜索領域佔據主導地位,這爲其在人工智能領域的競爭帶來了顯著優勢。搜索初創公司和出版商均認爲,當前的競爭環境對它們不公平。出版商面臨嚴峻的抉擇:要麼提供內容支持人工智能模型(這可能削弱其網站的重要性),要麼放棄谷歌搜索這個主要流量來源。

新聞網站Talking Points Memo的出版人喬·拉加佐(Joe Ragazzo)指出:“這對相關企業而言,無異於生死攸關的抉擇。兩種選擇都不利:要麼退出競爭,立即面臨生存危機;要麼與谷歌合作,雖然暫時存活,但最終也難逃被淘汰的命運。”

谷歌表示,其搜索結果頂部展示的AI Overviews摘要,是其持續提升信息質量和爲出版商及其他企業拓展機遇的長期戰略的一部分。谷歌發言人在聲明中表示:“谷歌每天向全球網站輸送數十億次點擊,我們致力於維護並深化這一長期的價值交換關係。通過AI Overviews,用戶體驗得到了提升,他們回到搜索引擎的頻率更高,這爲內容的發現創造了新的機遇。”

自創立以來,谷歌便通過Googlebot軟件訪問並“抓取”數以百萬計的網站內容,構建起龐大的全球互聯網索引。這一成就對試圖建立競爭性搜索引擎的公司來說,形成了難以逾越的障礙,即便是像微軟這樣資金雄厚的企業也不例外。

隨着生成式人工智能的興起,一波新的初創公司涌現,旨在通過人工智能模型爲用戶提供精煉答案的搜索產品。聊天機器人的流行讓谷歌內部對其搜索引擎的主導地位產生了前所未有的危機感。然而,這些初創公司在真正撼動谷歌業務之前,必須首先解決如何進行網頁抓取的難題,而這並不容易。

抓取網站成本高昂,包括金錢、計算資源和存儲空間。因此,許多出版商會通過設置文件規定爬蟲訪問其網站的規則。谷歌和微軟必應通常能獲得較大的訪問權限,因爲它們的搜索引擎能夠爲網站帶來顯著的流量。

然而,人工智能初創企業Tako Inc.的首席執行官亞歷克斯·羅森伯格(Alex Rosenberg)表示,搜索引擎初創公司在未能獲得市場關注前,無法承諾爲網站帶來相應的流量,這促使它們開始與出版商達成協議,通過支付內容授權費用獲取內容。羅森伯格說:“如今,許多科技公司爲內容付費,以確保獲取競爭所需的資源,而谷歌則由於其特殊地位,無需這麼做。”

在媒體公司與人工智能初創公司之間頻繁合作的背景下,谷歌始終態度鮮明地加以抵制。據知情人士透露,除了與Reddit達成的6000萬美元交易外,谷歌私下向出版商傳達了無意參與內容授權談判的立場。

在這些談判中,媒體公司處於劣勢地位,尤其是在今年穀歌推出AI Overviews後,該服務利用人工智能在搜索結果頂端提供簡潔答案,立即引發了出版商對流量影響的擔憂,但卻沒有明確的應對方案。

值得注意的是,谷歌在某些人工智能產品上使用了獨立的爬蟲(如Gemini聊天機器人),但其主要爬蟲Googlebot仍同時服務於AI Overviews和常規搜索,原因在於這兩者之間技術上密切相關。谷歌發言人解釋說,這一安排是爲了統一管理,確保搜索體驗的一致性和高效性。

該發言人還指出,谷歌搜索結果頁面以多種形式顯示信息,包括圖像和圖表。此外,出版商可以選擇阻止特定頁面或部分內容出現在AI Overviews中。然而,這一選擇可能伴隨風險,即這些內容也將從谷歌所有搜索功能中消失,包括傳統的網頁鏈接列表。

由於大多數出版商的流量至少有一半來自搜索引擎,他們往往不願輕易冒險削弱自身的網絡影響力。

文創平臺Raptive創新主管馬克·麥科勒姆(Marc McCollum)代表出版商和網紅指出,谷歌的立場未能充分考慮內容創作者面臨的重大風險,特別是那些依賴搜索可見性爲生的創作者。他警告說,選擇退出可能會無意中降低創作者的整體搜索可見性,從而損害他們與受衆的聯繫和收入能力。

iFixit網站(提供消費電子產品在線維修指南)的首席執行官凱爾·維恩斯(Kyle Wiens)表示,與其他人工智能公司相比,該網站與谷歌的關係更爲“脆弱”。他強調:“我可以阻止Anthropic的ClaudeBot索引我們的網站而不影響業務,但若屏蔽Googlebot,我們將失去流量和客戶。”

谷歌與Reddit的交易不僅爲谷歌的人工智能模型提供了海量寶貴數據(來自Reddit用戶就小衆話題的深入討論),還通過增加Reddit等論壇在搜索結果中的展示,顯著推動了Reddit的流量增長。Reddit發言人還表示,產品質量和加載速度的提升也對流量增長起到了積極作用。

據知情人士透露,搜索初創公司Perplexity正與Reddit洽談內容授權事宜,但谷歌與Reddit的協議價格高得令初創公司難以匹敵。谷歌表示,與Reddit的合作不僅限於數據訓練,涵蓋了更廣泛的領域。Reddit方面對商業合作細節保持沉默。

面對此情此景,其他搜索初創公司則發現獲取此類數據幾乎不可能。搜索初創公司Kagi的創始人弗拉基米爾·普雷洛瓦茨(Vladimir Prelovac)坦言:“Reddit的報價足以耗盡我們20年的收入,因此我從未考慮過。”

不僅僅是小型初創公司面臨這種困境。OpenAI最近推出的SearchGPT測試版雖然受到了廣泛關注,但許多知名網站(如亞馬遜、Goodreads、優衣庫)已屏蔽其GPT爬蟲,這可能會對OpenAI的搜索業務構成挑戰。OpenAI表示,即使網站拒絕內容用於人工智能訓練,這些內容仍可能出現在其搜索結果中。

普雷洛瓦茨指出,Kagi一半以上的成本投入都用於網絡爬蟲及其他數據源。構建詳盡的網絡索引是搜索引擎的基礎,它爲用戶提供詳細的互聯網內容視圖。而對於那些旨在通過人工智能直接回答用戶問題的公司來說,數據具有更重要的戰略意義。

普雷洛瓦茨說:“生成式人工智能模型本身並不聰明,要提供高質量的輸出,必須依賴廣泛的搜索索引。”

搜索初創公司You.com的創始人理查德·索徹(Richard Socher)表示,robots.txt文件無處不在,爲爬蟲設定了訪問指南,迫使初創公司做出複雜的決策。儘管這些文件沒有法律約束力,但只要不涉及登錄或用戶驗證,理論上可以抓取公開數據。他強調:“我們在進行爬取時,儘量不對網站造成過度負擔。那些只允許谷歌抓取的robots.txt設置,本質上是在支持谷歌的搜索壟斷。”

由前谷歌員工創立的Neeva搜索初創公司去年被Snowflake收購後,提出“爬蟲中立”的倡議,以降低初創公司構建搜索索引的難度。鑑於法院已裁定谷歌壟斷了在線搜索市場,美國司法部正在考慮採取補救措施,包括強制谷歌與競爭對手共享數據,甚至可能分拆該公司。

其中一項備受關注的提案建議,要求谷歌分享其Googlebot收集的數據,或開放其著名的搜索索引。歐盟的《數字市場法案》已經要求谷歌分享部分搜索查詢數據。

對於iFixit的首席執行官維恩斯來說,谷歌在搜索領域的主導地位是其人工智能工作的核心優勢,也是反壟斷爭議的焦點。他建議將谷歌搜索與其人工智能業務分開,以緩解利益衝突。

搜索引擎DuckDuckGo表示,隨着技術的變革,谷歌的搜索索引在生成式人工智能時代變得更加重要,這也加劇了反壟斷擔憂。其公共事務高級副總裁卡米爾·巴茲巴茲(Kamyl Bazbaz)直言,搜索索引在當今技術變革中至關重要。

Talking Points Memo的出版人拉加佐認爲,無論谷歌反壟斷案件的結果如何,出版商都應掌握自己的命運,減少對任何單一技術平臺的過度依賴,包括谷歌。他補充說:“我們的信念是,你必須與讀者建立起真正的聯繫,這是打造能經得起不同時代考驗的出版物的關鍵。”(小小)