「404找不到網頁」過去10年已有38%網頁內容無法再被存取

因爲人爲因素、政策緣故或技術等情形,過去10年約有38%比例網頁內容無法再被存取。

非營利研究機構皮尤研究中心(Pew Research Center)近期公佈研究報告指出,2013年時的網頁內容在經過10年之後,已有約38%比例無法存取。

從皮尤研究中心研究觀點指出,網路已經成爲當前多數使用者用於查詢資料、尋求解答,以及與他人進行交流來源,至今已經累積超過數千億筆資料索引內容,並且涵蓋網路文章、新聞報導、圖像、數位化內容等,但也因爲人爲因素、政策緣故或技術等情形,導致一部分內容無法再次被存取使用,而這些數位衰退現象經常發生在不同網路環境。

皮尤研究中心以2013年至2023年間,每年從非營利計劃「Common Crawl」自公開網路抓取且以免費形式對外使用的檔案及數據集進行約9萬筆資料採樣,總計累積約100萬個網頁採樣內容,其中約25%比例頁面無法正常存取。

而這25%比例無法正常存取頁面中,約16%比例爲基礎網域仍可正常運,但相關頁面已經無法正常存取,另外9%比例則是連網域都無法正常使用。

另外,從政府公開網站採樣約50萬個網頁內容,約21%比例網頁至少會有一個無法正常使用的網頁連結,尤其在地方層級的政府機構網站發生比例居高。

至於以comScore 歸類爲「新聞/資訊」、總計2063個網域所對應的新聞媒體網站頁面中,在採樣約50萬個網頁內容約有23%比例網頁至少會有一個無法正常使用的網頁連結,而在英語維基百科上隨機採樣的5萬個頁面,約54%比例頁面會包含至少一個無法正常使用的連結。

從目前更名爲「X」的前Twitter服務,光是在2023年3月8日至4月28日間於美國境內發表約500萬個推文內容,截至同年6月15日爲止約3個月時間內,已有18%比例推文將狀態設置爲「私人」,無法被他人存取觀看,這些推文內容更有60%比例是因爲推文對應帳戶狀態被設爲「私人」,或是暫停使用,甚至可能被刪除,而其餘40%比例則是推文內容被刪除,但帳戶仍維持活躍使用。

在皮尤研究中心的研究報告中,定義無法正常使用的連結,包含點擊連結後出現諸如「204 沒有內容」、「400 錯誤請求」、「404 找不到網頁」、「410 過時網頁」、「500 內部伺服器錯誤」、「501 伺服器無法迴應請求」、「502 無效的閘道」、「503 服務無法使用」,或是「523 源頭無法存取」等狀態。至於「X」服務上的推文狀態,則是以迴應「未找到」、「授權錯誤」等狀態判定爲主,藉此判斷推文本身是否已被刪除,以及判斷是否因爲帳戶本身已被刪除,或是被設爲私有、暫停使用,導致推文內容無法被存取。

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》