大模型助力學術圖譜挖掘!OAG-Challenge @ KDD Cup 2024正式開始

如何用大模型推動學術知識圖譜挖掘任務?OAG-Challenge @ KDD Cup 2024 邀你來賽!

競賽網址:

https://www.biendata.xyz/kdd2024/

競賽背景

自 1997 年創辦以來,知識發現和數據挖掘會議 ACM SIGKDD 上舉辦的 KDD Cup 被譽爲全球最具影響力和最受歡迎的數據挖掘競賽之一。KDD Cup的主題覆蓋了衆多領域,包括社交網絡、大氣科學、城市計算、電子商務等。參賽者需要運用數據挖掘和機器學習技術,從大規模數據中發掘規律和模式,以尋找有效的解決方案。

KDD Cup 預計將持續約 3 個月,獲獎者將在 KDD 會議開幕式上接受頒獎,並在會議期間的 KDD Cup Workshop 上展示他們的解決方案。

賽題背景

學術數據挖掘的最終目標是加深我們對科學的發展、本質和趨勢的理解,從而發掘科學、技術和教育的巨大價值和潛能。例如,從學術數據中進行深度挖掘可以協助政府制定科學政策,支持公司人才發現,並幫助研究人員更高效並有效地獲取新知識。

學術數據挖掘包含很多以學術實體爲中心的應用,比如論文檢索、專家發現和期刊推薦等。然而,學術知識圖譜挖掘相關的數據基準的缺乏嚴重限制了該領域的發展。

在KDD Cup 2024,清華大學、智譜AI 聯合 Biendata推出 Open Academic Graph Challenge (OAG-Challenge),這是一個由三個現實而具有挑戰性的學術任務組成的賽題,旨在推進學術知識圖譜挖掘領域的發展。

賽題介紹

OAG-Challenge 目前包括三個任務,旨在評估學術圖譜挖掘的不同側面,試圖涵蓋學術圖譜挖掘領域的代表性任務。首先,我們確定了學術圖譜構建過程中有價值且具有挑戰性的任務,例如作者姓名消歧(Author Name Disambiguation, AND)。其次,基於構建的學術知識圖譜,學術應用關注用戶的知識獲取和知識之間的認知關聯,例如學術問答(Academic Question Answering, AQA)和論文源頭追溯(Paper Source Tracing, PST)。

賽道1:

同名消歧錯誤檢測(WhoIsWho-IND)

問題定義:給定每個作者的論文列表和論文元數據,目標是檢測每個作者檔案中錯誤分配給該作者的論文。

賽道2:

學術問答 (AQA)

問題定義:給定專業問題和候選論文庫,目標是檢索最相關的論文來回答這些問題。

賽道3:

論文源頭追溯(PST)

問題定義:給定每篇論文的全文,目標是自動追溯啓發給定論文的最重要的參考文獻(命名爲“源頭論文”)。

競賽日程

2024年3月20日:KDD Cup 2024 正式開始

2024年5月31日:組隊截止日期

2024年5月31日:公開測試集數據。所有參賽者將有7天的時間提交結果。

2024年6月7日:所有賽道提交截止

2024年6月14日:宣佈 KDD Cup 2024 獲獎者名單

獎金

每個賽道的獎金均爲 10000美元。

第一名:3000美元

第二名:2000美元

第三名:1000美元

第四至第十一名:500美元

大模型和API使用

所有賽道均允許使用比賽結束前已開源的預訓練模型。

同名消歧錯誤檢測和論文源頭追溯任務允許使用 API。在完成一次驗證集的有效提交後,每個參賽隊伍可以獲得 GLM-4 API 100萬 Token 的免費額度。

由於學術問答數據集是從公開問答平臺收集的,該任務不允許使用 API。