☰

大模型助力學術圖譜挖掘！OAG-Challenge @ KDD Cup 2024正式開始

如何用大模型推動學術知識圖譜挖掘任務？OAG-Challenge @ KDD Cup 2024 邀你來賽！

競賽網址：

https://www.biendata.xyz/kdd2024/

競賽背景

自 1997 年創辦以來，知識發現和數據挖掘會議 ACM SIGKDD 上舉辦的 KDD Cup 被譽爲全球最具影響力和最受歡迎的數據挖掘競賽之一。KDD Cup的主題覆蓋了衆多領域，包括社交網絡、大氣科學、城市計算、電子商務等。參賽者需要運用數據挖掘和機器學習技術，從大規模數據中發掘規律和模式，以尋找有效的解決方案。

KDD Cup 預計將持續約 3 個月，獲獎者將在 KDD 會議開幕式上接受頒獎，並在會議期間的 KDD Cup Workshop 上展示他們的解決方案。

賽題背景

學術數據挖掘的最終目標是加深我們對科學的發展、本質和趨勢的理解，從而發掘科學、技術和教育的巨大價值和潛能。例如，從學術數據中進行深度挖掘可以協助政府制定科學政策，支持公司人才發現，並幫助研究人員更高效並有效地獲取新知識。

學術數據挖掘包含很多以學術實體爲中心的應用，比如論文檢索、專家發現和期刊推薦等。然而，學術知識圖譜挖掘相關的數據基準的缺乏嚴重限制了該領域的發展。

在KDD Cup 2024，清華大學、智譜AI 聯合 Biendata推出 Open Academic Graph Challenge (OAG-Challenge)，這是一個由三個現實而具有挑戰性的學術任務組成的賽題，旨在推進學術知識圖譜挖掘領域的發展。

賽題介紹

OAG-Challenge 目前包括三個任務，旨在評估學術圖譜挖掘的不同側面，試圖涵蓋學術圖譜挖掘領域的代表性任務。首先，我們確定了學術圖譜構建過程中有價值且具有挑戰性的任務，例如作者姓名消歧（Author Name Disambiguation, AND）。其次，基於構建的學術知識圖譜，學術應用關注用戶的知識獲取和知識之間的認知關聯，例如學術問答（Academic Question Answering, AQA）和論文源頭追溯（Paper Source Tracing, PST）。

賽道1：

同名消歧錯誤檢測（WhoIsWho-IND）

問題定義：給定每個作者的論文列表和論文元數據，目標是檢測每個作者檔案中錯誤分配給該作者的論文。

賽道2：

學術問答 (AQA)

問題定義：給定專業問題和候選論文庫，目標是檢索最相關的論文來回答這些問題。

賽道3：

論文源頭追溯（PST）

問題定義：給定每篇論文的全文，目標是自動追溯啓發給定論文的最重要的參考文獻（命名爲“源頭論文”）。

競賽日程

2024年3月20日：KDD Cup 2024 正式開始

2024年5月31日：組隊截止日期

2024年5月31日：公開測試集數據。所有參賽者將有7天的時間提交結果。

2024年6月7日：所有賽道提交截止

2024年6月14日：宣佈 KDD Cup 2024 獲獎者名單

獎金

每個賽道的獎金均爲 10000美元。

第一名：3000美元

第二名：2000美元

第三名：1000美元

第四至第十一名：500美元

大模型和API使用

所有賽道均允許使用比賽結束前已開源的預訓練模型。

同名消歧錯誤檢測和論文源頭追溯任務允許使用 API。在完成一次驗證集的有效提交後，每個參賽隊伍可以獲得 GLM-4 API 100萬 Token 的免費額度。

由於學術問答數據集是從公開問答平臺收集的，該任務不允許使用 API。

大模型助力學術圖譜挖掘！OAG-Challenge @ KDD Cup 2024正式開始

相關資訊