大模型助力學術圖譜挖掘!OAG-Challenge @ KDD Cup 2024正式開始
如何用大模型推動學術知識圖譜挖掘任務?OAG-Challenge @ KDD Cup 2024 邀你來賽!
競賽網址:
https://www.biendata.xyz/kdd2024/
競賽背景
自 1997 年創辦以來,知識發現和數據挖掘會議 ACM SIGKDD 上舉辦的 KDD Cup 被譽爲全球最具影響力和最受歡迎的數據挖掘競賽之一。KDD Cup的主題覆蓋了衆多領域,包括社交網絡、大氣科學、城市計算、電子商務等。參賽者需要運用數據挖掘和機器學習技術,從大規模數據中發掘規律和模式,以尋找有效的解決方案。
KDD Cup 預計將持續約 3 個月,獲獎者將在 KDD 會議開幕式上接受頒獎,並在會議期間的 KDD Cup Workshop 上展示他們的解決方案。
賽題背景
學術數據挖掘的最終目標是加深我們對科學的發展、本質和趨勢的理解,從而發掘科學、技術和教育的巨大價值和潛能。例如,從學術數據中進行深度挖掘可以協助政府制定科學政策,支持公司人才發現,並幫助研究人員更高效並有效地獲取新知識。
學術數據挖掘包含很多以學術實體爲中心的應用,比如論文檢索、專家發現和期刊推薦等。然而,學術知識圖譜挖掘相關的數據基準的缺乏嚴重限制了該領域的發展。
在KDD Cup 2024,清華大學、智譜AI 聯合 Biendata推出 Open Academic Graph Challenge (OAG-Challenge),這是一個由三個現實而具有挑戰性的學術任務組成的賽題,旨在推進學術知識圖譜挖掘領域的發展。
賽題介紹
OAG-Challenge 目前包括三個任務,旨在評估學術圖譜挖掘的不同側面,試圖涵蓋學術圖譜挖掘領域的代表性任務。首先,我們確定了學術圖譜構建過程中有價值且具有挑戰性的任務,例如作者姓名消歧(Author Name Disambiguation, AND)。其次,基於構建的學術知識圖譜,學術應用關注用戶的知識獲取和知識之間的認知關聯,例如學術問答(Academic Question Answering, AQA)和論文源頭追溯(Paper Source Tracing, PST)。
賽道1:
同名消歧錯誤檢測(WhoIsWho-IND)
問題定義:給定每個作者的論文列表和論文元數據,目標是檢測每個作者檔案中錯誤分配給該作者的論文。
賽道2:
學術問答 (AQA)
問題定義:給定專業問題和候選論文庫,目標是檢索最相關的論文來回答這些問題。
賽道3:
論文源頭追溯(PST)
問題定義:給定每篇論文的全文,目標是自動追溯啓發給定論文的最重要的參考文獻(命名爲“源頭論文”)。
競賽日程
2024年3月20日:KDD Cup 2024 正式開始
2024年5月31日:組隊截止日期
2024年5月31日:公開測試集數據。所有參賽者將有7天的時間提交結果。
2024年6月7日:所有賽道提交截止
2024年6月14日:宣佈 KDD Cup 2024 獲獎者名單
獎金
每個賽道的獎金均爲 10000美元。
第一名:3000美元
第二名:2000美元
第三名:1000美元
第四至第十一名:500美元
大模型和API使用
所有賽道均允許使用比賽結束前已開源的預訓練模型。
同名消歧錯誤檢測和論文源頭追溯任務允許使用 API。在完成一次驗證集的有效提交後,每個參賽隊伍可以獲得 GLM-4 API 100萬 Token 的免費額度。
由於學術問答數據集是從公開問答平臺收集的,該任務不允許使用 API。