OpenAI推出代碼生成評估基準

OpenAI推出代碼生成評估基準SWE-bench Verified。該公司在官網博客中提到:"隨着我們的系統越來越接近 AGI,我們需要在越來越具有挑戰性的任務中對它們進行評估"。這一基準是對現有SWE-bench的改進版本(子集),旨在更可靠地評估AI模型解決現實世界軟件問題的能力。SWE-bench是一個軟件工程評估套件,用於評估大型語言模型 (LLM) 解決從GitHub提取的真實軟件問題的能力。