給1193萬高考生閱卷,太費老師了

本文系本站沸點工作室《硬核看板》欄目(公衆號:yinghekb)出品。

2022年高考已經全部結束,今年全國共有1193萬考生奔赴高考戰場,這意味着將產生至少4000萬份試卷。

而縱觀各地評卷時間,卻普遍在半個月以內。

要在如此之短的時間裡完成繁重的評卷任務,早就不能靠閱卷老師的“單打獨鬥”。

如今,有更多“閱卷機器”加入到高考閱卷中來,甚至人工智能也有參與。

高考閱卷機器,是如何進行打分的?它如何做到公平公正?

01 高考閱卷1.0時代

從考試製度出現那天起,它就被人們視爲公平競爭、改變人生命運的機會。

不管是科舉閱卷時的糊名制度——把考卷上考生的姓名、籍貫、家世等內容密封起來;

還是謄錄制度——爲了避免根據筆跡或事先商量好的記號辨認考生身份,需要把考生的試卷另行謄錄後再交給考官評閱。

爲了排除徇私舞弊的可能性,最大程度追求公平公正,人們在閱卷系統上的用心便可見一斑。

而到了1977年,重新恢復的高考對那一年全國570萬名倉促報名的考生來說,無異於一場命運的鏖戰。

來源:人民網

彼時保密意識和閱卷制度都尚不完善,經過基礎信息遮擋、簡單裝訂的試卷被裝進密封袋,送到閱卷組。

一張張經過閱卷老師親自批閱、核分的答卷,最終將27萬名新生送進了夢寐以求的大學校園。

據高考恢復首年閱卷人回憶,能否做到公平閱卷,大部分時候全憑自己的責任感和良心。

來源:合肥在線

這樣的閱卷模式很快就迎來了挑戰。

次年,全國首次實施統一命題,分省錄取,這讓之後每年百萬、千萬級別考卷的評分,成了人工閱卷組要打的一場硬仗。

閱卷老師要完成大量試卷的流水批改工作,儘管負擔極重,但爲了保證公平,誰都不敢馬虎。

20世紀90年代之前,我國的高考判卷一直由評卷員手工完成,包括試卷的運輸、裝訂、分發、評閱、複覈等。

鄧鐵如教授在他的《高考閱卷追憶》介紹道,評卷員按流水作業,每個考題組只批改一題。每一題需經兩道手, 一批、一核。

閱卷程序上的繁瑣,也直接讓效率低下成了人工閱卷模式的硬傷。

再加上命題多使用主觀性題型,評卷員評分時主觀性大,導致有時出現較大的評分誤差,難以形成模式的閱卷結果,人們亟待一個更高效和標準化的閱卷制度來服務於高考。

02 神秘的“高考閱卷組”

將閱卷老師從繁重工作中“解救”出來的曙光,出現在1985年。

這一年,出臺了一系列高考政策和試驗方案,被認爲是我國高考改革真正全面展開的開端,推進標準化考試就是其中一項主要政策措施。

標準化考試是一種具有統一標準、按照系統的科學程序組織並對誤差做了嚴格控制的考試,實現了命題標準化、考務標準化和分數標準化。

1985年,廣東省開始試行英語、數學兩個科目標準化考試。次年,廣東、山東、遼寧、廣西聯合試驗高考標準化考試,1987年有7省份參與試驗,到1988年,已經擴展到16省份參加試驗。

同年,國家教育部門頒發了《普通高等學校招生全國統一考試標準化實施規劃》,規定從1991年起所有高考科目實行標準化考試。

對很多人來說,標準化考試並不陌生。試卷被分成了兩部分,一部分是選擇題,答案寫在特製的答題卡上;另一部分是主觀題,答案寫在試卷上。

標準化考試意味着有標準化答案,而答題卡上的客觀題可以直接由計算機掃描閱卷計分,閱卷人只需要負責主觀題的閱卷評分即可,最後將兩者相加,即是考生該科考試的成績。

當時,《人民日報》稱其爲“我國自隋唐以來考試方法和閱卷手段的一個重大改革”。

標準化考試就導致了對高效閱卷設備的需求。

早在1986年,國家教委便撥款委託山東大學研製光標閱讀機,1988年底山東大學成功研製了第一臺國產光標閱讀機(Optical Mark Reader,即OMR)。

來源:李永樂老師

光標閱讀機採用光電轉換的原理,對答題卡上的塗寫信息進行識別,當紅外發光管照射到答題卡上的信息點時,根據信息位置的塗寫情況產生了光的反射、透射和漫散射等現象。

當信息點有鉛筆塗寫時,發射光將被碳素吸收,反射光很弱,反之反射光較強。反射的光由光敏管接受,再通過光電變換將光信號轉換成電信號輸入計算機中,即可識別信息。

相對於人工閱卷,光標閱讀機的優勢不僅體現在極快的速度上,更重要的是極高的準確率。

它每秒鐘可以處理一千多個信息點,對答題卡的閱讀速度已達5000張/小時,對塗點的識別誤碼率小於五百萬分之一。如此快速、準確的信息輸入、處理功能,已經遠遠將人工甩在身後。

但是,傳統OMR對信息填塗卡的填寫方式非常單一,只能填塗矩形框,填寫方式也有着嚴格限制。必須“準”、“深”、“滿”、“勻”、“淨”。

信息位的位置一定要塗準、色度要塗深、矩形框要塗滿、顏色的深淺要基本一致,此外,保持信息卡的潔淨也十分重要,摺痕、墨點、污物都可能產生誤識別現象。而這些bug的存在,也成了不少同學的考試噩夢。

1997年,山東大學在光標閱讀機的基礎上,又研發了一套閱卷系統,用掃描儀把考生的全部答題內容上傳到電腦,使閱卷老師不用再接觸試卷,實現網上閱卷。

來源:山大鷗瑪

1999年高考,廣西率先在英語試卷上進行了網上閱卷的嘗試,將考生答卷和試卷分離,把答卷全部掃描到電子計算機上。

主觀題評卷由兩位教師在計算機上同時進行,在兩位教師所打分數之間差距不超過規定標準分的情況下,計算機按兩人所打分數的平均值計分。

如誤差超過標準分,計算機自動將該試卷傳給第三位教師評分,然後採用第三位教師所打分數與前兩位教師所打分數中相近的相加,取平均值作爲該試卷分值。

2002年,全國相繼有13個省市地區在相應的考試中實施了網上閱卷,到2005年達到了17個,無紙化閱卷模式已經開始被全國的考生和教師所熟悉。

到了2012年,全國各省區市首次全部採用網上評卷,傳統的閱卷方式已退出歷史舞臺。網上評卷使用了高速掃描儀,平均一秒鐘可以實現3份試卷的雙面掃描,同時還能實現對選擇題選項的填塗識別和非選擇題答題內容的圖像切分和存儲。

來源:山大鷗瑪

網上閱卷比起傳統的手工閱卷,能有效控制主觀題,特別是像作文和論述題的評分誤差。

因爲在整個閱卷過程中,閱卷老師在評分時都看不到其他老師對同一份試卷的評分情況,這樣就有效地防止了傳統閱卷方式中閱卷老師之間的相互影響。

但機器依然作爲輔助角色存在於高考閱卷中,由無數真人教師組成的“高考閱卷組”依然是主力。

只不過曾經是每天面對逾千份試卷翻來翻去,現在變成了坐在電腦前點鼠標、敲鍵盤的動作。

03 AI閱卷能否帶來公平

殘酷的事實是,現階段的無論何種程度的“人機配合”閱卷模式,都無法避免對人力的巨大損耗。

因爲機器閱卷在主觀題上總顯得“水土不服”。

比如主觀題中最經典的作文,就涉及很複雜的自然語言問題,其中涵蓋的語法、語義、詞彙、句法等,只能由真人上陣判定。

而“如何讓機器理解主觀題”也就成了人們探索的方向。

天眼查專業版數據顯示,我國已申請的680餘件閱卷相關專利中,有超200件閱卷相關專利與電子閱卷或智能閱卷有關。

比如廣西師範大學爲了提高主觀題自動閱卷的準確性,申請了“一種基於領域本體的高準確率主觀題計算機自動閱卷方法”專利作爲一種嘗試。

來源:天眼查

2017年,阿里在全球範圍內首次將AI應用到試卷批改上。

在浙江外國語學院的一次考試中,阿里AI精確地圈出外國留學生們的多詞、缺詞、錯詞和詞序錯誤等錯誤位置,完成了對作文的批改,據稱在準確率和細緻程度都是接近甚至超乎人類的水平。

同年6月的安徽高考閱卷中,訊飛人工智能閱卷系統對考生的語文作文和英語作文進行後臺離線智能評分。85萬份試卷的識別轉寫、智能評分到提交結果,僅用5天時間完成。

2018年訊飛與安徽教育考試院再度合作,系統直接發現了語文作文237份高相似度異常作答情況,英語作文2557份高相似度異常作答情況等,閱卷組隨後快速反應做出判定。

如此一來,人工智能閱卷系統的應用,便把人的優勢和機器的優勢都發揮到了最大。

儘管智能閱卷被認爲是解決當前大規模閱卷最有效的方式,但距離“機智”代替“人智”獨立閱卷,還有很長的路要走。

無法避免的算法誤差、多課目多題型的精準評分尚未成型,以及複雜綜合性情景的處理模式存在爭議等,都是AI無法逾越人腦的天然缺陷。

但人工閱卷一直以來主觀性上的缺陷,卻也因爲機器的介入,實實在在得到了改善。

或許“絕對公平”根本不存在,但努力實現公平依舊是教育工作者們的堅持。

如今人工閱卷的主觀能動性和機器閱卷的客觀獨立性之間的互相拉扯,對於廣大考生來說,或許是目前的最優解。

搜索關注硬核看板微信公衆號(ID:yinghekb),讓硬核的知識先發聲。