數說兩會|1978年到2023年政府工作報告關鍵詞盤點

(原標題:數說兩會|1978年到2023年政府工作報告關鍵詞盤點 )

2023年3月5日上午,第十四屆全國人民代表大會第一次會議在北京人民大會堂開幕,國務院總理李克強作政府工作報告。澎湃新聞(www.thepaper.cn)從中國政府網上,整理了中國政府網上1978年至2023年共計46份《政府工作報告》中的常青詞彙。結果顯示,“發展”、“建設”以及“經濟”等詞語在過去46年中一直高頻出現。

還有部分詞語愈發頻繁地出現在《政府工作報告》中。“創新”,1997年後開始被頻頻提起,因其增長趨勢,澎湃新聞將此類詞語稱爲“喇叭形詞語”,類似的詞語還有“就業”、“脫貧”等。

值得注意的是,2023年《政府工作報告》指出,要通過市場化機制激勵企業創新,不斷提高企業研發費用加計扣除比例,將製造業企業、科技型中小企業分別從50%、75%提高至100%。同時,疫情成爲近幾年不可忽視的大背景,《政府工作報告》指出,當前我國疫情防控已進入“乙類乙管”常態化防控階段,要更加科學、精準、高效做好防控工作,圍繞保健康、防重症,重點做好老年人、兒童、患基礎性疾病羣體的疫情防控和醫療救治,推進疫苗迭代升級和新藥研製,切實保障羣衆就醫用藥需求,守護好人民生命安全和身體健康。從46年的《政府工作報告》來看,“小微企業”、“創業”、“高質量發展”等詞語近年來也頻頻被提起。

澎湃新聞還對比了幾組關鍵詞在這46年間的趨勢變化,“農業”與“工業”相比,在近四十年裡被提及狀況相對穩定,但兩者被提及程度近幾年來趨於一致。2000年以來,“製造業”與“服務業”幾乎同時開始被提及,但是“服務業”的被提及率幾乎都高於“製造業”,直到近五年“製造業”的被提及率超過“服務業”。

有些詞雖然在《政府工作報告》裡出現頻率相對較少,但是它們首次出現的時間點都反映了當年中國人關注的熱點問題。

分析方法:

1.本文所有原始文本材料來自中國政府網1978年至2023年政府工作報告。

2.本文使用jieba分詞(https://github.com/fxsjy/jieba/)。採用精確分詞模式,避免重複分詞和歧義。分詞結果均去掉數字、單字、標點符號。

3.爲增加分詞正確率,在jieba分詞的基礎上加入自定義詞典,自定義詞典主要包含了往年人民網和新華網統計的兩會熱詞。

4.在分詞基礎上,採用TF-IDF加權技術。詞語的重要性隨着它在文本中出現的次數成正比增加,但同時會隨着它在語料庫中出現的頻率成反比下降。本文使用的語料庫即1978年至2023年政府工作報告文本。

5.涉及合併的詞語:自貿包括了自貿區、自貿試驗區,城鎮包括了城市、城鎮。