紅樓夢後40回解密? 網友用「SVM」演算判斷作者

▲黎晨把三國演義分前60、後60回分析。(圖/翻攝自知乎)

網搜小組綜合報導

紅樓夢曹雪芹名著,不過最後40回是否由他撰寫一直有爭議大陸網友黎晨日前在《知乎》上發表文章,指稱用SVM(支持向量機器,Support vector machine)算法分析,得出的結果顯示作者並非曹雪芹。這篇文章引起網友大量討論,不過有人質疑研究方法不夠嚴謹、挑選樣本偏差,不足以證實論點爲真。

黎晨以用詞作爲辨認的依據,認爲文章前後內容雖有差別,習慣卻不容易改變,首先用「jieba分詞工具」挑選出現超過100次的詞語,再從中去除因爲劇情關係不一致的人名地名,「我不選寶二爺黛玉笑這種涉及人物的詞語,但是『忽然』、『故』、『只要』、『可不是』這種不容易受情節影響連接詞,適合選出來當特徵」。

黎晨接着各選15回作爲機器學習的數據、分析用詞特點,推算其他章節屬於前80回或後40回,「機器在學習以後告訴我,有95%的把握可以區隔前80回與後40回的用詞習慣」。他再拿三國演義測試,這次機器只有7成的把握,「準確度遠遠低於95%的預測水準,所以我們更有信心說曹老先生沒有寫後40回了。」

這項結論引起網友爭辯,有人直言,選取的特徵並不是完全獨立,而且回數分配不均,抽出的詞類也容易落入前80回,「作者把測試集和訓練集混在一起高估實際準確率」,也沒有說明三國演義的測試條件,就把兩者拿來對比非常不精確。儘管結果不能解決爭論,這項實驗仍然不失爲一種另類的分析角度