當家執政 竟黑箱監控

據媒體報導,執政的民進黨政策會執行長王義川在某政論節目稱,透過基地臺手機訊號分析近日立法院抗爭羣衆的年齡層分佈,並比對此次青鳥活動、五一九民衆黨舉辦之集會,再比對二○二四總統大選選前之夜羣衆手機訊號,「意外發現」這次立法院外的集會,多了許多民進黨年輕生力軍,他們跟挺柯的民衆黨「小草」不是同一批人。

先不論此事件的合法性,本文擬針對事件中「大數據分析」本質來深討,民進黨動用電信基地臺的顧客資訊進行大數據分析,就是透過手機訊號取得人流資訊特性分析,王義川稱此爲「目前商業市場進行活動調查的普遍基本方法」。

然而據筆者從事資料探勘與大數據分析應用教學多年的經驗,由於網路雲端資訊無時效性與可擴充性影響,大數據分析運用是不允許使用機構在未經使用者同意的情況下,將個資分享予其他機構的。且在相關法規的框限之下,企業組織間若要共同創造資料價值,須透過免於交換個資的免疫資料分析演算法(例如CLONALG)加以轉換,如聯盟式學習進行,或是去除足以辨識個資的內容,再進行資料分享,此步驟稱之爲「去識別化」。

質言之,去識別化的主要工作是找出資訊內較敏感的屬性,利用去除、加密或加入雜訊之方式予以轉換,最後才輸出運用。而聯盟式分享資訊學習的難處,即在於資料合作之企業,彼此須事先充分協調,針對其演算法等細節展開全面性商議及評估,並共同進行資訊系統的安裝與開發,其合作門檻高且嚴謹。去識別化技術則可使個資轉化爲形式相同,但卻無法辨識出個人身分的資料,讓後續各式交換及運用得以進行。

雖然去識別化資料在統計特性上難免與原始資料有所出入,但運用上的彈性也使其成爲兼顧個人隱私及資料交換需求的重要工具。最後產出去識別化資料時,僅保留原所用之統計特性,以及個資難以被辨別且符合隱私層級資料。雖然大數據分析已改變許多企業高層的決策模式,以往策略決定常依賴多年累積的經驗判斷,現已轉變爲從人工智慧模型推論出各項妥適的可行方案。

回到事件原點,王義川所言,利用手機信令資料分析方法即可進行相關比對,是不可行的。即使經由妥善去識別化後的統計資料,頂多只能知道二十至三十歲有多少比率、六十歲以下有多少比率,不可能知道哪一天跟哪一天的人羣是不是同一羣人,因此其中的黑箱作業實令人匪夷所思!

最後很想問的問題是,執政黨憑什麼可以獲取電信公司的使用者個資進行分析?爲什麼執政者可以用手機訊號監看人民行動?爲什麼民進黨可以取得如此隱私且敏感的大數據進行比對分析?而且是跨縣市與年代的一場一場又一場監控資訊?爲什麼執政黨想怎麼過濾分析就怎麼利用,卻可不管人民同不同意、知不知情或喜不喜歡?此情此景,不禁令人想起蘇聯共產制度下的警察國家,其囂張做法與當年促轉會張天欽胡作非爲的東廠風波幾乎如出一轍。當家執政,能不慎乎?