也談統計誤差

圖╱美聯社

112年10月失業率的估計誤差

總統大選在即,各類民調粉墨登場,尤以日前在野陣營循民調決定總統大選組合一事,讓統計學備受矚目。長期以來,大家都熟悉在95%信心水準下,隨機抽取1,068個樣本,即可讓估計值落在正負3%的誤差範內,至於爲何如此,則少有聞問。

樣本多一點 誤差小一點

事實上,這類民調屬於比例數(proportion)統計,比例數有其特殊性,要抽多少樣本,會有多大誤差,用公式一下子就可以算出來,若想讓誤差小於正負3%,在95%的信心水準下,要隨機抽取1,068個樣本,隨機(random)是非常重要的前提,當樣本有偏誤或答者有隱瞞,誤差就難以估計了。如果想讓誤差小一點,樣本就得多一點,誤差真要低於正負1.5%,那麼樣本數非達到4,200份不可。

這類估計有誤差,那麼平日裡政府發佈的失業率、通膨率、外銷訂單有沒有誤差?當然有,因爲這些數字也是循抽樣推估而得,只要是抽樣,必定有誤差,但誤差到底多大?多數不會註明,其一是抽樣方法複雜,很難算出誤差,再者,若公佈指標,又公佈誤差,那豈不是自找麻煩,原本一個指標,加減一個誤差之後,就變成三個通膨率、三個失業率,反倒讓大家無所適從了。

有趣的是,我國就業調查雖未公佈估計誤差,但在月報裡會提供誤差的資料,以10月而言,政府公佈的失業率是3.43%,創了23年同月最低,但在95%信心水準下的信賴區間是3.28%~3.58%,誤差是0.15個百分點,倘若公佈失業率時告訴大家我們的失業率高推估是3.58%,低推估是3.28%,那可麻煩了,想批判政府的就拿高推估來罵,想捍衛政府的就拿低推估來擋,勢必帶來混亂,也因此,各國公佈通膨率、失業率等總體數據,少有公佈統計誤差的。

也許有人會問,統計誤差0.15個百分點是怎麼估的?首先,要求得標準誤(standard error),就業調查是以國內7,700個村裡爲母體,每月抽出530個樣本村裡,再循系統抽樣取得樣本戶,展開訪查,然後,由村裡失業率彙整成全國失業率,由此分佈即可算出標準誤,標準誤乘上1.96即統計誤差,以今年10月的資料,標準誤是0.08個百分點,相乘後得到的誤差即0.15個百分點。

爲何95%比99%更理想?

也許有人還會問,爲何要乘上1.96?因爲抽樣所估得的失業率是隨機變數,會服從常態分配(normal distribution),而在標準常態分配曲線裡,-1.96~1.96之間的面積佔了95%,用白話文說,就是落在此一區間的機率是95%,非常值得信賴。當然,你也可以取99%的信賴區間,不過,這時要乘的數字就不是1.96,而是2.58,這個區間會變得寬一點,一般而言,95%最爲適當。

依主計總處的資料,10月除了失業率的誤差是0.15個百分點,失業人數的誤差約2萬人、就業人數誤差約7萬人,尚屬平穩。然而,這是理論誤差,若調查時遇有拒訪,受訪者隨意敷衍,則誤差到底有多大,就很難說了。

小檔案■我國失業調查爲分層兩段隨機抽樣,動員550名訪查員取得2萬戶樣本,推估800多萬戶就業情況,首先以產業結構、年齡及教育程度對村裡進行分層,新北市分爲五層(各縣市略有差異),各層皆隨機抽得若干村裡爲樣本,以讓樣本更具代表性,接着在村裡裡循系統抽樣以取得樣本。

小檔案■我國失業調查,被抽到的家庭,會訪四次,本月、下月,明年的本月、下月,每月樣本2萬戶,有一半和上月重複,還有一半和上年同月重複,新增樣本只有5千戶,循樣本輪換機制有兩個優點,一是樣本隨機而穩定,一是由於有半數重複樣本,可以觀察一年之間、兩個月之間同一組資料(panel data)的變化。