信心 水準

Copyright © 2012國家教育研究院 版權所有 建議最佳瀏覽螢幕解析度1024×768
三峽總院區 地址:237201新北市三峽區三樹路2號 電話:(02)7740-7890 傳真:(02)7740-1170
臺北院區 地址:106011臺北市大安區和平東路一段179號 電話:(02)7740-7890 傳真:(02)7740-7849
臺中院區 地址:420081臺中市豐原區師範街67號 電話:(02)7740-7890 傳真:(04)7740-7949
網站服務:臺北院區語文教育及編譯研究中心

圖解信賴區間,兩種常見的錯誤解讀

2022-01-20

by 好豪 Published: 2022-01-20Last Updated on 2022-05-17

民意調查、A/B Test、或者學術論文裡面的實驗等等,信賴區間是無所不在的統計工具,也是學習統計學的朋友們必定會接觸到的基礎知識。但是,或許就是因為太多人在使用它,信賴區間也很常會被錯誤解讀。

這篇筆記不用任何艱澀的數學公式,將用圖解還有白話的方式介紹信賴區間常被解讀錯誤的兩項觀念:信心水準以及標準誤,並且為讀者釐清信賴區間大小究竟會被何者影響。


  • 為什麼需要信賴區間?
  • 信心水準:到底 95% 是什麼機率?
  • 標準差與標準誤,它們不一樣!
    • 標準誤與信賴區間寬度的關係
  • 結語

為什麼需要信賴區間?

我們先來聊聊點估計、區間估計、還有信賴區間之間的關係,你是否真的知道信賴區間到底是用來幹嘛的?

假設我們的任務是要估計台北市所有居民的平均身高。為了執行估計的任務,統計學家會隨機抽樣一群人,計算這群樣本的平均身高,從這群抽樣算出來的平均身高,是單一個數字,稱之為點估計。

但是,這個抽樣算出來的平均身高、跟真實的所有台北市居民的平均身高,不可能完全一樣,所以我們會用 邊際誤差(Margin of Error)來描述點估計跟真實狀況的接近程度。樣本中平均身高的點估計、再加減邊際誤差所形成的範圍,稱之為區間估計。

邊際誤差是兩個要素的組合:信心水準與標準誤。如果我們只取了一群樣本,標準誤就先當作一個基於該樣本已經算好的某個值,細節我們下個小節再多談。我們先專心談談另一個要素—信心水準,隨著我們估計者自己的設定不同、是可以變動的,也因此邊際誤差與區間估計都隨著信心不同變動,以下我們看看因為不同信心水準而變動邊際誤差會發生什麼事。

假設我們知道真實答案,台北市所有居民的平均身高是 164.5 公分(這個通常不可能知道的真實答案,稱為母體參數)。而統計學家抽樣出來的這群人,平均身高是 161.2 公分。

  • 如果邊際誤差是 1.3 公分,區間估計會是 159.9 ~ 162.5 公分 -> 沒有包含母體參數
  • 如果邊際誤差是 3.0 公分,區間估計會是 158.2 ~ 164.2 公分 -> 沒有包含母體參數
  • 如果邊際誤差是 4.9 公分,區間估計會是 156.3 ~ 166.1 公分 -> 包含母體參數
  • 更誇張一點,如果邊際誤差是 18.8 公分,區間估計會是 142.4 ~ 180.0 -> 包含母體參數

同一組樣本,使用不同的信心水準、會得到不同的邊際誤差。聰明的你,看出什麼端倪了嗎?

如果我們用超大的邊際誤差來做區間估計,那估計的平均身高範圍從極高到極矮都有,我們可以想像這個超大範圍當然包含了真實的台北市居民平均身高、所以宣稱「我們有高度信心,這個超大範圍會包含到母體參數」。然而,這種區間估計可靠度很低,就算知道這個範圍包含了真實答案,這個真實平均身高可能是 145 公分、又可能是 180 公分,這麼大的範圍、對身高研究根本沒幫助!

反之,如果我們用較小的邊際誤差來做區間估計,估計的平均身高範圍也會較窄,數據會更可靠、更有幫助,但是我們比較沒有信心這個較窄的區間可以涵蓋到母體參數。

至此,我們了解到「事先設定信心水準」是必要的,不然,像上述範例一樣,換個信心水準、就換個區間估計,根本不知道該採用哪個區間估計了。而有事先設定信心水準的區間估計,就是信賴區間

以上這些文字說明,已經包含了筆者好豪在這篇文章想介紹的所有觀念,接下來我會用圖示的方式進一步說明,希望讀者能更清楚了解、不要混淆不同的觀念。


信心水準:到底 95% 是什麼機率?

我們先看看以下這個對 95% 機率的解讀:

台北市居民的平均身高,有 95% 的機率落在我們從樣本算出的信賴區間內

這句話只是看起來正確,其實大有問題!筆者好豪在此跟你分享我用來提醒自己不要解讀錯誤的口訣:

母體參數就是我們在統計分析裡想追求的「真相」,而這個真相只會有一個,也就是說,在我們分析的當下,這個母體參數的真相是固定不變的。「母體參數有 95% 的機率落在信賴區間內」這句話最大的問題,是把母體參數視為變數、好像它會隨機亂跑一樣,這是錯誤的解讀!讀者可以想像:如果我們有超強的調查能力,能真的算出所有台北市居民某一瞬間的平均身高,我們會解出真相、得到唯一的數字,這個數字就是我們要的母體參數,它才不會隨機亂跑呢!

信心水準 = 信賴區間包含母體參數的機率

隨機性實際上是存在於我們的抽樣調查之中,不同的抽樣、可能會得到不同的調查結果,我們在乎的是手上的調查結果「有多大的可能是母體參數」,這就是「95%」的意義了,在我們預先設定 95% 信心水準後、從樣本計算出來的區間估計有 95% 的可能包含了母體參數

如果我們用一模一樣的抽樣方法(包括隨機抽樣且樣本數相同),重複執行抽樣調查多次,會算出許多個信賴區間,而每一個信賴區間要嘛數字範圍有包含母體參數、要嘛沒有,這些重複執行抽樣算出的信賴區間包含母體參數的機率是 95%。

簡言之:

  • 正確解讀:我們的信賴區間計算方法有 95% 的機率會包含台北市居民的平均身高
  • 錯誤解讀:台北市居民的平均身高有 95% 的機率落在我們算出來的信賴區間內

標準差與標準誤,它們不一樣!

相信大家在研讀統計數字的時候,一定常常看到「標準差」跟「標準誤」兩個長得有點像的名詞,筆者好豪發現有許多人把這兩個名詞混用,其實他們的意義完全不同、經常被錯誤解讀!

標準差(Standard Deviation)指的是資料的發散程度,可以用「各資料點與平均數的距離」來理解,如果一份資料裡,大家都離平均數很近、標準差就小;反之,如果資料點都離平均數很遠、標準差就會大。舉例而言:

  • 0, 5, 10, 15, 20
  • 8, 9, 10, 11, 12

以上兩組資料平均數都是 10,但是後者標準差較小、因為大家都離平均數 10 很近。

標準差是「資料」的發散程度,這個「資料」可能是母體、也可能是樣本。母體分佈的標準差,指的就是我們有興趣的那個群體、真實的發散程度,如同我們在上個小節討論的,真相只有一個,母體標準差的這個真相也只有一個、在分析的當下視為固定不變。但是,我們通常無法知道真相(母體參數),不知道母體平均數、也不知道母體標準差,因此,我們需要用樣本的標準差來估計母體的標準差。

重點來了,標準誤(Standard Error)與上述的標準差意義大不相同,標準誤代表的不是「資料點的離散程度」,而是在多次(相同方法)抽樣後,得到許多個「樣本平均數距離母體平均數多遠」的離散程度資訊。由此知道,標準誤是用來表示樣本估計結果的誤差程度,樣本平均數距離母體平均數越遠,表示抽樣誤差越大。

請讀者透過以下的圖示理解標準誤與標準差的不同:

標準誤與信賴區間寬度的關係

標準誤與標準差不同、但是它們又密切相關,我們緊接著開始釐清樣本標準差、標準誤、還有信賴區間寬度之間的關係。

筆者好豪在前面的文章討論過,信賴區間的寬度稱為邊際誤差,它是信心水準標準誤兩要素的組合,信心水準需要研究者事先設定、通常設定為 95%。在假設母體是常態分佈的狀況下,95% 信心水準會用 1.96 這個常數(稱為臨界值)來當作決定信賴區間寬度的要素之一,因為這是固定不變的常數、而且十分常用,我們記得它存在就好,以下我們就可以只討論標準誤與信賴區間寬度之間的關係

假設母體是常態分佈,且設定信心水準是 95% 時
信賴區間的寬度(邊際誤差) = 1.96 x 標準誤

既然我們設定了 1.96 這個常數,那關係就更簡化了:標準誤跟信賴區間的寬度成正比。要知道信賴區間寬度會如何受影響,就只需要知道標準誤怎麼變化即可。接著討論之前,嘿!你需要先記得我們剛討論過的重點喔:標準誤代表「樣本平均數距離母體平均數的離散程度」。

標準誤由兩項要素決定:樣本的標準差、以及樣本數大小。姑且不管公式為何,我們試著用直覺來理解:

首先,樣本的標準差是對母體資料離散程度的估計,如果我們相信母體資料十分離散(各資料點都離母體平均數很遠、數值大幅度跳來跳去的),那麼抽樣得出的樣本平均數也該很離散,對吧?離散的樣本平均數,表示我們相信如果重複做多次抽樣,得到的樣本平均數彼此會差很多,可以說是樣本較不可靠、我們不能給出很小的信賴區間範圍。因此,樣本的標準差越大、標準誤會越大、信賴區間的寬度也就越大

第二,一般而言(非絕對),只要搜集越多資料,樣本算出來的平均數會更接近真相、更接近母體平均數,樣本平均數距離母體更近代表標準誤更低。樣本數越大、標準誤會越小、信賴區間的寬度也會越小。更白話地說,通常資料越多,我們的數據估計會更可靠,所以信賴區間寬度會越小。

如果看到這裡你還是不太理解標準誤,好豪在另一篇文章 用四個角度帶你認識標準誤,推薦你一讀。

最後,我們在此整理這小節所學:

  • 標準差是資料的離散程度,母體的標準差通常不知道、要用樣本標準差來估計
  • 標準誤是樣本平均數距離母體平均數的離散程度
  • 信賴區間寬度取決於標準誤大小,而標準誤又取決於樣本標準差與樣本數大小
    • 樣本標準差越大、信賴區間寬度越大
    • 樣本數越多、信賴區間寬度就越小

看到這裡,你頭昏眼花了嗎?如果是,請讀者從以上兩張圖示開始再複習一次;如果還沒,我相信你已經準備好複習信賴區間在課本裡的 數學公式 了!



結語

撰寫這篇筆記的動機,是筆者好豪在複習布朗大學的統計學教材 Seeing Theory 時,想起自己在挑戰資料科學面試的時候,也是重複研讀了好多次才釐清如何正確解讀信心水準跟標準誤。我認為,能夠用白話、沒有數學公式的方式理解這些觀念,才代表我們的理解深度已經足以將這些知識運用在實戰中。我也更希望這篇筆記能幫助讀者不再搞混信賴區間的統計觀念。

這篇文章的圖表都是引用上述的 Seeing Theory 編輯的,推薦各位讀者看一眼這個網站的視覺化呈現,能幫助你從不同角度思考統計知識;如果你已經快忘光像是信賴區間這些常見又必備的統計常識,筆者推薦你跟我一起用 《資料科學家的實用統計學》 這本書,同時用 R 與 Python 程式碼來實作統計學;也歡迎參考好豪寫的 P-value 解讀教學文章,好好複習一下這些重要的統計知識。

參考資料:

  • 點估計及區間估計 – 科學Online
  • 引用林惠玲與陳正倉老師著作的 統計學講義
  • 《資料科學家的實用統計學》

希望這篇文章有幫助到你!歡迎追蹤好豪的 Facebook 粉絲專頁,我會持續和你分享我的資料科學學習筆記;也可以點選下方按鈕,分享給正在研讀統計學的朋友們。

什麼是信心水準?

正確的理解是:信心水準只有在描述這個同樣構造信賴區間的過程(或稱方法)的意義下才能被視為一個機率。 一個基於已經觀測到的數據所構造出來的信賴區間,其兩個端點已經不再具有隨機性,因此,類似的構造的間隔將會包含真正的值的比例在所有值中,其包含未知母數的真實值的機率是0或者1,但我們不能知道是前者還是後者。

信賴區間如何表示?

0.95稱為信賴係數(confidence coefficient),區間78.08~ 85.92則稱為信賴區間(confidence interval)。 是右尾面積為α/2的標準常態機率分配 的z值。 母體是常態分配,利用 求算確切的信賴區間, 95%的信賴區間,會有95%的信心此區間包含母體平均數。

信賴區間代表什麼?

信賴區間(Confidence interval (CI)) 研究總是會存在有一些不確定性,畢竟僅以部分群體的病人(又稱為樣本)的試驗結果作為最終整體療效的推估,而信賴區間(confidence interval,簡寫為CI)代表估計的不確定程度有多大,這也提供我們瞭解研究結果近似於探討族群之”實際值”的程度為何。

信賴區間90% 幾個標準差?

68–95–99.7法則[編輯] 在統計上,68–95–99.7法則(68–95–99.7 rule)是在常態分布中,距平均值小於一個標準差、二個標準差、三個標準差以內的百分比,更精確的數字是68.27%、95.45%及99.73%。