信心水準

Q: 什麼是信心水準？

正確的理解是：信心水準只有在描述這個同樣構造信賴區間的過程(或稱方法)的意義下才能被視為一個機率。 一個基於已經觀測到的數據所構造出來的信賴區間，其兩個端點已經不再具有隨機性，因此，類似的構造的間隔將會包含真正的值的比例在所有值中，其包含未知母數的真實值的機率是0或者1，但我們不能知道是前者還是後者。

Copyright © 2012國家教育研究院版權所有建議最佳瀏覽螢幕解析度1024×768
三峽總院區地址：237201新北市三峽區三樹路2號電話：(02)7740-7890 傳真：(02)7740-1170
臺北院區地址：106011臺北市大安區和平東路一段179號電話：(02)7740-7890 傳真：(02)7740-7849
臺中院區地址：420081臺中市豐原區師範街67號電話：(02)7740-7890 傳真：(04)7740-7949
網站服務：臺北院區語文教育及編譯研究中心

目錄 Show

圖解信賴區間，兩種常見的錯誤解讀
為什麼需要信賴區間？
信心水準：到底 95% 是什麼機率？
標準差與標準誤，它們不一樣！
標準誤與信賴區間寬度的關係
什麼是信心水準？
信賴區間如何表示？
信賴區間代表什麼？
信賴區間90% 幾個標準差？

圖解信賴區間，兩種常見的錯誤解讀

2022-01-20

by 好豪 Published: 2022-01-20Last Updated on 2022-05-17

民意調查、A/B Test、或者學術論文裡面的實驗等等，信賴區間是無所不在的統計工具，也是學習統計學的朋友們必定會接觸到的基礎知識。但是，或許就是因為太多人在使用它，信賴區間也很常會被錯誤解讀。

這篇筆記不用任何艱澀的數學公式，將用圖解還有白話的方式介紹信賴區間常被解讀錯誤的兩項觀念：信心水準以及標準誤，並且為讀者釐清信賴區間大小究竟會被何者影響。

為什麼需要信賴區間？
信心水準：到底 95% 是什麼機率？
標準差與標準誤，它們不一樣！
- 標準誤與信賴區間寬度的關係
結語

為什麼需要信賴區間？

我們先來聊聊點估計、區間估計、還有信賴區間之間的關係，你是否真的知道信賴區間到底是用來幹嘛的？

假設我們的任務是要估計台北市所有居民的平均身高。為了執行估計的任務，統計學家會隨機抽樣一群人，計算這群樣本的平均身高，從這群抽樣算出來的平均身高，是單一個數字，稱之為點估計。

但是，這個抽樣算出來的平均身高、跟真實的所有台北市居民的平均身高，不可能完全一樣，所以我們會用 邊際誤差（Margin of Error）來描述點估計跟真實狀況的接近程度。樣本中平均身高的點估計、再加減邊際誤差所形成的範圍，稱之為區間估計。

邊際誤差是兩個要素的組合：信心水準與標準誤。如果我們只取了一群樣本，標準誤就先當作一個基於該樣本已經算好的某個值，細節我們下個小節再多談。我們先專心談談另一個要素—信心水準，隨著我們估計者自己的設定不同、是可以變動的，也因此邊際誤差與區間估計都隨著信心不同變動，以下我們看看因為不同信心水準而變動邊際誤差會發生什麼事。

假設我們知道真實答案，台北市所有居民的平均身高是 164.5 公分（這個通常不可能知道的真實答案，稱為母體參數）。而統計學家抽樣出來的這群人，平均身高是 161.2 公分。

如果邊際誤差是 1.3 公分，區間估計會是 159.9 ~ 162.5 公分 -> 沒有包含母體參數
如果邊際誤差是 3.0 公分，區間估計會是 158.2 ~ 164.2 公分 -> 沒有包含母體參數
如果邊際誤差是 4.9 公分，區間估計會是 156.3 ~ 166.1 公分 -> 有包含母體參數
更誇張一點，如果邊際誤差是 18.8 公分，區間估計會是 142.4 ~ 180.0 -> 有包含母體參數

同一組樣本，使用不同的信心水準、會得到不同的邊際誤差。聰明的你，看出什麼端倪了嗎？

如果我們用超大的邊際誤差來做區間估計，那估計的平均身高範圍從極高到極矮都有，我們可以想像這個超大範圍當然包含了真實的台北市居民平均身高、所以宣稱「我們有高度信心，這個超大範圍會包含到母體參數」。然而，這種區間估計可靠度很低，就算知道這個範圍包含了真實答案，這個真實平均身高可能是 145 公分、又可能是 180 公分，這麼大的範圍、對身高研究根本沒幫助！

反之，如果我們用較小的邊際誤差來做區間估計，估計的平均身高範圍也會較窄，數據會更可靠、更有幫助，但是我們比較沒有信心這個較窄的區間可以涵蓋到母體參數。

至此，我們了解到「事先設定信心水準」是必要的，不然，像上述範例一樣，換個信心水準、就換個區間估計，根本不知道該採用哪個區間估計了。而有事先設定信心水準的區間估計，就是信賴區間。

以上這些文字說明，已經包含了筆者好豪在這篇文章想介紹的所有觀念，接下來我會用圖示的方式進一步說明，希望讀者能更清楚了解、不要混淆不同的觀念。

信心水準：到底 95% 是什麼機率？

我們先看看以下這個對 95% 機率的解讀：

台北市居民的平均身高，有 95% 的機率落在我們從樣本算出的信賴區間內

這句話只是看起來正確，其實大有問題！筆者好豪在此跟你分享我用來提醒自己不要解讀錯誤的口訣：

母體參數就是我們在統計分析裡想追求的「真相」，而這個真相只會有一個，也就是說，在我們分析的當下，這個母體參數的真相是固定不變的。「母體參數有 95% 的機率落在信賴區間內」這句話最大的問題，是把母體參數視為變數、好像它會隨機亂跑一樣，這是錯誤的解讀！讀者可以想像：如果我們有超強的調查能力，能真的算出所有台北市居民某一瞬間的平均身高，我們會解出真相、得到唯一的數字，這個數字就是我們要的母體參數，它才不會隨機亂跑呢！

信心水準 = 信賴區間包含母體參數的機率

隨機性實際上是存在於我們的抽樣調查之中，不同的抽樣、可能會得到不同的調查結果，我們在乎的是手上的調查結果「有多大的可能是母體參數」，這就是「95%」的意義了，在我們預先設定 95% 信心水準後、從樣本計算出來的區間估計有 95% 的可能包含了母體參數。

如果我們用一模一樣的抽樣方法（包括隨機抽樣且樣本數相同），重複執行抽樣調查多次，會算出許多個信賴區間，而每一個信賴區間要嘛數字範圍有包含母體參數、要嘛沒有，這些重複執行抽樣算出的信賴區間包含母體參數的機率是 95%。

簡言之：

正確解讀：我們的信賴區間計算方法有 95% 的機率會包含台北市居民的平均身高
錯誤解讀：台北市居民的平均身高有 95% 的機率落在我們算出來的信賴區間內

標準差與標準誤，它們不一樣！

相信大家在研讀統計數字的時候，一定常常看到「標準差」跟「標準誤」兩個長得有點像的名詞，筆者好豪發現有許多人把這兩個名詞混用，其實他們的意義完全不同、經常被錯誤解讀！

標準差（Standard Deviation）指的是資料的發散程度，可以用「各資料點與平均數的距離」來理解，如果一份資料裡，大家都離平均數很近、標準差就小；反之，如果資料點都離平均數很遠、標準差就會大。舉例而言：

0, 5, 10, 15, 20
8, 9, 10, 11, 12

以上兩組資料平均數都是 10，但是後者標準差較小、因為大家都離平均數 10 很近。

標準差是「資料」的發散程度，這個「資料」可能是母體、也可能是樣本。母體分佈的標準差，指的就是我們有興趣的那個群體、真實的發散程度，如同我們在上個小節討論的，真相只有一個，母體標準差的這個真相也只有一個、在分析的當下視為固定不變。但是，我們通常無法知道真相（母體參數），不知道母體平均數、也不知道母體標準差，因此，我們需要用樣本的標準差來估計母體的標準差。

重點來了，標準誤（Standard Error）與上述的標準差意義大不相同，標準誤代表的不是「資料點的離散程度」，而是在多次（相同方法）抽樣後，得到許多個「樣本平均數距離母體平均數多遠」的離散程度資訊。由此知道，標準誤是用來表示樣本估計結果的誤差程度，樣本平均數距離母體平均數越遠，表示抽樣誤差越大。

請讀者透過以下的圖示理解標準誤與標準差的不同：

標準誤與信賴區間寬度的關係

標準誤與標準差不同、但是它們又密切相關，我們緊接著開始釐清樣本標準差、標準誤、還有信賴區間寬度之間的關係。

筆者好豪在前面的文章討論過，信賴區間的寬度稱為邊際誤差，它是信心水準與標準誤兩要素的組合，信心水準需要研究者事先設定、通常設定為 95%。在假設母體是常態分佈的狀況下，95% 信心水準會用 1.96 這個常數（稱為臨界值）來當作決定信賴區間寬度的要素之一，因為這是固定不變的常數、而且十分常用，我們記得它存在就好，以下我們就可以只討論標準誤與信賴區間寬度之間的關係。

假設母體是常態分佈，且設定信心水準是 95% 時
信賴區間的寬度（邊際誤差） = 1.96 x 標準誤

既然我們設定了 1.96 這個常數，那關係就更簡化了：標準誤跟信賴區間的寬度成正比。要知道信賴區間寬度會如何受影響，就只需要知道標準誤怎麼變化即可。接著討論之前，嘿！你需要先記得我們剛討論過的重點喔：標準誤代表「樣本平均數距離母體平均數的離散程度」。

標準誤由兩項要素決定：樣本的標準差、以及樣本數大小。姑且不管公式為何，我們試著用直覺來理解：

首先，樣本的標準差是對母體資料離散程度的估計，如果我們相信母體資料十分離散（各資料點都離母體平均數很遠、數值大幅度跳來跳去的），那麼抽樣得出的樣本平均數也該很離散，對吧？離散的樣本平均數，表示我們相信如果重複做多次抽樣，得到的樣本平均數彼此會差很多，可以說是樣本較不可靠、我們不能給出很小的信賴區間範圍。因此，樣本的標準差越大、標準誤會越大、信賴區間的寬度也就越大。

第二，一般而言（非絕對），只要搜集越多資料，樣本算出來的平均數會更接近真相、更接近母體平均數，樣本平均數距離母體更近代表標準誤更低。樣本數越大、標準誤會越小、信賴區間的寬度也會越小。更白話地說，通常資料越多，我們的數據估計會更可靠，所以信賴區間寬度會越小。

如果看到這裡你還是不太理解標準誤，好豪在另一篇文章用四個角度帶你認識標準誤，推薦你一讀。

最後，我們在此整理這小節所學：

標準差是資料的離散程度，母體的標準差通常不知道、要用樣本標準差來估計
標準誤是樣本平均數距離母體平均數的離散程度
信賴區間寬度取決於標準誤大小，而標準誤又取決於樣本標準差與樣本數大小
- 樣本標準差越大、信賴區間寬度越大
- 樣本數越多、信賴區間寬度就越小

看到這裡，你頭昏眼花了嗎？如果是，請讀者從以上兩張圖示開始再複習一次；如果還沒，我相信你已經準備好複習信賴區間在課本裡的數學公式了！

結語

撰寫這篇筆記的動機，是筆者好豪在複習布朗大學的統計學教材 Seeing Theory 時，想起自己在挑戰資料科學面試的時候，也是重複研讀了好多次才釐清如何正確解讀信心水準跟標準誤。我認為，能夠用白話、沒有數學公式的方式理解這些觀念，才代表我們的理解深度已經足以將這些知識運用在實戰中。我也更希望這篇筆記能幫助讀者不再搞混信賴區間的統計觀念。

這篇文章的圖表都是引用上述的 Seeing Theory 編輯的，推薦各位讀者看一眼這個網站的視覺化呈現，能幫助你從不同角度思考統計知識；如果你已經快忘光像是信賴區間這些常見又必備的統計常識，筆者推薦你跟我一起用《資料科學家的實用統計學》這本書，同時用 R 與 Python 程式碼來實作統計學；也歡迎參考好豪寫的 P-value 解讀教學文章，好好複習一下這些重要的統計知識。

參考資料：

點估計及區間估計 – 科學Online
引用林惠玲與陳正倉老師著作的統計學講義
《資料科學家的實用統計學》

希望這篇文章有幫助到你！歡迎追蹤好豪的 Facebook 粉絲專頁，我會持續和你分享我的資料科學學習筆記；也可以點選下方按鈕，分享給正在研讀統計學的朋友們。

什麼是信心水準？

正確的理解是：信心水準只有在描述這個同樣構造信賴區間的過程(或稱方法)的意義下才能被視為一個機率。一個基於已經觀測到的數據所構造出來的信賴區間，其兩個端點已經不再具有隨機性，因此，類似的構造的間隔將會包含真正的值的比例在所有值中，其包含未知母數的真實值的機率是0或者1，但我們不能知道是前者還是後者。

信賴區間如何表示？

0.95稱為信賴係數(confidence coefficient)，區間78.08~ 85.92則稱為信賴區間(confidence interval)。是右尾面積為α/2的標準常態機率分配的z值。母體是常態分配，利用求算確切的信賴區間， 95%的信賴區間，會有95%的信心此區間包含母體平均數。

信賴區間代表什麼？

信賴區間(Confidence interval (CI)) 研究總是會存在有一些不確定性，畢竟僅以部分群體的病人(又稱為樣本)的試驗結果作為最終整體療效的推估，而信賴區間(confidence interval,簡寫為CI)代表估計的不確定程度有多大，這也提供我們瞭解研究結果近似於探討族群之”實際值”的程度為何。