Wednesday, August 19, 2015

Stat matters


網誌謬論統計

報載,美國蓋洛普 (Gallup) 顧問公司有分負責蒐集的全球幸福 (well-being) 指數,145 國家及地區中,香港列低位,排名120,遠低於台灣 (59),比日本 (92)、新加坡 (97) 還低,比中國大陸 (127) 只稍高。指數以生活目標、社會、經濟、社區歸屬感、健康五項領域,調查不同地方人民的幸福感覺。

上述的排名,如要集中單看個人收入(當然還要看其他),那一定不能用人均生產值 (GDP per capita) 。讓我們看看有關數字:香港-US$39,871;台灣-22,598;日本-36,332;新加坡-56,319;中國大陸-7,589。五地之中,不要以為生產值越高,幸福感會越低。台灣生產值次低,但幸福指數最高;中國大陸生產值最低,但最不幸福。香港生產值次高,但幸福感不及生產值最高的新加坡。

所以,許多人會看堅尼系數 (Gini coefficient) 。此系數看的是一個地方個人收入的分布。一般來說,貧富懸殊越嚴重,系數越高。可以說,台灣、日本貧富懸殊不算厲害,故總的情況比香港、中國大陸和新加坡好。

堅尼系數本身其實是一項統計分布。如何評估分布是大或小、廣或窄,我們也可用統計學上常見的標準差 (standard deviation)(標準差的定義是:方差的算術平方根。)

上述的例子,教了我們不要單看平均值,要看平均值上下的分布。舉例,一隻腳放在冰水,另一隻放在沸水,平均是50度,但絕不可總的來說是舒服的,因標準差是35度,算是大的。

標準差的應用是多方面的。譬如,許多人都想知道當今的運動員表現是否比昔日的好?超級足球隊的能力和技術是否比以往的好?如果單看競跑、跳高、跳遠、舉重等項目,事情較容易:看看100米賽所需時間便可,以前低於10秒是大新聞,現時可能僅是世界級賽事入圍的標準。但如果是一些互動體育,像足球、籃球等,又如何?現在的皇家馬德里要比史蒂芬奴時代的皇馬出色嗎?那就要看該精英球隊歷年來在聯賽中取得的積分,如果頭數名球隊積分(或得失球)的標準差趨勢由大變小,代表整體上球員質素初時或有參差,但隨時間推移已變得人才濟濟。

說到這裡,其實我也不明白,為何我們一直都是計算標準差,而不是平均差?平均差 (mean deviation) 是指個別數字與平均數的差距絕對值的算術平均數。平均差與標準差最大不同,在於後者將個別差距自乘 (最後將總數開方),無緣無故將差距自我加權,令結果向差距大者傾斜。拿05914四個數目為例,平均值是7,平均差是4.5,標準差是5.1,標準差一定大於平均差。

 
原來,統計學鼻祖Karl Pearson (1857-1936) 1893年初次引用「標準差」這新名術語時,當時坊間稱之為均方根誤差 (root mean square error)。不幸的是,人們卻以為新名詞是指平均差。而傳媒報章則說的是一個術語,計算出來的卻是另一條數,繼續混淆視聽!

統計廣泛應用於民調上,尤其是閱報,演繹須十分小心。不僅不少人讀不通,一些議員及政府新聞統籌員原來也不大懂。
 

19-8-2015

〔作者保留版權。〕

No comments:

Post a Comment