Wednesday, March 13, 2019

How to win on minimal information


網誌:如何以偏概全

       1969年,一名美國準博士生到歐洲旅遊,途經柏林圍牆。他問了自己一條問題:這分隔東西德的牆還會維持多久?這是一度難題,因為歷史上無先例可援,大家只知道圍牆於1961年建造。雖然缺乏資訊,他仍然作了推想: 假如圍牆還有一百萬年,那麼他到柏林碰上圍牆,豈不是很接近圍牆面世的一刻,豈不是太巧合?同樣,1000年也會是太長。於是他最終作出一個估計,就是假設他在柏林的日子,剛好是牆的壽命半路中途。他估計牆的壽命是:還有8年,範圍是由最少2 2/3年,至不超過24年。當然,現在大家都知道圍牆何時倒下,但是這學生的估計屬於準確或是不準確?稍後我們再談。

            現實生活上,我們往往會碰上類似的問題,就是資訊極少,但好歹也要作答。如何是好?



其實,250多年前,英國的牧師、數學家貝葉斯 (Thomas Bayes 1701-61) 已開始對此類問題思索。他想,假如買10張獎券,其中5張得獎,很簡單,全部獎券勝出率應是五成 (50%)。然而換一個例,假如僅買1張獎券,便中了獎,那麼,勝出率會不會是十成 (100%)?,十成是否太樂觀?如果是太樂觀,那麼勝出率便要調低,但調低多少?

十多年後,1774 年,法國數學家拉普拉斯 (Pierre-Simon Laplace 1749-1827) 利用微積分解決了問題。答案出奇地相當簡單:(w+1)/(n+2), w是勝出次數,n是總次數。這答案理解不難。用上述貝葉斯提出的例子,買105,那麼全部獎券勝出率便是 (5+1)/(10+2) = 6/12 = 50%,符合貝葉斯的想法。如果是買11,總勝出率便是 (1+1)/(1+2) = 2/3。利用這結果,拉普拉斯當年解決了一大堆實際問題,包括出生嬰兒的男女比例是否1:1(答案是稍有偏差,男稍多於女)

拉普拉斯公式令人著迷之處,在於就算只得一個數據,又或者有千萬個數據,也可給出答案。例如,某一角子機,是31(這裡談的只是勝出的次數,而不是賠出的金額),那麼下一盤勝出率便是(1+1)/(3+2) = 2/5,即40%。當然,勝出率會隨著盤數增加而變化。

又例如,明天太陽從東面升起的機會是多少?可以想像:這是人類過去二十萬年每天都發生的事,那麼明天發生的機會應是(20x365 + 1)/( 20x365 + 2),與100% 相去不遠!

返回圍牆的壽命,準博士生估計只得8(1977),實際應是20(1989) ,不能是準確,但總算屬於估算範圍之內(2 2/3年至24年),已是基於既有資料而作出的最佳估算了。

有人會反問,用上述(準博士生)的估計方法,那麼80的人豈不是會活到16010的小孩豈不是只得20年?這當然不妥,因為與以上的其他例子不同,有關壽命的資訊我們早已詳細掌握,能作出更好、更真實的估算,不可同日而語

           

14-3-2019

作者保留版權

參考:B. Christian and T. Griffiths, Algorithms to live by, William Collins, 2016.