昨天那篇 踢爆媒體和警方說法!用Google Earth揭開830和紅衫軍遊行人數之謎! 討論熱烈,1天就130個回應。許多藍丁挑毛病說BBC的照片中有空隙啦,有些地方沒有人等等,在回應中大打筆仗。但有一件事是無可反駁的,830遊行的人數,絕對是馬英九講的5萬人至少3倍到6倍以上。一國領導人如此輕率的看待這麼大規模的遊行,這種態度,不知道這個位置還能坐多久。
如果上一篇讓藍丁緊張,那現在這篇就要讓藍丁抓狂了。我用第2個方法,利用部落格的點閱IP數下降,來推估可能的遊行人數。
如果要這樣計算,我們要先算出兩個數字:
1。母群體的大小:這是指可能閱讀抽樣部落格的潛在網友數目,我們叫它X
2。抽樣對像的變化率:這是觀察抽樣對象的IP點閱數下降程度,我們叫它Y%
然後假設遊行人數讓部落格點閱數下降,(你去遊行不可能還能上網看部落格吧),那麼:
遊行人數=X * Y %
用這樣前所未見,異想天開的估計方法,藍丁丁準備抓狂吧~ㄎㄎ
先算X
台灣成年人口 (15-65歲)(這個年紀比較有可能上網,也比較有可能去遊行)
(數字來自wiki)
23000827 * 0.707= 16261584 (台灣成年人口)
(數字來自這篇 http://www.wretch.cc/blog/billypan101/11732916)
16261584 * 0.674= 10960308 (台灣成年人中的上網人口)10960308 * 0.866=9491624 (台灣成年人中會讀部落格人口)
像我這種立場偏綠的部落格,假設可能會來的潛在讀者算所有閱讀部落格人口的41%就好了。
9491624 * 0.41= 3891566 (台灣成年人中會讀我這種類型部落格的總人口)
這個就是母群體,可能閱讀抽樣部落格的潛在網友數目,我們得到 X=389萬。
這389萬人不一定會來看我的部落格,只是把我的部落格到達人數當做田野調查的抽樣數目時,所代表的母群體大小。
再來算Y。其實我會用這個方法的原因是,830那天我的部落格點閱率下降,很明顯的和遊行有關。
(見http://look.urs.tw/showhits.php?BlogID=14197)
你可以看到8/30那天明顯和前後幾天點閱數差很多。因為點閱數下降也和星期六有關,所以我們來觀察前幾個星期六的變化:
以同樣是星期六比較,我挑了幾個成年人比較會去的知名blog,都可以看見8 月30日點閱數有變少。從 11.6%到38.2%不等。你也可以看到bloglook上有些部落格沒有這種現象,那可能是一些漫畫blog,小孩子看的比較多,或是格主之前密集發文所造成的影響。
這是點閱率,不過要以IP數計數才準。別人的IP數變化我看不見,我自已的yahoo站長工具的變化是這樣的:
取出星期6的數據,做成表如下(8/2用的是google analytics的數據)
這個就是我們要的 Y= 7 %
所以呢,因為大家去遊行,所造成的點閱數下降,算起來是遊行人數是:
3891566 * 0.07 = 272409 (上街而無法讀blog人數)
有27萬人啊~~很符合我上一篇用面積來計算的推估值。如果加上不上網,不讀Blog的人口,那遊行人數超過30萬是沒問題的啦~~
這樣計算也會有些bias(任何算法都有bias,除非你一個一個去算),大部份的數字都沒有問題(上網讀部落格人口數是國外的研究,點閱IP數是yahoo,我無法造假),比較有問題的是我的部落格抽樣是否能代表母群體?那個綠色讀友的估計,如果不是41%(這是選舉結果)而是20%的話,那麼27萬人就會少一半,變成13萬。但是這也有可能低估,因為我的部落格也有一些藍色讀友啊(你在回應中就能看到很多)。另外我的部落格也有15%左右的海外讀者,他們不會來參加遊行,如果加入這個變數也會造成最後低估人數。所以bias加加減減,母群體估41%我覺得是比較合理的數字。還有為什麼用我的部落格估算,而不用別的部格呢?這是因為,同類型的部落格中,我的流量大概是前幾名,抽樣數多,代表性就比較高啊~
上一篇有不少藍丁在那邊東扯西扯,我要說的是,任何估算法都不可能完全正確。你覺得不準要說出你的理由,你的算法,你的數據來源。算法有些小問題或bias,結果可能是高估也可能是低估,高低估的效應也有可能抵消。如果你沒有自已的算法,就先挑毛病批評別人多算高估,不是科學的精神。
不管怎麼說,一場遊行能讓部落格到訪人數下降7%(不是只有我的,我列出了好幾個和政治無關的成年人讀者會去的部落格),絕對不可能只有5萬人。除了面積估算法,IP估算法,另外也有議員提出捷運增加人次的計算(光4個出口就增加了3萬人, 見 馬政府,連遊行人數都要騙 )市警局和馬先生,應該要出來為刻意輕忽民意道歉。
留言列表