對量化研究而言,抽樣與選擇研究問題一樣重要。抽樣是重要的過程,如何選擇具有代表性的樣本,決定了是否可以做出正確的推論。甚至解釋因果關係,而不僅僅是發現變項間的相關。

但大數據要說的概念,恰恰與上述的研究方法與假設迥異。透過資料庫和資訊處理科學的發達,發展變相間的數據模型,推論母體變項間的相關,甚至可以取代因果關係,甚至提前做出預測。

書中舉了許多美國資料庫、系統商及商業物流管理的例子,說明抽樣的重要性如何被資料庫取代。而這樣的分析方法,是新興的商機,帶動的是更有效的預測行為。

對政府單位而言,握有諸多個別資料庫,擁有完整的個人資訊,在這個分析下,似乎可以做更多的事。提前為民眾設想合宜的政策,規劃更好的方案。
但大數據或者說資料庫的分析並不是沒有侷限。首先,資料庫的來源經常是我們不知道或未注意的。像是我們瀏覽各種購物網頁的點擊資訊,就被用來分析要推薦什麼商品;搜尋引擎做的拼字錯誤蒐集與校正,就成了改善輸入法的資料庫;搜尋引擎點擊的資訊,也影響著每字鍵入關鍵字搜尋得到的排序;使用各種衛星定位地圖的同時,也將相關的訊息透漏給提供服務的廠商;甚至在臉書上面的各種活動,也影響著臉書旁邊廣告連結的資訊。

可以想見,幾乎所有的免費線上服務,都是附帶的傳送了一些個人的偏好給系統廠商。而系統廠商也透過這些看似免費的服務,另外透過其他方式「獲得」服務費用。

而政府機關透過這些資訊,雖可能可以進行較好的政策分析,但個人的隱私、做為人的決定能動性,卻似乎在這樣的分析中被忽略了。偏好,變成了量化的數據,而量化的數據,經常很難解釋像你我一樣複雜的人。

當政府可以預測犯罪,並且預防犯罪時,是否也意味著容許政府「處罰」或「限制」可能進行犯罪行為的人。每一個動機犯,在這個資訊分析的時代,似乎也被凌駕、操縱甚至懷疑了。

而系統廠商蒐集這些關於個人的資訊,是否侵犯了個人的隱私,或者是否讓被蒐集的人知情後同意呢?

最後,社會科學研究如果邁入這樣的大數據分析,過去統計抽樣的方法,是備受挑戰的。如果不再使用問卷,我們的研究品質是否可以有效獲得提升呢?

當然,這本書並沒有明確的說明如何選擇合適的研究題目、確認合適的資料庫。而我也只是粗淺的讀完這本書,並沒有辦法提供延伸閱讀。有的話,就是他最近出的續集《大數據-隱私篇:數位時代,「刪去」是必要的美德》。

總之,是一本入門書,如果要進行研究,也許是一個新的發想的起始。以上。