黎班:拜登民调超特朗普——大选民调可靠与否的政治科学
「到底民调可信吗?」
2016年的美国总统选举对自由派菁英来说是一场“恶梦”,川普(特朗普)虽然输了普选票,却赢了选举人票,最终问鼎总统之位,一下击穿希拉里·柯林顿(克林頓,下称柯林顿)会当选的“民调”幻象。
让我们来回顾下当时的民调:《纽约时报》预测柯林顿有85%的机会会赢;《华盛顿邮报》没有明确给出数字,但报称柯林顿会赢;即便是相对保守的《华尔街日报》,当时也认为柯林顿赢面较大;在选举预测中颇有名望的“普林斯顿选举研究室”,则预测柯林顿有93%的机会当选⋯⋯只有以预测运动赛事起家的538网站,认为柯林顿“只有”70%的当选机会。
这样的选举预测成果被视为是2016年政治科学的失败,同时加深了普通民众认为“民调不可信”的看法。即便到了2018年美国期中选举,预测准确度相对较高,但数据还是显示大多数美国人不相信民调。
2020年新一届总统大选,拜登VS特朗普的民调再度出炉,在全国民调的部分,拜登平均领先川普8~10%,而在上次令人跌破眼镜的锈带州,拜登的民调大多领先6-9%。那这一次,民调可不可信呢?
可靠“民调”的统计原理
在问民调可靠与否之前,必须要确定到底讨论的到底是“民调”还是“预测”。 严格来说,前面所提到的纽时、538、普林斯顿选举研究室等机构给出的数字,并不是“民调”结果,而是基于民调的选举结果“预测”,二者略有不同。
打个比方,一间学校有1000个学生有权选举学生会会长,候选人有两位(某甲跟某乙)。在正式选举前一天,学生报纸调查了全部1000个学生的支持倾向,结果显示支持两位候选人的人数分别是600与400。
学者会说,某甲的民调支持有60%,但不会说某甲翌日获胜的机率是60%;因为某乙要翻转选情,必须要在一天之内让101人从某甲处跑票,这显然不是件容易的事,在这样的情况下,我们可以很有信心地预测,某甲的获胜机率绝对是高于60%的。
所以,在问民调可靠与否之前,必须要确定到底讨论的到底是“民调”还是“预测”。
从根本上来说,民调就是对一小部分合乎统计学标准的人群做调查,以推论全体国民意向的一种社会科学工具。既然是从小部分人的意见来推论大多数人的意向,那误差就是必然的,而如果误差又是在可预测的范围内的话,就没有理由说民调不准。
那么是什么因素影响民调(或广义的社会调查)准不准?最重要的因素是,“抽样”。
如前所述,既然民调是要从少数样本来推论全体国民意向,那么抽样所展现的民意样态,应尽量与全国的民意样态相接近。要达到这个目标需要两个条件:第一是抽样的数量要足够,第二是样本要有代表性。统计学推论告诉我们,针对这种两个选项的民调,如果要在95%的信心水准下达到3%的抽样误差(意思就是实际的数字有95%的可能性落在调查结果正负3%的范围以内),大概就要抽样1000-1500个人。基本上,各类民调的样本数是足够的,所以最大的问题在于,样本是否足够随机、足够具有代表性。
只有当样本足够随机,才能有效地从样本推论全体国民的意向。但这种样本的随机性并不容易达到,因为我们抽样总是仰赖某些特定的抽样方法,例如电话号码、门牌号码等等。但是这种抽样方法就会排除掉没有电话或是没有固定居所的人,也就是会让样本无法忠实反应母体的样貌。
美国民调以往最常被诟病的问题是,仰赖答录机(robotcall)做市话(land line)民调,在只有市话抽样的情况下,样本会以年纪偏大的白人居多,因为这群人最有机会接到市话。同样的,做网路民调也会遇到类似的问题,网路民调可以抽样到的人,以年轻、大量使用电脑的群体居多。
其实,不管用何种方式抽样,抽样本身都会具有选择性、非完全随机。即便我们用居家面访的方式做调查,抽到的群体也只是有固定住所的人,而无法涵盖到旅居海外或是没有固定住所的人。为了处理这种问题,民意调查通常都会使用分层抽样,或是对抽样后的样本加权,来让样本具有足够代表性。分层抽样就是将母体按照某些重要的特征分成不同的群体,并且特别地针对这些不同的群体去做抽样;而样本加权则是在抽样后,针对样本内不同群体的回应做加权,让加权后的样本可以有代表性。
举例来说,调查者认为性别是影响投票行为的重要因子,而某全体国民中,男性占了45%、女性占了55%,但在抽样的样本中,男性占了60%、而女性占了40%。此时样本中的男性比例就会让调查结果失真。这时就必须要对调查结果加权。样本中,男性回答的权重是45/60 = 0.75,而女性是 55/40 = 1.375。如果此时男性对候选人A的支持度是30%而女性对候选人A的支持度是60%,在没有加权的状况下,调查结果对A候选人的支持度是30%0.6 + 60%0.4 = 42% 但如果我们经过加权则是 30%0.750.6 + 60%1.3750.4 = 46.5% ,两者间会有4.5%的差距。由于候选人A的女性代表性不足,所以在加权之后支持度就比较高。
2016年的民调的一个问题就是,没有针对受访者的教育程度做加权。
而2016年的民调的一个问题就是,没有针对受访者的教育程度做加权。以后见之明来说,在上届选举中,蓝领白人转向川普,让人们发现原来大学学历会显著地影响到投票意向。在这样的状况下,如果一个调查没有针对学历加权,就很可能会产生偏误。
然而,即便2016年的民调存在这样的偏误,但整体上来说,各机构的预测选举得票率还是可靠的。在选举之前,2016年的全美民调,平均结果是柯林顿赢川普3.9%,而最终2016年的普选票,也确实是柯林顿赢了川普2.1%。这样的民调结果并不“完美”,但已经是在一个可以接受的范围内了(若在95%的信心水准、误差范围为2%的标准下)。
那到底2016年的选举民调问题出在哪?从选举后的检讨看来,问题有二:一,州层级民意调查的缺乏;二,预测模型的偏误。
2016年的问题:选举人团制,与州层级调查的缺乏
后见之明来说,最大的问题就是人们没料到过去欧巴马(奥巴马)大胜的威斯康星州以及密西根州的选情竟然如此接近。
经过了2016年选举之后,很多人终于意识到,美国的总统选举结果,不是由普选票决定的,而是由选举人团(electoral college)决定的,而各州的普选票只是决定了各州要怎么投选举人团票而已。
选举人团制度是一种间接选举,根据《美国宪法》,美国各州公民先选出该州的选举人(也就是参众两院议员),再由选举人代表该州投票;由于美国是联邦制国家,并考虑到各州的特定地理及历史条件,制宪元老决定采取选举人团制度,保障各州权益。而选举人团投票如何计算输赢,具体的计算方式又由各州政府法律再行规定。
现行制度下,除了缅因州与内布拉斯州,会根据州内选区安排选举人票外,其余的州都采行“胜者全拿”的制度。这种“胜者全拿”的制度除了会产生输了普选票但赢了大选这种结果外,也对民意调查形成很大的挑战。
由于各州是赢者全拿,所以州层级的民调就变得更为重要。但施行州层级的民调有一个困难:成本。这背后的原因其实不难理解,首先是,如果要达到同样的误差水准,在州民调所需要的样本数,与全国层级所需的样本数是一样的。也就是说,同样抽样1500个人,如果抽样的对象是全纽约州州民的话,所需要达到的抽样误差,跟抽样全国是一样的,都是大概3%。所以如果民调变成一州一州地做,那耗费的成本是直接做一个全国民调的50倍。
因此,很少民调机构会愿意在总统大选时一州一州地做民调,人们看到的民调大多是全国层级的。而州层级的总统民调,通常只会在选情较为接近的摇摆州做调查,例如佛州、宾州、北卡、科罗拉多、亚利桑那等在过去几次总统选举中,曾经翻盘过的州。
但2016年选举,以后见之明来说,最大的问题就是人们没料到过去欧巴马(奥巴马)大胜的威斯康星州以及密西根州的选情竟然如此接近。而背后的原因大概有几个:第一是民调机构大多没有针对教育程度加权,第二是许多选前未表态的选民大多支持川普,而最后一种可能是,很多川普选民在受民调时会不愿意透露自己的投票意向。
第二以及第三个原因其实可能背后是同一回事,那就是在民调当中显示为尚未决定的选民主要是川普支持者。但这问题在2020年可能不是大问题,因为2016年时大约稳定的有10%的抽样选民不回答或是支持第三方势力,但在2020时这个数字大约只有5%。
从既有的资料来看,没有针对教育程度加权的确是2016年民调的硬伤,由于宾州、密西根州、威斯康星等锈带州,没受高等教育的白人人口比率都相对很高的地方,对于蓝领白人为何会导向川普又有两种解释:第一种是认为他们在全球化的冲击下收入越来越不稳定而把希望投注在“美国优先”的川普。第二种解释是蓝领白人对于民主党/自由派在种族、性别等身份政治议题的立场感到不安,他们认为民主党的进步立场“不够美国”。
更重要的问题或许不是民调本身,而是媒体、学者怎么解读民调。这就是预测是否准确的问题,而不是民调的问题。
然而,更重要的问题或许不是民调本身,而是媒体、学者怎么解读民调。这就是预测是否准确的问题,而不是民调的问题。
最大的问题或许是,美国媒体、学者跟智库等等菁英,完全没有办法接受美国总统可能会由一个常常口出性别、种族政治不正确话语的综艺节目角色来担当。由于对川普本能式的反感,自由派没有办法看到为何有人会愿意支持川普。自由派也会觉得,就算不论种族、性别政治等议题,蓝领白人选民通常也是川普贸易、社福等政策的受害者,以经济理性来预估,川普不可能选得上。
追根究底,就是自由派在选举政治判断上,因为自身的政治正确而对川普支持者有不切实际的想像,自由派可能认为,会说出如此歧视女性话语的人怎么可能可以赢得女性支持者的票?但选举的出口民调说明了,没有大学学历的白人女性大量的支持川普。把川普的政治不正确直接连结到“所有选民”可能对他的厌恶,以至于忽略民调与预测模型中的不确定性,这才是川普“惊奇”的原因。
“预测”是否准确:资料与模型的问题
但媒体的预测也不是只依靠自身的感觉,他们的预测通常是根据专家建立的预测模型。而比起民调,模型其实有著更多的不确定性。
如上文提到的学生会主席的例子所说明的,“民调”与“选举结果预测”,其实是两件相关但不一样的事。民调是从样本中对候选人的支持度,来推论母体对该候选人的支持程度;而预测是综合各种不同的信息,来推论到底谁会当选。最简单的语言差别是,民调的结果用“推论支持度百分之多少”来表达,而选举结果预测是“某候选人当选机率有多高”。
举例来说,如果某选举有两个候选人,在没有抽样偏误的情况下,民调结果是55%(候选人A)对上45%(候选人B),那么在99%的信心水准、误差是3%的情况下,候选人A选上的机率会是多少?
如果假设全体选民都会去投票,那么答案不是55%,而是高于99%。其中的道理是,“信心水准99%下、误差3%”,意味著,有99%的机率候选人的支持度是落在调查结果的正负3%内。换句话说,这份民调显示的是,全体选民对A的支持度有99%的机会是落在52~58%之间。
媒体的预测也不是只依靠自身的感觉,他们的预测通常是根据专家建立的预测模型。而比起民调,模型其实有著更多的不确定性。
而选举结果预测也不仅仅只用当期的民调结果作为主要材料,政治学者也会把经济表现(失业率、GDP成长等等)当成指标;或是纯粹用过往的投票结果做时间序列的模型。换句话说,预测选举结果模型并不一定以民调结果为主。
而以民调为主的预测模型,在面对美国大选这种各州赢者全拿的状况下,又会有更多挑战。首先是如前面所说的,州层级的民调品质不一致,用品质不好的民调来做预测,就只会得到有偏误的预测结果。第二是,有的模型会把美国经济情况、有无战争等因素也放入考量,但加入太多因素的模型可能会有过适(overfitting)的状况,也就是模型因为放入太多变项,而变得只能解释既有的资料,而对未来的观察结果没有预测/解释能力。
而即便比较的全是以民调为核心的预测模型,不同人的模型设定也会给出差距非常大的预测结果。以2016年的美国大选来说,前面提到的普林斯顿选举研究室,538以及《纽约时报》,都是以民调为主的选举预测模型。但他们对于柯林顿在各州的获胜机率有非常不一样的看法,连带的对于谁有机会当总统,也有著非常不同的看法。
对于不同的预测模型,我们不能说谁才是更为正确的,我们该讨论的是哪个模型比较好用。在
在2016年时,普林斯顿选举研究室的王声宏写了篇长文批评538的方法过度拘泥于细节,且放入太多的参数,以至于不确定性非常高,而网路媒体《哈芬顿邮报》甚至直接攻击538偏向川普,以致引来538主编希尔佛(Nate Silver)的高调回应。总体来说,希尔佛的模型更注重所选取民调的品质,以及会考量前几次选举中各州的倾向,而王声宏的模型则是认为平均过后的民调会自然地把偏误剔除,所以他并不主动选择要纳入哪个民调,而仅仅是把所有民调进行平均,再跑模拟。但2016年的选举结果显示,希尔佛用过往选举结果等因素来调整州民调的做法,能给出更好的结果。
由于预测模型只是一种对于选举过程、结果的描绘方式,因此对于不同的预测模型,我们不能说谁才是更为正确的,我们该讨论的是哪个模型比较好用。在2016年选举之前,王声宏的模型更好地解释、预测了参议院选举与总统选举;但由于2016年选举期间的民意调查有前述的加权与抽样问题,所以希尔佛对民调结果的调整就更好地预测了2016年的选举结果。
该继续相信民调跟预测模型吗?
看到这里,读者可能会认为作者还是没有回答最重要的问题:到底民调可信吗?
在上述冗长的解释后,答案应该颇为明确:在2016年时的全美民调,其实并不是那么不可信。而更重要的是,从2018年期中选举结果来看,民调其实很好地掌握了选民的投票意向。
真正让2016年总统选举成为“惊奇”的,是媒体对民调的解读,以及预测模型对于州层级民调的过度信任。这些问题在2016年的教训过后已经有改善——自由派媒体由于2016年的创伤,而对民调是否可靠更为谨慎,民调机构则针对教育程度进行了加权的改进,而州层级的民调比起2016年来说也更多了。
其实更为现实的问题是,除了民调之外,我们当下也没有更好的工具可以去测量选民的投票意向,继而预测选举结果了。即便民调的准确性令人“不满意”,它还是政治科学家手边拥有的最好的工具。四年前因为模型预测失准而上CNN吃虫给观众看的预测研究员王声宏也说,即便我们对民调以及预测有严重创伤,我们还是可以改进民调方法,来战胜恐惧。
(黎班,在法学院与政治系打混的不成熟研究者,专注于中国政治与美国政治)