特朗普被严重低估——美国总统大选,民调预测为何再次失常?
「特朗普支持者害羞?说谎?因为疫情不能出门?还是什么?」
王宏恩
本次美国总统大选,截至截稿前还在胶著,但从许多州令人意外的结果、以及目前为止两大党候选人的得票率来看,都跟非常多选前的民意调查有重大差距。光是以知名民调分析网站 FiveThirtyEight 收集的全美民调平均来看,拜登的选前民调平均为51.8%、川普(特朗普)为43.4%,但选举结果目前大约是拜登50.5%、川普为47.8%,两人的实际差距相也较民调更为接近。
民调失准了多少
我在州层级维度,比较了 FiveThirtyEight 在每个州收集的民调结果,与大选开票至美国时间星期五早上的各州结果(包含华盛顿特区、但不包含内华达州以及缅因州选举人团分配给众议院选区的地方),有一个初步的发现:50个州加上华盛顿,拜登在其中48个选区被民调高估,而特朗普在其中45个选区被低估。因为选票分布比较不均(且阿拉斯加还有一些票没开),所以若比较中位数的话,会发现,拜登被民调高估的中位数是2.65%,而川普被民调低估的中位数是2.02%,这一来一往的差距是4.7%。
这个结果也反映在大选上,非常多选前预估拜登会胜利的地方,最后结果都是紧咬、甚至被川普逆转。例如最具代表性的佛罗里达州,选前民调平均预估拜登会以50.8%击败川普的48.4%,但结果是川普的51.2%击退拜登的47.8%,来回差距5%。
从民意调查的角度来看,每次抽样一千人,假如样本具有代表性的话,民调应有百分之三的误差区间。但是假如民调真的没有偏差,那应该是有时候高估、有时候低估、整体的误差平均数则应该为零。但从数据分布来看,民调针对川普以及拜登的偏差程度,都显著地不等于零。假如使用统计检定的“单尾 t 检定”来测量,两者的分布都是显著拒绝为零的(p<0.0001)。
笔者在另外一篇公开文章中,对四年前民调机构预测川普以及希拉蕊(希拉里)的结果的落差进行比对,然后把四年前的差距与今年的差距相较。结果发现,民调公司几乎是在同一个地方跌倒——四年前低估川普得票率的地方,四年之后同样低估了川普的得票率。甚至在四年之前,民调低估川普的中位数为2.79、而高估希拉蕊的中位数为1.32,有41个选区低估川普、有38个选区高估希拉蕊。若从这个角度看,四年后的这一波总统民调,跟四年前相比可说并没有进步。
民调在哪些地方失准?
那么,民调是在那些地方失准呢?在下面第二张图里,我把民调对两位候选人的预测、以及最后的结果一起画了出来进行比较(省略了华盛顿特区,因为这里的选票分布太过极端,且删除它完全没有影响剩下的分布以及回归线)。
假如民调预测是准确的,那应该所有的点都落在对角线的斜线上,即民调结果等于选举结果。但从分布来看,可以看到川普的得票(红色点与红色线)在右上角更偏离对角虚线,而拜登的得票(蓝色点与蓝色线)在左下角更偏离虚线。
右上角的偏差显示,民调在川普支持者比较多的地方,更倾向低估川普的得票率。而左下角的偏差显示,民调在拜登得票率比较低的地方,更倾向高估拜登的得票率。举例来说,在川普大胜的怀俄明州( Wyoming),民调平均预测是川普获得66%、拜登获得31.0%,两者差距35%;但实际选举结果,是川普获得70%、拜登仅获得26%,两者差距44%。
而用回归模型检定会发现,民调公司的确在川普强、拜登弱的地方更倾向低估川普、高估拜登,可相同的状况却没有发生在拜登强、川普弱的地方。以最极端的华盛顿特区为例,民调预估拜登与川普的得票率为91%与5%,而实际结果为93%与5%,就几乎没有差异。
怎么解释?
第一种说法是,川普支持者比较害羞、不愿意表态,因此拒绝在回答电话问卷时说自己支持川普(shy voter effect)。图二也的确显示出,在川普支持者越多的选区,平均而言民调越会低估川普。但这种说法有一个心理学上的问题,选民若感到“害羞”,通常是因为受到社会压力。但假如真的有社会压力,理论上应该是拜登支持者越多的地方、川普支持者越不愿意表态。但实际结果是反过来的,因此似乎不太合理。
第二种说法是认为偏差由选举人团制度导致。因为选举人团是赢者全拿的制度,所以在川普支持度超高的地方,拜登的支持者最后就会放弃投票,因为投了也没用,导致川普的得票率会在最后又上升。这种说法解释了一半,却不能解释另外一半:在拜登支持度超高的地方,川普支持者的得票率并没有被高估。因此,除非选举人团制度的影响只对拜登支持者有效,不然这个结果解释得并不全面。当然,也可以假设拜登支持者在会输的选区就会放弃,但川普支持者无论如何都会去投。
第三种说法与第二种接近,认为在川普支持者多的选区,正好在投票日前后肺炎的盛行率也比较高,因此会让拜登支持者却步而不去现场投票。但这种解释的问题是,因为有邮寄投票,所以疫情的影响可能不大。反而是,这次选举的投票率超高,两大党得票都大胜四年前,拜登和川普的个人得票都超过了7000万,是史上第一、第二多票数的总统候选人,双方支持者都比四年前多。
因此,如果要归因于,有部分在民调中受访的选民没出来投票,或者说有拜登支持者“转投”,都可能还需要更多证据。比较贴近现实的假设是,有些人无论如何皆更倾向出来投票。
第四种说法则归因于川普支持者的背景。例如,川普支持者中有许多是高学历白人,他们不好意思在民调中说支持川普,也即存在选民说谎现象。一些媒体的出口民调似乎支持了这个假设。但同理,出口民调不能解决的问题是,这些人也可能对出口民调说谎。
对此,一个非常间接的检验方法是,观察民调与实际结果的差距,然后观察这个差距是否在白人社经地位高的地方比较严重。因此,我把前面的民调资料、选举结果资料跟美国50个州加华盛顿特区的白人比例、教育程度比例进行整合,然后进行回归模型分析。回归模型显示,虽然样本数只有50个(州),但当仅放入白人比例与高教育程度比例的交互作用项,其交互作用项对川普的估计差异是有显著影响的(p = 0.03),可是影响方向跟假设是相反的。
用白话文来解释这段话,意思是,假如把美国的州依照白人比例以及学位比例分成四类(高低依照白人比例71%、大学学历31%的各州中位数区分),那么按照以上假设,白人多且大学学历者多的州,平均而言川普被低估的量应该是最低的。但是笔者的检测发现,川普被低估最多的地方,是白人多、但大学学历者较少的州。
不过这个检测的局限是,笔者在撰文之际并没有找到更细部的资料来源,因此只能进行间接估计,继而没有找到支持以上假设的证据。更直接的证据也许得等个人层次的民调资料释放出来,并且跨时间进行多次访问后,才有可能找到。
反过来说,可能性较大的一个原因是,这些州民的工作及生活型态比较难被电话以及网路民调接触到,因此在过去民调中都被低估了。当然,民调公司也被多次抨击过,民调采访了太多大学学历以上的选民,但民调公司大多使用改变不同受访者答案权重的方式来降低偏差。
需持续找出“选民不表态”的原因
综合以上分析,假如民调公司都确实能做到,在具代表性的美国人口母体抽样、并且有针对社经背景做正确的加权的话,那对民调不准确的解释,大概可能是有这样一群真正的川普支持者:不管胜败都会勇与投票,但是接到民调电话时刻意不说自己支持川普,而且这刻意不说并不是因为社会压力,而是其他因素。
在这样的情况下,民调能做的大概就是透过其他方式去套出支持者的真心话。政治科学学界的确有一些针对增加受访者诚实发言的问卷设计,但许多设计方式太过复杂,可能不适合电话访问,而只能当面访问或者透过网路平台访问,惟这两种方式又会产生其他可能的偏差。
总结来说,这样的固定偏差为何会发生,需要继续观察:是单纯发生于川普支持者的现象,还是共和党支持者普遍的现象?这个问题之所以重要,是因为川普在未来继续参选总统的可能性不高,因此找到“选民不表态”的最终原因,将会决定下一次美国总统大选时,民调是否会再次跟结果产生偏差。
(王宏恩,内华达大学拉斯维加斯分校政治系助理教授)