【國安法第一案手記】用已有數據 做最誠摯嘗試 — 李立峯法庭上的統計課
「只有變量(variable)先可以計算相關系數。在警方的報告裏,『光時口號出現』是一個常量(constant),是做不到相關性分析的。」李立峯向法官解釋道。
對於社會科學的學生而言,今日國安法法庭變得有點似曾相識:大學教授在證人席講解相關系數(correlation coefficient),學生倒成了三位坐在高一級席位上的法官,以及一直翻看文件的主控官,相同的是,兩邊的學生都是從零開始;不同的是,法庭的「學生」正在盤問教授。
中大新傳學院院長李立峯教授今日(7 月 15 日)完成作供。回首約兩日半的作供過程,李立峯花了很大篇幅在解釋基礎統計學內容,及社會科學視角裏的社會複雜性。
「光時」與「港獨」的相關性
昨天,李立峯需要向三位國安法法官及控方主問周天行,解釋抽樣調查的基本原理,法官杜麗冰問了一些入門問題,例如「抽樣調查了 400 人的意見,如何能代表所有參與示威的人」。而今日,李立峯幾乎花了一個多小時,向法官們解釋「相關系數(correlation coeffient)」,並且回答周天行與此相關的盤問。
在辯方大律師劉偉聰引導下,李立峯再次展開論述,除了昨天反駁了劉智鵬「『光時』只能有一種意思,並且所有人都如此理解」,他和李詠怡的報告,還主要從兩點上批評劉智鵬的報告:
第一,他們認為,「光時」口號在反修例運動裏出現,並非如劉所說,是在 2019 年 7 月 21 日在中聯辦門外示威時出現,而是早在同年 7 月 6 日的「光復屯門公園」及 7 月 13 日「光復上水」行動裏,口號的關鍵詞已在發展,進入人們頭腦。
而之所以在 7 月 21 日之後「光時」完整的口號變得普及,是因為元朗襲擊事件,人們發現「光時」的開放性及曖昧性,讓他們得以表達傷感、生氣、憤慨等情緒。早兩日提及的電話調查結果,支持了這個觀點:80% 的受訪者表示,元朗襲擊事件,最導致他們對警方的憤怒。
第二,他們不認同劉智鵬依據的警方報告,該報告結論是「光時」口號與港獨、暴力及分離元素緊密相關,研究方法是計算 2177 條影片裏「光時」口號被叫喊時,港獨等元素的口號或者行為「同時出現」的概率,這個概率從 2019 年的 11% 上升至 2020 年的 70%。
然而,李立峯昨日解釋過,解讀「同時出現」需考慮語境,遊行裏出現多種口號是常態,並非必然相關;其次,李立峯和團隊所做的關於「連登」的數據分析顯示,「光時」與「港獨」字眼的相關性(correlation)很低,這個數據分析,使用了統計學中計算「相關係數」的分析方法。
李立峯解釋「相關系數」
今天早上,李立峯向三位法官解釋,從 2019 年 11 月到 2020 年 2 月期間,他們以日子為分析單位,統計每日出現「光復香港」、「時代革命」、「香港獨立(或者港獨)」的貼文,在「時事台」所有貼文中出現的概率(%),然後將「光復香港」、「時代革命」的貼文佔比,分別與「香港獨立」的貼文佔比做相關性分析,得出「光復香港」與「香港獨立」的相關系數為 +.291,「時代革命」和「香港獨立」的相關系數為 +.353。在統計學上,完全正相關的系數為「1」,因此這兩個結果,代表兩個詞組之間的相關性是中等(moderate)。
不僅如此,在 2020 年 3 月到 7 月,若「光時」與「港獨」相關性有所升高,相關係數就應該升高,但數據分析顯示,它們維持變化不大的水平,其中「時代革命」和「港獨」的相關系數還跌了。
法官杜麗冰發問:會否有可能因為,人們在 3 月減少了談論「光時」?
李立峯回答:「相關性不是基於次數,它顯示的是兩個變量的關係。」
兩個變量的關係,說的是什麼呢?以簡單例子說明:學歷和收入的相關性是怎樣呢?要研究這問題,就要計算學歷和收入作為兩個變量之間的相關系數。假設得出的相關係數為正數,例如+.61,說明它們是正相關,即學歷越高,收入也越高,並且相關性很強。負數則反之。
香蕉和蘋果的比較
法官陳嘉信兩道粗短的眉毛,在無框的厚鏡片上方飛快地上下跳動著,他說話的時候,總是語帶三分急切。三個法官之中,法官彭寶琴總是反應最快的人。她常戴著一副粗框、扁長的眼鏡,眯起雙眼,從眼睛上方審視她要詢問的對象。在李立峯解釋了相關性是關於兩個變量的關係後,她馬上發問:「但假如光時和港獨意思相若,那麼計算相關系數就沒意義了?(因為人們可能在一個貼文說了『光時』,意思就等於『港獨』,就不需再提及『港獨』)」
其實,這個問題早在 10 分鐘之前,李立峯就在邊闡述時,邊主動提出了這個對自己的質疑,他當時說:「有人或會批評:如果兩個詞語意思相同,例如『聰明』和『醒目』,你就不會在同一個貼文同時說出這兩個詞語了。」
然後他馬上自己回應:「因此,我用的是日子作為單位。」當彭寶琴終於提出這個問題,李立峯耐心進一步回答:
「這就是為什麼我並非用貼文(post)作為分析單位,而是用日子(each day)。假如某一日有很多貼文提及香港獨立,假如光時和港獨真的意思相若,那麼那天也應該有很多貼文提及光時。因為背後的假設是:當好多人在那天提及港獨,說明這是熱門話題,無理由他們那天都約好只說『港獨』,不說『光時』。」
此時,法官陳嘉信也終於找到了他想問的疑惑:「如果相關系數 0.3 是中等,考慮警方報告,他們說光時和港獨相關性有 70%,這是不是說明極度相關?」
李立峯:「警方報告無法用相關系數的框架來看待。要計算相關系數,你需要兩樣嘢都是變量,例如教育和收入,才可以計算相關性。警方報告裏,『光時出現』是一個常量(constant),你無法用常量計算相關系數。」
陳嘉信有點恍然大悟:「就像蘋果和香蕉。」
李立峯又補充:「如果說的是『並存(co-occurance)』,70% 確實很高,但在社會科學的統計分析裏,我們好少只是計算並存,數以萬計的研究都至少使用相關系數分析。」
「但我昨天說過,我對警方報告的批評,是即使數字很高,『並存』也不等相關⋯⋯」
陳嘉信忙打斷:「我知道的。」
「相關」與「並存」之異
由於李立峯有分析「光復香港」、「時代革命」的相關系數為 0.99,以此說明他們高度相關,法官彭寶琴在考慮這部分數據時,思索後,問:「我仍有啲難跟上你。為什麼你計算光復香港和時代革命在貼文的出現,就叫做相關性(correlation),而不是警方計算的並存(co-occurance)?」
「因為他們兩個的趨勢是同時起伏(go up and down together),兩條線幾乎重疊。」李立峯答。
法官彭寶琴總算有點明白了:「所以,做相關性分析,你需要的是將數據放在兩列,如果這兩列會一齊升跌⋯⋯」
看看資料,原來彭寶琴曾在香港大學取得社會科學學士學位。
在控方周天行再次盤問時,周繼續問了一些與 correlation 有關的問題:「李教授,你的分析是,如果香港獨立在一個貼文裏出現了 100 次⋯⋯」
李立峯馬上說:「在一個貼文你不可能寫 100 次。聽落不太合理。我計算的是,光復香港在一天內出現在 100 個貼文,佔所有貼文的比數(%)。」
周天行:「那如果一個貼文出現一次光復香港,但出現 4 次香港獨立⋯⋯(要怎麼計算?)」
問題還未問完,李立峯就說:「如果那個貼文出現了光復香港,就編碼為 1,然後與那天出現的其他數以千萬計的貼文放在一起作為整體,計算多少比率的貼文有提及光復香港。」
周天行質疑研究無包括已刪除貼文
由於周天行早前問,既然無法知道有多少人曾刪除自己的貼文,李立峯的研究因此存在問題,李立峯繼續說:「我們統計了 2500 萬條貼文,你說有人刪除,除非達到很大比率,否則根本影響不了什麼。」
周天行:「你只是不知道有幾多貼文被刪除了。」說這句時,他的聲音變小了一點,像嘟囔一般。
「我不需要知道。」李立峯輕鬆地說。
周天行繼而拿出昨日由控方選取了部分連登貼文的文件,叫李立峯看其中一則貼文,大意是有人開了一個貼文,寫了「光時」口號,下面回覆的人,紛紛說「香港獨立」。似乎,周天行希望舉例,有連登網民會把「光時」和「港獨」緊密關聯。
周天行問:除非我們親自看貼文,否則無法恰當理解貼文的內容。
李立峯回應:「我們說的是 2500 萬條貼文,你不可能全部看完。這裏你指出一些例子,想說明光時意即獨立,這不過是眾多貼文中的一個例子,而且與我的焦點小組訪談並無矛盾。」早前李立峯曾引述過他們的觀點,口號邀請人們賦予各自不同的意義,其中,他做的焦點小組訪談,不同受訪者給出對「光時」的理解,正說明這一點。
「你怎樣可以避免“cherry pick”(只選擇對自己有利的事實)?」話出口,李立峯馬上補充,「我不是批評你,而是我都要防止自己 cherry picking. 」
「即使我讀完所有貼文,指出是否有港獨意思,但最終我仍然需要做相關系數分析。」李立峯說,「⋯⋯你在此舉的例,如果它真的在連登上頻密出現,你做完統計分析後會看到它有很強的相關性。否則,這不過是連登上眾多零散貼文的一個,並非主流。」
周天行不放棄,又指出其中一個貼文,問:「你可以計算它的相關系數嗎?」
「不,這是不可能的。要有至少成千上萬的數據。」李立峯說。
周天行問:「如果每日數字說提及光時的貼文有 100 則,另外提及港獨的貼文有 100 則,那麼它們的相關系數就是 1。」這個理解,與明白「相關系數」似乎還相差八千里。
李立峯嘗試解釋得更淺白,所謂相關性,看的是兩個變量的動態關係:「如果今天,提及某口號的貼文,佔總貼文數目的比率為 10%,而另一口號同樣為 10%;而明天,前者跌為 5%,後者也跌為 5%;後天,它們的百分比又回升至同一數字⋯⋯你就有一個完美的相關性了。」
周天行想繼續發問,被彭寶琴打斷。
周天行嘗試解釋為何要問問題:「我們關注李教授研究結果的可靠性。我的問題是,假設光時口號出現一次,再見到香港獨立出現多次,那麼它們的相關系數是什麼?」
公眾席傳來一陣笑聲。彭寶琴說:「我認為李教授已經解釋過了。首先你計算第一個變量出現的百分比,然後在特定情況下,計算第二個變量出現的百分比,然後再測試兩個變量在一段時間內的升跌起伏是否一致,如果不論升跌,它們都同時上落,得出相關系數為 1。」
李立峯:「很接近了。」
法庭內的二元答案
在國安法法庭,似乎不僅只有統計學基礎知識是缺失的。法庭上經常發生的問答,似乎在把理解事物、社會的複雜性,放入法律語言和框架內,希望問出二元的答案,是與否,對與錯。
就在昨天,周天行就問過李立峯,是否同意劉智鵬對光時的解讀,是「正確」的。李立峯曾解釋,他的觀點是,對於人們頭腦而言,思考某詞語,根本不存在一個唯一正確的意思。因此,劉智鵬的解讀不過是眾多人類其中一種解讀,並不比其他人地位高或者低。
不過,主控、法官繼續想得到一個唯一答案,周天行追問,是否同意劉智鵬的解讀其實也正確,而法官杜麗冰就問:「⋯⋯你是說,你不可以說劉教授解讀得不對,因為也會有人如此解讀,只不過你不會這樣解讀?」
這樣的發問同樣發生在李詠怡身上。周天行同樣曾經嘗試問她,是否同意劉智鵬的解讀。李詠怡答:「我不會這樣解讀,但如果有人這樣認為,這是他的個人理解。」
周天行、杜麗冰隨後接連發問:「但你同意這是其中一種解讀?」
李詠怡最終回答:「如果答案只能是或者不是,咁我說是咯。」
在解答一些問題時,李立峯常常希望解釋更多背景知識。例如劉偉聰主問他,為何說控方對他數據分析的質疑,「都不影響分析的邏輯」。李立峯先解釋,用警方報告做例子,其實對於一個數據分析結果,可以有多方面質疑,例如警員有沒有計算影片裏叫喊口號的人數?人們叫得有多大聲?叫喊口號的時機是什麼?
但他說,他的報告都沒有如此質疑警方,因為,「作為一名社會科學家,我知道做數據收集,你只是盡可能收集與研究目的相關的數據。」解說未完,就被杜麗冰打斷了:「問題問的,是你為何覺得自己的分析邏輯不會被控方提出的質疑影響。」
「這個問題並非如它表面看來這麼簡單,所以我想提供多點信息。」李立峯說。
一個誠摯的嘗試
在昨天和今天,控方或者法官都質疑過,為何李立峯報告中的某些研究沒有覆蓋更多時間段,或者為何不在收到辯方邀請後,做更多調查。李立峯解釋,三個在 2019 年做的分析,包括焦點小組訪談、示威現場調查和電話調查,是「多重檢核(triangulation)」,證明人們在 2019 年理解涉案口號為不同的意思。
「我明白,人們會問,這些分析只做了 2019 年,怎知道光時在 2020 年有否改變意思?尤其當我們的基本觀點,就是意思是會隨時間而改變。」
他解釋,關於「連登」的文本和數據分析,正正覆蓋至 2020 年 7 月, 這彌補前三個方法沒有覆蓋的時間段。而「連登」的數據顯示,「光時」和「港獨」並無甚相關性。
法官陳嘉信後來總結:「所以你是說,關於反修例運動的證據,基本止於 2020 年早期,為了覆蓋 2020 年早期到 7 月之間的空白,你做了最盡力的嘗試,依靠你從『連登』收集的數據。」
李立峯說:「作為一個社會科學家,有時候,我無辦法證明所有事。但,如果我可以證明到,2019 年,光時口號對人們而言,意味著如此多不同意思,那麼,如果有人在 6 個月後走來告訴我,光時只有一個意思,發生一個如此具體的轉變,我會說,給我理論,給我解釋,給我證據。但現在,我並沒看到任何這些,劉教授的報告顯然不是,因為他的解釋是,詞語的意思是千年不變的。」
進一步,他說:「我用已有的數據,做了一個最誠摯的嘗試(honest attempt)。」
「我們連登的數據是從 2019 年 6 月到 2020 年7 月,我們可以用這些數據,去測試是否有任何證據證明,隨著時間推移,光時口號變得更多是港獨得意思。」
作供完畢後,李立峯站起來,有點不知是該馬上離開,還是要怎樣,他雙手垂直放下,稍微用力繃緊了一下,點點頭,然後離開法庭。
至此,所有專家證人作供完畢。下星期二(7 月 20 日),控辯雙方將進行結案陳詞。
文 | 楊子琪