作者:比利·佩利戈

發布日期:2023年1月18日

原文: https://time.com/6247678/openai-chatgpt-kenya-workers/

警告:本文章內含有性侵犯的描述。

從去年11月發布後,ChatGPT就被譽為2022年最令人刮目相看的科技創新之一。這個功能強大的人工智能(AI)聊天機器人可以開展幾乎任何話題的文本:從以梅根·西·斯塔莉安(Megan Thee Stallion)的風格創作一首莎士比亞體十四行詩,到用連五歲小孩都能理解的語言解釋複雜的數學定理。ChatGPT在一個星期內已經有過百萬的用戶。

ChatGPT的創始公司「開放人工智能」(OpenAI)於2015年在舊金山成立,旨在構建超級智能機器。據報導,OpenAI正在與投資者談判,以290億美元的估值籌集資金。當中的投資者包括有意投入100億美元的微軟。如此龐大的投資會使OpenAI成為全球最高價值的人工智能公司之一。

但OpenAI的功勞不只歸於硅谷的科技天才。《時代週刊》調查發現,該公司以低於2美金的時薪外包肯尼亞工人來減少ChatGPT的不良成分。

這種工作對OpenAI來說非常重要。ChatGPT的前身GPT-3已經具有驚人的能力去串連不同的句子。但該產品的商業價值並不理想,因為GPT-3常常脫口而出暴力、性別歧視和種族主義言論。這是因為OpenAI使用了互聯網這個巨大人類語言庫上數千億的單詞訓練該人工智能。這個龐大的訓練數據集成為了GPT-3擁有超強語言能力的原因,但也成為了它最大的詛咒。互聯網一些角落佈滿的惡意和偏見無法從訓練數據集移除,就算有一個數百人的團隊也需時數十年才能將數據集裏所有資料人工過目。因此,OpenAI只能構建另外一個由人工智能驅動的安全掃描系統來將危害降到最低,從而生產一個適合日常使用的聊天機器人。

為了構建安全掃描系統,OpenAI向臉書等已經示範了如何使用人工智能移除平台上仇恨語言的社交媒體借鑑。前提非常簡單:若我們向人工智能灌輸已標籤為暴力、仇恨語言、性侵犯的例子,該工具就能學習認別廣泛媒體裏的不良內容。這個掃描系統將會加到ChatGPT程式裡面,來檢查它能否在訓練數據庫裏偵測到同樣的不良內容,並將該內容在到達用戶前過濾掉。系統還可以將不良內容從未來人工智能型號使用的訓練數據庫中清洗掉。

為了獲得不良內容標籤,OpenAI從2021年11月開始寄了數千段文字到肯尼亞的一所外包公司。大量的文本取自互聯網最黑暗的角落;部分材料將兒童性虐待、獸交、謀殺、自殺、虐待、自殘及亂倫等情境描述得極其詳細。

OpenAI在肯尼亞的外包拍檔叫沙馬(Sama),是一所總部位於舊金山的公司。Sama聘用肯尼亞、烏干達和印度的工人為谷歌、Meta和微軟標記數據。Sama將自己推銷為一所具有商業道德的人工智能公司,並聲稱曾幫助超過五萬人脫離貧窮。

上圖:Sama在肯尼亞的辦公室,攝於2022年2月10日。圖源:卡替嘉·法拉,《時代周刊》

Sama代表OpenAI僱用的數據標籤員的實得工資約為每小時1.32至2美元(按員工的資歷和表現而定)。為了這篇報導,《時代週刊》翻查了幾百頁Sama和OpenAI的內部文件,包括員工的工資單,並訪談了四位標籤員。出於對生計的擔憂,受訪者均不願意透露身份。

雖然標籤工作為人工智能成為安全的大眾消費品發揮了重要作用,其工人的故事卻揭開了人工智能產業鮮為人知的一面。OpenAI所屬的人工智能組織聯盟「AI合作企業」表示:「雖然這些數據擴充專業人士發揮著基礎性的作用,但越來越多研究顯示,這些工人的工作條件不夠穩定。這可能是在歡呼科技效率提高的同時試圖隱藏人工智能對人力勞動依賴的結果。」(OpenAI沒有公開其外包公司的名單。本報導也不清楚OpenAI在此項目中有沒有與Sama以外的數據標籤公司合作。)

在一份聲明中,一位OpenAI發言人確認了Sama在肯尼亞的員工協助構建了一個辨別不良內容的工具。這一工具最後納入了ChatGPT程式內。聲明還表示,這項工作有助於從ChatGPT等工具的訓練數據庫中刪除不良內容。發言人說:「我們的任務是保證通用的人工智能造福全人類,我們努力構建安全及有用,減低偏見和具傷害性內容的人工智能系統。為了盡量減少訓練數據庫中暴力和色情內容的數量,及創建可以檢測有害內容的工具,將有害文本和圖像分類和過濾是必經之路。」

儘管更廣泛的科技經濟因預期的低迷而放緩,但投資者競相向以OpenAI為首的生成式AI產業投入了數十億美元。最看漲的投資者相信,電腦生成的文本、圖片、視頻和音頻將改變無數行業的商業模式,並提高所有行業的效率——從創意藝術到法律和電腦編程。但數據標籤員的工作條件揭露了這畫面的黑暗部分:雖然人工智能表面上很閃亮,但這產業經常依賴位於全球南方的隱藏人力勞動,而這些工種往往具有破壞性和剝削性。儘管他們的勞動為一個價值數十億的產業做了貢獻,但這些工人往往被隱形化和邊緣化。

一位負責為OpenAI閱讀並標記文本的員工告訴《時代週刊》,他在閱讀一段描述一個男人在小孩面前與一隻狗性交的文本後反復出現幻覺。「那是虐待,」他說。「你會在工作中常常看到很多類似的文章。一周下來那些腦中畫面令人不安。」這項工作的創傷性導致Sama於2022年2月取消了與OpenAI有關的工作——比預期早八個月。

Sama的合約

《時代週刊》翻查的文件透露,OpenAI在2021年與Sama簽訂了三份總值20萬美元的合約,後者會為OpenAI標記含有性侵犯、仇恨語言、暴力的文本。三十多名工人分到三個團隊,每個團隊負責以上三個主題中一個。三位工友告訴《時代週刊》,僱主要求他們在九小時上班期間過目並標記150到250篇文字。每篇文字的長度從100至1000多字不等。四個受訪者均認為工作對他們造成了精神上的創傷。雖然有權參加心理治療,但由於公司要求他們提高工作效率,他們很多時候參加不了治療,故療程起不了作用。其中兩位受訪者說,公司只讓他們以小組形式參加心理治療,其中一位更說Sama領導層一再拒絕他們與輔導員一對一見面的要求。

一位OpenAI發言人在聲明裡表示,僱員只有參與小組治療抉擇的說法「不正確」——僱員有權通過一對一或小組形式與“經過專業培訓和許可的心理治療師”見面。發言人補充,這些心理治療師隨時可用。

合約表明,OpenAI給Sama的時薪為12.50美元,這是該項目工人時薪的六至九倍。根據三位工人的說法,代理人——也就是佔三個團隊大部分的最初級標籤員——每個月的基本工資是21000肯尼亞先令(折合170美元或1144人民幣)。因為工作色情露骨的性質,每個月有額外70美元的津貼,達成準確性和速度等關鍵績效指標也會獲得獎金。每天工作9小時的代理人可以在扣稅後每小時賺1.32美元,如果達成所有指標,他們的時薪可達1.44美元。如果質量分析員——檢查代理人工作的高級員工——達成所有指標,可以每小時賺2美元。(肯尼亞沒有標準最低工資,但在這些工人受僱之時,內羅畢接待員的最低時薪為1.52美元。)

一位Sama發言人在聲明裡表示,他們要求工人每小時標記70段文字,而非高達250段,扣稅後每小時可賺取1.46至3.74美元。發言人拒絕解釋哪個工種才能賺取這範圍的上限。他補充說:「該項目12.50美元的費率涵蓋所有開支,包括設施費用,以及承包商及其全職質量分析師和團隊負責人的工資和福利。」

一位OpenAI發言人在聲明裡表示,公司沒有發出任何產量目標,而員工的薪金和心理治療福利則由Sama負責。發言人更表示:「我們非常重視我們員工和外包商員工的精神健康。我們之前的理解是,Sama會提供保健方案和一對一的心理治療,而選擇退出任何工作的工人都不會受到懲罰。工人暴露於敏感、露骨內容的時間會受限制,敏感信息則由受過專業培訓的員工處理。」

在肯尼亞的日常標籤工作中,會出現一些邊緣情況,展現教育機器理解細微差別的難度如何之大。去年三月初,一位Sama員工在工作期間閱讀了一篇有關蝙蝠俠的搭檔羅賓在歹徒巢穴被強姦的故事。(通過網上搜尋,此故事來自一個色情文學網站,當中含有成人色情圖像。)故事一開始表明性行為是非自願性的。但後來——在一個描述得非常仔細的肛交情節後——羅賓開始響應。根據《時代周刊》翻查的文件,負責標記文本的Sama員工似乎對羅賓模棱兩可的允許感到困惑,並要求OpenAI研究人員澄清如何標記文本。員工問道:「文本是否應該標記為性暴力?」OpenAI的回覆——如果他們有回覆——沒有記錄於該文件裡;公司對此也拒絕回應。那位Sama員工也沒有接受《時代周刊》的採訪邀請。

OpenAI與Sama的關係如何破裂?

2022年2月,Sama和OpenAI一度深化關係,但後來步履蹣跚。那個月,Sama為OpenAI的另一個項目開展了試點工作:為OpenAI搜集並提供色情和暴力圖片——其中一些還違反美國法例。這個項目的標籤工作與ChatGPT無關。OpenAI發言人在相關的聲明裡沒有表明其公司向Sama索取圖片的原因,但表示將不良圖片標記是讓人工智能工具更安全的必要步驟(OpenAI也有創建圖像生成技術)。根據《時代週刊》翻查的一份帳單,Sama在2月提供了1400張圖像作為樣本。根據那份帳單,當中一些圖像被歸類為「C4」——OpenAI內部定為兒童性虐待的標籤。樣本還包括「C3」圖像(獸交、強姦、性奴役)和「V3」——死亡、暴力、重傷——的圖像。

Sama在數星期內退出了所有與OpenAI合作的項目,比合同約定早八個月。Sama在聲明裡表示,為OpenAI搜集圖像的項目合約並不包括非法內容,OpenAI是在項目開展後才「附加」了搜集「非法內容」的「指令」。Sama發言人說,「東非的團隊立刻向我們的高層提出疑問。Sama立刻停止了相關的試點工作,並通知了OpenAI我們會終止其他的合作項目。與客戶合作的工作人員沒有通過適當的渠道審批請求。對情況審查後,我們已開除了相關的個人,並製定了新的銷售審查政策和規則。」

OpenAI通過聲明確認,公司從Sama手上收到1400張圖像,包括但不限於「C4、C3、C2、V3、V2和V1圖像」。在另外一份聲明中,該公司補充道:「我們聘請Sama作為正在進行的工作的一部分,以創建更安全的人工智能系統並防止有害的產出。我們從沒有打算搜集C4類別的圖像。我們的初步訓練過濾器並不需要這樣的輸入,我們因此吩咐員工儘量避免這些內容。Sama告訴我們他們嘗試搜集C4類別的圖像後,我們馬上向他們澄清這是一個誤會,我們並不需要那些內容。發現有誤會後,我們並沒有開啟或審視相關的內容,所以我們不能確認樣本裡有沒有C4類別的圖像。」

Sama與OpenAI終止合作的決定意味著Sama員工不需要再接觸令人不安的文本和圖像,但這也對他們的生計有影響。Sama員工說公司的人力資源團隊在2022年2月下旬召他們開會並將消息轉告他們。其中一位員工表示:「Sama告訴我們他們不想再讓員工接觸那些不良內容。但我們回應說,這是我們養家糊口的方式。」標籤團隊的三十多名員工絕大部分重編到更低薪的工作組,再沒有70美元的補貼;其他人被解雇了。Sama在同年三月向OpenAI遞交了最後一批有標籤的數據,比合約原定早八個月。

因為合約提早被終止,OpenAI和Sama均說合同商定的20萬美金沒有全額支付。OpenAI說,在兩公司合作期間,合約總值15萬美金左右。

Sama員工說管理層給了他們另外一個終止合約的理由。2022年2月14日,《時代週刊》出版了另外一篇文章——《臉書在非洲的血汗工廠》。這篇文章調查了Sama為臉書聘用內容審查員,涉及審閱處決、強姦和虐待兒童的圖像和視頻,時薪僅為1.5美元。四位Sama員工說,管理層告訴他們該調查是公司決定與OpenAI終止合約的原因。(臉書表示,它要求外包合作夥伴“提供業內領先的薪酬、福利和支援。”)

《時代週刊》更翻閱了在臉書調查出版後Sama的內部通訊,發現Sama在舊金山的主管急忙處理了事情的公關後果,包括滿足一家公司(漢沙航空子公司)的要求刪除Sama網站上雙方外包合作的證據。通過一份聲明,漢沙航空向《時代週刊》確認了此事,並補充其子公司zeroG也和Sama終止了合作關係。2月17日,即《時代週刊》調查出版後的第三天,Sama總裁溫蒂·岡薩雷斯(Wendy Gonzalez)通過Slack平台向一班主管發出以下信息:「我們將結束OpenAI的工作。」

今年1月10日,Sama更進一步宣布,它將結束一切與敏感內容有關的工作。它決定不會與臉書續簽價值390萬美元的內容審查合同,這導致內羅畢的200名員工喪失工作。Sama的聲明表示:「經過數次與全球團隊的討論,Sama戰略性地作了決定,終止所有與自然言語處理和內容審查有關的工作,並將專注於電腦視覺數據注釋解決方案。過去一年,我們都在與客戶合作如何將業務過渡,並會在2023年3月完全退出所有內容審查項目。」

但人工智能系統仍然需要人力勞動去標記數據。安德烈·史泰特(Andrew Strait)——一位人工智能倫理學家——在Twitter上表示:「ChatGPT和其他生成模型很厲害,但它們不是魔術,要依賴龐大的人力勞動和搜刮數據的供應鏈——其中很多未經授權或同意就已經被使用。這都是OpenAI沒有正面回應或解決的嚴重基礎性問題。」

With reporting by Julia Zorthian/New York

茱莉亞·佐蒂安在紐約報導