作者:陳華夫
人工智慧(AI)近年進步神速,2017年谷歌(Google)的DeepMind公司推出超級電腦圍棋 AlphaGo Zero,棋力遠遠超過人類。2022年OpenAI公司推出ChatGPT聊天機器人(GPT-3版本),它的轉換器Transformer神經網路包含175G參數,800GB標記(token),其訓練數據庫基本上是數十萬篇英文學術論文、新聞報導、書籍和社群媒體貼文。它雖然沒有人類意識目的性,但它擁有接近人類水平的自然語言處理(NLP)能力及對話邏輯
但更令人震撼的是,OpenAI公司2023/3/15發佈了其最新的大型語言模型( LLM )之GPT-4,在美國律師資格考試、大學先修考試和SAT學校考試等多項學術和專業基準考試中遠超過GPT-3,達到傑出人類的水平。(見GPT製造商OpenAI推出新模型GPT-4
GPT-4具有推理、創造力和演繹等核心心智能力,並在文學、醫學和編碼等一系列主題方面獲得了專業知識。並且可以執行各種任務,例如玩遊戲、使用工具和自我解釋顯示出了人工通用智能AGI)的火花,也引起人們的恐慌;美國富豪馬斯克及其他人工智慧專家、業界高管在一封公開信中表示,考量對社會及人類的潛在風險,呼籲未來6個月先暫停對優於GPT-4人工智慧系統進行訓練。(見馬斯克等千人連署疾呼 暫停訓練優於GPT-4的AI系統
但媒體上有關GPT-4人工通用智能AGI)的報導大都誇大不實。微軟OpenAI的母公司)的工程師團隊們在2023/3/22發表了研究論文:〈通用人工智能的火花:GPT-4的早期實驗〉(2023),1-155頁,以下簡稱〈通花〉),試圖釐清GPT-4所具有的人工通用智能AGI)之局限性,並且討論了更深入和更全面的人工通用智能AGI)所面臨的挑戰,包括需要超越小樣本提示零樣本提示的詞語預測之新範式:
(圖:小樣本提示零樣本提示例子,圖片來源:陳華夫重繪自〈大型語言模型的湧現能力〉(2022),1-30頁)
本文將基於微軟的文章〈通花〉之上,探討人類智慧的本質,及GPT-4人工通用智能AGI)落後人類有多遠?
1)GPT-4理解能力遠遠落後人類:
(1)GPT-4 的主要優勢在於其對自然語言無與倫比的掌握。它不僅可以生成流暢連貫的文本,還可以通過各種方式理解和操作文本,例如總結、翻譯或回答極其廣泛的問題。 此外,翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨醫學、法律、會計、計算機編程、音樂等領域的翻譯,清楚地表明GPT-4可以理解複雜的想法。(見〈通花〉,第8頁)
(2)GPT-4並非真正的如人類對概念理解,很多時候是現場即興創作。唯一真正的理解測試是一個人是否可以產生新知識,例如證明新的數學定理,而GPT-4目前無法做到。(見〈通花〉,第9頁)
(3)GPT-4GPT-3具在常識性的思考有巨大飛躍,常識是對日常事務的合理、實用的判斷,或者是一種基本的感知理解判斷的能力,其方式幾乎為所有人所共有。針對下面這個測試常識性的思考之經典謎題:
「一個獵人向南走一英里,向東走一英里,向北走一英里,最後又回到了起點。 他看到一隻熊並射殺了它。 熊是什麼顏色的?」
答案是白色的,因為唯一可能發生這種情況的地方是北極,那裡有北極熊。GPT-4正確的回答了謎題,而其前身 ChatGPTGPT-3)卻說:「我不知道。」(見〈通花〉,第101頁)
(4)GPT-4並不理解音樂的和諧的技能,它生成的旋律中,連續音符幾乎總是彼此相鄰(即C 之後的音符幾乎通常是 B 或 D),並且GPT-4生成的音樂無法提取出任何清晰的和弦琶音(即把和弦成音,做排列的彈奏)。(見〈通花〉,第19頁)
(5)所謂心智理論(ToM)是將信念、情緒、慾望、意圖和知識等心理狀態歸因於自己和他人,並理解它們如何影響行為和人們交流的能力。
GPT-4是否具有心智理論呢?
經典評估兒童心智理論的是「Sally-Anne測試」:即讓沙莉及安妮共處一室,沙莉首先拿起皮球,放在籃子內,然後離開房間。安妮看到沙莉離開後,偷偷從籃子拿出皮球,再放進一個盒子,並把它蓋起來。然後詢問被測試的小孩湯姆:「沙莉回來後去哪兒找球」?
湯姆若回答:「沙莉會去盒子找皮球!」但湯姆答錯了,因為沙莉並不知道安妮已經把皮球移走了。在2010年的一項實驗結果中,6到8歲的兒童答對率是65.5%,而9到14歲兒童答對率是91.9%。(見GPT-4心智能力如14歲童 通過評估測驗 微軟視AGI雛形
針對類似的心智理論測試,GPT-4ChatGPTGPT-3)都通過了,而早先的版本text-davinci-003 卻給出錯誤答案。(見〈通花〉,第54頁)
2)GPT-4的數學能力很侷限:
雖然 GPT-4 在與數學相關的任務中優於其他大型語言模型( LLM ),如 Minerva,但它仍然不及數學專家,無法進行數學研究。GPT-4 可以回答具有挑戰性的高中數學問題並討論高級數學主題,但它也可能會出錯或提供無意義的回答,(見〈通花〉,第30頁)
GPT-4基本的局限性是它不能回溯(backtrack),所以需要超前計劃(即帶有時間和資源詳細信息任何圖表或步驟列表,用於實現做某事的目標。它通常被理解為實現目標的一時間性的預期行動。)。這是因為它的輸出是正向產生的,它不能存儲中間結果或進行多步計算。而相對的人類使用便簽本(scratchpad)來解決問題。
GPT-4 的工作記憶也很小,這限制了它解決某些任務的能力。所以很難解決涉及個位數乘法和兩位數加法的基本算術問題,例如,GPT-4輸出如下:
2 * 8 + 7 * 6 = 58
7 * 4 + 8 * 8 = 88
但答案:”88”是錯的。(見〈通花〉,第77頁)
這些局限性可能來自GPT-4 架構下的下一個詞預測典範,而它可能缺少“慢思考”部分,無法監督思維過程,及無法使用足夠的工作記憶來解決問題。(見〈通花〉,第81頁)
3)GPT-4常犯幻覺錯誤,要小心並驗證:
GPT-4經常犯數學錯誤或陳述錯誤,這些錯誤很難發現,因為它們可能與正確的信息混在一起。這些錯誤被稱為幻覺,可以是封閉域或開放域。封閉域幻覺發生在特定的環境中,更容易檢測,而開放域幻覺更難發現,需要額外研究。在使用 GPT-4寫作時,確保信息真實性可能並不重要,但對於醫學和新聞等領域,仔細檢查所有內容至關重要,用戶必須謹慎並驗證其信息的準確性。同樣重要的是,讀者要小心並驗證GPT-4生成的信息內容。(見〈通花〉,第9.1節)
4)GPT-4被操縱生成虛假信息及發起網絡攻擊:
GPT-4也可能被惡意使用。模型的泛化和交互能力可用於擴大對抗性用途的範圍和強度,從生成虛假信息到對計算基礎設施發起網絡攻擊。這些模型可以通過情境化和個性化互動來顯著地操縱、說服或影響人們,以最大限度地影響他們幾代人。借助GPT-4自動化,可以啟用旨在構建虛假信息計劃的新用途,這些計劃可以生成和組合多個內容以在短期和長期範圍內進行說服。(見〈通花〉,第9.2節)
5)GPT-4對某些行為具有歧視偏見
大型語言模型( LLM )是使用來自互聯網的數據和精選的人工指令進行訓練的。然而,這些數據集是有偏見(指人們基於成員身份,而對一個人或成員的情感或態度[1]。因這個態度而衍生的行為是歧視,而人們如何描述一個群組內所有成員的特徵稱為刻板印象)。先前的研究表明,當大型語言模型( LLM )用於生成內容或做出決策時,它們會放大現有的偏見。雖然GPT-4與早期大型語言模型( LLM )不同,但我們也要迫切的了解 GPT-4是否存在偏見以及如何存在偏見,以及如何使用其功能來減少偏見。(見〈通花〉,第9.3節)
6)GPT-4引發了教育和失業的問題:
GPT-4 是一台可以做很多事情的機器,即使在醫學和法律等領域也是如此。這可能會引起人們擔心它會如何影響需要大量培訓的職業。有些人可能擔心人工智能系統會取代或降低人類工人的地位,引發了教育和失業的問題。(見〈通花〉,第9.4節)
7)GPT-4加劇人工智慧(AI)使用的不平等及個人隱私洩露風險:
GPT-4的使用需要收費,將加劇人工智慧(AI)使用的不平等。因為個人、組織和國家可能無法負擔使用GPT-4的費用,GPT-4實質上只對有特權的人開放,而擴大了社會使用人工智慧(AI)的鴻溝和不平等。
並且由於GPT-4由強大的推理能力,在其與人們的聊天中捕獲了人們的隱私,於是加遽了個人隱私洩露風險。(見〈通花〉,第9.5節)
8)大型語言模型( LLM )的研發耗費鉅資,恐被資本雄厚的公司壟斷:
GPT-4是一種大型語言模型( LLM ),建立在轉換器Transformer)神經網絡:
(圖:轉換器Transformer)架構,圖片來源:轉換器Transformer)─維基百科)
轉換器(Transformer)循環神經網絡(RNN) 都是處理順序輸入數據,但與RNN不同,轉換器一次處理所有輸入,並取代了RNN長短期記憶(LSTM)。其自注意的機制為輸入序列中的任何位置提供上下文信息。輸入文本通過標記解析器標記(token),再通過「詞嵌入」(word embedding)轉換為向量。然後將標記的位置信息添加到「詞嵌入」中,如果輸入數據是自然語言句子,則轉換器不必一次處理一個詞。與 RNN相比,這允許更多的並行化,因此減少了訓練時間。
大型語言模型( LLM ) 之神經網路的參數數量隨時間呈指數級增長:
訓練如此大型模型不僅耗時,也耗鉅資;例如,訓練GPT-3這樣的大型語言模型( LLM ):82 G參數及150G標記(token),一般使用1,024 個 NVIDIA A100,其訓練所耗費的時間T(天)估計如下:
T (6 x N x D) / (1024 x 𝜏
𝜏:NVIDIA A100float16 FLOPs 吞吐量
= 312 teraFLOPS = 312兆FLOPS = 3.12 x 10exp14 FLOPS
(按FLOPS = 每秒的浮點運算數)
N: 模型的參數之數目 = 8.2 x 10exp10 = 82 G參數 = 82 B參數
D: 模型的標記(token)數目 = 1.5 x 10exp11 = 150 B標記
計算結果:
T = (6 x 8.2 x 1010 x 1.5 x 1011) / (1024 x 3.12 x 1014 )/(8.64 x 104秒/天 )= 2.67 天。
此結果與比白皮書的培訓耗時13.4 天小了約 5 倍,卻是在正確的數量級。(見語言模型訓練的FLOPs微積分
(按:單位的中英對譯:
billion B x10exp9 (美國,法國)十億,(英國,德國)萬億
giga G x 10exp9 十億 (國際單位制詞頭)
tera T x 10exp12 兆
peta P x 10exp15 拍(千兆)
exa E x 10exp18 艾(百萬兆) 百京
zetta Z x 10exp21 十垓
yotta Y x 10exp24 一秭)
而一個NVIDIA A100 晶片價值10,000 美元。(見認識價值 10,000 美元的 Nvidia 芯片,為 AI 競賽提供動力)最新的NVIDIA H100 若結合的技術創新,可加速大型語言模型( LLM )速度,比前一代的NVIDIA A100快上30倍,但一個NVIDIA H100價格超過40,000美元。(見科技Nvidia 的頂級 AI 芯片在 eBay 上的售價超過 40,000 美元)
通常,大型語言模型( LLM )的研發、訓練、商轉可透過付費的雲端計算。(見Nvidia 通過 LLM 雲服務實現 AI 的更廣泛使用)所以付費的計算能力的使用是發展大型語言模型( LLM )的關鍵。
2020年,美國計算能力約141 x 10exp18FLOPS,居全球第二。而中國計算能力達到135 x 10exp18FLOPS,居全球第二。 (見這篇關於“算力”的文章值得一讀)
中國2020/9月成立東數西算產業聯盟,將中國東部各行業產生的數據通過網絡送往位於中國西部地區的數據中心處理、計算和存儲。據估計,2023年中國計算能力總規模達到180 x 10exp18FLOPS,存力(儲存能力)總規模超過1000 x 10exp15 B(1兆GB)= 1 x 10exp18 B。國家樞紐節點間的網路單向延遲為20毫秒以內,計算能力核心產業規模達到1.8兆人民幣。(見大陸算力產業年增近3成 規模僅次美國
從上面的分析可見,資本雄厚的公司如阿里巴巴百度騰訊谷歌微軟輝達將壟斷大型語言模型( LLM )的研發、訓練、商轉。
9)GPT-4的思考能力遠遠落後人類,人工通用智能AGI)的研發將是耗費鉅資的美夢:
寫〈通花〉的微軟工程師團隊們坦白的承認,他們並不瞭解,為何GPT-4只具有簡單的演算法(如梯度下降)配合大量參數與標記轉換器,卻能有通用和靈活的人工通用智能AGI)?
有些專家認為是來自大型語言模型( LLM )的湧現能力(當一個實體被觀察到具有其各部分自身不具有的屬性或行為時,就會出現湧現,這些屬性或行為只有因為各個部分之相互作用時才會出現湧現能力)。如果一種能力不存在於較小的模型中但存在於較大的模型中,即是湧現的。(見〈大型語言模型的湧現能力〉(2022,1─30頁)
微軟工程師團隊們打臉大型語言模型( LLM )的湧現能力,他們認為;「儘管人們對 LLM 的能力問題非常感興趣,但迄今為止的進展非常有限,只有玩具模型證明了一些湧現現象。」(見〈通花〉,第95頁)
相對於轉換器神經網絡所展現人工通用智能AGI)的思考,人類腦神經記憶網絡所展現的思考是對概念理解,而在大腦中建立外部現實模型。(詳細,請看拙文什麼是「思考」?如何「洞識」?何謂「思想家」?─學習的本質(2)人工通用智能AGI)的思考恐怕遠用無法追趕上人類的思考,那麼,人工通用智能AGI)的研發將是耗費鉅資的美夢。
結論:
GPT-4具有推理、創造力和演繹等核心心智能力,顯示出了人工通用智能AGI)火花,但轉換器神經網絡所展現的思考遠遠落後人類腦神經記憶網絡思考人工通用智能AGI)的研發將是耗費鉅資的美夢。
請看「陳華夫專欄」─學習的本質─系列文章:

思考、記憶、人腦解決之「強化學習式」思考架構─學習的本質(1)
什麼是「思考」?如何「洞識」?何謂「思想家」?─學習的本質(2)
什麼是「記憶」?如何「記憶」?「記憶」的本質?─學習的本質(3)
學習的真相與反思─學習的本質(4)
「施捨」就是人生的「現代開悟」─學習的本質(5)
談「恐懼」─學習的本質(6)
探究華人的「罪惡感」?─學習的本質(7)
你孤獨了嗎?─學習的本質(8)
人腦如何創新思考?─學習的本質(9)
「現代開悟」的本質及釋義─學習的本質(10)
你「現代開悟」了嗎?─學習的本質(11)
人工智慧的「強化學習」與人類學習的優劣─學習的本質(12)

伽馬波(40赫茲)、記憶、失智症、及音樂治療─學習的本質(13)
省思物理科學教育的真相─學習的本質(14)
人類智慧真正優於AI人工智慧之處為何?─學習的本質(15)
細述我親歷40年的學習之旅─學習的本質(16)
AI幫助人們改善記憶、思考能力─適用於年輕與銀髮人─學習的本質(17)
AI徹底改變大學理工教育的面貌─學習的本質(18)
AI模擬人類學習真能比人類更創新嗎?─學習的本質(19)
AI深度學習與《易經》的學習真有差異嗎?─學習的本質(20)
AI之ChatGPT的繪畫審美能力賞析─學習的本質(21)
請看懂智慧的本質:GTP4的「人工通用智能」(AGI)落後人類有多遠?─學習的本質(22)