- 圖靈測試是艾倫·圖靈提出的方法,用來檢驗機器是否能夠模仿人類對話到讓人分不出是在和電腦聊天。
- 這個測試不是要證明機器是否像人類一樣“思考”,而是檢查它是否能透過對話逼真地模仿人類行為,有時甚至會用錯字或口語化語句等小技巧。
- 通過圖靈測試並不代表機器有意識;它只證明機器能夠逼真地模仿人類對話,這也引發了關於智慧與“思考”意義的討論。
什麼是圖靈測試?它是如何運作的?
圖靈測試是一種人工智慧測試,用來判斷電腦是否能透過聊天對話讓人類相信它是人類。 受測者需要判斷與他對話的「人」究竟是真人還是電腦。如果他認為自己在和真人對話,但實際上對方是電腦,那麼這台電腦就通過了圖靈測試。
簡單來說,這是一種評估電腦是否能夠逼真地模仿人類,讓人誤以為自己在和人類對話的測試。當然,這個測試還有許多細節值得討論。
圖靈測試的意義是什麼?
這個問題看起來很簡單,因為目的似乎很明顯:想知道機器是否能在對話中逼真地模仿人類。不過,其實還有更深層的思考。
我們是在測試機器是否真的能模仿人類的思考或智慧,還是只是讓人類誤以為它是人類?這兩者是有區別的。
模仿人類的思考或智慧,通常是大家對圖靈測試的直覺想法——也就是人類無法分辨自己是在和人還是和機器對話。但其實,最初設計這個測試時,允許“欺騙”人類。例如,電腦故意打錯字,可能會讓人相信它是人,因為機器通常不會拼錯字。
根本的問題在於,所有測試都有規則,因此難免會有缺陷。例如,與受測對象對話的時間長短會影響結果。模仿人類五分鐘比模仿一百小時容易得多。有些小技巧在五分鐘內有效,但在一百小時的對話中就不管用了。
圖靈測試由誰執行有差嗎?
受過辨識機器與人類訓練的科學家,比起沒有相關經驗的一般人,更難被騙——不只是因為他們能評估答案,也因為他們知道該問哪些問題。
即使電腦擁有與人類相當的“思考力”和智慧,也未必能騙過測試者。因為電腦的回答可能太完美或太缺乏情感。
關於圖靈測試,還有一些哲學層面的討論,例如如果電腦達到一般人類水準的智慧,是否代表機器能“思考”或有意識。這也是圖靈當初設計這個測試時想要迴避的問題之一。如果機器能精確模仿人類,那麼在實際應用上它就是在“思考”。
當然,這並不代表機器有意識,或它的思考方式和人類一樣。事實上,可以確定它的思考方式和人類不同。這個問題真正有趣的地方,在於實際應用的角度。例如,飛機會飛,這才是重點。至於它們飛行的方式不像鳥類,這就沒那麼重要了。
圖靈測試關注的是結果,而不是結果是如何達成的。
更重要的是,圖靈測試通常被認為是在描述一種情境:機器智慧已經達到至少人類水準。真正關心機器是否“技術上”通過圖靈測試(考慮到上述所有缺陷)的人,其實是少數。
雖然通過圖靈測試在技術上可能很厲害,尤其是測試時間很長、由專業人士執行時,但如果機器能隨時隨地騙過所有人,那才是真正厲害。當然,測試時間越長、評審越專業,這兩種情境就越接近。
我們離電腦通過圖靈測試還有多遠?
現在你已經了解什麼是圖靈測試,下一個問題應該是:「我們離電腦通過這個測試(也就是達到通用人類智慧)還有多遠?」簡單來說,答案是「沒有」。
雖然自然語言處理(NLP)技術進步很大,讓電腦能夠理解單一句話的意圖(這也是所有語音助理的核心技術),但我們距離一般人類水準的智慧還差得遠。
目前的技術在處理語意模糊(理解含糊語句的意思)、記憶(把之前說過的事納入當前對話)、情境(考慮未明說但相關的事實)等方面表現不佳。簡單說,現有技術離真正需求還差得很遠。
部分問題在於現有人工智慧技術需要大量資料學習。只要某個領域有大量重複性資料,就很適合導入AI,例如語音辨識、影像處理,甚至自駕車。
自然語言處理(NLP)的成功,來自於幾乎有無限的資料可用於沒有上下文或記憶的一次性陳述和問題。例如我說「我想買橙汁」,在多數情況下這是一個簡單的陳述,不需要額外的上下文或記憶來理解。其意圖是:「買橙汁」。
但如果有情境或記憶,情況就變複雜了。如果我說我要「買柳橙汁」,但我之前告訴你我是專門交易柳橙汁的金融交易員,那你就要明白在這個情境下,我是想買一種跟柳橙汁價格相關的金融商品。
那我們的資料會變成什麼樣?「買柳橙汁」可能代表:去商店買一瓶柳橙汁,或者如果之前說過自己是柳橙汁金融交易員,則代表想買與柳橙汁價格連動的金融商品。
如果這位金融交易員剛說他口渴,那他指的就是去商店買一瓶柳橙汁。所以我們又多了一個資料點:如果之前說過自己是柳橙汁金融交易員,但最近又說口渴,那就代表他想買一瓶柳橙汁。
如果一家金融企業推出一個用戶認為具有人類水準「智慧」的交易機器人,很快就會遇到問題。
通過圖靈測試是不可能的嗎?
對話資料有很多維度,甚至是無限多維。這代表機器學習演算法必須取得每個可能維度的大量資料,這當然是不可能的。
但這並不代表通過圖靈測試是不可能的。我們知道這是可能的,因為我們的大腦已經能做到。就像幾百年前的人看到鳥會飛,就知道飛行是可能的。
問題在於,現有AI的方法不能單靠大數據,因為沒有足夠多維度的大數據存在。變數太多,維度太高。即使現在Google每天還有8億個從未見過的新搜尋,這也顯示了用資料解決這個問題有多困難。
Google的Ray Kurtzweil採取了一種部分模仿人腦的方式。他預估我們會在2029年達到一般智慧,並能通過非常困難的圖靈測試。
他的預測是基於這個領域的進展將會呈指數成長這一假設,因此,即使現在的進展看起來相對有限,如果我們假設正處於指數型成長的軌道上,這些進展其實比表面上看起來更為重要。
他是否正確,我們還需要拭目以待,但這至少告訴我們,重大突破在未來十年內發生的可能性非常低。
一台機器通過一個可信的圖靈測試,究竟意味著什麼?
最後一點是,如果一台機器通過了可信的圖靈測試,這會帶來什麼意義。如果機器是透過某種大數據方法通過測試,就像機器在棋類遊戲中擊敗人類一樣,即使是很複雜的遊戲,其影響力也不如機器是透過模擬人腦的方式通過測試來得大。
模擬人腦的方法意味著這台機器更有可能以我們人類定義的「思考」方式來運作。它能像人類一樣,從極少的例子中推敲出意義,而不是需要大量相同案例才能理解。
如前所述,更有可能帶來突破的是「模擬人腦」的方法,因為大數據方法並不可行。這也意味著機器不僅在對話上,而是在多個領域都能達到通用智能。
這樣的影響無法被低估,因為這很可能會導致社會的全面重置。尤其是如果機器能夠以有意義的方式自我提升,將會出現智能指數型增長的良性循環,徹底改變我們的生活。
人類與機器的互動
回到比較日常的層面,即使機器已經和人類一樣聰明,也不代表我們會像對待人類一樣與它們互動。這和人與人之間的互動其實是一樣的。與人互動並不總是高效的,有時候在電話裡解釋怎麼做某件事會很繁瑣又沒效率,這時如果能直接示範會更容易。如果人類也能像網頁一樣有圖形介面就好了!
語音介面(或聊天介面)在輸入或輸出資訊時確實有其限制。有些情境下,直接用圖形方式展示資訊或點擊圖形介面,會比用語音介面來得有效率。因此,Bot 平台的設計目標就是盡量讓使用者回到理想流程,不讓對話偏離主題。
我的意思是,電腦不像人類那樣受限於只能用某些介面來接收或提供資訊,因此與機器的對話必然會根據任務選擇最合適的介面。
雖然通過圖靈測試會是人機互動上的一大里程碑,但實際的人機「對話」並不會只侷限於語音和文字。
常見問題
圖靈測試和其他人工智慧評測標準(如 Winograd Schema 挑戰或 ARC 挑戰)有什麼不同?
圖靈測試檢驗的是 AI 是否能模仿人類對話,但像 Winograd Schema 挑戰和 ARC 挑戰這些新標準,更著重於推理、常識和解決問題的能力。這些更能反映深層智能,而不只是表面的模仿。
圖靈測試在現代 AI 研究中還有參考價值嗎?現在有更好的替代方案嗎?
圖靈測試仍然是一個有用的思想實驗和里程碑,但許多研究者現在認為它已經過時。現代的測試更強調實際理解、邏輯推理和泛化能力。
文化或語言偏見會影響圖靈測試的結果嗎?
會的。AI 可能會誤解特定文化或語言中的成語、幽默或引用,這讓它在某些情境下更容易被識別為非人類。
如果機器通過圖靈測試,會如何重新定義「人類」的意義?
如果機器通過了嚴格的圖靈測試,這可能會迫使我們重新思考,人類的本質究竟是生物層面還是行為層面,以及我們的思考方式到底有多獨特。
哪些類型的問題最能有效揭露 AI 的非人類特徵?
那些需要依賴情境、情感細微差異或現實常識的問題,例如解讀諷刺、模糊的指涉或矛盾資訊,通常最容易讓 AI 露出馬腳。





.webp)
