阿拉伯語聊天機器人是一種能理解並分析阿拉伯語內容的程式。如今,我們可以模擬並處理電腦與人類之間以阿拉伯語進行的對話。

近期自然語言處理技術(NPL)的突破,讓建立阿拉伯語聊天機器人變得更簡單。全新的阿拉伯語 AI 聊天機器人技術運用機器學習,不僅能理解語言結構,也能掌握詞語的「意義」。

建立阿拉伯語 AI 聊天機器人

阿拉伯語是網路上第四大使用語言,但對非母語者來說卻是最難學的語言之一。

這是因為它在幾個方面與大多數語言不同。

  • 它是從右到左書寫的。
  • 它有自己的一套字母,對其他語言的使用者來說難以辨認。
  • 書寫時會省略母音,語法結構複雜且豐富,例如,許多情況下代名詞直接嵌入單字中。
  • 它比多數語言更靈活,句子結構不一定遵循英文常見的主詞-動詞順序。
  • 這些特點讓阿拉伯語更難學,也比其他常見語言更容易產生歧義。

除了上述特點外,阿拉伯語還有許多不同的形式和方言。這些形式和方言彼此相關,但並不重疊。事實上,一種方言的使用者可能完全聽不懂另一種方言,實際上它們就像不同的語言。

所有這些因素都讓阿拉伯語對人類來說更難學。

那麼,對機器來說是否也更難學呢?不意外地,答案是肯定的。

阿拉伯語聊天機器人:自然語言處理的挑戰

上述所有特點都為阿拉伯語自然語言處理(NLP)帶來挑戰。任何自然語言處理演算法的第一步,就是理解語言本身,也就是將句子分解為有意義的單位。這個步驟正式名稱叫做語言的「斷詞」,每個有意義的單位稱為一個詞元(token)。

語言越有系統、越有規律,斷詞就越容易。

讓阿拉伯語對人類難學的那些挑戰,也讓阿拉伯語比多數常見語言更難斷詞。

在理解最新突破的重要性之前,我們需要先了解過去 NLP 語言模型是如何建立的。

過去的做法

語言斷詞的工作需要 NLP 研究人員大量手動處理。每種語言都必須獨立、基本上是手動斷詞。

對阿拉伯語聊天機器人來說,這項工作尤其困難。

語言斷詞完成後,AI 演算法才能用來理解語言,也就是建立詞語之間意義關聯的地圖。

如果斷詞可靠,這一步就能自動化。但問題在於,阿拉伯語的斷詞很棘手,因此連理解演算法也必須和斷詞一起手動調整。

最終結果並不理想。阿拉伯語的理解程度遠不如英文。當然,研究重心一直偏向英文也有影響,但語言本身的難度讓取得好成果幾乎不可能。

AI 研究人員自然會思考,斷詞能否交給機器學習來做。這樣斷詞和理解演算法就能不受語言限制(語言無關性),大幅加快並提升 AI 的語言訓練效率。

阿拉伯語對話式 AI 的最新突破

這項突破最終在 2018 年底實現。AI 能夠在沒有人工干預的情況下學習阿拉伯語,NLP 的效能因此大幅提升。

阿拉伯語聊天機器人平台的表現立刻變得更好,聊天機器人對阿拉伯語的理解也達到與其他語言相近的水準。

但這項突破出現,並不代表阿拉伯語聊天機器人的品質馬上提升。

要讓客戶真正受惠,第一步是聊天機器人 AI 平台必須更新演算法,採用最新技術。由於過去技術的投資,這並不是他們能馬上做到的事。

此外,平台還需要具備許多功能,才能確保阿拉伯語聊天機器人為最終用戶帶來良好體驗。例如,使用者介面必須支援阿拉伯語,像是確保聊天內容對齊正確、按鈕順序正確顯示等。

為什麼多語言平台很重要

在不同平台上處理多種語言可能很困難。有些平台要求不同語言的聊天機器人必須分開建立,這顯然非常沒有效率。

好的平台應該是真正的多語言,能讓所有內容在平台介面中都能有多種翻譯。

此外,語言必須作為對話的一個變數來追蹤,這樣 AI 才能準確偵測語言,對話設計師也能根據語言設計邏輯。

除了語言相關功能外,要打造優秀的聊天機器人,平台本身的整體功能也必須出色。這裡有兩大類重要功能。

  • 第一類是一般的 NLU 技術。表現良好的平台不僅要語言無關,底層的 NLU 也必須採用最新技術,並且整體運作良好。平台必須具備與 NLU 相關的功能(如進階的槽位填充與情境導向的意圖匹配)。
  • 第二類是平台本身的整體功能。它應該讓設計師能輕鬆打造極佳的聊天機器人體驗,包括方便整合第三方系統。如果功能不足或不易使用,那麼是否支援阿拉伯語就變得無關緊要。

最終,為最終用戶打造的聊天機器人體驗品質,與所用工具的強大程度息息相關,從語言理解到圖形化介面都很重要。

在阿拉伯地區,企業常常需要在地部署的阿拉伯語聊天機器人。這在選擇平台時也是一大考量。阿拉伯語在地部署的聊天機器人,必須用在地部署的平台打造,不僅要有在地的 UI,還要能在本地運行完整的 NLU 引擎與訓練好的語言模型。

打造最佳阿拉伯語聊天機器人

即使有好的平台,打造優秀的阿拉伯語聊天機器人仍有挑戰。AI 領域的阿拉伯語人才有限,因此找到合適資源參與專案並不容易。雖然不需要自己撰寫底層 NLU 演算法(這些平台已內建),但要找到能說所有機器人支援語言或方言的設計師仍有難度。因此,聊天機器人平台必須讓非技術人員也能輕鬆更新與維護內容及翻譯,因為設計師很可能不會所有支援語言。

顯然,現在高品質的阿拉伯語聊天機器人陸續上線,這將推動技術的普及。普及率提升後,資源短缺的問題會逐漸解決,潛在買家也能更清楚了解最佳實踐。

摘要

NLP 技術的突破不僅適用於阿拉伯語聊天機器人,也推動了其他 AI 應用。我們現在看到多元系統以不同方式運用阿拉伯語 AI——從新聞情感分析到摘要或生成過去只能由人類完成的文本。聊天機器人經常作為使用者介面,不僅串接不同 AI 技術,也協助用戶操作其他系統的畫面,例如網站或網頁應用程式。

當然,儘管阿拉伯語 NLU 的能力大幅提升,仍有進步空間。相關研究持續進行,未來必定會有新突破。在 NLU 達到人類水準前,這方面的工作永遠不會停止。

所有語言的 NLU 引擎下一步都是要更好地處理多輪對話。這代表讓人類能在特定主題下,與機器人進行多步驟的對話,而不只是單次指令或提問。對聊天機器人平台來說,下一步就是讓建立多輪對話變得更簡單。

多輪對話對於語音介面(如 Alexa)尤其重要。

雖然我們討論了機器學習驅動的斷詞突破及其對阿拉伯語 NLP 的影響,相關議題還包括阿拉伯語語音轉文字。阿拉伯語的語音轉文字仍落後於其他語言,但我們有信心 NLP 的進展將在不久的將來縮小這個差距。