阿拉伯語聊天機器人是一種能理解並分析阿拉伯語內容的程式。如今,我們可以模擬並處理電腦與人類之間以阿拉伯語進行的對話。
近期自然語言處理技術(NPL)的突破,讓建立阿拉伯語聊天機器人變得更簡單。全新的阿拉伯語 AI 聊天機器人技術運用機器學習,不僅能理解語言結構,也能掌握詞語的「意義」。
阿拉伯語是網路上第四大使用語言,但對非母語者來說卻是最難學的語言之一。
這是因為它在幾個方面與大多數語言不同。
除了上述特點外,阿拉伯語還有許多不同的形式和方言。這些形式和方言彼此相關,但並不重疊。事實上,一種方言的使用者可能完全聽不懂另一種方言,實際上它們就像不同的語言。
所有這些因素都讓阿拉伯語對人類來說更難學。
那麼,對機器來說是否也更難學呢?不意外地,答案是肯定的。
上述所有特點都為阿拉伯語自然語言處理(NLP)帶來挑戰。任何自然語言處理演算法的第一步,就是理解語言本身,也就是將句子分解為有意義的單位。這個步驟正式名稱叫做語言的「斷詞」,每個有意義的單位稱為一個詞元(token)。
語言越有系統、越有規律,斷詞就越容易。
讓阿拉伯語對人類難學的那些挑戰,也讓阿拉伯語比多數常見語言更難斷詞。
在理解最新突破的重要性之前,我們需要先了解過去 NLP 語言模型是如何建立的。
語言斷詞的工作需要 NLP 研究人員大量手動處理。每種語言都必須獨立、基本上是手動斷詞。
對阿拉伯語聊天機器人來說,這項工作尤其困難。
語言斷詞完成後,AI 演算法才能用來理解語言,也就是建立詞語之間意義關聯的地圖。
如果斷詞可靠,這一步就能自動化。但問題在於,阿拉伯語的斷詞很棘手,因此連理解演算法也必須和斷詞一起手動調整。
最終結果並不理想。阿拉伯語的理解程度遠不如英文。當然,研究重心一直偏向英文也有影響,但語言本身的難度讓取得好成果幾乎不可能。
AI 研究人員自然會思考,斷詞能否交給機器學習來做。這樣斷詞和理解演算法就能不受語言限制(語言無關性),大幅加快並提升 AI 的語言訓練效率。
這項突破最終在 2018 年底實現。AI 能夠在沒有人工干預的情況下學習阿拉伯語,NLP 的效能因此大幅提升。
阿拉伯語聊天機器人平台的表現立刻變得更好,聊天機器人對阿拉伯語的理解也達到與其他語言相近的水準。
但這項突破出現,並不代表阿拉伯語聊天機器人的品質馬上提升。
要讓客戶真正受惠,第一步是聊天機器人 AI 平台必須更新演算法,採用最新技術。由於過去技術的投資,這並不是他們能馬上做到的事。
此外,平台還需要具備許多功能,才能確保阿拉伯語聊天機器人為最終用戶帶來良好體驗。例如,使用者介面必須支援阿拉伯語,像是確保聊天內容對齊正確、按鈕順序正確顯示等。
在不同平台上處理多種語言可能很困難。有些平台要求不同語言的聊天機器人必須分開建立,這顯然非常沒有效率。
好的平台應該是真正的多語言,能讓所有內容在平台介面中都能有多種翻譯。
此外,語言必須作為對話的一個變數來追蹤,這樣 AI 才能準確偵測語言,對話設計師也能根據語言設計邏輯。
除了語言相關功能外,要打造優秀的聊天機器人,平台本身的整體功能也必須出色。這裡有兩大類重要功能。
最終,為最終用戶打造的聊天機器人體驗品質,與所用工具的強大程度息息相關,從語言理解到圖形化介面都很重要。
在阿拉伯地區,企業常常需要在地部署的阿拉伯語聊天機器人。這在選擇平台時也是一大考量。阿拉伯語在地部署的聊天機器人,必須用在地部署的平台打造,不僅要有在地的 UI,還要能在本地運行完整的 NLU 引擎與訓練好的語言模型。
即使有好的平台,打造優秀的阿拉伯語聊天機器人仍有挑戰。AI 領域的阿拉伯語人才有限,因此找到合適資源參與專案並不容易。雖然不需要自己撰寫底層 NLU 演算法(這些平台已內建),但要找到能說所有機器人支援語言或方言的設計師仍有難度。因此,聊天機器人平台必須讓非技術人員也能輕鬆更新與維護內容及翻譯,因為設計師很可能不會所有支援語言。
顯然,現在高品質的阿拉伯語聊天機器人陸續上線,這將推動技術的普及。普及率提升後,資源短缺的問題會逐漸解決,潛在買家也能更清楚了解最佳實踐。
NLP 技術的突破不僅適用於阿拉伯語聊天機器人,也推動了其他 AI 應用。我們現在看到多元系統以不同方式運用阿拉伯語 AI——從新聞情感分析到摘要或生成過去只能由人類完成的文本。聊天機器人經常作為使用者介面,不僅串接不同 AI 技術,也協助用戶操作其他系統的畫面,例如網站或網頁應用程式。
當然,儘管阿拉伯語 NLU 的能力大幅提升,仍有進步空間。相關研究持續進行,未來必定會有新突破。在 NLU 達到人類水準前,這方面的工作永遠不會停止。
所有語言的 NLU 引擎下一步都是要更好地處理多輪對話。這代表讓人類能在特定主題下,與機器人進行多步驟的對話,而不只是單次指令或提問。對聊天機器人平台來說,下一步就是讓建立多輪對話變得更簡單。
多輪對話對於語音介面(如 Alexa)尤其重要。
雖然我們討論了機器學習驅動的斷詞突破及其對阿拉伯語 NLP 的影響,相關議題還包括阿拉伯語語音轉文字。阿拉伯語的語音轉文字仍落後於其他語言,但我們有信心 NLP 的進展將在不久的將來縮小這個差距。
打造令人驚豔的 AI 智能代理體驗。