Een Arabische chatbot is een programma dat Arabische inhoud kan begrijpen en analyseren. Tegenwoordig kunnen we menselijke gesprekken in het Arabisch tussen een computer en een mens simuleren en verwerken.

Recente doorbraken in natuurlijke taalverwerkingstechnologie (NLP) maken het eenvoudig om Arabische chatbots te creëren. De nieuwe Arabische AI-chatbottechnologie gebruikt machine learning om de structuur van de taal te begrijpen, evenals de 'betekenis' van de woorden.

Maak een AI-chatbot in het Arabisch

Arabisch is de vierde meest gesproken taal op het internet, maar het is een van de moeilijkste talen voor niet-moedertaalsprekers om te leren.

Dit komt doordat het op een aantal punten verschilt van de meeste andere talen.

  • Het wordt van rechts naar links geschreven.
  • Het gebruikt een eigen set tekens die voor sprekers van andere talen niet herkenbaar zijn.
  • Klinkers worden weggelaten wanneer het wordt geschreven. Het heeft een complexe en rijke grammaticale structuur; bijvoorbeeld, voornaamwoorden zijn in veel gevallen in de woorden zelf verwerkt.
  • Het is veel flexibeler dan de meeste andere talen, omdat zinnen niet hoeven te voldoen aan de onderwerp-werkwoordvolgorde die typisch is voor het Engels.
  • Dit alles maakt het moeilijker om te leren en zorgt voor een grotere kans op dubbelzinnigheid dan bij de meeste andere veelvoorkomende talen.

Naast het bovenstaande zijn er veel vormen en dialecten van het Arabisch. Deze vormen en dialecten zijn aan elkaar verwant, maar overlappen niet. In feite kan het voorkomen dat een spreker van het ene dialect het andere dialect niet begrijpt; voor alle praktische doeleinden zijn het dus verschillende talen.

Al deze factoren maken het moeilijker voor mensen om Arabisch te leren.

Betekent dit echter ook dat het moeilijker is voor machines om te leren? Niet verrassend is het antwoord ja.

Arabische chatbot: uitdagingen in natuurlijke taalverwerking

Al het bovenstaande zorgt voor uitdagingen bij Arabische natuurlijke taalverwerking (NLP). De eerste stap voor elk NLP-algoritme is het begrijpen van de taal, oftewel het opdelen van zinnen in afzonderlijke betekenisvolle eenheden. Deze taak heet officieel het tokeniseren van de taal, waarbij elke afzonderlijke eenheid een token wordt genoemd.

Hoe systematischer en ordelijker de taal, hoe makkelijker het is om te tokeniseren.

Dezelfde uitdagingen die Arabisch moeilijk maken voor mensen, maken het ook moeilijker om te tokeniseren dan de meeste andere veelvoorkomende talen.

Om het belang van de nieuwste doorbraken te begrijpen, moeten we eerst weten hoe een taalmodel voor NLP vroeger werd gemaakt.

Vroeger

Het tokeniseren van de taal vereiste veel handmatig werk van de NLP-onderzoeker. Elke taal moest afzonderlijk en grotendeels handmatig worden getokeniseerd.

Dit was vooral lastig voor Arabische bots, zoals je je kunt voorstellen.

Zodra de taal getokeniseerd was, konden de AI-algoritmen worden toegepast om de taal te begrijpen, oftewel een betekeniskaart te maken van hoe woorden zich tot elkaar verhouden.

Deze stap van het begrijpen van de taal kon worden geautomatiseerd als het tokeniseren betrouwbaar was. Het probleem was echter dat het tokeniseren van het Arabisch lastig was, waardoor zelfs de algoritmen voor begrip handmatig moesten worden ingesteld, samen met het tokeniseren.

En het eindresultaat was niet goed. Het niveau van Arabisch begrip was, vergeleken met bijvoorbeeld Engels, laag. Natuurlijk is er altijd veel meer onderzoek gedaan naar Engels dan naar Arabisch, wat ook meespeelde, maar de moeilijkheid van de taal maakte het bijna onmogelijk om een goed resultaat te behalen.

Zoals AI-onderzoekers vaak doen, vroegen ze zich af of het tokeniseren zelf door machine learning kon worden gedaan. Dit zou betekenen dat de algoritmen voor tokeniseren en begrip onafhankelijk van de onderliggende taal konden werken (taalneutraal), waardoor het trainen van de AI op een taal veel sneller en beter zou gaan.

Recente doorbraak in Arabische conversatie-AI

En hier werd uiteindelijk de doorbraak bereikt, eind 2018. De AI kon in het Arabisch worden getraind zonder handmatige tussenkomst, waardoor de prestaties van de NLP veel beter werden.

Arabische chatbotplatforms konden direct veel beter worden en het begrip van de chatbots in het Arabisch kwam op hetzelfde niveau als bij andere talen.

Dat deze doorbraak plaatsvond, betekent niet automatisch dat de kwaliteit van Arabische chatbots direct verbeterde.

Om deze voordelen bij klanten te brengen, moesten chatbot-AI-platforms eerst hun algoritmen bijwerken naar de nieuwste technologie. Gezien hun investeringen in de vorige technologie, is dit niet iets wat snel gebeurt.

Bovendien zijn er veel functies die de platforms moeten toevoegen om te zorgen dat Arabische chatbots een goede gebruikerservaring bieden. Zo moeten de gebruikersinterfaces geschikt zijn voor Arabisch. Dit kan zo simpel zijn als zorgen dat de uitlijning in de chat klopt en dat knoppen in de juiste volgorde worden weergegeven.

Waarom meertalige platforms belangrijk zijn

Werken met meerdere talen op verschillende platforms kan lastig zijn. Sommige platforms vereisen dat bots in verschillende talen als aparte bots worden gebouwd, wat uiteraard erg inefficiënt is.

Een goed platform is echt meertalig en maakt het dus mogelijk om alle inhoud binnen de gebruikersinterface van het platform in meerdere talen te vertalen.

Bovendien moet de taal als variabele in het gesprek worden bijgehouden, zodat de AI de taal nauwkeurig kan detecteren en ontwerpers logica rond de taal kunnen bouwen.

Naast taalspecifieke functies moet de algemene functionaliteit van het chatbotplatform uitstekend zijn om een goede chatbot te maken. Er zijn twee categorieën functionaliteit die belangrijk zijn.

  • De eerste is de algemene NLU-technologie. Een goed presterend platform is niet alleen taalneutraal, maar gebruikt ook de nieuwste technologie voor de onderliggende NLU en werkt in het algemeen goed. Het is belangrijk dat het platform NLU-gerelateerde functies heeft (zoals geavanceerde slot filling en contextgestuurde intent matching).
  • De tweede categorie is de algemene functionaliteit van het platform. Het moet ontwerpers in staat stellen om eenvoudig uitstekende chatbotervaringen voor eindgebruikers te creëren, inclusief eenvoudige integratie met systemen van derden. Als het platform niet voldoende functionaliteit biedt of niet gebruiksvriendelijk is, maakt het niet uit of het Arabisch ondersteunt.

Uiteindelijk is de kwaliteit van de chatbotervaring voor de eindgebruiker direct gerelateerd aan de kracht van het gebruikte hulpmiddel, van taalbegrip tot grafische gebruikersinterfaces.

In de Arabische wereld komt het bovendien vaak voor dat bedrijven een on-premise Arabische chatbot vereisen. Dit is uiteraard een belangrijke overweging bij het kiezen van een platform. Een on-premise Arabische chatbot moet gebouwd worden met een on-premise Arabisch chatbotplatform dat niet alleen een on-premise gebruikersinterface biedt, maar ook de volledige NLU-engine en het getrainde taalmodel lokaal bevat.

Bouw de beste Arabische chatbot

Zelfs met een goed platform zijn er nog steeds uitdagingen bij het maken van een uitstekende chatbot in het Arabisch. Er zijn relatief weinig Arabischsprekenden in de AI-wereld, waardoor het lastig kan zijn om de juiste mensen voor het project te vinden. Hoewel het niet nodig is om mensen te zoeken die de onderliggende NLU-algoritmen schrijven, omdat deze standaard worden meegeleverd, kan het lastig zijn om bekwame ontwerpers te vinden die alle talen of dialecten spreken die de chatbot ondersteunt. Het is daarom belangrijk dat het chatbotplatform het mogelijk maakt om de inhoud en vertalingen eenvoudig bij te werken en te onderhouden door niet-technische mensen, aangezien de ontwerper waarschijnlijk niet alle ondersteunde talen spreekt.

Het feit dat hoogwaardige Arabische chatbots nu beschikbaar komen, betekent uiteraard dat de adoptie van deze technologie zal toenemen. Deze groeiende adoptie zal het probleem van beperkte middelen oplossen en potentiële kopers van de technologie een duidelijk beeld geven van de best practices die gevolgd moeten worden.

Samenvatting

De doorbraken in NLP-technologie gelden niet alleen voor Arabische chatbots, maar ook voor andere AI-toepassingen. We zien nu veelzijdige systemen die Arabische AI op verschillende manieren gebruiken — van sentimentanalyse in nieuwsberichten tot het samenvatten of genereren van tekst die voorheen alleen door mensen kon worden gedaan. Vaak wordt een chatbot gebruikt als gebruikersinterface niet alleen voor verschillende AI-technologieën, maar ook om eindgebruikers te helpen bij het gebruik van schermen van andere systemen, zoals websites of webapps.

Hoewel er een grote sprong is gemaakt in de kracht van Arabische NLU, kan de NLU altijd beter. Onderzoek blijft doorgaan om de NLU-engines verder te verbeteren en ongetwijfeld zullen er nieuwe doorbraken komen. Totdat NLU het niveau van mensen bereikt, blijft er werk aan de winkel.

De volgende stap voor alle NLU-engines, ongeacht de taal, is het beter ondersteunen van multi-turn dialogen. Dit betekent dat een mens een multi-turn gesprek kan voeren met de bot binnen een specifiek onderwerp, in plaats van alleen losse opdrachten of vragen te stellen. En de volgende stap voor chatbotplatforms is het eenvoudig maken om multi-turn dialogen te creëren.

Multi-turn dialogen zijn vooral belangrijk voor spraakinterfaces zoals Alexa.

Hoewel we het hier hebben over doorbraken in machine learning-gedreven tokenisatie en de implicaties voor Arabische NLP, is een verwant onderwerp Arabische spraak-naar-teksttranscriptie. Spraak-naar-tekst voor Arabisch loopt nog achter op andere talen, maar we hopen dat de vooruitgang in NLP die hier wordt beschreven, het verschil in de nabije toekomst zal verkleinen.