لقد تحدثنا كثيرًا عن تحسين النصوص، ولكن إذا كانت مستنداتك تحتوي على صور أو جداول، فمن المهم اتخاذ بعض الخطوات الإضافية لضمان أن تكون هذه العناصر قابلة للاستخدام من قبل وكيلك أيضًا. يمكن أن يحتوي المحتوى غير النصي مثل الصور والمخططات والجداول على معلومات قيمة، ولكن بدون إعداد دقيق، قد يتجاهل نموذج اللغة الكبير أو يسيء تفسير المعلومات التي تحتويها.
لنبدأ بالصور. إذا كانت مستنداتك تحتوي على أي صور، سواء كانت صورة لمنتج أو حتى نص مزخرف بشكل كبير، فمن الأفضل تحويلها إلى نص عادي قبل رفع الملف. سيقوم Botpress بمعالجة ملفاتك مسبقًا عند رفعها، لذا فإن أفضل طريقة للحصول على إجابات متسقة من ملفاتك هي أن تقوم بالتحويل بنفسك.
لنأخذ هذا المثال لقائمة مطعم مزخرفة. قبل تحويلها إلى ملف نصي عادي، تبدو المعلومات التي يمكن لنموذج اللغة الكبير التعامل معها بهذا الشكل بعد تحليلها. أما إذا قمنا بتحويلها إلى ماركداون قبل رفعها (أو باستخدام محرر النصوص الغني المدمج في Botpress)، فسنحصل على نتائج أكثر موثوقية بكثير.
بعد ذلك، دعونا نتحدث عن الجداول والبيانات المنظمة. إذا كنت تدرج جداول في مستنداتك، تذكر أنه قبل تنفيذ RAG، يتم تحويل ملفاتك إلى ماركداون. هنا، لديك خياران: يمكنك تعيين جدول مدمج في Botpress كقاعدة معرفة بحيث تكون معلوماتك منظمة، أو يمكنك استخدام جدول بتنسيق ماركداون كما يلي.
تحسين المحتوى غير النصي يعني معالجة الصور باستخدام تقنية التعرف الضوئي على الحروف (OCR)، وإضافة أوصاف للمرئيات المعقدة، وضمان عرض الجداول بطريقة يمكن لوكيل الذكاء الاصطناعي استخدامها. هدفنا هنا هو جعل مجموعة البيانات بالكامل—بما في ذلك النص والمحتوى غير النصي—سهلة القراءة لنموذج اللغة الكبير.
