Published 26 فبراير 2026 ⦁ 10 min read
دراسة حالة: ترجمة الذكاء الاصطناعي ولغة النوشو

دراسة حالة: الذكاء الاصطناعي وترجمة لغة نوشو

يساعد الذكاء الاصطناعي في الحفاظ على نوشو، وهي نصوص صوتية نادرة ابتكرتها نساء ياو في الصين قبل أكثر من 400 سنة. مع توفر 500 زوج جملة رقمية فقط (اعتباراً من 2025)، تعتبر ترجمة نوشو تحدياً بسبب توثيقها المحدود والمراسلة الفريدة بين الأحرف والأحرف الصينية. ومع ذلك، طور باحثون من كلية دارتماوث إطار عمل "NüshuRescue"، الذي يستخدم نماذج ذكاء اصطناعي متقدمة مثل GPT-4-Turbo لأتمتة الترجمات وتوسيع مجموعات البيانات لهذه اللغة المهددة بالانقراض.

الملامح الرئيسية:

  • خلفية نوشو: مقطع صوتي يتضمن 600-700 حرف، كانت تستخدمه النساء تاريخياً للتواصل في مجتمع يهيمن عليه الذكور.
  • التحديات: نصوص ناجية محدودة، عدم وجود قاموس موحد، وأحرف لا توجد لها مكافئات مباشرة في اللغة الصينية الحديثة.
  • دور الذكاء الاصطناعي:
    • إطار عمل NüshuRescue: يجمع بين نماذج FastText و Seq2Seq للترجمة، بدءاً من مجموعة بيانات 500 جملة (NCGold).
    • GPT-4-Turbo: حقق دقة بنسبة 48.69% على جمل نوشو غير المرئية باستخدام 35 مثالاً فقط.
  • مجموعات البيانات:
    • NCGold: 500 زوج جملة نوشو-صينية تم اختيارها يدوياً بعناية.
    • NCSilver: 98 ترجمة إضافية تم إنشاؤها بواسطة الذكاء الاصطناعي.
  • الأهداف المستقبلية: توسيع الترجمات لتشمل القطع الأثرية المادية مثل المناديل المطرزة والمراوح باستخدام الذكاء الاصطناعي متعدد الأنماط.

من خلال مزج أتمتة الذكاء الاصطناعي مع المراجعة من قبل الخبراء، لا يدعم هذا المشروع الحفاظ على اللغويات فحسب، بل يضمن أيضاً ترجمات دقيقة واحترام هذا النص المهدد بالانقراض.

إطار عمل ترجمة NüshuRescue للذكاء الاصطناعي: الإحصائيات والنتائج الرئيسية

إطار عمل ترجمة NüshuRescue للذكاء الاصطناعي: الإحصائيات والنتائج الرئيسية

هل يمكن للذكاء الاصطناعي إنقاذ اللغات الأصلية المهددة بالانقراض؟ | الحلقة

كيف يترجم الذكاء الاصطناعي ويحافظ على نوشو

أصبح الذكاء الاصطناعي لاعباً رئيسياً في الحفاظ على نوشو، خاصة وأن هناك عدداً قليلاً جداً من الخبراء البشريين الماهرين في اللغة. ترجمة هذه اللغة منخفضة الموارد يدوياً مكلفة وتستغرق وقتاً طويلاً، مما دفع الباحثين إلى استكشاف طرق جديدة. كان أحد الأمثلة البارزة لهذا الجهد مقدماً في COLING.

في يناير 2025، قدم الباحثون Ivory Yang و Weicheng Ma و Soroush Vosoughi من كلية دارتماوث إطار عمل NüshuRescue في المؤتمر الدولي الحادي والثلاثين لعلوم اللغويات الحاسوبية (COLING). يستفيد هذا النظام من الذكاء الاصطناعي المتقدم لأتمتة الترجمات وتنمية الموارد اللغوية بأقل قدر من المدخلات البشرية. كما وصفوه:

"يوفر NüshuRescue أداة متعددة الاستخدامات وقابلة للتوسع لإحياء اللغات المهددة بالانقراض، مما يقلل الحاجة إلى مدخلات بشرية واسعة النطاق." [1]

يتعامل الإطار مع قضية حرجة: نقص متحدثي نوشو والعلماء القادرين على إنتاج حجم الترجمات اللازمة للحفاظ على اللغة. باستخدام التعلم التكراري وزيادة البيانات، بدأ النظام بمجموعة بيانات أساسية من 500 جملة (NCGold) وقام بتوسيعها بإنشاء NCSilver - مجموعة بيانات ثانوية من 98 جملة صينية حديثة مترجمة حديثاً. تملأ هذه العملية الآلية الفجوة التي تركتها ندرة الخبراء البشريين، مما يجعل جهود الترجمة على نطاق واسع ممكنة.

كيف تعالج نماذج الذكاء الاصطناعي نوشو

تدريب الذكاء الاصطناعي للعمل مع نوشو يأتي بمجموعة التحديات الخاصة به. النص له مراسلة فريدة واحدة إلى واحدة مع اللغة الصينية - كل حرف نوشو يتوافق بدقة مع حرف صيني واحد. لضمان بقاء هذه المراسلة دقيقة، يستخدم النظام قواعد التحقق المتخصصة، مثل التحقق من الطول، للحفاظ على الدقة اللغوية طوال العملية [3].

يستخدم إطار عمل NüshuRescue مزيجاً من تقنيات الذكاء الاصطناعي للتعامل مع هذه التعقيدات. يتم استخدام نماذج FastText لترميز العلاقات الثنائية اللغة بين نوشو والصينية، بينما تدير نماذج Sequence-to-Sequence (Seq2Seq) الترجمات المباشرة بين النصين. يسمح هذا النهج الهجين للذكاء الاصطناعي بفهم البنية الفريدة لنوشو، حتى مع مجموعة بيانات محدودة [3].

بينما لا يزال المدخل البشري جزءاً من العملية - يستشير المعلقون ثنائيو اللغة محولات الإنترنت والأعمال المطبوعة مثل A Compendium of Chinese Nüshu - يتم التعامل مع غالبية عمل الترجمة بواسطة الذكاء الاصطناعي. هذا يقلل بشكل كبير من التكلفة والوقت اللازم للحفاظ على اللغة، مما يجعل الجهد أكثر عملية واستدامة [3].

دور GPT-4-Turbo في ترجمة نوشو

GPT-4-Turbo

بناءً على هذه الطرق، تجلب النماذج المتقدمة مثل GPT-4-Turbo كفاءة أكبر لترجمة نوشو. باستخدام تقنية تسمى التعلم "بعدد قليل من الأمثلة"، يمكن لـ GPT-4-Turbo تحقيق نتائج مثيرة للإعجاب مع بيانات محدودة جداً. على عكس الأنظمة التقليدية التي تتطلب آلاف الأمثلة، يمكن لـ GPT-4-Turbo البدء في إنتاج ترجمات دقيقة بأقل من 35 مثالاً أساسياً. على سبيل المثال، عرّض فريق دارتماوث النموذج على 35 جملة من مجموعة بيانات NCGold وحقق دقة ترجمة بنسبة 48.69% على 50 جملة نوشو محجوزة [1][4].

يسلط هذا النهج الضوء على الإمكانات الكامنة في الحفاظ على اللغات ذات البيانات النادرة. أوضح GPT-4-Turbo أنه يمكنه تعميم الأنماط اللغوية والبنية الخاصة بنوشو من عدد قليل من الأمثلة فقط. هذا يجعل من الممكن العمل مع اللغات التي لها وجود رقمي قليل أو معدوم - وهي فئة تشمل نوشو والعديد من اللغات الأصلية في جميع أنحاء العالم [1].

مع معالجة النموذج لمزيد من الترجمات، يصقل فهمه للميزات الفريدة لنوشو، مما يخلق حلقة تغذية راجعة تحسن الدقة بمرور الوقت. هذه الدورة الآلية للتعلم والتحسين هي شيء لا يمكن للجهود اليدوية وحدها أن تحققه، نظراً لعدد محدود من خبراء نوشو المتاحين [3].

النتائج: التقدم في ترجمة نوشو بالذكاء الاصطناعي

حقق المشروع خطوات في توازن القابلية للتوسع مع الحفاظ على جوهر نوشو. باستخدام إطار عمل NüshuRescue، حقق الباحثون دقة ترجمة بنسبة 48.69% على 50 جملة نوشو غير مرئية باستخدام GPT-4-Turbo، معتمدين على 35 مثالاً من NCGold فقط [1]. يوضح هذا كيف يمكن أن يكون التعلم بعدد قليل من الأمثلة فعالاً للغات المهددة بالانقراض منخفضة الموارد. على عكس أنظمة الترجمة التقليدية التي تتطلب آلاف الأمثلة، يثبت NüshuRescue أن التقدم الهادف ممكن مع بيانات محدودة. كما لاحظ Soroush Vosoughi، أستاذ مساعد في علوم الحاسوب بكلية دارتماوث:

"يوضح عملنا أن الذكاء الاصطناعي التوليدي والنماذج اللغوية الكبيرة تقلل بشكل كبير من الحواجز أمام إحياء اللغات المهددة بالانقراض، مما ينتج عنه موارد لغوية قيمة بسرعة حتى من البيانات الحد الأدنى." [2]

توسيع مجموعة البيانات باستخدام NCGold و NCSilver

يرجع نجاح هذه المبادرة إلى حد كبير إلى مجموعتي بيانات رئيسيتين. أولاً، NCGold، حجر الزاوية في المشروع، عبارة عن مجموعة من 500 زوج جملة نوشو-صينية تم اختيارها يدوياً بعناية - أول مجموعة بيانات موازية متاحة للجمهور لنوشو [1].

بناءً على NCGold، أنشأ الفريق NCSilver، مجموعة بيانات ثانوية تم إنشاؤها باستخدام GPT-4-Turbo. وتتضمن 98 جملة صينية حديثة مترجمة إلى نوشو [1]. تربط هذه الخطوة النص التاريخي بالسياقات الحديثة، مما يمهد الطريق لجهود الترجمة المستقبلية. لضمان الدقة، تم استخدام عملية التحقق من الطول الآلي، مما يحافظ على المراسلة بين حرف واحد إلى حرف واحد بين نوشو والصينية.

أصبحت كلا مجموعتي البيانات متاحة الآن على GitHub، مما يمكّن الباحثين في جميع أنحاء العالم من المساهمة في هذا العمل وتوسيعه. بإعادة تغذية ترجمات NCSilver إلى النموذج، ينشئ الفريق حلقة تغذية راجعة تحسن الدقة في المستقبل. تلعب هذه المجموعات أيضاً دوراً حاسماً في حماية الفروق الثقافية لنوشو.

الحفاظ على السياق الثقافي في ترجمات الذكاء الاصطناعي

يتجاوز الإطار الإنجازات التقنية ليعالج الحفاظ على الثقافة. نوشو، نص صوتي استخدمته تاريخياً نساء ياو في مقاطعة جيانغيونغ بمقاطعة هونان، كانت وسيلة للتعبير عن الذات [1]. يجمع إطار عمل NüshuRescue بين الترجمة الآلية والإشراف البشري لتكريم هذا التراث. يقوم المعلقون ثنائيو اللغة بتحسين الترجمات التي ينتجها الذكاء الاصطناعي، وحل الغموضات وتصحيح الأخطاء، خاصة للمصطلحات الغائبة عن القواميس القياسية.

للحفاظ على الأصالة، يتم استخلاص بيانات التدريب من نصوص تاريخية موثوقة بدلاً من إعادة التفسير الحديثة. هذا يضمن أن الذكاء الاصطناعي يلتقط الاستخدام الأصلي للغة ويتجنب فرض الأنماط اللغوية المعاصرة على نص قديم.

في المستقبل، يهدف الفريق إلى التوسع خارج النص. شاركت Ivory Yang، طالبة الدراسات العليا في علوم الحاسوب بكلية دارتماوث، الخطوات التالية:

"هناك مناديل ومراوح طائرة عليها كتابات نوشو. لذا فإن الخطوة التالية ستكون بناء نماذج متعددة الأنماط يمكنها استخدام رؤية الحاسوب لالتقاط هذه الصور وتدريب نموذج للتعرف على الأحرف وترجمتها لنا." [2]

يمكن لهذا الاتجاه المستقبلي أن يمكّن الذكاء الاصطناعي من تحليل القطع الأثرية المادية، مما يوسع جهود الحفاظ على العناصر بما يتجاوز النصوص الرقمية.

التحديات الأخلاقية في ترجمة نوشو المدعومة بالذكاء الاصطناعي

جعل الذكاء الاصطناعي من الممكن إنشاء نصوص نوشو بسرعة وبحجم لا يمكن لفريق بشري وحده أن يحققه. ومع ذلك، فإن ضمان احترام هذه التكنولوجيا للعمق الثقافي لنوشو ليس مهمة سهلة. تم إنشاء نوشو في الأصل من قبل نساء ياو في مقاطعة هونان كنص خاص للتواصل في مجتمع حرمهن من التعليم الرسمي، وتحمل نوشو تاريخاً عميقاً من المرونة والأخوة. لكل قرار ترجمة أهمية ثقافية، والتعامل مع اللغة كمجرد مجموعة بيانات أخرى يخاطر بتجريدها من جوهرها الفريد. هذا هو السبب في أن مزج أتمتة الذكاء الاصطناعي مع الخبرة البشرية أمر حاسم في حماية إرث نوشو.

الجمع بين الخبرة البشرية وأتمتة الذكاء الاصطناعي

يوضح إطار عمل NüshuRescue أهمية المشاركة البشرية في جهود الترجمة الأخلاقية. يلعب المعلقون ثنائيو اللغة دوراً رئيسياً هنا، حيث يراجعون بعناية الترجمات التي ينتجها الذكاء الاصطناعي ويقارنونها بالمصادر المطبوعة الموثوقة. هذه الخطوة ضرورية لأن النظام الصوتي لنوشو يسمح برمز واحد يمثل ما يصل إلى 35 حرفاً صينياً بنفس النطق لكن معاني مختلفة [7][8]. لا يمكن للذكاء الاصطناعي وحده حل مثل هذه التعقيدات.

أكد Soroush Vosoughi، أستاذ مساعد في علوم الحاسوب بكلية دارتماوث، على هذه النقطة:

"المشاركة النشطة من المتحدثين الأصليين واللغويين ضرورية لضمان الأصالة اللغوية والدقة الثقافية. الذكاء الاصطناعي والخبرة المجتمعية كلاهما أساسي لجهود الحفاظ الهادفة." [2]

هذا التعاون بين البشر والذكاء الاصطناعي لا يتعلق فقط بالدقة - بل يتعلق بمعالجة قضايا أعمق، مثل الانحيازات في نماذج الذكاء الاصطناعي، والتي تتم استكشافها بمزيد من التفاصيل أدناه.

معالجة الانحيازات في نماذج تدريب الذكاء الاصطنا