Published 26 февр. 2026 г. ⦁ 10 min read
Тематическое исследование: перевод языка Нюшу с помощью искусственного интеллекта

Практический пример: ИИ и перевод языка нюйшу

ИИ помогает сохранить нюйшу, редкий фонетический шрифт, созданный женщинами яо в Китае более 400 лет назад. При наличии только 500 оцифрованных пар предложений (по состоянию на 2025 год) перевод нюйшу представляет собой сложную задачу из-за ограниченной документации и уникального соответствия один к одному с китайскими иероглифами. Однако исследователи из Дартмутского колледжа разработали фреймворк «NüshuRescue», который использует передовые модели ИИ, такие как GPT-4-Turbo, для автоматизации переводов и расширения наборов данных для этого исчезающего языка.

Ключевые моменты:

  • История нюйшу: слоговая система с 600-700 символами, исторически используемая женщинами для общения в обществе, где доминировали мужчины.
  • Проблемы: ограниченное количество сохранившихся текстов, отсутствие стандартизированного словаря и иероглифы без прямых современных китайских эквивалентов.
  • Роль ИИ:
    • Фреймворк NüshuRescue: объединяет модели FastText и Seq2Seq для перевода, начиная с набора данных из 500 предложений (NCGold).
    • GPT-4-Turbo: достигла точности 48,69% на невидимых предложениях нюйшу, используя только 35 примеров.
  • Наборы данных:
    • NCGold: 500 вручную отобранных пар предложений нюйшу-китайский.
    • NCSilver: 98 дополнительных переводов, созданных ИИ.
  • Будущие цели: расширение переводов для включения физических артефактов, таких как вышитые платки и веера, с использованием мультимодального ИИ.

Сочетая автоматизацию ИИ с экспертной проверкой, этот проект не только поддерживает сохранение языка, но и обеспечивает точные и уважительные переводы этого исчезающего шрифта.

Фреймворк перевода NüshuRescue ИИ: ключевая статистика и результаты

Фреймворк перевода NüshuRescue ИИ: ключевая статистика и результаты

Может ли ИИ спасти исчезающие коренные языки? | The Take

Как ИИ переводит и сохраняет нюйшу

ИИ стал ключевым игроком в сохранении нюйшу, особенно учитывая, что существует очень мало человеческих экспертов, владеющих этим языком. Перевод этого малоресурсного языка вручную является как дорогостоящим, так и трудоемким, что побудило исследователей исследовать новые методы. Одним из выдающихся примеров этого усилия была презентация на COLING.

В январе 2025 года исследователи Айвори Ян, Вэйчэн Ма и Сороуш Восоги из Дартмутского колледжа представили фреймворк NüshuRescue на 31-й Международной конференции по компьютерной лингвистике (COLING). Эта система использует передовой ИИ для автоматизации переводов и роста лингвистических ресурсов с минимальным человеческим вмешательством. Как они описали:

«NüshuRescue предоставляет универсальный и масштабируемый инструмент для возрождения исчезающих языков, минимизируя необходимость в обширном человеческом вмешательстве.» [1]

Фреймворк решает критическую проблему: отсутствие носителей нюйшу и ученых, способных создавать объем переводов, необходимый для сохранения языка. Используя итеративное обучение и расширение данных, система начала с корпуса из 500 предложений (NCGold) и расширила его, создав NCSilver - вторичный набор данных из 98 вновь переведенных современных китайских предложений. Этот автоматизированный процесс заполняет пробел, оставленный нехваткой человеческих экспертов, делая масштабные усилия по переводу осуществимыми.

Как модели ИИ обрабатывают нюйшу

Обучение ИИ работе с нюйшу сопряжено с собственным набором проблем. Шрифт имеет уникальное соответствие один к одному с китайским - каждый иероглиф нюйшу соответствует точно одному китайскому иероглифу. Чтобы это соответствие оставалось точным, система использует специализированные правила валидации, такие как валидация длины, для сохранения лингвистической точности на протяжении всего процесса [3].

Фреймворк NüshuRescue использует комбинацию технологий ИИ для обработки этих сложностей. Модели FastText используются для кодирования двуязычных отношений между нюйшу и китайским языком, а модели Sequence-to-Sequence (Seq2Seq) управляют прямыми переводами между двумя шрифтами. Этот гибридный подход позволяет ИИ понимать уникальную структуру нюйшу, даже с ограниченным набором данных [3].

Хотя человеческий ввод по-прежнему является частью процесса - двуязычные аннотаторы консультируются с онлайн-конвертерами и справочными печатными работами, такими как Сборник китайского нюйшу - большая часть работы по переводу выполняется ИИ. Это резко снижает стоимость и время, необходимые для сохранения языка, делая усилия более практичными и устойчивыми [3].

Роль GPT-4-Turbo в переводе нюйшу

GPT-4-Turbo

Основываясь на этих методах, передовые модели, такие как GPT-4-Turbo, обеспечивают еще большую эффективность при переводе нюйшу. Используя технику, называемую обучением «few-shot», GPT-4-Turbo может достичь впечатляющих результатов с очень ограниченными данными. В отличие от традиционных систем, требующих тысячи примеров, GPT-4-Turbo может начать создавать точные переводы всего с 35 примерами. Например, команда Дартмута предоставила модели 35 предложений из корпуса NCGold и достигла точности перевода 48,69% на 50 скрытых предложениях нюйшу [1][4].

Этот подход подчеркивает потенциал сохранения языков с дефицитом данных. GPT-4-Turbo продемонстрировала, что она может обобщить лингвистические закономерности и структуру нюйшу всего из нескольких примеров. Это делает возможным работу с языками, которые имеют мало или вообще не имеют цифрового присутствия - категория, которая включает нюйшу и многие коренные языки по всему миру [1].

По мере того как модель обрабатывает больше переводов, она уточняет свое понимание уникальных характеристик нюйшу, создавая цикл обратной связи, который со временем повышает точность. Этот автоматизированный цикл обучения и совершенствования - это то, чего ручные усилия одни едва ли смогли бы достичь, учитывая ограниченное количество экспертов нюйшу [3].

Результаты: прогресс в переводе нюйшу с помощью ИИ

Проект добился успехов в достижении баланса между масштабируемостью и сохранением сущности нюйшу. Используя фреймворк NüshuRescue, исследователи достигли точности перевода 48,69% на 50 невидимых предложениях нюйшу с помощью GPT-4-Turbo, полагаясь всего на 35 примеров NCGold [1]. Это демонстрирует, как обучение few-shot может быть эффективным для исчезающих, малоресурсных языков. В отличие от традиционных систем перевода, требующих тысячи примеров, NüshuRescue доказывает, что значительный прогресс возможен с ограниченными данными. Как заметил Сороуш Восоги, доцент кафедры компьютерных наук Дартмутского колледжа:

«Наша работа демонстрирует, что генеративный ИИ и большие языковые модели значительно снижают барьеры для возрождения исчезающих языков, быстро создавая ценные лингвистические ресурсы даже из минимальных данных.» [2]

Расширение набора данных с помощью NCGold и NCSilver

Успех этой инициативы во многом обусловлен двумя ключевыми наборами данных. Во-первых, NCGold, краеугольный камень проекта, представляет собой сборку 500 вручную отобранных пар предложений нюйшу-китайский - первый общедоступный параллельный корпус для нюйшу [1].

Основываясь на NCGold, команда создала NCSilver, вторичный набор данных, созданный с помощью GPT-4-Turbo. Он включает 98 современных китайских предложений, переведенных на нюйшу [1]. Этот шаг связывает исторический шрифт с современными контекстами, прокладывая путь для будущих усилий по переводу. Чтобы обеспечить точность, был применен автоматизированный процесс валидации длины, поддерживающий соответствие один к одному между символами нюйшу и китайского.

Оба набора данных теперь доступны на GitHub, что позволяет исследователям по всему миру участвовать и расширять эту работу. Подавая переводы NCSilver обратно в модель, команда создает цикл обратной связи, который повышает точность в будущем. Эти наборы данных также играют решающую роль в защите культурных нюансов нюйшу.

Сохранение культурного контекста в переводах ИИ

Фреймворк выходит за рамки технических достижений и решает проблемы культурного сохранения. Нюйшу, фонетический шрифт, традиционно используемый женщинами яо в округе Цзянъюн провинции Хунань, был средством самовыражения [1]. Фреймворк NüshuRescue объединяет автоматизированный перевод с человеческим надзором, чтобы почтить это наследие. Двуязычные аннотаторы уточняют переводы, созданные ИИ, разрешая неоднозначности и исправляя ошибки, особенно для терминов, отсутствующих в стандартных словарях.

Чтобы сохранить подлинность, данные обучения берутся из проверенных исторических текстов, а не из современных переинтерпретаций. Это гарантирует, что ИИ захватит оригинальное использование языка и избежит наложения современных лингвистических закономерностей на древний шрифт.

Глядя в будущее, команда стремится выйти за пределы текста. Айвори Ян, аспирантка кафедры компьютерных наук Дартмутского колледжа, поделилась следующими шагами:

«Есть платки и плавающие веера с надписями нюйшу. Итак, следующий шаг - построить мультимодальные модели, которые могут использовать компьютерное зрение для захвата этих изображений и обучить модель распознавать и переводить символы для нас.» [2]

Это будущее направление может позволить ИИ анализировать физические артефакты, расширяя усилия по сохранению на предметы за пределами оцифрованных текстов.

Этические проблемы в переводе нюйшу с помощью ИИ

ИИ позволил быстро генерировать текст на нюйшу в масштабе, который команды людей никогда не смогли бы достичь. Однако обеспечение того, чтобы эта технология уважала культурную глубину нюйшу, - это непростая задача. Первоначально созданный женщинами яо в провинции Хунань как частный шрифт для общения в обществе, которое отрицало им формальное образование, нюйшу несет в себе глубокую историю устойчивости и сестринства. Каждое решение о переводе имеет культурное значение, и обращение с языком как с простым набором данных рискует лишить его уникальной сущности. Вот почему сочетание автоматизации ИИ с человеческим опытом имеет решающее значение для защиты наследия нюйшу.

Объединение человеческого опыта с автоматизацией ИИ

Фреймворк NüshuRescue демонстрирует важность участия человека в этических усилиях по переводу. Двуязычные аннотаторы играют здесь ключевую роль, тщательно проверяя переводы, созданные ИИ, и сравнивая их с авторитетными печатными источниками. Этот шаг важен, поскольку фонетическая система нюйшу позволяет одному символу представлять до 35 китайских иероглифов с идентичным произношением, но разными значениями [7][8]. ИИ один не может решить такие сложности.

Сороуш Восоги, доцент кафедры компьютерных наук Дартмутского колледжа, подчеркнул эту точку:

«Активное участие носителей языка и лингвистов необходимо для обеспечения лингвистической подлинности и культурной верности. ИИ и знания сообщества одинаково важны для значимых усилий по сохранению.» [2]

Это сотрудничество между людьми и ИИ - это не только вопрос точности - это касается более глубоких вопросов, таких как предвзятость в моделях ИИ, которые исследуются далее ниже.

Устранение предвзятости в моделях обучения ИИ

Модели ИИ часто наследуют предвзятость от доминирующих культур и высокоресурсных языков, на которых они обучаются. При применении к малоресурсному шрифту, такому как нюйшу, эта предвзятость может привести к тонким, но вредным искажениям. Восоги подчеркнул эту проблему:

«Эти модели по своей сути несут риск введения предвзятости из доминирующих культур, потенциально искажая или чрезмерно упрощая нюансированные культурные идентичности.» [2]

Чтобы решить эту проблему, команда NüshuRescue полагалась на проверенные экспертами исторические тексты, а не на современные переинтерпретации для данных обучения. Они также реализовали строгие валидаторы длины, чтобы убедиться, что выходные данные ИИ совпадают с количеством символов в исходном материале. Из 398 официально закодированных в Unicode символов нюйшу наиболее полный источник, проверенный экспертами, учитывает только 374 уникальных символа [7][8]. Это подчеркивает пробелы в официальном учете, где человеческий опыт остается необходимым для ответственного заполнения этих разрывов.

Как BookTranslator.ai поддерживает сохранение исчезающих языков

BookTranslator.ai

NüshuRescue показал нам, как ИИ может вдохнуть жизнь в исчезающие шрифты, но BookTranslator.ai делает еще один шаг вперед, делая эти усилия доступными для всех. Проблемы, описанные в фреймворке NüshuRescue, напоминают нам, что спасение исчезающих языков - это не просто их реконструкция - это их широкое распространение. Платформы на основе ИИ, такие как BookTranslator.ai, заполняют пробел между академическими исследованиями и общественным доступом, открывая литературу на исчезающих языках читателям по всему миру. Этот переход от нишевых академических кругов к глобальной аудитории подчеркивает, как ИИ может помочь демократизировать доступ к этим культурным сокровищам.

Расширение доступа через переводы на основе ИИ

ЮНЕСКО предупреждает, что почти половина из 7000 языков мира может исчезнуть к концу этого века, при этом коренной язык исчезает примерно каждые две недели. Главный фактор этого упадка? Отсутствие этих языков на цифровых платформах. Когда язык не представлен в Интернете, его культурные материалы становятся более сложными для доступа, обмена и изучения [6].

BookTranslator.ai решает эту проблему напрямую, предлагая перевод EPUB одним щелчком более чем на 99 языках. Для исчезающих языков, таких как нюйшу, эта возможность гарантирует, что их истории и культурные повествования смогут достичь глобальной аудитории - без необходимости в высокоспециализированных командах переводчиков.

Значение этой работы подчеркивается исследователями NüshuRescue:

«Сохранение и возрождение исчезающих и вымерших языков - это значимое начинание, сохраняющее культурное наследие и обогащающее такие области, как лингвистика и антропология.» - Айвори Ян, Вэйчэн Ма и С