사례 연구: AI와 여서(女書) 언어 번역

AI는 400년 이상 전에 중국의 야오족 여성들이 만든 희귀한 음절 문자인 여서(女書)를 보존하는 데 도움을 주고 있습니다. 2025년 현재 디지털화된 문장 쌍이 500개에 불과하기 때문에, 여서의 제한된 문서화와 중국 문자와의 독특한 일대일 대응으로 인해 여서 번역은 어려운 과제입니다. 그러나 다트머스 칼리지의 연구자들은 GPT-4-Turbo와 같은 고급 AI 모델을 사용하여 번역을 자동화하고 이 위기에 처한 언어의 데이터 세트를 확장하는 "여서구조(NüshuRescue)" 프레임워크를 개발했습니다.

주요 내용:

여서의 배경: 600~700개의 문자를 가진 음절문자로, 역사적으로 남성 중심 사회에서 여성들의 의사소통 수단으로 사용되었습니다.
과제: 제한된 현존 텍스트, 표준화된 사전 부재, 현대 중국어와 직접적인 대응이 없는 문자들.
AI의 역할:
- 여서구조 프레임워크: 500개 문장 데이터 세트(NCGold)로 시작하여 FastText와 Seq2Seq 모델을 결합하여 번역을 수행합니다.
- GPT-4-Turbo: 단 35개의 예시만으로 보지 못한 여서 문장에서 48.69%의 정확도를 달성했습니다.
데이터 세트:
- NCGold: 수동으로 선별된 500개의 여서-중국어 문장 쌍.
- NCSilver: AI가 생성한 98개의 추가 번역.
향후 목표: 멀티모달 AI를 사용하여 자수 손수건 및 부채와 같은 물리적 유물을 포함하도록 번역 확대.

AI 자동화와 전문가 검토를 혼합함으로써, 이 프로젝트는 언어 보존을 지원할 뿐만 아니라 이 위기에 처한 문자의 정확하고 존중하는 번역을 보장합니다.

AI가 위기에 처한 토착 언어를 구할 수 있을까? | The Take

AI가 여서(女書)를 번역하고 보존하는 방법

AI는 특히 여서에 능숙한 인간 전문가가 거의 없기 때문에 여서 보존에 핵심적인 역할을 하고 있습니다. 이 저자원 언어를 수동으로 번역하는 것은 비용이 많이 들고 시간이 많이 소요되기 때문에, 연구자들은 새로운 방법을 모색하도록 촉발되었습니다. 이러한 노력의 뛰어난 예는 COLING에서 발표되었습니다.

2025년 1월, 다트머스 칼리지의 연구자 Ivory Yang, Weicheng Ma, Soroush Vosoughi는 제31차 국제 계산언어학 컨퍼런스(COLING)에서 여서구조 프레임워크를 소개했습니다. 이 시스템은 고급 AI를 활용하여 번역을 자동화하고 최소한의 인간 개입으로 언어 자원을 증대시킵니다. 그들이 설명한 바와 같이:

"여서구조는 광범위한 인간 개입의 필요성을 최소화하면서 위기에 처한 언어의 부흥을 위한 다목적이고 확장 가능한 도구를 제공합니다." ^[1]

프레임워크는 중요한 문제를 해결합니다: 언어 보존을 위해 필요한 번역의 양을 생산할 수 있는 여서 사용자 및 학자의 부족입니다. 반복 학습과 데이터 증강을 사용하여, 시스템은 500개 문장의 시드 코퍼스(NCGold)로 시작하여 NCSilver를 생성함으로써 확장되었습니다 - 새로 번역된 현대 중국어 문장 98개의 보조 데이터 세트입니다. 이 자동화된 프로세스는 인간 전문가의 부족으로 인한 격차를 채우므로, 대규모 번역 노력이 가능해집니다.

AI 모델이 여서를 처리하는 방법

여서와 작업하도록 AI를 훈련하는 것은 자체적인 과제를 안고 있습니다. 이 문자는 중국어와의 독특한 일대일 문자 대응을 가지고 있습니다 - 각 여서 문자는 정확히 하나의 중국 문자에 대응됩니다. 이 대응이 정확하게 유지되도록 하기 위해, 시스템은 길이 검증과 같은 특화된 검증 규칙을 사용하여 프로세스 전체에서 언어 정확성을 유지합니다 ^[3].

여서구조 프레임워크는 이러한 복잡성을 처리하기 위해 AI 기술의 조합을 사용합니다. FastText 모델은 여서와 중국어 사이의 이중언어 관계를 인코딩하는 데 사용되며, Sequence-to-Sequence(Seq2Seq) 모델은 두 문자 사이의 직접 번역을 관리합니다. 이 하이브리드 접근 방식은 제한된 데이터 세트에도 불구하고 AI가 여서의 고유한 구조를 이해할 수 있게 합니다 ^[3].

인간 입력이 여전히 프로세스의 일부입니다 - 이중언어 주석자들은 온라인 변환기와 중국 여서 종합과 같은 인쇄된 참고서를 참고합니다 - 번역 작업의 대부분은 AI에 의해 처리됩니다. 이는 언어를 보존하는 데 필요한 비용과 시간을 대폭 줄여서 노력을 더 실용적이고 지속 가능하게 만듭니다 ^[3].

GPT-4-Turbo의 여서 번역에서의 역할

GPT-4-Turbo

이러한 방법을 바탕으로, GPT-4-Turbo와 같은 고급 모델은 여서 번역에 훨씬 더 큰 효율성을 가져옵니다. "소수 샷(few-shot)" 학습이라는 기법을 사용하여, GPT-4-Turbo는 매우 제한된 데이터로도 인상적인 결과를 달성할 수 있습니다. 수천 개의 예시를 요구하는 기존 시스템과 달리, GPT-4-Turbo는 단 35개의 시드 예시로 정확한 번역을 생성하기 시작할 수 있습니다. 예를 들어, 다트머스 팀은 모델을 NCGold 코퍼스의 35개 문장에 노출시키고 보류된 50개의 여서 문장에서 48.69%의 번역 정확도를 달성했습니다 ^[1]^[4].

이 접근 방식은 희소한 데이터를 가진 언어를 보존할 수 있는 잠재력을 강조합니다. GPT-4-Turbo는 단 몇 개의 예시에서 여서의 언어 패턴과 구조를 일반화할 수 있음을 보여주었습니다. 이는 디지털 존재가 거의 없거나 전혀 없는 언어, 즉 여서와 전 세계의 많은 토착 언어를 포함하는 범주와 함께 작업할 수 있게 합니다 ^[1].

모델이 더 많은 번역을 처리할수록, 여서의 고유한 특징에 대한 이해를 정제하여 시간이 지남에 따라 정확도를 향상시키는 피드백 루프를 만듭니다. 이러한 학습과 개선의 자동화된 사이클은 이용 가능한 여서 전문가의 수가 제한되어 있다는 점을 감안할 때, 수동 노력만으로는 달성하기 어려울 것입니다 ^[3].

결과: 여서 AI 번역의 진전

이 프로젝트는 확장성과 여서의 본질 보존 사이의 균형을 유지하는 데 진전을 이루었습니다. 여서구조 프레임워크를 사용하여, 연구자들은 단 35개의 NCGold 예시에 의존하여 GPT-4-Turbo로 보지 못한 50개의 여서 문장에서 48.69%의 번역 정확도를 달성했습니다 ^[1]. 이는 소수 샷 학습이 위기에 처한 저자원 언어에 얼마나 효과적일 수 있는지를 보여줍니다. 수천 개의 예시를 요구하는 기존 번역 시스템과 달리, 여서구조는 제한된 데이터로도 의미 있는 진전이 가능함을 입증합니다. 다트머스 칼리지 컴퓨터 과학 조교수인 Soroush Vosoughi가 지적했듯이:

"우리의 작업은 생성형 AI와 대규모 언어 모델이 위기에 처한 언어의 부흥에 대한 장벽을 크게 낮추고, 최소한의 데이터에서도 빠르게 귀중한 언어 자원을 생산할 수 있음을 보여줍니다." ^[2]

NCGold 및 NCSilver를 통한 데이터 세트 확장

이 이니셔티브의 성공은 두 가지 주요 데이터 세트 덕분입니다. 먼저 NCGold는 프로젝트의 초석으로, 500개의 수동으로 선별된 여서-중국어 문장 쌍의 모음입니다 - 여서를 위한 첫 번째 공개적으로 이용 가능한 병렬 코퍼스입니다 ^[1].

NCGold를 바탕으로, 팀은 NCSilver를 만들었습니다. 이는 GPT-4-Turbo를 사용하여 생성된 보조 데이터 세트입니다. 여기에는 여서로 번역된 98개의 현대 중국어 문장이 포함됩니다 ^[1]. 이 단계는 역사적 문자와 현대 맥락을 연결하여 향후 번역 노력의 길을 닦습니다. 정확성을 보장하기 위해, 자동화된 길이 검증 프로세스가 사용되어 여서와 중국어 사이의 일대일 문자 대응을 유지합니다.

두 데이터 세트 모두 이제 GitHub에서 접근 가능하며, 전 세계 연구자들이 이 작업에 기여하고 확장할 수 있게 합니다. NCSilver 번역을 모델에 다시 피드함으로써, 팀은 향후 정확도를 향상시키는 피드백 루프를 만듭니다. 이러한 데이터 세트는 또한 여서의 문화적 미묘함을 보호하는 데 중요한 역할을 합니다.

AI 번역에서 문화적 맥락 보존

프레임워크는 기술적 성과를 넘어 문화 보존을 다룹니다. 여서는 후난성 장양현에서 야오족 여성들이 전통적으로 사용한 음절 문자로, 자기표현의 매개체였습니다 ^[1]. 여서구조 프레임워크는 자동화된 번역과 인간의 감시를 결합하여 이 유산을 존중합니다. 이중언어 주석자들은 AI가 생성한 번역을 정제하여 모호성을 해결하고 오류를 수정하며, 특히 표준 사전에 없는 용어의 경우 그렇습니다.

진정성을 유지하기 위해, 훈련 데이터는 현대적 재해석이 아닌 검증된 역사 텍스트에서 추출됩니다. 이는 AI가 언어의 원래 사용을 포착하고 고대 문자에 현대적 언어 패턴을 부과하는 것을 피할 수 있게 합니다.

앞으로, 팀은 텍스트를 넘어 확장할 계획입니다. 다트머스 칼리지 컴퓨터 과학 대학원생인 Ivory Yang은 다음 단계를 공유했습니다:

"여서 글씨가 쓰여 있는 손수건과 떠다니는 부채들이 있습니다. 그래서 다음 단계는 컴퓨터 비전을 사용하여 이러한 이미지를 캡처하고 문자를 인식하고 번역하도록 모델을 훈련할 수 있는 멀티모달 모델을 구축하는 것입니다." ^[2]

이 향후 방향은 AI가 물리적 유물을 분석하여 디지털화된 텍스트를 넘어 보존 노력을 확장할 수 있게 할 수 있습니다.

AI 기반 여서 번역의 윤리적 과제

AI는 여서 텍스트를 빠르게 그리고 인간 팀만으로는 절대 달성할 수 없는 규모로 생성할 수 있게 만들었습니다. 그러나 이 기술이 여서의 문화적 깊이를 존중하는지 확인하는 것은 작은 과제가 아닙니다. 원래 후난성의 야오족 여성들이 공식 교육이 거부된 사회에서 의사소통하기 위한 개인 문자로 만들어진 여서는 회복력과 자매애의 깊은 역사를 담고 있습니다. 각 번역 결정은 문화적 의미를 가지고 있으며, 언어를 단순한 데이터 세트로 취급하는 것은 그 고유한 본질을 벗겨낼 위험이 있습니다. 이것이 AI 자동화와 인간 전문성을 혼합하는 것이 여서의 유산을 보호하는 데 중요한 이유입니다.

인간 전문성과 AI 자동화의 결합

여서구조 프레임워크는 윤리적 번역 노력에서 인간 개입의 중요성을 보여줍니다. 이중언어 주석자들은 여기서 핵심 역할을 하며, AI가 생성한 번역을 꼼꼼히 검토하고 권위 있는 인쇄된 출처와 비교합니다. 이 단계는 필수적입니다. 왜냐하면 여서의 음절 시스템은 단일 기호가 동일한 발음을 가지지만 다른 의미를 가진 최대 35개의 중국 문자를 나타낼 수 있기 때문입니다 ^[7]^[8]. AI만으로는 이러한 복잡성을 해결할 수 없습니다.

다트머스 칼리지의 컴퓨터 과학 조교수인 Soroush Vosoughi는 이 점을 강조했습니다:

"언어 정확성과 문화적 충실성을 보장하기 위해 모국어 사용자와 언어학자의 적극적인 참여가 필수적입니다. AI와 커뮤니티 전문성은 모두 의미 있는 보존 노력을 위해 근본적입니다." ^[2]

인간과 AI 사이의 이러한 협업은 단순히 정확성에 관한 것이 아닙니다 - 아래에서 더 탐구되는 AI 모델 내의 편향과 같은 더 깊은 문제를 해결하는 것입니다.

AI 훈련 모델의 편향 해결

AI 모델은 종종 그들이 훈련된 지배적 문화와 고자원 언어의 편향을 상속받습니다. 여서와 같은 저자원 문자에 적용될 때, 이러한 편향은 미묘하지만 해로운 왜곡으로 이어질 수 있습니다. Vosoughi는 이 과제를 강조했습니다:

"이러한 모델은 본질적으로 지배적 문화의 편향을 도입할 위험을 안고 있으며, 잠재적으로 미묘한 문화적 정체성을 왜곡하거나 단순화할 수 있습니다." ^[2]

이를 해결하기 위해, 여서구조 팀은 현대적 재해석이 아닌 전문가가 검증한 역사 텍스트에 의존했습니다. 또한 AI 출력이 원본 자료의 문자 수와 일치하도록 엄격한 길이 검증자를 구현했습니다. 공식적으로 유니코드로 인코딩된 398개의 여서 문자 중, 가장 포괄적인 전문가 검증 출처는 374개의 고유 문자만 설명합니다 ^[7]^[8]. 이는 공식 기록의 격차를 강조하며, 인간 전문성이 책임감 있게 그 격차를 메우기 위해 필수적임을 보여줍니다.