Опорна мова

Опорна мова (англ. pivot language), яку іноді також називають мостовою мовою (англ. bridge language), - це штучна або природна мова, що використовується як мова-посередниця для перекладу між багатьма різними мовами - для перекладу між будь-якою парою мов A та B, одна перекладає A на опорну мову P, потім від P на B. Використання опорної мови дозволяє уникнути комбінаторного вибуху - наявності перекладачів для кожної комбінації підтримуваних мов, оскільки кількість комбінацій мови є лінійною ( $n-1$ ), а не квадратичною $\left(\textstyle {\binom {n}{2}}={\frac {n^{2}-n}{2}}\right)$ - потрібно лише знати мову A та опорну мову P (а комусь іншому мову B та опорну P), а не потребувати іншого перекладача для кожної можливої комбінації A та B.

Недоліком опорної мови є те, що кожен крок повторного перекладу вносить можливі помилки та двозначності - використання опорної мови передбачає два кроки, а не один. Наприклад, коли Ернан Кортес спілкувався з індіанцями Месоамерики, він говорив іспанською з Херонімо де Агіляром, той говорив маянською з Малінцином, а той говорив з місцевими жителями мовою науатль.

Приклади

Англійська, французька, російська та арабська мови часто використовуються як опорні. Інтерлінгва була використана як основна мова на міжнародних конференціях і була запропонована як основна мова для Європейського Союзу.[1] Есперанто було запропоновано як основну мову у проєкті «Переклад розподіленою мовою», і таким чином її було використано у Majstro Tradukvortaro на вебсайті есперанто Majstro.com. Універсальна мережева мова - це штучна мова, спеціально розроблена для використання як опорної мови.

У обчислювальній техніці

Опорне кодування також є поширеним методом перекладу даних для комп'ютерних систем. Наприклад, інтернет-протокол, XML і мови високого рівня є опорними кодуваннями комп'ютерних даних, які потім часто перетворюються у внутрішні виконавчі формати для конкретних комп'ютерних систем.

Юнікод був розроблений для використання в якості опорного кодування між різними основними наявними кодуваннями символів, хоча його широке поширення в якості самостійного кодування зробило це використання несуттєвим.

У машинному перекладі

Сучасні системи статистичного машинного перекладу (СМП/SMT) для досягнення хороших результатів використовують паралельні тексти для джерельної (s) і цільової (t) мов, але хороші паралельні тексти доступні не для всіх мов. Опорна мова (p) дозволяє встановити міст між двома мовами, для яких повністю або частково ще немає наявних паралельних текстів.

Опорний переклад може бути проблематичним через потенційну відсутність вірності переданих відомостей при використанні різних текстів. При використанні двох двомовних текстів (s-p і p-t) для створення моста s-t лінгвістичні дані неминуче втрачаються. Машинний переклад на основі правил (МПОП/RBMT) допомагає системі відновити ці дані, тож система не покладається повністю на статистику, вона покладається також і на структурні лінгвістичні відомості.

Для використання опорної мови в машинному перекладі використовуються три основні методи:

(1) тріангуляція, яка фокусується на паралелізмі фраз між джерельною та опорною мовою (s-p) і між опорною та цільовою (p-t);

(2) перенесення (трансфер), при якому всі пропозиції джерельної мови перекладаються на опорну мову, а потім на мову перекладу;

(3) синтез, при якому створюється власний корпус для навчання системи.

Метод тріангуляції (також званий множенням таблиці фраз) розраховує ймовірність як перекладацьких відповідностей, так і лексичної ваги в s-p і p-t, щоб спробувати скласти нову таблицю фраз s-t. Метод перенесення (також званий стратегією перекладу пропозицій) просто здійснює прямий переклад s в p, а потім інший переклад p в t без використання імовірнісних тестів (як у тріангуляції). Синтетичний метод використовує наявний корпус s і намагається побудувати з нього власний синтетичний корпус, який використовується системою для навчання. Потім синтезується двомовний корпус s-p, щоб забезпечити переклад p-t.

Пряме порівняння між методами тріангуляції та перенесення (трансферу) для систем SMT показало, що тріангуляція досягає набагато кращих результатів, ніж перенесення (трансфер).

Усі три методи опорної мови підвищують продуктивність систем SMT. Однак синтетична техніка не працює добре з RBMT, і продуктивність систем нижче, ніж очікувалося. Гібридні системи SMT/RBMT досягають кращої якості перекладу, ніж системи суворого SMT, які спираються на погані паралельні тексти.

Ключова роль систем RBMT полягає в тому, що вони допомагають заповнити прогалину, залишену в процесі перекладу sp → pt, у тому сенсі, що ці паралелі включені до моделі SMT для s-t.

Посилання

Breinstrup, Thomas. "Linguaphobos? Non in le UE". [Linguaphobes? Not in the EU]. Panorama in Interlingua, 2006, Issue 5.

Hua Wu and Haifeng Wang. 2009. Revisiting Pivot Language Approach for Machine Translation. ACL-09.
Utiyama, M. & H. Isahara (2006) A comparison of pivot methods for phrase-based statistical machine translation. In Proceedings of NAACL/HLT, 484{491.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Breinstrup, Thomas. "Linguaphobos? Non in le UE". [Linguaphobes? Not in the EU]. Panorama in Interlingua, 2006, Issue 5.