Історія машинного перекладу
Машинний переклад – виконувана комп’ютером операція з перетворення тексту однієї природної мови у еквівалентний за змістом текст іншою мовою. Сучасний машинний чи автоматичний переклад втілюється за допомогою людини: передредактора, що тим чи іншим чином виконує попередню обробку тексту, інтерредактора, що бере безпосередню участь у перекладі та постредактора, що виправляє недоліки та помилки в перекладеному тексті.
Початок історії машинного перекладу датується сімнадцятим століттям, коли філософи Лейбніц і Декарт прогнозували створення кодів, що могли б зв’язати слова між мовами. Попри те, ці пропозиції залишились теоретичними і не стали основою створення фактичної машини.
Перші розробки
Вперше можливість машинного перекладу на практиці передбачив Ч. Беббідж, що у першій половині 19 століття працював над проектом цифрової аналітичної машини – механічного прототипу електронних цифрових обчислювальних машин. Процес перекладу він уявляв так: «В мене перед очима текст, написаний російською, але я збираюсь уявити, що насправді він написаний англійською, але за допомогою доволі дивних знаків. Все, що мені потрібно – це зламати код для того, щоб вилучити інформацію, що міститься у тексті.»
Перші патенти на створення перекладацьких машин було видано у середині 30-х років минулого століття. Ідея науковця з Західної Європи полягала у створенні автоматичного двомовного словника на основі перфострічки, але проект росіянина П. Троянського був детальнішим. Винайдений ним пристрій включав двомовний словник, здатний оперувати граматичними особливостями за принципом мови есперанто. Система поділялася на три стадії. Спочатку носій мови мав розподілити слова за їх логічними формами та синтаксичними функціями. Потім машина мала виконати переклад на потрібну мову, а носій – відредагувати висхідний матеріал.
Меморандум Вівера та подальші дослідження
Першу пропозицію машинного перекладу за допомогою комп’ютера було висунуто Уорреном Вівером, дослідником з Фонду Рокфеллера у його меморандумі. Пропозиції базувалися на інформаційній теорії, успіхах у зламуванні кодів протягом другої світової війни та обговореннях універсальних та основних принципів мов. За кілька років після опублікування меморандуму розпочалися серйозні дослідження у багатьох університетах Сполучених Штатів. 7 січня 1954 у Нью-Йорку в головному офісі IBM було вперше проведено публічну демонстрацію системи машинного перекладу (МП). Про демонстрацію повідомили в газетах, тож подія отримала широкий розголос. Попри те, що сама система мала лише 250 слів та 49 перекладених на англійську російськомовних речень (головним чином у області хімії) і була доволі примітивною, вона продемонструвала перспективи машинного перекладу, стимулювавши фінансування цього дослідження не тільки у США, а й у всьому світі. Експеримент було визнано успішним, що сповістило про початок ери вагомих капіталовкладень у дослідження машинного перекладу. Автори стверджували, що за кілька років машинний переклад буде повністю втілено в життя.
У ранніх системах використовувались великі двомовні словники та закодовані вручну правила для визначення порядку слів у висхідному продукті. У результаті цей метод було визнано занадто обмеженим, а завдяки тогочасному розвитку лінгвістики для покращення якості перекладу було запропоновано дослідження генеративної лінгвістики та трансформаційної граматики. Але в цей час операційні системи вже застосовувались. Військово-повітряні сили США використовували систему, розроблену ІВМ і Вашингтонським університетом, в той час як на ВПС Італії працювала розробка Джорджтаунського університету. Попри те, що якість продукції була низькою, це задовольняло клієнтів, в основному з точки зору швидкості.
Наприкінці 1950-х Г. Бар, дослідник, що на замовлення США вивчав можливість створення повністю автоматичного якісного перекладу, наголосив на проблемі семантичної двозначності під час машинного перекладу. Розгляньмо наступний приклад: Little John was looking for his toy box. Finally he found it. The box was in the pen. Слово «pen» має два значення: прилад, що використовується на письмі і певний контейнер. Для людини значення є очевидним, але машина без «універсальної енциклопедії» ніколи не зможе вирішити цю проблему. Сьогодні проблема семантичної двозначності може бути вирішена шляхом написання висхідних текстів контрольованою мовою, тобто застосовуючи словник, у якому для кожного слова є тільки одне значення.
1960-ті, звіт ALPAC
Дослідження 1960-х років у СРСР та Сполучених Штатах сконцентрувались головним чином на російсько-англійській мовній парі. В основному об’єктами перекладу виступали науково-технічні документи, як от статті з наукових журналів. Недбалий переклад був достатнім для розуміння сенсу статей. Якщо стаття стосувалася інтересів безпеки, її надсилали живому перекладачу для повного перекладу, решту ж перекладали автоматично. МП зазнав нищівного удару у 1966 році разом із публікацією звіту ALPAC (дорадчого комітету з автоматичної мовної обробки), що складався з семи вчених, скликаних американським урядом у 1964. Американський уряд був занепокоєний повільним просуванням експерименту попри значні видатки, тож було ухвалено рішення, що машинний переклад був дорожчим, менш точним та повільнішим за людський, і незважаючи на витрати, машинний переклад навряд чи досягне якості людського найближчим часом. Однак, у звіті рекомендували продовжувати дослідження у галузі комп’ютерної лінгвістики та створити автоматичні словники, що допомагали б перекладачам.
Публікація звіту вплинула на дослідження машинного перекладу у Сполучених Штатах, меншою мірою – у Радянському Союзі та Великій Британії. Звіт, принаймні, майже повністю припинив будь-які дослідження у Сполучених Штатах майже на десятиліття. Однак, у Канаді, Франції та Німеччині дослідження продовжувались; у 1970 систему Systran використовували ВПС США, і, як наслідок, Комісією європейської економічної спільноти. Систему МЕТЕО, розроблену в Університеті Монреаля, було застосовано у 1977 року в Канаді для перекладу прогнозів погоди з англійської мови на французьку. Система перекладала близько 80 000 слів в день або 30 млн слів на рік, поки не була замінена системою конкурента 30-го вересня 2001.
1970-ті - сьогодення
В той час як дослідження 1960-х концентрувалися на проблемі обмеження мовних пар та системі вводу інформації, протягом 1970-х років постала потреба в недорогих системах, що змогли б перекладати діапазон технічних та комерційних документів. Ця вимога заохочувалася посиленням глобалізації та потреби перекладів в Канаді, Європі та Японії. До 1980-х років збільшилось різноманіття та число встановлених систем для машинного перекладу. Збільшилась кількість систем, що працювали на основі електронно-обчислювальних машин, як от Systran і Logos. Поширення мікрокомп’ютерів знаменувало створення дешевого ринку систем машинного перекладу, тому багато європейських, американських та японських компаній не втратили шансів цим скористатися. Схожі системи потрапили на ринки Китаю, Східної Європи, Кореї та Радянського Союзу.
Протягом 1980-х жвава діяльність у галузі машинного перекладу розгорнулася в Японії. Завдяки комп’ютеру п’ятого покоління Японія мала намір перестрибнути конкурентів у галузі елементів електронних пристроїв та програмного забезпечення. Багато великих японських компаній було залучено до роботи над створенням англо-японських та японо-англійських штучних перекладачів. У дослідженнях 1980-х років переклад вбачався як певний різновид проміжного лінгвістичного відтворення, що залучає морфологічний аналіз разом з синтаксичним та семантичним. Наприкінці 1980-х відбувся вагомий стрибок у галузі створення нових методів для машинного перекладу. Система, розроблена ІВМ, базувалася на статистичних методах, інші групи застосовували техніку, що базується на великій кількості перекладів як зразків.
Протягом 1990-х років, після успіхів у розпізнанні мови та мовному синтезі, дослідження перейшло у стадію мовного перекладу. Відбувся значний ріст використання машинного перекладу в результаті появи дешевих та потужних комп’ютерів. На початку 1990-х машинний переклад став можливим не тільки на великих базових комп’ютерах, а й на персональних комп’ютерах та автоматизованих робочих місцях.