Визначення мови

Ідентифікація мови (англ. language identification), в методиці обробки природної мови — визначення мови. Проблема ідентифікації мови є особливим випадком категоризації тексту і вирішується з використанням статистичних методів.

Огляд

Для ідентифікації мови реалізується архітектура PPRLM (parallel phonemes recognition + language model) з паралельним підключенням фонетичних розпізнавачів, навчених на декількох мовах. Фонетичне розпізнавання виконується на основі прихованих марковських моделей (ПММ) за допомогою алгоритму Вітербі.

Для прийняття рішення щодо приналежності мовного повідомлення до тієї чи іншої цільової мови реалізується підхід з класифікатором на основі методу опорних векторів (SVM — support vector machines).

Принцип роботи системи, побудованої на основі класичного PPRLM, полягає в наступному:

  1. в системі присутні кілька фонетичних розпізнавачів;
  2. кожен вхідний звуковий файл розпізнається фонетичними розпізнавачами;
  3. за результуючою послідовністю фонем кожного фонетичного розпізнавача рахуються міри близькості до моделі n-gramm тієї чи іншої цільової мови;
  4. мова з максимальною мірою близькості моделі n-gramm вважається такою, що перемогла.

У вдосконалених системах PPRLM ідентифікація мови реалізується у вигляді відкритої задачі: проводиться перевірка: «належить» / «не належить» оброблений файл цільовій мові, рішення приймається автоматично з урахуванням порога, встановленого користувачем.

До базового алгоритму додаються наступні кроки:

  1. на результуючу послідовність фонем кожного фонетичного розпізнавача накладається модель n-gramm тієї чи іншої "опорної" мови і рахуються міри близькості моделі n-gramm до послідовності фонем;
  2. повний набір мір близькості моделей n-gramm до послідовностей фонем є вхідним вектором для класифікатора SVM;
  3. за результатом класифікації SVM-класифікатором приймається рішення про приналежність до цільової мови за допомогою порівняння з встановленим порогом для кожної цільової мови окремо.

Звуковий файл є вимовленим цільовою мовою, якщо оцінка, що надана SVM-класифікатором, більше порога. При цьому звуковий файл може бути віднесений до однієї або декількох мов одночасно або не віднесений до жодної з них.

Див. також

Література

Посилання

Бібліотеки

Web-сервіси

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.