BERT (модель мови)

BERT (англ. Bidirectional Encoder Representations from Transformers, двоспрямовані кодувальні представлення з трансформерів) — це методика машинного навчання, що ґрунтується на трансформері, для попереднього тренування обробки природної мови (ОПМ), розроблена Google. BERT було створено й опубліковано 2018 року Джейкобом Девліним та його колегами з Google.[1][2] Станом на 2019 рік Google застосовувала BERT, щоби краще розуміти пошуки користувачів.[3]

Оригінальна англомовна модель BERT постачається у двох наперед натренованих варіантах:[1] (1) модель BERTBASE, нейромережна архітектура з 12 шарами, 768 прихованими, 12 головами, 110 мільйонами параметрів, та (2) модель BERTLARGE, нейромережна архітектура з 24 шарами, 1024 прихованими, 16 головами, 340 мільйонами параметрів; обидві треновано на BooksCorpus[4] з 800 мільйонами слів, та одній з версій англійської Вікіпедії з 2 500 мільйонами слів.

Продуктивність

Коли BERT було опубліковано, вона досягла найвищого рівня продуктивності в низці задач розуміння природної мови:[1]

  • Наборі задач GLUE (англ. General Language Understanding Evaluation, загальна оцінка розуміння мови, що складається з 9 задач)
  • SQuAD (англ. Stanford Question Answering Dataset, Стенфордський питально-відповідальний набір даних) версій 1.1 та 2.0
  • SWAG (англ. Situations With Adversarial Generations, ситуації зі змагальними породженнями)

Аналіз

Причини найвищого рівня продуктивності BERT в цих задачах розуміння природної мови ще не є достатньо зрозумілими.[5][6] Поточні дослідження зосереджено на дослідженні взаємозв'язку у виході BERT як результату ретельно підібраних послідовностей входу,[7][8] аналізі внутрішніх векторних представлень за допомогою зондувальних класифікаторів,[9][10] та взаємозв'язках, представлених вагами уваги.[5][6]

Історія

BERT бере свій початок з попереднього тренування контекстних представлень, включно з напівавтоматичним навчанням послідовностей,[11] породжувальним попереднім тренуванням, ELMo[12] та ULMFit.[13] На відміну від попередніх моделей, BERT є глибинно двоспрямованим, спонтанним представленням мови, попередньо тренованим із застосуванням лише простого корпусу тексту. Контекстно-вільні моделі, такі як word2vec та GloVe, породжують представлення вкладення одного слова для кожного зі слів у словнику, тоді як BERT бере до уваги контекст кожного входження заданого слова. Наприклад, якщо вектор для англ. «running» матиме однакове векторне представлення word2vec для його входження як в реченні англ. «He is running a company» («Він керує компанією»), так і в реченні англ. «He is running a marathon» («Він біжить марафон»), то BERT забезпечуватиме контекстоване вкладення, що буде відмінним відповідно до сенсу.

25 жовтня 2019 року Пошук Google анонсував, що вони почали застосовувати моделі BERT для пошукових запитів англійською мовою в межах США.[14] 9 грудня 2019 року було повідомлено, що BERT було прийнято Пошуком Google для понад 70 мов.[15]

Визнання

BERT виграла нагороду за найкращу довгу працю на щорічній конференції Північноамериканського відділення Асоціації з обчислювальної лінгвістики (англ. North American Chapter of the Association for Computational Linguistics, NAACL) 2019 року.[16]

Див. також

Примітки

  1. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (11 жовтня 2018). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». arXiv:1810.04805v2 [cs.CL]. (англ.)
  2. Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing. Google AI Blog (англ.). Процитовано 27 листопада 2019. (англ.)
  3. Understanding searches better than ever before. Google (англ.). 25 жовтня 2019. Процитовано 27 листопада 2019. (англ.)
  4. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). «Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books». arXiv:1506.06724 [cs.CV]. (англ.)
  5. Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna (November 2019). Revealing the Dark Secrets of BERT. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (en-us). с. 4364–4373. doi:10.18653/v1/D19-1445. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
  6. Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D. (2019). What Does BERT Look at? An Analysis of BERT's Attention. Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 276–286. doi:10.18653/v1/w19-4828. Проігноровано невідомий параметр |doi-access= (довідка) (англ.)
  7. Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan (2018). Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics): 284–294. Bibcode:2018arXiv180504623K. arXiv:1805.04623. doi:10.18653/v1/p18-1027. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
  8. Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco (2018). Colorless Green Recurrent Networks Dream Hierarchically. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (Stroudsburg, PA, USA: Association for Computational Linguistics): 1195–1205. Bibcode:2018arXiv180311138G. arXiv:1803.11138. doi:10.18653/v1/n18-1108. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
  9. Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem (2018). Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 240–248. Bibcode:2018arXiv180808079G. arXiv:1808.08079. doi:10.18653/v1/w18-5426. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
  10. Zhang, Kelly; Bowman, Samuel (2018). Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis. Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Stroudsburg, PA, USA: Association for Computational Linguistics): 359–361. doi:10.18653/v1/w18-5448. Проігноровано невідомий параметр |doi-access= (довідка) (англ.)
  11. Dai, Andrew; Le, Quoc (4 листопада 2015). «Semi-supervised Sequence Learning». arXiv:1511.01432 [cs.LG]. (англ.)
  12. Peters, Matthew; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Luke, Zettlemoyer (15 лютого 2018). «Deep contextualized word representations». arXiv:1802.05365v2 [cs.CL]. (англ.)
  13. Howard, Jeremy; Ruder, Sebastian (18 січня 2018). «Universal Language Model Fine-tuning for Text Classification». arXiv:1801.06146v5 [cs.CL]. (англ.)
  14. Nayak, Pandu (25 жовтня 2019). Understanding searches better than ever before. Google Blog. Процитовано 10 грудня 2019. (англ.)
  15. Montti, Roger (10 грудня 2019). Google's BERT Rolls Out Worldwide. Search Engine Journal. Search Engine Journal. Процитовано 10 грудня 2019. (англ.)
  16. Best Paper Awards. NAACL. 2019. Процитовано 28 березня 2020. (англ.)

Посилання

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.