Варіаційний автокодувальник

У машинному навчанні варіаційний автокодувальник (англ. variational autoencoder),[1] відомий також як ВАК (англ. VAE), — це архітектура штучної нейронної мережі, запроваджена Дідеріком П. Кінгмою та Максом Веллінгом, що належить до сімейств імовірнісних графових моделей та варіаційних баєсових методів.

Її часто асоціюють із моделлю автокодувальника[2][3] через її архітектурну спорідненість, але між ними є значні відмінності як у цілі, так і в математичному формулюванні. Варіаційні автокодувальники призначено для стискання інформації входу до обмеженого багатовимірного латентного розподілу (кодування), щоби відбудовувати її якомога точніше (декодування). Хоча первинно цей тип моделі було розроблено для спонтанного навчання,[4][5] його дієвість було доведено й в інших областях машинного навчання, таких як напівавтоматичне[6][7] та кероване навчання.[8]

Архітектура

Варіаційні автокодувальники є варіаційними баєсовими методами з багатовимірним розподілом як апріорне, й апостеріорним, наближуваним штучною нейронною мережею, що утворюють так звану структуру варіаційного кодувальника-декодувальника.[9][10][11]

Стандартний кодувальник є штучною нейронною мережею, здатною зводити свою вхідну інформацію до найвужчого подання, що називають латентним простором. Він являє собою першу половину архітектури як автокодувальника, так і варіаційного автокодувальника: для першого виходом є фіксований вектор штучних нейронів, а в другому інформація виходу стискається до ймовірнісного латентного простору, що все ще складається зі штучних нейронів. Проте в архітектурі варіаційного автокодувальника вони представляють і їх розглядають як два різні вектори однакової вимірності, що подають вектор середніх значень та вектор стандартних відхилень відповідно.

Стандартний декодувальник все ще є штучною нейронною мережею, призначеною віддзеркалювати архітектуру кодувальника. Він бере на вході стиснену інформацію, що надходить із латентного простору, а потім розгортає її, виробляючи вихід, якомога ближчий до входу кодувальника. І хоча для автокодувальника вхід декодувальника є просто вектором дійсних значень фіксованої довжини, для варіаційного автокодувальника необхідно ввести проміжний етап: враховуючи ймовірнісну природу латентного простору, можливо розглядати його як багатовимірний гауссів вектор. За цього припущення й за допомогою методики, відомої як перепараметрувальний трюк (англ. reparametrization trick), можливо вибирати сукупності з цього латентного простору й розглядати їх точно як вектор дійсних значень фіксованої довжини.

З системної точки зору моделі як стандартного, так і варіаційного автокодувальників отримують як вхід набір даних великої розмірності. Потім вони адаптивно стискають його до латентного простору (кодування) і, нарешті, намагаються якомога точніше його відбудувати (декодування). Враховуючи природу його латентного простору, варіаційний автокодувальник характеризується дещо іншою цільовою функцією: він має мінімізувати функцію втрат відбудови, як і стандартний автокодувальник. Проте він також враховує розходження Кульбака — Лейблера між латентним простором та вектором нормальних гауссіан.

Формулювання

Базова схема варіаційного автокодувальника. Модель отримує

\mathbf {x}

як вхід. Кодувальник стискає його до латентного простору. Декодувальник отримує як вхід інформацію, вибрану з цього латентного простору, й виробляє

\mathbf {x'}

, що є якомога подібнішим до

\mathbf {x}

.

З формальної точки зору, за заданого набору даних входу $\mathbf {x}$ , описуваного невідомою функцією ймовірності $P(\mathbf {x} )$ , та багатовимірного вектору латентного кодування $\mathbf {z}$ , мета полягає в моделюванні цих даних як розподілу $p_{\theta }(\mathbf {x} )$ , де $\theta$ визначено як набір параметрів мережі.

Цей розподіл можливо формалізувати як

$p_{\theta }(\mathbf {x} )=\int _{\mathbf {z} }p_{\theta }(\mathbf {x,z} )d\mathbf {z}$

де $p_{\theta }$ є свідченням даних цієї моделі з відособленням, виконаним над неспостережуваними змінними, й відтак $p_{\theta }(\mathbf {x,z} )$ подає спільний розподіл даних входу та їхнього латентного подання відповідно до параметрів мережі $\theta$ .

Відповідно до теореми Баєса, це рівняння можливо переписати як

$p_{\theta }(\mathbf {x} )=\int _{\mathbf {z} }p_{\theta }(\mathbf {x|z} )p_{\theta }(\mathbf {z} )d\mathbf {z}$

У стандартному варіаційному автокодувальнику ми вважаємо, що $\mathbf {z}$ має скінченну розмірність, і що $p_{\theta }(\mathbf {x|z} )$ є гауссовим розподілом, тоді $p_{\theta }(\mathbf {x} )$ є сумішшю гауссових розподілів.

Тепер можливо визначити набір взаємозв'язків між даними входу та їх латентним поданням як

Апріорне $p_{\theta }(\mathbf {z} )$
Правдоподібність $p_{\theta }(\mathbf {x} |\mathbf {z} )$
Апостеріорне $p_{\theta }(\mathbf {z} |\mathbf {x} )$

На жаль, обчислення $p_{\theta }(\mathbf {x} )$ є дуже витратним, і в більшості випадків навіть непіддатливим. Щоби пришвидшити це обчислення й зробити його здійсненним, необхідно ввести додаткову функцію для наближення апостеріорного розподілу:

$q_{\Phi }(\mathbf {z|x} )\approx p_{\theta }(\mathbf {z|x} )$

де $\Phi$ визначено як набір дійсних значень, що параметрує $q$ .

Таким чином загальну задачу можливо легко перевести до області визначення автокодувальника, в якому розподіл умовної правдоподібності $p_{\theta }(\mathbf {x} |\mathbf {z} )$ провадиться імовірнісним кодувальником (англ. probabilistic encoder), а наближений апостеріорний розподіл $q_{\Phi }(\mathbf {z|x} )$ обчислюється імовірнісним декодувальником (англ. probabilistic decoder).

Функція втрат НМЕС

Як і в будь-якій задачі глибинного навчання, щоб уточнювати ваги мережі шляхом зворотного поширення, необхідно визначити диференційовну функцію втрат.

Для варіаційних автокодувальників ідея полягає в спільному мінімізуванні параметрів породжувальної моделі $\theta$ , щоби зменшувати похибку відбудови між входом і виходом мережі, та $\Phi$ , щоби мати $q_{\Phi }(\mathbf {z|x} )$ якомога ближчою до $p_{\theta }(\mathbf {z} |\mathbf {x} )$ .

Як втрати відбудови, добрими варіантами є середньоквадратична похибка та перехресна ентропія.

Як втрати відстані між цими двома розподілами, добрим вибором, щоби втискувати $q_{\Phi }(\mathbf {z|x} )$ під $p_{\theta }(\mathbf {z} |\mathbf {x} )$ , є обернене розходження Кульбака — Лейблера $D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z|x} ))$ .[1][12]

Щойно визначені втрати відстані розкриваються як

${\begin{aligned}D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z|x} ))&=\int q_{\Phi }(\mathbf {z|x} )\log {\frac {q_{\Phi }(\mathbf {z|x} )}{p_{\theta }(\mathbf {z|x} )}}d\mathbf {z} \\&=\int q_{\Phi }(\mathbf {z|x} )\log {\frac {q_{\Phi }(\mathbf {z|x} )p_{\theta }(\mathbf {x} )}{p_{\theta }(\mathbf {z,x} )}}d\mathbf {z} \\&=\int q_{\Phi }(\mathbf {z|x} )\left(\log(p_{\theta }(\mathbf {x} ))+\log {\frac {q_{\Phi }(\mathbf {z|x} )}{p_{\theta }(\mathbf {z,x} )}}\right)d\mathbf {z} \\&=\log(p_{\theta }(\mathbf {x} ))+\int q_{\Phi }(\mathbf {z|x} )\log {\frac {q_{\Phi }(\mathbf {z|x} )}{p_{\theta }(\mathbf {z,x} )}}d\mathbf {z} \\&=\log(p_{\theta }(\mathbf {x} ))+\int q_{\Phi }(\mathbf {z|x} )\log {\frac {q_{\Phi }(\mathbf {z|x} )}{p_{\theta }(\mathbf {x|z} )p_{\theta }(\mathbf {z} )}}d\mathbf {z} \\&=\log(p_{\theta }(\mathbf {x} ))+E_{\mathbf {z} \sim q_{\Phi }(\mathbf {z|x} )}(\log {\frac {q_{\Phi }(\mathbf {z|x} )}{p_{\theta }(\mathbf {z} )}}-\log(p_{\theta }(\mathbf {x|z} )))\\&=\log(p_{\theta }(\mathbf {x} ))+D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z} ))-E_{\mathbf {z} \sim q_{\Phi }(\mathbf {z|x} )}(\log(p_{\theta }(\mathbf {x|z} )))\end{aligned}}$

На цьому етапі можливо переписати це рівняння як

$\log(p_{\theta }(\mathbf {x} ))-D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z|x} ))=E_{\mathbf {z} \sim q_{\Phi }(\mathbf {z|x} )}(\log(p_{\theta }(\mathbf {x|z} )))-D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z} ))$

Метою є максимізувати логарифмічну правдоподібність лівої частини цього рівняння для поліпшення якості породжуваних даних та мінімізування відстаней між розподілами справжнього та оцінюваного апостеріорних.

Це є рівнозначним мінімізуванню від'ємної логарифмічної правдоподібності, що є типовою практикою в задачах оптимізації.

Отриману таким чином функцію втрат, яку також називають функцією втрат нижньої межі свідчення (англ. evidence lower bound), скорочено НМЕС (англ. ELBO), можливо записати як

$L_{\theta ,\Phi }=-\log(p_{\theta }(\mathbf {x} ))+D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z|x} ))=-E_{\mathbf {z} \sim q_{\Phi }(\mathbf {z|x} )}(\log(p_{\theta }(\mathbf {x|z} )))+D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z} ))$

Враховуючи властивість невід'ємності розходження Кульбака — Лейблера, буде правильним стверджувати, що

$-L_{\theta ,\Phi }=\log(p_{\theta }(\mathbf {x} ))-D_{KL}(q_{\Phi }(\mathbf {z|x} )||p_{\theta }(\mathbf {z|x} ))\leq \log(p_{\theta }(\mathbf {x} ))$

Оптимальними параметрами є ті, які мінімізують цю функцію втрат. Цю задачу можливо узагальнити як

$\theta ^{*},\Phi ^{*}={\underset {\theta ,\Phi }{argmin}}L_{\theta ,\Phi }$

Основна перевага цього формулювання полягає в можливості спільного оптимізування за параметрами $\theta$ та $\Phi$ .

Перш ніж застосовувати функцію втрат НМЕС до задачі оптимізування для зворотного поширення градієнта, необхідно зробити її диференційовною, застосувавши так званий трюк перепараметрування (англ. reparameterization trick), щоб усунути стохастичне вибирання з цього формування, й таким чином зробити її диференційовною.

Трюк перепараметрування

Схема трюку перепараметрування. Змінну випадковості

\mathbf {\varepsilon }

вводять до латентного простору

\mathbf {z}

як зовнішній вхід. Таким чином можливо зворотно поширювати градієнт без залучення стохастичної змінної під час уточнення.

Щоб зробити формулювання НМЕС придатним для цілей тренування, необхідно ввести подальшу незначну зміну до формулювання задачі, а також до структури варіаційного автокодувальника.[1][13][14]

Стохастичне вибирання є недиференційовною операцією, через яку можливо вибирати з латентного простору й подавати на ймовірнісний декодувальник.

Щоб уможливити застосування процесів зворотного поширення, таких як стохастичний градієнтний спуск, запроваджують трюк перепараметрування.

Основним припущенням про латентний простір є те, що його можливо розглядати як сукупність багатовимірних гауссових розподілів і, отже, можливо описати як

$\mathbf {z} \sim q_{\phi }(\mathbf {z} \vert \mathbf {x} )={\mathcal {N}}({\boldsymbol {\mu }},{\boldsymbol {\sigma }}^{2})$

Схема варіаційного автокодувальника після трюку перепараметрування.

Якщо ${\boldsymbol {\epsilon }}\sim {\mathcal {N}}(0,{\boldsymbol {I}})$ , а $\odot$ визначено як поелементний добуток, то трюк перепараметрування змінює наведене вище рівняння до

$\mathbf {z} ={\boldsymbol {\mu }}+{\boldsymbol {\sigma }}\odot {\boldsymbol {\epsilon }}$ .

Завдяки цьому перетворенню, яке можливо поширити й на інші розподіли, відмінні від гауссового, варіаційний автокодувальник піддається тренуванню, а ймовірнісний кодувальник має навчатися відображувати стиснене подання вхідних даних у два латентні вектори ${\boldsymbol {\mu }}$ та ${\boldsymbol {\sigma }}$ , тоді як стохастичність залишається виключеною з процесу уточнювання, й вводиться до латентного простору як зовнішній вхід через випадковий вектор ${\boldsymbol {\epsilon }}$ .

Різновиди

Існує багато застосувань і розширень варіаційних автокодувальників для пристосовування цієї архітектури до різних областей та поліпшення її продуктивності.

β-ВАК (англ. β-VAE) є втіленням зі зваженим членом розходження Кульбака — Лейблера для автоматичного виявляння та інтерпретування розкладених латентних подань. За допомогою цього втілення можливо нав'язувати розплутування многовиду для значень $\beta$ , більших за одиницю. Автори показали здатність цієї архітектури породжувати високоякісні синтетичні зразки.[15][16]

Ще одне втілення, назване умовним варіаційним автокодувальником (англ. conditional variational autoencoder), скорочено УВАК (англ. CVAE), як вважають, вставляє міткову інформацію до латентного простору, нав'язуючи детерміноване обмежене подання навчених даних.[17]

Деякі структури безпосередньо займаються якістю породжуваних зразків[18][19] або втілюють понад одного латентного простору для подальшого поліпшення навчання подань.[20][21]

Деякі архітектури поєднують структури варіаційних автокодувальників та породжувальних змагальних мереж, щоб отримувати гібридні моделі з високими породжувальними спроможностями.[22][23][24]

Див. також

Примітки

Kingma, Diederik P.; Welling, Max (2014-05-01). «Auto-Encoding Variational Bayes». arXiv:1312.6114 [stat.ML]. (англ.)
Kramer, Mark A. (1991). Nonlinear principal component analysis using autoassociative neural networks. AIChE Journal (англ.) 37 (2): 233–243. doi:10.1002/aic.690370209. (англ.)
Hinton, G. E.; Salakhutdinov, R. R. (28 липня 2006). Reducing the Dimensionality of Data with Neural Networks. Science (англ.) 313 (5786): 504–507. Bibcode:2006Sci...313..504H. PMID 16873662. doi:10.1126/science.1127647. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). «Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders». arXiv:1611.02648 [cs.LG]. (англ.)
Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation. 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). с. 16–23. ISBN 978-1-5090-4788-8. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. с. 5888–5897. (англ.)
Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (12 лютого 2017). Variational Autoencoder for Semi-Supervised Text Classification. Proceedings of the AAAI Conference on Artificial Intelligence (англ.) 31 (1). (англ.)
Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (1 вересня 2019). Supervised Determined Source Separation with Multichannel Variational Autoencoder. Neural Computation 31 (9): 1891–1914. PMID 31335290. doi:10.1162/neco_a_01217. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2(1). (англ.)
A bot will complete this citation soon. Click here to jump the queue«Model-Aware Deep Architectures for One-Bit Compressive Variational Autoencoding». arXiv:1911.12410. 2019. (англ.)
Kingma, Diederik P.; Welling, Max (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning 12 (4): 307–392. ISSN 1935-8237. arXiv:1906.02691. doi:10.1561/2200000056. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
From Autoencoder to Beta-VAE. Lil'Log (англ.). 12 серпня 2018.
Bengio, Yoshua; Courville, Aaron; Vincent, Pascal (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence 35 (8): 1798–1828. ISSN 1939-3539. PMID 23787338. arXiv:1206.5538. doi:10.1109/TPAMI.2013.50. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
Kingma, Diederik P.; Rezende, Danilo J.; Mohamed, Shakir; Welling, Max (2014-10-31). «Semi-Supervised Learning with Deep Generative Models». arXiv:1406.5298 [cs.LG]. (англ.)
>Higgins, Irina; Matthey, Loic; Pal, Arka; Burgess, Christopher; Glorot, Xavier; Botvinick, Matthew; Mohamed, Shakir; Lerchner, Alexander (4 листопада 2016). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework (англ.). (англ.)
>Burgess, Christopher P.; Higgins, Irina; Pal, Arka; Matthey, Loic; Watters, Nick; Desjardins, Guillaume; Lerchner, Alexander (2018-04-10). «Understanding disentangling in β-VAE». arXiv:1804.03599 [stat.ML]. (англ.)
Sohn, Kihyuk; Lee, Honglak; Yan, Xinchen (1 січня 2015). Learning Structured Output Representation using Deep Conditional Generative Models (англ.). (англ.)
Dai, Bin; Wipf, David (2019-10-30). «Diagnosing and Enhancing VAE Models». arXiv:1903.05789 [cs.LG]. (англ.)
Dorta, Garoe; Vicente, Sara; Agapito, Lourdes; Campbell, Neill D. F.; Simpson, Ivor (2018-07-31). «Training VAEs Under Structured Residuals». arXiv:1804.01050 [stat.ML]. (англ.)
Tomczak, Jakub; Welling, Max (31 березня 2018). VAE with a VampPrior. International Conference on Artificial Intelligence and Statistics (англ.) (PMLR): 1214–1223. arXiv:1705.07120. (англ.)
Razavi, Ali; Oord, Aaron van den; Vinyals, Oriol (2019-06-02). «Generating Diverse High-Fidelity Images with VQ-VAE-2». arXiv:1906.00446 [cs.LG]. (англ.)
Larsen, Anders Boesen Lindbo; Sønderby, Søren Kaae; Larochelle, Hugo; Winther, Ole (11 червня 2016). Autoencoding beyond pixels using a learned similarity metric. International Conference on Machine Learning (англ.) (PMLR): 1558–1566. arXiv:1512.09300. (англ.)
Bao, Jianmin; Chen, Dong; Wen, Fang; Li, Houqiang; Hua, Gang (2017). «CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training». arXiv:1703.10155 [cs.CV]. (англ.)
>Gao, Rui; Hou, Xingsong; Qin, Jie; Chen, Jiaxin; Liu, Li; Zhu, Fan; Zhang, Zhao; Shao, Ling (2020). Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning. IEEE Transactions on Image Processing 29: 3665–3680. Bibcode:2020ITIP...29.3665G. ISSN 1941-0042. PMID 31940538. doi:10.1109/TIP.2020.2964429. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[:0-1] Kingma, Diederik P.; Welling, Max (2014-05-01). «Auto-Encoding Variational Bayes». arXiv:1312.6114 [stat.ML]. (англ.)

[2] Kramer, Mark A. (1991). Nonlinear principal component analysis using autoassociative neural networks. AIChE Journal (англ.) 37 (2): 233–243. doi:10.1002/aic.690370209. (англ.)

[3] Hinton, G. E.; Salakhutdinov, R. R. (28 липня 2006). Reducing the Dimensionality of Data with Neural Networks. Science (англ.) 313 (5786): 504–507. Bibcode:2006Sci...313..504H. PMID 16873662. doi:10.1126/science.1127647. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)

[4] Dilokthanakul, Nat; Mediano, Pedro A. M.; Garnelo, Marta; Lee, Matthew C. H.; Salimbeni, Hugh; Arulkumaran, Kai; Shanahan, Murray (2017-01-13). «Deep Unsupervised Clustering with Gaussian Mixture Variational Autoencoders». arXiv:1611.02648 [cs.LG]. (англ.)

[5] Hsu, Wei-Ning; Zhang, Yu; Glass, James (December 2017). Unsupervised domain adaptation for robust speech recognition via variational autoencoder-based data augmentation. 2017 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). с. 16–23. ISBN 978-1-5090-4788-8. arXiv:1707.06265. doi:10.1109/ASRU.2017.8268911. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)

[6] Ehsan Abbasnejad, M.; Dick, Anthony; van den Hengel, Anton (2017). Infinite Variational Autoencoder for Semi-Supervised Learning. с. 5888–5897. (англ.)

[7] Xu, Weidi; Sun, Haoze; Deng, Chao; Tan, Ying (12 лютого 2017). Variational Autoencoder for Semi-Supervised Text Classification. Proceedings of the AAAI Conference on Artificial Intelligence (англ.) 31 (1). (англ.)

[8] Kameoka, Hirokazu; Li, Li; Inoue, Shota; Makino, Shoji (1 вересня 2019). Supervised Determined Source Separation with Multichannel Variational Autoencoder. Neural Computation 31 (9): 1891–1914. PMID 31335290. doi:10.1162/neco_a_01217. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)

[:2-9] An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2(1). (англ.)

[1bitVAE-10] A bot will complete this citation soon. Click here to jump the queue«Model-Aware Deep Architectures for One-Bit Compressive Variational Autoencoding». arXiv:1911.12410. 2019. (англ.)

[11] Kingma, Diederik P.; Welling, Max (2019). An Introduction to Variational Autoencoders. Foundations and Trends in Machine Learning 12 (4): 307–392. ISSN 1935-8237. arXiv:1906.02691. doi:10.1561/2200000056. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)

[12] From Autoencoder to Beta-VAE. Lil'Log (англ.). 12 серпня 2018.

[13] Bengio, Yoshua; Courville, Aaron; Vincent, Pascal (2013). Representation Learning: A Review and New Perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence 35 (8): 1798–1828. ISSN 1939-3539. PMID 23787338. arXiv:1206.5538. doi:10.1109/TPAMI.2013.50. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)

[14] Kingma, Diederik P.; Rezende, Danilo J.; Mohamed, Shakir; Welling, Max (2014-10-31). «Semi-Supervised Learning with Deep Generative Models». arXiv:1406.5298 [cs.LG]. (англ.)

[15] >Higgins, Irina; Matthey, Loic; Pal, Arka; Burgess, Christopher; Glorot, Xavier; Botvinick, Matthew; Mohamed, Shakir; Lerchner, Alexander (4 листопада 2016). beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework (англ.). (англ.)

[16] >Burgess, Christopher P.; Higgins, Irina; Pal, Arka; Matthey, Loic; Watters, Nick; Desjardins, Guillaume; Lerchner, Alexander (2018-04-10). «Understanding disentangling in β-VAE». arXiv:1804.03599 [stat.ML]. (англ.)

[17] Sohn, Kihyuk; Lee, Honglak; Yan, Xinchen (1 січня 2015). Learning Structured Output Representation using Deep Conditional Generative Models (англ.). (англ.)

[18] Dai, Bin; Wipf, David (2019-10-30). «Diagnosing and Enhancing VAE Models». arXiv:1903.05789 [cs.LG]. (англ.)

[19] Dorta, Garoe; Vicente, Sara; Agapito, Lourdes; Campbell, Neill D. F.; Simpson, Ivor (2018-07-31). «Training VAEs Under Structured Residuals». arXiv:1804.01050 [stat.ML]. (англ.)

[20] Tomczak, Jakub; Welling, Max (31 березня 2018). VAE with a VampPrior. International Conference on Artificial Intelligence and Statistics (англ.) (PMLR): 1214–1223. arXiv:1705.07120. (англ.)

[21] Razavi, Ali; Oord, Aaron van den; Vinyals, Oriol (2019-06-02). «Generating Diverse High-Fidelity Images with VQ-VAE-2». arXiv:1906.00446 [cs.LG]. (англ.)

[22] Larsen, Anders Boesen Lindbo; Sønderby, Søren Kaae; Larochelle, Hugo; Winther, Ole (11 червня 2016). Autoencoding beyond pixels using a learned similarity metric. International Conference on Machine Learning (англ.) (PMLR): 1558–1566. arXiv:1512.09300. (англ.)

[23] Bao, Jianmin; Chen, Dong; Wen, Fang; Li, Houqiang; Hua, Gang (2017). «CVAE-GAN: Fine-Grained Image Generation Through Asymmetric Training». arXiv:1703.10155 [cs.CV]. (англ.)

[24] >Gao, Rui; Hou, Xingsong; Qin, Jie; Chen, Jiaxin; Liu, Li; Zhu, Fan; Zhang, Zhao; Shao, Ling (2020). Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning. IEEE Transactions on Image Processing 29: 3665–3680. Bibcode:2020ITIP...29.3665G. ISSN 1941-0042. PMID 31940538. doi:10.1109/TIP.2020.2964429. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)