Гістограма напрямлених градієнтів

Гістограма напрямлених градієнтів (англ. histogram of oriented gradients, HOG) — дескриптор ознак, який використовується в комп'ютерному зорі і обробці зображень з метою розпізнання об'єктів. Метод підраховує напрямки градієнтів в локальних точках зображення. Він близький до гістограми орієнтованих границь, SIFT дескриптора, та значення форми, але відрізняється тим, що обраховується в щільній сітці рівномірно розташованих клітин та для підвищення точності використовує локальну нормалізацію контрасту.

Навніт Далал і Біл Тріггс дослідники з Французький національний інститут досліджень у галузі комп'ютерних наук та управління (англ. French National Institute for Research in Computer Science and Control, INRIA), вперше описали HOG дескриптор у 2005 Конференція з комп'ютерного зору і розпізнавання образів (CVPR). В цій роботі вони зосередили зусилля на виявленні пішоходів в статичних зображеннях, з того часу вони розширили тести на виявленні людей на відео, а також деякі види тварин і машини на статичних зображеннях.

Переваги і недоліки

HOG дескриптор має кілька ключових переваг над іншими дескрипторами. Оскільки він працює з локальними клітинами він нечутливий до геометричних і фотометричних перетворень окрім орієнтації об'єкта. Ці перетворення даються взнаки для ділянок більших розмірів. Крім того, як виявили Далал и Тріггс, глибоке розбиття простору, сильна локальна фотометрична нормалізація дозволяє ігнорувати рух пішоходів, якщо вони підтримують вертикальне положення тіла. Таким чином HOG зокрема підходить для виявлення людей на зображеннях.[1]

Реалізація

Обчислення градієнту

Найбільш простий метод — це застосувати 1-D різницеву маску в горизонтальному і вертикальному напрямках. Це можна зробити використовуючи наведені нижче маски:

и

Далал і Тріггс працювали з іншими, більш складними масками, такими як 3x3 Оператор Собеля. Також вони експериментували з  Розмиттям Гауса перед застосуванням різницевої маски, але виявили, що на практиці без розмиття алгоритм працює краще.[2]

Групування напрямків

Другий крок — це створення гістограм напрямлених градієнтів. Кожен піксель з комірки додає зважений голос гістограми напрямлених градієнтів ґрунтуючись на величині і напрямку градієнту. Комірки в свою чергу можуть бути прямокутними, або круглої форми, і  канали гістограми можуть бути розділені рівномірно між 0 і 180 або між 0 і 360 в залежності від того обчислюється «знаковий», чи «беззнаковий градієнт». Далал і Тріггс визначили, що беззнаковий градієнт і гістограми з 9-ма каналами дують найліпший результат в їхній задачі по виявленню людей. Для визначення величини ваги  пікселя може бути використана величина градієнта або функція величини.[3]

Метод опорних векторів

Заключним етапом у розпізнаванні образів використовуючи гістограму напрямлених градієнтів є подача дескрипторів на систему розпізнавання на основі навчання з вчителем. Метод опорних векторів (SVM) це бінарний класифікатор, який знаходить оптимальну гіперплощину як функцію прийняття рішень. Класифікатор тренується, а потім він може приймати рішення стосовно наявності об'єкта, такого як людина, у додаткових тестових зображеннях.

Див. також

Література

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.