Гістограма напрямлених градієнтів
Гістограма напрямлених градієнтів (англ. histogram of oriented gradients, HOG) — дескриптор ознак, який використовується в комп'ютерному зорі і обробці зображень з метою розпізнання об'єктів. Метод підраховує напрямки градієнтів в локальних точках зображення. Він близький до гістограми орієнтованих границь, SIFT дескриптора, та значення форми, але відрізняється тим, що обраховується в щільній сітці рівномірно розташованих клітин та для підвищення точності використовує локальну нормалізацію контрасту.
Виявляння ознак |
---|
Виявляння контурів |
Виявляння кутів |
|
Виявляння плям |
|
Виявляння хребтів |
Перетворення Гафа |
|
Структурний тензор |
|
Афінне інваріантне виявляння ознак |
|
Опис ознак |
Простір масштабів |
|
Навніт Далал і Біл Тріггс дослідники з Французький національний інститут досліджень у галузі комп'ютерних наук та управління (англ. French National Institute for Research in Computer Science and Control, INRIA), вперше описали HOG дескриптор у 2005 Конференція з комп'ютерного зору і розпізнавання образів (CVPR). В цій роботі вони зосередили зусилля на виявленні пішоходів в статичних зображеннях, з того часу вони розширили тести на виявленні людей на відео, а також деякі види тварин і машини на статичних зображеннях.
Переваги і недоліки
HOG дескриптор має кілька ключових переваг над іншими дескрипторами. Оскільки він працює з локальними клітинами він нечутливий до геометричних і фотометричних перетворень окрім орієнтації об'єкта. Ці перетворення даються взнаки для ділянок більших розмірів. Крім того, як виявили Далал и Тріггс, глибоке розбиття простору, сильна локальна фотометрична нормалізація дозволяє ігнорувати рух пішоходів, якщо вони підтримують вертикальне положення тіла. Таким чином HOG зокрема підходить для виявлення людей на зображеннях.[1]
Реалізація
Обчислення градієнту
Найбільш простий метод — це застосувати 1-D різницеву маску в горизонтальному і вертикальному напрямках. Це можна зробити використовуючи наведені нижче маски:
- и
Далал і Тріггс працювали з іншими, більш складними масками, такими як 3x3 Оператор Собеля. Також вони експериментували з Розмиттям Гауса перед застосуванням різницевої маски, але виявили, що на практиці без розмиття алгоритм працює краще.[2]
Групування напрямків
Другий крок — це створення гістограм напрямлених градієнтів. Кожен піксель з комірки додає зважений голос гістограми напрямлених градієнтів ґрунтуючись на величині і напрямку градієнту. Комірки в свою чергу можуть бути прямокутними, або круглої форми, і канали гістограми можуть бути розділені рівномірно між 0 і 180 або між 0 і 360 в залежності від того обчислюється «знаковий», чи «беззнаковий градієнт». Далал і Тріггс визначили, що беззнаковий градієнт і гістограми з 9-ма каналами дують найліпший результат в їхній задачі по виявленню людей. Для визначення величини ваги пікселя може бути використана величина градієнта або функція величини.[3]
Метод опорних векторів
Заключним етапом у розпізнаванні образів використовуючи гістограму напрямлених градієнтів є подача дескрипторів на систему розпізнавання на основі навчання з вчителем. Метод опорних векторів (SVM) це бінарний класифікатор, який знаходить оптимальну гіперплощину як функцію прийняття рішень. Класифікатор тренується, а потім він може приймати рішення стосовно наявності об'єкта, такого як людина, у додаткових тестових зображеннях.