Система фільтрації інформації

Система фільтрації інформації — це система, яка усуває надлишкову або небажану інформацію з інформаційного потоку за допомогою автоматичних (напівавтоматичних) або комп'ютерних методів і надає її користувачу-людині. Основна задача — управління інформаційним перевантаженням та збільшення семантичного співвідношення «сигнал-шум». Щоб зробити це, профіль користувача співставляється з деякими еталонними даними. Ці характеристики можуть походити з інформаційного елемента (контентно-орієнтовний підхід) або із соціального середовища користувача (підхід спільної фільтрації).

У той час як фільтри обробки й передачі сигналу інформації використовуються проти синтаксичного руйнівного шуму на бітовому рівні, методи, що використовуються при фільтрації інформації, діють на семантичному рівні.

Діапазон методів, які застосовуються машинами, ґрунтується на тих самих принципах, що використовуються для добування інформації. Це суттєво використовується у фільтуванні електронної пошти. Таким чином, це використовується не тільки у випадку інформаційного вибуху, що потребує використання деякої форми фільтрів, але також і для фільрування ненавмисно або навмисно доданої псевдо-інформації.

На загал, система фільтрації набуває форми вподобань користувача на основі добірки і т. д.

Рекомендаційні системи — це активні системи фільтрації інформації, які намагаються надати користувачу інформаційні елементи (кіно, телебачення, музика, книги, новини, веб-сторінки), у яких зацікавлений користувач. Ці системи додають інформаційні елементи до інформації, призначеної користувачу. Рекомендаційні системи зазвичай використовують колаборативну фільтрацію або комбінацію спільної фільтрації та змістовних підходів фільтрації, хоча при цьому, існують також рекомендаційні системи засновані на контенті.

Історія

До появи інтернету вже було декілька методів фільтрації інформації; наприклад, уряд може контролювати й обмежувати потік інформації в даній країні шляхом формальної або неформальної цензури. З іншого боку, ми збираємося говорити про інформаційні фільтри, якщо ми посилаємося на газетних редакторів та журналістів, коли вони надають послуги, які вибирають найбільш цінну інформацію для своїх клієнтів, читачів книг, журнали, газети, радіослухачів і телеглядачів. Ця операція фільтрації також є у школах та в університетах, де є вибір інформації для надання допомоги на основі академічних критеріїв для клієнтів цієї служби, студентів. З появою інтернету збільшується можливість того, що будь-хто може опублікувати за низькими цінами все, що забажає. Таким чином, це значно збільшує кількість менш корисної інформації, а отже й якість цієї інформації є поняттям розсіяним. Маючи цю проблему, почалися розробки нової фільтрації, з якою ми можемо легко й ефективно отримати інформацію, розділену на окремі теми.

Операція

Система фільтрації цього стилю складається з декількох інструментів, які допомагають людям знайти найбільш цінну інформацію, тобто за обмежений час ви можете присвятити / прочитати / прослухати / переглянути інформацію, спрямовану на найбільш цікаві та цінні документи, окрім найбільш несуттєвого. Ці фільтри також використовуються для організації і структурування інформації в коректній і зрозумілій формі, виключаючи лише групування повідомлень поштою на ім'я. Ці фільтри дуже потрібні в отриманих результатах пошукових систем в Інтернеті. Функції фільтрації поліпшуються кожен день, щоб отримати найкраще завантаження веб-документів і більш ефективне сполучення.

Критерії

Одним з критеріїв, що використовуються на цьому етапі є знання шкідливо це чи ні, чи знання дозволяє краще зрозуміти, з або без концепції. В цьому випадку задача фільтрації інформації напрямлена на те, щоб зменшити або усунути шкідливу інформацію з певними знаннями.

Система навчання

Зміст системи навчання полягає в основному у трьох основних етапах:

1.По-перше, це система, яка забезпечує вирішення заданого набору завдань.

2.Згодом вона піддається оцінці критеріїв, за якими вимірюється продуктивність на попередньому етапі у зв'язку з вирішенням проблем.

3.Придбання модуля, його вихід отриманих знань, які використовуються в системі розрахунку першого етапу.

Майбутнє

В даний час проблема полягає не у знаходженні найкращого способу фільтрування інформації, а способу, яким ці системи зможуть користуватися, щоб самостійно вивчати інформаційні потреби користувачів. Не тільки тому, що вони автоматизують процес фільтрації, але й через будівництво та адаптацію фільтра. Деякі гілки на його основі, такі як статистики, машинне навчання, розпізнавання образів та інтелектуального аналізу даних — є основою для розробки інформаційних фільтрів, які з'являються і адаптуються в базу даних для досвіду. Щоб відбувався процес навчання, частина інформації повинна бути попередньо відфільтровані, значить є і позитивні і негативні приклади, які ми назвали навчальними даними, які можуть визначатися експертами або через форму зворотного зв'язку зі звичайними користувачами.

Помилки

По мірі введення даних, система включає в себе нові правила: якщо ми вважаємо, що ці дані можуть узагальнити навчальні дані, то ми повинні оцінити системи розвитку та виміряти здатність системи правильно прогнозувати категорій нової інформації. Цей крок є спрощеним шляхом відділення підготовки даних у новій серії під назвою «перевірка даних, які ми будемо використовувати для вимірювання частоти помилок». Як загальне правило, важливо розрізняти типи помилок (помилкові спрацьовування та негативи). Наприклад, у випадку з агрегатором контенту для дітей — він не має достатньої сили тяжіння, щоб забезпечити прохід інформації яка не підходить для них, що показує насильство чи порнографію. Щоб покращити систему у напрямку зниження частоти помилок та мати ці системи зі здатністю навчатися такою ж, як у людей, нам потрібні розробки систем, що симулюють людські когнітивні здатності, такі як натуральне розуміння мови, уловлювання сенсу з такою ж легкістю, що й інші форми глибокої обробки для отримання семантики інформації.

Сфери застосування

Сьогодні, існує багато способів розробки інформаційних фільтрів, деякі з котрих досягають частоти помилок, менш ніж 10 % у численних експериментах. Серед цих методів є дерева рішень, метод опорних векторів, нейронні мережі, баєсівські мережі, лінійні дискримінанти, логістична регресія і т. д.. Ці техніки використовуються у різноманітних програмах, не лише у веб-контексті, а й у тематичних питаннях, таких як розпізнання голосу, класифікації телескопічної астрономії або оцінювання фінансових ризиків.

Див. також

Джерела

Посилання

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.