Nutch
Apache Nutch — модульний фреймворк для побудови пошукових систем, написаний на мові Java і заснований на технологіях Lucene, Solr, Tika, Hadoop і Gora, адаптованих для специфіки пошуку у вебі (наприклад, підтримується crawler, база посилального зв'язку, парсинг HTML і інших форматів). Архітектура Nutch дозволяє розробникам створювати плагіни для обробки нового медіа-контенту, отримання даних через нестандартні канали, для формування типових запитів або організації пошукового кластера.
| |
Файл:NutchScreenshot.png Nutch Web Interface Search | |
Тип | пошуковий рушій |
---|---|
Розробник | Apache Software Foundation |
Стабільний випуск | 2.0 (9 липня 2012 ) |
Версії | 2.4 (11 жовтня 2019)[1] |
Репозиторій | github.com/apache/nutch |
Платформа | Віртуальна машина Java |
Операційна система | крос-платформовий |
Мова програмування | Java |
Стан розробки | активний |
Ліцензія | Apache License 2.0 |
Вебсайт | nutch.apache.org |
Система надає засоби для побудови високомасштабованих систем індексації, абстрагованих від типу сховища, що дозволяє використовувати такі сховища для великих обсягів даних, як Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase і HDFS, так і SQL-бази і розміщені в пам'яті NoSQL БД.
Використання
На базі Nutch 2.0, запущеного поверх 34-вузлового Hadoop-кластера, побудований пошуковий сервіс компанії Kalooga, в індексі якого перебуває більше мільярда сторінок.[2]
На основі Nutch побудовані такі пошукові системи
- Creative Commons Search - запущений 2004, імплементація Nutch замінена 2006[3][4][5]
- DiscoverEd - прототип пошуку по відкритих освітніх ресурсах, що розробляється Creative Commons[6]
- Krugle
- mozDex
- Wikia Search - запущений 2008, закритий 2009[7][8]
- search2.net
Виноски
- https://nutch.apache.org/index.html#11-october-2019-nutch-24-release
- Реліз пошукового рушія Apache Nutch 2.0 (рос.)
- Our Updated Search. Creative Commons. 3 вересня 2004.
- Creative Commons Unique Search Tool Now Integrated into Firefox 1.0. Creative Commons. 22 листопада 2004. Архів оригіналу за 22 липня 2013. Процитовано 10 липня 2012.
- New CC search UI. Creative Commons. 2 серпня 2006.
- DiscoverEd home page. Архів оригіналу за 25 квітня 2015. Процитовано 19 червня 2019.
- Where can I get the source code for Wikia Search?. Архів оригіналу за 4 листопада 2011. Процитовано 10 липня 2012.
- Update on Wikia – doing more of what’s working
Посилання
- Офіційний сайт
- Офіційні вікі
- Building Nutch: Open Source Search(2004)- ACM Queue vol. 2, no. 2
- Стаття про Nutch(2003)- Search Engine Watch
- Ще стаття про Nutch(2003)- Tech News World
- Офіційна сторінка проекту Hadoop