Apache Nutch | |
---|---|
![]() | |
Тип | библиотека Java[d] и библиотека функций |
Разработчик | Apache Software Foundation |
Написана на | Java |
Операционная система | Кроссплатформенное программное обеспечение |
Аппаратная платформа | Java Virtual Machine |
Последняя версия | |
Читаемые форматы файлов | Web ARChive файл[d] |
Создаваемые форматы файлов | Web ARChive файл[d] |
Состояние | Активный |
Лицензия | Apache License 2 |
Сайт | nutch.apache.org |
Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, Tika, Hadoop и Gora, адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиа-контента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.
Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД.
На базе Nutch 2.0, запущенного поверх 34-узлового Hadoop-кластера, построен поисковый сервис компании Kalooga, в индексе которого находится более миллиарда страниц[2].
На основе Nutch построены поисковые системы:
Данная страница на сайте WikiSort.ru содержит текст со страницы сайта "Википедия".
Если Вы хотите её отредактировать, то можете сделать это на странице редактирования в Википедии.
Если сделанные Вами правки не будут кем-нибудь удалены, то через несколько дней они появятся на сайте WikiSort.ru .