Nutch è un progetto finalizzato alla costruzione di un motore di ricerca open source basato sulla piattaforma Lucene.
Il "robot" (o "web crawler") è stato scritto da zero appositamente per il progetto.
Nutch ha un'architettura altamente modulare per consentire agli sviluppatori di creare propri plugin per la scansione di tipi di dato multimediali, il reperimento di dati, l'interrogazione e la condivisione.
Nel giugno del 2005 Nutch è passato dallo stato di Apache Incubator a sottoprogetto di Lucene.
È implementato completamente in Java, ma i dati sono conservati in un formato neutro. Nel giugno 2003 fu eseguito con successo un test per indicizzare 100 milioni di pagine. Per soddisfare la necessità di una elaborazione distribuita, per il progetto Nutch è stato anche realizzato una funzionalità di MapReduce ed un file system distribuito. Queste due componenti sono poi confluite in un progetto proprio chiamato Apache Hadoop.
Progetti correlati
[modifica | modifica wikitesto]Motori di ricerca costruiti con Nutch
[modifica | modifica wikitesto]- mozDex
- Krugle
- BusyTonight
- Wikiasari
- MetaMojo.com
- Greener, a search engine for green resources, su greener.com.
Altri progetti
[modifica | modifica wikitesto]- Wikimedia Commons contiene immagini o altri file su Nutch
Collegamenti esterni
[modifica | modifica wikitesto]- Official page of the Nutch project, su lucene.apache.org.
- Building Nutch: Open Source Search Archiviato il 25 ottobre 2006 in Internet Archive. (2004) - ACM Queue vol. 2, no. 2
- An article about Nutch (2003) - Search Engine Watch
- Another article about Nutch Archiviato il 6 luglio 2008 in Internet Archive. (2003) - Tech News World
- unofficial Documentation, su wiki.media-style.com.
- Official page of the Hadoop project, su lucene.apache.org. URL consultato il 10 febbraio 2007 (archiviato dall'url originale il 10 febbraio 2007).