Il funzionamento del crawler si basa su una lista di URL da visitare; durante l’analisi di un URL, il crawler identifica tutti gli hyperlink presenti nel documento e li aggiungerà alla lista degli URL da visitare.
Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito.
I crawler acquisisce una copia testuale di tutti le pagine e i documenti visitati organizzandole in un indice, ovvero una base di dati.
L’utilizzo di un indice permette infatti di ottimizzare la velocità e le prestazioni di ogni meccanismi di ricerca; senza un indice, il motore di ricerca effettuerebbe ogni volta la scansione di tutte le pagine e i documenti richiedendo molto tempo e potenza di calcolo.
Alcune caratteristiche del software sono:
– Phrase matching: il software può estendere la ricerca a frasi esatte.
– Sintesi intelligente dei risultati di ricerca con evidenza della parola chiave ricercate.
– Ricerca e classificazione delle variazioni di un termine: le variazioni di un termine posso essere, facoltativamente, incluse nella ricerca.
– Indicizzazione dei più comuni documenti (Office 97-2007 +, OOXML, ODF, PDF, RTF, TXT, HTML [aspx, html, aspx, jsp …]): la maggior parte dei file possono essere indicizzati per la ricerca.
– Spider automatico: ricerca automantica di tutti i collegamenti interni ad un sito web ed indicizzazione delle pagine
– Indicizzazione di siti web protetti da password: la combinazione di nome utente e password può essere specificata per l’accesso a più siti web
– Supporto Unicode: scansione e indicizzazione delle pagine codificate nella maggior parte delle codifiche (Unicode, UTF-8, ASCII, cirillico, ecc greco).
– Ricerche con caratteri jolly (utilizzando l’operatore *)
– Scansione, indicizzazione e ricerca programmata/schedulata