PORTFOLIO Sormani Studio

Web crawler: analisi automatizzata dei contenuti in rete

Il funzionamento del crawler si basa su una lista di URL da visitare; durante l’analisi di un URL, il crawler identifica tutti gli hyperlink presenti nel documento e li aggiungerà alla lista degli URL da visitare.

Il processo può essere concluso manualmente o dopo che un determinato numero di collegamenti è stato seguito.

I crawler acquisisce una copia testuale di tutti le pagine e i documenti visitati organizzandole in un indice, ovvero una base di dati.

L’utilizzo di un indice permette infatti di ottimizzare la velocità e le prestazioni di ogni meccanismi di ricerca; senza un indice, il motore di ricerca effettuerebbe ogni volta la scansione di tutte le pagine e i documenti richiedendo molto tempo e potenza di calcolo.

Alcune caratteristiche del software sono:

– Phrase matching: il software può estendere la ricerca a frasi esatte.

– Sintesi intelligente dei risultati di ricerca con evidenza della parola chiave ricercate.

– Ricerca e classificazione delle variazioni di un termine: le variazioni di un termine posso essere, facoltativamente, incluse nella ricerca.

– Indicizzazione dei più comuni documenti (Office 97-2007 +, OOXML, ODF, PDF, RTF, TXT, HTML [aspx, html, aspx, jsp …]): la maggior parte dei file possono essere indicizzati per la ricerca.

– Spider automatico: ricerca automantica di tutti i collegamenti interni ad un sito web ed indicizzazione delle pagine

– Indicizzazione di siti web protetti da password: la combinazione di nome utente e password può essere specificata per l’accesso a più siti web

– Supporto Unicode: scansione e indicizzazione delle pagine codificate nella maggior parte delle codifiche (Unicode, UTF-8, ASCII, cirillico, ecc greco).

– Ricerche con caratteri jolly (utilizzando l’operatore *) 

– Scansione, indicizzazione e ricerca programmata/schedulata

condividi

Mi occupo di progettazione e sviluppo di soluzioni su misura e di creazione, implementazione e mantenimento di infrastrutture digitali

Eros Sormani

il mio blog

SHARING MY ICT KNOWLEDGE AND EXPERTISE THROUGH THE DOCUMENTATION OF MY EXPERIENCES

Articoli portfolio correlati

Vuoi parlarmi del tuo progetto?

contattami per richiedermi informazioni o un preventivo

Torna su