information retrieval Category

0

crawler

un crawler deve essere scalabile, ovvero il programmatore deve capire bene quali sono i suoi limiti. Per fare ciò dobbiamo capire come funziona un crawler. Esso, sostanzialmente, è formato da diversi moduli che cooperano tra loro. – iniziamo con l’URL frontier, che contiene gli url che non sono ancora stati controllati dal crawler (se si…

0

Vector space model

senza l’uso dei metadati, i documenti possono essere visti come semplici “sequenze di termini”, e invece possiamo codificare informazioni importanti come l’autore o il titolo di una serie di documenti con il rispettivo indice parametrico. Con “zona” intendiamo la parte di documento che contiene il testo libero. Per facilitare la ricerca dovremmo costruire degli indici…