Ricerca - motori di ricerca - search engine

Come funziona un motore di ricerca

Un motore di ricerca, conosciuto in inglese come search engine, è un software che analizza un insieme di dati e restituisce un indice dei contenuti disponibili. I risultati vengono classificati in modo automatico in base ad algoritmi e formule statistico-matematiche che indicano il grado di rilevanza data una determinata chiave di ricerca.

Ad oggi, con quasi due miliardi di siti internet, i motori di ricerca trovano maggiore utilizzo nel web. Scopriamo come funziona un motore di ricerca e come fa a consertirci di trovare quello che cerchiamo con una “semplice” ricerca.

Come funziona un motore di ricerca

Un motore di ricerca per poter fornire i risultati svolge tre particolari funzioni:

  • scansione (crawling)
  • indicizzazione (indexing)
  • ranking e creazione di SERP (searching)

Grazie alla sinergia di questi tre processi è possibile ottenere in pochi istanti i risultati. Tali risultati vengono visualizzati sotto forma di pagina web (SERP – Search Engine Results Page) ed organizzati per ranking, della nostra ricerca effettuata.

Quotidiamente si cerca di scalare il più possibile la posizione in SERP per arrivare alle prime posizioni. Purtroppo, l’algoritmo utilizzato in un motore di ricerca non lo si conosce ma viene di aiuto conoscere il funzionamento di questi step per cercare di sfruttare i loro meccanismi di posizionamento a nostro favore.

La scansione (crawling)

La prima fase del processo di indicizzazione avviene attraverso la scansione del web per conto del motore di ricerca. Questo lavoro viene affidato ai cosiddetti spider (o crawler o robot). Questa scansione parte dai siti ritenuti più autorevoli per poi arrivare a tutti i portali.

Gli spider in questa fase esaminano il codice html di tutti i documenti presenti sul web, qualsiasi sia la sua natura (testo, immagini, video). Lo spider eseguendo questo processo si sofferma sulle parti specifiche che compongono il codice (parsing). In particolare:

  • titolo della pagina
  • meta description
  • alt text delle immagini
  • testo in grassetto
  • testo in corsivo
  • link – collegamento

Tra queste specifiche componenti il software andrà alla ricerca delle keyword – parole chiavi – ricorrenti e di rilievo che saranno poi utilizzate nel processo di indicizzazione. Lo spider in questa fase compilerà un database consultabile dal motore di ricerca.

Il lavoro fatto dallo spider sul web, è possibile grazie capacità che questi software hanno di riconoscere i link e contemporaneamente utilizzarli per spostarsi da una pagina web ad un’altra.
Questo processo è ovviamente iterativo, lo spider a intervalli regolari ritornerà sui siti già scansionati alla ricerca di variazioni e nuovi contenuti.

In caso lo spider rilevi delle novità, salverà di volta in volta l’ultima versione del sito web.

Indicizzazione (indexing)

Dopo la fase di crawling la mole di dati trovata viene messa in ordine e catalogata. Il serach engine attraverso particolari algoritmi proprietari classifica le pagine per parole chiave (le keyword individuate dallo spider), categorie, tematiche e in base a diversi altri parametri creando un archivio.

I dati recuperati possono essere indicizzati in diversi livelli. Infatti i dati possono essere archiviati in modo permanente o temporaneo, o possono essere inseriti in indici secondari o specializzati, come ad esempio nell’indice riservato alle immagini.

Nel momento in cui un utente sfrutterà un motore di ricerca per eseguire un ricerca on line il motore non andrà a consultare l’intero web, ma il proprio database contenente i dati già ordinati. Grazie a questo processo è possibile ottenere in maniera quasi istantanea una pagina SERP con i risultati di ricerca già perfettamente ordinati.

Ranking e creazione della SERP

Quando l’utente avvierà la propria ricerca, il motore di ricerca andrà a mettere in atto tutti gli step dei suoi algoritmi, prelevando dalle tabelle del database i documenti più semanticamente vicini alla query, ordinandoli poi nella pagina dei risultati della nostra ricerca.

Per poter restituire questo tipo di risultato, un motore di ricerca deve tenere conto diversi fattori, parliamo di centinaia di fattori. In principali di cui deve tenere conto sono:

  • la qualità del sito
  • le parole più frequentemente ricercate all’interno della pagina
  • la presenza o meno delle parole che vanno a formare la query nell’URL, nel meta-tag title, nel titolo e nelle prime righe del testo
  • i sinonimi delle parole ricercate nel testo
  • l’importanza del sito, stabilita dal motore di ricerca attraverso l’analisi semantica e l’analisi dei link in entrata verso di esso

Alcuni di questi fattori sono conosciuti e sono stati confermati da Google, mentre altri invece sono custoditi gelosamente per evitare la manipolazione dei risultati.

Analisi semantica e analisi dei link

L’analisi semantica è lo strumento attraverso il quale un search engine (il motore di ricerca per intenderci) riesce ad individuare all’interno del suo database i record associati ad un gruppo di parole e frasi (query). Con l’analisi dei link, invece, viene stimata la quantità e la qualità dei link in entrata (backlink) verso una determinata risorsa.

Con questo tipo di valutazione il motore di ricerca riesce a stabilire il valore di un contenuto web e può separare i siti web quelli utili da quelli meno utili.

Lo sviluppo e il futuro dei motori di ricerca

L’evoluzione degli algoritmi dei motori di ricerca si basa sull’analisi semantica dei termini e sulla conseguente creazione di reti semantiche. Lo stesso Google ha adottato sistemi per la prevenzione dell’errore e la contestualizzazione dei risultati.

Oggi i motori di ricerca basano le proprie tecnologie sia sull’analisi quantitativa dei contenuti (le parole in sé), sia soprattutto su quella qualitativa (la semantica, il senso delle parole) basandosi anche sul contesto in cui le parole sono inserite.

Con la costante evoluzione internet sta diventando sempre più a misura d’uomo e di conseguenza oggi i motori di ricerca sono in grado di proporre in maniera autonoma alcuni “contenuti su misura”. È probabile che in un futuro non molto lontano i motori di ricerca, ancor primaa di essere interpellati, saranno in grado di selezionare le notizie più attinenti all’utente. Per fare ciò i search engine dovranno sempre di più conoscere ogni singolo utente, andando a spulciare ogni dato personale con le conseguenti problematiche relative alla tutela e trattamento dei dati personali degli utenti.

Saremo in grado di trovare il giusto equilibrio tra utilità e tutela privacy? È un argomento molto importante che merita ulteriori indagini a venire.

Leave a Comment