Indicizzazione del sito

1)Aggiunta  di un sito per il motore di ricerca Yandex.
2)Mappa del sito. Per la comodità dei webmaster e per i  motori di ricerca,è stato sviluppato un formato speciale di una mappa del sito, chiamato:”site map” . Questa “site map” è una lista di link a pagine interne al sito rappresentato in formato XML.  Anche Yandex, supporta questo formato. È possibile scaricare una mappa del sito per ogni sito nella sezione dei servizi ” Yandex.Webmaster”. Ciò consente di controllare la priorità in base alla quale il robot visita alcune pagine del tuo sito. Per esempio, se alcune pagine vengono aggiornate molto più spesso rispetto a altre, è necessario includere queste informazioni nel sito in modo che il  robot di Yandex  possa pianificare correttamente il suo lavoro.
3)Robots.txt è un file creato per i robot dei motori di ricerca. In questo file, il webmaster può specificare i parametri di indicizzazione del sito per tutti i robot o per ogni specifico  motore di ricerca. Diamo uno sguardo ai trè parametri più importanti che è possibile specificare in questo file.

  • Disallow. Questa direttiva vieta l’indicizzazione delle sezioni specifiche del sito. Con esso, è possibile impedire l’indicizzazione delle pagine tecniche e quelle che non sono interessanti per gli utenti o per i motori di ricerca. Questo include le pagine con i risultati di ricerca del sito, statistiche delle visite, pagine duplicate, vari registri, pagine di database di servizio e così via. È possibile ottenere ulteriori informazioni su questo tema  in una sezione speciale che tratta specificamente del “robot. text  file.
  • Crawl-delay. Questa direttiva consente di specificare l’intervallo minimo (in secondi) per il robot nella indicizzazione di due  pagine del sito. Questa direttiva è utile per i progetti su larga scala con decine di migliaia di pagine. Il robot di ricerca di Yandex potrebbe  generare un carico importante su tale sito durante la fase di  indicizzazione, causando rallentamenti e interruzioni nel funzionamento del sito . Questo è il motivo per cui può essere utile  limitare il numero di tentativi di accesso per ogni secondo. Ad esempio, la seguente direttiva: Crawl-delay: 2 dirà al robot di  aspettare 2 secondi tra due  richieste del server conseguenti.
  • Clean param. Questa direttiva permette di dire ai robot di ricerca che i parametri CGI (Common Gateway Interface) in indirizzi di pagine devono essere ignorati. Questi Indirizzi possono contenere identificativi di sessione. Formalmente le pagine con diversi identificatori sono diverse, ma il loro contenuto è identico. Se i siti hanno molte di queste pagine, il robot di indicizzazione può iniziare a indicizzare tutte queste pagine  invece di accedere ai contenuti utili per l’utilizzatore. È possibile trovare ulteriori informazioni sull’uso della direttiva “param ” nella corrispondente sezione della guida.
    Il servizio “Yandex.Webmaster” consente di visualizzare l’elenco di URL indicizzati dal tuo sito. Controlla a intervalli regolari, perché anche piccoli errori di codifica possono portare ad un significativo aumento di URL indesiderati sul sito e sovraccaricarlo.

4) Yandex indicizza i più diversi tipi di documenti diffusi in Internet. Esistono limitazioni, tuttavia, che influenzano come il documento sarà  indicizzato e come sarà indicizzato.

Un gran numero di parametri CGI nell’ URL, molti livelli di directory nidificate e ripetute e una eccessiva lunghezza dell’ URL possono influenzare negativamente l’indicizzazione dei documenti.
Le dimensioni del documento sono rilevanti: i documenti più grandi di 10 MB non sono indicizzati.
Indicizzazione Flash
Flash è indicizzato se non è integrato nell’HTML e la pagina viene trasmessa con un’intestazione HTTP contenente Content-Type: application / x-shockwave-flash;
* file .swf vengono indicizzati se sono collegati direttamente .
Nei  documenti PDF, solo il contenuto del testo è indicizzato. Il Testo rappresentato come immagini grafiche non viene indicizzato.
Yandex indicizza i documenti in formato “Open Office” XML  e in formato “OpenDocument”  correttamente (tra cui, tra gli altri, i documenti di Microsoft Office e Open Office). Si prega di notare che quando le nuove versioni del software appaiono l’attuazione di sostegno per i nuovi formati potrebbe richiedere un po ‘di tempo.

5)Se si è sovracaricato il server con  degli URL inesistenti, accertarsi che il server restituisca il codice di errore 404. Dopo averlo ricevuto, il motore di ricerca escluderà questo documento dalla ricerca. Assicurarsi che tutte le pagine del sito utili ritornino invece  il  codice 200 , OK.
6)Assicurarsi che le intestazioni HTTP siano corrette. In particolare, è molto importante che il server restituisca una risposta corretta al la richiesta “if-Modified-Since” . Il “Last-Modified “deve contenere una data corretta dell’ultimo aggiornamento del documento.
7)Si consiglia di posizionare le versioni del sito destinate ai dispositivi mobili, così come la versione del sito in diverse lingue, in sottodomini.
Nota.
Controllare che il robot di  ricerca di  Yandex  con l’aiuto del file robots.txt,  vieti l’indicizzazione delle pagine che non sono destinate  agli utenti.