Robots.txt. Cosa c'è da sapere per un sito in Joomla!

Il file robots.txt di joomlaTutti noi vogliamo il massimo della visibilità sui motori di ricerca per i nostri siti web, ma l'attività SEO spesso è complicata e ricca di sfaccettature in continua evoluzione, per questo dopo aver scritto l'articolo "Il posizionamento sui motori di ricerca di un sito in Joomla!" mi ero ripromesso di fare una serie di ulteriori articoli di approfondimento che possano aiutare a scendere nella specifica attività SEO del tuo sito in Joomla!

 

Ho deciso di partire da una delle cose più semplici ma forse un po' troppo sottovalutata il file robots.txt.


Il file robots.txt è un piccolo file che si trova nella cartella principale del sito Joomla!. Il file contiene le istruzioni per i motori di ricerca su cosa indicizzare e proporre nelle sue ricerche e cosa lasciare fuori.

 

Alcune persone confondono il file robots.txt con il file htaccess.txt (che poi diverrà .htaccess), la differenza è significativa. Il primo fornisce solo le istruzioni per i motori di ricerca, istruzioni che la maggior parte dei motori di ricerca capisce e rispetta.

 

A differenza del htaccess.txt il file robots.txt non viene utilizzato per la gestione della sicurezza o della visualizzazione del tuo sito, tuttavia può avere un impatto importante sul SEO (Search Engine Optimization). Il file .htaccess viene utilizzato per riconfigurare le impostazioni del server Apache, reindirizzare le URL, alzare il livello di sicurezza, ma questa è un'altra storia e magari ne parliamo in un altro articolo. Sorridente


Il file robots.txt e il SEO

Come accennato, il file robots.txt si trova nella cartella principale del sito. Contiene informazioni su quali cartelle debbano essere indicizzate e quali no, può anche includere informazioni sulla sitemap XML.

 

Magari ti sembrerà strano ma l'importanza del file è legata alla possibilità di escludere dall'indicizzazione alcune parti del tuo sito. Attraverso il file robots.txt hai la possibilità di dire al motore di ricerca cosa vuoi che lui veda e suggerisca ai vistatori. Nel caso del nostro CMS è naturale e giusto che vengano preservate le cartelle d'amministrazione o quelle dei componenti.

 

Molto più spesso di quanto immagini si può avere la necessità che google, o qualsiasi altro motore di ricerca, non venga a conoscenza del contenuto di una cartella o di un singolo file creato da noi, il caso più comune è perché stiamo effettuando dei test su una nuova versione del sito. Nel caso di un singolo file puoi utilizzare anche il Meta Robots con questa sintassi:

 

META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"

 

Se devi inibire l'accesso ad una cartella devi però aggiungere una riga al tuo file robots.txt.

 

Il file robots.txt di Joomla! 2.5 è questo:

# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://www.sxw.org.uk/computing/robots/check.html

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

 

La parte iniziale commentata con i simboli cancelletto ti spiega come intervenire qualora la tua installazione di Joomla! sia in una cartella precisa. Suggerisce inoltre ulteriori fonti a cui attingere informazioni specifiche come la sitassi utilizzata.

 

Il resto dà libero accesso a tutti gli agenti dei motori di ricerca, cioè ai software incaricati di leggere i contenuti delle tue pagine chiamati spider o crawler:

User-agent: *

.... e inibisce l'accesso alle cartelle di sistema:

Disallow: /administrator/
Disallow: /cache/
Disallow: ..... 
ecc.

 

Ci sono due cose che non si può fare a meno di raccomandare in materia di SEO per il file robots.txt di Joomla!.

 

Bisogna rimuovere l'esclusione della cartella immagini.

 

Per ragioni che non ho mai capito, il file robots.txt di default in Joomla! è impostato per escludere la cartella immagini dalla scansione del motore di ricerca. Ciò significa che le immagini del tuo sito non verranno mai indicizzate da Google ne nessun altro motore di ricerca le includerà nella sua ricerca di immagini. Io credo che tutti noi vogliamo aggiungere questo ulteriore livello di visibilità per il nostro sito sui motori di ricerca.

 

Per modificare questa limitazione devi aprire il file robots.txt e rimuovere la riga che dice:

 

Disallow: / images /

 

Eliminando questa riga, Google e gli altri motori di ricerca inizieranno ad indicizzare le immagini alla successiva scansione del tuo sito.

 

Aggiungi poi un riferimento al file della sitemap.xml.

 

Diverse sono le cose da dire sul file XML (eXtensible Markup Language) della sitemap e su come questo ti può aiutare ad ottenere una buona indicizzazione del tuo sito Joomla! su Google, considerando che disponi di un file sitemap.xml (e io ti cosiglio di averlo), sarà buona norma includere la seguente riga nel tuo file robots.txt:

 

Sitemap: http://www.nomesito.ext/sitemap.xml

 

Naturalmente, questa riga deve essere adattata al tuo dominio e quindi puntare la reale posizone del tuo file sitemap.xml. Nel mio caso, uso il componente Xmap per creare il file della mappa quindi uso quel riferimento per modificare il mio file robots.txt.

 

Come modificare il file Robots.txt

Ok ho capito che devo modificare il mio file robots ma come faccio? Dove si trova?

 

Modificare il file robots.txtEssendo un semplice file di testo per aprirlo è sufficente il blocco note o un qualsiasi editor testuale ma è fondamentale che l'estensione del file resti .txt. A seconda del client FTP che usi potresti addirittura editare il file direttamente nel server web.

 

Se usi gli Strumenti per Webmaster di Google, vedrai che c'è un'intera voce dedicata al file robots sotto Confgurazione sito > Accesso Crawler. Da qui hai la possibilità di verificare immediatamente se il tuo file robots funziona leggendone direttamente il contenuto, vedendo quante URL sono state bloccate e, se sei ancora scettico sull'importanza di questo file, il numero di volte che google lo ha cercato.

 

Dove ti ho suggerito, in una scheda negli Strumenti per Webmaster di Google, trovi anche un'applicazione per generare il tuo file robots.txt partendo dai suggerimenti di google stessa. Qui potrai inibire o facilitare l'accesso al User Agent dei diversi motori di ricerca. Attenzione però a giocare con questo strumento potresti inibire completamente l'accesso al tuo sito.

 

Il file robots.txt lo trovi direttamente nella cartella principale del tuo sito copiato con gli altri file durante l'installazione di Joomla!

 

Ricapitolando

Il file robots.txt:

  • Non va confuso con il file htaccess.txt
  • Va editato bloccando l'accesso alle cartelle di sistema o quelle che conviene tenere nascoste
  • Va editato rimuovendo il Disallow: / images / per permettere l'indicizzazione delle tue immagini
  • Va editato aggiungendo la posizione della sitemap
  • Va verificato se viene letto corretamente dai motori di ricerca

 

Curati questi aspetti, il file robots.txt può vivere felicemente e in pace nella cartella principale del tuo sito Joomla!.



Articolo scritto da Maurizio ZioPal - Posizionamento e realizzazione Siti in Joomla!

 

 


CommentaCommenta questo articolo sul forum
Commenta su G+Oppure commenta e condividi questo articolo sulla nuova pagina ufficiale di Joomla.it su Google+