Supporto volontario e collaborativo per Joomla!® in italiano

GoogleBot non riesce ad accedere ai file CSS e JS su ...

Valutazione attuale: 5 / 5

Stella attivaStella attivaStella attivaStella attivaStella attiva
 
Messaggio da Google

Sicuramente molti lettori hanno ricevuto una e-mail da parte di Google nella quale viene comunicato che GoogleBot non riesce ad accedere ai files CSS e JS (fogli di stile e javascript).

Recentemente Google ha annunciato di aver aggiornato le linee guida per i webmaster, sottolineando espressamente che bloccare determinati file CSS e/o JS può avere un impatto negativo sulla indicizzazione. Tali aggiornamenti, quindi, implicano che GoogleBot debba accedere a determinati files CSS e JS. Nel presente articolo verrà descritta la procedura per allineare i siti in Joomla! alle nuove linee guida adottate da Google.

Il file robots.txt

In tutti i siti realizzati in Joomla! è presente il file robots.txt (nella cartella principale che ospita tutti i file le cartelle di Joomla!), un semplice file di testo, che contiene le istruzioni che impediscono a tutti o ad alcuni crawler (GoogleBot, nel nostro caso specifico) l'accesso, la scansione e il prelievo di alcune o di tutte le pagine di un sito.

E' bene chiarire che le istruzioni contenute nel file robots.txt sono dei semplici suggerimenti per i crawler dei motori di ricerca che non sono obbligati in alcun modo a seguire. Motori di ricerca come Google e Bing, generalmente, seguono abbastanza alla lettera le direttive contenute nel robots.txt. Altri crawler, magari quelli degli spambot, potrebbero non seguire le direttive e quindi potrebbero andare a scansionare e indicizzare delle sezioni del sito che non si vuole vengano scansionate e indicizzate. Di conseguenza se ci sono delle sezioni di un sito che non si vuole che vengano viste da nessuno o che vengano viste solo da un certo numero di utenti il robots.txt non è efficace da questo punto di vista. Per evitare che determinate risorse finiscano nei motori di ricerca o in mano a chi fa attività di crawling massivo tali risorse vanno bloccate con altri sistemi. La tecnica più semplice è l'autenticazione http che fa in modo che all'apertura di una URL venga richiesta una user e password.

All'interno del file robots.txt possono essere inserite sostanzialmente 4 direttive:

  • User-agent serve ad indicare a quale crawler le direttive successive sono rivolte. La sintassi è: User-agent: nome dello spider o * (asterisco) per indicare tutti i crawler
  • Disallow serve a indicare a quali files e/o directory non può accedere il crawler indicato nella direttiva User-agent. La sintassi è: Disallow: nome del file o directory
  • Allow serve a indicare a quali files e/o directory può accedere il crawler indicato nella direttiva User-agent. La sintassi è: Allow: nome del file o directory
  • Sitemap permette di indicare l'indirizzo assoluto di una o più mappe del sito. La sintassi è: Sitemap: http://www.nomesito.ext/mappasito.xml

Per chi volesse approfondire l'argomento robots.txt suggerisco l'ottimo video di Danilo Petrozzi pubblicato su joomla.it

Verifica di un sito con gli Strumenti per WebMaster di Google

Negli Strumenti per Webmaster di Google è presente lo strumento Visualizza come Google che simula l'esecuzione di un reale processo di scansione e rendering di Google. Alla fine della scansione verrà rilasciato un report e sarà possibile capire quali sono i files ai quali Googlebot non riesce ad accedere in modo tale da modificare le direttive del file robots.txt per consentire l'accesso a Googlebot.

Lo strumento Visualizza come Google è raggiungibile dalla Search Console degli Strumenti per Webmaster sezione Scansione -> Visualizza come Google ed infine bisogna cliccare sul pulsante Recupera e visualizza e attendere il completamento della scansione e il relativo report. In base agli elementi bloccati indicati nel report sarà possibile sapere con precisione quali risorse aprire alla scansione e indicizzazione. Quindi la procedura migliore è verificare prima quali siano le directory alle quali Googlebot vuole accedere e cercare di dare accesso solo a quelle e non ad altre.

Una volta effettuata la scansione e analizzato il report se i files ai quali Googlebot non riesce ad accedere dovessero essere soltanto CSS e JS è decisamente semplice risolvere il problema inserendo nel file robots.txt la seguente direttiva, che consente a Googlebot di accedere a tutti i files CSS e JS presenti nel sito:

User-Agent: Googlebot
Allow: .js
Allow: .css

Se dal report dovessero emergere ulteriori tipologie di files non accessibili allora sarà necessario inserire direttive specifiche nel file robots.txt. Viste le possibili variabili non è possibile fare un elenco esaustivo della casistica, ma un'attenta analisi del report generato dallo strumento Visualizza come Google aiuterà a risolvere tutte le problematiche riscontrate.

Si consiglia inoltre di eliminare nel file robots.txt le seguenti righe se eventualmente presenti:

Disallow: /images/
Disallow: /media/
Disallow: /templates/

Il tutto per rispettare le regole di utilizzabilità per dispositivi mobili, come descritto in questo articolo.

commentaCommenta questa iniziativa sul forum


Ultima versione di Joomla!®

downloadVer. 3.7.2 Stabile Italiana
Data di rilascio: 23 Maggio 2017
(leggi la notizia Demo online

Le migliori estensioni gratuite

Un elenco aggiornato con i link a più di 100 estensioni fra componenti, moduli e plugin gratuiti per Joomla! 3

Manuale in italiano

Manuale in italianoPer conoscere meglio Joomla!, le sue caratteristiche ed il metodo di utilizzo leggi il manuale tradotto in italiano.

Molto utili anche le risposte alle domande più frequenti: FAQ

Sicurezza del proprio sito Joomla!Leggi anche: Nozioni sulla sicurezza del proprio sito

Autori di articoli recenti

Invia un articolo!Scrivi un articolo su Joomla.it e ricevi i ricavi dalle pubblicità di Google Adsense!
Segui queste istruzioni, condividi e collabora con la community. L'elenco degli autori attivi sul sito.

Libri consigliati

Torna su

Joomla.it sui Social Network

JoomlaDay Italia

JoomlaDay

Newsletter

Inserisci qui la tua e.mail: