Supporto volontario e collaborativo per Joomla!® in italiano

Contenuti duplicati, come intervengo? - Seconda Parte

Come intervenire contro i contenuti duplicatiProseguendo con lo sviluppo di quello che è stato l'argomento trattato nell'intervento al JoomlaDay sui contenuti duplicati è naturale, dopo aver visto nella prima parte cosa sono e quali rischi puoi correre tralasciando d'intervenire, cercare di capire quali sono i modi d'intervento, cosa si aspettano da te motori di ricerca e quale filosofia dovrà muovere i tuoi accorgimenti.

 

I modi d'intervenire sono diversi molti già li usi e non te ne rendi conto, per esempio la Sitemap che, se fatta bene, suggerisce di fatto una prima versione dei tuoi URL canonici al motore di ricerca. Lo fai quando installi dei componenti, Virtuemart ad esempio aggiunge dei parametri che Google è in grado d'interpretare, utilizza anche un rozzo sistema d'inserimento del rel canonical, io non prescinderei mai dall'installazione di componenti SEF che nascono per riconoscere e prevenire determinate situazioni.

 

Sostanzialmente ci sono due grossi modi d'intervenire più alcune tecniche specifiche, un sistema è sicuramente legato all'indicizzazione del contenuto, l'altro alla canonicalizzazione.


 

Indicizzazione

L'indicizzazione di un sito è una cosa abbastanza semplice spesso è sufficiente essere presenti sul web ed avere un back link, lo spider del motore di ricerca seguirà poi i link presenti sul tuo sito fino ad indicizzarne tutte le pagine.

 

Per evitare contenuti duplicati potrei impedire l'indicizzazione di quelle pagine o aree del sito che generano questi contenuti. Posso fare questa operazione attraverso le istruzioni presenti nel file Robots.txt o specificando i meta NoIndex, NoFollow per ogni singola pagina.

 

Le ultime tendenze di Google sembrano orientate verso lo sconsigliare il blocco dell'accesso allo spider sia questo fatto attraverso Robots.txt che con altri metodi, Google ci suggerisce di utilizzare metodi che possano identificare direttamente i duplicati, gestendoli piuttosto che nascondendoli.

 

Robots.txt

Nel file Robots.txt è possibile specificare se indicizzare una determinata pagina, una determinata tipologia di file, o addirittura le pagine di una determinata area del sito attraverso il comando Disallow.

 

Le seguenti righe impediscono l'indicizzazione per:

 

Disallow: /images/

impedisce l'accesso a tutti i file presenti nella cartella immagini, (questa riga è presente nel file Robots.txt di Joomla e di fatto impedisce che le tue immagini vengano indicizzate, il mio consiglio è quello di rimuaverla)

 

Disallow: /* .pdf$

impedisce la scansione e l'indicizzazione di tutti i file con estensione pdf


Disallow: /*?

impedisce la scansione di tutte le URL dove appare il ? (punto interrogativo)

 

C'è da notare che il file Robots.txt rappresenta un suggerimento per il motore di ricerca non un obbligo, l'inibizione indica (suggerisce) di non indicizzare quei contenuti, il motore di ricerca da li non ci accederà ma potrebbe addirittura indicizzarla seguendo un link da esterno.

 

I tag NoIndex/NoFollow

Per impedire agli spider dei motori di ricerca di indicizzare una pagina specifica del tuo sito puoi inserire il Metatag NoIndex nella sezione specifica della tua pagina.

 

Quando lo spider trova il Metatag NoIndex nella pagina, eliminerà completamente il contenuto dai suoi risultati di ricerca, e a differenza del file Robots.txt, anche se ci sono altre pagine con link che rimandano a quel contenuto.

 

Google dice che se già indicizzati i contenuti verranno eliminati alla successiva scansione, ma è possibile accelerare il processo utilizzando un apposito strumento disponibile negli Strumenti per Webmaster che permette la richiesta di rimozione di URL a Google.

 

La canonicalizzazione dei contenuti

Canonicalizzazione

Con l'evoluzione dei CMS è diventato frequente che in molti siti si trovino diverse versioni di un contenuto pubblicato attraverso URL diverse. Spesso si può accedere alla pagina tramite diversi indirizzi, specialmente se si utilizzano ID di sessione o parametri specifici come nel caso di siti E- Commerce:

  • http://www.example.com/prodotti/donne/abiti
  • http://www.example.com/prodotti?category=abiti&color=verde&cruel=no
  • http://example.com/negozio/index.php?product_id=32&highlight=verde+abito&cat_id=1&sessionid=123&affid=431>
  • http://example.com/abiti/cocktail?gclid=ABCD
  • http://www.example.com/abiti/abitoverde.html
  • http://www.example.com/abiti/AbitoVerde.HTML

 

Come in questo esempio suggerito da Google tutte queste URL potrebbero portare alla stessa pagina o comunque a pagine simili. Per avere un maggiore controllo delle tue URL e per consolidarne la popolarità dei link, il consiglio è di sceglierne uno solo, un preferito  o canonico come viene chiamato dai motori di ricerca.

 

Puoi indicare la tua canonicalizzazione in diversi modi, google dice di non avere preferenze e non lo considera un obbligo specificando:

 

..se non indichi un URL canonico, provvederemo a identificare quella che a nostro parere è la versione migliore.

 

Ci sono diversi modi per indicare le tue preferenze, le tue canonicalizzazioni.

 

Dominio Predefinito

La prima canonicalizzazione è quella del dominio, bisogna specificare quale versione della tua home page è quella che consideri principale. Questo si può fare in maniera molto semplice attraverso gli Strumenti per Webmaster ma vale solo per google, quindi ti suggerirei di farlo utilizzando il Rel=canonical o il Redirect 301.

 

Specificando quale versione del tuo dominio preferisci indichi quale versione dell'URL del tuo sito ritieni sia la principale a cui far riferimento.

 

Impostare il dominio preferito http://www.tuosito.ext, significherà che la versione http://tuosito.ext verrà trattata esattamente allo stesso modo come fossero un unica pagina.

 

Negli Strumenti per Webmaster di Google puoi impostare il dominio preferito su Configurazione sito > Impostazioni > Dominio preferito, qui scegli l'opzione che preferisci.

 

SiteMap

Tutti ormai siamo abituati a fornire ai motori di ricerca una Sitemap ma nessuno pensa che questo sia il modo più semplice di dire quali sono i nostri contenuti canonici.

 

Scegliendo le URL da inserire in una Sitemap stai scegliendo le pagine canoniche del tuo sito, stai dicendo al motore di ricerca che qualsiasi altra versione della pagina è secondaria, anche se non puoi avere la garanzia che verranno utilizzati come tu preferisci, l'invio della Sitemap è comunque il primo passo verso la canonicalizzazione dei tuoi contenuti.

 

Rel="canonical"

Nel 2009 per risolvere il problema delle URL duplicate è stata annunciata l’introduzione di un nuovo tag che permette di indicare la versione preferita della pagina web che vorresti vedere indicizzata il tag in questione è il rel=”canonical”.

 

Questo tag non funziona solo con Google ma viene riconosciuto e valutato allo stesso modo anche da Yahoo! e Bing e viene considerato dai motori di ricerca come un “suggerimento” che potrebbe non essere seguito.

 

Se vuoi che http://www.tuosito.ext/stampanti/laser.html sia l'URL canonico da indicare ai motori di ricerca, puoi farlo aggiungendo un elemento con l'attributo rel="canonical" nella sezione dei meta delle pagine non canoniche.

 

Questa è la sintassi da inserire in tutte quelle pagine copia della tua preferita:

 

link rel="canonical" href="http://www.tuosito.ext/stampanti/laser.html "

 

Può essere specificata anche la forma relativa

 

link rel="canonical" href="/stampanti/laser.html "

 

accompagnata dal Tag Base ma Case History e dichiarazioni di Google lasciano pensare che sia preferibile la forma assoluta.

 

Tieni presente che non sempre i problemi sono in casa, infatti capita spesso che i nostri contenuti vengano linkati dall’esterno in modi diversi e non sempre con la URL che noi consideriamo canonica, è il caso di:

  • codice di tracking in campagne di affiliazione
  • RSS come feedburner
  • link condivisi con parametri aggiuntivi
  • citazioni con aggiunte erronee all’URL

 

in questi casi il Rel Canonical diventa di grande aiuto perché ti offre una grande flessibilità nella gestione delle URL senza dover fissare vincoli troppo stretti da rischiare un 404 ad ogni variazione minima dell’URL.

 

Quando usare il rel:"canonical"?

Se desideri indicizzare i contenuti della pagina “1”, ma vuoi che gli stessi contenuti siano disponibili anche dalla pagina “2” e "3" e così via, allora dovrai usare il rel canonical da “2” e da "3" verso “1”.

 

Dovrai quindi usare i canonical link in tutti quei casi in cui vuoi che il contenuto possa essere visibile da diverse URL come:

  • Contenuti usufruibili da URL diverse
  • Contenuto molto simile anche se differente
  • Pagine del sito con URL parametrizzate che di fatto generano URL differenti per lo stesso contenuto
  • Pagine del sito destinate alla stampa o alla generazione di pdf dal contenuto principale.

 

Il canonical link può essere utilizzato anche per contenuti duplicati presenti su siti diversi o su sottodomini, anche per questo motivo è preferibile specificare sempre il link alla pagina canonica nella forma assoluta.

 

Non ci sono controindicazioni nel caso in cui le tue pagine canoniche puntano a se stesse come non ci sono problemi a specificare il rel canonical in caso di paginazione se si usano il Rel Prev e il Rel Next, in questo caso il rel canonical dovrebbe indicare la pagina di rielogo completa.

 

Bisogna invece prestare particolare attenzione ad errori 404 su pagine canoniche, perchè rischi di non aver nessuna pagina che "rappresenti" il tuo contenuto.

 

Redirect 301

Il redirect 301 è la forma di canonicalizzazione "definitiva", perché dice al motore di ricerca che una pagina non esiste più ed è stata permanentemente sostituita da un'altra. Il 301 è ampiamente riconosciuto da tutti i motori di ricerca e quindi si fa' preferire ad altre soluzioni.

 

I reindirizzamenti 301 sono da utilizzare quando:

  • stai cambiato nome dominio al tuo sito web
  • stai unendo due siti web
  • si accede alle stesse pagine del tuo sito da URL diverse che non riesci o non vuoi più gestire
  • devi gestire le diverse versioni della tua Home Page

 

I Back Link che portano ad una pagina reindirizzata con il 301, saranno considerati a tutti gli effetti come link che puntano a quest’ultima e ne godranno di tutti i vantaggi.

 

Implementare un reindirizzamento 301 per quei siti web ospitati su server Apache è abbastanza facile sarà sufficente accedere al file .htaccess ed apportare poche modifiche. Ci sono anche molte altre alternative per realizzare un 301, potrebbe essere disponibile nel pannello del tuo hosting provider o direttamente nell'amministrazione del tuo sito joomla.

 

Contenuti duplicati tecniche specifiche

 

Tecniche specifiche

La canonicalizzazione e l'indicizzazione non sono gli unici modi di combattere i contenuti duplicati, spesso è richiesto un tipo d'intervento diverso in situazioni particolari che se pure non generano un contenuto duplicato possono essere interpretati come tali.

 

Paginazione

In caso di paginazione, in Joomla ad esempio la gestione del Page Break, bisognerà utilizzare rel="prev" e rel="next", questi markup indicano che queste pagine debbono essere considerate come parte di una sequenza logica.

 

Insieme a rel="prev" e rel="next" dovrebbe essere utilizzato anche il rel="canonical" ad indicare una pagina di riepilogo appunto utilizzata come canonica,  l'utilizzo è consigliato per evitare l'esclusione di alcune pagine della sequenza dall'indice.

 

In alternativa Google suggerisce di non fare nulla, perché i contenuti divisi in più pagine sono frequenti e riesce ad individuarle ed indicizzarle bene.

 

Parametri URL

Se il motore di ricerca rileva delle varianti provocate dai parametri degli URL, come potrebbe essere in un ECommerce, gli URL duplicati vengono automaticamente raggruppati e viene selezionato per i risultati di ricerca quello "migliore" per rappresentare il gruppo.

 

Google per migliorare questa procedura, mette a disposizione uno strumento di gestione parametri in Strumenti per Webmaster contenente parametri specifici. In Joomla componenti evoluti come VirtueMart o Sobi forniscono direttamente a Google alcuni di questi parametri.

 

Puoi specificare i tuoi parametri direttamente tuttavia potrebbe verificarsi che in alcuni casi i suggerimenti forniti facciano più male che bene (così dice Google :) )

 

Il link tag Alternate

Il Tag Link Alternate è simile al link canonical. viene tuttavia utilizzato per l'ottimizzazione SEO internazionale o multilingua.

 

questa è la sintassi:

link rel=”alternate” hreflang=”en” href=”http://www.example.com/path” /

link rel=”alternate” hreflang=”en” href=”http://www.example.co.uk/path” /

link rel=”alternate” hreflang=”it” href=”http://www.example.com.it/path” /

 

Con il rel canonical escludi tutte le pagine duplicate dall’indicizzazione, con il rel alternate invece aiuti il motore di ricerca ad indicizzare le pagine individuando la versione migliore per la nazione specifica.

 

 

Questi sono i principali modi d'intervenire sui contenuti duplicati presenti sul tuo sito, come ho avuto già modo di dire i motori di ricerca sono perfettamente in grado di trovare e gestire i contenuti duplicati ma questo gli costa molte risorse quindi chiede il tuo aiuto per "smaltire" un po' di lavoro. Se sarai in grado di fare questo bene probabilmente sarai premiato se non farai nulla probabilmente verrai penalizzato.

 

Nel prossimo articolo ti parlerò di quali strumenti hai a disposizione per intervenire ed abbattere l'incidenza dei contenuti duplicati.

 

 

Articolo scritto da ZioPal - Come posizionare un sito Web

CommentaCommenta questo articolo sul forum