Come evitare i contenuti duplicati nel tuo sito. Prima parte

I contenuti duplicati in un sito JoomlaLa creazione di contenuti duplicati nel web è una cosa naturale e CMS evoluti come Joomla ne possono creare davvero molti, i motori di ricerca non li apprezzano e ti possono portare fino alla penalizzazione. Dopo il mio intervento al JoomlaDay ho pensato di riportare i miei appunti in articoli, per trattare l'argomento in maniera più esaustiva.

 

Cosa sono e quali rischi corro?

Tutti sanno che i motori di ricerca non apprezzano i contenuti duplicati perché questi non rendono un buon servizio a chi effettua le ricerche e rendono più dispendioso il lavoro dei loro server, e tutti noi sappiamo che CMS evoluti come Joomla finiscono col generare comunque dei duplicati.

 


L'obbiettivo di ogni motore di ricerca è quello di eseguire la scansione delle pagine del tuo sito nel modo più efficiente possibile. L'indicizzazione e la scansione di siti web con contenuti duplicati rappresentano un uso poco efficiente delle risorse che il motore di ricerca utilizza e questo può mettere a rischio penalizzazione il tuo sito.

 

Anche se Google dichiara che la presenza di contenuti duplicati su un sito non giustifica l'adozione di misure particolari sono loro i primi a fornire una serie di contromisure che se disattese potrebbero portare all'esclusione dagl'indici del motore di ricerca.

 

Quindi i rischi collegati ad una cattiva gestione dei contenuti duplicati sono la penalizzazione e l'esclusione dall'indice, si corrono rischi anche nel caso in cui qualcuno abbia copiato i tuoi contenuti sul suo sito in quel caso potresti essere penalizzato o escluso a vantaggio del concorrente che ti ha copiato.

 

Cercheremo di capire se e com'é possibile evitare che tali contenuti vengano generati o semplicemente com'è possibile gestirli, come effettuare l'analisi e come intervenire.

Contenuti duplicati secondo Google

Secondo Google il contenuto duplicato è riferito a blocchi di testo presenti all'interno delle pagine del tuo sito o tra pagine di vari siti, che sono identici o comunque molto simili. Anche se Google non considera questa pratica come ingannevole di per se è bene fare attenzione, tra gli esempi più ricorrenti di contenuti duplicati ci sono:

  • Gli articoli archiviati che generano URL diverse da quelle originali

  • La versione per la stampa o pdf della pagina web

  • Diverse versioni di un prodotto in un E-Commerce

Se ti rendi conto che il tuo sito contiene contenuti duplicati hai diverse possibilità di dire al motore di ricerca qual'è la versione che preferisci, la principale, la canonica.

 

Google dichiara che la presenza di contenuti duplicati su un sito non implica necessariamente una penalizzazione (a meno che non supponga che l'intento sia finalizzato a guadagnare posizioni nelle SERP dei motori di ricerca), se nel tuo sito ci sono contenuti duplicati anche se non segui i consigli di google, questi provvederà a scegliere la versione secondo lui migliore da visualizzare nel risultato della ricerca.

 

Il motore di ricerca indicizza e propone solamente pagine con contenenti unici e se il tuo sito contiene una versione stampabile degli articoli oltre a quella normale in mancanza d'indicazioni precise ne sceglierà comunque una sola.

 

Ci sono casi in cui i contenuti vengono volontariamente gonfiati copiandoli tra diversi domini nel tentativo di gonfiare il numero di pagine e guadagnare un miglior posizionamento per determinate parole chiave. Logicamente l'inganno peggiorerebbe il servizio offerto dal motore di ricerca, che nel caso in cui si accorgesse che i contenuti duplicati vengono prodotti al fine di manipolare il posizionamento, interverrà direttamente sull'indicizzazione dei contenuti e dell'intero sito fino alla rimozione totale dall'indice facendolo sparire dai risultati di ricerca.

Quali sono?

Quali sono i contenuti duplicatiSei sicuro di conoscere bene le modalità di visualizzazione dei contenuti sul tuo sito web?

 

CMS come Joomla mostrano spesso gli stessi contenuti in più formati. Un articolo di un blog può presentarsi ad esempio con le stesse caratteristiche anche in una pagina archiviata o in una pagina con altre caratteristiche.

 

La paginazione crea contenuti considerabili come duplicati, se si sta utilizzando Joomla con più di un menu ogni link a una pagina avrà parametri URL differenti e potrà generare duplicati, la versione stampabile e la versione PDF delle tue pagine web creano contenuti duplicati.

 

Non so' dopo che percentuale di contenuti identici Google consideri due pagine duplicate ma nella guida degli Strumenti per Webmaster quando si parla di contenuti duplicati si parla di ridurre al minimo i contenuti simili.

Quali sono i contenuti duplicati?

Dominio predefinito

La tua pagina home può essere indicata in diversi modi che vengono considerati duplicati

  • http://www.tuosito.ext

  • http://tuosito.ext

ma anche

  • http://www.tuosito.ext/

  • http://www.tuosito.ext/index.php

  • http://195.100.128.256/

Stampa e PDF

La funzione che permette la stampa o la creazione di un PDF dalla tua pagine web produce un contenuto sicuramente duplicato.

Pagine Simili

Sono considerate pagine web differenti ma aventi contenuto molto simile e raggiungibili da url differenti.

  • Paginazione e ordinamento

  • Utilizzo di ID di sessione o altri parametri

E-Commerce

Negli E-Commerce è possibile accedere alla pagina di un prodotto tramite diverse URL, soprattutto se utilizzi ID di sessione o altri parametri:

  • http://www.tuosito.ext/prodotti/stampanti/laser

  • http://www.tuosito.ext/prodotti?category=stamapanti&consumabili=toner&cruel=no

  • http://tuosito.ext/negozio/index.php?product_id=32&highlight=toner+nero&cat_id=1&sessionid=123&affid=431>

  • http://tuosito.ext/stampanti/laser?gclid=ABCD

  • http://www.tuosito.ext/stampanti/laser.html

  • http://www.tuosito.ext/stampanti/laser.HTML

Ripetizione testo standard

Spesso vengono inserite le informazioni sul copyright o la privacy in ogni pagina, è sufficente includere un piccolo riepilogo e un link alla pagina con il testo completo per evitare che le pagine vengano scambiate per contenuti duplicati.

Pagine Vuote

Anche le pagine vuote vengono considerate contenuti duplicati, quindi devi utilizzare il noindex se hai preparato delle pagine di prova da riempire successivamente.

Traduzioni

Rischiano di venir considerate duplicate anche le pagine che mostrano la versione tradotta di un contenuto.

Come li trovo?

Come trovo i contenuti duplicatiCome devi fare per trovare i contenuti duplicati nel tuo sito web? Quali strumenti ci sono?

Strumenti per webmaster

Il primo strumento di diagnostica te lo fornisce Google stessa con gli Strumenti per Webmaster, una volta registrato il tuo sito avrai a disposizione un area di diagnostica e alla voce suggerimenti html potrai visualizzare eventuali titoli o descrizioni duplicate, queste non indicano necessariamente contenuti duplicati ma sono un indizio importante su cui indagare.

Virante

Virante è un sito che si occupa di SEO e mette a disposizione un tool appositamente per trovare i contenuti duplicati presenti nel tuo sito web. Con questo tool puoi facilmente individuare problemi quali redirect errati, URL differenti che puntano agli stessi contenuti e molto altro.

Redirect Check

Un altro strumento buono per controllare se c'è un problema di contenuti duplicati è Redirect Check di Master Search, è online ed è gratuito.

 

Il tool analizza il tuo sito verificando i codici 200, 404, 301 e 302 e ti da anche dei suggerimenti su come intervenire qualora riscontrasse qualcosa di strano.

Xenu's Link Sleuth

Questo strumento è menzionato direttamente da Google facendo riferimento a tuoi possibili riscontri su contenuti duplicati.

Link Sleuth Xenu's verifica nei siti web i collegamenti interrotti. Effettua la sua verifica su link normali, immagini, frame, plug-in, sfondi, mappe di immagini, fogli di stile, script e applet Java. Alla fine viene restituito un elenco costantemente aggiornato di URL che è possibile ordinare in base a diversi criteri.

Screaming Frog

Screaming Frog SEO Spider è un programma di dimensioni ridotte che è possibile installare sul tuo PC o Linux che spiderizza il tuo siti web, in cerca di Link, immagini, CSS, script e applicazioni varie da un punto di vista SEO.

 

Recupera informazioni fondamentali per il SEO on page, li presenta in schede divise per tipologia e permette di filtrare per argomenti, puoi dividere i dati come meglio credi per poi esportarli anche in Excel.

 

Uno strumento che non conoscevo e che ho scoperto preparando questo articolo ma che mi ha favorevolmente impressionato.

 

Inoltre con un po' di fantasia puoi sfruttare molti dei tools che usi quotidianamente, per esempio nel tuo account Google Analytics, puoi andare in Sorgenti di traffico> Sorgenti> Ricerca> Risultati Organici, scorri l'elenco e verifica se qualcosa attrae la tua attenzione tanto da aggiungerlo alla tua lista di URL da risolvere.

 

Un altro modo per controllare è quello di fare una ricerca in Google per una pagina specifica del tuo sito, se la ricerca produce più di un risultato allora hai bisogno d'intervenire. La tua ricerca potrebbe essere questa:


site:www.tuosito.ext/stampanti/laser.html

 

Vedi quanti risultati ottieni, in Joomla ne puoi trovare almeno due, uno per la versione html, e uno per la versione pdf della pagina... un problema comune in Joomla.

 

Non ti preoccupare perché i contenuti duplicati fanno parte della crescita del tuo sito, forse adesso hai le idee più chiare su cosa sono e quali problemi possono portare, su come vengono generati e con quali strumenti posso scovarli, nel prossimo articolo cercherò di spiegare come combatterli.

 

 

Articolo scritto da ZioPal - Come fare un sito internet

CommentaCommenta questo articolo sul forum