Ecco, in questo capitolo parlerò di una cosa che a prima vista non c’entra nulla con il termine “keyword” contenuto nel titolo: Screaming Frog.
Innanzitutto, perché parlare di Screaming Frog? Perché è un bel software, è utile e perché già nella versione gratuita vi offre una bella serie di spunti che risulteranno interessanti (quella a pagamento costa 185 euro all’anno). Certo, è bene o male un programma che avrei dovuto trattare nel primo capitolo ma c’è un motivo per cui ne parlo ora che abbiamo già visto diversi argomenti. Io lo uso per controllare molti dettagli, vediamo insieme come funziona.
Partiamo con Screaming Frog
Prima di tutto va scaricato dal sito ufficiale e installato.
Poi si lancia la scansione del dominio che ci interessa che, nella versione gratuita, sarà limitata a 500 URL complessivi.
Tralasciando le varie impostazioni e le integrazioni, buttiamoci subito sulle cose pratiche: esportiamo la sitemap del sito dal menu Sitemap | Sitemap XML. Il limite per una sitemap XML è 50.000 URL e 50 MB di dimensione. Anche se è già stata inviata alla Search Console dovrebbe essere comunque nel robots.txt (es: Sitemap: https://www.xxx.xxx/sitemap_index.xml). Di default verranno incluse nella sitemap solo le pagine OK (code 200) ma puoi cambiare le singole impostazioni. Si può decidere di includere o escludere secondo la data di modifica da “ultima modifica” e includere o escludere le immagini dall’omonimo pannello.
Robots
Inizio di una parentesi di media lunghezza sul robots, necessaria perché nel dubbio che qualcuno possa ignorare cosa sia un robots.txt, diciamo che qualche parola sull’argomento a questo punto è d’obbligo.
Il robots.txt è file di testo che si trova nella root e che agisce a livello di sito. In pratica, come ho già accennato, “parla” con i bot del motore di ricerca e dice loro come comportarsi nel sito. In genere usa due comandi:
● User-agent: = è il nome del bot a cui vogliamo riferirci. Con * parliamo a tutti.
● Disallow: = è il percorso della pagina o dell’intera directory che il bot deve ignorare.
Per studiare un po’ potete dare un’occhiata a http://www.robotstxt.org che purtroppo è ancora in HTTP.
Vi consiglio di fare qualche query di prova con l’operatore site: e filetype:txt così troverete diversi robots.txt da analizzare per capire cosa fanno e perché.
Altra questione è invece il meta name robots che, a differenza del robots.txt, lavora a livello di pagina, nell’head. Qui possiamo usare i seguenti comandi:
- Noindex = non mostra il contenuto in SERP, nemmeno cache.
- Nofollow = il bot magari seguirà comunque i link ma non passerà la propria “popolarità” alla destinazione.
Fine della parentesi, credo che fosse davvero indispensabile, torniamo adesso nel seminato.
Sicurezza, Title, Description
Un rapido accenno alla questione sicurezza: dal menu Esportazione di massa | Sicurezza si possono scegliere diverse voci, vediamo le principali:
- Filtro “URL HTTP” e “Contenuto misto” (cioè con immagini, Javascript o CSS non in HTTPS) dovrebbero essere vuoti.
- Modulo “URL non sicuro” = I form dovrebbero essere sempre criptati
- Link cross-origin non sicuri = Se metti un link target blank senza il rel=”noopener” ti esponi a rischi di sicurezza.
Nella tab in alto “Titoli di pagina” ci sono molte informazioni utili sui title della pagine: Titolo, Lunghezza in caratteri, Larghezza in pixel, Indicizzabile o no ed è possibile filtrare i risultati secondo “Mancante” (se il title è assente), “duplicato” (se non è univoco), “Oltre 60 caratteri”, “Sotto 30 caratteri”, “Oltre 561 pixel”, “Sotto 200 pixel”, “Uguale a H1” o “Multiplo” se per una pagina ce n’è più di uno.
La tab “Meta description” invece mostra appunto le informazioni per la description: Meta description, Lunghezza in caratteri, Larghezza in pixel, Indicizzabile o no. Si possono filtrare i risultati secondo “Mancante” (se non c’è), “Duplicato” (se non univoca), “Oltre 150 caratteri”, “Sotto 70 caratteri”, “Oltre 985 pixel”, “Sotto 400 pixel” o “Multiplo” se per una pagina ce n’è più di una.
Nelle tab H1 e H2 invece vediamo i primi due H1 o H2 delle pagine, per averne di più occorre la versione a pagamento. I filtri mostrano “Mancante”, “Duplicato”, “Oltre 70 caratteri” (anche se ovviamente non è importante come per i title), “Multiplo” (chiaramente si tratta di un potenziale problema solo per gli H1 e non per gli H2).
Immagini & Canonical
La tab Immagini dispone di diversi filtri:
- Immagini > 100KB = È solo un puro riferimento ma dato che la velocità di caricamento è un fattore di ranking sarebbe bene tenerle a una dimensione corretta.
- Immagini con testo alt mancante = Immagini che hanno alt text ma che è vuoto. Non è un problema solo se si tratta di immagini puramente decorative.
- Immagini con attributo alt mancante = Immagini senza un alt text; anche le immagini puramente decorative dovrebbero avere un alt=””.
- Immagini con alt > 100 caratteri = È un dato puramente indicativo ma è bene non riempire di testo inutile l’alt. Deve essere descrittivo e utile per capirne il contenuto.
Nella tab Canonical troviamo informazioni utili su questo strano argomento. I canonical si usano quando lo stesso contenuto è raggiungibile da più parti (per esempio: HTTP/HTTPS, con www o senza www, siti con versioni mobile/desktop/amp separate o negli e-commerce dove i filtri dei prodotti cambiano poco il contenuto della pagina). Ecco i principali filtri che offre qui Screaming Frog:
- Contiene canonical = Può essere anche canonical di sé stesso.
- Autoreferenziale = Canonical di sé stesso.
- Mancante = Non c’è canonical, male: se la pagina è indicizzabile dovrebbe averlo, anche autoreferenziale.
- Canonicalized (trasformato in canonical) = Il contenuto primario risiede altrove.
- Multiple = Non va bene perché porta disordine nell’indicizzazione.
- Canonical non indicizzabile = URL canonical verso una pagina non indicizzabile. Potrebbe essere un problema di robots.txt, di server, redirect etc. Va corretto velocemente.
Codici di risposta
Per agevolare la lettura delle informazioni di Screaming Frog metto qui un riassunto semplificato dei codici di risposta che potreste incontrare durante l’analisi del sito:
- 200 = OK, è tutto a posto
- 301 = Redirect (moved permanently). La risorsa è stata definitivamente spostata a un nuovo URL. Il browser punterà alla nuova destinazione, i motori aggiorneranno i propri link. Simile al 308.
- 302 = Redirect (found). La risorsa è stata temporaneamente spostata. I browser seguono il nuovo URL ma i motori non aggiornano i link.
- 404 = Not Found. La risorsa non è stata trovata. Spreca ovviamente crawl budget e va davvero risolto velocemente. Se tale risorsa è stata rimossa definitivamente si può usare il 410 (gone).
- 500 = Internal Server Error. Una situazione non meglio specificata ha impedito al server di completare il proprio compito.
In conclusione, consiglio di dare un’occhiata al menu Visualizzazioni: le visualizzazioni “crawl tree graph” e “force-directed crawl diagram” danno informazioni su come si svolge il crawling del sito mentre le visualizzazioni “directory tree graph” e “force-directed directory diagram” danno informazioni su come è strutturato il sito. Cliccando sulla “i” si ottengono dettagli sul significato dei colori. Ovviamente è da tenere sotto controllo tutto ciò che è rosso ovvero non indicizzato (potrebbe essere canonicalizzato, messo in noindex etc).
Tratto da “Prontuario semiserio di Digital Marketing” di Lamberto Salucco
Link per l’acquisto (e-book o cartaceo) su Amazon