È passato un po' di tempo…

Questo articolo potrebbe contenere informazioni interessanti ma non più correntemente aggiornate.

Mi sono trovato in questa rognosa avversità e volevo condividerne gli aspetti più salienti, un incidente su questo blog che ha provocato uno scombussolamento dei risultati di ricerca.

Ammetto di averlo trascurato per un lungo periodo di tempo, vuoi per il fatto che scrivere e gestire un blog è impegnativo, mettici anche che l’attività di blogger non da grosse rendite, tantomeno gratificazioni sul lato personale ed è rimasto fermo per circa un anno.

Tutto ha avuto inizio il novembre dell’anno passato 2020, quando ho dato il via all’aggiornamento a WordPress versione 5.5. In realtà io mi sono reso conto di questo disastro solo pochi giorni fa.

2 settimane fa, vado a controllare i risultati di ricerca del mio sito e noto qualcosa di strano, mancano all’appello alcune pagine, una tra le quali mi interessa particolarmente, essendovi link e riferimenti al libro che ho scritto un anno fa.

Non avendo il tempo materiale per mettermi a spulciare strumenti, sorgenti e quant’altro; impegnato su un altro fronte, il 24 gennaio 2021 scrivo sul blog di aver scritto questo libro, con un link alla pagina scomparsa in fondo al post. Aspetto qualche giorno ma nulla si muove. Non viene indicizzato nemmeno il post di recente pubblicazione, deve esserci un problema serio.

Confido che il tutto si risolva a breve in un lieto fine.

1 febbraio 2021

Per prima cosa apro uno degli strumenti più utilizzati per monitorare lo stato di indicizzazione dei siti web, l’arcinoto Google Search Console, precedentemente conosciuto come Strumenti per Webmaster. Alla pagina “Copertura” mi trovo davanti a una situazione sospetta, numerose pagine sotto “Pagina esclusa”, apro il dettaglio e alla voce “Pagine scansionata, ma attualmente non indicizzata” tra le pagine della tassonomia dei tag spuntano, la pagina di cui vi dicevo e 2 articoli, tra cui il primo articolo del blog, il classico “Ciao Mondo”. Che sarà successo?
Do un’occhiata alle statistiche di scansione e a parte una nota del 09/01/2021 su un loro cambiamento nella visualizzazione di alcune cose, è tutto in linea con il periodo precedente.

Apro il file robots.txt del sito, è un file testuale che contiene indicazioni per i motori di ricerca su cosa cercare e cosa non cercare e mi trovo davanti questo:

User-agent: *
Sitemap: […] wp-sitemap.xml
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /area-cliente/
Disallow: /lavoro/
Disallow: /offerte/
Disallow: /tos/

Salta all’occhio la presenza di una sitemap, un espediente mai utilizzato nel mio sito, si tratta di una mappa del sito, una pagina in formato xml che contiene tutti i link da indicizzare del sito.
“Sitemap: […] wp-sitemap.xml”? E questa da dove è uscita fuori?

Non utilizzo mappe del sito, ho un blog di 20 pagine, i contenuti sono tutti fruibili dalla homepage e poi, tra social e referral i motori di ricerca sanno già dove andare a cercare. Un plugin in meno, più velocità e tante risorse risparmiate. Vado a googlare e scopro che hanno inserito questa feature nella versione 5.5 di WordPress. Sono solito effettuare gli aggiornamenti manualmente e verificare i changelog proprio per scongiurare noie fastidiose tipo questa ed altre. Purtroppo questa volta deve essermi sfuggito il cambiamento imminente e, per quanto mi è dato sapere, importantissimo. Passare una mappa del sito ai motori di ricerca ha un impatto considerevole, in parole povere: sono gatte da pelare.

Esauriti gli epiteti che non posso ripetervi, do uno sguardo a diverse cose su Search Console, sulla pagina “Impostazioni” viene riportato al 06/12/2020 un problema con l’hosting. Così interpello il provider dell’hosting per chiedergli di verificare la connettività e mi rispondono in pochissimo tempo che non riscontrano alcun problema, tutto a posto.

Non avendo alcun controllo su una sitemap passata attraverso il file robots.txt, a danno fatto, non posso fare altro che cercare di riprendere il controllo. Disattivo prontamente la nuovissima funzionalità wp-sitemap.xml. Aggiorno il file robots.txt e lo ripasso nella console. Installo e configuro un plugin per generare una nuova sitemap e provo a passarla a Search Console che mi risponde in malo modo: Impossibile recuperare. Come “Impossibile recuperare”? Nel dettaglio dell’errore “Impossibile leggere la Sitemap”. Cerco un po’ in giro, sul forum di Search Console; è un problema noto; anche a me dice la stessa cosa; si riprende in qualche giorno; tutto qua.

2 febbraio 2021

Apro Google Search Console ed è tutto fermo a quell’errore “Impossibile recuperare”. Elimino la sitemap, provo a passargliela con un altro nome, metto l’indirizzo url per intero, gli aggiungo davanti una querystring; niente da fare. Nel frattempo creo un redirezionamento 301 dalla vecchia e sfortunata wp-sitemap.xml alla nuova sitemap.xml. Verifico che la nuova sitemap sia valida, che il server risponda correttamente, verifico i redirezionamenti 301; nulla di nulla. Provo di nuovo a passare la sitemap, di nuovo “Impossibile recuperare” … elimino.

Vado su Google e visualizzo la copia cache della pagina iniziale, è ferma al 27/01/2021, c’è l’articolo del 24/01/2021, ma mancano nuovi contenuti freschi di pubblicazione. Lo stuzzico, vado a salvare le impostazioni della frequenza di scansione.

Torno sulla console. Controllo che alcune pagine siano correttamente fruibili da Googlebot e così è, e ne richiedo la re-indicizzazione. Verifico su Page Speed, altro tool, nessun problema. Gli passo anche la sitemap stessa per scongiurare un qualsivoglia problema a me ignoto, l’indirizzo non è indicizzato ma lo raggiunge correttamente, mi fa vedere anche il sorgente.

Ore concitate. Re-inserisco la sitemap. “Impossibile recuperare”.
La lascio lì, magari domani il problema rientra e torna a splendere il sole sul blog.

3 febbraio 2021

Apro Google Search Console, vado su “Sitemap”. No!
È ancora fermo a “Impossibile recuperare”. Vado su Google, immetto “site:loltgt.ga”. Non ha fatto una mossa. Apro la copia cache della pagina iniziale, questa volta è del 01/02/2021, manca ancora l’ultimo post pubblicato. Il post non figura nemmeno nella serp, pur essendo pubblicato anche sui social. Non c’è traccia del post.

Sono cose che richiedono tempo ma non posso lasciare appeso il problema per un mese. Assurdo per assurdo, decido di fare un po’ di pubblicità. Apro Google Ads, al secolo Google AdWords, e lancio una nuova campagna “Impossibile recuperare”, ci metto dentro i contenuti mancanti che mi interessa appaiano su Google. Potrebbe sempre chiamarmi uno dei loro esperti di campagne, a cui poter sottoporre il problema.

4 febbraio 2021

“Impossibile recuperare”. Qualcosina però si sta muovendo. Apro Google, immetto “site:loltgt.ga” e un articolo è riapparso. Le new entry non sono ancora presenti, la copia cache dell’homepage è ancora immobile al 01/02/2021. Nella Search Console è sceso il numero delle pagine escluse, l’articolo riapparso nella serp è ancora in lista, mentre il post “Ciao Mondo” non è più nella lista.

Purtroppo la sitemap non si schioda da lì, è proprio “Impossibile recuperare”, a quanto sembra. Questo stesso post è nella sitemap, ma non è ancora indicizzato.

6 febbraio 2021

È tutto fermo all’Impossibile recuperare.
Ieri, il 5, ne ho approfittato per dare una ricontrollata alle pagine, ai ridirezionamenti, ho tolto da functions.php alcuni redirect bruttini e li ho spostati sul file .htaccess (niente di avveniristico, sono degli script), ricontrollato la velocità delle pagine e infine ho tolto un widget JavaScript.

La situazione in “Statistiche di scansione” si è aggravata e pertanto mi sono messo in contatto con l’hosting per cercare di venirne a capo. Conclusi gli aggiornamenti, tolgo di nuovo la sitemap da Search Console e la re-inserisco. “Impossibile recuperare”.
Se ne riparla lunedì.

7 febbraio 2021

Potevo aspettare lunedì! Ma questa mattina stavo sorseggiando il caffè e pucciando i biscotti, e nel mentre guardavo i risultati di ricerca per “site:loltgt.ga” e “loltgt.ga”. Una buona nuova: la copia cache della pagina è finalmente aggiornata, questo post è finalmente nei risultati di ricerca. La sitemap è ferma lì e mancano tuttora dei post nei risultati.

Scorrendo le pagine trovo 2 risultati di ricerca che sembrano portare a contenuti di questo sito, contenuti copiati di sana pianta. I link portano a 2 siti similari tra loro, con notizie, sembrerebbero calcistiche, in una lingua a me ignota. La copia cache però mostra la homepage di questo sito con alterazioni, tutta una serie di link di dubbia provenienza. Inoltro 4 segnalazioni per spam e sono in attesa di qualche risposta da Google.
Comportamenti dannosi. Potrebbe essere black hat seo? 🕵️‍♂️

8 febbraio 2021

I 2 risultati di ricerca malvagi sono ancora lì. Sono presenti anche delle informazioni personali e di contatto, quindi presento 2 nuove segnalazioni tipo doxxing e infine utilizzo il tool di rimozione.

Ieri abbiamo avuto una lunga discussione con l’hosting provider. È emersa la presenza di alcuni spam bot. Ne terrò conto nelle prossime settimane.

Apro la Google Search Console alla pagina “Sitemap” e il messaggio è sempre lo stesso “Impossibile recuperare”. C’è qualche progresso nelle pagine valide. Purtroppo la Search Console sembra non recepire la richiesta manuale di scansione delle pagine. Faccio un ultimo tentativo con la dannata sitemap. Preparo una sitemap in formato testuale: sitemap.txt. Invio… stesso risultato.
Impossibile recuperare”. Cos’altro fare?
La sottopongo a Google tramite ping manuale.

Intanto la campagna pubblicitaria procede. Devo dire che Google è molto veloce, ma quando ci si trova davanti a problemi, sembra di avere a che fare con il bradipo della Disney.

Appena ho qualche nuova vi faccio sapere. Penso che la cosa andrà… per le lunghe.

Conclusione

I risultati di ricerca malvagi sono diventati 2, poi 3, poi di nuovo 2. Al momento sono 2 e spero vivamente non aumentino. Approfondendo un minimo, questo bot/virus ha generato una mole spaventosa di risultati di ricerca e siti web farlocchi. Contenuti duplicati, rubati altrove, il tempo di essere indicizzati, poi vengono rimpiazzati dallo stesso sito, con contenuti randomici, in migliaia di copie.

Ho cercato di contattare tutte le parti coinvolte, duole constatare che le risposte sono state poche ed evasive. Senza addentrarsi troppo nei particolari, gli strumenti messi a disposizione funzionano poco e male. Nel mio caso, essendosi verificato anche un fenomeno di doxxing e phishing, con risultati di ricerca popolati da nome e cognome, numero di telefono secondario e indirizzo email, devo dire che gli strumenti di contrasto sono del tutto inefficaci.

Screenshot da Golia

Tutte le segnalazioni possibili. Dopo 20 giorni, i risultati di ricerca, con annessa copia cache, sono ancora lì. In questi casi Golia suggerisce di contattare il webmaster. Quando il webmaster è Golia, per Davide sono seri problemi.

In ultimo, riguardo al crollo spaventoso dovuto alla sitemap, al 18 febbraio 2021 la situazione sulla ricerca di Google sembra essersi un po’ sbloccata. Le pagine scansionate sono aumentate, purtroppo Google Search Console non funziona correttamente. Ignora le sitemap, ignora le richieste di scansione prioritarie, non si è smosso di un millimetro per molti giorni. Ho provato a fare qualsiasi cosa, vere e proprie terapie d’urto, ma non vuole proprio saperne.