Google est un grand gardien des secrets. Ils sont prêts à partager des parties des données démographiques capturées auprès de leurs utilisateurs avec des annonceurs potentiels. Mais, ils gardent leurs propres données personnelles assez bien verrouillées, ou du moins assez bien pour tenir à l’écart quiconque n’a pas de névrose pour les données.
Les données personnelles de l’utilisateur ne sont pas les mêmes que celles des autres utilisateurs.
Il y a environ un mois, j’essayais de me faire une idée des URL qui existaient sur le site web d’un client. En raison de leur décision, malheureusement datée, d’intégrer une navigation en Flash sur leur page d’accueil, je ne pouvais pas utiliser un générateur de sitemap – un logiciel qui explore un site et sort toutes les URL – pour rassembler une liste d’URL.
Parce que je suis plutôt paresseux, ou certains pourraient dire débrouillard, j’ai décidé de regarder ce que Google a indexé pour ce site. Cependant, vous ne pouvez pas exactement envoyer un texto à Google pour demander que les URL soient envoyées.
Il n’y a pas d’autre solution que d’envoyer un texto à Google.
C’est à toi, mon gars
Bien que les Google Webmaster Tools vous fournissent de nombreuses informations sur votre site, notamment le nombre d’URL indexées, ils ne vous disent pas quelles sont ces URL. J’ai donc creusé un peu, et j’ai trouvé ce « bookmarklet » qui capture facilement les SERP qui apparaissent sur une page de résultats donnée, et les répertorie dans un format facile à importer vers Excel.
Pour voir une liste d’URL (ou du moins une liste partielle) que Google a indexées pour un nom de domaine spécifique, interrogez Google pour « site:sitename.com. »
Une fois que vous avez ajouté ce bookmarklet à votre barre de signets (il suffit de le faire glisser et de le déposer, comme le disent les instructions), cliquer dessus donne des résultats comme celui-ci dans un nouvel onglet :
En filtrant visuellement les trucs sans intérêt (JavaScript, un lien vers Youtube et des lignes vides), je me retrouve avec cette liste bien rangée de la première page de résultats.
Dans le but de trouver les URL indexées pour mon client, j’ai juste continué à cliquer sur « Page suivante » et à exécuter ceci jusqu’à ce que je ne puisse plus obtenir de résultats.
Les résultats de l’analyse de la page d’accueil de la page d’accueil.
Et avec cela, j’avais une assez bonne idée des URLs qui étaient effectivement indexées par Google. Heureusement, il s’agissait d’une quantité raisonnable de pages à analyser, mais je pourrais imaginer que ce processus soit particulièrement fastidieux pour les sites de plus grande taille.
Les résultats de l’analyse des URL ne sont pas toujours les mêmes.
Bien que vous souhaitiez prendre les résultats de ces requêtes avec un grain de sel, compte tenu de la présence de la bulle de filtrage de Google, son accessibilité aux utilisateurs non techniques en font un outil utile.
Les résultats de ces requêtes ne sont pas toujours fiables.
Dans mon expérience chez Search Influence, nous avons eu quelques clients avec des problèmes d’indexation liés à des pages qui sont réellement découvrables par la recherche. Nous savions combien d’URL étaient indexées, ainsi que combien nous nous attendions à ce qu’elles le soient, mais nous ne savions pas quelles URL ne faisaient pas partie de leur index. En croisant un sitemap avec toutes les URL découvrables par rapport aux résultats de ce grattage manuel des URL de l’index de Google, nous pouvons avoir un indice de ce qui ne va pas et commencer à dépanner avec plus d’attention.