0saves

Dans la même lignée d’un article précédent sur les efforts des services de renseignements pour exploiter les données publiques (open datas) pour en extraire des tendances statistiques, Google avait lancé discrètement en mai dernier (2011), un nouvel outil, Google Correlate, s’apparentant à du datamining, dans une version plus poussée que celle de Google trends, sur un plus grand nombre d’activités.

Google Correlate est d’ors et déjà disponible dans le Labs de Google, ce qui implique de posséder pour le moment une adresse gmail valide.

google correlate data mining

Google correlate : un véritable outil de datamining

C’est une étape supplémentaire qui est franchit avec cet outil dans l’exploitation des données « open ». En effet, Google correlate permet de prédire l’évolution de certains secteurs d’activités au travers d’une thématique, à partir de l’agrégation de données en provenance de Google, chose que ne pouvait pas faire des outils comme  Google Trends et Google Insights for Search qui ne sortaient que les tendances associées à une requête de recherche.

Google correlate permet ainsi de rentrer dans une thématique précise, et de voir ensuite les types de requêtes de recherches associés (sémantiquement et par recherche). On peut également facilement comparer deux types de données et de thématiques, et voir s’il existe une corrélation en terme de recherches. On peut même envoyer des fichiers comportant ses échantillons de données et obtenir des résultats très précis, tant dans la saisonnalité des recherches que dans les associations de champs de requêtes. Autre possibilité offerte par l’outil, la possibilité de dessiner soi-même ces courbes de trafic pour déterminer les requêtes les plus proches en terme d’évolution du nombre de recherches (attention, la précision est relative 🙂 ).

Le but de Correlate est de, à partir des données d’une thématique, mettre en avant des corrélations mathématiques permettant de coupler certaines activités de recherche dans le temps. Bref, c’est du datamining

Loin d’être anecdotique, ces données sont déjà utilisées par certaines grandes institutions, comme par exemple la Banque d’Angleterre qui utilise déjà les données de Google pour effectuer certaines corrélations de données entre les données web de recherche et d’autres statistiques à disposition dans le cadre de sa surveillance de l’économie britannique,  comme par exemple sur le prix de l’immobilier, sur la perception de l’inflation, sur la demande en produits manufacturés ou sur la perception du prix de l’essence.

Fonctionnement de l’outil

Par requête

C’est la première méthode d’utilisation la plus évidente. L’outil vous propose de chercher une requête par zone  (US states pour le moment) ou par période de temps (shift). Coupe du monde de rugby oblige, j’essaye avec le terme « rugby ». L’outil me donne la liste de corrélations suivantes :

google correlate dataminingCela semble logique… En cliquant sur chaque corrélation, on verra apparait le graphe de corrélation entre les deux termes (avec courbes ou nuages de points):

correlate data miningEn cliquant sur le graphe, on pourra également affiner l’analyse des corrélations en sélectionnant une zone de temps plus précise.

Il faut bien garder à l’esprit que les chiffres indiquées et les mesures sont en nombre absolu et non en volume de recherches. Ainsi, un des termes peut avoir un volume de recherche trois fois plus important que l’autre terme en corrélation.

Par matrice de recherche

Pour cela, il faudra « uploader » des données de recherche (évolution de la température moyenne à Paris par exemple), et voir si Google trouvera des corrélations en rapport. Mais, comme pour le moment seules les données US sont disponibles, je n’ai pas pu faire de tests concrets.

Les limites de Google Correlate

Evidemment, Google Correlate possède ses limites en terme de datamining. Elles peuvent même etre résumé par cette phrase :

corrélation ne vaut pas dire causalité

En effet, le fait que deux termes possèdent une corrélation ne veut pas dire forcément qu’il y a forcément un lien de causalité. C’est la limite scientifique de l’outil qui ne permet d’obtenir ce niveau de vérification.

Deuxièmement, le datamining est en lui-même une mauvaise extrapolation de statistiques, et va à l’encontre du modèle scientifique en ne testant qu’un modèle, et en faisant abstraction de la mise en place d’hypothèses de travail. Or logiquement, toute expérimentation scientifique en économétrie implique de suivre de schéma suivant, fastidieux certes, mais simple et très complet : déterminer une hypothèse, la tester, la valider ou non.

C’est le même problème avec le datamining de Google correlate, avec un risque important de voir apparaitre des centaines de requêtes à fort taux de corrélation, alors que dans le tas, seules quelques unes de ces requêtes sont effectivement en corrélation avec la thématique de recherche. Ceci du fait de la masse de données initiales, et parce que l’on ne réalise pas de validation d’hypothèses. Il faut donc faire attention.

Enfin, Google correlate est encore très axé sur les données en langue anglaise (Google Labs oblige, c’est encore un outil en phase de test, avec sans doute les données d’un nombre de serveurs limités à la zone anglophone). Les résultats francophones sont encore un peu limités.

Pour compléter ce datamining, un outil pour les mots clés : Advanced web ranking

Enfin, pour compléter ces données de datamining sur les types de recherches associées, on pourra utiliser un outil appelé Advanced web ranking, édité par la société Caphyon, et qui a le mérite d’être très complet.  il est parfait pour aider les référenceurs et les personnes désireuses de chercher des mots-clés pertinents sur une thématique précise.

outil tracking mots clésCet outil permet en effet de recouper les données de plusieurs autres outils tels que :

  • Google AdWords,
  • Google Suggest,
  • Google Webmaster Tools,
  • Wordtracker,
  • Yahoo Related Keyword Search,
  • SEMRush Keywords.

Bref, l’essentiel des sources pour trouver de l’information pertinente sur des mots-clés.

Conclusion : un outil tout de même très intéressant

Google correlate est à n’en pas douter un outil précieux malgré ses limites. Il faut juste l’utiliser avec prudence, en n’hésitant pas là encore, à recouper et à tester les résultats obtenus avec d’autres données extérieurs.

Néanmoins, les résultats obtenus en essayant deux trois axes de recherches sont vraiment très intéressants.

Sources:

-tutoriel d’utilisation de Google Correlate

Livre blanc Google Correlate

FAQ de Google Correlate

0saves
Si vous avez aimé ce "post", n'hésitez pas à laisser un commentaire ou vous abonnez à notre flux RSS.