0saves

Le prochaine évolution (certains diraient révolution, mais je trouve que le concept est déjà dans l’air du temps depuis longtemps) d’internet sera celui de l’ « internet of things » (IoT). L’arrivée de l’Apple Watch amène dans sa foulée la montée de puissance du homeKit de Apple, qui couplée avec l’Apple TV laisse entrevoir de multiples possibilités pour le développement de la domotique. Déjà, une bataille a fait place pour la détermination des standards du futur pour l’IoT entre les grands du secteur : Apple, Samsung, Google… Mais derrière tout ceci se cache également une réflexion plus vaste sur l’utilisation et l’optimisation des Open Data, partie intégrante de l’IoT.

open data

L’Open Data : origine et résurgence

Le concept des « données ouvertes » (Open Data) n’est pas nouveau. De fait, il est apparu dès que les premières données ont commencé à être stocké, avec ce débat constant entre les partisans pour des données libres, ouvertes, disponibles pour le grand public, et ceux plus à même de contrôler leur accès (même si parmi ces derniers les motivations divergent entre ceux voulant limiter l’accès pour des raisons commerciales et ceux luttant contre une intrusion croissante dans la vie privée).

Nonobstant ce débat, il y a un fait qui est très clair : le volume de data va croissant et ce, de manière exponentielle. A un tel point qu’il est désormais très difficile de trouver des corrélations simples parmi toutes ces données, croissantes en volume mais également en nature. Il faut alors trouver de nouvelles façons de croiser ces datas pour en extraire une réelle valeur ajoutée.

Les possibilités vont égalememt croissantes grâce aux innovations technologiques. Dans le passé, quelle qu’était l’intention du propriétaire des données, les rendre publique étaient difficile. Avant l’arrivée des bandes magnétiques, le principal support était sous forme papier. La seul moyen de donner l’accès aux données était donc de donner accèes à la bibliothèque de données proprement dite.

Si le croisement de données était possible manuellement, le processus était long et surtout non-extensible.

Les choses ont commencé à changer avec l’arrivée des bandes magnétiques et des premiers supercalcultateurs, puis des premiers ordinateurs. Cela dit le processus restait réservé à des champs très spécifiques : scientifique, gouvernementaux, militaires ou au sein des entreprises.

L’Internet et l’Open Data

Tout à changer avec l’arrivée d’Internet et de serveurs de stockages puissants. Le processus de « démocratisation » des données a pu s’opérer, avec celle-ci est apparue la notion d’ « Open Data », les données accessibles au grand public.

Le gouvernement fédéral des États-Unis a même créé un site dédié à la publication ouverte de données publiques à http://www.data.gov/. D’autrs pays suivent la même tendance comme la France avec https://www.data.gouv.fr/fr/.

Ces sites  regroupent un nombre toujours croissant de catalogues de données, issus de dizaines d’organismes gouvernementaux, qui couvrent tous les secteurs, depuis l’agriculture en passant par l’éducation, la santé et les aides sociales.

Le système est relativement simple : il suffit de cliquer sur l’onglet/catégorie « datas » pour accéder à des listings de données (ou « datasets »). Exemple :

opendata data gov

 

Le point le plus important à noter est que ces données peuvent être directement téléchargés, sans étapes supplémentaires. On a ainsi accès à un très large panel de données, couvrant parfois une très large période de termps.

Autre point intéressant, les formats disponibles ne sont pas seulement les classiques format Excel (xls) et CSV (ce dernier étant un format standard pour les bases de données). On trouve ainside plus de datasets disponibles en API, JSON, openxml, KMZ, Esrirest…

Cette vaste collection de formats de téléchargement disponible n’est pas innocent. Nous le verrons tout de suite après.

Fournir des données aux journalistes et médias.

Mettre à disposition toutes ces données n’est pas complètement innocent. Les États, collectivités territoriales/villes, très souvent propriétaires de ces datasets, y voient un intérêt certain, celui de trouver une utilisation concrète à celles-ci  par le croisement des tables de données « brutes » pour en extraire de nouvelles, celles-ci avec une portée opérationnelle.

Cet esprit « big data » intéresse en premier lieu les journalistes qui utilise de plus en plus les services d’infographistes. C’est la continuité logique du Database journalism qui évolue rapidement depuis 2007 avec l’essor du Big Data. Ainsi, il n’est pas rare de trouver de plus en plus de journaux comportant une section décodant et décortiquant les données pour appuyer une démonstration logique. L’un des meilleurs exemples, et que je trouve très intéressant, est sans doute celui du Monde avec sa section « Les Décodeurs« .

Il existe aussi de nouveaux outils qui leur facilitent le travail (des SaaS notamment) comme par exemple CartoDB que je trouve vraiment bien fait (relativement facile à prendre en main, bons tutoriaux, solide bases de connaissance en support…) et qui permet de travailler sur des formats intéractifs. En voici d’ailleurs un exemple avec cette carte sur le Long Island Rail road ( Data source: GTFS Data Exchange, LIRR GTFS data for Nov 12, 2012. Créé par jcwong86)

Une cible : les tech hackers et autres développeurs d’application

Les journalistes ne sont pas les seules cibles des États et organismes en charge de ces données. Outre une volonté de lutter contre un monopôle commercial des données, le concept de mettre à disposition de nombreux sets de données est donc aussi de trouver une utilisation opérationnelle à une situation d’obésité des données brutes rendant leur utilisation primaire très complexe. Ainsi, les États cherchent aussi à mettre à disposition d’entrepreneurs, notamment oeuvrant sur Internet, de très nombreuses données gratuites leur permettant de développer des applications utiles sans passer par l’utilisation de données payantes.

Le meilleure exemple est sans doute la création de la fondation Open Street Map permettant d’utiliser des fonds de carte sans être dépendant de Google Maps (CartoDB, par exemple, propose un fond de carte natif Open Street Map).

De nombreuses villes à travers le monde organisent ainsi des évènements sur le thème de la ville de demain ou de la ville connectée, avec pour objectif de développer des applications utilisant des datasets publics et apportant une valeur ajoutée aux résidents (santé, immobilier, sécurité, transport…). Exemple, le StartUp Weekend de Montéral qui avait ppour thématique cette année « la ville intelligente« .

Tout cela explique pourquoi les sites étatiques comme Data,gov ou Data.gouv.fr proposent de très nombreux formats de téléchargements de datasets, avec pour objectif de faciliter l’intégration de celles-ci dans des bases de données applicatives ou de directement permettre une interface directe avec la base de données gouvernementales via une API.

Conclusion

Nous finirons cet article en appuyant le fait que le nombre de bibliothèques Open Data  va croissant. Chaque mois, de nouveaux datasets sont ainsi mis à disposition par de nombreux organismes. Je ne peux que vous encourager à aller explorer toutes ces données, car les possibilitées offertes sont quasiment infinies.

Si vous voulez vous initier un peu aux bases de données, CartoDB est vraiment très bien, car on arrive assez rapidement à des résultats sans avoir besoin de compétences techniques trèes poussées.

De même, si vous voulez vous-mêmes mettre à disposition certaines données, il existe la bibliothèque de code ouverte, jQuery-UI, qui est une solution relativement simplet, et gratuite, pour réaliser des visualisations attrayantes et mettre en ligne de l’Open Data (si je me souviens bien, il tourne sous Drupal).

 

Cet article est le premier d’une série de trois. La suite est disponible ici :

 

Crédit photo : Noel Hidalgo

0saves
Si vous avez aimé ce "post", n'hésitez pas à laisser un commentaire ou vous abonnez à notre flux RSS.