Si la dimension géographique est de plus en plus présente dans les systèmes d’information (SI) elle reste parfois mal ou sous exploitée. Pourtant, aidée par une accessibilité et une ouverture croissante, la maîtrise et l’exploitation de la donnée géographique peut devenir un véritable instrument d’aide à la décision.

Pour mieux comprendre l’intérêt de croiser données métiers et informations localisées à la surface de la Terre nous commencerons par présenter les spécificités de la donnée géographique. Par la suite nous verrons comment le mouvement de l’open data participe à sa diffusion au sein des SI. Enfin, nous présenterons quelques exemples d’utilisation possible pour enrichir des données métiers.

La donnée géographique, kézaco ?

La donnée géographique est une donnée qui est localisée sur le territoire. Elle est décrite selon 3 niveaux :

  • un niveau géométrique qui décrit la forme et la localisation de l’objet (coordonnées).
  • un niveau sémantique qui décrit les informations permettant de caractériser l’objet géographique (on parle de données attributaires : nom, surface, nature, nombre d’habitants…)
  • un niveau topologique qui décrit les relations de l’objet avec ses voisins (creux, chevauchements…)

Parmi les données géographiques on distingue plusieurs types de données en fonction de la façon dont est décrite leur géométrie :

  • Les rasters sont des données images localisées dans l’espace pour lesquelles chaque pixel contient une information. Par exemple, chaque pixel d’une image aérienne (on parle d’orthophotographie) comporte une information de couleur et permet de visualiser le territoire français vu du ciel. Les pixels d’un modèle numérique de terrain (MNT) portent, quant à eux, une altitude permettant, entre autres, de visualiser le relief ou de tracer des courbes de niveaux. L’exemple le plus connu est surement la BD ALTI proposée par l’IGN qui décrit le relief du territoire à un pas de 75m.
  • Les données vectorielles sont regroupées en 3 catégories : point, ligne, polygone. Les formats les plus courants sont les shape, geojson ou topojson. C’est le type de donnée que nous utiliserons pour notre cas pratique à la fin de cet article.

Toutes ces données spatiales sont créées dans un système de coordonnées particulier qui offre un cadre de référence permettant de localiser les données à la surface du globe, de les aligner entre elles et d’effectuer des analyses spatiales. Afin de les afficher sur une surface plane, on utilise une projection spécifique afin de limiter leur déformation. La plus connue de ces projections est probablement la projection dite « Pseudo-Mercator » (également appelée « Web Mercator » ou simplement « Mercator » ; code EPSG:3857) utilisée notamment par Open Street Map.

Une des principales difficultés rencontrées lorsque l’on commence à utiliser la donnée géographique est liée à la cohérence des objets que l’on manipule au sein d’un même système de coordonnées. Comment connaitre le système de coordonnées au sein duquel on travaille ? Comment re-projeter des données ? Comment connaitre le système le plus adapté ? Autant de questions auxquelles je vous propose de répondre dans un prochain article…

On le voit, la donnée géographique possède des caractéristiques qui lui sont propres et qu’il est important de connaitre pour pouvoir la manipuler. Cette donnée est également de plus en plus facilement accessible notamment grâce au mouvement de l’Open Data.

Libérée, délivrée, la donnée géographique est de plus en plus ouverte

L’Open Data un mouvement de fond…

Quoi ?

L’Open Data désigne l’effort que font les institutions, notamment gouvernementales, qui partagent les données dont elles disposent. Ce partage doit être gratuit, dans des formats ouverts, et permettre la réutilisation des données. Elle s’inscrit dans une tendance qui considère l’information publique comme un bien commun dont la diffusion est d’intérêt public et général. Pour les organismes publics, cela se traduit en pratique par la mise en place de plate-formes ouvertes permettant la diffusion d’informations (statistiques, cartographiques, horaires…).

Pourquoi ?

Les objectifs sont variés :

  • améliorer le fonctionnement démocratique, par la transparence et par la concertation et l’ouverture à de nouveaux points de vue.
  • améliorer l’efficacité de l’action publique.
  • proposer de nouvelles ressources pour l’innovation économique et sociale.
  • développer de nouveaux services et applications utilisant les données ouvertes.

Comment ?

L’Open Data est un mouvement général et international. En Europe, la directive Inspire (2007) imposent un catalogage, une standardisation et un partage des données publiques. En France, les autorités publiques ont soutenu ce mouvement par la mise en place d’un portail unique interministériel : data.gouv.fr pour faciliter la réutilisation des informations publiques et de son pendant géographique : geo.data.gouv.fr, plateforme dédiée au référencement et à la valorisation des données géographiques. En 2016, la loi pour une République numérique met en place l’Open Data par défaut en imposant à toutes les collectivités de plus de 3 500 habitants d’ouvrir leurs données d’ici fin 2018.

L’exemple du service public de la donnée

Le service public de la donnée créé par l’Article 14 de la loi pour une République numérique vise à mettre à disposition, en vue de faciliter leur réutilisation, les jeux de données de référence qui présentent le plus fort impact économique et social. Il s’adresse principalement aux entreprises et aux administrations pour qui la disponibilité d’une donnée de qualité est critique. La mission Etalab est chargée de la mise en œuvre et de la gouvernance de ce nouveau service public. A ce jour, neuf jeux de données ont été identifiés par l’État parmi lesquels :

  • la Base Adresse Nationale (BAN) et la Base Adresse Nationale Ouverte (BANO). Ces deux bases de données sont complémentaires et référencent l’intégralité des adresses du territoire français. La BAN récupère les données du cadastre une fois par an tandis que la BANO va extraire tous les jours les données sur cadastre.gouv.fr.
  • la Base Sirene des entreprises et de leurs établissements (SIRENE) qui contient, pour chaque entreprise et chaque établissement de nombreuses données les concernant : numéro Siren, catégorie juridique, adresse, effectif salarié, date de création… A noter que Christian Quest, coordinateur de la BAN chez Etalab et président d’OpenStreetMap France de 2014 à 2017, met à disposition le géoréférencement quotidien de cette base : http://data.cquest.org/geo_sirene/quotidien/.
  • le Plan Cadastral Informatisé (PCI) permet notemment de récupérer le bâti et les parcelles de plus de 95% des communes françaises : https://www.data.gouv.fr/fr/datasets/plan-cadastral-informatise/
  • le Référentiel à Grande Echelle (RGE) de l’IGN qui met à disposition des informations essentielles sur le territoire français : photo aérienne, description vectorielle du territoire (bâti, routes, végétation, hydrologie…), topographie et cadastre. l’ensemble de ces données est disponible en web service via les géoservices du Géoportail : https://www.data.gouv.fr/fr/datasets/referentiel-a-grande-echelle-rge/.

Mais à quoi ça sert ?

L’analyse spatiale et les géotraitements

L’analyse spatiale étudie la répartition et l’organisation d’objets localisés à la surface de la Terre. Elle permet la compréhension et la mesure des lieux en mettant en évidence des formes d’organisation spatiale (centre/périphérie, archipel, réseaux…). Les géotraitements permettent de localiser les objets et de les restituer dans leur contexte territorial. Quelle est la surface du bâtiment ? A quelle distance se trouve t-il d’une station de métro ? Est ce que la pente pour y aller à pied est forte ? On le voit, l’analyse géographique permet de découvrir, comprendre et communiquer les relations et tendances spatiales dans nos données.

Quelques outils

Pour comprendre à quoi sert la donnée géographique, mettons nous en situation ! En tant que bailleur je souhaite avoir une vision synthétique de mon parc immobilier et connaitre les principales caractéristiques de mes bâtiments : adresse, surface au sol, nombre d’étage, accessibilité depuis le métro… Le plus simple, sans avoir à installer de logiciel SIG, c’est de passer par un jupyter notebook en téléchargeant les données vectorielles bâtiments et parcelles disponibles à l’adresse suivante : https://cadastre.data.gouv.fr/data/etalab-cadastre/2019-04-01/geojson/communes/76/76322/

import pandas as pd
import geopandas as gpd
import matplotlib as mpl
import matplotlib.pyplot as plt
get_ipython().magic('matplotlib notebook')

# Charger les données
buildings = gpd.read_file("cadastre-76322-batiments.json")
parcels = gpd.read_file("cadastre-76322-parcelles.json")
territory = gpd.read_file("cadastre-76322-communes.json")

# Configurer la visualisation des données
f, ax = plt.subplots(1)
buildings.plot(ax=ax, color='grey', cmap=None,)
parcels.plot(ax=ax, facecolor="none", edgecolor='black', lw=0.2,)
territory.plot(ax=ax, facecolor="none", edgecolor='black', lw=1)
plt.show()

# Vérifier la projection de ses géométries et les reprojeter
buildings.crs
buildings = buildings.to_crs({'init': 'epsg:2154'})
parcels = parcels.to_crs({'init': 'epsg:2154'})
territory = territory.to_crs({'init': 'epsg:2154'})

# Sélectionner mes plus gros bâtiments
buildings.insert((len(buildings.columns)-1),"area",buildings["geometry"].area)
big_buildings = buildings[buildings["area"]> 1000]

# Vérifier ce qui est accessible à 500m de mon premier bâtiment
subset = buildings.iloc[:1]
buffer_500 = subset.copy()
buffer_500['geometry'] = buffer_500.geometry.buffer(500)
buildings_500m = gpd.sjoin(buildings, buffer_500, how="inner", op='intersects')

Le cas décrit ci-dessus n’est qu’un bref aperçu des possibilités de géotraitements offertes par la donnée géographique. Dans un prochain article nous verrons comment utiliser d’autres technologies (Postgis notamment) pour pouvoir réaliser des traitements géographique complexes !

Conclusion

La maîtrise de la donnée géographique et son exploitation participent de notre meilleure connaissance des territoires. Comprendre et mesurer des lieux, déterminer leurs relations, rechercher de meilleurs emplacements, identifier des modèles ou des tendances, élaborer des prévisions, calculer des itinéraires sont autant de possibilités qu’offrent la donnée géographique. À l’heure où le mouvement de l’Open Data participe à une diffusion de plus en plus massive de cette donnée, il ne vous reste plus qu’à vous lancer !