Introduction à l’analyse exploratoire des données pour la géostatistique

Voici une petite série d’articles motivés par une question un peu vaste d’un étudiant qui utilise Geostatistical Analyst d’ArcGis : comment interpréter le QQplot, trend analyst et la variogramme?. Que ce soit avec Geostatistical Analyst ou tout autre outil de géostatistique, on est censés commencer, avant toute interpolation , par l’analyse exploratoire des données. Pourquoi? Tout simplement parce que les outils de géostatistiques assument un certain nombre de caractéristiques des données et que si ces assomptions ne s’appliquent pas à notre jeu de données, nos résultats seront faux. Nous verrons donc ici sur quels principes s’appuient les outils géostatistiques et comment utiliser les outils d’analyse exploratoire pour corroborer les hypothèses nécessaires.

 Quelques principes de la géotatistique

Voyons tout d’abord les bases de la géostatistique. Contrairement aux approches d’interpolation déterministes, la géostatistique suppose que toutes les valeurs à l’intérieur de votre zone d’étude sont le résultat d’un processus aléatoire. Un processus aléatoire ne signifie pas que tous les événements sont indépendants.

La géostatistique est basée sur des processus aléatoires avec dépendance.

Un tel type de processus est, par exemple, le lancer en l’air de trois pièces de monnaie. On observe si elles sont des piles ou des faces. La quatrième pièce ne sera pas lancée.

La règle pour déterminer le résultat du lancer de la quatrième pièce est :

  • si la deuxième et la troisième pièce sont égales, le résultat du lancer de la quatrième pièce de monnaie est le même que la première;
  • si non, le résultat du lancer de la quatrième pièce de monnaie sera l’opposé à celui de la la première.

Dans un contexte spatial ou temporel, une telle dépendance est appelée autocorrélation.

Comme ceci est la notion à la base de toute la géostatistique, il vaut mieux s’attarder un peu. Le lancer d’une pièce est le symbole du hasard. On va donc l’appeler un « processus aléatoire ». Jusque là, rien de nouveau.

D’un autre côté, si on lance la pièce en l’air 100 fois, on s’attend à avoir autant de fois pile que face. Et ça, ça ne vous choque pas non plus. Si on a lancé la pièce 99 fois et qu’on a obtenu 50 piles et 49 faces, qu’est-ce que vous prédiriez pour le 100 lancer?

Si vous dites face, vous faites de la géostatistique. Vous savez que le lancer est un processus aléatoire, mais vous êtes aussi convaincu qu’il y a une certaine dépendance des résultats par rapport à un modèle théorique (sur un grand nombre de lancers il y aura 50% de piles et 50% de faces).

Pourtant il y a autan de chances de prévoir le centième lancer que le premier (1 chance sur deux). Voilà pourquoi comprendre la géostatistique n’est pas si simple.

Laissons maintenant nos pièces et prenons un exemple un peu plus géographique. Si on tire au hasard une paire de coordonnées XY dans le monde, quelle chance auriez vous de trouver son altitude ?

Si maintenant je vous dis que l’on suit un trajet GPS, en vous donnant les altitudes des points toutes les 50m. Quelles sont vos chances de trouver l’altitude du prochain point?

C’est comme pour les pièces: en théorie vos chances sont les mêmes dans les deux cas, mais en pratique, si vous analysez la suite des points GPS vous pourrez prédire à peu de chose près l’altitude du prochain point.

Prévision de processus aléatoires avec dépendance

Comment tout cela se rapporte-t-il à la géostatistique et à la prévision des valeurs non mesurées? Dans l’exemple des pièces, les règles de dépendance ont été données, dans celui du GPS il faut les trouver. Dans la réalité, les règles de dépendance sont toujours inconnues. En géostatistique, il y a donc deux tâches principales: (1) découvrir les règles de dépendance et (2) faire des prédictions. Comme vous pouvez le voir à partir des exemples, les prédictions ne peuvent être faites que si l’on connait les règles de dépendance.
Le krigeage repose sur ces deux tâches: (1) l’analyse des semi-vectoriogramme et de covariance (autocorrélation spatiale) et (2) la prédiction des valeurs inconnues. En raison de ces deux tâches distinctes, il a été dit que la géostatistique utilise les données deux fois: d’abord pour estimer l’autocorrélation spatiale et la seconde pour faire les prédictions

Comprendre la stationnarité

Considérons à nouveau l’exemple des pièces. Il y a une seule règle de dépendance pour les lancers des pièces. Avec ce seul ensemble de valeurs mesurées, il n’y a aucun espoir de connaître les règles de dépendance si elle ne sont pas explicitées par quelqu’un. Toutefois, grâce à des observations continues de nombreux échantillons (nos points GPS), les dépendances peuvent devenir évidentes. En général, les statistiques s’appuient sur une notion de réplication, de répétition, à partit de laquelle on peut penser que l’on peut faire des estimations  et que la variabilité et l’incertitude de l’estimation peuvent être comprises à partir de séries d’observations répétées.
Dans un contexte spatial, l’idée de stationnarité est utilisée pour obtenir la réplication nécessaire. La stationnarité est une hypothèse qui est souvent raisonnable pour les données spatiales. Il existe deux types de stationnarité.
L’une est appelée stationnarité de la moyenne.On suppose ici que la moyenne est constante entre les échantillons et qu’elle est indépendante de l’emplacement des échantillons.
Le second type de stationnarité est appelé stationnarité de second ordre pour la covariance et stationnarité intrinsèque pour les semi-variogrammes.

La stationnarité de second ordre est l’hypothèse selon quoi, la covariance est la même entre deux points quelconques s’ils sont à la même distance et dans la même direction, indépendamment des points que vous choisissez. La covariance dépendra de la distance entre deux valeurs quelconques et non de leur emplacement.

Dans le schéma ci-dessus, la covariance entre les paires de points reliés par le trait noir, est assumée être la même.

Que tout ceci est clair en thermes statistiques. Mais comme vous n’êtes pas obligé d’être un statisticien, traduisons ceci en français dans le texte.

Ici nous avons des points A et des points B reliés par les traits noirs. La covariance est une mesure de comment varient deux variables. Peu importe la formule de calcul, dans cet exemple c’est une mesure de la différence de hauteur de A et B par rapport à la hauteur moyenne du terrain. Si les valeurs de A étaient complètement indépendantes de B, la covariance serait nulle (0). Si elle n’est pas nulle, on peut penser qu’il y a un lien entre les deux variables A et B. Si on prend des points séparés par une même distance, pour qu’on puisse dire que la stationnarité de second ordre est respectée, il faut que la covariance de tous ces paires de points soient sensiblement égales.

Dans le schéma ci-dessus ça semble bien être le cas.

Dans celui qui suit, est-ce que vous pensez que c’est aussi le cas?

Et bien, oui. Même si les différences de valeur entre les paires situées dans le replat et dans les zones à forte pente sont très différents, la covariance mesure la différence entre la hauteur de A et la moyenne des points A et la hauteur de B et la moyenne des points B. Elle sera sensiblement la même quelle qu’elle soit la pente.

Par contre, dans le schéma suivant

La covariance des paires rouges sera différente de celle des paires bleues. Si on prend que les paires bleues, la stationnarité de second ordre est respectée, si on prend l’ensemble des paires, elle ne l’est pas.

Pour les semi-variogrammes, on applique ce même principe à la variance. La stationnarité intrinsèque est l’hypothèse que la variance de la différence des valeur observées est la même entre deux points quelconques s’ils sont à la même distance et dans la même direction, peu importe les deux points que vous choisissez.

La stationnarité de second ordre et intrinsèque sont des hypothèses nécessaires pour obtenir la réplication nécessaire, et donc pour estimer les règles de dépendance, ce qui nous permet de faire des prédictions et d’évaluer l’incertitude dans les prédictions. Notez que c’est l’information spatiale (distance similaire entre deux points quelconques) qui fournit la réplication.

La notion de distance sera tout le temps présente dans l’analyse géostatistique. Pour l’instant disons simplement que nous utiliserons une notion de sens commun: plus deux points sont proches, plus ils auront tendance à avoir des valeurs similaires, plus il y aura un lien entre eux.

Par contre plus on s’éloignera, moins ce lien sera visible. Jusqu’à ce que les valeurs des deux points soient complétement indépendantes.

Nous voila donc avec une série d’hypothèses sur nos données qui vont nous permettre d’utiliser les outils géostatistiques pour prévoir les valeurs là où nous n’avons pas de données.

Mais, qu’est-ce qu’il arriverait si nos hypothèses sot fausses? Tout simplement que nos prédictions seraient fausses aussi. Il faut donc vérifier, AVANT d’utiliser les outils géostatistiques, que les hypothèses de base utilisées par ces outils sont bien remplies. C’est cette étape qu’on dénomme Analyse Exploratoire des Données Spatialisées (AEDS).

L’analyse exploratoire des données spatialisées (AEDS)

L’analyse exploratoire des données spatiales vous permet d’examiner vos données de différentes façons. Avant de créer une surface, l’AEDS vous permet d’acquérir une compréhension plus profonde des phénomènes que vous étudiez afin que vous puissiez prendre de meilleures décisions sur les questions relatives à vos données.

Nota pour les utilisateurs d’ArcGis Geostatistical Analyst:

Dans ArcGis, l'environnement de l'AEDS se compose d'une série d'outils, chacun permettant une vue particulière des données. Chaque vue peut être manipulée et explorée, permettant différents points de vue sur les données. Chaque vue est interconnectée avec toutes les autres vues ainsi qu'avec ArcMap. C'est-à-dire que si une barre est sélectionnée dans l'histogramme, les points de la barre sont également sélectionnés sur QQPlot (si ouvert), sur toute autre vue de l'AEDS ouverte et sur la carte ArcMap.

Chaque outil AEDS vous permet d'examiner vos données sous différentes vues. Chaque vue est affichée dans une fenêtre séparée et interagit entièrement avec l'affichage ArcMap ainsi qu'avec d'autres fenêtres AEDS. Les outils disponibles sont Histogramme, Carte de Voronoi, QQPlot Normal, Analyse de Tendance, Nuage de Semivariogramme / Covariance, QQPlot Général et Nuage de Crosscovariance

Nota pour les autres :

Que ce soit dans QGis ou dans d'autres logiciels de SIG, même si les outils ne sont pas empaquetés comme dans l'application Geostatistical Analyst, vous disposez des mêmes outils d'analyse exploratoire. Tout ce qui sera dit ici est valable, quel qu'il soit l'outil informatique que vous utiliserez.

L’exploration de la distribution des données, la recherche de valeurs aberrantes globales et locales, la recherche de tendances globales, l’examen de l’autocorrélation spatiale et la compréhension de la covariance entre plusieurs ensembles de données sont autant de tâches utiles, voir indispensables,à effectuer sur vos données. Cet ensemble d’analyses compose l’AEDS.

Dans le prochain article nous verrons l’utilisation des histogrammes dans le cadre de l’AEDS.

 

4 réflexions sur « Introduction à l’analyse exploratoire des données pour la géostatistique »

  1. AEDS et ESDA sont les initiales en français et anglais, par contre à la fin de l’article s’est cachée une entreprise de défense. Saurez-vous la trouver ? 😉

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *