Analyse exploratoire des données pour la géostatistique:les diagrammes de Voronoï

Après l’article Introduction à l’analyse exploratoire des données pour la géostatistique , nous  abordons chacun des outils disponibles pour réaliser l’analyse exploratoire des données spatialisées. Nous avons vu les histogrammesles QQ-Plots, nous verrons maintenant les cartes de Voronoï.

Il faut introduire ici une notion dont nous n’avons pas encore parlé dans les articles précédents et qui concerne l’étendue ou emprise d’un phénomène. En géostatistiques nous pouvons considérer deux types d’étendue pour un phénomène: une étendue GLOBALE ou une étendue LOCALE.

Phénomènes globaux et locaux.

Nous parlons de phénomène global quand nous prenons comme repère la totalité des données disponibles. Nous parlons de phénomène local quand nous prenons comme repère un point d’échantillonnage et ses points voisins.

Un exemple simple, c’est quand on parle de valeurs aberrantes (outliers). Si on recherche des valeurs aberrantes globales, on cherchera des valeurs qui son en dehors de l’étendue logique de nos données. Par exemple si on a un lot de données de températures de l’eau de mer, avec des valeurs qui sont comprises entre 2°C et 16°C, une valeur de -3°C ou une valeur de 35°C, nous apparaitront comme valeurs aberrantes globales. Supposons que nos mesures s’étalent sur toute une année et que nous avons en hiver une série de valeurs 2°C, 2.5°C, 11°C, 2.2°C, 2.5°C . La valeur 11°C n’est pas aberrante d’un point de vue global, car dans le cours de l’année elle peut apparaître très souvent. C’est le fait qu’elle soit au milieu de températures beaucoup plus basses et régulières que peut nous faire déduire que c’est une valeur aberrante locale.

Les histogrammes et les QQ-plot que nous avons déjà abordés, sont des outils globaux. Ils nous permettent de travailler et de comprendre les phénomènes qui concernent l’ensemble de nos données. Avec les cartes de Voronoï nous allons aborder des outils qui vont nous permettre de  visualiser et de comprendre des phénomènes locaux, c’est à dire qu’ils ne concerneront qu’une partie de nos données.

Les cartes de Voronoï

Les cartes de Voronoï sont construites à partir d’une série de polygones formés autour de l’emplacement de chaque point d’échantillonnage.

Les polygones de Voronoï sont créés de sorte que chaque emplacement dans un polygone soitt plus proche du point d’échantillonnage présent dans ce polygone que de tout autre point d’échantillonnage.

construction des polygones de voronoï à partir des échantillons Par exemple, dans cette figure , le point jaune est entouré d’un polygone, affiché en rouge. Chaque emplacement dans le polygone rouge est plus proche du point d’échantillonnage jaune que de tout autre point d’échantillonnage (points bleu foncé).

Après la création des polygones, les voisins d’un point d’échantillonnage sont définis comme tout autre point d’échantillonnage dont le polygone partage une bordure avec le point d’échantillonnage choisi. Les polygones bleus partagent tous une bordure avec le polygone rouge, de sorte que les points d’échantillonnage dans les polygones bleus sont voisins du point d’échantillonnage vert clair.

En utilisant cette définition de voisinage, on peut calculer une variété de statistiques locales. Par exemple, une moyenne locale va être calculée en prenant la moyenne des points d’échantillonnage dans le polygone central et les polygones voisins (polygones rouge et bleus). Cette moyenne sera ensuite affectée au polygone rouge. Après répétition pour tous les polygones et leurs voisins, une échelle de couleurs montrera les valeurs relatives des moyennes locales, ce qui permet de visualiser des régions de valeurs fortes et faibles.

carte des polygones de voronoï des moyennesEn haut et à droite, l’échelle de couleurs indique les valeurs des moyennes calculées. On voit que le coin haut et droit possède les valeurs les plus faibles de l’ensemble et le coin bas et gauche les valeurs les plus fortes.

Les différentes cartes de Voronoï de Geostatistical Analyst

L’outil  Carte de Voronoi de Geostatistical Analyst fournit un certain nombre de méthodes pour attribuer ou calculer des valeurs aux polygones.

Voyons d’abord la liste de possibilités et comment elles sont calculées. Nous verrons ensuite à quoi chacune d’elles peut servir.

Types de carte

Simple: La valeur attribuée à chaque polygone une cellule est la valeur du point d’échantillonnage de ce polygone.

Moyenne: La valeur attribuée à un polygone est la moyenne calculée à partir de ce polygone et de ses voisins.

Mode: Tous les polygones sont classés en  cinq intervalles de classe. La valeur attribuée à un polygone la valeur la plus présente (mode) entre le polygone et ses voisins.

Cluster: Tous les polygones sont classés en cinq intervalles de classe en couleurs. Si l’intervalle de classe du polygone est différent de tous ses voisins, la cellule est de couleur grise (pour la distinguer de ses voisins).

Entropie: Tous les polygones sont classés en cinq classes avec la méthode smart quantiles, une variante de la méthode des quantiles. L’entropie se calcule avec la formule

Où pi est la proportions de polygones, parmi le polygone central et les polygones voisins, de chacune des cinq classes, et Log est le logarithme base 2.

Comme ce n’est pas simple, voyons un exemple. Nous avons un polygone avec 5 polygones voisins. On applique la méthode smart quantiles et on obtient 3 polygones de classe 1, 1 polygone de classe 3 et 2 polygones de classe 5.

 

On aura donc une entropie

-[ 0.6 *  -0.736966  + 0.2 * -2.321928  + 0.4 *  -1.321928] = 1.4353

Dans tous les cas on aura des valeurs allant de 0 à 2.322 .

Si tous les polygones (polygone central et voisins) ont la même classe l’entropie est zéro ( 1 * log2(1)).

Si on trouve les cinq classes, chacune aura une proportion 0.2 est l’entropie résultante sera 2.322.

Médiane: La valeur attribuée à une cellule est la valeur médiane calculée à partir de la distribution de fréquence de la cellule et de ses voisins.

Écart-type: La valeur attribuée à une cellule est l’écart-type calculé à partir de la cellule et de ses voisins.

Écart interquartile: Le premier et le troisième quartiles sont calculés à partir de la distribution de fréquence d’un polygone  et de ses voisins.
La valeur attribuée à la cellule est calculée en soustrayant la valeur du premier quartile de la valeur du troisième quartile:

  • le 1er quartile est la donnée de la série qui sépare les 25 % inférieurs des données ;
  • le 2e quartile est la donnée de la série qui sépare la série en deux parties (50%) de la série ;
  • le 3e quartile est la donnée de la série qui sépare les 25 % supérieurs des données.

La différence entre le troisième quartile et le premier quartile s’appelle écart interquartile ; c’est un critère de dispersion de la série. La dispersion représente la variabilité ou l’étendue des différentes valeurs que peut prendre une variable. L’écart interquartile correspond à l’étendue de la série statistique après élimination de 25 % des valeurs les plus faibles et de 25 % des valeurs les plus fortes. Cette mesure est plus robuste que l’étendue (étendue = x_{{\max }}-x_{{\min }}), qui est sensible aux valeurs extrêmes.

Utilisations des différents types de carte

Les différentes statistiques de Voronoï sont utilisées à des fins différentes.
Les statistiques peuvent être regroupées dans les catégories fonctionnelles générales suivantes:

Outils de lissage locaux:
  • carte de moyenne
  • carte de mode
  • carte de médiane

En calculant une des trois variables statistiques pour chaque point et ses voisins, la variation entre chaque polygone et ses voisins devient moins brutale. On obtient alors une carte plus lissée de nos données. Ceci est utile quand il y a une trop forte variation entre les points voisins ce qui a pour résultat sur la carte globale de masquer ou de rendre plus difficile de voir les phénomènes globaux.

comparaison des polygones de voronoï simples et moyensLa carte de gauche montre les polygones de Voronoï simples, c’est à dire que chaque point est représenté par sa valeur réelle. La carte de droite montre les polygones de Voronoï moyens. Chaque polygone a comme valeur la moyenne de sa valeur et des valeurs de ses voisins. Le bruit de fond du centre de la carte est « lissé » par l’utilisation de la moyenne.

Outils de visualisation de la variabilité locale
  • carte des écarts-type
  • carte des écarts interquartiles
  • carte d’entropie

Si les outils de lissage (moyenne, mode, médiane) sont des outils qui s’intéressent à ce que l’on peut appeler la tendance centrale d’une distribution, ces trois outils s’intéressent à la dispersion des distributions.

Si on observe beaucoup de différence entre les valeurs voisines, on dira que les valeurs ont un forte dispersion et une forte variabilité.

Par contre, la notion de « beaucoup » est une notion relative. Prenons la carte des écarts-type:

carte des polygones de voronoï des écarts-typeL’échelle de couleurs est toujours la même, quelle qu’elle soit la dispersion des valeurs. Pour interpréter complètement cette image, il faut savoir de quelles données il s’agit et si une variabilité maximale  de 4 à 13 est logique ou pas.

Par contre ce que l’on peut tout de suite comprendre c’est que les zones claires sont les zones où la variabilité relative est basse et les zones plus foncées où la variabilité est très forte.

Prenons la carte des écarts interquartiles:

carte des polygones de voronoï des écarts de quartilesCette carte est une autre mesure de la dispersion. On prend les valeurs du point et de ses voisins, on élimine les 25% plus bas et plus haut, et on affiche la valeur min et max des points restants.

En somme, on élimine les valeurs extrêmes et on affiche une étendue de variation. Les zones foncées ont une variation entre 4 et 10.

Si l’on sait maintenant que ces données correspondent à des profondeurs, on peut déduire que les zones foncées des deux cartes précédentes correspondent aux zones de plus forte pente, c’est à dire où les valeurs changent plus vite. Les zones claires correspondent à des zones plutôt plates.

L’interprétation de ces deux types de carte dépendent de la connaissance des données, car la variabilité sera toujours exprimée en cinq classes, avec des bornes différentes selon les données. Par contre, la carte d’entropie ne se présente pas de la même manière. Elle a toujours 5 classes mais les bornes des classes ne dépendent pas des données traitées. Elles sont fixes.

carte des polygones de voronoï de l'entropieSi tous les polygones (point plus voisins) se ressemblent, la valeur de l’entropie sera 0. Si tous les polygones sont différents, la valeur est de 2.32.

Comme son nom l’indique, la carte d’entropie est une mesure de « désordre ». Si on trouve des zones à forte entropie (ce n’est pas le cas dans notre carte exemple) un détour pour essayer de comprendre les raisons s’impose.

Recherche de valeurs aberrantes (outliers)

Il est important d’identifier les valeurs aberrantes pour deux raisons: elles peuvent être des anomalies réelles du phénomène, ou la valeur peut avoir été mesurée ou enregistrée incorrectement.
Si une aberration est une anomalie réelle dans le phénomène, c’est peut-être le point le plus important de l’étude et de la compréhension du phénomène. Par exemple, un échantillon sur la veine d’un minerai pourrait apparaître comme une valeur aberrante, et c’est justement cet emplacement qui est l’objectif le plus important pour une société minière.
Si des valeurs aberrantes sont causées par des erreurs lors de la saisie de données ou par tout autre raison clairement incorrecte, elles doivent être corrigées ou supprimées avant de créer une surface. Les valeurs aberrantes peuvent avoir plusieurs effets nuisibles sur votre surface interpolée, en ayant des effets sur la modélisation du semi-variogramme et par son influence sur des valeurs voisines.

Les cartes de Voronoï créées à l’aide des méthodes cluster et entropie peuvent être utilisées pour aider à identifier d’éventuels valeurs aberrantes.
Les valeurs d’entropie fournissent une mesure de dissimilarité entre polygones voisins. Dans la nature, vous vous attendez à ce que les choses plus rapprochées soient plus  semblables que des choses plus éloignées. Par conséquent, les valeurs aberrantes locales peuvent être identifiées par des zones d’entropie élevée.

La méthode cluster identifie les polygones qui sont dissemblables à leurs voisins environnants. Vous vous attendez à ce que la valeur enregistrée dans un polygone particulier soit similaire à au moins un de ses voisins. Par conséquent, cet outil peut être utilisé pour identifier d’éventuels valeurs aberrantes locales:

carte des polygones de voronoï des clustersLe cluster prend l’ensemble des points et classe ces valeurs en cinq classes. Pour chaque polygone on affiche sa classe, si et seulement si, au moins un polygone voisin est de même classe. Si tous les polygones voisins sont de classe différente, on affiche le polygone en gris.

Sur l’image précédente, il sera utile de cliquer sur chaque polygone gris et d’observer sa valeur sur la carte des points :

lien entre les polygones de voronoï des clusters et la carte des points de mesureDans cet exemple on observe une valeur de 3.4 au milieu de valeurs de l’ordre de 30. Il peut s’agir d’une erreur de saisie de la virgule.

Dans le prochain article nous verrons comment analyser les tendances des données.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *