Après l’article Introduction à l’analyse exploratoire des données pour la géostatistique , nous abordons chacun des outils disponibles pour réaliser l’analyse exploratoire des données spatialisées. Nous avons vu les histogrammes, nous verrons maintenant les QQ-Plots.
Les QQ-Plots (ou diagrammes Quantile-Quantile) sont des graphiques dans lesquels les quantiles de deux distributions sont tracés l’un par rapport à l’autre.
Construction d’un QQ-Plot normal
On appelle QQ-Plot normal le diagramme qui permet de comparer la distribution des données d’un lot à la distribution dite normale ou gaussienne. Voici un exemple.
A – Le lot de données à traiter est ordonné par valeur, de la plus petite à la plus grande, puis on calcule pour chaque valeur le pourcentage de valeurs inférieures. On trace les points avec en abscisse les valeurs du lot et en ordonnées les pourcentages. Dans cet exemple pour la valeur 2 dans nos données on a 21% (0,21) de valeurs inférieures présentes dans le lot (et donc 79% de valeurs supérieures à 2).
B- On trace la fonction gaussienne avec en abscisse les écarts-type et en ordonnées le pourcentage de fréquence inférieure à cette valeur. Pour une fréquence de 21% (0,21) l’écart-type est de -0.85.
C-On réalise le QQ-Plot :
- pour chaque donnée on prend sa valeur (DV),
- on cherche le pourcentage du graphique A,
- avec ce pourcentage, on passe au graphique B et on obtient la valeur d’écart-type (NV) correspondante,
- on trace le point en utilisant NV en abscisse et DV en orodnnées.
La droite du QQ-Plot indique la position que devraient avoir les points s’ils obéissaient exactement à la distribution normale.
Construction d’un QQPlot général
Le QQ-Plot général est utilisé pour évaluer la similarité des distributions de deux ensembles de données.
Ici nous avons deux variables : Depth et Distance
Comment est-il construit?
A – Comme pour le QQ-Plot normal, le premier lot de données à traiter est ordonné par valeur, de la plus petite à la plus grande, puis on calcule pour chaque valeur le pourcentage de valeurs inférieures. On trace les points avec en ordonnées les valeurs du lot et en abscisse les pourcentages. Dans cet exemple pour la valeur 2 dans nos données on a 21% (0,21) de valeurs inférieures présentes dans le lot.
B – Le deuxième lot de données est traité de la même manière. Dans cet exemple pour la valeur 15 dans nos données on a 37% (0,37) de valeurs inférieures présentes dans le lot. Vous observerez qu’il n’y a pas de valeur dans le lot avec une fréquence de 0,21 comme dans le premier lot de données.
C-On réalise le QQ-Plot :
- pour chaque donnée du lot A on prend sa valeur (DV1),
- on cherche le pourcentage du graphique A,
- avec ce pourcentage, on passe au graphique B et on obtient la valeur du lot B correspondante (DV2), soit en la prenant directement si elle existe, soit en interpolant entre les deux valeurs qui l’englobent, comme dans l’exemple ci-dessus.
- on trace le point en utilisant DV2 en abscisse et DV1 en ordonnées,
- pour chaque donnée du lot B on prend sa valeur (DV2),
- on cherche le pourcentage du graphique B,
- avec ce pourcentage, on passe au graphique A et on obtient la valeur du lot A correspondante (DV1), soit en la prenant directement si elle existe, soit en interpolant entre les deux valeurs qui l’englobent, comme dans l’exemple ci-dessus.
- on trace le point en utilisant DV2 en abscisse et DV1 en ordonnées.
Contrairement au QQ-Plot normal, on ne peut pas tracer de droite théorique car on ne connait pas la fonction de distribution des lots A et B. Par contre, si les deux distributions sont exactement les mêmes, les points seront alignés sur une droite. Dans l’exemple ci-dessus (Depth-Distance) ce n’est pas le cas.
L’exemple suivant c’est une correspondance parfaite (puisque c’est la même variable):
Interprétation des QQ-Plots
On va répéter ici ce que l’on a dit pour les histogrammes:
« Certaines méthodes de krigeage fonctionnent mieux si les données sont approximativement distribuées normalement (la courbe en forme de cloche).
En particulier, les cartes de quantiles et de probabilité utilisant le krigeage ordinaire, simple et universel supposent que les données proviennent d’une distribution normale.
Comme nous l’avons vu dans l’article précédent, le krigeage repose également sur l’hypothèse de la stationnarité. Cette hypothèse exige, en partie, que toutes les valeurs des données proviennent de distributions qui ont la même variabilité. Nous observons souvent dans la nature que, lorsque les valeurs augmentent, leur variabilité augmente. Les transformations des données source peuvent être utilisées pour rendre vos données normalement distribuées et satisfaire l’hypothèse d’une variabilité égale pour tout l’ensemble.«
Nous allons donc rechercher les mêmes choses qu’avec les histogrammes, mais avec les QQ-Plot ce sera plus facile.
Si nous prenons la variable Depth, utilisée pour l’histogramme et nous traçons son QQ-Plot normal on a:
Nous avons trois zones distinctes:
- A- Des points à gauche de la droite théorique, très éloignés de celle-ci
- B- Des points à droite de la droite théorique, puis
- C- Des points à gauche , à nouveau
La forme générale peut être assimilée à un S.
Les informations que nous pouvons trouver à parti de la forme générale de la courbe des points concernent essentiellement ce qui a trait aux coefficients de forme: l’étalement (skewness) et l’aplatissement (kurtosis). De plus on peut tout de suite voir si nos données suivent une courbe mono ou bi-modale.
Observation de l’étalement
Tout d’abord, sur l’étalement (skewness).
Nous avons trois grands types de distribution: normale, déplacée à gauche (vers les petites valeurs de nos données), déplacée à droite (vers les grandes valeurs de nos données).
Pour retrouver rapidement quel est le type de notre distribution, regardez la zone du QQ-Plot correspondante au centre de notre distribution (Valeur 0 de l’écart-type):
Distribution non biaisée (normale):
Les points des données correspondant au centre de la distribution sont sur (ou très proches) de la droite théorique.
Distribution biaisée à gauche:
La zone de points autour de 0 écart-type se trouve sensiblement en dessous de la droite théorique.
Distribution biaisée à Droite:
La zone de points autour de 0 écart-type se trouve sensiblement au dessus de la droite théorique.
Observation de l’aplatissement
L’autre observation qu’on peut faire concerne le coefficient d’étalement (kurtosis).
Kurtosis inférieur à 3
Les distributions avec des bords relativement fins (appelées platykurtiques) et qui ont un kurtosis de valeur inférieure à 3, ont une forme générale en S, avec la partie négative des écarts-type en creux, et la partie positive en bosse:
Kurtosis supérieur à 3
Les distributions avec des bords relativement épais (appelées leptokurtiques) et qui ont un kurtosis de valeur supérieure à 3,ont une forme générale en S inversé, avec la partie négative des écarts-type en bosse, et la partie positive en creux:
Que faire?
A partir du QQ-plot normal nous pouvons faire deux choses: trouver une transformation qui ramène nos données à une loi normale (ou proche) et identifier les données qui peuvent poser problème.
Si nous reprenons le premier schéma de cet article, il est plus facile de trouver la transformation exponentielle (Box-Cox) avec le QQ-Plot qu’avec l’histogramme:
On voit mieux l’adéquation à la droite théorique quand on modifie le paramètre de transformation.
L’autre aspect intéressant de Geostatistical Analyst est le lien qui existe entre les outils de diagramme, ici le QQ-plot et l’affichage dans ArcMap. Si vous utilisez l’outil de sélection sur les points du QQ-Plot vous verrez les points sélectionnés sur la carte.
Si on sélectionne les points qui s’écartent de la droite normale pour les grandes valeurs:
On s’aperçoit qu’ils sont tous dans la périphérie de la zone d’étude. Ils peuvent donc traduire un phénomène externe à notre zone. On gardera ça à l’esprit, par exemple, pour tester la qualité de l’interpolation finale avec ou sans ces points.
Si on fait la même chose pour les points s’écartant dans les petites valeurs:
On voit que la distribution de ces points fait bien partie du phénomène intrinsèque à la zone d’étude, ou que, en tout état de cause, il faudra bien les prendre en compte pour la modélisation de la fonction d’interpolation.
Dans le prochain article nous verrons comment détecter les valeur aberrantes avec les polygones de Voronoï.