Analyse exploratoire des données pour la géostatistique:les histogrammes

13 janvier 201713 janvier 2017 Atilio Francois No Comments

Après l’article Introduction à l’analyse exploratoire des données pour la géostatistique , nous allons commencer à aborder chacun des outils disponibles pour réaliser l’analyse exploratoire des données spatialisées. Nous commençons avec les histogrammes.

Les Histogrammes

Même si nous allons prendre comme base les outils Geostatiscal Analyst d’ArcGis, vous pourrez trouver des outils similaires dans les autres logiciels SIG (Outils SAGA dans QGis, …).

L’outil d’histogrammes dans l’AEDS fournit une description univariée (une variable) de vos données. L’outil affiche la distribution de fréquence pour le jeu de données d’intérêt et calcule la statistique récapitulative. L’objectif premier à rechercher est de valider le fait que la distribution des valeurs de chaque variable obéit à un phénomène aléatoire.

Répartition des fréquences

La distribution de fréquence est un graphique à barres qui indique la fréquence à laquelle les valeurs observées tombent dans certains intervalles ou classes. Vous spécifiez le nombre de classes de largeur égale qui doivent être utilisées dans l’histogramme. La proportion relative de données qui tombe dans chaque classe est représentée par la hauteur de chaque barre. Par exemple, l’histogramme ci-dessus montre la distribution de fréquence (10 classes) pour un ensemble de données.

Les caractéristiques importantes d’une distribution peuvent être résumées par quelques statistiques qui décrivent sa distribution, son étalement et sa forme.

Mesures de la distribution

Les valeurs de la distribution vous donnent une idée d’où se situe le centre et d’autres parties de la distribution. Pour ce qui est de notre objectif de valider le fait d’une distribution aléatoire, ces valeurs ne nous apportent rien en particulier. Par contre ils nous renseignent sur le lot de données de manière à mieux cerner ses caractéristiques. Si nous voulons faire une symbologie par classes, il est bien utile d’avoir sous la mains ces valeurs.

La moyenne est la moyenne arithmétique des données. La moyenne fournit une mesure du centre de la distribution.

La valeur médiane correspond à une proportion cumulative de 0,5. Si les données étaient classées dans l’ordre croissant, 50% des valeurs seraient inférieures à la médiane et 50% des valeurs seraient au-dessus de la médiane. La médiane fournit une autre mesure du centre de la distribution.

Les premier et troisième quartiles correspondent à une proportion cumulative de 0,25 et 0,75, respectivement. Si les données étaient classées en ordre croissant, 25% des valeurs seraient situées en dessous du premier quartile et 25% des valeurs seraient situées au-dessus du troisième quartile.

Si vous voulez une classification, en quatre classes d’égale importance (nombre de points), il vous suffit de prendre comme bornes le premier quartile, la médiane et le troisième quartile. Vous aurez 25% de vos données dans chacune des classes.

Mesure d’étalement

L’écart de points autour de la valeur moyenne est une autre caractéristique de la distribution de fréquence affichée. La variance des données est l’écart quadratique moyen de toutes les valeurs par rapport à la moyenne. Les unités sont le carré des unités des mesures originales et, parce qu’elles impliquent des différences au carré, la variance calculée est sensible aux valeurs anormalement élevées ou basses.
L’écart-type est la racine carrée de la variance. Il décrit la diffusion des données sur la moyenne dans les mêmes unités que les mesures d’origine.

Dans l’exemple précédent, la moyenne des valeurs est 0,22705 et l’écart-type est de 0,083076. Grosso-modo ceci veut dire que 68% de nos données se trouveront dans la fourchette 0,14 à 0,30.

Plus l’écart-type est grand, plus la courbe de distribution est aplatie. Plus l’écart-type est petit, plus pointue est la courbe. Le problème au quotidien est que ceci s’applique à chaque type de donnée et qu’il n’y a pas de sens de comparer l’écart type de températures avec l’écart-type de la surface de la banquise, car les unités de mesure n’ont aucun lien.

C’est beaucoup plus simple de regarder l’allure de la distribution, vous verrez tout de suite si vous êtes en face d’une distribution aplatie ou pointue!

Mesures de forme

La distribution de fréquence est également caractérisée par sa forme. Et c’est ici que nous avons les éléments les plus importants pour déterminer si la distribution de nos données suit une loi normale ou pas.
Le coefficient d’asymétrie (Skewness) est une mesure de la symétrie d’une distribution. Pour les distributions symétriques, le coefficient d’asymétrie est nul. La moyenne est plus grande que la médiane pour les distributions positivement asymétriques, et vice versa pour les distributions négativement asymétriques. La figure ci-dessous montre une distribution positivement biaisée.

Pour une distribution normale, la valeur du coefficient d’asymétrie est 0. Mais s’il ne l’est pas exactement, comment interpréter le résultat? Dans notre premier exemple d’histogramme le coefficient d’asymétrie est de -0.17. Est-ce qu’il est significativement différent de 0?

Il y a plusieurs façons de répondre à cette question. Retenons ici le plus simple, sans calculs supplémentaires. C’est le tableau qu’on trouve dans le livre « Probabilités, analyse des données et statistique » de G. Saporta (éd. Technip) p. 587. Ce tableau indique, pour un nombre n de valeurs de l’histogramme, les valeurs à ne pas dépasser.

Les valeurs sont données pour des risques de 1 % et de 5 % pour n entre 7 à 5 000. Pour notre exemple, sur un échantillon de 450 observations et un risque d’erreur de 5%, le coefficient doit être compris entre -0,188 et 0,188 pour considérer que la distribution est bel et bien symétrique.

Nous sommes bien dans ce cas.

Le coefficient d’aplatissement ( kurtosis) est basé sur la hauteur des bords (ou queues) d’une distribution et fournit une mesure de la probabilité que la distribution produise des valeurs aberrantes, c’est à dire qu’il y ait des valeurs qui s’écartent beaucoup de la moyenne.

Le kurtosis d’une distribution normale est égale à 3. Les distributions avec des bords relativement épais sont appelées » leptokurtiques » et ont un kurtosis de valeur supérieure à 3. Les distributions avec des bords relativement minces sont dénommées » platykurtiques » et ont un kurtosis inférieur à 3. Dans la figure ci-dessous, une distribution normale est donnée en rouge, et une distribution leptokurtique (bords épais) est donnée en noir

Sur le lot de données correspondant à la courbe en noir, il va être plus difficile de savoir si des valeurs trop élevées ou trop faibles sont des valeurs aberrantes, c’est à dire des erreurs de mesure.

En résumé: si le kurtosis est inférieur à 3, vous serez favorisé dans la recherche des valeurs aberrantes, par exemple en utilisant les polygones de Voronoï (que nous verrons dans un article ultérieur), s’il est supérieur à 3, ce sera plus difficile.

Vous pouvez, selon l’outil utilisé, trouver une autre valeur à la place du kurtosis, l’excès de kurtosis. C’est simplement le kurtosis moins 3. Comme la valeur 3 est la valeur centrale, l’excès de kurtosis permet de reconnaître immédiatement les courbes platikurtiques (valeurs négatives de l’excès) des leptokurtiques (valeurs positives).

Interprétation des histogrammes

Certaines méthodes de krigeage fonctionnent mieux si les données sont approximativement distribuées normalement (la courbe en forme de cloche).
En particulier, les cartes de quantiles et de probabilité utilisant le krigeage ordinaire, simple et universel supposent que les données proviennent d’une distribution normale.
Comme nous l’avons vu dans l’article précédent, le krigeage repose également sur l’hypothèse de la stationnarité. Cette hypothèse exige, en partie, que toutes les valeurs des données proviennent de distributions qui ont la même variabilité. Nous observons souvent dans la nature que, lorsque les valeurs augmentent, leur variabilité augmente. Les transformations des données source peuvent être utilisées pour rendre vos données normalement distribuées et satisfaire l’hypothèse d’une variabilité égale pour tout l’ensemble.

Dans les outils histogramme de Geostatistical Analyst, vous trouverez plusieurs types de transformations, y compris la Box Cox (également connue sous le nom de transformation exponentielle), logarithmique et arcsinus.

La simple observation (plus la valeur de la Skewness significativement différente de 0 selon la table des dépassements) nous indique que la distribution n’est pas normale.

Si nous sélectionnons une transformation Box Cox avec une valeur de paramètre (puissance de la fonction exponentielle) de O.55 on a

La Skewness est maintenant pratiquement 0 (0,0077).

Il suffira de transformer les données en entrée avec cette fonction pour que les outils géostatistiques fonctionnent correctement. Dans Geostatistical Analyst, il n’est pas nécessaire de transformer les données en entrée. Il suffit d’indiquer la transformation à faire et les données seront transformées automatiquement avant d’effectuer les calculs geostatistiques, puis les résultats seront transformés avec la transformation inverse, tout aussi automatiquement.

Si vous vous demandez comment on a trouvé la valeur 0.55, ce n’est pas compliqué, en tâtonnant. Chaque fois que vous modifiez la valeur du paramètre, l’affichage est recalculé. Vous voyez tout de suite la valeur de la Skewness. Par itérations, vous vous approcherez de la valeur 0.

Dans le prochain article nous verrons un autre outil de l’analyse exploratoire des données spatialisées: les QQ-plots (diagrammes quantile-quantile).

Si cet article vous a intéressé et que vous pensez qu'il pourrait bénéficier à d'autres personnes, n'hésitez pas à le partager sur vos réseaux sociaux en utilisant les boutons ci-dessous. Votre partage est apprécié !