Tutoriel classification d’images avec ArcMap: 2.5- Exploration des données

Les données de bandes multispectrales différentes ont souvent une corrélation très élevée et contiennent de l’information similaire. Par exemple, les capteurs de la bande 4 et 5 de Landsat MSS (vert et rouge respectivement) produisent des images d’apparence visuelle très semblable étant donné que la réflectance pour le même type de surface est presque identique. Des transformations d’images basées sur des traitements statistiques complexes des données multispectrales peuvent être utilisées pour réduire la redondance des données et la corrélation entre les bandes. L’analyse des composantes principales est une transformation de ce genre. Le but de cette transformation est de réduire le nombre de dimensions (nombre de bandes) et de produire une compression de l’information de plusieurs bandes dans un nombre plus restreint de bandes. Les « nouvelles » bandes qui résultent de cette compression statistique sont appelées composantes. Ce procédé vise à maximiser (statistiquement) la quantité d’information (ou variance) des données originales dans un nombre restreint de composantes. Par exemple, l’analyse des composantes principales, peut transformer des données provenant de sept bandes du capteur TM/Landsat (Thematic Mapper) de façon à ce que les trois principales composantes de la transformation contiennent plus de 90% de l’information contenue dans les sept bandes initiales. L’interprétation et l’analyse de ces trois composantes, en les combinant visuellement ou numériquement, est plus simple et plus efficace que l’utilisation des sept bandes initiales. L’analyse des composantes principales ou d’autres transformations complexes peuvent être utilisées comme techniques de rehaussement visuel pour faciliter l’interprétation ou pour réduire le nombre de bandes qui seront fournies comme données d’entrée à une procédure de classification numérique.

L’outil Composantes principales d’ArcMap

L’outil Composantes principales permet de convertir des données dans des canaux en entrée dans l’espace attributaire multivarié lorsque vous faites pivoter les axes par rapport à l’espace d’origine. Les axes (attributs) du nouvel espace ne sont pas corrélés. La raison principale de transformer les données dans une analyse des composants principale est de compresser des données en éliminant la redondance.

Il est évident que les données sont redondantes dans un raster multicanal comprenant des valeurs d’altitude, de pente et d’exposition (sur une échelle continue). Étant donné que la pente et l’exposition sont généralement dérivées de l’altitude, une grande proportion de la variance peut s’expliquer, dans la zone d’étude, par l’altitude.

Le résultat est un raster multicanal ayant le même nombre de canaux que les composants désignés (un canal par axe dans le nouvel espace multivarié). La première composante principale aura la variance la plus élevée, la deuxième composante la variance la plus élevée qui n’est pas décrite par la première, et ainsi de suite. Souvent, les trois (ou quatre) premiers rasters issus du raster multicanal généré avec l’outil Composantes principales peuvent décrire plus de 95 % de la variance. Vous pouvez supprimer les canaux individuels restants. Dans la mesure où le nouveau raster contient moins de couches et plus de 95 % de la variance du raster d’origine, les calculs sont plus rapides et la précision est conservée.

L’outil Composantes principales nécessite un raster multicanal en entrée, le nombre de composantes principales pour convertir les données, le nom du fichier de statistiques en sortie et le nom du raster en sortie. Le raster en sortie comprend le même nombre de canaux que le nombre de composantes défini. Chaque canal décrit une composante.

Concepts d’analyse en composantes principales

Théoriquement, en utilisant un raster à deux canaux, le décalage, la rotation des axes et la transformation des données sont effectués comme suit :

  • Les données sont tracées dans un diagramme à nuage de points.
  • Une ellipse est calculée pour lier les points contenus dans le nuage de points

Limite d’ellipse tracée

  • Le grand axe de l’ellipse est indiqué . Le grand axe devient le nouvel axe des x, la première composante principale (PC1). PC1 décrit la variance la plus importante car elle représente la plus grande section transversale à travers l’ellipse. La direction de PC1 est le vecteur propre, et sa grandeur la valeur propre. L’angle de l’axe des x par rapport à PC1 est l’angle de rotation utilisé dans la transformation.

Première composante principale

  • Le système calcule une ligne perpendiculaire à la ligne orthogonale PC1. Cette ligne est la deuxième composante principale (PC2) et le nouvel axe pour l’axe des y d’origine (voir la figure ci-dessous). Le nouvel axe décrit la deuxième variance la plus importante qui n’apparaît pas dans PC1.

Deuxième composante principale

A l’aide des vecteurs propres, des valeurs propres et de la matrice de covariance calculée de l’entrée du raster multicanal, une formule linéaire définissant le décalage et la rotation est créée. Cette formule est appliquée pour transformer chaque valeur de cellule par rapport au nouvel axe.

Exemple

Nous allons reprendre l’image Landsat 8 des chapitres précédents. Nous allons tout d’abord créer une image composite avec l’ensemble des 11 bandes .

Avec l’outil  Bandes Composites de la toolbox:

Le résultat s’affiche dans ArcMap

Nous allons utiliser l’outil de la Toolbox-> Outils Spatial Analyst -> Multivariées -> Composantes Principales

Rentrez un nom pour le raster résultant. Il contiendra les valeurs calculées pour chaque composante demandée, pour chaque pixel de l’image.

Le nombre de composantes principales peut être laissé par défaut au nombre de bandes en entrée, mais pour gagner du temps de calcul et produire des rasters résultat moins volumineux, on peut directement rentrer 3 comme composantes à calculer. Il est presque impossible de trouver des images où une quatrième composante apporte une information complémentaire significative.

Le dernier fichier est le fichier où on trouvera les résultats de l’analyse. Pour notre exemple, tout en bas du fichier on a:

La colonne Percent EigenValues donne le pourcentage de variance expliqué par chacune des composantes calculées. dans notre cas:

  • La première composante principale explique 92% de la variance des données des 11 canaux en entrée
  • La deuxième composante principale explique 7%
  • La troisième et dernière explique 1% de la  variance totale.

Voici le rendu de chaque bande calculée

Bande 1 des composantes principales

Bande 2 des composantes principales

Bande 3 des composantes principales

Selon le type de cible recherché  dans la classification, il peut être beaucoup plus simple de constituer un fichier de signatures à partir de ce nouveau raster que du raster d’origine.

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *