Nouveaux outils ArcMap: recherche de doublons

Un autre outil disponible depuis la version 10.3 permet la recherche de doublons dans une couche: rechercher les doublons. L’outil Supprimer l’élément identique permet la suppression des doublons d’une couche.Voyons une exemple. On dispose d’une couche d’objets réalisée à une certaine échelle (les étoiles):

On apporte une mise à jour à partir d’une carte à échelle plus fine (les carrés).

On se retrouve alors avec une couche résultante avec des objets qui étaient absents dans notre première couche, et d’autres en double.

Si chaque objet disposait d’un identifiant unique, on pourrait facilement détecter les doublons. Par contre, dans notre exemple, le numéro d’objet est un identifiant interne de chaque table.

Tout d’abord il faut définir ce qu’est un doublon. Dans notre cas c’est un objet de même catégorie (attribut) situé au même endroit (géométrie). Pour ce qui est de la catégorie, le codage des deux tables est le même, il n’y a donc pas de problème. Par contre pour la localisation, les deux couches source étant réalisées à deux échelles différentes, il est presque impossible que les valeurs de X et Y soient exactement les mêmes. Il nous faut donc définir une marge de différence acceptable (tolérance) pour dire que c’est la même localisation.

La définition de cette valeur n’est pas toujours facile.

Vous pouvez sonder votre couche résultante aux endroits où vous suspectez des doublons, et avec l’outil « mesure » déterminer une tolérance empirique.

Vous pouvez partir de l’échelle de numérisation, en considérant que la précision de numérisation est de l’ordre de 0.1 mm. Prenez la couche avec l’échelle plus petite (moins fine), par exemple, une échelle au 1:50 000. Pour cette échelle, l’erreur possible est de l’ordre de 5m. Ce sera donc la valeur minimale de votre tolérance.

L’outil rechercher des doublons

Cet outil indique tous les enregistrements d’une table ou d’une classe d’entités qui ont des valeurs identiques dans une liste de champs et génère une table qui répertorie ces enregistrements identiques. Si le champ Shape est sélectionné, les emplacements des géométries de l’entité sont comparées.

L’outil considère que des enregistrements sont identiques si les valeurs des champs en entrée sélectionnés sont identiques. Si plusieurs champs sont indiqués, les enregistrements sont mis en correspondance en fonction des valeurs du premier champ, puis des valeurs du deuxième champ, et ainsi de suite.

Les paramètres Tolérance XY et Tolérance Z ne sont valides que si Shape est sélectionné comme un des champs en entrée.

Si le champ Shape est sélectionné et que les entités en entrée présentent des valeurs M ou Z, ces valeurs sont également utilisées pour déterminer des entités identiques.

l'outil rechercher des doublons de la toolbox arcgis
Vous trouverez cet outil dans la Toolbox-> Gestion de données -> Général -> Rechercher des doublons.

Définissez la couche en entrée.

Définissez la table en sortie. Si vous cochez la case Sortie seulement des enregistrements dupliqués la table en sortie ne contiendra que les doublons avec deux colonnes:

  • IN_FID qui contient l’identifiant de l’enregistrement dans la table en entrée.
  • FEAT_SEQ qui contient un numéro d’ordre du doublon. Les premiers enregistrements dupliqués auront tous un FEAT_SEQ=1, les deuxièmes FEAT_SEQ=2, etc…

Voici le résultat de l’outil pour notre couche exemple :

table résultat

Les enregistrements 0 et 21 sont un doublon (Feat_seq=1), les enregistrements 1 et 20 sont un autre (Feat_seq=2), etc…

Si nous zoomons sur le premier doublon

On voit que les deux points sont séparés par 0.22m (donc moins que les 5m de tolérance définis) et qu’ils sont de même catégorie.

Si vous ne cochez pas la case pour n’avoir que les doublons en sortie, vous aurez tous les enregistrements en sortie avec un FEAT_SEQ qui n’apparaît qu’une fois s’il ne s’agît pas d’un doublon, et qui apparaît plusieurs fois, s’il s’agit d’un doublon.

L’outil Supprimer l’élément identique

C’est le même que le précédent sauf qu’au lieu de produire la table des doublons, il efface pour chaque doublon trouvé tous les enregistrements identiques, sauf un.

Comme tout outil qui supprime des données de manière automatique, il faut l’utiliser avec précaution. Faites une copie de sauvegarde de votre couche. Il suffit que vous oubliez, par exemple, de changer la valeur par défaut des unités de tolérance, degrés, en mètres pour que toutes les entités avec un même catégorie soient considérées comme des doublons… et effacées!!

Et, bien sûr, utilisez d’abord l’outil de recherche de doublons et vérifiez que le résultat correspond bien à des doublons.

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *