Actualités Isogeo

Newsletter Isogeo

Je souhaite également recevoir les invitations aux webinaires organisés par Isogeo
Je reconnais avoir pris connaissance de notre politique de confidentialité

Veuillez saisir vos nom, prénom et courriel et valider la politique de confidentialité
15
Jan
2025

Nouvelle fonctionnalité : audit des données géographiques

Equipe Isogeo

Notre nouvelle fonctionnalité d’audit vous offre une vue d’ensemble complète de votre patrimoine de données géographiques, que ce soit pour préparer la création de votre catalogue ou pour en faciliter le suivi.

En lançant l’audit sur un ou plusieurs de vos points d’entrée, vous obtiendrez un rapport Excel détaillé, incluant notamment le nombre de données détectées, les formats identifiés, les doublons, les attributs récurrents et les métadonnées remontées automatiquement.

Cette fonctionnalité vous permet de vérifier le paramétrage de vos points d’entrée, d’estimer le volume de fiches à intégrer dans votre catalogue, et d’optimiser la gestion à long terme de votre patrimoine grâce à l’analyse des statistiques et à la détection des doublons.

 

Capture excel audit

 

 

Comment auditer vos données géographiques ?

 

L’audit est lancé à l’échelle d’un point d’entrée existant. Pour rappel, un point d'entrée correspond à l'emplacement de vos données sources.

Comme le scan ordinaire, l’audit peut être lancé de deux manières : 

  • Depuis les pages associées aux points d’entrée ou aux requêtes, en cliquant sur le bouton “Auditer” dans la barre de navigation.

 

Capture bouton Auditer

Capture bouton Auditer

 

  • Depuis le module de scan multi-points d’entrée, en sélectionnant les points d’entrée à auditer et en cliquant sur le bouton “Auditer”.

 

Capture choix des points d'entrée à auditer

 

Deux fichiers Excel sont alors générés :

  • Le fichier “Données” contient les données détectées avec leurs détails : nom, emplacement, type, géométrie, attributs, etc.
  • Le fichier “Statistiques” comprend des indicateurs globaux sur ces données : formats identifiés, doublons, erreurs détectées, et autres indicateurs pertinents.

 

Capture exports Excel

 

À quoi ça sert ?

 

Lors de la création d’un point d’entrée

 

Lors de la création d’un point d’entrée, avant de se lancer dans le catalogage, l’audit permet de vérifier :

  • Les paramètres du point d’entrée : est-ce que le Scan arrive bien à récupérer la liste des données ? 
  • Les droits de l’utilisateur du client du Scan : est-ce que l’intégralité des données attendues sont bien récupérées ? 
  • Les données à exclure : faut-il ajouter des exclusions pour ne pas créer inutilement des fiches ? 

Lancer un audit à cette étape permet également d’estimer le nombre de fiches qui seront générées par le Scan, offrant ainsi une vision claire du travail à prévoir pour finaliser le catalogage.

 

Pour les points d’entrée existants

 

Lancer un audit sur un point d’entrée existant, en particulier s’il n’a pas été scanné depuis un certain temps, permet de :

  • Vérifier les paramètres globaux : valider les droits d’accès de l’utilisateur, ainsi que les données à exclure ou à inclure.
  • Analyser la qualité des données : obtenir des statistiques telles que le pourcentage de données n'ayant pas pu être documentées, ou le pourcentage de données vides.
  • Repérer les doublons : identifier les doublons en fonction des métadonnées récupérées.

Ainsi, l’audit facilite l’administration et la maintenance continue du patrimoine de données.

 

 

Audit versus Scan

 

Le scan d’un point d’entrée entraînera la création et / ou la mise à jour des fiches de métadonnées associées aux ressources détectées. Au contraire, l’audit d’un point d’entrée n’aura aucun impact sur votre catalogue de données géographiques : seul un fichier Excel récapitulatif sera généré.



Comment exploiter les rapports d’un audit ?

 

Export “Données” 

 

Capture excel audit

 

Plus d’informations sur le contenu de l’export Excel sont disponibles dans l’aide en ligne.

 

Génération du csv d’exclusion ou d’inclusion

 

Le rapport sur les données peut aider à configurer les exclusions ou les inclusions au sein d’un point d’entrée. Il vous suffit de modifier rapidement le fichier, puis de le réimporter pour appliquer les configurations souhaitées.

 

  • S'il y a plus de données à exclure qu’à conserver : 
    • Supprimer les lignes correspondant aux données à conserver directement dans le fichier Excel.
      • Pour les points d’entrée base de données ou ArcGIS Server : 
        • Copier le contenu de la colonne “name” dans un fichier csv.
        • Importer ce fichier csv dans les tables à inclure.
      • Pour les points d’entrée fichier, il faut : 
        • Copier le contenu de la colonne “path” dans un fichier csv.
        • Importer ce fichier csv dans les données à inclure.

 

  • S’il y a moins de données à exclure qu’à conserver : 
    • Supprimer les lignes correspondant aux données à exclure directement dans le fichier Excel.
      • Pour les points d’entrée base de données ou ArcGIS Server : 
        • Copier le contenu de la colonne “name” dans un fichier csv.
        • Importer ce fichier csv dans les tables à exclure.
      • Pour les points d’entrée fichier : 
        • Copier le contenu de la colonne “path” dans un fichier csv.
        • Importer ce fichier csv dans les données à exclure.

 

Exploiter les attributs récurrents

 

L’onglet “Attributes” liste l’intégralité des attributs détectés dans les données auditées. La colonne “match” indique le nombre de données détectées dans le point d’entrée ayant l’attribut en question. 

Pour récupérer les attributs récurrents : 

  • Trier la colonne “match” par ordre descendant.
  • Les attributs les plus utilisés se retrouvent en haut de la liste.

Vous pouvez ensuite construire le modèle attendu par l’import csv des attributs afin de faciliter la documentation de ces attributs dans l’interface administrateur.

 

Partitionner les données d’un point d’entrée

 

Pour effectuer des scans plus rapides et exploiter au maximum la fonctionnalité des métadonnées automatiques (catalogues, thématiques…), il est recommandé de créer un point d’entrée par thématique. 

Dans l’onglet “Folders”, sont listés l’intégralité des sous-dossiers dans lesquels des données ont été détectées. Il est alors facile de savoir quels dossiers peuvent être transformés en “sous point d'entrée”. 

 

 

Export “Statistiques sur les données” & nettoyage des doublons

 

Capture excel audit

 

Plus d’informations sur le contenu de l’export Excel sont disponibles dans l’aide en ligne.

Le catalogage apporte une connaissance du patrimoine permettant de l’optimiser. L’audit va notamment aider à détecter des possibles doublons dans le patrimoine et permettre un nettoyage. 

Attention, les doublons ne sont pas détectés selon le contenu des données, mais selon les valeurs des métadonnées récupérées. 

Il existe deux types de doublons :

  • Le type "structure" pour les données ayant en commun toutes les caractéristiques suivantes :
    • le format,
    • les attributs (données vectorielles uniquement),
    • le nombre d'entités (données vectorielles uniquement),
    • le type de géométrie des entités (données vectorielles uniquement),
    • les bandes (données raster uniquement),
    • le nombre de colonnes (données raster uniquement),
    • le nombre de lignes (données raster uniquement),
    • le système de coordonnées (ou l'absence de système de coordonnées),
    • et l'enveloppe.
  • Le type "name" pour les données ayant le même nom, en plus d'avoir toutes les caractéristiques mentionnées ci-dessus en commun.

 

Onglet “Duplicates” : Paire de doublons

 

Capture onglet Duplicates

 

Dans cet onglet, chaque ligne correspond à une combinaison de doublons. 

Vous pourrez facilement évaluer et nettoyer votre patrimoine de données si nécessaire. 

 

Onglet “DatasetsWithDuplicates” : Doublons

 

Dans cet onglet, une ligne correspond à une donnée. Pour chaque donnée, on retrouve : 

  • L’empreinte des métadonnées de la donnée (champ “duplicateId). Les données ayant la même valeur dans cette colonne sont considérées comme des doublons. 
  • Le nombre de données ayant la même structure.
  • Les informations pour retrouver la donnée (nom, emplacement, format…).

Pour exploiter cet onglet, il vous suffit de le trier par la colonne “duplicateId”. Les données dupliquées seront ainsi regroupées, et vous pourrez déterminer les actions à effectuer pour nettoyer votre catalogue : suppression de la donnée, exclusion du point d’entrée, etc.