5.2 - Comment peut-on évaluer l’exactitude d’une carte ?. IFREMER des habitats marins
5 - Jusqu’à quel point une carte est-elle bonne ? 273
La réalisation de certaines cartes comporte une seule étape qui combine des données de télédétection et des données de terrain. Par contre, d’autres cartes exigent une suite complexe d’étapes. Les données de télédétection peuvent dans un premier temps être interprétées sous forme de cartes intermédiaires de sédiments (p. ex. proportion de silt), de pentes, de caractéristiques topographiques, etc., qui sont ensuite jugées représentatives d’un habitat grâce à des relations statistiques avec les habitats. Chaque
étape risque d’entraîner des erreurs qui se combinent et s’accumulent d’une étape à l’autre. On peut élaborer des modèles de ces erreurs. Cependant, un simple examen du taux de réussite de la carte finale comme prédicteur par rapport à un ensemble de données de terrain (idéalement un jeu de données externe au projet) permet de courtcircuiter cette chaîne d’estimation d’erreurs si une mesure empirique d’exactitude suffit et qu’une analyse des sources relatives d’erreur n’est pas nécessaire. La prochaine soussection aborde les méthodes d’évaluation de l’exactitude d’une carte.
5.2 - Comment peut-on évaluer l’exactitude d’une carte ?
On a présenté plus haut l’exactitude comme une mesure mathématique de la capacité d’une carte à prédire correctement le type d’habitat en un point (ou pixel) donné.
Supposons qu’une carte prédise la présence de la classe « A » au point « X » ; si cela est confirmé par l’observation, alors la carte est exacte pour ce point, sinon elle est inexacte pour ce même point. C’est là le fondement de toute mesure d’exactitude. Si la proportion de prédictions erronées est grande, alors la carte est inexacte et risque de ne pas beaucoup inspirer confiance. Pour calculer l’exactitude d’une carte, on superpose les données de terrain (ou mieux encore, les données de validation sur le terrain) et les
prédictions de la carte, et l’on présente les résultats de cette superposition dans une matrice de confusion.
Décompte des succès et échecs - Calcul des indices d’exactitude
Superposition de données de validation sur le terrain et de prédictions d’une carte pour produire une matrice de confusion
274 5 - Jusqu’à quel point une carte est-elle bonne ?
Les cellules de la diagonale principale de la matrice contiennent le nombre d’occurrences de la classe correctement prédites par la carte. Les autres cellules donnent le nombre de
prédictions erronées. La mesure de base de l’exactitude est le pourcentage de prédictions correctes. Des mesures plus évoluées tiennent compte de la proportion des prédictions qui pourraient être correctes par « pur hasard ». D’autres méthodes de mesure de l’exactitude sont présentées plus loin.
5.2.1 - Statistiques sommaires sur l’exactitude et les erreurs
En théorie, on devrait pouvoir mesurer l’exactitude absolue d’une carte à l’aide de statistiques sur les prédictions correctes et erronées : un pixel ou un polygone correspond ou non à un échantillon de validation sur le terrain. L’analyste doit ensuite expliquer les inexactitudes et, si possible, améliorer la procédure de production de la carte pour en améliorer l’exactitude (sans trucage !). Le principal outil à sa disposition est une matrice de confusion.
Une matrice de confusion est facile à construire dans le cas de données matricielles (ou données maillées) : on superpose l’image des échantillons de validation et la carte
d’habitats, en supposant que les deux aient les mêmes dimensions et le même format, et l’on fait une comparaison pixel par pixel de la partie des deux images qui se superposent.
La plupart des SIG et logiciels de traitement d’images peuvent construire la matrice de confusion et donner des mesures standard d’exactitude.
La matrice de confusion est une matrice de N × N, où N est le nombre de classes.
Chaque ligne correspond à une classe des données de validation, et chaque colonne correspond à une classe de la carte. Chaque cellule de la matrice contient le nombre de
pixels de la classe des données de validation contenus dans la classe prédite par la carte.
Les cellules de la diagonale principale correspondent aux prédictions correctes (qui coïncident avec la réalité), et les autres cellules aux prédictions erronées. Les erreurs d’omission, où une classe d’habitat est présente à un pixel donné, mais non prédite par la
carte, sont situées sur les lignes (à l’exception des cellules de la diagonale principale).
Les erreurs de commission, où une classe d’habitat est prédite par la carte, mais absente
à un pixel donné, sont situées sur les colonnes (à l’exception des cellules de la diagonale principale).
À partir de la matrice de confusion, on obtient certaines statistiques sommaires sur l’exactitude et les erreurs d’une carte :
– pourcentage d’exactitude : somme des cellules de la diagonale principale, divisée par le nombre total de pixels superposés, le tout multiplié par 100 ;
– erreurs d’omission (pour une ou plusieurs classes) : somme des cellules de la ou des lignes correspondant aux classes en question, en excluant les cellules de la diagonale principale ;
– exactitude du producteur (pour une classe d’habitat) : nombre de pixels d’une classe correctement prédits, sur le nombre total de pixels de cette classe dans les données de validation ;
– erreurs de commission (pour une ou plusieurs classes) : somme des cellules de la ou des colonnes correspondant aux classes en question, en excluant les cellules de la diagonale principale ;
– exactitude du consommateur (pour une classe d’habitat) : nombre de pixels d’une
classe correctement prédits, sur le nombre total de pixels de cette classe dans la
carte ;
– exactitude moyenne : somme des exactitudes du producteur de chaque classe, divisée par le nombre de classes ;
5 - Jusqu’à quel point une carte est-elle bonne ? 275
– coefficient kappa (et autres statistiques semblables) : pourcentage d’exactitude corrigé pour tenir compte des prédictions correctes par l’effet du hasard (préférable au pourcentage d’exactitude).
Lanice
Nephtys
Abra
Sabella discifera
Sabellaria
Reef
Sabella pavonina
Ensis
Ophiura
Modiolus
0
7
0
0
0
20
7
0
0
0
11
232
7
12
11
11
1
0
12
0
0
0
0
0
16
25
0
0
11
0
0
0
0
0
17
1
4
0
0
0
125
38
0
7
7
0
4
0
8
0
16
58
0
0
0
0
0
0
0
0
0
0
8
0
0
0
7
0
0
0
8
0
0
0
0
0
0
8
0
0
7
0
0
5
0
0
0
0
22
0
0
0
0
0
0
0
0
0
0
21
0.25
Error of commission for Sabellaria
0.34
Exemple de matrice de confusion produite en comparant des données de validation aux prédictions d’une carte
Dans l’exemple ci-dessus, les prédictions vérifiées par les données de validation sont comptabilisées dans les cellules de la diagonale principale, en rose. Les erreurs d’omission sont dans les cellules d’une ligne qui n’appartiennent pas à la diagonale principale. Dans l’exemple, les cellules en jaune montrent les pixels qui auraient dû être classés comme Sabellaria, mais pour lesquels d’autres types d’habitat ont été prédits.
L’erreur est indiquée à droite de la matrice sous forme d’une fraction. Les erreurs de commission sont dans les cellules d’une colonne qui n’appartiennent pas à la diagonale principale. Dans l’exemple, les cellules en bleu montrent les pixels dont l’habitat prédit
était Sabellaria, mais qui appartenaient en fait à d’autres types d’habitat. L’erreur est indiquée en bas de la matrice sous forme d’une fraction. Dans l’exemple ci-dessus, le pourcentage d’exactitude est de 71 %, et le coefficient Kappa de 0,68 (où 1 signifie une correspondance parfaite, et 0 une répartition aléatoire). Noter que dans cet exemple, la matrice de confusion indique que les habitats de Sabellaria sur des récifs et autres substrats sont les plus susceptibles d’être confondus (voir la ligne en jaune et la colonne en bleu). On pourrait s’attendre à cela étant donné le peu de différence entre ces deux types d’habitat.
5.2.2 - Données de terrain et de validation, et le dilemme du cartographe
Données de validation et exactitude externe (ou exactitude d’essai) – La matrice de confusion standard présentée ci-dessus donne l’exactitude externe (ou exactitude d’essai) parce que l’exactitude de la carte a été évaluée à l’aide de données externes de validation. Il est important que ces données
n’aient pas servi à construire la carte et qu’elles répondent à la définition de données de validation sur le terrain. Il s’agit d’un test de la valeur prédictive d’une carte.
Données de terrain et exactitude interne (ou exactitude d’apprentissage) – Ce type d’exactitude est mesuré à partir de données de terrain qui ont également servi à construire la carte. C’est la méthode la plus répandue d’évaluation de l’exactitude d’une
carte, à cause du dilemme du cartographe (voir plus loin). La carte et les données de
276 5 - Jusqu’à quel point une carte est-elle bonne ? terrain ne sont évidemment pas indépendantes, et l’on obtient une mesure qui exagère généralement l’exactitude de la carte. À strictement parler, il s’agit d’une mesure de la corrélation entre les données de terrain et les données de télédétection, ou encore une mesure de la valeur explicative d’une carte. Ce n’est pas une mesure de la valeur
prédictive d’une carte. Cependant, lorsque les données de terrain sont nombreuses, l’exactitude interne et l’exactitude externe convergent parce qu’il est moins probable d’avoir des conditions où l’on n’a pas déjà constaté la corrélation entre le type d’habitat et les variables du milieu. (À noter toutefois que ce n’est pas toujours le cas : un grand nombre d’échantillons peut aussi donner des corrélations plus faibles si ces échantillons sont répartis sur des tendances à échelle globale qui n’ont pas été prises en considération.)
La mesure de l’exactitude externe constitue la meilleure méthode d’évaluation de l’exactitude, mais elle est souvent difficile à réaliser en pratique à cause du dilemme du cartographe : dans la plupart des campagnes de levés en mer, les données de terrain sont difficiles à obtenir, et le fait de mettre de côté suffisamment d’échantillons pour la validation n’en laisse pas assez pour construire la carte. L’interprétation de la carte (p. ex. au moyen d’une classification supervisée) risque d’être sérieusement affectée par l’exclusion de ces données. Autrement dit, les avantages de l’exactitude externe risquent d’être moindres que les inconvénients dus à une moins bonne classification. C’est là un dilemme sérieux pour les cartographes de l’environnement marin. On peut faire une mesure de l’exactitude externe en mettant de côté des échantillons de validation, en acceptant toutefois les conséquences négatives que cela aura sur la qualité de la carte.
On suggère de mettre de côté environ 20 % des échantillons à cette fin. Le choix des
échantillons à mettre de côté peut se faire de manière aléatoire, ou mieux encore de manière aléatoire stratifiée, pour que l’on puisse disposer d’un nombre suffisant d’échantillons de chaque type pour la classification.
Une méthode plus évoluée consiste à mettre de côté une plus petite proportion des données pour la validation, à faire la classification, puis à remettre ensemble toutes les données, à faire une autre sélection de données à mettre de côté, puis à refaire la
classification, et ainsi de suite jusqu’à ce qu’un nombre suffisant d’itérations aient été effectuées pour calculer l’exactitude et les variations pour chaque classe d’habitat. Cette technique dite du canif demande beaucoup de calculs et doit être considérée comme un outil de recherche davantage que comme une méthode standard de cartographie.
5.2.3 - Cartographier la confusion entre classes – cartes « floues »
Les classes d’habitat présentent souvent des chevauchements considérables des conditions environnementales dans lesquelles elles se présentent. Dans le cas des propriétés acoustiques, il n’est pas toujours possible de distinguer les habitats à partir des caractéristiques de réflectance acoustique. Ces situations sont mises en évidence dans la matrice de confusion, qui est un moyen utile de mesurer les chevauchements de classes dues à la confusion entre leurs signatures respectives.
Comme on pourrait s’y attendre, les chevauchements sont particulièrement marqués entre des habitats semblables. Cela témoigne du fait que le milieu naturel est mieux représenté par des continuums que par des entités discrètes et séparées. Même s’il n’est pas possible de cartographier un tel continuum multidimensionnel, on peut au moins reconnaître les frontières « floues » entre classes d’habitat.
5 - Jusqu’à quel point une carte est-elle bonne ? 277
Comparaison entre l’utilisation d’une classification nette (en haut) et d’une classification floue (en bas). La classification floue permet de voir où d’autres habitats pourraient être présents.
Cela a des implications sur les mesures d’exactitude parce que, au lieu d’être simplement correcte ou erronée, une prédiction peut être presque correcte. Il y a des manières de traiter ce flou, mais cela est complexe à calculer et difficile à représenter clairement. Une matrice de confusion permet de voir les classes d’habitat entre lesquelles il y a confusion ainsi que le degré de confusion entre ces classes. Même si cela est instructif, il n’est pas facile d’incorporer une quantification du flou dans une évaluation de l’exactitude ou de la
fiabilité d’une carte.
La carte du haut fait appel à une classification nette et ne montre en chaque point que la
classe la plus probable. La carte du bas montre en plus des seconds choix (lorsque leur
278 5 - Jusqu’à quel point une carte est-elle bonne ?
probabilité est élevée) sous forme d’une couche hachurée. Cette seconde carte donne plus d’information, mais est-elle plus facile à lire ? On peut améliorer la valeur prédictive d’une carte en utilisant des procédures floues qui autorisent des situations de doute, mais le fait d’autoriser un trop grand nombre de telles situations risque d’affecter la fiabilité de la carte.
5.2.4 - Peut-on cartographier l’incertitude ?
Les matrices de confusion donnent des statistiques générales d’erreur pour toute la carte ainsi que pour chaque classe. Ces statistiques s’appliquent toutefois à l’ensemble de la
carte et ne montrent aucune variation géographique. Une carte floue montre, quant à elle, les tendances géographiques de l’incertitude (dans l’exemple ci-dessus, on sait qu’il y a une incertitude là où la classe la plus probable est recouverte de hachures). Y a-t-il d’autres moyens de représenter divers degrés d’incertitude sur une carte ?
Les techniques de traitement d’images fournissent un moyen de faire cela. Au paragraphe
« Classification supervisée à l’aide d’outils de traitement d’images » (p. 241) du chapitre 4 « Comment réalise-t-on une carte ? », on explique que lorsque l’on applique les signatures des classes d’habitat aux couches de données matricielles, les pixels se voient attribuer une classe en fonction de la probabilité la plus élevée. Cette probabilité est tirée des probabilités calculées pour toutes les classes d’habitat à chaque pixel. Dans le cas d’une classification ordinaire, les différentes probabilités ne sont pas visibles. On peut toutefois les visualiser sous forme de couches individuelles, à raison d’une par classe d’habitat. On peut aussi les utiliser pour déterminer le degré de certitude avec lequel chaque pixel est classifié (plus les probabilités sont réparties également entre les classes, plus le degré de certitude est faible). On peut ainsi construire une carte montrant pour chaque pixel le degré de certitude, qui va de 0 (toutes les classes ont la même
probabilité) à 1 (une classe a une probabilité de 1, et toutes les autres une probabilité nulle).
Exemples de cartes montrant la probabilité d’occurrence de divers types d’habitat
5 - Jusqu’à quel point une carte est-elle bonne ? 279
5.2.5 - Techniques statistiques de corrélation
De nombreuses techniques statistiques permettent de modéliser la dépendance de certaines variables par rapport à d’autres (p. ex. le pourcentage de sable par rapport à la profondeur). Mentionnons entre autres la régression linéaire et les techniques géostatistiques (fondées sur le krigeage). Les variables dépendantes peuvent à leur tour servir à modéliser la répartition d’espèces ou de types d’habitat particuliers si l’on montre que ces variables environnementales représentent de manière adéquate ces types d’habitat.
Les modèles couronnés de succès réduisent les écarts des résidus des données réelles par rapport aux valeurs prédites. Par conséquent, l’estimation de l’erreur (l’opposé de l’exactitude) est intégrée au processus de modélisation. Ces techniques sont appropriées pour déduire la meilleure carte de répartition des variables environnementales importantes d’un point de vue biologique, qui servent d’intrants pour les modèles d’habitats. Même si elles jouent un rôle important dans l’évaluation de la qualité des modèles, ces techniques ne sont pas directement applicables aux cartes de classes d’habitat. C’est pourquoi elles sont plutôt présentées à la sous-section « La modélisation dans la cartographie des habitats » (p. 197) du chapitre 4
« Comment réalise-t-on une carte ? »
5.2.6 - Techniques de segmentation
De nombreuses techniques automatisées considèrent une ou plusieurs variables et segmentent un territoire selon des combinaisons remarquables de caractéristiques (ce sont en général des techniques multivariées). La prochaine étape du processus de
classification consiste à mesurer la corrélation entre les données de validation et les types de terrain ainsi définis. Contrairement aux techniques de mesure supervisée, où les données de terrain ne peuvent pas servir à mesurer l’exactitude externe, la mesure non supervisée doit se servir de la force de la corrélation pour justifier les classes de la carte
d’habitats. Comme dans le cas des techniques précédentes, les mesures d’exactitude font partie du processus de modélisation.
Méthode de mesure non supervisée de l’exactitude
Méthode de mesure supervisée de l’exactitude

Link público atualizado
O link público para o seu chat foi atualizado.