Critères de correspondance. SAP BusinessObjects Data Services 4.1 Support Package 1
Qualité des données
4.
Sélectionnez l'option Spécifier la récupération des données par source.
5.
Dans la table, sélectionnez une valeur Source, puis Exécuter la récupération des données pour chaque source que vous voulez utiliser.
16.4.8 Critères de correspondance
469
16.4.8.1 Vue d'ensemble des critères de correspondance
Utilisez des critères de correspondance à chaque niveau de correspondance pour déterminer les scores de seuil pour la correspondance et définir le traitement des différents types de données, telles que données numériques, données de nom, etc. (vos règles de gestion).
Pour ce faire, accédez au groupe d'options Critère dans l'éditeur de correspondance.
Critères de correspondance
Dans la transformation Match, les critères de correspondance représentent les champs à comparer.
Imaginons, par exemple, que vous vouliez faire correspondre les 10 premiers caractères d'un prénom et les 15 premiers caractères d'un nom de famille. Vous devez dans ce cas créer deux critères pour spécifier ces exigences.
Les critères permettent à la transformation Match d'identifier le type de données figurant dans le champ d'entrée et, par conséquent, les types d'opérations à exécuter sur ces données.
Critères prédéfinis et personnalisés
Il existe deux types de critères :
• Les critères prédéfinis sont disponibles pour les champs généralement utilisés pour la correspondance, tels que les données de nom, d'adresse et autres données. En affectant un critère
à un champ, la transformation Match peut identifier le type de données figurant dans le champ et exécuter des opérations internes pour optimiser les données pour la correspondance sans altérer les données d'entrée réelles.
• Des champs de sortie personnalisés Data Cleanse (définis par l'utilisateur, données non tierces) sont disponibles comme critères prédéfinis. Mappez les champs de sortie personnalisés de Data
Cleanse. Les champs personnalisés apparaissent dans l'onglet Champs de critères de l'éditeur de correspondance.
• Tout autre type de données (tel que numéros de référence ou autres données propriétaires) pour lequel il n'existe pas de critère prédéfini doit être désigné comme critère personnalisé. Certaines fonctions peuvent être exécutées sur des clés personnalisées, telles que la correspondance d'abréviations, de sous-chaînes ou la correspondance numérique, mais la transformation Match ne
2012-11-22
Qualité des données
470 peut pas effectuer toutes les comparaisons de champs croisés, par exemple certaines fonctions de correspondance de noms.
Options de pré-comparaison de critères de correspondance
La normalisation des données doit se faire en grande partie dans le nettoyage des adresses et dans les transformations Data Cleanse. Toutefois, la transformation Match peut effectuer un pré-traitement par critère (à des fins de correspondance uniquement, sans affecter les données) pour fournir des correspondances plus exactes. Les options permettant de contrôler cette normalisation figurent dans les onglets Options et Comparaisons de champs multiples de l'éditeur Match. Elles incluent les fonctions suivantes :
• Convertir les caractères diacritiques
• Convertir le texte en chiffres
• Convertir en majuscules
• Supprimer la ponctuation
• Paramètres régionaux
Pour plus d'informations sur ces options, voir la section relative à la transformation Match du
Guide de référence.
16.4.8.1.1 Ajout et classement d'un critère de correspondance
Vous pouvez ajouter autant de critères que vous le voulez à chaque niveau de correspondance dans votre transformation Match.
1.
Sélectionnez le niveau de correspondance approprié ou le groupe d'options Critère de Match dans l'explorateur d'options de l'éditeur Match, puis cliquez avec le bouton droit de la souris.
2.
Sélectionnez Critère.
3.
Saisissez un nom pour votre critère dans la case Nom du critère.
Vous pouvez conserver le nom par défaut du critère prédéfini, mais vous devez saisir un nom de critère pertinent si vous avez choisi un critère personnalisé.
4.
Dans l'onglet Champs de critères, dans la liste Critère disponible, sélectionnez le critère qui représente le mieux les données à faire correspondre. Si aucun critère ne convient, choisissez le critère personnalisé.
5.
Dans la table Mappage des champs de critères, sélectionnez le nom mappé d'un champ d'entrée contenant les données que vous voulez faire correspondre pour ce critère.
6.
Cliquez dans l'onglet Options.
7.
Configurez les Options de pré-comparaison et les Règles de comparaison.
Assurez-vous de définir le score de Match et le score de non-correspondance, tous deux requis.
8.
Pour activer la comparaison de champs multiples (champs croisés), cliquez dans l'onglet
Comparaisons de champs multiples et sélectionnez l'option Comparer plusieurs champs.
a.
Sélectionnez le type de comparaison de champs multiples à effectuer :
• Tous les champs sélectionnés dans d'autres enregistrements : Pour comparer chaque champ à tous les champs sélectionnés dans la table dans tous les enregistrements.
• Le même champ dans d'autres enregistrements : Pour comparer chaque champ uniquement au même champ dans tous les enregistrements.
2012-11-22
Qualité des données
471 b.
Dans la table Champs supplémentaires à comparer, sélectionnez des champs d'entrée contenant les données à inclure dans la comparaison de champs multiples pour ce critère.
Conseil :
Vous pouvez utiliser des noms de champs de critères de correspondance personnalisés pour la comparaison de champs multiples en les saisissant dans la colonne Nom personnalisé.
Remarque :
Si vous activez la comparaison de champs multiples, les champs de standards de correspondance appropriés sont supprimés de la table Mappage des champs de critères dans l'onglet Champs
de critères. Si vous voulez les inclure dans le processus de correspondance, ajoutez-les à la table
Champs supplémentaires à comparer.
9.
Configurez les options de pré-comparaison pour la comparaison de champs multiples.
10.
Pour classer vos critères dans l'explorateur d'options de l'éditeur Match (ou de la table Match), sélectionnez un critère, puis cliquez sur les boutons Déplacer vers le haut ou Déplacer vers le
bas.
16.4.8.2 Méthodes de correspondance
Il existe plusieurs manières de configurer et de classer les critères pour obtenir les résultats de correspondance souhaités. Chacune présente des avantages et des inconvénients. Par conséquent, examinez-les soigneusement au préalable.
Méthode de correspondance
Description
Basée sur des règles
Permet de contrôler les critères qui déterminent une correspondance. Cette méthode est simple à configurer.
Scoring pondéré
Méthode de combinaison
Permet d'attribuer de l'importance ou une pondération à un critère. Toutefois, le scoring pondéré évalue chaque règle avant de déterminer une correspondance, ce qui peut augmenter le temps de traitement.
Présente les mêmes avantages et inconvénients relatifs que les deux autres méthodes.
16.4.8.2.1 Score de similarité
Le score de similarité représente le pourcentage de similarité de vos données. Ce score est calculé en interne par l'application lorsque les enregistrements sont comparés. L'application considère les enregistrements comme des correspondances selon les scores Match et Aucune correspondance que vous définissez dans le groupe d'options Critère (et selon d'autres facteurs, abordés ultérieurement).
2012-11-22
Qualité des données
Exemple :
Cet exemple illustre comment les scores de similarité sont déterminés. Veuillez noter ce qui suit :
• La table de comparaison ci-dessous est indiquée à titre d'exemple. Le processus de correspondance ne fonctionne pas ainsi dans la méthode de scoring pondéré, par exemple.
• Seule la première comparaison est considérée comme une correspondance, car le score de similarité est égale à ou supérieur au score de correspondance. La dernière comparaison est considérée comme une non-correspondance, car le score de similarité est inférieur au score de non-correspondance.
• Lorsqu'un critère unique ne peut pas déterminer une correspondance, comme dans le cas de la seconde comparaison dans la table ci-dessous, le processus passe au critère suivant, si possible.
Comparaison No match Correspondance
Score de similarité
Corresponda nce ?
Smith > Smith 72 95 100 % Oui
Smith > Smitt 72 95 80 %
Dépend d'autres critères
Smith > Smythe
Smith > Jones
72
72
95
95
72 %
20 %
Non
Non
16.4.8.2.2 Méthode basée sur des règles
Avec la correspondance basée sur des règles, vous vous fiez uniquement à vos scores de correspondance et non-correspondance pour déterminer des correspondances dans un critère.
Critère
Exemple :
Cet exemple vous montre comment configurer cette méthode dans la transformation Match.
Enregistrement A
Mary
Enregistrement B
Mary
Aucune correspondance
Corres ponda nce
82 101
Score de similarité
100 Prénom1
Nom de famille
Smith Smitt 74 101 80
472 2012-11-22
Qualité des données
Critère Enregistrement A
Adresse électronique [email protected]
Enregistrement B
Aucune correspondance
Corres ponda nce
79 80
Score de similarité
91
En saisissant la valeur 101 dans le score de correspondance pour chaque critère à l'exception du dernier, les critères Prénom1 et Nom de famille ne déterminent jamais une correspondance, bien qu'ils puissent déterminer une non-correspondance.
En définissant les options Score de correspondance et Aucun score de correspondance pour le critère Adresse électronique sans intervalle, toute comparaison qui atteint le dernier critère doit être une correspondance ou une non-correspondance.
Un score de correspondance de 101 permet de s'assurer que le critère n'entraîne pas la correspondance des enregistrements, car deux champs peuvent être similaires à plus de 100 %.
Rappel :
L'ordre est important ! Pour des raisons de performance, vous devez disposer du critère le plus susceptible de générer en premier la décision de correspondance ou non-correspondance dans l'ordre des critères. Cela permet de réduire le nombre de comparaisons de critères.
16.4.8.2.3 Méthode du scoring pondéré
Dans une méthode de mise en correspondance basée sur des règles, l'application donne la même importance (ou la même pondération) à tous les critères. En d'autres termes, si un critère n'atteint pas le score de correspondance spécifié, l'application détermine que les enregistrements ne correspondent pas.
Lorsque vous utilisez la méthode de scoring pondéré, vous vous basez sur le score de contribution total pour déterminer les correspondances au lieu d'utiliser des scores de correspondance et non-correspondance.
Valeurs de contribution
Les valeurs de contribution correspondent à votre manière d'affecter une pondération à des critères individuels. Plus la valeur est élevée, plus le critère a une pondération élevée pour déterminer les correspondances. En règle générale, les critères susceptibles d'avoir une pondération plus élevée que les autres sont les numéros de compte, les numéros de sécurité sociale, les numéros client, le code postal1 et les adresses.
Remarque :
Toutes les valeurs de contribution pour tous les critères concernés doivent être égales à 100. Il n'est pas nécessaire d'avoir une valeur de contribution pour tous les critères.
Vous pouvez définir la valeur de contribution d'un critère dans l'option Contribution aux scores pondérés du groupe d'options Critère.
473 2012-11-22
Qualité des données
Score de contribution et score de contribution total
La transformation Match génère le score de contribution pour chaque critère en multipliant la valeur de contribution affectée par le score de similarité (pourcentage). Ces scores de contribution individuels sont ensuite ajoutés au score de contribution total.
Score de correspondance pondéré
Dans la méthode de scoring pondéré, les correspondances sont déterminées uniquement en comparant le score de contribution total au score de correspondance pondéré. Si le score de contribution total est
égal ou supérieur au score de correspondance pondéré, les enregistrements sont considérés comme une correspondance. Si le score de contribution total est inférieur au score de correspondance pondéré, les enregistrements sont considérés comme une non-correspondance.
Vous pouvez définir le score de correspondance pondéré dans l'option Score de correspondance
pondéré du groupe d'options Niveau.
Critère
Prénom
Nom de famille
Adresse
électronique
Exemple :
La table suivante illustre la configuration du scoring pondéré. Notez les différents types de scores qui ont été abordés dans ce chapitre. Notez aussi ce qui suit :
• Lors de la configuration du scoring pondéré, l'option Aucun score de correspondance doit être définie sur -1 et l'option Score de correspondance doit être définie sur 101. Ces valeurs permettent de s'assurer que ni une correspondance ni une non-correspondance ne peuvent être trouvées à l'aide de ces scores.
• Une valeur de contribution a été affectée au critère Adresse électronique lui attribuant l'importance la plus élevée.
Enregistrement
A
Mary
Smith ms@ sap.com
Enregistrement B
No match
Mary
Smitt msmith@ sap.com
-1
-1
-1
Correspo ndance
Score de similarité
Valeur de contribution
Score de contribution
(similarité x valeur de contribution)
101 100 25 25
101
101
80
84
25
50
20
42
Score de contribution total : 87
Si le score de correspondance pondéré est égal à 87, toute comparaison dont le score de contribution total est égal ou supérieur à 87 est considérée comme une correspondance. Dans cet exemple, la comparaison est une correspondance, car le score de contribution total est égal à 87.
474 2012-11-22
Qualité des données
16.4.8.2.4 Méthode de combinaison
Cette méthode associe la correspondance basée sur une règle et par scoring pondéré.
Critère
Prénom
Nom
Enregistrement
A
Mary
Smith ms@ sap.com
Enregistrement B
Aucune correspondance
Correspo ndance
Score de similarité
Valeur de contribution
Score de contribution
(similarité réelle X valeur de contribution)
Mary
Hope
59
59
101
101
100
22
25
N/A (aucune correspondance)
25
N/A msmith@ sap.com
49 101 N/A N/A N/A
Score de contribution total
N/A
16.4.8.3 Règles de gestion relatives à la correspondance
Dans le cadre du processus de correspondance, il est essentiel de déterminer comment traiter les diverses formes de données et les différences qui existent entre elles. Si, par exemple, chaque champ d'un enregistrement correspond aux champs d'un autre enregistrement, mais qu'un champ est renseigné dans un enregistrement et non renseigné dans l'autre, voulez-vous que ces enregistrements soient considérés comme des correspondances ? Anticiper votre façon d'agir dans ces situations fait partie de la définition des règles de gestion. La majeure partie des règles de gestion se définit dans les critères
Match et certaines options basées sur le nom se définissent dans le groupe d'options Niveau de correspondance.
16.4.8.3.1 Correspondance sur des chaînes, des abréviations et des initiales
Initiales et acronymes
Utilisez l'option Score d'ajustement des initiales pour faire correspondre des mots entiers et des initiales. Par exemple, "Prestataires internationaux de soins" peut être mis en correspondance avec
"PIS".
475 2012-11-22
Qualité des données
Abréviations
Utilisez l'option Score d'ajustement des abréviations pour faire correspondre des mots entiers et des abréviations. Par exemple, "Prestataires internationaux de soins" peut être mis en correspondance avec "Prestataires internat. de soins".
Chaîne de données
Utilisez l'option Score d'ajustement des sous-chaînes pour faire correspondre des chaînes longues et des chaînes courtes. Par exemple, la chaîne "Peinture et décapage Mayfield" peut être mis en correspondance avec "Peinture Mayfield".
16.4.8.3.2 Correspondance d'abréviation étendue
La correspondance d'abréviation étendue offre des fonctionnalités permettant de gérer des situations non couvertes par les options Score d'ajustement des initiales, Score d'ajustement des sous-chaînes et Score d'ajustement des abréviations. Vous pouvez, par exemple, vous trouvez dans l'un des cas suivants :
• Imaginons que vos données contiennent des localités comme La Crosse et New York. Vous disposez aussi de ces mêmes localités indiquées sous la forme LaCrosse et NewYork (sans espaces). Dans le cadre d'une correspondance standard, vous ne pourriez pas désigner ces localités (La
Crosse/LaCrosse et New York/NewYork) comme des correspondances à 100 % en raison des espaces. (Il s'agirait normalement d'une correspondance à 94 et 93 %.)
• Imaginons que vos données contiennent Metropolitan Life et MetLife (une abréviation et une combinaison de Metropolitan Life). L'option Score d'ajustement des abréviations ne peut pas détecter la combinaison des deux mots.
Si vous êtes dans l'un de ces cas, vous devez utiliser l'option Score d'ajustement des abréviations
ext.
Fonctionnement du score d'ajustement
Le score que vous définissez dans l'option Score d'ajustement des abréviations ext ajuste votre score de similarité pour prendre en compte ces types d'abréviations et de combinaisons dans vos données.
Le score d'ajustement ajoute une pénalité pour la partie non correspondante des mots. Plus le nombre est élevé, plus la pénalité est faible. Un score de 100 signifie aucune pénalité et un score de 0 une pénalité maximum.
Chaîne 1
MetLife
Exemple :
Chaîne 2
Score de simil. lorsque le score d'ajust. est de 0
Score de simil. lorsque le score d'ajust. est de 50
Score de simil. lorsque le score d'ajust.
est de 100
Metropolitan Life 58 79 100
Notes
476 2012-11-22
Qualité des données
Chaîne 1
MetLife
MetLife
Chaîne 2
Met Life
MetropolitanLife
Score de simil. lorsque le score d'ajust. est de 0
Score de simil. lorsque le score d'ajust. est de 50
Score de simil. lorsque le score d'ajust.
est de 100
93 96 100
Notes
60 60 60
Ce score est dû à la comparaison des chaînes. Le scoring d'abréviation
étendue n'a pas été nécessaire ou utilisé, car les deux chaînes comparées comptent chacune un mot.
16.4.8.3.3 Correspondance de noms
Lorsque vous créez vos règles de gestion, vous devez notamment définir comment les noms doivent
être traités dans le processus de correspondance. La transformation Match vous fournit plusieurs moyens de vous assurer que les variations de noms ou noms multiples, par exemple, sont prises en compte.
Remarque :
Contrairement à d'autres règles de gestion, ces options sont configurées dans le groupe d'options
Niveau de correspondance, car elles affectent tous les critères de correspondance appropriés basés sur le nom.
Deux noms, deux personnes
L'option Nombre de noms devant correspondre vous permet de contrôler comment la correspondance est effectuée sur les clés de correspondance comportant plusieurs noms (par exemple, comparaison de "John et Mary Smith" et de "Dave et Mary Smith"). Déterminez si un seul nom doit correspondre pour que les enregistrements soient identifiés comme correspondance ou si la transformation Match doit ignorer les personnes autres que le premier nom analysé.
Avec cette méthode, vous pouvez demander à ce qu'une personne ou les deux correspondent pour que l'enregistrement corresponde.
Deux noms, une personne
L'option Comparer Prénom1 avec Prénom2 vous permet aussi de comparer les données Prénom1
(prénom) d'un enregistrement avec les données Prénom2 (deuxième prénom) du deuxième enregistrement. Avec cette option, la transformation Match peut correctement identifier les enregistrements correspondants, comme les deux partiellement indiqués ci-dessous : En règle générale, ces paires d'enregistrement représentent des enfants portant le nom de leurs parents, mais connus sous leur deuxième prénom.
477 2012-11-22
Qualité des données
Enregistrement n° Prénom
170
198
Leo
Tom
Deuxième prénom
Thomas
Nom de famille Adresse
Smith
Smith
225 Pushbutton Dr
225 Pushbutton Dr
Noms de famille avec trait d'union
L'option Correspondance sur le nom de famille avec trait d'union vous permet de contrôler comment la correspondance est effectuée si un champ Family_Name (nom de famille) contient un nom de famille avec trait d'union (par exemple, comparaison de "Smith-Jones" et "Jones"). Déterminez si pour les deux critères, les deux noms doivent correspondre ou juste un nom pour que les enregistrements soient désignés comme correspondance.
Correspondance des noms de famille composés
Le score des sous-chaînes approximatives aide à paramétrer la comparaison des noms de famille composés. Le score des sous-chaînes approximatives est affecté aux mots qui n'ont pas de correspondance dans une chaîne comparée. Cette option assouplit certaines des exigences de l'option
Score d'ajustement des sous-chaînes comme suit :
• Il n'est pas nécessaire que les premiers mots correspondent exactement.
• Les mots qui ne correspondent pas peuvent utiliser des ajustements d'initiales et d'abréviations (par exemple, Rodriguez et RDZ).
• Les mots correspondants doivent être dans le même ordre, mais des mots non correspondants peuvent être placés avant ou après les mots correspondants.
• Le score des sous-chaînes approximatives est affecté aux mots et aux espaces sans correspondance dans la chaîne comparée.
L'option Score d'ajustement des sous-chaînes approximatives améliore le score pour certaines correspondances trouvées à l'aide du score d'ajustement des sous-chaînes.
Exemple :
Dans une comparaison de CRUZ RODRIGUEZ et GARCIA CRUZ DE RDZ, les scores de similarité sont les suivants :
• Sans définir aucun ajustement, le score de similarité est de 48.
• Si vous définissez le score d'ajustement des sous-chaînes sur 80 et le score d'abréviations sur
80, le score de similarité est de 66.
• Si vous définissez le score d'ajustement des sous-chaînes approximatives sur 80 et le score d'abréviations sur 80, le score de similarité est de 91.
478 2012-11-22
Qualité des données
16.4.8.3.4 Correspondance des données numériques
Utilisez l'option Les mots numériques correspondent parfaitement pour déterminer si les données comportant une combinaison de chiffres et de lettres doivent correspondre parfaitement. Vous pouvez
également spécifier comment ces données doivent correspondre. Cette option s'applique le plus souvent aux données d'adresse et aux données personnalisées, comme les numéros de référence.
Le processus de correspondance numérique est le suivant :
1.
La chaîne est d'abord décomposée en mots. La décomposition de mots est effectuée sur toutes les ponctuations et les espaces, puis les mots se voient affecter un attribut numérique. Un mot numérique est un mot qui contient au moins un chiffre compris entre 0 et 9. Par exemple, 4L est considéré comme un mot numérique, contrairement à QuatreL.
2.
La correspondance numérique est effectuée en fonction des options qui ont été définies (comme indiqué ci-après).
Valeurs d'options et fonctionnement
Valeur d'option Description
Any_Position
Avec cette valeur, les mots numériques doivent correspondre parfaitement. Toutefois, l'emplacement du mot n'est pas important. Exemple :
• Comparaison de numéros et noms de rue : "4932 Main St # 101" et "# 101 4932
Main St" sont considérés comme une correspondance.
• Comparaison de numéros et noms de rue : "4932 Main St # 101" et "# 102 4932
Main St" ne sont pas considérés comme une correspondance.
• Description de pièces : "ACCU 1.4L 29BAR" et "ACCU 29BAR 1.4L" sont considérés comme une correspondance.
Same_Position
Cette valeur indique que les mots numériques doivent correspondre parfaitement.
Toutefois, elle diffère de l'option Any_Position, car l'emplacement du mot est important. Par exemple, 608-782-5000 correspond à 608-782-5000, mais ne correspond pas à 782-608-5000.
479 2012-11-22
Qualité des données
Valeur d'option
Any_Position_Consi der_Punctuation
Description
Cette valeur effectue la décomposition de mots sur toutes les ponctuations et les espaces, sauf sur le séparateur de décimales (point ou virgule) de sorte à ce que les nombres décimaux ne soient pas fragmentés. Par exemple, la chaîne 123.456
est considérée comme un mot numérique unique, contrairement à deux mots numériques.
L'emplacement du mot numérique n'est pas important. Toutefois, les séparateurs de décimales ont un impact sur le processus de correspondance. Exemple :
• Description de pièces : "ACCU 29BAR 1.4L" et "ACCU 1.4L 29BAR" sont considérés comme une correspondance.
• Description de pièces : "ACCU 1,4L 29BAR" et "ACCU 29BAR 1.4L" ne sont pas considérés comme une correspondance en raison du séparateur de décimales entre le 1 et le 4 dans les deux cas.
• Données financières : "25,435" et "25.435" ne sont pas considérés comme une correspondance.
Any_Posi tion_Ignore_Punctua tion
Cette valeur est similaire à la valeur Any_Position_Consider_Punctuation, à la différence près que les séparateurs de décimales n'ont pas d'impact sur le processus de correspondance. Exemple :
• Description de pièces : "ACCU 29BAR 1.4L" et "ACCU 1.4L 29BAR" sont considérés comme une correspondance.
• Description de pièces : "ACCU 1,4L 29BAR" et "ACCU 29BAR 1.4L" sont également considérés comme une correspondance malgré la présence d'un séparateur de décimales entre le 1 et le 4.
• Description de pièces : "ACCU 29BAR 1.4L" et "ACCU 1.5L 29BAR" ne sont pas considérés comme une correspondance.
16.4.8.3.5 Correspondance de champs vides
Vous pouvez spécifier dans vos règles de gestion comment la transformation Match traite les comparaisons de champs lorsqu'un ou deux des champs comparés sont vides.
Par exemple, le champ Prénom est vide dans le second enregistrement ci-dessous. Voulez-vous que la transformation Match considère ces enregistrements comme des correspondances ? Que faire si le champ Prénom est vide dans les deux enregistrements ?
480 2012-11-22
Qualité des données
Enregistrement n°1
John Doe
204 Main St
La Crosse WI
54601
Enregistrement n°2
_____ Doe
204 Main St
La Crosse WI
54601
La transformation Match contient des options qui permettent de contrôler la manière dont les champs sont comparés. Il s'agit des options suivantes :
• Opération pour deux champs vides
• Score pour deux champs vides
• Opération pour un champ vide
• Score pour un champ vide
Opérations pour champs vides
Les options "Opération" sont dotées des valeurs possibles suivantes :
Option Description
Eval
Ignorer
Si vous sélectionnez Eval, la transformation Match évalue la comparaison à l'aide du score saisi dans l'option Score pour un champ vide ou Score pour deux champs
vides.
Si vous sélectionnez Ignorer, le score de cette règle de champ ne contribue pas au score pondéré global pour la comparaison des enregistrements. En d'autres termes, les deux enregistrements ci-dessus pourraient être considérés comme des doublons malgré le champ vide.
Scores pour champs vides
Les options "Score" contrôlent comme la transformation Match évalue les comparaisons de champs lorsque le champ est vide dans un enregistrement ou dans les deux. Vous pouvez saisir des valeurs comprises entre 0 et 100.
Pour savoir quel score saisir, déterminez si vous voulez que la transformation Match considère un champ vide comme étant similaire à 0 % à un champ renseigné ou un autre champ vide comme étant similaire à 100 % ou une valeur intermédiaire.
Votre réponse dépend certainement du champ que vous comparez. Il peut être approprié d'attribuer un score élevé à un champ vide si vous effectuez la correspondance sur un prénom, un deuxième prénom ou un nom de société, par exemple.
481 2012-11-22
Qualité des données
Exemple :
Voici quelques exemples qui vous permettront de mieux comprendre comment les définitions de ces options de correspondances vides peuvent affecter le scoring global des enregistrements.
Opération pour un champ vide pour le champ Prénom1 défini sur Ignorer
Notez que lorsque vous définissez les options de champs vides sur Ignorer, la transformation Match redistribue la contribution attribuée à ce champ aux autres critères et recalcule les contributions des autres champs.
Champs comparés
Enregistrement
A
Enregistrement
B
% de similitude Contribution
Code postal
Adresse
54601
100 Water St
Nom_de_famille Hamilton
Prénom1 Mary
54601
100 Water St
Hammilton
100
100
94
—
20 (ou 22)
40 (ou 44)
30 (ou 33)
10 (ou 0)
Score (par champ)
22
44
31
—
Score pondéré :
97
Opération pour un champ vide pour le champ Prénom1 défini sur Eval ; score pour un champ vide défini sur 0
Champs comparés
Enregistrement
A
Enregistrement
B
% de similitude
Code_postal
Adresse
Nom_de_famille
Prénom1
54601
100 Water St
Hamilton
Mary
54601
100 Water St
Hammilton
100
100
94
0
Contribution
20
40
30
10
Score (par champ)
20
40
28
0
Score pondéré :
88
Opération pour un champ vide pour le champ Prénom1 défini sur Eval ; score pour un champ vide défini sur 100
Champs comparés
Enregistrement
A
Enregistrement
B
% de similitude
Code_postal 54601 54601 100
Contribution
20
Score (par champ)
20
482 2012-11-22
Qualité des données
Champs comparés
Enregistrement
A
Enregistrement
B
% de similitude
Adresse 100 Water St
Nom_de_famille Hamilton
Prénom1 Mary
100 Water St
Hammilton
100
94
100
Contribution
40
30
10
Score (par champ)
40
28
10
Score pondéré :
98
16.4.8.3.6 Comparaison de champs multiples (champs croisés)
Dans la plupart des cas, vous utilisez un champ unique pour la comparaison. Par exemple, le Champ1 du premier enregistrement est comparé au Champ1 du deuxième enregistrement.
Toutefois, il peut être utile dans certains cas de comparer des champs multiples. Supposons, par exemple, que vous souhaitiez faire correspondre des numéros de téléphone du champ Téléphone à des numéros issus de champs utilisés pour Télécopieur, Portable et Domicile. Vous pouvez le faire grâce à la comparaison de champs multiples.
Lorsque vous activez la comparaison de champs multiples dans l'onglet Comparaison de champs multiples d'un critère de correspondance dans l'éditeur de correspondance, vous pouvez faire correspondre des champs sélectionnés à tous les champs sélectionnés dans chaque enregistrement ou uniquement au même champ dans chaque enregistrement.
Remarque :
Par défaut, Match effectue une comparaison de champs multiples sur les champs où des standards de correspondance sont utilisés. Par exemple, Personne1_Prénom1 est automatiquement comparé à
Personne1_Prénom_Std_de_correspondance1-6. La comparaison de champs multiples n'a pas à être explicitement activée et aucune configuration supplémentaire n'est requise pour effectuer ce type de comparaison sur les champs contenant des standards de correspondance.
Comparaison de champs sélectionnés avec tous les champs sélectionnés dans d'autres enregistrements
Lorsque vous comparez chaque champ sélectionné à tous les champs sélectionnés dans d'autres enregistrements, tous les champs définis dans ce critère de correspondance sont comparés.
Rappel :
Les champs “sélectionnés” incluent le champ de critères et tous les autres champs définis dans la table
Champs supplémentaires à comparer.
• Si une ou plusieurs comparaisons de champs répondent aux définitions du score Match, les deux lignes comparées sont considérées comme des correspondances.
483 2012-11-22
Qualité des données
• Si une ou plusieurs comparaisons de champs dépassent le score Aucune correspondance, la règle est considérée comme approuvée et tous les autres critères définis/scoring pondéré sont évalués pour déterminer si les deux lignes sont considérées comme des correspondances.
Exemple : Exemple de comparaison de champs sélectionnés avec tous les champs sélectionnés dans d'autres enregistrements
Vos données d'entrée contiennent deux champs Société.
ID de ligne
1
2
Société1
Firstlogic
SAP BusinessObjects
Société2
Postalsoft
Firstlogic
Avec le score Match défini sur 100 et le score Aucune correspondance défini sur 99, ces deux enregistrements sont considérés comme des correspondances. Voici un résumé du processus de comparaison et des résultats.
• Tout d'abord, la ligne 1 Société1 (Firstlogic) est comparée à la ligne 2 Société1 (SAP
BusinessObjects).
Normalement, la comparaison de ces lignes devrait échouer, mais avec la comparaison de champs multiples activée, la décision Aucune correspondance n'est pas prise à ce stade.
• Ensuite, la ligne 1 Société2 est comparée à la ligne 2 Société2 et ainsi de suite jusqu'à ce que toutes les autres comparaisons soient effectuées entre tous les champs sur toutes les lignes.
Comme la ligne 1 Société1 (Firstlogic) et la ligne 2 Société2 (Firstlogic) sont identiques à 100 %, les deux enregistrements sont considérés comme des correspondances.
Comparaison de champs sélectionnés avec des champs identiques dans d'autres enregistrements
Lorsque vous comparez chaque champ sélectionné au même champ dans d'autres enregistrements, chaque champ défini dans l'onglet Comparaison de champs multiples d'un critère de correspondance est comparé uniquement au même champ dans d'autres enregistrements. Cela permet de configurer, au sein du critère, une condition OR pour répondre au critère. Chaque champ est utilisé pour déterminer une correspondance : Si Champ_1, Champ_2 ou Champ_3 répond aux critères de correspondance, considérez les enregistrements comme une correspondance. Le score Aucune correspondance d'un champ peut éventuellement répondre aux critères lorsque vous utilisez la comparaison de champs multiples.
Rappel :
Les champs “sélectionnés” incluent le champ de critères et tous les autres champs définis dans la table
Champs supplémentaires à comparer.
484 2012-11-22
Qualité des données
485
Exemple : Exemple de comparaison de champs sélectionnés avec le même champ dans d'autres enregistrements
Vos données d'entrée contiennent un champ Téléphone, Télécopieur et Téléphone portable. Si des données de ces champs d'entrée sont identiques entre les lignes, les enregistrements sont considérés comme des correspondances.
ID de ligne
1
2
Téléphone
608-555-1234
608-555-4321
Télécopieur
608-555-0000
608-555-0000
Portable
608-555-4321
608-555-1111
Avec un score Match de 100 et un score Aucune correspondance de 99, les numéros de téléphone et de portable ne répondraient pas aux critères de correspondance s'ils étaient définis individuellement.
Toutefois, comme les trois champs sont définis dans un seul critère et que les enregistrements sélectionnés sont comparés à des enregistrements identiques, ces enregistrements sont considérés comme une correspondance du fait que le numéro de télécopie est identique à 100 %.
Remarque :
Dans l'exemple ci-dessus, le téléphone portable de la ligne 1 et le téléphone de la ligne 2 ne seraient pas considérés comme correspondance avec l'option le même champ dans d'autres enregistrements sélectionnée, car dans ce cas, la comparaison se fait uniquement dans le même champ. Si cette comparaison croisée est requise, sélectionnez à la place l'option tous les champs sélectionnés
dans d'autres enregistrements.
16.4.8.3.7 Correspondance de proximité
La correspondance de proximité vous permet de faire correspondre des enregistrements en fonction de leur proximité au lieu de comparer la représentation des données sous forme de chaîne. Vous pouvez effectuer une correspondance sur la proximité géographique, numérique et la proximité de date.
Rubriques associées
•
Correspondance sur la proximité géographique
•
Correspondance sur la proximité numérique ou la proximité de date
Correspondance sur la proximité géographique
L'option Proximité géographique recherche des enregistrements en double basés sur la proximité géographique à l'aide d'informations de latitude et de longitude. Il ne s'agit pas de distance parcourue par la route, mais de distance géographique. Cette option utilise les coordonnées WGS 84 (GPS).
L'option Proximité géographique peut exécuter les fonctions suivantes :
• Rechercher des objets dans une plage radiale. Cette fonction peut être utile à une société qui souhaite envoyer un courrier à ses clients situés à une certaine distance de son site.
2012-11-22
Qualité des données
• Rechercher l'emplacement le plus proche. Cette fonction peut aider un consommateur à trouver le point de vente le plus proche de son domicile.
Configuration de la correspondance de proximité géographique - Champs de critères
Pour sélectionner des champs pour la correspondance de proximité géographique, procédez comme suit :
1.
Accédez à l'éditeur de correspondance et ajoutez un nouveau critère.
2.
Dans Critère disponible, développez Géographique.
3.
Sélectionnez LATITUDE_LONGITUDE.
Les deux champs de critères peuvent alors être mappés.
4.
Mappez les champs Latitude et Longitude appropriés. Vous devez mapper les deux champs.
Configuration de la correspondance de proximité géographique - Options de critères
Pour pouvoir utiliser cette option, vous devez mapper les champs Latitude et Longitude.
Pour effectuer une correspondance de proximité géographique, procédez comme suit :
1.
Dans Comparaison des données à l'aide de, sélectionnez Proximité géographique.
Cela permet de filtrer les options sous Règles de comparaison pour afficher uniquement les options pertinentes.
2.
Définissez l'option Unité de distance sur l'une des valeurs suivantes :
•
Miles
•
Feet
•
Kilomètres
•
Mètres
3.
Entrez la Distance max. à prendre en compte pour la plage.
4.
Définissez le score de distance max.
Remarque :
• Une distance égale à la distance max. se voit attribuer un score de distance max. Toute distance inférieure à la distance max. se voit attribuer un score proportionnel compris entre le score de distance max. et 100. Par exemple, une proximité de 10 miles se voit attribuer un score supérieur
à une proximité de 40 miles.
• Si les données de la distance max. sont susceptibles de varier d'une ligne à l'autre, vous devez entrer dynamiquement les données à l'aide du champ
Option_Field_Algorithm_Geo_Proximity_<logical_name> _Max_Distance.
Rubriques associées
• Guide de référence : Options de transformation dynamique
• Guide de référence : Correspondance des champs d'entrée de la transformation
486 2012-11-22

Öffentlicher Link aktualisiert
Der öffentliche Link zu Ihrem Chat wurde aktualisiert.