Traitement post-comparaison. SAP BusinessObjects Data Services 4.1 Support Package 1
Qualité des données
Correspondance sur la proximité numérique ou la proximité de date
Les options de proximité numérique de la transformation Match recherchent les doublons en fonction de la proximité numérique des données. Vous pouvez rechercher des doublons en fonction de valeurs numériques et de valeurs de date. Les options suivantes sont disponibles dans l'onglet Options de l'éditeur de critères de correspondance pour la correspondance numérique et de date :
Différence numérique
Recherche les doublons en fonction de la différence numérique pour les valeurs numériques ou les valeurs de date. Par exemple, vous pouvez utiliser cette option pour rechercher des doublons en fonction de valeurs de date dans une plage spécifique (plus ou moins 35 jours, par exemple), indépendamment de la similarité des caractères.
Différence numérique en pourcentage
Recherche les doublons en fonction du pourcentage de différence numérique pour les valeurs numériques. Voici deux exemples dans lesquels cette option peut être utile :
• Domaine des données financières : vous pouvez effectuer une recherche dans les données financières pour trouver tous les paiements hypothécaires mensuels correspondant à 5 % d'une valeur donnée.
• Domaine des données produit : vous pouvez effectuer une recherche dans les données produit pour trouver toutes les tiges d'acier dont la tolérance correspond à 10 % d'une valeur donnée.
16.4.9 Traitement post-comparaison
487
16.4.9.1 Meilleur enregistrement
L'une des opérations clés des tâches de consolidation de données consiste à récupérer les données des enregistrements concordants (autrement dit, les membres des groupes de correspondance) et à transférer ces données dans un "meilleur enregistrement" ou dans tous les enregistrements concordants.
Pour exécuter ces fonctions, vous pouvez ajouter une opération de post-correspondance Meilleur enregistrement.
Opérations dans les groupes de correspondance
Les fonctions que vous exécutez à l'aide de l'opération Meilleur enregistrement impliquent la manipulation ou le transfert des données figurant dans les enregistrements principaux et subordonnés des groupes de correspondance. Les groupes de correspondance regroupent les enregistrements que la transformation Match a identifiés comme concordants en fonction du ou des critères que vous avez créés.
2012-11-22
Qualité des données
3
4
1
2
L'enregistrement principal est le premier enregistrement du groupe Match. Vous pouvez déterminer l'enregistrement dont il s'agit en utilisant une opération Hiérarchisation du groupe avant l'opération
Meilleur enregistrement.
Les enregistrements subordonnés sont tous les enregistrements restants d'un groupe de correspondance.
Le groupe de correspondance suivant illustre cette utilisation des enregistrements principaux et subordonnés :
Enregistrement Nom Téléphone Date
Classement dans le groupe
John Smith
John Smyth
11 avr 2001
12 oct 1999
Principal
Subordonné 788-8700
788-1234 22 fév 1997 John E. Smith
J. Smith 788-3271
Subordonné
Subordonné
Dans la mesure où il s'agit d'un groupe de correspondance, tous les enregistrements sont considérés comme concordants. Comme vous pouvez le constater, chaque enregistrement présente de légères différences. Certains enregistrements comportent des champs vides, d'autres présentent une date plus récente et tous ont des numéros de téléphone différents.
Dans ce groupe de correspondance, vous pouvez effectuer une opération courante consistant à transférer les données mises à jour à tous les enregistrements du groupe de correspondance. Vous pouvez choisir de transférer les données à l'enregistrement principal, à tous les membres subordonnés du groupe de correspondance ou à tous les membres du groupe de correspondance. Le numéro de téléphone le plus récent en constitue un bon exemple.
Autre exemple : la récupération des données utiles dans les enregistrements concordants avant de les ignorer. Lorsque vous exécutez un fichier de permis de conduire par rapport à votre fichier interne, par exemple, vous pouvez récupérer les données de sexe et de date de naissance à ajouter à votre enregistrement interne.
Enregistrements avec la priorité la plus élevée en premier
Les opérations que vous configurez dans le groupe d'options Meilleur enregistrement doivent toujours commencer par le membre avec la priorité la plus élevée du groupe de correspondance (le principal) et se terminer par le dernier subordonné. Ainsi, les données sont récupérées de l'enregistrement avec la priorité la plus élevée à l'enregistrement avec la priorité la plus basse.
Vous devez donc veiller à hiérarchiser les enregistrements correctement en ajoutant une opération de post-correspondance Hiérarchisation du groupe avant l'opération Meilleur enregistrement.
488 2012-11-22
Qualité des données
16.4.9.1.1 Stratégies du meilleur enregistrement
Les stratégies fournies permettent de configurer facilement et rapidement des opérations courantes de meilleur enregistrement. Si aucune de ces stratégies ne répond à vos besoins, vous pouvez créer une stratégie du meilleur enregistrement personnalisée en utilisant votre propre code Python.
Les stratégies du meilleur enregistrement servent de critères pour exécuter des actions dans d'autres champs. Si les critères ne sont pas remplis, aucune action n'est exécutée.
Exemple :
Dans l'exemple de mise à jour d'un champ Téléphone avec les données les plus récentes, la stratégie de date peut être utilisée avec la priorité la plus récente pour mettre à jour l'enregistrement principal avec le dernier numéro de téléphone dans le groupe de correspondance. Cette partie (mise à jour de l'enregistrement principal avec le dernier numéro de téléphone) correspond à l'action. Vous pouvez aussi mettre à jour tous les enregistrements dans le groupe de correspondance (l'enregistrement principal et tous les enregistrements subordonnés) ou uniquement les enregistrements subordonnés.
Restriction :
La stratégie de date n'analyse pas la date, car elle ignore comment les données sont formatées.
Assurez-vous que les données sont prédéfinies au format AAAAMMJJ afin que les comparaisons de chaînes fonctionnent correctement. Pour ce faire, vous pouvez aussi définir une stratégie personnalisée en utilisant le code Python pour analyser la date et utiliser une comparaison de dates.
Stratégies personnalisées du meilleur enregistrement et Python
Dans les stratégies du meilleur enregistrement prédéfinies, la transformation Match génère automatiquement le code Python qu'elle utilise pour le traitement. Ce code contient des variables requises pour la gestion du traitement.
Variables courantes
Les variables courantes contenues dans le code Python généré sont les suivantes :
Variable
SRC
DST
RET
Description
Désigne le champ source.
Désigne le champ de destination.
Désigne la valeur renvoyée, qui indique si la stratégie a réussi (T) ou échoué
(F).
Variables NEWDST et NEWGRP
Utilisez les variables NEWDST et NEWGRP pour que la publication des données dans votre action du meilleur enregistrement soit indépendante des champs de stratégie. Si vous n'incluez pas ces variables, les données du champ de stratégie doivent également être mises à jour.
489 2012-11-22
Qualité des données
490
Variable
NEWDST
NEWGRP
Description
Indicateur de nouvelle destination Cette variable de chaîne porte la valeur "T" lorsque l'enregistrement de destination est nouveau ou qu'il a été modifié depuis la dernière évaluation de la stratégie et la valeur "F" lorsqu'il n'a pas été modifié depuis la dernière évaluation.
La variable NEWDST est utile uniquement si vous publiez vers plusieurs destinations telles que ALL ou SUBS dans l'option Destination de publication.
Indicateur de nouveau groupe Cette variable de chaîne porte la valeur "T" lorsque le groupe de correspondance a été modifié depuis la dernière évaluation de la stratégie et la valeur "F" lorsqu'il n'a pas été modifié depuis la dernière évaluation.
Exemple de NEWDST
Le code Python suivant a été généré à partir d'une stratégie NON_BLANK avec les options définies comme suit :
Définition des options
Stratégie du meilleur enregistrement
NON_BLANK
Priorité de la stratégie
Champ de stratégie
L'option de priorité n'est pas disponible pour la stratégie
NON_BLANK.
NORTH_AMERICAN_PHONE1_NORTH_AMERICAN_PHONE_STA-
NDARDIZED.
Destination de publication
TOUS
Publier une seule fois par destination
OUI
Voici à quoi ressemble le code Python.
# Setup local temp variable to store updated compare condition dct = locals()
# Store source and destination values to temporary variables
# Reset the temporary variable when the destination changes if (dct.has_key('BEST_RECORD_TEMP') and NEWDST.GetBuffer() == u'F'):
DESTINATION = dct['BEST_RECORD_TEMP'] else:
DESTINATION = DST.GetField(u'NORTH_AMERICAN_PHONE1_NORTH_AMERICAN_PHONE_STANDARDIZED')
SOURCE = SRC.GetField(u'NORTH_AMERICAN_PHONE1_NORTH_AMERICAN_PHONE_STANDARDIZED') if len(SOURCE.strip()) > 0 and len(DESTINATION.strip()) == 0:
RET.SetBuffer(u'T') dct['BEST_RECORD_TEMP'] = SOURCE else:
RET.SetBuffer(u'F') dct['BEST_RECORD_TEMP'] = DESTINATION
# Delete temporary variables del SOURCE del DESTINATION
2012-11-22
Qualité des données
Exemple : NEWDST et NEWGRP
Supposons que vous disposiez de deux groupes de correspondance, chacun contenant trois enregistrements.
Enregistrements
Groupe de correspondance 1
Groupe de correspondance 2
de groupe de correspondance
Enregistrement A
Enregistrement B
Enregistrement C
Enregistrement D
Enregistrement E
Enregistrement F
F
F
F
F
F
F
F
F
Chaque nouvelle destination ou nouveau groupe de correspondance est marqué(e) d'un "T".
NEWGRP
(T ou F)
NEWDST
(T ou F)
Comparaison
T (nouveau groupe de correspondance)
F
T (nouveau groupe de correspondance)
F
T (nouvelle destination "A")
F
T (nouvelle destination "B")
F
T (nouvelle destination "C")
F
T (nouvelle destination "D")
F
T (nouvelle destination "E")
F
T (nouvelle destination "F")
F
Enregistrement A > Enregistrement B
A > C
B > A
B > C
C > A
C > B
D > E
D > F
E > D
E > F
F > D
F > E
491 2012-11-22
Qualité des données
Création d'une stratégie du meilleur enregistrement prédéfinie
Assurez-vous d'ajouter une opération post-comparaison Meilleur enregistrement au niveau de correspondance approprié dans l'éditeur de correspondance. De plus, pensez à mapper les champs d'entrée pertinents pour qu'ils soient disponibles pour cette opération.
Cette procédure vous permet de générer rapidement les critères requis pour votre action du meilleur enregistrement. Les stratégies disponibles représentent des cas d'utilisation courants.
1.
Saisissez un nom pour cette opération de meilleur enregistrement.
2.
Sélectionnez une stratégie dans l'option Stratégie du meilleur enregistrement.
3.
Sélectionnez une priorité dans l'option Priorité de la stratégie.
La sélection des valeurs dépend de la stratégie que vous avez sélectionnée à l'étape précédente.
4.
Sélectionnez un champ dans le menu déroulant Champ de stratégie.
Le champ que vous sélectionnez ici sert de critère pour déterminer si une action du meilleur enregistrement est exécutée.
Exemple :
Le champ de stratégie sélectionné doit contenir des données correspondant à la stratégie que vous créez. Par exemple, si vous utilisez une stratégie de date la plus récente, assurez-vous que le champ sélectionné contient des données de date.
Création d'une stratégie du meilleur enregistrement personnalisée
1.
Ajoutez une opération de meilleur enregistrement à votre transformation Match.
2.
Saisissez un nom pour cette opération.
3.
Dans l'option Stratégie du meilleur enregistrement, sélectionnez Personnalisé.
4.
Sélectionnez un champ dans la liste déroulante Champ de stratégie.
5.
Cliquez sur le bouton Afficher/Modifier Python pour créer votre code Python personnalisé et représenter votre stratégie personnalisée.
La fenêtre Editeur Python apparaît.
16.4.9.1.2 Actions du meilleur enregistrement
Les actions du meilleur enregistrement sont les fonctions que vous exécutez sur les données si le critère d'une stratégie est rempli.
Exemple :
Supposons que vous souhaitiez mettre à jour les numéros de téléphone de l'enregistrement principal.
Cela implique qu'un enregistrement subordonné dans le groupe de correspondance comporte une date plus récente et, par conséquent, qu'il existe certainement un nouveau numéro de téléphone pour la personne concernée.
492 2012-11-22
Qualité des données
Dans ce cas, vous devez paramétrer une action qui commande à la transformation Match de mettre
à jour le champ des numéros de téléphone dans l'enregistrement principal (action) si une date plus récente existe dans le champ de date (stratégie).
Sources et destinations
Il est important de connaître les différences entre sources et destinations dans une action de meilleur enregistrement.
La source est le champ d'où vous extrayez des données et la destination est l'endroit où vous publiez les données. Une source ou destination peut être un enregistrement principal ou subordonné dans un groupe de correspondance.
Exemple :
Dans l'exemple du numéro de téléphone, l'enregistrement subordonné porte la date la plus récente ; ainsi, les données du champ Téléphone (la source) sont utilisées et publiées dans l'enregistrement principal ( la destination).
Publication une seule fois ou plusieurs fois par destination
Dans les options de meilleur enregistrement, vous pouvez choisir de publier vers une destination une seule fois ou plusieurs fois par action en définissant l'option Publier une seule fois par destination.
Vous pouvez stipuler que votre action de meilleur enregistrement s'arrête après sa première publication de données dans l'enregistrement de destination ou qu'elle poursuive avec les autres enregistrements de groupe de correspondance. Votre décision dépend de la nature des données que vous publiez et des enregistrements dans lesquels vous publiez. Les deux exemples ci-après illustrent les deux cas de figure.
Si vous publiez une seule fois dans chaque enregistrement de destination, une fois les données publiées pour un enregistrement spécifique, la transformation Match passe à l'exécution de l'action de meilleur enregistrement suivante (si plusieurs sont définies) ou à l'enregistrement suivant.
Si vous ne limitez pas l'action de cette manière, toutes les actions sont exécutées à chaque fois que la stratégie renvoie Vrai.
Indépendamment de cette définition, la transformation Match fonctionne toujours par ordre de priorité dans les membres du groupe de correspondance. En publiant dans l'enregistrement n°1 dans le graphique ci-dessous sans limiter la publication à une seule fois, on obtient le résultat suivant :
Groupe de correspondance
Action
Enregistrement n°1 (principal)
493 2012-11-22
Qualité des données
Groupe de correspondance
Action
Enregistrement n°2 (subordonné)
Tout d'abord, l'action est tentée en utilisant comme source l'enregistrement ayant la priorité la plus élevée (enregistrement n°2) parmi les autres enregistrements de groupe de correspondance.
Enregistrement n°3 (subordonné)
Ensuite, l'action est tentée en utilisant comme source l'enregistrement suivant ayant la priorité la plus élevée (enregistrement n°3).
Enregistrement n°4 (subordonné)
Enfin, l'action est tentée en utilisant comme source l'enregistrement ayant la priorité la plus faible (enregistrement n°4).
Dans cette dernière tentative, l'enregistrement n°4 était la dernière source utilisée pour l'action et peut donc être une source de données pour l'enregistrement de sortie. Cependant, si vous définissez votre action de meilleur enregistrement de sorte à publier une seule fois par enregistrement de destination, vous obtenez le résultat suivant :
Groupe de correspondance
Action
Enregistrement n°1
(principal)
Enregistrement n°2
(subordonné)
Tout d'abord, l'action est tentée en utilisant comme source l'enregistrement ayant la priorité la plus élevée (enregistrement n°2) parmi les autres enregistrements de groupe de correspondance.
Si cette tentative réussit, la transformation Match considère que cette action de meilleur enregistrement est terminée et passe à l'action suivante (le cas échéant) ou à l'enregistrement de sortie suivant.
Si cette tentative échoue, la transformation Match passe au membre du groupe de correspondance ayant la priorité suivante la plus élevée et tente l'opération de publication.
Enregistrement n°3
(subordonné)
Enregistrement n°4
(subordonné)
Dans ce cas, l'enregistrement n°2 était la dernière source utilisée pour l'action de meilleur enregistrement ; par conséquent, il est la source des données publiées dans l'enregistrement de sortie.
494 2012-11-22
Qualité des données
Création d'une action du meilleur enregistrement
L'action du meilleur enregistrement correspond à la publication des données d'un enregistrement source vers un enregistrement de destination, basée sur les critères de votre stratégie du meilleur enregistrement.
1.
Créez une stratégie prédéfinie ou personnalisée.
2.
Sélectionnez le ou les enregistrements à publier dans l'option Destination de publication.
3.
Définissez si vous voulez publier une seule fois ou plusieurs fois vers un enregistrement de destination dans l'option Publier une seule fois par destination.
4.
Dans la table Champs d'action du meilleur enregistrement, sélectionnez votre champ source et votre champ de destination.
Lorsque vous sélectionnez un champ source, la colonne Champ de destination est automatiquement renseignée avec les données du même champ. Vous devez modifier le champ de destination s'il ne s'agit pas du champ dans lequel vous voulez publier vos données.
5.
Pour créer une action du meilleur enregistrement personnalisée, sélectionnez Oui dans la colonne
Personnalisé.
Vous pouvez à présent accéder à l'éditeur Python pour créer un code Python personnalisé pour votre action personnalisée.
16.4.9.1.3 Protection de destination
Les opérations Meilleur enregistrement et ID unique de la transformation Match vous permettent de modifier des enregistrements existants dans vos données. Vous pouvez être amené à devoir protéger des données d'enregistrements spécifiques ou des données d'enregistrements de sources d'entrée spécifiques contre tout risque d'écrasement.
L'onglet Protection de destination des opérations de la transformation Match vous permet de protéger vos données contre d'éventuelles modifications.
Protection des enregistrements de destination via des champs
1.
Dans l'onglet Protection de destination, sélectionnez Activer la protection de la destination.
2.
Sélectionnez une valeur dans la liste déroulante de l'option Protection de destination par défaut.
Cette valeur détermine si une destination est protégée dans le cas où le champ de protection de destination ne comporte pas de valeur valide.
3.
Sélectionnez l'option Spécifier la protection destinataire par champ, puis sélectionnez un champ dans la liste déroulante Champ de protection de destination (ou le Champ ID unique protégé).
Le champ sélectionné doit comporter une valeur O ou N pour spécifier l'action.
Tout enregistrement portant la valeur O dans le champ de protection de destination est protégé contre toute modification.
495 2012-11-22
Qualité des données
496
Protection des enregistrements de destination basée sur l'appartenance dans une source d'entrée
Pour pouvoir exécuter cette tâche, vous devez au préalable ajouter une opération Source d'entrée et définir des sources d'entrée.
1.
Dans l'onglet Protection de destination, sélectionnez Activer la protection de la destination.
2.
Sélectionnez une valeur dans la liste déroulante de l'option Protection de destination par défaut.
Cette valeur détermine si une destination (source d'entrée) est protégée dans le cas où vous ne définissez pas spécifiquement la source dans la table ci-dessous.
3.
Sélectionnez l'option Spécifier la protection destinataire par source.
4.
Sélectionnez une source d'entrée dans la première ligne de la colonne Nom de source, puis sélectionnez une valeur dans la colonne Destination protégée (ou ID unique protégé).
Répétez cette opération pour chaque source d'entrée pour laquelle vous voulez définir une protection.
N'oubliez pas que si vous ne spécifiez pas de protection pour chaque source, la valeur par défaut est utilisée.
16.4.9.2 ID unique
Un ID unique correspond à un champ dans vos données qui contient une valeur unique associée à un enregistrement ou groupe d'enregistrements. Vous pouvez, par exemple, utiliser un ID unique dans la base de données interne de votre société pour recevoir les mises à jour à un intervalle prédéfini (chaque semaine, chaque mois ou chaque trimestre). L'ID unique s'applique à un enregistrement de données de la même façon qu'un numéro d'identification national peut s'appliquer à une personne, comme dans le cas du numéro de sécurité sociale aux Etats-Unis et du numéro d'assurance national au Royaume-Uni.
Il crée et suit les relations entre les données d'une exécution à l'autre. L'opération ID unique permet de définir votre propre ID de départ pour la génération de nouvelles clés ou de paramétrer une affectation dynamique sur la base des données existantes. L'opération de traitement post-correspondance ID unique permet également de commencer à l'endroit où l'ID unique le plus élevé de l'exécution précédente s'est terminé.
Rôle des ID uniques dans les groupes de correspondance
L'ID unique n'affecte pas nécessairement un ID à chaque enregistrement. Vous pouvez affecter le même ID à chaque enregistrement d'un groupe de correspondance (groupes d'enregistrements identifiés comme des correspondances).
Si vous affectez des ID directement à un groupe de décomposition, utilisez l'option Champ Numéro
de groupe pour indiquer les enregistrements à regrouper. Par ailleurs, veillez à ce que les enregistrements soient triés par numéro de groupe afin que les enregistrements portant le même numéro de groupe apparaissent conjointement.
Si vous affectez des ID à des enregistrements faisant partie d'un groupe de correspondance obtenu à partir du processus de correspondance, vous n'avez pas à utiliser le champ Numéro de groupe.
2012-11-22
Qualité des données
Remarque :
Si vous affectez des ID directement à un groupe de décomposition et que le champ Numéro de groupe n'est pas défini, le processus de correspondance considère la collection de données complète comme un seul groupe de correspondance.
16.4.9.2.1 Options de traitement des ID uniques
L'opération de traitement post-comparaison ID unique combine les informations de mise à jour de la source et les informations de la base de données principale pour former une seule source d'informations de groupe de correspondance. L'opération peut ensuite affecter, combiner, fractionner et supprimer des ID uniques si nécessaire. Pour ce faire, utilisez l'option Traitement de l'opération en cours.
Opération Description
Affecter
Affecter un nouvel ID à des enregistrements uniques dépourvus d'ID ou à tous les membres d'un groupe dépourvus d'ID. De plus, l'opération Affecter copie un ID existant si un membre d'un groupe de correspondance est déjà doté d'un ID.
Une valeur est affectée à chaque enregistrement.
• Les enregistrements d'un groupe de correspondance dans lequel un enregistrement avait un ID unique d'entrée partagent cette valeur avec d'autres enregistrements du groupe de correspondance dépourvu de valeur d'entrée. La première valeur trouvée est partagée.
L'ordre est important : si un champ prioritaire peut être séquencé dans l'ordre croissant, placez une opération post-comparaison Hiérarchisation avant l'opération ID unique.
• Les enregistrements d'un groupe de correspondance dans lequel deux enregistrement ou plus avaient différentes valeurs d'entrée ID unique conservent chacun leur valeur d'entrée.
• Si tous les enregistrements d'un groupe de correspondance ne sont pas dotés d'une valeur d'entrée ID unique, le prochain ID disponible sera affecté à chaque enregistrement du groupe.
Si le champ d'entrée GROUP_NUMBER est utilisé, les enregistrements dotés du même numéro de groupe doivent apparaître de manière consécutive dans la collection de données.
Remarque :
Utilisez le champ d'entrée GROUP_NUMBER uniquement pour traiter un groupe de décomposition susceptible de contenir des groupes de correspondance plus petits. Si le champ
GROUP_NUMBER n'est pas spécifié, l'opération ID unique suppose que la collection entière forme un seul groupe.
497 2012-11-22
Qualité des données
Opération Description
AffecterCombi ner
Exécute à la fois une opération Affecter et Combiner.
Une valeur est affectée à chaque enregistrement.
• Les enregistrements qui étaient dépourvus d'une valeur ID unique d'entrée et qui ne correspondent pas à d'autres enregistrements contenant une valeur ID unique d'entrée sont affectés au prochain ID disponible. Il s'agit d'enregistrements d'"ajout" qui pourraient
être des enregistrements uniques ou des correspondances, mais pas avec un autre enregistrement préalablement affecté à une valeur ID unique.
• Les enregistrements d'un groupe de correspondance dans lequel un ou plusieurs enregistrements avaient un ID unique d'entrée avec la même valeur ou des valeurs différentes partagent la première valeur trouvée avec tous les autres enregistrements du groupe de correspondance. L'ordre est important : si un champ prioritaire peut être séquencé dans l'ordre croissant, placez une opération post-comparaison Hiérarchisation avant l'opération
ID unique.
Si le champ d'entrée GROUP_NUMBER est utilisé, les enregistrements dotés du même numéro de groupe doivent apparaître de manière consécutive dans la collection de données.
Remarque :
Utilisez le champ d'entrée GROUP_NUMBER uniquement pour traiter un groupe de décomposition susceptible de contenir des groupes de correspondance plus petits. Si le champ
GROUP_NUMBER n'est pas spécifié, l'opération ID unique suppose que la collection entière forme un seul groupe.
498 2012-11-22
Qualité des données
Opération
Combiner
Description
Garantit que les enregistrements d'un même groupe de correspondance sont dotés du même
ID unique.
Par exemple, cette opération peut être utilisée pour affecter à tous les membres d'un foyer le même ID unique. Plus précisément, si un foyer compte deux personnes qui partagent le même ID unique et qu'une troisième personne les rejoint avec un ID unique différent, l'opération Combiner peut être utilisée pour affecter le même ID aux trois personnes du foyer.
Le premier enregistrement d'un groupe de correspondance portant un ID unique est celui doté de la priorité la plus élevée. Les autres enregistrements du groupe se voient affecter l'ID de cet enregistrement (en supposant que l'enregistrement en question ne soit pas protégé). L'opération Combiner n'affecte pas d'ID unique à un enregistrement qui n'a pas déjà un
ID unique. Elle combine simplement l'ID unique des enregistrements d'un groupe de correspondance déjà dotés d'un ID unique.
Si le champ d'entrée GROUP_NUMBER est utilisé, les enregistrements dotés du même numéro de groupe doivent apparaître de manière consécutive dans la collection de données.
Remarque :
Utilisez le champ d'entrée GROUP_NUMBER uniquement pour traiter un groupe de décomposition susceptible de contenir des groupes de correspondance plus petits. Si le champ
GROUP_NUMBER n'est pas spécifié, l'opération ID unique suppose que la collection entière forme un seul groupe.
Supprimer
Supprime les ID uniques des enregistrements qui n'en ont plus besoin, à condition qu'ils ne soient pas protégés contre la suppression. Si vous utilisez un fichier et que vous recyclez des ID, ces ID sont ajoutés au fichier. Lors d'une suppression, les enregistrements dotés du même ID unique doivent être regroupés.
Lorsque Match détecte qu'un groupe d'enregistrements doté du même ID unique est sur le point d'être supprimé :
• Si des enregistrements sont protégés, tous les enregistrements du groupe sont considérés comme étant protégés.
• Si le recyclage est activé, l'ID unique est recyclé une fois seulement, même si un groupe d'enregistrements portaient le même ID.
499 2012-11-22
Qualité des données
Opération
Fractionner
Description
Modifie les enregistrements uniques d'un groupe fractionné de sorte que les enregistrements n'appartenant pas au même groupe de correspondance porte un ID différent. L'enregistrement avec la priorité la plus élevée au sein du groupe conserve son ID unique. Les autres se voient affecter de nouveaux ID uniques.
Pour cette opération, vous devez regrouper vos enregistrements par ID unique plutôt que par numéro de groupe de correspondance.
Exemple :
• Les enregistrements d'un groupe de correspondance dans lequel deux enregistrements ou plus portaient des valeurs d'entrée ID unique différentes ou des valeurs vides conservent chacun leur valeur d'entrée, renseignée ou vide selon l'enregistrement en question.
• Les enregistrements qui étaient dépourvus d'une valeur ID unique d'entrée et qui ne correspondaient pas à d'autres enregistrements contenant une valeur ID unique d'entrée se voient affecter un ID unique vide de sortie.
• Pour les enregistrements qui étaient pourvus de la même valeur ID unique d'entrée et qui ne sont plus considérés comme des correspondances, le premier enregistrement porte la valeur d'entrée. Les autres enregistrements se voient affecter de nouvelles valeurs
ID unique.
16.4.9.2.2 Protection des ID uniques
La sortie de l'ID unique dépend du fait que le champ d'entrée dans l'enregistrement concerné est doté ou non d'une valeur qui indique que l'ID est protégé.
• Si le champ ID unique protégé n'est pas mappé comme champ d'entrée, Match suppose qu'aucun des enregistrements n'est protégé.
• Deux valeurs sont autorisées dans ce champ : O et N. Tout autre valeur est convertie en O.
La valeur N signifie que l'ID unique n'est pas protégé et que l'ID publié à la sortie peut être différent de l'ID d'entrée.
La valeur O signifie que l'ID unique est protégé et que l'ID publié à la sortie sera identique à l'ID d'entrée.
• Si le champ ID unique protégé est mappé comme champ d'entrée, une valeur autre que N signifie que les données d'entrée de l'enregistrement seront conservées dans le champ ID unique de sortie.
Ces règles de champs protégés s'appliquent à toutes les opérations de traitement ID unique.
16.4.9.2.3 Limitations des ID uniques
Le fait que certaines options dans l'opération ID unique soient basées sur la lecture d'un fichier ou la référence à une valeur de champ peut avoir des conséquences lorsque vous exécutez un environnement de serveur multiple ou serveur en temps réel et que vous partagez un fichier ID unique.
500 2012-11-22
Qualité des données
501
• Si vous lisez un fichier ou écrivez dans un fichier, le fichier ID unique doit figurer dans un système de fichiers partagés.
• Les ID recyclés sont utilisés dans l'ordre premier entré, premier sorti. Lorsque la transformation
Match recycle un ID, elle ne vérifie pas s'il est déjà présent dans le fichier. Vous devez vous assurer qu'une valeur ID unique donnée n'est pas recyclée plus d'une fois.
16.4.9.2.4 Affectation d'ID uniques à l'aide d'un fichier
1.
Dans le groupe d'options ID unique, sélectionnez l'option Valeur à partir du fichier.
2.
Définissez le nom du fichier et son chemin d'accès dans l'option Fichier.
Le fichier doit être au format XML et respecter la structure suivante :
<UniqueIdSession>
<CurrentUniqueId>477</CurrentUniqueId>
</UniqueIdSession>
Remarque :
La valeur 477 est un exemple de valeur de départ. Toutefois, la valeur doit être au moins égale à
1.
16.4.9.2.5 Affectation d'ID uniques à l'aide d'une constante
De même qu'avec un fichier, vous pouvez affecter un ID unique de départ en définissant cette valeur.
1.
Sélectionnez l'option Valeur constante.
2.
Définissez l'option Valeur de départ sur la valeur d'ID souhaitée.
16.4.9.2.6 Affectation d'ID uniques à l'aide d'un champ
L'option de champ permet d'envoyer l'ID unique de départ via un champ dans votre source de données ou à partir d'une transformation User-Defined, par exemple.
L'ID unique de départ est transmis à la transformation Match avant que le premier nouvel ID unique ne soit demandé. Si aucun ID unique n'est reçu, le numéro de départ par défaut est le 1.
Attention :
Attention lorsque vous utilisez l'option de champ ! Le champ que vous utilisez doit contenir la valeur d'ID unique par laquelle vous voulez que débute la numérotation séquentielle. Cela signifie que chaque enregistrement traité doit contenir ce champ et que chaque enregistrement doit avoir la même valeur dans ce champ.
Supposons que la valeur utilisée soit 100 000. Lors du traitement, le premier enregistrement ou groupe de correspondance aura un ID de 100 001. Le second enregistrement ou groupe de correspondance aura un ID de 100 002, etc.
La valeur du premier enregistrement transmise à la transformation Match contient la valeur de début de l'incrémentation.
Il est impossible de savoir à l'avance quel enregistrement sera transmis à la transformation Match en premier (en raison du tri, par exemple) ; par conséquent, il est impossible de savoir par quelle valeur débutera l'incrémentation.
2012-11-22
Qualité des données
Affectation d'ID uniques à l'aide d'un champ
1.
Sélectionnez l'option Champ.
2.
Dans l'option Champ ID unique de départ, sélectionnez le champ contenant la valeur de l'ID unique de départ.
16.4.9.2.7 Affectation d'ID uniques à l'aide d'un GUID
Vous pouvez utiliser un identificateur global unique (GUID) comme ID unique.
• Sélectionnez l'option GUID.
Remarque :
Le GUID est également appelé identificateur unique universel (UUID). La variante UUID utilisée pour l'ID unique est une chaîne temporelle de 36 caractères au format suivant : TimeLow-TimeMid-Time
HighAndVersion-ClockSeqAndReservedClockSeqLow-Node
Pour en savoir plus sur l'UUID, voir le document RFC (Request for Comments).
Rubriques associées
• UUID RFC: http://www.ietf.org/rfc/rfc4122.txt
16.4.9.2.8 Recyclage d'ID uniques
Si des ID uniques sont supprimés avec l'option de traitement Supprimer, vous pouvez les réécrire dans un fichier pour les utiliser ultérieurement.
1.
Dans le groupe d'options ID unique, définissez l'option Traitement de l'opération en cours sur
Supprimer.
2.
Sélectionnez l'option Valeur à partir du fichier.
3.
Définissez le nom du fichier et son chemin d'accès dans l'option Fichier.
4.
Définissez l'option Recycler les ID uniques sur Oui. Ce fichier est le même que celui qui peut être utilisé pour affecter un numéro ID de départ.
Utilisation de vos propres ID uniques recyclés
Si vous disposez d'ID que vous voulez recycler et utiliser dans un flux de données, vous pouvez les saisir dans un fichier à utiliser pour le recyclage des ID et la publication d'une valeur de départ pour les ID. Saisissez ces ID dans une balise XML <R></R>. Exemple :
<UniqueIdSession>
<CurrentUniqueId>477</CurrentUniqueId>
<R>214</R>
<R>378</R>
</UniqueIdSession>
502 2012-11-22
Qualité des données
16.4.9.2.9 Protection de destination
Les opérations Meilleur enregistrement et ID unique de la transformation Match vous permettent de modifier des enregistrements existants dans vos données. Vous pouvez être amené à devoir protéger des données d'enregistrements spécifiques ou des données d'enregistrements de sources d'entrée spécifiques contre tout risque d'écrasement.
L'onglet Protection de destination des opérations de la transformation Match vous permet de protéger vos données contre d'éventuelles modifications.
Protection des enregistrements de destination via des champs
1.
Dans l'onglet Protection de destination, sélectionnez Activer la protection de la destination.
2.
Sélectionnez une valeur dans la liste déroulante de l'option Protection de destination par défaut.
Cette valeur détermine si une destination est protégée dans le cas où le champ de protection de destination ne comporte pas de valeur valide.
3.
Sélectionnez l'option Spécifier la protection destinataire par champ, puis sélectionnez un champ dans la liste déroulante Champ de protection de destination (ou le Champ ID unique protégé).
Le champ sélectionné doit comporter une valeur O ou N pour spécifier l'action.
Tout enregistrement portant la valeur O dans le champ de protection de destination est protégé contre toute modification.
Protection des enregistrements de destination basée sur l'appartenance dans une source d'entrée
Pour pouvoir exécuter cette tâche, vous devez au préalable ajouter une opération Source d'entrée et définir des sources d'entrée.
1.
Dans l'onglet Protection de destination, sélectionnez Activer la protection de la destination.
2.
Sélectionnez une valeur dans la liste déroulante de l'option Protection de destination par défaut.
Cette valeur détermine si une destination (source d'entrée) est protégée dans le cas où vous ne définissez pas spécifiquement la source dans la table ci-dessous.
3.
Sélectionnez l'option Spécifier la protection destinataire par source.
4.
Sélectionnez une source d'entrée dans la première ligne de la colonne Nom de source, puis sélectionnez une valeur dans la colonne Destination protégée (ou ID unique protégé).
Répétez cette opération pour chaque source d'entrée pour laquelle vous voulez définir une protection.
N'oubliez pas que si vous ne spécifiez pas de protection pour chaque source, la valeur par défaut est utilisée.
16.4.9.3 Grouper statistiques
503 2012-11-22
Qualité des données
L'opération post-comparaison Grouper statistiques doit être ajoutée à tout niveau de correspondance et toute opération post-comparaison pour lesquels vous avez besoin de statistiques sur vos groupes de correspondance ou vos sources d'entrée.
Cette opération peut aussi compter les statistiques de sources d'entrée logiques que vous avez déjà identifiées avec des valeurs dans un champ (prédéfini) ou de sources logiques que vous spécifiez dans l'opération Sources d'entrée.
Cette opération vous permet aussi d'exclure certaines sources logiques en fonction de vos critères.
Remarque :
Si vous choisissez de compter les statistiques de sources d'entrée dans l'opération Grouper statistiques,
Match comptera aussi les statistiques de base sur vos groupes de correspondance.
Grouper champs de statistiques
Lorsque vous incluez une opération Grouper statistiques dans votre transformation Match, les champs suivants sont générés par défaut :
• GROUP_COUNT
• GROUP_ORDER
• GROUP_RANK
• GROUP_TYPE
De plus, si vous choisissez de générer des statistiques source, les champs suivants sont également générés et disponibles pour la sortie :
• SOURCE_COUNT
• SOURCE_ID
• SOURCE_ID_COUNT
• SOURCE_TYPE_ID
Rubriques associées
• Guide de référence : Transformations, correspondance, champs de sortie
• Guide de la console de gestion : Rapports Data Quality, rapport Résumé des statistiques source de correspondance
16.4.9.3.1 Génération de statistiques de base uniquement
Cette tâche permet de générer des statistiques sur vos groupes de correspondance, telles que le nombre d'enregistrements dans chaque groupe, les enregistrements principaux ou subordonnés, etc.
1.
Ajoutez une opération Grouper statistiques à chaque niveau de correspondance souhaité en sélectionnant Traitement post-correspondance dans un niveau de correspondance, en cliquant sur le bouton Ajouter, puis en sélectionnant Grouper statistiques.
2.
Sélectionnez Générer uniquement les statistiques de base.
3.
Cliquez sur le bouton Appliquer pour sauvegarder vos modifications.
504 2012-11-22
Qualité des données
505
16.4.9.3.2 Génération de statistiques pour toutes les sources d'entrée
Avant de démarrer cette tâche, assurez-vous d'avoir défini vos sources d'entrée dans l'opération Sources d'entrée.
Utilisez cette procédure pour générer des statistiques pour toutes vos sources au sein du job.
1.
Ajoutez une opération Statistiques du groupe au niveau de correspondance approprié.
2.
Sélectionnez l'option Générer des statistiques source à partir des sources d'entrée.
Des statistiques sont alors générées pour toutes les sources d'entrée que vous avez définies dans l'opération Sources d'entrée.
16.4.9.3.3 Comptage des statistiques pour les sources d'entrée générées par des valeurs dans un champ
Pour cette tâche, il n'est pas nécessaire de définir des sources d'entrée avec l'opération Sources d'entrée. Vous pouvez spécifier des sources d'entrée pour Match en utilisant des valeurs dans un champ.
Cette tâche vous permet de générer des statistiques pour toutes les sources d'entrée identifiées par des valeurs dans un champ ou de générer des statistiques pour un sous-ensemble de sources d'entrée.
1.
Ajoutez une opération Grouper statistiques au niveau de correspondance approprié.
2.
Sélectionnez l'option Générer des statistiques source à partir des valeurs source.
3.
Sélectionnez un champ dans la liste déroulante Champ de source logique contenant les valeurs pour vos sources logiques.
4.
Entrez une valeur dans le champ Valeur source logique par défaut.
Cette valeur est utilisée si le champ de source logique est vide.
5.
Sélectionnez l'une des options suivantes :
Option
Compter toutes les sources
Sélectionner les sources à compter
Description
Permet de compter toutes les sources. Si vous sélectionnez cette option, cliquez sur le bouton Appliquer pour sauvegarder vos modifications. Cette tâche est terminée.
Permet de définir un sous-ensemble de sources d'entrée à compter. Si vous sélectionnez cette option, vous pouvez passer à l'étape 6 de la tâche.
6.
Sélectionnez la valeur appropriée dans l'option Indicateur de nombre par défaut.
Sélectionnez Oui pour compter toute source non spécifiée dans la table Définir manuellement
des indicateurs de nombre de sources logiques. Si vous ne spécifiez pas de source dans la table, vous comptez toutes les sources.
7.
Sélectionnez Générer automatiquement les sources pour compter les sources en fonction d'une valeur dans un champ spécifié dans l'option Champ de l'indicateur de nombre prédéfini.
2012-11-22
Qualité des données
Si vous ne spécifiez pas de source dans la table Définir manuellement des indicateurs de nombre
de sources logiques, vous indiquez à la transformation Match de compter toutes les sources en fonction de la valeur (Oui ou Non) de ce champ.
8.
Dans la table Définir manuellement des indicateurs de nombre de sources logiques, ajoutez autant de lignes que nécessaire afin d'inclure toutes les sources à compter.
Remarque :
C'est le premier critère sur lequel se base la transformation Match pour déterminer s'il faut compter des sources.
9.
Ajoutez une valeur source et un indicateur de nombre à chaque ligne pour indiquer à la transformation
Match les sources à compter.
Conseil :
Si vous disposez d'un grand nombre de sources, mais que vous voulez en compter deux uniquement, vous pouvez accélérer le temps de configuration en définissant l'option Indicateur de nombre par
défaut sur Non et en configurant la table Définir manuellement des indicateurs de nombre de
sources logiques pour compter ces deux sources. En utilisant la même méthode, vous pouvez configurer Grouper statistiques de sorte à compter toutes les sources et non pas deux sources uniquement.
16.4.9.4 Sélection de l'indicateur de sortie
En ajoutant une opération Sélection de l'indicateur de sortie à chaque niveau de correspondance souhaité (Traitement post-correspondance), vous pouvez marquer des types d'enregistrement spécifiques pour évaluation ou routage en aval dans votre flux de données.
L'ajout de cette opération génère le champ de sortie Select_Record à inclure dans votre schéma de sortie. Ce champ de sortie est renseigné par un O ou un N selon le type d'enregistrement sélectionné dans l'opération.
Vos résultats apparaîtront dans le rapport Faire correspondre la sélection de sortie à la source d'entrée.
Ce rapport vous permet de déterminer de quelle source ou groupe source proviennent les enregistrements et combien de chacun des types d'enregistrements ont été générés par source ou groupe source.
Type d'enregistrement
Unique
Description
Enregistrements ne faisant partie d'aucun groupe de correspondance. Aucun enregistrement correspondant n'a été trouvé. Peuvent être issus de sources contenant une source Normal ou Special.
Enregistrements principaux de source unique
Membre le plus haut placé d'un groupe de correspondance dont les membres sont tous issus de la même source. Peut être issu d'une source Normal ou Special.
506 2012-11-22

公開リンクが更新されました
あなたのチャットの公開リンクが更新されました。