Traitement post-comparaison. SAP BusinessObjects Data Services 4.1 Support Package 1

Vous trouverez ci-dessous de brèves informations sur Data Services 4.1 Support Package 1. Ce guide fournit des informations sur le Designer, y compris la connexion au Designer, l'interface utilisateur, les projets, les Jobs, les banques de données, les formats de fichiers, les flux de données, les transformations, les workflows, les données imbriquées, les jobs en temps réel et plus encore.

PDF

Document

Qualité des données

Correspondance sur la proximité numérique ou la proximité de date

Les options de proximité numérique de la transformation Match recherchent les doublons en fonction de la proximité numérique des données. Vous pouvez rechercher des doublons en fonction de valeurs numériques et de valeurs de date. Les options suivantes sont disponibles dans l'onglet Options de l'éditeur de critères de correspondance pour la correspondance numérique et de date :

Différence numérique

Recherche les doublons en fonction de la différence numérique pour les valeurs numériques ou les valeurs de date. Par exemple, vous pouvez utiliser cette option pour rechercher des doublons en fonction de valeurs de date dans une plage spécifique (plus ou moins 35 jours, par exemple), indépendamment de la similarité des caractères.

Différence numérique en pourcentage

Recherche les doublons en fonction du pourcentage de différence numérique pour les valeurs numériques. Voici deux exemples dans lesquels cette option peut être utile :

• Domaine des données financières : vous pouvez effectuer une recherche dans les données financières pour trouver tous les paiements hypothécaires mensuels correspondant à 5 % d'une valeur donnée.

• Domaine des données produit : vous pouvez effectuer une recherche dans les données produit pour trouver toutes les tiges d'acier dont la tolérance correspond à 10 % d'une valeur donnée.

16.4.9 Traitement post-comparaison

487

16.4.9.1 Meilleur enregistrement

L'une des opérations clés des tâches de consolidation de données consiste à récupérer les données des enregistrements concordants (autrement dit, les membres des groupes de correspondance) et à transférer ces données dans un "meilleur enregistrement" ou dans tous les enregistrements concordants.

Pour exécuter ces fonctions, vous pouvez ajouter une opération de post-correspondance Meilleur enregistrement.

Opérations dans les groupes de correspondance

Les fonctions que vous exécutez à l'aide de l'opération Meilleur enregistrement impliquent la manipulation ou le transfert des données figurant dans les enregistrements principaux et subordonnés des groupes de correspondance. Les groupes de correspondance regroupent les enregistrements que la transformation Match a identifiés comme concordants en fonction du ou des critères que vous avez créés.

2012-11-22

Qualité des données

L'enregistrement principal est le premier enregistrement du groupe Match. Vous pouvez déterminer l'enregistrement dont il s'agit en utilisant une opération Hiérarchisation du groupe avant l'opération

Meilleur enregistrement.

Les enregistrements subordonnés sont tous les enregistrements restants d'un groupe de correspondance.

Le groupe de correspondance suivant illustre cette utilisation des enregistrements principaux et subordonnés :

Enregistrement Nom Téléphone Date

Classement dans le groupe

John Smith

John Smyth

11 avr 2001

12 oct 1999

Principal

Subordonné 788-8700

788-1234 22 fév 1997 John E. Smith

J. Smith 788-3271

Subordonné

Dans la mesure où il s'agit d'un groupe de correspondance, tous les enregistrements sont considérés comme concordants. Comme vous pouvez le constater, chaque enregistrement présente de légères différences. Certains enregistrements comportent des champs vides, d'autres présentent une date plus récente et tous ont des numéros de téléphone différents.

Dans ce groupe de correspondance, vous pouvez effectuer une opération courante consistant à transférer les données mises à jour à tous les enregistrements du groupe de correspondance. Vous pouvez choisir de transférer les données à l'enregistrement principal, à tous les membres subordonnés du groupe de correspondance ou à tous les membres du groupe de correspondance. Le numéro de téléphone le plus récent en constitue un bon exemple.

Autre exemple : la récupération des données utiles dans les enregistrements concordants avant de les ignorer. Lorsque vous exécutez un fichier de permis de conduire par rapport à votre fichier interne, par exemple, vous pouvez récupérer les données de sexe et de date de naissance à ajouter à votre enregistrement interne.

Enregistrements avec la priorité la plus élevée en premier

Les opérations que vous configurez dans le groupe d'options Meilleur enregistrement doivent toujours commencer par le membre avec la priorité la plus élevée du groupe de correspondance (le principal) et se terminer par le dernier subordonné. Ainsi, les données sont récupérées de l'enregistrement avec la priorité la plus élevée à l'enregistrement avec la priorité la plus basse.

Vous devez donc veiller à hiérarchiser les enregistrements correctement en ajoutant une opération de post-correspondance Hiérarchisation du groupe avant l'opération Meilleur enregistrement.

488 2012-11-22

Qualité des données

16.4.9.1.1 Stratégies du meilleur enregistrement

Les stratégies fournies permettent de configurer facilement et rapidement des opérations courantes de meilleur enregistrement. Si aucune de ces stratégies ne répond à vos besoins, vous pouvez créer une stratégie du meilleur enregistrement personnalisée en utilisant votre propre code Python.

Les stratégies du meilleur enregistrement servent de critères pour exécuter des actions dans d'autres champs. Si les critères ne sont pas remplis, aucune action n'est exécutée.

Exemple :

Dans l'exemple de mise à jour d'un champ Téléphone avec les données les plus récentes, la stratégie de date peut être utilisée avec la priorité la plus récente pour mettre à jour l'enregistrement principal avec le dernier numéro de téléphone dans le groupe de correspondance. Cette partie (mise à jour de l'enregistrement principal avec le dernier numéro de téléphone) correspond à l'action. Vous pouvez aussi mettre à jour tous les enregistrements dans le groupe de correspondance (l'enregistrement principal et tous les enregistrements subordonnés) ou uniquement les enregistrements subordonnés.

Restriction :

La stratégie de date n'analyse pas la date, car elle ignore comment les données sont formatées.

Assurez-vous que les données sont prédéfinies au format AAAAMMJJ afin que les comparaisons de chaînes fonctionnent correctement. Pour ce faire, vous pouvez aussi définir une stratégie personnalisée en utilisant le code Python pour analyser la date et utiliser une comparaison de dates.

Stratégies personnalisées du meilleur enregistrement et Python

Dans les stratégies du meilleur enregistrement prédéfinies, la transformation Match génère automatiquement le code Python qu'elle utilise pour le traitement. Ce code contient des variables requises pour la gestion du traitement.

Variables courantes

Les variables courantes contenues dans le code Python généré sont les suivantes :

Variable

SRC

DST

RET

Description

Désigne le champ source.

Désigne le champ de destination.

Désigne la valeur renvoyée, qui indique si la stratégie a réussi (T) ou échoué

(F).

Variables NEWDST et NEWGRP

Utilisez les variables NEWDST et NEWGRP pour que la publication des données dans votre action du meilleur enregistrement soit indépendante des champs de stratégie. Si vous n'incluez pas ces variables, les données du champ de stratégie doivent également être mises à jour.

489 2012-11-22

Qualité des données

490

Variable

NEWDST

NEWGRP

Description

Indicateur de nouvelle destination Cette variable de chaîne porte la valeur "T" lorsque l'enregistrement de destination est nouveau ou qu'il a été modifié depuis la dernière évaluation de la stratégie et la valeur "F" lorsqu'il n'a pas été modifié depuis la dernière évaluation.

La variable NEWDST est utile uniquement si vous publiez vers plusieurs destinations telles que ALL ou SUBS dans l'option Destination de publication.

Indicateur de nouveau groupe Cette variable de chaîne porte la valeur "T" lorsque le groupe de correspondance a été modifié depuis la dernière évaluation de la stratégie et la valeur "F" lorsqu'il n'a pas été modifié depuis la dernière évaluation.

Exemple de NEWDST

Le code Python suivant a été généré à partir d'une stratégie NON_BLANK avec les options définies comme suit :

Définition des options

Stratégie du meilleur enregistrement

NON_BLANK

Priorité de la stratégie

Champ de stratégie

L'option de priorité n'est pas disponible pour la stratégie

NON_BLANK.

NORTH_AMERICAN_PHONE1_NORTH_AMERICAN_PHONE_STA-

NDARDIZED.

Destination de publication

TOUS

Publier une seule fois par destination

OUI

Voici à quoi ressemble le code Python.

# Setup local temp variable to store updated compare condition dct = locals()

# Store source and destination values to temporary variables

# Reset the temporary variable when the destination changes if (dct.has_key('BEST_RECORD_TEMP') and NEWDST.GetBuffer() == u'F'):

DESTINATION = dct['BEST_RECORD_TEMP'] else:

DESTINATION = DST.GetField(u'NORTH_AMERICAN_PHONE1_NORTH_AMERICAN_PHONE_STANDARDIZED')

SOURCE = SRC.GetField(u'NORTH_AMERICAN_PHONE1_NORTH_AMERICAN_PHONE_STANDARDIZED') if len(SOURCE.strip()) > 0 and len(DESTINATION.strip()) == 0:

RET.SetBuffer(u'T') dct['BEST_RECORD_TEMP'] = SOURCE else:

RET.SetBuffer(u'F') dct['BEST_RECORD_TEMP'] = DESTINATION

# Delete temporary variables del SOURCE del DESTINATION

2012-11-22

Qualité des données

Exemple : NEWDST et NEWGRP

Supposons que vous disposiez de deux groupes de correspondance, chacun contenant trois enregistrements.

Enregistrements

Groupe de correspondance 1

Groupe de correspondance 2

de groupe de correspondance

Enregistrement A

Enregistrement B

Enregistrement C

Enregistrement D

Enregistrement E

Enregistrement F

Chaque nouvelle destination ou nouveau groupe de correspondance est marqué(e) d'un "T".

NEWGRP

(T ou F)

NEWDST

(T ou F)

Comparaison

T (nouveau groupe de correspondance)

T (nouvelle destination "A")

T (nouvelle destination "B")

T (nouvelle destination "C")

T (nouvelle destination "D")

T (nouvelle destination "E")

T (nouvelle destination "F")

Enregistrement A > Enregistrement B

A > C

B > A

B > C

C > A

C > B

D > E

D > F

E > D

E > F

F > D

F > E

491 2012-11-22

Qualité des données

Création d'une stratégie du meilleur enregistrement prédéfinie

Assurez-vous d'ajouter une opération post-comparaison Meilleur enregistrement au niveau de correspondance approprié dans l'éditeur de correspondance. De plus, pensez à mapper les champs d'entrée pertinents pour qu'ils soient disponibles pour cette opération.

Cette procédure vous permet de générer rapidement les critères requis pour votre action du meilleur enregistrement. Les stratégies disponibles représentent des cas d'utilisation courants.

Saisissez un nom pour cette opération de meilleur enregistrement.

Sélectionnez une stratégie dans l'option Stratégie du meilleur enregistrement.

Sélectionnez une priorité dans l'option Priorité de la stratégie.

La sélection des valeurs dépend de la stratégie que vous avez sélectionnée à l'étape précédente.

Sélectionnez un champ dans le menu déroulant Champ de stratégie.

Le champ que vous sélectionnez ici sert de critère pour déterminer si une action du meilleur enregistrement est exécutée.

Exemple :

Le champ de stratégie sélectionné doit contenir des données correspondant à la stratégie que vous créez. Par exemple, si vous utilisez une stratégie de date la plus récente, assurez-vous que le champ sélectionné contient des données de date.

Création d'une stratégie du meilleur enregistrement personnalisée

Ajoutez une opération de meilleur enregistrement à votre transformation Match.

Saisissez un nom pour cette opération.

Dans l'option Stratégie du meilleur enregistrement, sélectionnez Personnalisé.

Sélectionnez un champ dans la liste déroulante Champ de stratégie.

Cliquez sur le bouton Afficher/Modifier Python pour créer votre code Python personnalisé et représenter votre stratégie personnalisée.

La fenêtre Editeur Python apparaît.

16.4.9.1.2 Actions du meilleur enregistrement

Les actions du meilleur enregistrement sont les fonctions que vous exécutez sur les données si le critère d'une stratégie est rempli.

Exemple :

Supposons que vous souhaitiez mettre à jour les numéros de téléphone de l'enregistrement principal.

Cela implique qu'un enregistrement subordonné dans le groupe de correspondance comporte une date plus récente et, par conséquent, qu'il existe certainement un nouveau numéro de téléphone pour la personne concernée.

492 2012-11-22

Qualité des données

Dans ce cas, vous devez paramétrer une action qui commande à la transformation Match de mettre

à jour le champ des numéros de téléphone dans l'enregistrement principal (action) si une date plus récente existe dans le champ de date (stratégie).

Sources et destinations

Il est important de connaître les différences entre sources et destinations dans une action de meilleur enregistrement.

La source est le champ d'où vous extrayez des données et la destination est l'endroit où vous publiez les données. Une source ou destination peut être un enregistrement principal ou subordonné dans un groupe de correspondance.

Exemple :

Dans l'exemple du numéro de téléphone, l'enregistrement subordonné porte la date la plus récente ; ainsi, les données du champ Téléphone (la source) sont utilisées et publiées dans l'enregistrement principal ( la destination).

Publication une seule fois ou plusieurs fois par destination

Dans les options de meilleur enregistrement, vous pouvez choisir de publier vers une destination une seule fois ou plusieurs fois par action en définissant l'option Publier une seule fois par destination.

Vous pouvez stipuler que votre action de meilleur enregistrement s'arrête après sa première publication de données dans l'enregistrement de destination ou qu'elle poursuive avec les autres enregistrements de groupe de correspondance. Votre décision dépend de la nature des données que vous publiez et des enregistrements dans lesquels vous publiez. Les deux exemples ci-après illustrent les deux cas de figure.

Si vous publiez une seule fois dans chaque enregistrement de destination, une fois les données publiées pour un enregistrement spécifique, la transformation Match passe à l'exécution de l'action de meilleur enregistrement suivante (si plusieurs sont définies) ou à l'enregistrement suivant.

Si vous ne limitez pas l'action de cette manière, toutes les actions sont exécutées à chaque fois que la stratégie renvoie Vrai.

Indépendamment de cette définition, la transformation Match fonctionne toujours par ordre de priorité dans les membres du groupe de correspondance. En publiant dans l'enregistrement n°1 dans le graphique ci-dessous sans limiter la publication à une seule fois, on obtient le résultat suivant :

Groupe de correspondance

Action

Enregistrement n°1 (principal)

493 2012-11-22

Qualité des données

Groupe de correspondance

Action

Enregistrement n°2 (subordonné)

Tout d'abord, l'action est tentée en utilisant comme source l'enregistrement ayant la priorité la plus élevée (enregistrement n°2) parmi les autres enregistrements de groupe de correspondance.

Enregistrement n°3 (subordonné)

Ensuite, l'action est tentée en utilisant comme source l'enregistrement suivant ayant la priorité la plus élevée (enregistrement n°3).

Enregistrement n°4 (subordonné)

Enfin, l'action est tentée en utilisant comme source l'enregistrement ayant la priorité la plus faible (enregistrement n°4).

Dans cette dernière tentative, l'enregistrement n°4 était la dernière source utilisée pour l'action et peut donc être une source de données pour l'enregistrement de sortie. Cependant, si vous définissez votre action de meilleur enregistrement de sorte à publier une seule fois par enregistrement de destination, vous obtenez le résultat suivant :

Groupe de correspondance

Action

Enregistrement n°1

(principal)

Enregistrement n°2

(subordonné)

Tout d'abord, l'action est tentée en utilisant comme source l'enregistrement ayant la priorité la plus élevée (enregistrement n°2) parmi les autres enregistrements de groupe de correspondance.

Si cette tentative réussit, la transformation Match considère que cette action de meilleur enregistrement est terminée et passe à l'action suivante (le cas échéant) ou à l'enregistrement de sortie suivant.

Si cette tentative échoue, la transformation Match passe au membre du groupe de correspondance ayant la priorité suivante la plus élevée et tente l'opération de publication.

Enregistrement n°3

(subordonné)

Enregistrement n°4

(subordonné)

Dans ce cas, l'enregistrement n°2 était la dernière source utilisée pour l'action de meilleur enregistrement ; par conséquent, il est la source des données publiées dans l'enregistrement de sortie.

494 2012-11-22

Qualité des données

Création d'une action du meilleur enregistrement

L'action du meilleur enregistrement correspond à la publication des données d'un enregistrement source vers un enregistrement de destination, basée sur les critères de votre stratégie du meilleur enregistrement.

Créez une stratégie prédéfinie ou personnalisée.

Sélectionnez le ou les enregistrements à publier dans l'option Destination de publication.

Définissez si vous voulez publier une seule fois ou plusieurs fois vers un enregistrement de destination dans l'option Publier une seule fois par destination.

Dans la table Champs d'action du meilleur enregistrement, sélectionnez votre champ source et votre champ de destination.

Lorsque vous sélectionnez un champ source, la colonne Champ de destination est automatiquement renseignée avec les données du même champ. Vous devez modifier le champ de destination s'il ne s'agit pas du champ dans lequel vous voulez publier vos données.

Pour créer une action du meilleur enregistrement personnalisée, sélectionnez Oui dans la colonne

Personnalisé.

Vous pouvez à présent accéder à l'éditeur Python pour créer un code Python personnalisé pour votre action personnalisée.

16.4.9.1.3 Protection de destination

Les opérations Meilleur enregistrement et ID unique de la transformation Match vous permettent de modifier des enregistrements existants dans vos données. Vous pouvez être amené à devoir protéger des données d'enregistrements spécifiques ou des données d'enregistrements de sources d'entrée spécifiques contre tout risque d'écrasement.

L'onglet Protection de destination des opérations de la transformation Match vous permet de protéger vos données contre d'éventuelles modifications.

Protection des enregistrements de destination via des champs

Dans l'onglet Protection de destination, sélectionnez Activer la protection de la destination.

Sélectionnez une valeur dans la liste déroulante de l'option Protection de destination par défaut.

Cette valeur détermine si une destination est protégée dans le cas où le champ de protection de destination ne comporte pas de valeur valide.

Sélectionnez l'option Spécifier la protection destinataire par champ, puis sélectionnez un champ dans la liste déroulante Champ de protection de destination (ou le Champ ID unique protégé).

Le champ sélectionné doit comporter une valeur O ou N pour spécifier l'action.

Tout enregistrement portant la valeur O dans le champ de protection de destination est protégé contre toute modification.

495 2012-11-22

Qualité des données

496

Protection des enregistrements de destination basée sur l'appartenance dans une source d'entrée

Pour pouvoir exécuter cette tâche, vous devez au préalable ajouter une opération Source d'entrée et définir des sources d'entrée.

Dans l'onglet Protection de destination, sélectionnez Activer la protection de la destination.

Sélectionnez une valeur dans la liste déroulante de l'option Protection de destination par défaut.

Cette valeur détermine si une destination (source d'entrée) est protégée dans le cas où vous ne définissez pas spécifiquement la source dans la table ci-dessous.

Sélectionnez l'option Spécifier la protection destinataire par source.

Sélectionnez une source d'entrée dans la première ligne de la colonne Nom de source, puis sélectionnez une valeur dans la colonne Destination protégée (ou ID unique protégé).

Répétez cette opération pour chaque source d'entrée pour laquelle vous voulez définir une protection.

N'oubliez pas que si vous ne spécifiez pas de protection pour chaque source, la valeur par défaut est utilisée.

16.4.9.2 ID unique

Un ID unique correspond à un champ dans vos données qui contient une valeur unique associée à un enregistrement ou groupe d'enregistrements. Vous pouvez, par exemple, utiliser un ID unique dans la base de données interne de votre société pour recevoir les mises à jour à un intervalle prédéfini (chaque semaine, chaque mois ou chaque trimestre). L'ID unique s'applique à un enregistrement de données de la même façon qu'un numéro d'identification national peut s'appliquer à une personne, comme dans le cas du numéro de sécurité sociale aux Etats-Unis et du numéro d'assurance national au Royaume-Uni.

Il crée et suit les relations entre les données d'une exécution à l'autre. L'opération ID unique permet de définir votre propre ID de départ pour la génération de nouvelles clés ou de paramétrer une affectation dynamique sur la base des données existantes. L'opération de traitement post-correspondance ID unique permet également de commencer à l'endroit où l'ID unique le plus élevé de l'exécution précédente s'est terminé.

Rôle des ID uniques dans les groupes de correspondance

L'ID unique n'affecte pas nécessairement un ID à chaque enregistrement. Vous pouvez affecter le même ID à chaque enregistrement d'un groupe de correspondance (groupes d'enregistrements identifiés comme des correspondances).

Si vous affectez des ID directement à un groupe de décomposition, utilisez l'option Champ Numéro

de groupe pour indiquer les enregistrements à regrouper. Par ailleurs, veillez à ce que les enregistrements soient triés par numéro de groupe afin que les enregistrements portant le même numéro de groupe apparaissent conjointement.

Si vous affectez des ID à des enregistrements faisant partie d'un groupe de correspondance obtenu à partir du processus de correspondance, vous n'avez pas à utiliser le champ Numéro de groupe.

2012-11-22

Qualité des données

Remarque :

Si vous affectez des ID directement à un groupe de décomposition et que le champ Numéro de groupe n'est pas défini, le processus de correspondance considère la collection de données complète comme un seul groupe de correspondance.

16.4.9.2.1 Options de traitement des ID uniques

L'opération de traitement post-comparaison ID unique combine les informations de mise à jour de la source et les informations de la base de données principale pour former une seule source d'informations de groupe de correspondance. L'opération peut ensuite affecter, combiner, fractionner et supprimer des ID uniques si nécessaire. Pour ce faire, utilisez l'option Traitement de l'opération en cours.

Opération Description

Affecter

Affecter un nouvel ID à des enregistrements uniques dépourvus d'ID ou à tous les membres d'un groupe dépourvus d'ID. De plus, l'opération Affecter copie un ID existant si un membre d'un groupe de correspondance est déjà doté d'un ID.

Une valeur est affectée à chaque enregistrement.

• Les enregistrements d'un groupe de correspondance dans lequel un enregistrement avait un ID unique d'entrée partagent cette valeur avec d'autres enregistrements du groupe de correspondance dépourvu de valeur d'entrée. La première valeur trouvée est partagée.

L'ordre est important : si un champ prioritaire peut être séquencé dans l'ordre croissant, placez une opération post-comparaison Hiérarchisation avant l'opération ID unique.

• Les enregistrements d'un groupe de correspondance dans lequel deux enregistrement ou plus avaient différentes valeurs d'entrée ID unique conservent chacun leur valeur d'entrée.

• Si tous les enregistrements d'un groupe de correspondance ne sont pas dotés d'une valeur d'entrée ID unique, le prochain ID disponible sera affecté à chaque enregistrement du groupe.

Si le champ d'entrée GROUP_NUMBER est utilisé, les enregistrements dotés du même numéro de groupe doivent apparaître de manière consécutive dans la collection de données.

Remarque :

Utilisez le champ d'entrée GROUP_NUMBER uniquement pour traiter un groupe de décomposition susceptible de contenir des groupes de correspondance plus petits. Si le champ

GROUP_NUMBER n'est pas spécifié, l'opération ID unique suppose que la collection entière forme un seul groupe.

497 2012-11-22

Qualité des données

Opération Description

AffecterCombi ner

Exécute à la fois une opération Affecter et Combiner.

Une valeur est affectée à chaque enregistrement.

• Les enregistrements qui étaient dépourvus d'une valeur ID unique d'entrée et qui ne correspondent pas à d'autres enregistrements contenant une valeur ID unique d'entrée sont affectés au prochain ID disponible. Il s'agit d'enregistrements d'"ajout" qui pourraient

être des enregistrements uniques ou des correspondances, mais pas avec un autre enregistrement préalablement affecté à une valeur ID unique.

• Les enregistrements d'un groupe de correspondance dans lequel un ou plusieurs enregistrements avaient un ID unique d'entrée avec la même valeur ou des valeurs différentes partagent la première valeur trouvée avec tous les autres enregistrements du groupe de correspondance. L'ordre est important : si un champ prioritaire peut être séquencé dans l'ordre croissant, placez une opération post-comparaison Hiérarchisation avant l'opération

ID unique.

Si le champ d'entrée GROUP_NUMBER est utilisé, les enregistrements dotés du même numéro de groupe doivent apparaître de manière consécutive dans la collection de données.

Remarque :

Utilisez le champ d'entrée GROUP_NUMBER uniquement pour traiter un groupe de décomposition susceptible de contenir des groupes de correspondance plus petits. Si le champ

GROUP_NUMBER n'est pas spécifié, l'opération ID unique suppose que la collection entière forme un seul groupe.

498 2012-11-22

Qualité des données

Opération

Combiner

Description

Garantit que les enregistrements d'un même groupe de correspondance sont dotés du même

ID unique.

Par exemple, cette opération peut être utilisée pour affecter à tous les membres d'un foyer le même ID unique. Plus précisément, si un foyer compte deux personnes qui partagent le même ID unique et qu'une troisième personne les rejoint avec un ID unique différent, l'opération Combiner peut être utilisée pour affecter le même ID aux trois personnes du foyer.

Le premier enregistrement d'un groupe de correspondance portant un ID unique est celui doté de la priorité la plus élevée. Les autres enregistrements du groupe se voient affecter l'ID de cet enregistrement (en supposant que l'enregistrement en question ne soit pas protégé). L'opération Combiner n'affecte pas d'ID unique à un enregistrement qui n'a pas déjà un

ID unique. Elle combine simplement l'ID unique des enregistrements d'un groupe de correspondance déjà dotés d'un ID unique.

Si le champ d'entrée GROUP_NUMBER est utilisé, les enregistrements dotés du même numéro de groupe doivent apparaître de manière consécutive dans la collection de données.

Remarque :

Utilisez le champ d'entrée GROUP_NUMBER uniquement pour traiter un groupe de décomposition susceptible de contenir des groupes de correspondance plus petits. Si le champ

GROUP_NUMBER n'est pas spécifié, l'opération ID unique suppose que la collection entière forme un seul groupe.

Supprimer

Supprime les ID uniques des enregistrements qui n'en ont plus besoin, à condition qu'ils ne soient pas protégés contre la suppression. Si vous utilisez un fichier et que vous recyclez des ID, ces ID sont ajoutés au fichier. Lors d'une suppression, les enregistrements dotés du même ID unique doivent être regroupés.

Lorsque Match détecte qu'un groupe d'enregistrements doté du même ID unique est sur le point d'être supprimé :

• Si des enregistrements sont protégés, tous les enregistrements du groupe sont considérés comme étant protégés.

• Si le recyclage est activé, l'ID unique est recyclé une fois seulement, même si un groupe d'enregistrements portaient le même ID.

499 2012-11-22

Qualité des données

Opération

Fractionner

Description

Modifie les enregistrements uniques d'un groupe fractionné de sorte que les enregistrements n'appartenant pas au même groupe de correspondance porte un ID différent. L'enregistrement avec la priorité la plus élevée au sein du groupe conserve son ID unique. Les autres se voient affecter de nouveaux ID uniques.

Pour cette opération, vous devez regrouper vos enregistrements par ID unique plutôt que par numéro de groupe de correspondance.

Exemple :

• Les enregistrements d'un groupe de correspondance dans lequel deux enregistrements ou plus portaient des valeurs d'entrée ID unique différentes ou des valeurs vides conservent chacun leur valeur d'entrée, renseignée ou vide selon l'enregistrement en question.

• Les enregistrements qui étaient dépourvus d'une valeur ID unique d'entrée et qui ne correspondaient pas à d'autres enregistrements contenant une valeur ID unique d'entrée se voient affecter un ID unique vide de sortie.

• Pour les enregistrements qui étaient pourvus de la même valeur ID unique d'entrée et qui ne sont plus considérés comme des correspondances, le premier enregistrement porte la valeur d'entrée. Les autres enregistrements se voient affecter de nouvelles valeurs

ID unique.

16.4.9.2.2 Protection des ID uniques

La sortie de l'ID unique dépend du fait que le champ d'entrée dans l'enregistrement concerné est doté ou non d'une valeur qui indique que l'ID est protégé.

• Si le champ ID unique protégé n'est pas mappé comme champ d'entrée, Match suppose qu'aucun des enregistrements n'est protégé.

• Deux valeurs sont autorisées dans ce champ : O et N. Tout autre valeur est convertie en O.

La valeur N signifie que l'ID unique n'est pas protégé et que l'ID publié à la sortie peut être différent de l'ID d'entrée.

La valeur O signifie que l'ID unique est protégé et que l'ID publié à la sortie sera identique à l'ID d'entrée.

• Si le champ ID unique protégé est mappé comme champ d'entrée, une valeur autre que N signifie que les données d'entrée de l'enregistrement seront conservées dans le champ ID unique de sortie.

Ces règles de champs protégés s'appliquent à toutes les opérations de traitement ID unique.

16.4.9.2.3 Limitations des ID uniques

Le fait que certaines options dans l'opération ID unique soient basées sur la lecture d'un fichier ou la référence à une valeur de champ peut avoir des conséquences lorsque vous exécutez un environnement de serveur multiple ou serveur en temps réel et que vous partagez un fichier ID unique.

500 2012-11-22

Qualité des données

501

• Si vous lisez un fichier ou écrivez dans un fichier, le fichier ID unique doit figurer dans un système de fichiers partagés.

• Les ID recyclés sont utilisés dans l'ordre premier entré, premier sorti. Lorsque la transformation

Match recycle un ID, elle ne vérifie pas s'il est déjà présent dans le fichier. Vous devez vous assurer qu'une valeur ID unique donnée n'est pas recyclée plus d'une fois.

16.4.9.2.4 Affectation d'ID uniques à l'aide d'un fichier

Dans le groupe d'options ID unique, sélectionnez l'option Valeur à partir du fichier.

Définissez le nom du fichier et son chemin d'accès dans l'option Fichier.

Le fichier doit être au format XML et respecter la structure suivante :

</UniqueIdSession>

Remarque :

La valeur 477 est un exemple de valeur de départ. Toutefois, la valeur doit être au moins égale à

16.4.9.2.5 Affectation d'ID uniques à l'aide d'une constante

De même qu'avec un fichier, vous pouvez affecter un ID unique de départ en définissant cette valeur.

Sélectionnez l'option Valeur constante.

Définissez l'option Valeur de départ sur la valeur d'ID souhaitée.

16.4.9.2.6 Affectation d'ID uniques à l'aide d'un champ

L'option de champ permet d'envoyer l'ID unique de départ via un champ dans votre source de données ou à partir d'une transformation User-Defined, par exemple.

L'ID unique de départ est transmis à la transformation Match avant que le premier nouvel ID unique ne soit demandé. Si aucun ID unique n'est reçu, le numéro de départ par défaut est le 1.

Attention :

Attention lorsque vous utilisez l'option de champ ! Le champ que vous utilisez doit contenir la valeur d'ID unique par laquelle vous voulez que débute la numérotation séquentielle. Cela signifie que chaque enregistrement traité doit contenir ce champ et que chaque enregistrement doit avoir la même valeur dans ce champ.

Supposons que la valeur utilisée soit 100 000. Lors du traitement, le premier enregistrement ou groupe de correspondance aura un ID de 100 001. Le second enregistrement ou groupe de correspondance aura un ID de 100 002, etc.

La valeur du premier enregistrement transmise à la transformation Match contient la valeur de début de l'incrémentation.

Il est impossible de savoir à l'avance quel enregistrement sera transmis à la transformation Match en premier (en raison du tri, par exemple) ; par conséquent, il est impossible de savoir par quelle valeur débutera l'incrémentation.

2012-11-22

Qualité des données

Affectation d'ID uniques à l'aide d'un champ

Sélectionnez l'option Champ.

Dans l'option Champ ID unique de départ, sélectionnez le champ contenant la valeur de l'ID unique de départ.

16.4.9.2.7 Affectation d'ID uniques à l'aide d'un GUID

Vous pouvez utiliser un identificateur global unique (GUID) comme ID unique.

• Sélectionnez l'option GUID.

Remarque :

Le GUID est également appelé identificateur unique universel (UUID). La variante UUID utilisée pour l'ID unique est une chaîne temporelle de 36 caractères au format suivant : TimeLow-TimeMid-Time

HighAndVersion-ClockSeqAndReservedClockSeqLow-Node

Pour en savoir plus sur l'UUID, voir le document RFC (Request for Comments).

Rubriques associées

• UUID RFC: http://www.ietf.org/rfc/rfc4122.txt

16.4.9.2.8 Recyclage d'ID uniques

Si des ID uniques sont supprimés avec l'option de traitement Supprimer, vous pouvez les réécrire dans un fichier pour les utiliser ultérieurement.

Dans le groupe d'options ID unique, définissez l'option Traitement de l'opération en cours sur

Supprimer.

Sélectionnez l'option Valeur à partir du fichier.

Définissez le nom du fichier et son chemin d'accès dans l'option Fichier.

Définissez l'option Recycler les ID uniques sur Oui. Ce fichier est le même que celui qui peut être utilisé pour affecter un numéro ID de départ.

Utilisation de vos propres ID uniques recyclés

Si vous disposez d'ID que vous voulez recycler et utiliser dans un flux de données, vous pouvez les saisir dans un fichier à utiliser pour le recyclage des ID et la publication d'une valeur de départ pour les ID. Saisissez ces ID dans une balise XML <R></R>. Exemple :

</UniqueIdSession>

502 2012-11-22

Qualité des données

16.4.9.2.9 Protection de destination