Données propres à une région. SAP BusinessObjects Data Services 4.1 Support Package 1
Qualité des données
16.2.9 Données propres à une région
16.2.9.1 A propos des domaines
Un domaine décrit un type spécifique de données ou de contenu. Les domaines étendent les fonctionnalités de Data Cleanse afin de nettoyer correctement les données selon les standards culturels d'une région. Dans un package de nettoyage des données personnelles et professionnelles fourni par
SAP, chacun des paramètres régionaux constitue un domaine. Le tableau ci-dessous illustre la manière dont l'analyse des noms peut varier selon la culture :
Domaine Nom
Prénom1
Sortie analysée
Prénom2 Nom_Famille1 Nom_Famille2
Espagnol
Portugais
Français
Allemand
Juan C. Sánchez
João A. Lopes
Jean-Christophe Rousseau
Hans Joachim
Müller
Juan
João
Jean-Chris tophe
Hans
C.
Joachim
Sánchez
A.
Rousseau
Müller
Lopes
Anglais
(Etats-Unis et Canada)
James Andrew
Smith
James Andrew Smith
Chaque variante est automatiquement affectée au domaine global et peut être affectée à un ou plusieurs autres domaines. Une variante peut avoir une signification différente dans chaque domaine. Autrement dit, les propriétés associées à une variante donnée, comme le format et la classification standard, peuvent être spécifiques à un domaine. Par exemple, la variante AG a des significations différentes en allemand et en anglais des Etats-Unis. En allemand, AG est une abréviation de “Aktiengesellschaft”
(type de société), nettoyée sous la forme « AG », alors qu'en anglais, AG est une abréviation d'Agriculture, nettoyée sous la forme « Ag ». Vous pouvez contrôler la manière dont Data Cleanse nettoie vos données en indiquant le ou les domaines que Data Cleanse doit appliquer et dans quel ordre.
395 2012-11-22
Qualité des données
396
Remarque :
Plusieurs domaines sont pris en charge uniquement par les packages de nettoyage des données personnelles et professionnelles de la version 4.1 ou supérieure. Les variantes des packages de nettoyage des données personnalisés et de nettoyage des données personnelles et professionnelles créés avant Information Steward 4.1 sont affectés uniquement au domaine global.
Domaine global
Le domaine global est un domaine au contenu spécial, qui comporte toutes les variantes et leurs propriétés associées. Si une variante n'est pas associée à des informations propres au domaine, le domaine global sert de domaine par défaut.
Lorsque vous ajoutez une nouvelle variante, elle est d'abord ajoutée au domaine global. Si nécessaire, vous pouvez ensuite l'ajouter à d'autres domaines afin d'affecter toute information propre au domaine.
L'ajout d'une variante à un domaine autre que le domaine global est nécessaire uniquement si la variante comporte des propriétés comme le sexe, la classification, le format standard, etc., différentes entre le domaine global et les autres domaines.
Si vous supprimez une variante du domaine global, elle est également supprimée de tous les autres domaines auxquels elle est associée.
Contrôle du nettoyage propre au domaine
L'administrateur ou le testeur de Data Services peut définir la Séquence de domaines de contenu dans la transformation Data Cleanse afin de contrôler la manière dont Data Cleanse analyse vos données spécifiques au domaine. Dans l'exemple ci-dessous, regardez comment le sexe serait appliqué au nom Jean d'après les informations suivantes :
Nom
Jean
Domaine
Global
Jean
Jean
Français
Anglais (Etats-Unis et Canada)
Sexe
AMBIGU
SEXE_MASCU
LIN_PROBABI
LITE_ELEVEE
SEXE_FEMININ_PRO
BABILITE_FAIBLE
Si vous ne voulez favoriser aucune propriété propre au domaine, sélectionnez uniquement GLOBAL.
Sexe ambigu sera affecté au nom Jean car ni les informations spécifiques au domaine français, ni celles propres au domaine anglais ne sont prises en compte.
Lorsque les données proviennent d'une région à domaine unique, indiquez un domaine suivi de Global.
Par exemple, lorsque vous indiquez EN_US suivi de GLOBAL (EN_US|GLOBAL), le sexe féminin
(probabilité faible) sera affecté au nom Jean.
Lorsque les données proviennent d'une région à plusieurs domaines, sélectionnez la séquence préférée des domaines en terminant par Global. Par exemple, le Benelux (Belgique, Pays-Bas, Luxembourg) comprend les domaines hollandais, français et allemand. Selon vos préférences de nettoyage, vous pouvez classer les domaines selon la séquence voulue. Par exemple, pour favoriser le domaine
2012-11-22
Qualité des données hollandais, indiquez NL|FR|DE|GLOBAL. Quand il existe dans les données une variante comportant différentes propriétés dans les domaines du contenu sélectionné, le processus de nettoyage utilise d'abord les propriétés du hollandais s'il en trouve, puis les propriétés du français dans le cas contraire, et enfin les propriétés de l'allemand s'il n'existe aucune propriété spécifique au hollandais ni au français.
Si aucun des trois domaines n'a de propriétés spécifiques, Data Cleanse utilise celles indiquées dans le domaine global.
La Suisse est un autre exemple de région à plusieurs domaines. La Suisse comprend les domaines allemand, français et italien. Selon vos préférences de nettoyage, vous pouvez classer les domaines selon la séquence voulue, par exemple pour favoriser le domaine allemand, indiquez DE|FR|IT|GLOBAL.
Quand il existe dans les données une variante comportant différentes propriétés dans les domaines du contenu sélectionné, le processus de nettoyage utilise d'abord les propriétés de l'allemand s'il en trouve, puis les propriétés du français dans le cas contraire, et enfin les propriétés de l'italien s'il n'existe aucune propriété spécifique à l'allemand ni au français. Si aucune des trois n'a de signification particulière, Data Cleanse utilise celle qui existe dans le domaine global.
Rubriques associées
•
• Data Services Reference Guide: Cleansing Package options
• Data Services Reference Guide: Dynamic transform settings
•
397
16.2.9.2 A propos du format de sortie
D'après le domaine indiqué dans le format de sortie, Data Cleanse utilise certains champs de sortie et met en forme les données de ces champs selon les standards régionaux. Indiquez le domaine dans la zone Format de sortie de la transformation Data Cleanse.
Selon les standards régionaux, dans certains domaines, un prénom composé est combiné et édité dans le champ Prénom1, alors que dans d'autres domaines, le premier prénom est édité dans le champ
Prénom1 et le deuxième dans le champ Prénom2.
De même, dans certains domaines, un nom de famille composé est combiné et édité dans le champ
Nom de famille1
, alors que dans d'autres domaines, le premier nom de famille est édité dans le champ Nom de famille1 et le deuxième dans le champ Nom de famille2.
Dans certains domaines, le champ de sortie composite Personne comprend le prénom suivi du nom de famille alors que dans d'autres domaines, le champ de sortie composite Personne comprend le nom de famille suivi du prénom.
La transformation Data Cleanse requiert l'indication d'un format de sortie, même si les données sont vraiment globales.
Lorsque vous avez des données d'une région à domaine unique, indiquez le domaine. Par exemple, sélectionnez DE pour l'Allemagne et ZH pour la Chine.
2012-11-22
Qualité des données
Si vous avez des données d'une région à plusieurs domaines, vous devez sélectionner le domaine préféré. Vos données peuvent être mises en forme différemment selon le domaine sélectionné.
Par exemple, pour les données de Malaisie, vous pouvez choisir de sortir vos données selon le format de sortie malais, chinois ou indien. Comme l'illustre le tableau ci-dessous, le nom YI LING CHEN sera
édité dans des champs différents et selon un ordre différent en fonction du format de sortie sélectionné.
Champ de sortie
Prénom1
Prénom2
Nom_Famille1
Format de sortie
Malais
Yi Ling
Chen
Chinois
Yi LIng
Chen
Indien
Yi
Ling
Chen
Nom_Famille2
Personne
Yi LIng Chen Chen Yi LIng Yi LIng Chen
Autre exemple, les données des Philippines peuvent être éditées selon le format anglais ou espagnol.
Comme l'illustre le tableau ci-dessous, le nom Juan Carlos Sanchez Cruz sera édité dans des champs différents selon le format de sortie sélectionné.
Champ de sortie
Format de sortie
Anglais Espagnol
Prénom1
Prénom2
Nom_Famille1
Nom_Famille2
Personne
Juan
Carlos
Sánchez Cruz
Juan Carlos Sánchez Cruz
Juan
Carlos
Sánchez
Cruz
Juan Carlos Sánchez Cruz
Pour les données du Benelux, vous pouvez choisir d'éditer vos données selon le format hollandais, français ou allemand. Comme l'illustre le tableau ci-dessous, le nom H. D. BUDJHAWAN sera édité dans des champs différents selon le format de sortie sélectionné.
Champ de sortie
Prénom1
Format de sortie
Hollandais
H.D.
Français
H. D.
Allemand
H.
398 2012-11-22
Qualité des données
399
Champ de sortie
Prénom2
Nom_Famille1
Nom_Famille2
Personne
Format de sortie
Hollandais
Budjhawan
H.D. Budjhawan
Français
Budjhawan
H. D. Budjhawan
Allemand
D.
Budjhawan
H. D. Budjhawan
Vous pouvez modifier le format de sortie existant ou ajouter un format de sortie propre au domaine en modifiant les règles appropriées dans votre package de nettoyage des données.
Rubriques associées
• Data Services Reference Guide: Cleansing Package options
• Data Services Reference Guide: Dynamic transform settings
16.2.9.3 Personnalisation des titres de civilité par pays
Lorsque le nom d'entrée n'inclut pas de titre de civilité, Data Cleanse génère les titres de civilité anglais
Mr. et Ms. Pour modifier ces termes, ajoutez une transformation Query après la transformation Data
Cleanse et utilisez la fonction search_replace pour remplacer les termes avec les titres de civilité appropriés pour la région.
16.2.9.4 Numéros personnels d'identification
Data Cleanse peut identifier les numéros de sécurité sociale des Etats-Unis et les séparer dans des composants discrets Si vos données incluent des numéros personnels d'identification autres que des numéros de sécurité sociale des Etats-Unis, il est possible de créer des règles de modèle défini par l'utilisateur pour identifier les numéros. Les règles de modèle défini par l'utilisateur font partie des packages de nettoyage des données et sont définies dans l'onglet Modifier les données de référence du Générateur de package de nettoyages des données.
Les règles de modèle défini par l'utilisateur sont analysées dans Data Cleanse avec l'analyseur UDPM.
Les numéros de sécurité sociale des Etats-Unis sont analysés dans Data Cleanse avec l'analyseur
SSN.
2012-11-22

Публичная ссылка обновлена
Публичная ссылка на ваш чат обновлена.