Présentation de la transformation Entity Extraction. SAP BusinessObjects Data Services 4.1 Support Package 1
Transformations
Ces dictionnaires vous permettent d'archiver des entités et de gérer des variations de nom. Les noms d'entité connus peuvent être standardisés à l'aide d'un dictionnaire.
Le Traitement des données de texte automatise l'extraction des informations clés de sources de texte pour réduire la vérification et le taggage manuels. Ceci permet une réduction des coûts, en facilitant la compréhension des importants insights masqués dans le texte. L'accès aux informations pertinentes
à partir d'un texte non structuré peut faciliter la rationalisation et réduire les coûts superflus.
Dans Data Services, le traitement des données de texte fait référence à un ensemble de transformations qui extrait des informations à partir de données non structurées et crée des données structurées pouvant
être utilisées par divers outils de Business Intelligence.
8.6.2 Présentation de la transformation Entity Extraction
Le traitement des données de texte est réalisé dans le logiciel à l'aide de la transformation suivante :
• Entity Extraction - Extrait des entités et des faits d'un texte non structuré.
L'extraction implique le traitement et l'analyse de texte, la recherche d'entités d'intérêt, leur affectation au type approprié et la présentation de ces métadonnées sous un format standard. Les dictionnaires et les règles vous permettent de personnaliser votre sortie d'extraction pour inclure des entités qui y sont définies. Les applications d'extraction s'adaptent aux besoins de vos informations. Les exemples suivants sont des informations pouvant être extraites à l'aide de cette transformation :
• Co-occurrence et associations de noms de marque, noms de société, personne, volume d'affaires etc.
• Informations concurrentielles sur le marché telles que les activités de concurrent, fusion et
événements d'acquisition, communiqués, contact information etc.
• Associations d'une personne, activités ou rôle dans un événement spécifique.
• Informations sur la réclamation client, rapports ou informations relatives au patient, par exemple les effets inverses du médicament.
• Divers modèles alphanumériques, par ex. numéros ID, dates de contrat, profits etc.
8.6.2.1 Entités et faits - Présentation
Les Entités indiquent des noms de personnes, des lieux et des éléments pouvant être extraits. Les
Entités sont définies comme couplage d'un nom et son type. Le Type indique la catégorie principale d'une entité.
Vous trouverez ci-dessous des exemples d'entités :
• Paris est une entité ayant comme nom "Paris" et comme type LOCALITE.
• M. Joe Smith est une entité ayant comme nom "M. Joe Smith" et comme type PERSONNE.
206 2012-11-22
Transformations
Les entités peuvent avoir des sous-types. Un sous-type indique une autre classification d'une entité ; il désigne une spécification hiérarchique d'un type d'entité permettant de distinguer différentes variétés sémantiques du même type d'entité. Un sous-type peut être décrit comme une sous-catégorie d'une entité.
Vous trouverez ci-dessous des exemples d'entités et de sous-types :
• Boeing 747 est une entité du type VEHICULE et a comme sous-type AIR.
• Mercedes-Benz SL500 est une entité du type VEHICULE et a comme sous-type TERRAIN.
• SAP est une entité du type ORGANISATION et a comme sous-type COMMERCIALE.
Les Faits indiquent un modèle qui crée une expression pour extraire des informations telles que les sentiments, les événements ou les relations. Les faits sont extraits à l'aide de règles d'extraction personnalisées. Un fait désigne un terme de protection couvrant des extractions de modèles plus complexes incluant une ou plusieurs entités, une relation entre une ou plusieurs entités ou une sorte de prédicat concernant une entité. Les faits indiquent dans quel contexte différentes entités sont reliées dans le texte. Les entités par elles-mêmes indiquent uniquement qu'elles figurent dans un document mais les faits fournissent des informations sur la façon dont ces entités sont reliées. Les types de faits identifient la catégorie d'un fait ; par exemple, des sentiments et des demandes. Un sous-fait désigne des informations clés imbriquées dans un fait. Un type de sous-fait peut être décrit comme une catégorie associée au sous-fait.
Vous trouverez ci-dessous quelques exemples de faits et de types de faits :
• SAP a acquis Business Objects dans de bonnes conditions. Il s'agit d'un événement de type fusion et acquisition (M&A).
• Monsieur Joe Smith est très préoccupé par ses réservations auprès de la compagnie aérienne. Il s'agit d'un fait de type SENTIMENT.
Comment fonctionne l'extraction
Le processus d'extraction utilise sa connaissance inhérente de la sémantique des mots et du contexte linguistique dans lequel ces mots apparaissent pour rechercher des entités et des faits. Il crée des modèles spécifiques pour extraire des entités et des faits en fonction de règles système. Vous pouvez ajouter des entrées dans un dictionnaire et écrire des règles personnalisées pour personnaliser une sortie d'extraction. Le texte d'exemple suivant et la sortie de l'exemple suivante indiquent comment un contenu non structuré peut être transformé en une information structurée pour être traité et analysé ultérieurement.
Exemple : Texte d'exemple et informations relatives à l'extraction
"M. Jones est très ennuyé par rapport à Green Insurance Corp. L'offre relative à son véhicule soldé n'est pas assez importante. Il déclare que Green lui a proposé 1250 $ mais sa voiture est estimée partout à 2500 $ et 4500 $. Monsieur Jones souhaiterait que Green s'aligne sur d'autres concurrents."
Cet exemple de texte, lorsqu'il est traité avec la transformation d'extraction, configuré à l'aide des règles personnalisées de sentiment et de demande identifierait et regrouperait les informations de façon logique (identification d'entités, sous-types, faits, types de faits, sous-faits et types de sous-faits) pouvant être traités ultérieurement.
207 2012-11-22
Transformations
Les tableaux suivants indiquent des résultats partiels avec des informations marquées comme entités, types d'entités, sous-types, faits, types de faits, sous-faits et types de sous-faits à partir de l'exemple de texte :
Sous-type Entités
M. Jones
Green Insurance
Green
1250 $
Type d'entité
PERSONNE
ORGANISATION
DIVERS_PROPRIETE
DEVISE
COMMERCIALE
Type de sous-fait Faits Type de fait Sous-fait
M. Jones est très ennuyé par rapport
à Green Insurance
Corp.
SENTIMENT très ennuyé
Jones souhaiterait que Green s'aligne sur d'autres concurrents.
DEMANDE
SentimentTrèsNégatif
208
8.6.2.2 Présentation du dictionnaire
Un dictionnaire d'extraction désigne un répertoire d'entités défini par l'utilisateur. Il s'agit d'un outil de personnalisation facile à utiliser qui indique une liste d'entités que la transformation Entity Extraction doit toujours extraire lors du traitement d'un texte. Les informations sont classées sous le formulaire standard et la variante d'une entité. Un formulaire standard peut avoir une ou plusieurs variantes imbriquées ; les variantes sont d'autres noms connus d'une entité. Par exemple, United Parcel Service of America est le formulaire standard pour cette société et United Parcel Service et UPS sont tous deux des variantes de la même société.
Alors que chaque formulaire standard doit avoir un type, les variantes peuvent de manière facultative avoir leur propre type , par exemple alors que United Parcel Service of America est associé à un type de formulaire standard ORGANISATION, vous devez peut-être définir un type de varianteABBREV pour inclure des abréviations. Une structure du dictionnaire peut permettre de standardiser les références d'une entité.
2012-11-22

Public link updated
The public link to your chat has been updated.