Transformations
•
Commun
Cette option est définie pour indiquer que la transformation Entity Extraction doit être exécutée comme un processus séparé.
•
Langues
Option obligatoire. Utilisez cette option pour indiquer la langue du processus d'extraction. L'option de filtrage Types d'entités est facultative et vous pouvez la sélectionner lorsque vous sélectionnez la langue pour limiter votre sortie d'extraction.
•
Options de traitement
Utilisez ces options pour indiquer les paramètres à utiliser lors du traitement du contenu.
•
Dictionnaires
Utilisez cette option pour indiquer différents dictionnaires à utiliser pour le traitement du contenu.
Pour utiliser l'option de filtrage Types d'entités , vous devez indiquer le Fichier dictionnaire.
Remarque :
Traitement des données de texte comprend le fichier schéma dictionnairedictionnaire d'extraction.xsd
. Par défaut, ce fichier est installé dans le dossier LINK_DIR/bin, où LI
NK_DIR est votre répertoire d'installation Data Services. Reportez-vous à ce schéma pour créer vos propres fichiers dictionnaire.
•
Règles
Utilisez cette option pour indiquer différents fichiers de règles à utiliser pour traiter le contenu. Pour utiliser l'option de filtrage Noms de règles , vous devez indiquer le Fichier de règles.
Si vous n'indiquez aucune option de filtrage, la sortie d'extraction contiendra toutes les entités extraites
à l'aide des types d'entités définis dans la langue sélectionnée, fichier(s) dictionnaire et nom(s) de règles dans le(s) fichier(s) dictionnaire sélectionné(s).
Remarque :
La sélection d'un fichier dictionnaire ou un fichier de règles dans le processus d'extraction est facultative.
La sortie d'extraction inclura les entités internes, si elles sont indiquées.
Rubriques associées
•
Importation de schémas XML
• Guide de référence : Transformation Entity Extraction, options d'extraction
• Guide de personnalisation Extraction traitement des données de texte : Utilisation de dictionnaires
8.6.9 Utilisation d'options de filtrage
Les options de filtrage sous différentes options d'extraction contrôlent la sortie générée par la transformation Entity Extraction. L'utilisation de ces options permet de limiter les entités extraites à des
214 2012-11-22
Transformations entités spécifiques d'un dictionnaire, les fichiers système, les entités/faits de règles ou une combinaison de ces éléments. Par exemple, vous traitez des champs de commentaires client pour une société automobile et vous êtes intéressé par les commentaires liés à un modèle spécifique. L'utilisation des options de filtrage permet de contrôler votre sortie pour extraire des données uniquement liées à ce modèle.
Les options de filtrage sont divisées en trois catégories :
• L'option Filtrer par types d'entités sous le groupe d'options Langues - Utilisez cette option pour limiter la sortie d'extraction uniquement à l'inclusion d'entités sélectionnées pour cette langue.
• L'option Filtrer par types d'entités sous le groupe d'options Dictionnaire - Utilisez cette option pour limiter la sortie d'extraction uniquement à l'inclusion d'entités définies dans un dictionnaire.
• L'option Filtrer par noms de règles sous le groupe d'options Règles - Utilisez cette option pour limiter la sortie d'extraction uniquement à l'inclusion d'entités et des faits renvoyés par les règles spécifiques.
Le tableau suivant décrit des informations figurant dans la sortie d'extraction en fonction de la combinaison de ces options :
La ngues
Types d'entités
Oui
Non
Oui
Non
Diction naires
Types d'entités
Règles Contenu de sortie d'extraction
Noms de règle
Non
Oui
Oui
Non
Non
Non
Non
Oui
Remarque
Entités (extraites à l'aide des types d'entités) sélectionnées dans le filtre.
Entités (extraites à l'aide des types d'entités) définies dans la langue sélectionnée et types d'entités sélectionnés à partir du filtre des dictionnaires.
Si plusieurs dictionnaires contenant le même type d'entité sont indiqués, mais que ce type est sélectionné uniquement comme filtre pour l'un de ces dictionnaires, les entités de ce type seront également renvoyées à partir de l'autre dictionnaire.
Entités (extraites à l'aide des types d'entités) définies dans les filtres pour la langue sélectionnée et tout dictionnaire indiqué.
Entités (extraites à l'aide des types d'entités) définies dans la langue sélectionnée et tout nom de règle sélectionné dans le filtre à partir de tout fichier de règles indiqué.
Si plusieurs fichiers de règles contenant le même nom de règle sont indiqués mais si ce nom est sélectionné uniquement comme filtre pour l'un de ces fichiers, les entités et les faits de ce type seront également renvoyés à partir de l'autre fichier de règles.
215 2012-11-22
Transformations
La ngues
Diction naires
Règles Contenu de sortie d'extraction
Non
Oui
Oui
Oui
Non
Oui
Oui
Oui
Oui
Remarque
Entités (extraites à l'aide de types d'entités) définies dans la langue sélectionnée, types d'entités sélectionnés à partir du filtre de dictionnaires et tout nom de règle sélectionné dans le filtre à partir de tout fichier de règles indiqué.
Entités (extraites à l'aide de types d'entités) définies dans les filtres pour la langue sélectionnée et tout nom de règle sélectionné dans le filtre à partir de tout fichier de règles indiqué.
Entités (extraites à l'aide de types d'entités) définies dans les filtres pour la langue sélectionnée, types d'entités sélectionnés à partir du filtre de dictionnaires et tout nom de règle sélectionné dans le filtre à partir de tout fichier de règles indiqué.
Le processus d'extraction filtre la sortie à l'aide de l'union d'entités ou de faits extraits pour la langue sélectionnée, les dictionnaires et les fichiers de règles.
Si vous modifiez la langue, les dictionnaires ou les règles sélectionné(e)s, tout filtrage associé à cette option sera uniquement réinitialisée en cliquant sur l'option Filtrer par.... Vous devez sélectionner de nouveaux choix de filtrage en fonction de la sélection modifiée.
Remarque :
• Si vous utilisez plusieurs dictionnaires (ou règles) et avez défini des options de filtrage pour certains des dictionnaires sélectionnés (ou règles), le processus d'extraction combine les dictionnaires en interne et la sortie est filtrée à l'aide de l'union des types d'entités sélectionnés pour chaque dictionnaire et des noms de règle sélectionnés pour chaque fichier de règles. La sortie identifiera la source comme un fichier de dictionnaire (ou règle) et non le nom individuel d'un fichier de dictionnaire (ou règle).
• Si vous sélectionnez l'option Dictionnaire uniquement sous le groupe Options de traitement avec un fichier de dictionnaire valide, les types d'entités définis pour la langue ne sont pas inclus dans la sortie d'extraction mais toute entité et tout fait de fichiers de règles extrait(e) est inclus(e).
Rubriques associées
•
Editeur de transformation Entity Extraction
216 2012-11-22