5 Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler. SAP 7.0
Vous trouverez ci-dessous de brèves informations sur InfiniteInsight 7.0. Ce guide utilisateur vous aidera à transformer vos données en connaissances et à prendre les bonnes décisions stratégiques et opérationnelles au bon moment.
5 Créer un modèle de classement ou de
régression avec InfiniteInsight® Modeler
La modélisation de données avec InfiniteInsight ® grandes étapes :
Modeler / Régression ou Classement se subdivise en quatre
1
Définition des paramètres de modélisation
2
Génération et validation du modèle
3
Analyse et compréhension des résultats d'analyse
4
Utilisation du modèle généré
5.1 Etape 1 - Définir les paramètres de modélisation
Pour répondre à votre problématique, vous cherchez à :
identifier et comprendre les facteurs qui déterminent qu'un prospect répond de manière positive ou négative à votre campagne de marketing.
pouvoir ainsi prédire le comportement de nouveaux prospects par rapport à votre campagne.
La fonctionnalité InfiniteInsight
®
Modeler / Régression ou Classement vous permet de créer des modèles explicatifs et prédictifs.
La première étape du processus de modélisation consiste à définir les paramètres de modélisation, c'est-à-dire à :
1
Sélectionner une source de données à utiliser comme jeu de données d'apprentissage.
2
Décrire le jeu de données sélectionné.
3
4
Vérifier les paramètres de modélisation.
5
Définir le
degré du modèle (voir à la page 92). Cette étape est optionnelle.
6
Définir la
valeur des catégories cibles (voir à la page 95). Cette étape est optionnelle.
65
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.1.1 Sélectionner une source de données
Pour ce scénario
Utilisez le fichier
Census01.csv
comme jeu de données d'apprentissage.
Ce fichier représente l'échantillon que vous avez extrait de votre base de données et utilisé pour la phase de test de votre campagne de marketing direct. En accord avec votre plan de test, ce fichier contient donc des données sur 50 000 prospects, dont vous connaissez maintenant le comportement par rapport au nouveau produit financier :
25% des prospects se sont montrés clairement intéressés. Ils ont décidé d’accepter un rendez-vous avec un des opérateurs de vos canaux de vente,
75% des prospects ont décliné votre invitation.
Dans ce fichier, vous avez créé une nouvelle variable
Class
, qui correspond à la réaction des prospects contactés pour le test. Vous avez assigné :
la valeur "1" aux prospects ayant répondu de manière positive à votre invitation,
la valeur "0" aux prospects ayant répondu de manière négative à votre invitation.
Pour sélectionner une source de données
1
Dans l'écran
Données à modéliser
, sélectionnez le format de la source de données à utiliser dans la liste
Type de données
.
2
Cliquez sur le bouton
Parcourir
correspondant au champ
Répertoire
.
La fenêtre de sélection suivante apparaît.
66
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
3
Double-cliquez sur le répertoire Samples, puis sur le répertoire Census.
4
Cliquez sur le bouton
OK
.
5
Utilisez le bouton
Parcourir
correspondant au champ
Jeu de données
pour sélectionner le fichier
Census01.csv
6
Cliquez sur
OK
.
Le nom du fichier apparaît dans le champ
Jeu de données
.
7
Cliquez sur le bouton
Suivant
.
L'écran
Description des données
apparaît.
8
Passez à la section Décrire les données (voir à la page 69).
Cas des données stockées en base de données : le mode "Explain"
Avant de demander des données stockées en base de données Oracle, Teradata ou SQL Server 2005, SAP
InfiniteInsight ® utilise une fonctionnalité, le mode "Explain", qui classe les performances des requêtes SQL en plusieurs catégories définies par l'utilisateur. Pour plus de rapidité et de légèreté, ce classement est fait sans que la requête SQL complète soit effectivement exécutée.
Le but est de permettre d'estimer la charge nécessaire à l'exécution de la requête SQL et de décider
--éventuellement grâce à une politique informatique interne-- si la requête SQL en question peut être utilisée ou non.
Ainsi, une politique informatique peut vouloir favoriser l'interactivité et pour cela avoir défini trois catégories de requêtes SQL, chacune ayant une durée maximale d'exécution :
Immédiate
:
durée < 1s
. La requête est acceptée et exécutée immédiatement.
Différée
:
1s <= durée < 2s
disponible
. La requête est acceptée mais ne sera exécutée que lorsque le serveur sera
Rejetée
:
2s <= durée
. La requête ne sera jamais exécutée.
Le nombre, les appellations et les limites des catégories sont définies par l'utilisateur afin que ces valeurs correspondent à la configuration du SGBD et à sa politique d'utilisation.
67
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Le mode "Explain" a été configuré
Si le mode "Explain" a été configuré par votre administrateur de bases de données, une requête peut avoir deux résultats :
la requête a été acceptée et exécutée : dans ce cas, le traitement de la requête est transparent pour l'utilisateur, SAP InfiniteInsight part de l'utilisateur.
® accède aux données directement sans intervention supplémentaire de la
la requête doit être validée avant d'être exécutée : une fenêtre s'ouvre affichant un message configuré par l'administrateur de bases de données. Une requête nécessitant une validation peut être classifiée de deux façons :
moyenne
Vous devrez probablement vérifier auprès de votre administrateur de bases de données quelle option choisir :
Si l'administrateur autorise l'exécution de la requête, cliquez sur le bouton
Continuer
. La fenêtre de message se ferme et l'action demandée s'exécute.
Si l'administrateur n'autorise pas l'exécution de la requête, cliquez sur le bouton
Arrêter la requête
. La fenêtre de message se ferme et aucune action n'est effectuée.
lourde
Cela signifie que la requête prendra trop de temps et de ressources sur le serveur. Dans ce cas, le fonctionnement du bouton
Continuer
dépend de la configuration faite par l'administrateur de bases de données (qui peut, par exemple, rejeter automatiquement les requêtes trop lourdes). Dans tous les cas, vous devez vérifier auprès de lui quelle action effectuer.
Le mode "Explain" n'a pas été configuré
Si votre administrateur de bases de données n'a pas configuré le mode "Explain", la fenêtre de message suivante s'affiche lorsque vous essayez d'accéder aux données :
Vous devez contacter votre administrateur qui vous dira quelle est la marche à suivre et qui configurera le mode "Explain".
Si l'administrateur valide l'exécution de votre requête, vous pouvez vouloir que toutes les requêtes nécessitant le même temps (ou un temps inférieur) soient exécutées sans être validées. Dans ce cas, cochez la case
Ne plus me demander de validation pour des requêtes similaires
. La fenêtre de validation n'apparaîtra que pour des requêtes nécessitant plus de ressources. Cette configuration du mode "Explain" n'est valide que pour la session courante. Pour une configuration définitive, contactez votre administrateur de bases de données.
68
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.1.2 Décrire les données sélectionnées
Pour ce scénario
Sélectionnez
Fichiers texte
comme type de source de données.
Utilisez le fichier de description existant desc_Census01.csv, correspondant au fichier de données
Census01.csv
.
Pour utiliser un fichier de description existant
1
Dans l'écran
Description des données
, cliquez sur le bouton
Ouvrir
. La fenêtre
Ouvrir une description
s'affiche.
2
Sélectionnez le type de votre source de données dans la liste en haut à droite.
3
Utilisez le bouton
Parcourir
du champ
Répertoire
pour sélectionner le répertoire ou la base de données contenant la source de données.
Note
Le répertoire sélectionné par défaut est le même que celui sélectionné à l'étape précédente.
4
Utilisez le bouton
Parcourir
du champ
Fichier
pour sélectionner le fichier ou la table contenant les données.
Attention
Quand l'espace de données utilisé pour la construction du modèle contient une variable physique appelée
KxIndex
, il n'est pas possible d'utiliser un fichier de description ne comportant aucune clé pour l'espace de données courant.
Quand l'espace de données utilisé pour la construction du modèle ne contient pas de variable nommée
KxIndex
, il n'est pas possible d'utiliser un fichier de description incluant une description à propos d'une variable
KxIndex
car cette variable n'existe pas dans l'espace de donnée courant.
69
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5
Cliquez sur le bouton
OK
. La fenêtre
Ouvrir une description
se ferme et la description des données s'affiche dans la fenêtre principale.
6
Cliquez sur le bouton
Suivant
.
L' écran
Sélection des variables explicatives
apparaît.
7
Passez à la section
Sélectionner les variables explicatives
.
Pour créer un fichier de description
1
Dans l' écran
Description des données
, cliquez sur le bouton
Analyser
.
La description des données apparaît.
2
Vérifiez l'exactitude de la description obtenue.
Si votre fichier de données initial contient des variables qui ont fonction de clés, elles ne sont pas reconnues automatiquement. Décrivez-les manuellement.
Attention
L'espace de données source utilisé, qu'il s'agisse d'une fichier texte ou d'une base de données ODBC, doit contenir au minimum une variable clé.
70
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
3
Une fois la description des données validée, vous pouvez :
• la sauvegarder en cliquant sur le bouton
Enregistrer
.
• cliquer sur le bouton
Suivant
pour passer à l'étape suivante.
L'écran
Sélection des variables explicatives
apparaît.
71
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
4
Passez à la section
Sélectionner les variables explicatives
.
Pour modifier la description des données
1
Dans la colonne de votre choix, par exemple la colonne
Stockage
, cliquez sur la case que vous souhaitez modifier.
La liste des valeurs possibles apparaît.
2
Sélectionnez la valeur souhaitée dans la liste.
Pour spécifier qu'une variable est une clé
1
Dans la colonne
Clé
, cliquez sur la case correspondant à la ligne de la variable clé.
2
Entrez la valeur "
1
" pour définir cette variable comme clé.
72
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Note
Chaque modèle doit contenir une clé, c'est-à-dire qu'une ou plusieurs variables avec un champ clé ayant une valeur de clé différente de zéro. Si aucune clé n'a été détectée pendant le processus d'analyse et qu'aucune variable physique nommée
KxIndex
n'existe dans l'espace de données source, il est impossible d'ajouter une variable appelée
KxIndex
avec sa description. Une variable virtuelle ne peut pas être décrite.
Dans ce cas particulier, en effet, les composants applicatifs de SAP InfiniteInsight
InfiniteInsight ® dans la colonne
Description
: 'Automatically added'.
® génèrent une variable-clé virtuelle nommée
KxIndex
et une description est ajoutée par les composants applicatifs
Pourquoi décrire les données sélectionnées
Pour que vos données soient interprétables et analysables par les fonctionnalités SAP InfiniteInsight déterminant leur :
® , elles doivent être décrites. En d'autres mots, le fichier de description spécifie la nature de chaque variable en
format de stockage : nombre (
number
), chaînes de caractère (
string
), date et heure (
datetime
) ou date
(
date
).
Note
Lorsqu'une variable est déclarée comme date (
date
ou
datetime
), la fonctionnalité <FR_KDC> (
KDC
) en extrait automatiquement des informations spécifiques telles que le jour du mois, l'année, le trimestre, etc. Des variables contenant ces informations sont créées lors de la génération du modèle et sont utilisées comme variables d'entrée. KDC est activé pour toutes les fonctionnalités SAP
InfiniteInsight ® à l'exception de InfiniteInsight ® Modeler / Séries temporelles (
KTS
).
type : variables continues (
continuous
), nominales (
nominal
) ordinales (
ordinal
) ou textuelle (
textual
).
Note
Toutes les variables décrites doivent se trouver dans la source de données utilisée pour l'apprentissage. Dans le cas où une variable physique décrite n'existe pas dans la source de données, il n'est pas possible de générer un modèle.
Pour plus d'informations sur la description des données, Types de variables
Formats de stockage
Note
La traduction des catégories d'une variable n'a pas d'influence sur sa structure qui doit être définie en fonction des valeurs initiales de la variable.
73
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comment décrire les données sélectionnées
Pour décrire vos données, vous pouvez :
soit utiliser un fichier de description existant, c'est-à-dire issu de votre système d'information ou d'une précédente utilisation des fonctionnalités SAP InfiniteInsight ® ,
soit créer un fichier de description grâce à l'option
Analyser
, mise à votre disposition dans l'assistant de modélisation SAP InfiniteInsight
®
. Dans ce cas, vous devez valider le fichier de description obtenu. Vous pouvez sauvegarder ce fichier pour une utilisation ultérieure.
Attention
Le fichier de description obtenu avec l'option
Analyser
résulte de l'analyse des 100 premières lignes du fichier de données initial. Afin d'éviter tout biais, n'hésitez pas à brasser votre jeu données avant de l'analyser.
Le scénario d'utilisation standard [ouverture d'un espace de donnée ODBC - description en utilisant la fonction d'
Analyse
- génération du modèle] ne peut pas être mis en oeuvre lorsque l'espace de données source contient une variable nommée
KxIndex
mais aucune variable ODBC ayant le statut de clé.
74
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
La description d'une variable est composée des champs décrits dans le tableau ci-dessous :
Le champ... contient...
Nom
le nom de la variable (celui-ci ne peut être modifié)
Stockage
le type de valeurs stockées dans cette variable :
Number
: la variable contient uniquement des nombres "caculables" (attention : les numéros de téléphone, codes postaux, numéros de compte ne doivent pas être considérés comme des nombres)
String
: la variable contient des chaînes de caractères.
Datetime
: la variable contient des dates et des heures
Date
: la variable contient des dates
Type
le type de la variable :
Continuous
: une variable numérique pour laquelle la moyenne, la variance, etc. peuvent être calculées.
Nominal
: variable catégorique, seul type possible pour une chaîne de caractère (les codes postaux, numéros de téléphone, etc. sont généralement de ce type).
Ordinal
: variable numérique discrète pour laquelle l'ordre est important
Textual
: variable textuelle contenant des mots, des phrases ou des textes complets.
Attention
- lors de la création d'un modèle d'analyse textuelle, si aucune variable textuelle n'est définie le bouton
Suivant
est désactivé et il est impossible de passer à l'étape suivante.
Clé
indique si cette variable est une clé ou un identifiant pour l'observation :
0
la variable l'est pas un identifiant;
1
clé primaire;
2
clé secondaire...
Ordre
indique si la variable représente un ordre naturel.
Dans un jeu de données d'évènements il doit y avoir au moins une variable marquée comme ordonnée.
Attention
- si la source de données est un fichier et que la variable marquée comme représentant un ordre naturel n'est pas effectivement ordonnée, un message d'erreur s'affichera au moment de la vérification ou de la génération du modèle.
Inconnu
la chaîne de caractères utilisée dans le fichier de description pour représenter les valeurs manquantes
(par exemple "999" ou "#Vide" - sans les guillemets)
Groupe
le nom du groupe auquel appartient la variable. les variables appartenant à un même groupe sont considérées comme apportant la même information et ne seront donc pas croisées dans les modèles d'ordre supérieur à 1. Ce paramètre sera activé dans une future version.
Description
une éventuelle description supplémentaire de la variable
Structure
structure de la variable, c'est-à-dire les groupements des catégories des variables.
75
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Des données redondantes
Certaines informations de la base de données sont redondantes, telles que le "diplôme" et "niveau de formation", ou le "diplôme" et "métier".
Dans le domaine des statistiques, le terme "variables corrélées" est utilisé pour désigner de telles données.
Dans toutes analyses statistiques classiques, les variables corrélées doivent faire l’objet d’un traitement particulier. Une autre solution consiste à ne conserver pour l'analyse que l’une des variables sur deux variables corrélées.
N'ayant ni les compétences statistiques ni les moyens pour traiter ce problème de corrélations entre variables, vous décidez de conserver la base de données en l’état.
Un mot sur les clés de base de données
Pour des raisons de gestion des données et de performance, le jeu de données à analyser doit comporter une variable ayant fonction de clé. Deux cas se présentent :
Si le jeu de données initial ne contient pas de variable clé, une variable index
KxIndex
est automatiquement créée par les fonctionnalités SAP InfiniteInsight
®
. Elle correspondra au numéro de la ligne de données traitée.
Note
Il n'est pas possible de forcer l'indice de clé (Key Level) à 0 pour une clé virtuelle si aucune autre clé n'a
été définie.
Si le fichier contient une ou plusieurs variables clés, ces dernières ne sont pas automatiquement reconnues. Vous devez alors le spécifier manuellement dans la description des données en renseignant l'indice de clé à la valeur appropriée. Se reporter à la procédure Pour spécifier qu'une variable est une clé.
Par ailleurs, si vos données sont stockées dans une base de données, elles seront automatiquement reconnues.
76
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Voir les données
Pour vous aider à valider la description obtenue par analyse, vous pouvez afficher le contenu de votre jeu de données.
Pour voir les données
1
Cliquez sur le bouton
Aperçu
. Une nouvelle fenêtre s'ouvre affichant les cent premières lignes du jeu de données.
2
Dans le champ
Première ligne
, saisissez le numéro de la première ligne à afficher.
3
Dans le champ
Dernière ligne
, saisissez le numéro de la dernière ligne à afficher.
4
Cliquez sur le bouton (
Rafraîchir)
pour afficher les lignes sélectionnées.
77
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.1.3 Ajouter un filtre au jeu de données
Vous avez la possibilité d'appliquer un filtre à votre jeu de données afin d'accélérer le processus d'apprentissage et d'optimiser le modèle qui en résulte.
Pour ce scénario
N'utilisez pas de filtre pour votre jeu de données.
Ajouter un filtre
1
Cochez la case
Ajouter un filtre au jeu de données
.
2
Cliquez sur
Suivant
.
Ajouter une condition
1
Cliquez sur le bouton
Ajouter une condition
.
La fenêtre
Définir une condition
s'ouvre.
78
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
2
Choisissez une variable dans la première liste déroulante.
3
Choisissez un opérateur dans la deuxième liste.
4
Indiquez une valeur dans la troisième liste :
Pour une variable du type
Number
entrez une valeur.
Pour une variable du type
String
choisissez une variable dans la liste. Si cette liste est vide, cliquez sur le bouton
5
Cliquez sur
OK
.
pour extraire les catégories.
Note
Vous pouvez modifier une condition en double-cliquant dessus.
Ajouter une conjonction logique
Cliquez sur le bouton
Ajouter un "ET" logique
ou sur le bouton
Ajouter un "OU" logique
.
Note
Vous pouvez modifiez le type de conjonction en double-cliquant dessus.
79
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Changer l'ordre
Vous pouvez changer l'ordre des noeuds pour accélérer l'application du filtre en mettant les conditions, qui ont une grande probabilité de s'avérer fausse, en haut de la liste.
1
Sélectionnez le noeud que vous voulez déplacer vers le haut ou vers le bas.
2
Utilisez les boutons et pour changer sa position dans le filtre.
Supprimer un noeud
1
Sélectionnez le noeud que vous voulez supprimer.
2
Cliquer sur le bouton
Supprimer le noeud sélectionné
.
Afficher le jeu de données filtré
Vous pouvez visualiser le jeu de données qui vous obtiendrez en appliquant le filtre.
Cliquez sur le bouton
Aperçu
.
Une nouvelle fenêtre s'ouvre.
80
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Enregistrer un filtre
Vous pouvez enregistrer le filtre créer pour le réutiliser ultérieurement sans être obligé de recréer un filtre avec les mêmes conditions.
1
Cliquez sur le bouton
Enregistrer ce filtre
.
La fenêtre
Enregistrer ce filtre
s'ouvre.
2
Dans la liste
Type de données
, sélectionnez le format de l'enregistrement.
3
Utilisez le bouton
Parcourir
à droite du champ
Répertoire
pour choisir un répertoire ou une base de données pour l'enregistrement.
4
Dans le champ
Description
, entrez le nom du fichier ou de la table.
5
Cliquez sur
OK
.
Charger un filtre existant
Pour filtrer un jeu de donnée, vous pouvez utiliser un filtre préalablement créé avec SAP InfiniteInsight ce jeu de données.
® pour
1
Cliquez sur le bouton
Charger un filtre existant
.
La fenêtre
Charger un filtre existant
s'ouvre.
2
Utilisez la liste déroulant Type de données pour sélectionner le format du filtre.
3
Utilisez le bouton
Parcourir
à droite du champ
Répertoire
pour choisir le répertoire ou la base de données où se trouve le filtre.
4
Utilisez le bouton
Parcourir
à droite du champ
Description
pour choisir le fichier ou la table contenant le filtre.
5
Cliquez sur
OK
.
5.1.4 Sélectionner les variables
Une fois le jeu de données d'apprentissage et sa description chargés, vous devez sélectionner :
la ou les variables à utiliser comme variables cibles
(voir " Sélectionnez les variables cibles " à la page 82),
éventuellement une variable de poids
(voir " Sélectionner la variable de poids " à la page 83),
les variables explicatives
(voir " Sélectionner les variables explicatives " à la page 85).
81
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Sélectionnez les variables cibles
Pour ce scénario
Sélectionnez pour variable cible la variable
Class
, c'est-à-dire la variable indiquant la probabilité d'un individu à répondre de manière positive ou négative à votre campagne.
Pour sélectionner la variable cible
1
Dans l'écran
Sélection des variables explicatives
, dans la partie
Variables explicatives conservées
(partie de gauche), sélectionnez la ou les variables choisies comme cibles.
Remarque
Dans l'écran
Sélection des variables explicatives
, les variables sont présentées dans le même ordre que celui dans lequel elles sont présentées dans la table de données. Pour les trier de manière alphabétique, sélectionnez l'option
Tri alphabétique
, présentée sous chacune des parties de l'écran.
2
Cliquez sur le bouton
>
situé gauche du champ
Variable(s) cible(s)
.
Les variables sélectionnées passent dans la partie
Variable(s) cible(s)
.
3
Pour retirer une ou plusieurs variables de la liste des variables cibles, sélectionnez celles-ci dans la liste puis cliquez sur le bouton
<
.
4
Passez à la section Sélectionner la variable de poids
82
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Sélectionner la variable de poids
La sélection d'une variable de poids vous permet d'utiliser l'option Poids de référence dans les Paramètres avancés du modèle.
Pour ce scénario
Ne sélectionnez aucune variable de poids.
Pour sélectionner une variable de poids
1
Dans l'écran
Sélection des variables explicatives
, dans la partie
Variables explicatives conservées
(partie de gauche), sélectionnez la variable à utiliser comme variable de poids.
Remarque
Dans l'écran
Sélection des variables explicatives
, les variables sont présentées dans le même ordre que celui dans lequel elles sont présentées dans la table de données. Pour les trier de manière alphabétique, sélectionnez l'option
Tri alphabétique
, présentée sous chacune des parties de l'écran.
2
Cliquez sur le bouton
>
situé gauche du champ
Variable de poids
.
La variable passe dans le champ
Variable de poids
.
3
Pour supprimer la variable de poids, cliquez sur le bouton
<
.
83
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
4
Passez à la section Sélectionner les variables explicatives
84
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Sélectionner les variables explicatives
Par défaut, et à l'exception des variables clés, toutes les variables contenues dans votre jeu de données sont prises en compte pour la génération du modèle. Vous pouvez exclure certaines de ces variables.
Pour la première analyse de votre jeu données, il est conseillé de conserver toutes les variables. Il est notamment important de conserver les variables qui n'ont à priori aucun impact sur la variable cible. Si ces variables n'ont aucun impact sur la variable cible, le modèle le confirmera. A l'opposé, le modèle vous permettra de découvrir des corrélations entre ces variables et la variable cible. Exclure des variables de l'analyse sur simple intuition présente le risque de se priver d'une forte valeur ajoutée des modèles SAP
InfiniteInsight ® : la découverte d'information non intuitive.
En fonction des résultats obtenus avec une première analyse incluant la totalité des variables du jeu de données, vous pouvez générer un second modèle en excluant les variables trop corrélées à la variable cible.
Une fonctionnalité prévue à cet effet est proposée dans le menu d'utilisation du modèle.
Pour ce scénario
Laissez la variable
KxIndex
exclue. Cette variable est une variable clé. Le jeu de données initial ne contenant pas de variable clé, les composants SAP InfiniteInsight
®
ont généré automatiquement la variable
KxIndex
.
Conservez toutes les autres variables.
Pour exclure des variables de l'analyse des données
1
Dans l'écran
Sélection des variables explicatives
, dans la partie
Variables explicatives conservées
(partie de gauche), sélectionnez les variables à exclure.
85
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
2
Cliquez sur le bouton
>
situé gauche du champ
Variables exclues
.
Les variables sélectionnées passent dans la partie
Variables exclues
.
3
Pour retirer une ou plusieurs variables de la liste des variables exclues, sélectionnez celles-ci dans la liste des variables exclues, puis cliquez sur le bouton
<
.
Note
Par défaut, toute variable définie comme clé est exclue automatiquement : elle figure dans la section
Variables Exclues
. Cependant, l'utilisateur a la possibilité de déplacer une variable clé dans la section
Variables Explicatives Conservées
s'il veut que cette variable joue un tel rôle.
4
Cliquez sur le bouton
Suivant
.
L'écran
Récapitulatif des paramètres de modèlisation
apparaît.
5
Passez à la section
Vérifier les paramètres de modélisation
.
Remarque
Dans l'écran
Sélection des variables explicatives
, les variables sont présentées dans le même ordre que celui dans lequel elles sont présentées dans la table de données. Pour les trier de manière alphabétique, sélectionnez l'option
Tri alphabétique
, présentée sous chacune des parties de l'écran.
5.1.5 Traduire les catégories de variables
Vous pouvez traduire les catégories des variables nominales, enregistrer la traduction ou charger une traduction existante. Cette traduction n'influence pas la structure de la variable, qui doit être définie en fonction des valeurs originales de la variable.
Note
La variable "Catégorie cible", utilisée par exemple dans les paramètres avancés, ne prend pas en compte une éventuelle traduction quand les valeurs possibles de cette variable sont affichées. Pour cette raison des valeurs entrées manuellement ne peuvent pas être traitées correctement, si elles ne correspondent pas aux valeurs d'origine.
Traduire les catégories de variables
1
Faites un clique droit sur la variable nominale dont vous souhaitez traduire les catégories. Un menu contextuel est affiché.
2
Sélectionnez l'option
Traduire les catégories de <nom_de_la_variable>
.
3
Choisissez dans quelles langues vous voulez traduire. Par défaut, la langue de l'interface utilisateur est affichée comme colonne.
4
Cliquez sur le bouton
5
Traduisez les catégories.
pour extraire les catégories de variables du jeu de données.
Note
Vous n'êtes pas obligé de renseigner tous les champs.
86
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
6
Cliquez sur
OK
.
Enregistrer la traduction des catégories
1
Traduisez les catégories de variables comme expliqué ci-dessus.
2
Cliquez sur le bouton
Enregistrer
.
3
Choisissez un
Type de données
.
4
Sélectionnez un
Répertoire
.
5
Entrez un
Nom
pour le fichier ou la table.
6
Cliquez sur
OK
.
Charger une traduction existante
1
Faites un clique droit sur une variable nominale. Un menu contextuel est affiché.
2
Sélectionnez l'option
Traduire les catégories de <nom_de_la_variable>
.
3
Cliquez sur le bouton
Charger
.
4
Sélectionnez le format de la traduction dans la liste
Type de données
.
5
Utilisez le bouton
Parcourir
situé à droite du champ
Répertoire
pour choisir le répertoire ou la base de données contenant la traduction.
6
Utilisez le bouton
Parcourir
situé à droite du champ
Table ou fichier
pour choisir la traduction des catégories de variables.
7
Cliquez sur le bouton
OK
.
8
Cliquez sur le bouton
Rafraîchir
pour actualiser l'affichage des catégories.
9
Si les colonnes ne sont pas nommées correctement, utilisez les Paramètres avancés paragraphe suivant) pour choisir la ligne d'en-tête et actualisez à nouveau.
(voir
10
Mettez les noms des langues en correspondance avec les langues de la traduction chargée en cliquant sur les catégories et en choisissant la langue qui correspond dans le menu contextuel.
11
Cliquez sur le bouton
OK
.
87
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.1.6 Vérifier les paramètres de modélisation
L'écran
Récapitulatif des paramètres de modélisation
vous permet d'effectuer une dernière vérification des paramètres de modélisation avant de générer le modèle.
Note
L'écran
Récapitulatif des paramètres de modélisation
présente également un bouton
Avancé
. Ce bouton vous permet d'accéder à l'écran
Paramètres spécifiques du modèle
dans lequel vous pouvez définir des paramètres avancés tels que le degré du modèle à générer. Pour plus d'informations, voir la section suivante.
Le nom du modèle est renseigné automatiquement. Il correspond au nom de la variable cible (class pour notre scénario), suivi du signe underscore ("_") et du nom de la source de données, sans son extension de fichier (Census01 pour notre scénario).
Vous pouvez afficher les résultats générés par InfiniteInsight option, cochez la case
Calculer l'arbre de décision
.
® Modeler / Régression ou Classement sous la forme d'un arbre de décision basé sur les cinq variables les plus contributives. Pour activer cette
Le bouton
Sauvegarde automatique
vous permet de spécifier que le modèle doit être automatiquement enregistré dès la fin de la génération du modèle. Les informations d'enregistrement sont paramétrables dans le panneau
Sauvegarde automatique
. Lorsque la sauvegarde automatique est activée, une coche verte s'affiche sur le bouton.
88
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Activation de la sauvegarde automatique
Le panneau
Sauvegarde automatique
vous permet d'activer l'enregistrement automatique du modèle à la fin de ma génération et de saisir les informations nécessaires.
Pour activer la sauvegarde automatique
1
Dans le panneau
Récapitulatif des paramètres de modélisation
, cliquez sur le bouton
Sauvegarde automatique
.
2
Cochez l'option
Activer la sauvegarde automatique du modèle
.
89
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
3
Renseignez les champs décrits dans le tableau ci-dessous.
Champs Description
Nom du modèle
Ce champ vous permet d'associer un nom au modèle. Ce nom est utilisé dans la liste des modèles qui vous est proposée quand vous chargez un modèle existant.
Description
Ce champ vous permet d'entrer des informations de votre choix, telles que le nom du jeu de données d'apprentissage utilisé, l'ordre du polynôme ou la capacité prédictive et la reproductibilité obtenus pour ce modèle. Ces informations peuvent vous être utiles ultérieurement pour identifier le modèle.
Notez que cette description sera utilisée à la place de celle saisie dans le panneau
Récapitulatif des paramètres de modélisation
.
Type de données
Cette liste vous permet de sélectionner dans quel format votre modèle sera enregistré. Les formats suivants sont proposés :
Fichiers texte
, pour enregistrer le modèle dans un fichier texte,
Bases de données
, pour enregistrer le modèle dans une table ODBC,
Espace de stockage mémoire
, pour enregistrer le modèle en mémoire. Le modèle sera conservé jusqu'à la fermeture de l'interface graphique de SAP InfiniteInsight ® .
Notez que selon votre licence d'autres formats peuvent être disponible (comme SAS, par exemple).
Répertoire
En fonction de l'option que vous avez sélectionnée, ce champ vous permet de spécifier la source ODBC ou le répertoire dans lequel vous souhaitez enregistrer le modèle .
Fichier/Table
Ce champ vous permet d'entrer le nom du fichier ou de la table qui contiendra le modèle. Le nom de fichier doit contenir l'une des deux extensions de format .txt (fichier texte dans lequel les données sont séparées par des tabulations) ou .csv (fichier texte dans lequel les données sont séparées par des virgules).
4
Cliquez sur le bouton
Valider
.
90
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.1.7 Définir les paramètres spécifiques du modèle
Dans l'écran
Récapitulatif des paramètres de modélisation
cliquez sur le bouton
Avancé
. L'écran
Paramètres avancés du modèle
s'affiche.
Onglet "Général"
L'onglet
Général
vous permet de définir les paramètres généraux du modèle, tels que le degré du modèle, le nombre de segment de la variable de score, le nombre de corrélations à afficher, la catégorie cible de la variable cible.
91
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Définir le degré du modèle (optionnel)
Le modèle généré par InfiniteInsight complexité du modèle.
® Modeler / Régression ou Classement est représenté par un polynôme.
Ce polynôme peut être de degré 1, 2, 3 ou plus. En définissant l'ordre du polynôme, vous définissez le degré de
Il est fortement conseillé de toujours utiliser un ordre 1 pour la première analyse d'un jeu de données. Utiliser un ordre de polynôme élevé ne garantit pas l'obtention du modèle le plus performant dans tous les cas. Pour plus d'informations sur le paramétrage de l'ordre du polynôme, voir Méthodologie
Pour ce scénario
Utilisez un polynôme d'ordre 1 (valeur par défaut).
Pour définir le degré de complexité du modèle
Dans l'écran
Paramètre avancés du modèle
, dans le champ Valeur de la section
Ordre du polynôme
, entrez la valeur correspondant au degré de complexité du modèle que vous souhaitez obtenir.
Définir le nombre de segments pour la variable de score
Cette option vous permet de définir le nombre de segments de score à créer. La valeur saisie doit être entre 20 et 100, en effet un nombre inférieur ou supérieur de segments nuirait à la qualité du modèle.
Exclusion des variables à faible KR
Cette option vous permet d'activer l'exclusion des variables d'après la valeur de leur KR (c'est-à-dire de leur reproductibilité). Pour déterminer si la reproductibilité d'une variable est trop faible, InfiniteInsight
®
calcule un seuil qui dépend principalement de la taille du jeu de données et de la distribution de la cible.
Dans les versions antérieures à la version 6.1.0, InfiniteInsight ® excluait automatiquement les variables dont la reproductibilité était trop faible. Depuis la version 6.1.0, ce comportement a été désactivé par défaut. Si vous n'activez pas cette option, aucune variable ne sera exclue à cause de la valeur de sa reproductibilité.
Pour exclure automatiquement les variables à faible KR
Cochez l'option
Exclure les variables à faible KR
.
92
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Nombre maximum de corrélations conservées
Cette option vous permet de choisir combien de corrélations devront être affichées dans le panneau de débriefing
Corrélations.
Deux variables hautement corrélées contiennent les même informations par rapport à la variable cible. A chaque corrélation correspondent donc deux variables et un taux de corrélation. Lorsque vous modifiez le nombre de corrélations à afficher, le moteur supprime celles dont le taux de corrélation est le moins élevé, conservant ainsi uniquement les plus significatives.
Pour modifier les corrélations à conserver
1
Dans la section
Paramètres des corrélations
, déplacez le curseur pour indiquer à partir de quel coefficient de corrélation celles-ci doivent être conservées.
2
Cochez l'option
Conserver uniquement les plus fortes
.
Pour conserver toutes les corrélations
Cochez l'option
Conserver toutes les corrélations
.
93
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Activer le Post-traitement
Cette section vous permet de paramétrer la régression selon trois stratégies. Cette option ne peut être activée que si le modèle contient au moins une variable cible continue.
La description de ces stratégies et un exemple de courbe de performances pour chaque stratégies sont proposés dans le tableau ci-dessous.
Stratégie de régression
Description
Pas de post-traitemen t
Cette stratégie consiste à désactiver la phase de redressement des prédictions lors de l'apprentissage du modèle afin de créer une régression similaire aux versions de SAP InfiniteInsight
3.3.2.
® antérieures à la
Dans ce cas, une régression standard est effectuée.
Aucune optimisation spécifique n'est appliquée aux scores finaux. Les valeurs cible d'origine sont utilisées et les valeurs de score brutes sont générées en sortie.
Exemple de courbe de performances
Codage original de la cible
Codage uniforme de la cible
La seconde consiste à activer la phase de redressement des prédictions et à utiliser la valeur de la cible directement lors de l'apprentissage du modèle pour calculer les coefficients de régression.
Pendant la phase de post-traitement, le résultat de la régression est ensuite transformé afin d'aligner les moyennes des segments du score à celles de la variable cible.
Note
- C'est la stratégie utilisée par défaut dans SAP InfiniteInsight
®
.
La dernière consiste à activer la phase de redressement des prédictions et à utiliser un codage normalisé de la cible lors de l'apprentissage du modèle afin d'obtenir une distribution uniforme : c'est la phase de prétraitement. Ensuite, les coefficients de régression sont calculés et les scores sont convertis dans l'espace d'origine de la cible.
Note - Cette stratégie peut être choisie lorsque la stratégie par défaut ne produit pas des modèles de qualité satisfaisante, ce qui est souvent le cas avec des distributions dissymétriques des valeurs de cible.
Régression sans redressement
Décochez la case
Activer le post-traitement
.
94
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Note
Il n'est pas possible de choisir le type de codage utilisé pour la cible quand la phase de redressement est désactivée.
Régression utilisant la valeur cible
1
Cochez la case
Activer le post-traitement
.
2
Sélectionnez le bouton radio
Codage original de la cible
.
Note
Ce type de régression correspond aux régressions des versions 3.3.1 à 3.3.6 incluses. Cette stratégie de régression est la stratégie par défaut.
Régression utilisant la valeur codée de la cible
1
Cochez la case
Activer le post-traitement
.
2
Sélectionnez le bouton radio
Codage uniforme de la cible
.
Définir la valeur des catégories cibles
SAP InfiniteInsight
®
vous donne la possibilité de définir les valeurs des catégories cibles des variables cibles lorsque celles-ci sont binaires. Par défaut, SAP InfiniteInsight
®
utilise comme catégorie cible la catégorie la moins représentée dans l'ensemble de données.
L'écran Paramètres Spécifiques du Modèle liste l'ensemble des variables cibles binaires, vous permettant ainsi de déterminer pour chacune la valeur de sa catégorie cible, c'est-à-dire la valeur attendue de la variable cible.
Pour ce scénario
Ne définissez aucune valeur pour la variable cible. SAP InfiniteInsight
®
sélectionnera automatiquement la valeur "1" comme catégorie cible pour la variable Class.
Définir la catégorie cible d'une variable cible
Dans l'écran Paramètre spécifique du modèle, dans le champ Catégorie Cible correspondant à la variable cible choisie, entrez la valeur de la catégorie cible de cette variable.
95
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Onglet "Sélection automatique"
L'onglet
Sélection automatique
vous permet de définir les paramètres de la sélection automatique des variables.
Sélection automatique des variables
Ces paramètres vous permettent de réduire automatiquement le nombre de variables du modèle par rapport à des critères de qualité. Cette sélection se fait par itérations successives. Il existe deux modes de sélection, un basé sur le nombre de variables à conserver, et l'autre sur la quantité d'information à conserver. La quantité d'information correspond à la somme des contributions des variables.
Nombre de variables conservées
L'interface vous permet de fixer le nombre de variables supprimées par itération et le nombre final de variables.
Quantité d'information conservée
L'interface vous permet de fixer la quantité d'information conservée par itération, ainsi que plusieurs critères d'arrêts tels que :
Qualité
et
Perte autorisée
Pour une itération, la qualité de la sélection automatique de variables se base sur un indicateur définis soit par la somme du de la capacité prédictive (KI) et de la reproductibilité (KR), soit par la capacité prédictive uniquement ou la reproductibilité uniquement. On peut définir la perte de qualité autorisée pour cet indicateur.
Variables min.
Ce critère d'arrêt permet de fixer le nombre minimal de variables du modèle final.
Il est aussi possible de copier dans l'arbre des paramètres les itérations successives du processus de sélection en sélectionnant l'option
Sauvegarder les étapes intermédiaires
. Ces informations sont accessibles après la génération du modèle dans
Protocols/Default/Transforms/Kxen.RobustRegression[...]/SelectionProcess/Iterations
.
Pour utiliser la sélection automatique des variables
Cochez la case
Activer la sélection automatique des variables
. Les options correspondantes sont activées.
Les paramètres par défaut sont : "
Sélectionner
le meilleur modèle
en conservant entre
1
et
toutes
variables
."
Chaque paramètre modifiable est signalé sous forme de lien hypertexte (bleu, souligné).
96
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Mode de sélection
Pour choisir le mode de sélection
1
Cliquez sur le lien caractérisant le type d'information à conserver à chaque itération du processus de sélection. Par exemple,
le meilleur modèle
dans la phrase "
Sélectionner
le meilleur modèle
en conservant entre
1
et
toutes
variables.
"
Une liste déroulante s'affiche, proposant les choix suivants:
le meilleur modèle
le dernier modèle généré.
2
Sélectionnez l'option de votre choix.
3
Cliquez sur
Validez
.
Pour choisir le nombre de variables
Ce critère d'arrêt est obligatoire et permet de fixer le nombre minimal de variables du modèle final.
1
Dans la phrase " nombre de variables minimum (par exemple,
1
exemple,
toutes
modèle s'affiche.
Sélectionner
les variables
).
le meilleur modèle
en conservant entre variable
1
et
toutes
variables"
, cliquez sur le
) et le nombre de variables maximum (par
Pour sélectionner le nombre minimum de variables, un curseur allant de 1 au nombre total de variables du
Pour sélectionner le nombre maximum de variables, vous pouvez soit confirmer ce minimum en cochant
Garder toutes les variables
ou choisir un nombre maximum de variables.
2
Cliquez sur
Valider.
Critères d'arrêt
Vous avez le choix entre deux paramètres de sélection des variables :
Chaque étape retire
1
variable.
Cette option vous permet de paramétrer le nombre de variables qui devraient être exclues à chaque itération.
Chaque étape conserve
95,0%
de l'information.
97
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Cette option vous permet de paramétrer la quantité d'information qui devrait être conservé à chaque itération, limitant ainsi la perte d'information.
Sélectionnez l'option de votre choix.
Pour paramétrer le nombre de variables restantes
1
Cliquez sur le lien indiquant la nombre de variables dans la phrase "
Chaque étape retire
curseur allant de 1 au nombre total de variables du modèle s'affiche.
1
variable."
Un
2
Déplacez le curseur pour sélectionnez le nombre de votre choix.
3
Cliquez sur
Valider
.
Pour paramétrer la quantité d'information
1
Cliquez sur le lien indiquant la quantité d'information à conserver dans la phrase "
95,0%
de l'information".
Un curseur s'affiche.
Chaque étape conserve
2
Déplacez le curseur pour sélectionnez la quantité de votre choix.
3
Cliquez sur
Valider
.
Pour paramétrer la perte de qualité autorisée
La perte de qualité est paramétrée dans la phrase "
du KR
".
La recherche s'arrête en cas de diminution de
5,0%
du
KI et
1
Cliquez sur le lien indiquant le pourcentage de perte (par exemple,
5,0%
). Un curseur s'affiche.
2
Sélectionnez le pourcentage maximal autorisé de perte de qualité.
3
Cliquez sur
Valider
.
4
Cliquez sur le critère de qualité. Une liste déroulante s'affiche proposant les options suivantes :
Basé sur KI + 2KR,
la perte de qualité est basée sur la capacité prédictive (KI) et deux fois la reproductibilité (KR)
KI et KR
, la perte de qualité est limitée à la fois pour la capacité prédictive (KI) et pour la reproductibilité (KR). C'est la valeur par défaut.
KI
, la perte de qualité est seulement limitée pour la capacité prédictive (KI).
KR
, la perte de qualité est seulement limitée pour la reproductibilité (KR).
5
Sélectionnez l'option de votre choix.
6
Cliquez sur
Validez
.
98
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Onglet "Mode Risque"
Cet onglet vous permet de sélectionnez un mode d'apprentissage spécifique pour votre modèle.
Pour activer un mode d'apprentissage spécifique
1
Sélectionnez l'onglet
Mode Risque
.
2
Cochez la case
Activer
. L'onglet s'active et les paramètres du mode "Risque" s'affichent.
Activer le Mode "Risque"
Le
mode "Risque"
permet aux utilisateurs avancés de demander à un modèle de classement de traduire les
équations internes qu'il a obtenues sans contrainte vers une échelle de scores spécifiée associées au rapport bons/mauvais.
Quand ce mode est activé, les différents codages internes des variables continues et ordinales sont rassemblés en une seule représentation qui permet une vision simplifiée des équations internes du modèle.
Ceci est particulièrement intéressant lorsque l'utilisation de modèles prédictifs est soumise à des restrictions légales : les équations du modèle sont désormais assez simples pour être comprises par les services juridiques et peuvent être présentées, non seulement dans un langage de programmation comme avant, mais
également en termes simples.
La technologie sous-jacente est également utilisée pour afficher les 'cartes de score'.
L'utilisation de ce mode nécessite que vous choisissiez :
un
score de risque
associé à
un rapport bons/mauvais
Note
Le rapport bons/mauvais est égal à (1-p)/p, où p est la probabilité du risque.
le
nombre de points pour doubler le rapport
Note
Les points pour doubler le rapport sont le nombre de points de risque nécessaires pour doubler le rapport bons/mauvais.
99
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Exemple
Si on considère un score de risque de 615, un rapport bons/mauvais de 9 pour 1 et 15 points pour doubler le score, InfiniteInsight ® ré-échelonnera automatiquement les scores internes vers des scores dans l'espace du mode "Risque" et associera un rapport bons/mauvais à chacun de ces scores.
Dans ce scénario
N'activez pas le mode "Risque".
Pour définir les paramètres du mode "Risque"
1
Dans le champ
Score de risque
, saisissez le score que vous voulez associer à rapport bon/mauvais.
2
Dans le champ
pour un rapport bon/mauvais de
, saisissez le rapport.
3
Dans le champ
Points pour doubler le rapport
, indiquez le nombre de points dont le score doit augmenter pour doubler le rapport.
4
Cliquez sur le bouton
Voir la table de score
pour afficher un tableau des scores associés aux rapports bon/mauvais correspondants.
Domaine d'ajustement des risques
Cette option permet à l'utilisateur de paramétrer la manière dont l'ajustement des scores de risque est effectué, c'est-à-dire comment InfiniteInsight
®
ajuste ses propres scores aux scores de risque.
L'option d'ajustement des scores a deux modes :
Basé sur les points pour doubler le rapport
: l'aire d'ajustement des scores est égale à [Score médian -
N*PDR ; Score médian + N*PDR]
. N (nombre de points pour doubler le rapport autour du score médian) doit être spécifié par l'utilisateur. Par défaut, il est égal à 2.
Note
PDR signifie Points pour doubler le rapport.
CUSTOMER SAP InfiniteInsight® 7.0
100 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Basé sur la fréquence
: l'aire d'ajustement des scores est égale à [Quantile(Freq) ; Quantile(1.0 -
Freq)]
. La fréquence des scores extrêmes à exclure doit être spécifié par l'utilisateur. Par défaut, elle est
égale à 15%.
Si vous ne cochez pas la case
Domaine d'ajustement des risques
, le mode Basé sur la fréquence sera utilisé par défaut.
L'ajustement des scores peut être pondéré.
Pour paramétrer l'ajustement des risques
1
Cochez la case
Domaine d'ajustement des risques
.
2
Sélectionnez le mode que vous souhaitez utiliser.
3
Selon le mode choisi, saisissez la valeur appropriée dans le champ correspondant.
4
Si vous voulez pondérer l'ajustement des risques, cochez la case
utiliser les segments de la variable de score comme des poids
.
5.2 Etape 2 - Générer et valider le modèle
Une fois les paramètres de modélisation définis, vous pouvez générer le modèle. Vous devez ensuite valider ses performances grâce à la capacité prédictive (KI) et à la reproductibilité (KR) :
Si le modèle est suffisamment performant, vous pouvez analyser les réponses qu'il apporte par rapport à votre problématique ( étape 3
à la page 106, à la page 222), puis l'appliquer sur de nouveaux jeux de
données (étape 4).
Sinon, vous pouvez modifier les paramètres de modélisation de manière à ce qu'ils soient plus adaptés à votre jeu de données et à votre problématique, et générer ainsi de nouveaux modèles plus performants.
CUSTOMER SAP InfiniteInsight® 7.0
101 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.2.1 Générer le modèle
Pour générer le modèle
1
Dans l'écran
Récapitulatif des paramètres du modèle
, cliquez sur le bouton
Générer
.
L'écran
Apprentissage du modèle
apparaît. La génération du modèle est en cours. Une barre de progression vous permet de suivre le déroulement des différentes étapes.
2
Une fois le modèle généré, passez à la section Valider le modèle généré
5.2.2 Suivi du processus de génération
Il existe deux manières de suivre la progression du processus de génération du modèle :
La Barre de progression affiche la progression de chaque étape. C'est l'écran par défaut..
Le Détail du processus affiche des messages détaillés pour chaque étape.
Pour afficher la barre de progression
Cliquez sur le bouton (
Affiche la progression
).
La barre de progression s'affiche.
CUSTOMER SAP InfiniteInsight® 7.0
102 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour afficher le détail du processus
Cliquez sur
Type de Vue
>
L'écran ci-dessous s'affiche.
Détails des messages
.
Pour arrêter le processus d'apprentissage
1
Cliquez sur le bouton (
Arrêter
).
Une boîte de dialogue de confirmation s'affiche.
2
Cliquez sur le bouton
Précédent
.
L'écran
Récapitulatif des paramètres de modélisation
s'affiche.
3
Reportez-vous à la section Vérifier les paramètres de modélisation.
CUSTOMER SAP InfiniteInsight® 7.0
103 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.2.3 Valider le modèle généré
Une fois le modèle généré, vous devez vérifier sa validité en observant les indicateurs de performance :
la capacité prédictive vous permet de connaître le pouvoir explicatif du modèle, c'est-à-dire sa capacité à expliquer les valeurs de la variable cible sur le jeu de données d'apprentissage. Un modèle parfait possède une capacité prédictive égale à 1 et un modèle purement aléatoire possède une capacité prédictive égale à 0.
la reproductibilité vous permet de connaître le degré de robustesse du modèle, c'est-à-dire sa capacité à conserver le même pouvoir explicatif sur un nouveau jeu de données. En d'autres mots, le degré de robustesse correspond à la capacité prédictive du modèle sur un jeu de données d'application.
Pour savoir comment sont calculés la capacité prédictive et la reproductibilité, voir Capacité prédictive, reproductibilité et courbes de profit
Remarque
La validation du modèle est une phase primordiale dans le processus global de Data Mining. Accordez toujours une importance majeure aux valeurs obtenues pour la capacité prédictive et la reproductibilité d'un modèle.
CUSTOMER SAP InfiniteInsight® 7.0
104 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour ce scénario
Le modèle généré possède :
un indicateur de qualité KI égal à 0,8074,
un indicateur de robustesse KR égal à 0,9956.
Le modèle est suffisamment performant. Vous n'avez pas besoin d'en générer un autre.
Pour valider le modèle généré
Vérifiez les indicateurs de qualité
KI
et de robustesse
KR
du modèle. Ces indicateurs sont encerclés sur la figure suivante. a) Si les performances du modèle vous conviennent, passez à l'étape 3 "Analyser et comprendre le modèle généré
b) Sinon, passez à la procédure Pour générer un nouveau modèle
Pour générer un nouveau modèle
Vous avez deux options. Dans l'écran
Apprentissage du modèle
, vous pouvez :
soit cliquer sur le bouton
Précédent
pour revenir sur les paramètres de modélisation initialement définis.
Vous pouvez alors modifier les paramètres un à un.
soit cliquer sur le bouton
Annuler
pour revenir à la page d'accueil de l'assistant de modélisation.
Vous devez alors redéfinir tous les paramètres de modélisation.
CUSTOMER SAP InfiniteInsight® 7.0
105 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.3 Etape 3 - Analyser et comprendre le modèle généré
Un ensemble d'outils graphiques vous permet d'analyser le modèle généré et de connaître :
la performance du modèle par rapport à un hypothétique modèle parfait et un modèle de type aléatoire,
la contribution de chacune des variables explicatives par rapport à la variable cible,
l'importance des différentes catégories de chaque variable par rapport à la variable cible.
5.3.1 Menu d'utilisation
Une fois le modèle généré, cliquez sur le bouton
Suivant
. L'écran
Utilisation du modèle
apparaît.
L'écran
Utilisation du modèle
présente les différentes options d'utilisation du modèle, qui vous permettent :
d'afficher les informations relatives au modèle généré (groupe
Affichage
), c'est-à-dire l'aperçu du modèle, les graphiques des courbes d'évaluation, des contributions des variables et des différentes variables, des rapports statistiques détaillés au format HTML, des tables d'analyse. Certaines informations ne sont affichées qu'à la demande de l'utilisateur : ainsi l'affichage des résultats de
InfiniteInsight ® Modeler / Régression ou Classement sous forme d'arbre de décision doit être spécifié lors du paramétrage du modèle et l'accès aux paramètres du modèle doit être spécifié dans les options générale de l'assistant.
d'appliquer et de simuler le modèle généré sur de nouvelles données, et d'affiner le modèle en effectuant une sélection automatique des variables explicatives à prendre en compte (groupe
Exécution
).
d'enregistrer le modèle, ou de générer les codes source correspondants (groupe
Enregistrement/Export
).
5.3.2 Aperçu du modèle
L'
aperçu du modèle
reprend les informations récapitulée à la fin du processus de génération.
Ces informations sont détaillées dans les sections ci-dessous.
CUSTOMER SAP InfiniteInsight® 7.0
106 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Aperçu
Modèle
Jeu de données
Nom du modèle créé à partir du nom de la variable cible et du nom du jeu de données
Nom du fichier de données
Nombre de variables initiales
Nombre de variables dans le jeu de données
Nombre de variables d'entrée
Nombre de variables explicatives conservées
Nombre d'enregistrements
Nombre d'enregistrements de la source de données
Date de création
Date et heure de la création du modèle
Temps d'apprentissage
Composant
temps d'apprentissage total (par défaut le temps est indiquée en seconde)
Selon le composant utilisé pour créer le modèle :
Kxen.RobustRegression
Kxen.SmartSegmenter
Kxen.TimeSeries
Kxen.AssociationRules
Kxen.EventLog
Kxen.SequenceCoder
Kxen.SocialNetwork
Notifications
Variables Monotones
Détectées
Variables Suspectes
Détectées
Indique si des variables monotones ont été trouvées dans le jeu de données, c'est-à-dire des variables dont le sens de variation est constant, dans l'ordre de lecture des données dans le jeu d'estimation.
Ce rapport présente une liste de variables qui sont considérées comme suspectes. Ces variables suspectes ont un KI > 0.9, elles sont très fortement corrélées à la variable cible.
Cela signifie que ces variables apportent probablement une information biaisée et qu'elles ne devraient pas être utilisées pour la modélisation. Une attention particulière doit être accordée à ces variables. Un rapport plus détaillé liste quelles variables particulères sont suspectes et dans quelle mesure (voir Rapports Statistiques > Compte Rendu Expert >
Variables Suspectes).
CUSTOMER SAP InfiniteInsight® 7.0
107 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Variables cibles nominales
Pour chaque variable cible nominale
<Nom de la variable cible>
Le nom de la variable cible nominale concernée
Catégorie cible
<Catégorie non-cible> -
Fréquence
Valeur de la catégorie cible
Proportion d'enregistrements pour lesquels la valeur de la variable cilbe n'est pas
égale à la catégorie cible
<Catégorie cible> - Fréquence
Proportion d'enregistrements pour lesquels la valeur de la variable cible est égale à la catégorie cible
Variables cibles continues
Pour chaque variable cible continue
<Nom de la variable cible>
Min
Max
Moyenne
Ecart Type
Le nom de la variable cible continue concernée
La valeur minimum trouvée pour cette variable cible
La valeur maximum trouvée pour cette variable cible
La moyenne des valeurs de cette variable cible
L'écart type des valeurs de cette variable cible
Indicateurs de performance
Pour chaque variable cible:
rr_<variable cible>
KI
nom du modèle, identifié par le préfixe rr_ suivi du nom de la variable cible. Par exemple, rr_class.
KR
Indicateur de qualité. Pour plus d'information sur le KI, reportez-vous à la section
Indicateurs de performances
Indicateur de robustesse. Pour plus d'information sur le KR, reportez-vous à la section
Indicateurs de performances
CUSTOMER SAP InfiniteInsight® 7.0
108 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Options
Pour copier l'aperçu du modèle
1
Cliquez sur le bouton (
Copier
).
L'application copie le code HTML correspondant à l'aperçu du modèle.
2
Collez les paramètres dans l'application de votre choix.
Imprimer l'aperçu du modèle
1
Cliquez sur le bouton (
Imprimer
).
Une boîte de dialogue s'affiche vous permettant de choisir votre imprimante.
2
Sélectionnez l'imprimante et les options d'impression.
3
Cliquez sur
OK
.
L'impression est lancée.
Pour enregistrer l'aperçu du modèle
1
Cliquez sur le bouton (
Enregistrer
).
Une boîte de dialogue s'affiche vous permettant de choisir les propriétés du fichier.
2
Entrez un nom de fichier.
3
Choisissez le dossier de destination.
4
Cliquez sur
OK
.
Les informations du modèle sont sauvegardées dans un fichier texte.
Exporter vers PowerPoint
Pour exporter vers PowerPoint
Cliquez sur (
Exporter vers PowerPoint
).
CUSTOMER SAP InfiniteInsight® 7.0
109 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.3.3 Les courbes de performances
Définition
Selon le type de cible, le graphique des courbes de performances vous permet de :
visualiser le profit réalisable par rapport à votre problématique en utilisant le modèle généré lorsque la cible est nominale.
comparer les performances du modèle généré à celles d'un modèle de type aléatoire et celles d'un modèle hypothétique parfait lorsque la cible est nominale.
comparer la valeur prévue à la valeur réelle lorsque la cible est continue.
Sur le graphique, les courbes représentent :
le profit réalisable (axe des ordonnées) en fonction du taux d'observations sélectionnées sur la totalité du jeu de données initial (axe des abscisses) pour une cible nominale,
la valeur prédite par rapport à la valeur réelle pour une cible continue.
Afficher le graphique des courbes de profit
Pour afficher le graphique des courbes de performances
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Courbes de performances
.
Les courbes de performances s'affichent.
Lorsque la variable cible est de type nominal, une courbe du type suivant s'affiche.
Les paramètres par défaut affichent les courbes de profit correspondant au sous-jeu de
Validation
, à un hypothétique modèle parfait (
Wizard
) et à un modèle aléatoire (
Random
). Le type de profit utilisé est profit
Détecté
.
CUSTOMER SAP InfiniteInsight® 7.0
110 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Lorsque que la variable cible est de type continu, une courbe du type suivant s'affiche :
Les paramètres par défaut affichent les courbes correspondant au sous-jeu de
Validation
et à un hypothétique modèle parfait (
Wizard
). Le type de courbe utilisé est
Prédit/Réel
. La zone bleue correspond
à la déviation standard du modèle en cours.
2
Dans le cas où il existe plusieurs variables cibles, sélectionnez dans la liste déroulante
Modèles
celui pour lequel vous souhaitez voir les courbes de performances.
Note
(
A chaque variable cible correspond un modèle. Le nom de chaque modèle est constitué du préfixe
rr_
Robust Regression
) et du nom de la variable cible concernée.
3
Sélectionnez les options de visualisation qui vous intéressent.
Pour plus d'informations sur les options de visualisation, Options de visualisation
Options de visualisation
Pour copier une courbe de performances
1
Cliquez sur le bouton (
Copier
).
2
Sélectionnez l'option désirée.
L'application copie les paramètres de la courbe.
3
Collez les paramètres dans l'application de votre choix. Vous pouvez par exemple les utiliser pour générer un graphique dans un tableur (Excel, ...).
111
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour imprimer une courbe de performances
1
Cliquez sur le bouton (
Imprimer
).
Une boîte de dialogue s'affiche vous permettant de choisir votre imprimante.
2
Sélectionnez l'imprimante et les options d'impression.
3
Cliquez sur
OK
.
L'impression est lancée.
Pour enregistrer une courbe de performances
1
Cliquez sur le bouton (
Enregistrer
).
Une boîte de dialogue s'affiche vous permettant de choisir les propriétés du fichier.
2
Entrez un nom de fichier.
3
Choisissez le dossier de destination.
4
Cliquez sur
OK
.
La courbe est enregistrée au format PNG dans le dossier sélectionné.
Pour afficher les courbes des sous-jeux d'estimation, de validation et de test
1
Dans l'écran
Courbes de performances
, cliquez sur
Jeux de données
et sélectionnez l'une des options suivantes :
Tous les jeux de données
.
Validation uniquement
.
Pour exporter au format Excel
Pour exporter au format Excel
Cliquez sur (
Exporter au format Excel
).
Pour ouvrir la vue courante dans une nouvelle fenêtre
Pour ouvrir la vue courante dans une nouvelle fenêtre
Cliquez sur (
Punaiser la vue
).
112
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour un modèle à cible nominale
Sur le graphique des courbes de performances, différentes options vous permettent de visualiser :
les valeurs exactes d'un point pour toutes les courbes représentées.
les courbes de profit associées aux sous-jeux d'estimation et de test.
les différentes courbes profit en fonction des types de profit:
Détecté
,
Lift
,
Normalisé
,
ROC
Lorenz 'Bon'
et
'Mauvais'
Densité 'Bon'
,
'Mauvais'
et
'Tous'
Personnalisé
.
Pour plus d'informations sur les courbes de profit
(voir " Types de profit " à la page 46).
Pour afficher les valeurs de profit exactes pour un point donné
Dans l' écran
Courbes de performances
, sur le graphique, cliquez sur un point de l'une des courbes représentées.
Par exemple, en cliquant sur un point de l'une des courbes ayant pour valeur en abscisse 25%, les valeurs de profit exactes apparaissent.
Pour sélectionner un type de profit
1
Dans l'écran
Courbes de performances
, au-dessus du graphique, cliquez sur la liste déroulante associée au champ
Profit
.
La liste des types de profit apparaît.
2
Sélectionnez un type de profit.
Les courbes correspondantes s'affichent.
113
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour un modèle à cible continue
Sur le graphique des courbes de performances, différentes options vous permettent de visualiser :
les valeurs exactes d'un point pour toutes les courbes représentées.
les courbes associées aux sous-jeux d'estimation et de test.
la courbe en fonction des types
Prédit/Réel
ou
Réel/Prédit
.
Pour afficher les valeurs de profit exactes pour un point donné
Dans l'écran
Courbes de performances
, sur le graphique, cliquez sur un point de l'une des courbes représentées.
Par exemple, en cliquant sur un point de l'une des courbes ayant pour valeur en abscisse 29 ans, les valeurs exactes prédites et réelles s'affichent.
Pour sélectionner un type de courbe
1
Dans l'écran
Courbes de performances
, sous le titre, cliquez sur la liste déroulante associée au champ
Type de courbe
.
La liste des types de courbe apparaît.
2
Sélectionnez un type de courbe.
Les courbes correspondantes s'affichent.
114
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comprendre les courbes de performances
Pour un modèle à cible nominale
La figure ci-dessous représente le graphique des courbes de profit utilisant les paramètres par défaut.
115
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Sur le graphique, les courbes représentent pour chaque type de modèle le profit réalisable (axe des ordonnées), c'est-à-dire le pourcentage d'observations appartenant à la variable cible, en fonction du taux d'observations sélectionnées sur la totalité du jeu de données initial (axe des abscisses). Sur l'axe des abscisses, les observations sont ordonnées de manière décroissante en fonction de leur "score", c’est-à-dire par probabilité décroissante d'appartenir à la catégorie cible de la variable cible.
Dans ce scénario d'utilisation, les courbes de profit représentent le taux de prospects susceptibles de répondre de manière positive à votre campagne marketing sur la totalité des prospects référencés dans votre base de données.
Le profit
Détecté
est le type de profit proposé par défaut. Avec ce type de profit :
la valeur "0" est affectée aux observations n'appartenant pas à la catégorie cible de la variable cible,
la valeur "1/(fréquence de la variable cible dans le jeu de données)" est affectée aux observations appartenant à la catégorie cible de la variable cible.
Le tableau suivant décrit les trois courbes représentées sur le graphique utilisant les paramètres par défaut.
La courbe... Représente... Par exemple, en sélectionnant...
Wizard
(courbe verte, la plus haute) le profit réalisable en utilisant un hypothétique
modèle parfait
, permettant de
connaître de manière absolue
la valeur de la variable cible pour chaque observation du jeu de données
25% des observations sur la totalité de votre jeu de données à l'aide d'un modèle parfait, 100% des observations appartenant à la catégorie cible de la variable cible sont sélectionnées. Le profit maximum est alors atteint.
Remarque
Ces 25% correspondent au pourcentage de prospects ayant répondu de manière positive à votre campagne marketing, lors de votre phase de test. Pour ces prospects, la valeur de la variable cible, ou profit, est
égale à 1.
Validation
(courbe bleue, du milieu) le profit réalisable en utilisant le
modèle généré par InfiniteInsight
®
Modeler
, permettant de prédire au mieux la valeur de la variable cible pour chaque observation du jeu de données
25% des observations de votre jeu de données initial à l'aide du modèle généré, 69% des observations appartenant à la catégorie cible de la variable cible sont sélectionnées
Aléatoire
(courbe rouge, la plus basse) le profit réalisable en utilisant un
modèle aléatoire
, ne permettant de connaître en aucun cas la valeur de la variable cible pour chaque observation du jeu de données.
25% du jeu de données initial à l'aide d'un modèle aléatoire, 25% des observations appartenant à la catégorie cible de la variable cible sont sélectionnées
116
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour un modèle à cible continue
La figure ci-dessous représente le graphique des courbes de performances lorsque la cible est continue.
Les graphiques par défaut affichent les valeurs de la cible réelle (axes des ordonnées) en fonction des valeurs de la cible prédite (axes des abscisses). Deux courbes sont tracées : une pour le jeu de données
Validation
(représentée par une courbe bleue) et une autre pour le modèle parfait (représentée par une courbe verte).
Par exemple, lorsque le modèle prédit 35, la moyenne de la valeur réelle est 37. La courbe du
Wizard
correspond simplement à X=Y, ce qui signifie que chaque valeur prédite est égale à la valeur réelle. Ce graphique permet de voir facilement et rapidement les erreurs du modèle. Lorsque la courbe s'éloigne trop du modèle parfait, cela signifie que la valeur prédite est suspecte.
Le graphique est calculé comme suit :
les valeurs prédites sont réparties dans environ 20 segments ou groupes. Chacun de ses segments représente environ 5 % de la population.
pour chacun de ces segments des statistiques basiques sont calculées sur la valeur réelle, telles que la moyenne du segment (
SegmentMean
), la moyenne associée à la cible (
TargetMean
) et la variance de la cible sur ce segment (
TargetVariance
). Par exemple pour une valeur prédite dans [17; 19], si la moyenne est égale à 18,5, la moyenne réelle est égale à 20,5 et la variance de la valeur réelle est égale à 9. Dans ce cas on peut dire que, si la valeur prédite se situe entre 17 et 19, le modèle sous-estime légèrement la valeur réelle.
Pour chaque courbe, un point est défini comme la moyenne d'un segment (
SegmentMean
) en abscisse et la moyenne associée à la cible en ordonnée (
TargetMean
).
La zone bleue représente la déviation standard attendue du modèle courant. Cette zone représente environ
70% des valeurs de la cible attendues.
Il est à noter que cet intervalle de prédiction (c'est dire la moitié de la zone bleue) est égale à la déviation standard de la cible observée pour un segment de valeurs prédites. En d'autres mots, cela signifie que, dans la cas d'une distribution Gaussienne, 70 % des valeurs réelles se situent dans cette zone.
Note
Il s'agit évidemment d'un pourcentage théorique qui peut varier.
117
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Les valeurs extrêmes de l'intervalle de prédiction se calculent de la façon suivante :
{TargetMean - (sqrt(TargetVariance)); TargetMean + (sqrt(TargetVariance))}
Note
La déviation standard est égale à sqrt(TargetVariance).
KI, KR et courbes de performances
Sur le graphique des courbes de performances pour un modèle dont la cible est continue :
pour le jeu de données d'estimation (graphique par défaut), l'indicateur KI correspond au rapport entre
"la surface se trouvant entre la courbe du modèle généré et celle du modèle aléatoire" et "la surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire". Ainsi plus la courbe du modèle généré se rapproche de la courbe du modèle parfait, plus le KI se rapproche de 1.
pour les jeux de données d'estimation, de validation et de test (sélectionnez l'option correspondante dans la liste
Jeu de données
, située sous le titre), l'indicateur KR correspond au rapport entre la "surface se trouvant entre la courbe du jeu d'estimation et celle du jeu de validation" et la "surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire".
5.3.4 Contribution des variables
Définition
Le graphique des contributions des variables vous permet de visualiser l'importance relative de chacune des variables dans le modèle. Sur ce graphique, chaque barre représente la contribution d'une variable explicative par rapport à la variable cible.
Les quatre types de graphiques suivants permettent de visualiser les contributions des variables :
Contribution des variables
Poids des variables
Contributions intelligentes des variables
Contributions maximales intelligentes des variables
118
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Afficher les contributions des variables
Pour afficher le graphique des contributions des variables
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Contributions des variables
.
Le graphique de
Contributions des variables
apparaît.
Le type de graphique défini par défaut est
Contributions maximales intelligentes des variables
.
Si votre jeu de données contient des variables de type Date ou Datetime, des variables générées automatiquement peuvent apparaître dans ce panneau. Pour plus d'information, reportez-vous à la section Variables de date : les variables générées automatiquement
(voir " Variables de Date : les variables générées automatiquement " à la page 31).
119
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comprendre les contributions des variables
L’option
Afficher les contributions des variables
permet de visualiser l’importance de la contribution de chacune des variables explicatives par rapport à la variable cible. Cette importance est relative : l'importance d'une variable donnée est calculée en fonction de l'importance des autres variables explicatives.
Sur le graphique ci-dessus, correspondant au modèle généré, les deux variables qui contribuent le plus à l'explication de la variable cible sont :
marital-status
,
capital-gain
.
En d'autres mots, les variables
marital-status
(statut marital) et
capital-gain
(gains en bourse) sont celles qui déterminent le plus si un prospect répond de manière positive ou négative à votre campagne marketing. Parmi toutes les variables contenues dans le jeu de données, ce sont les variables les plus discriminantes par rapport
à la variable cible.
CUSTOMER SAP InfiniteInsight® 7.0
120 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Variables corrélées
Dire que des variables sont corrélées signifie qu'elles sont en partie redondantes, qu'elles apportent en partie la même information par rapport à la variable cible. Deux variables fortement corrélées décrivent donc en grande partie une même information, un même concept.
Le graphique
Contributions intelligentes des variables
rend compte des corrélations qui peuvent exister entre les différentes variables explicatives. Quand deux variables A et B sont fortement corrélées :
la variable A, qui a une contribution plus forte que B par rapport à la variable cible, devient la "variable primaire" : le graphique représente tout son apport, y compris l'information qu'elle a en commun avec la variable B.
la variable B, qui a une contribution plus faible que A par rapport à la variable cible, devient la "variable secondaire" : seul son apport marginal est représenté sur le graphique, c'est-à-dire les informations qu'elle ne partage pas avec la variable A. Cette différence d'information est notée
[variable_B]-[variable_A]
.
Variables codées
Pour créer un modèle, SAP InfiniteInsight ® utilise non seulement les variables originales, mais également, dans le cas de variables continues ou ordinales, leur valeur codées par InfiniteInsight
®
Modeler / Codeur analytique.
C'est ce qu'on appelle le codage double. Cela permet à SAP InfiniteInsight ® contenue dans chaque variable.
d'extraire toute l'information
Les variables codées sont indiquées par le préfixe c_ dans les graphiques de contributions. Ainsi, la version codée de la variable age est notée c_age.
Note
Dans InfiniteInsight naturel pour une variable donnée, la valeur codée de cette variable ( générée.
® Modeler, dans le panneau Description des données, si vous activez le codage
c_NomVariable
) ne sera pas
5.3.5 Détails des variables
Définition
Le graphique de détails de variable présente l'importance des catégories d'une variable donnée par rapport à la variable cible.
121
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Afficher le graphique de détails d'une variable
Pour afficher le graphique de détails d'une variable
1
Dans l'écran
Utilisation du modèle
, cliquez sur
Détails des variables
.
Le graphique de détails des variables apparaît.
2
Au-dessus du graphique, dans la liste
Variables
, sélectionnez la variable dont vous souhaitez afficher les catégories.
Si votre jeu de données contient des variables de type Date ou Datetime, des variables générées automatiquement apparaîtront dans cette liste. Pour plus d'information, reportez-vous à la section
Variables de date : les variables générées automatiquement
(voir " Variables de Date : les variables générées automatiquement " à la page 31).
Note
Vous pouvez afficher les détails d'une variable directement à partir du graphique
Contributions des variables
, en double-cliquant la barre représentant la variable qui vous intéresse.
Dans le cas où aucune structure utilisateur n'a été définie pour une variable continue, le graphe de détail des variables affiche les catégories créées automatiquement en utilisant le paramètre de
nombre de segments
. Le nombre de catégories affichées correspond à la valeur du paramètre de nombre de segments. Pour plus d'information au sujet de la configuration du paramètre de
nombre de segments
, reportez-vous à la section Nombre de segments pour les variables continues.
CUSTOMER SAP InfiniteInsight® 7.0
122 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Options
En haut du panneau, une barre d'outils vous est proposée vous permettant de modifier l'affichage du graphique, de l'imprimer, copier ses données ou l'enregistrer.
Options d'affichage
Pour afficher et masquer les sous-jeux d'Estimation et de Test
Cliquez sur
Jeux de données
et sélectionnez l'une des options suivantes :
Tous les jeux de données
.
Validation uniquement
.
Pour afficher un histogramme
Cliquez sur
Type de vue
et sélectionnez (
Histogramme
).
L'histogramme des catégories de la variable sélectionnée s'affiche.
Pour afficher une courbe
Cliquez sur
Type de vue
et sélectionnez (
Courbe de profit
).
La courbe de performances de la variable sélectionnée s'affiche.
Pour ouvrir la vue courante dans une nouvelle fenêtre
Cliquez sur (
Punaiser la vue
).
CUSTOMER SAP InfiniteInsight® 7.0
123 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Options d'utilisation
Pour imprimer
1
Cliquez sur le bouton (
Imprimer
).
Une boîte de dialogue s'affiche vous permettant de choisir votre imprimante.
2
Sélectionnez l'imprimante et les options d'impression.
3
Cliquez sur
OK
.
L'impression est lancée.
Pour enregistrer
1
Cliquez sur le bouton (
Enregistrer
).
Une boîte de dialogue s'affiche vous permettant de choisir les propriétés du fichier.
2
Entrez un nom de fichier.
3
Choisissez le dossier de destination.
4
Cliquez sur
OK
.
Le graphique est enregistré au format PNG dans le dossier sélectionné.
Pour copier
1
Cliquez sur le bouton (
Copier
) et sélectionnez l'option désirée.
L'application copie les paramètres du graphique.
2
Collez les paramètres dans l'application de votre choix. Vous pouvez par exemple les utiliser pour générer un graphique dans un tableur (Excel, ...).
Pour exporter au format Excel
Cliquez sur (
Exporter au format Excel
).
CUSTOMER SAP InfiniteInsight® 7.0
124 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comprendre les graphiques de variables
Pour ce scénario
Sélectionnez la variable
marital-status
, qui est la variable explicative qui contribue le plus à la variable cible
Class
.
Ce graphique présente l’impact des catégories de la variable
marital-status
sur la variable cible.
CUSTOMER SAP InfiniteInsight® 7.0
125 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Catégories des variables et profit
Pour le graphique de détails d'une variable, le type de profit utilisé est profit normalisé, c'est-à-dire le profit qui permet de mesurer ce que le modèle apporte par rapport à un modèle de type aléatoire.
Sur ce type de graphique :
Plus une catégorie est située haut sur le graphique, plus elle a un impact positif sur la catégorie cible (ou valeur souhaitée) de la variable cible. En d'autres mots, plus une catégorie est en haut sur le graphique, plus le taux de la catégorie cible est important dans cette catégorie..
La longueur d'une barre correspond au profit apporté par la catégorie. Pour une catégorie donnée, une barre positive indique que cette catégorie contient plus d'observations appartenant à la catégorie cible de la variable cible que la moyenne. Une barre négative indique que la catégorie est moins concentrée en catégorie cible de la variable cible que la moyenne.
Note
Vous pouvez afficher les courbes de profit de la variable sélectionnée en cliquant sur le bouton
(
Courbe de profit
).
L'importance d'une variable dépend à la fois de sa différence par rapport à la moyenne de la catégorie cible et du nombre de cas représentés. Une importance élevée peut être le résultat :
d'une forte divergence entre la catégorie et la moyenne de la catégorie cible de la variable cible,
ou d'une faible divergence conjuguée à un grand nombre d'enregistrements dans cette catégorie,
ou encore d'un mélange des deux.
La longueur de la barre montre le profit de cette catégorie. Les barres positives correspondent aux catégories ayant un nombre d'enregistrements supérieur à la moyenne de la catégorie cible, et les barres négatives correspondent aux catégories ayant un nombre d'enregistrements inférieur à la moyenne de la catégorie cible.
CUSTOMER SAP InfiniteInsight® 7.0
126 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Axes du graphique
Les catégories des variables sont affichées sur l'axe des ordonnées. Les catégories ayant le même impact sur la variable cible sont regroupées. Elles apparaissent comme suit :
[Category_a;Category_b;Category_c]
. Les catégories ne contenant pas suffisamment de données pour fournir une information robuste sont regroupées dans la catégorie KxOther. Quand une variable a trop de valeurs manquantes, celles-ci sont regroupées dans la catégorie KxMissing. Ces deux catégories sont créées automatiquement par SAP InfiniteInsight
®
.
L'axe des abscisses montrent l'influence des catégories d'une variable sur la cible. La signification des différents nombres présents sur l'axe des abscisses est détaillée dans le tableau ci-dessous.
Le nombre est... Indique que la catégorie a...
positif
égal à 0 négatif
une influence positive sur la cible aucune influence sur la cible (le comportement est le même que le comportement moyen de l'ensemble de la population) une influence négative sur la cible
Définition de l'importance des catégories
La définition ci-dessous s'applique aux cibles continues ; la formulation peut être en partie simplifiée pour les cibles binaires. Les formules suivantes peuvent également être appliquées au cas d’une cible binaire (dans ce cas, utilisez les catégories et non les segments).
Nous considérons le cas où un modèle de régression InfiniteInsight ® Modeler / Régression ou Classement est utilisé en apprentissage sur une cible ou un signal continu
S
, à l'aide d'une variable d'entrée
X
.
InfiniteInsight
S
1,...,
S
B
® Modeler / Régression ou Classement segmente tout d’abord la cible continue
S
en
B
segments:
puis calcule les statistiques de base et les statistiques croisées des entrées par rapport à la cible.
Nous supposerons que l'entrée
X
est une variable nominale (catégorique), même si tout le processus peut être
étendu facilement aux cas de variables ordinales ou continues.
Nous supposerons que
X
comporte N catégories :
X
1
, ..., X
N
.
Nous souhaitons évaluer l'importance d'une catégorie Xi par rapport à la cible S.
L'importance d'une catégorie dépend de deux facteurs :
le fait que la répartition de la cible pour cette catégorie est fortement biaisée en faveur de valeurs faibles ou élevées par rapport à la répartition de la cible sur l'ensemble de la population ;
la fréquence de cette catégorie.
L'une des causes suivantes peut engendrer une importance de niveau élevé :
une forte disparité entre la répartition de la cible pour les cas associés à cette catégorie et la répartition de la variable cible pour l'ensemble de la population ;
une légère disparité combinée à un grand nombre d'enregistrements dans cette catégorie ;
une combinaison des deux.
SAP InfiniteInsight ® utilise un réglage non paramétrique où l'importance de la catégorie est définie ainsi :
CUSTOMER SAP InfiniteInsight® 7.0
127 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
où :
normalProfit(Xi)
Freq (Xi)
Z
correspond au
profit standard
de la catégorie Xi (voir la définition ci-dessous),
correspond à la fréquence globale de la catégorie Xi,
correspond à une constante de normalisation.
Nous indiquons ci-dessous le calcul détaillé de ces valeurs.
Profit standard
Chaque catégorie de la cible S j
est associée à un profit
profit(Sj)
défini ainsi :
Le profit d'une catégorie cible correspond à une valeur située dans la plage suivante à partir des fréquences (cumulées) des catégories cibles:
[-1; +1]
. Il est défini de la manière
Le profit standard d'une catégorie
Xi
est alors défini ainsi : où
Proba[Sj |Xi]
correspond à la probabilité conditionnelle de voir apparaître la catégorie cible
Sj
dans la catégorie de la variable
Xi
(statistiques croisées) :
Ces formules reposant uniquement sur des fréquences, elles sont résistantes à toute transformation monotone de la cible
S
.
Constante de normalisation
La normalisation peut être approximative pour les cibles continues non pathologiques (c'est-à-dire les cibles continues sans pic de répartition (Dirac)), comme :
Dans la plupart des cas, la valeur 0,25 constitue une bonne approximation.
Propriétés de profit standard
Plusieurs points sont à souligner au sujet du profit standard :
Le profit standard des catégories est indépendant des valeurs cibles en elles-mêmes (l'utilisateur peut modifier la valeur cible par le biais de transformations monotones ; le profit standard ne changera pas pour cette cible). Il s'agit de mesures non paramétriques.
Une conséquence du point 1 est que cette mesure est résistante aux valeurs aberrantes : s'il existe quelques occurrences de la cible dont la valeur est très élevée par rapport au reste de la répartition des valeurs cibles, la notion de profit standard n'est pas altérée.
La somme pondérée du profit standard pour toutes les catégories de variables données est toujours égale à 0.
CUSTOMER SAP InfiniteInsight® 7.0
128 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Regroupement de catégories
Sur le graphique de détails d'une variable, des catégories peuvent apparaître groupées.
Quand l'option
Activer l'optimisation des regroupements basés sur la variable cible effectués par
InfiniteInsight
®
Modeler / Codeur analytique pour toutes les variables
est activée, SAP InfiniteInsight ® regroupe les catégories ayant le même impact sur la variable cible. Par exemple, pour la variable
relationship
(statut marital), les catégories
husband
(mari) et
wife
(femme) sont regroupées. Si la variable explicative est continue, SAP InfiniteInsight et découpe ainsi automatiquement la variable en intervalles ayant un comportement homogène vis à vis de la cible.
® repère les points de changements de comportement vis à vis de la variable cible
Pour plus d'information, reportez-vous à la section Optimisation des regroupements.
Quand des catégories ne sont pas assez représentées pour apporter une information robuste, elles sont regroupées dans la catégorie
KxOther
, qui est alors automatiquement créée.
Quand une variable possède trop de valeurs manquantes, ces valeurs manquantes sont regroupées dans la catégorie
KxMissing
, alors automatiquement créée.
Pour comprendre l'intérêt des catégories
KxOther
et
KxMissing
, imaginons le cas suivant. La base de données des entreprises clientes d'une entreprise contient la variable "Adresse Web". Cette variable contient l'adresse du site Web des entreprises clientes référencées dans la base. Certaines entreprises possèdent une adresse
Web, d’autres n'en possèdent pas. De plus, chaque adresse web est unique. Dans un tel cas, SAP
InfiniteInsight ® transforme automatiquement la variable "Adresse Web" en une variable binaire avec deux valeurs possibles :
KxOther
(l’entreprise a un site web ) et
KxMissing
(l’entreprise n’a pas de site Web).
CUSTOMER SAP InfiniteInsight® 7.0
129 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.3.6 Rapports de modélisation
SAP InfiniteInsight ® vous propose un ensemble de
Rapports de modélisation
vous permettant une analyse fine de votre modèle. Ces tables sont regroupées en plusieurs niveaux :
les
statistiques descriptives
, qui fournissent des statistiques sur les variables, leurs catégories et les jeux de données ainsi que les statistiques croisées des variables par rapport aux variables cibles.
Note
Si votre jeu de données contient des variables de type Date ou Datetime, des variables générées automatiquement apparaîtront dans ces rapports. Pour plus d'information, reportez-vous à la section
Variables de date : les variables générées automatiquement
(voir " Variables de Date : les variables générées automatiquement " à la page 31).
les
performances du modèle
, dans lesquelles vous trouverez les indicateurs de performance du modèle, les individus non assignés, ainsi que les statistiques détaillées du score.
la
vérification des déviations
, qui vous permet de vérifier la présence de déviation pour chaque variable et catégorie de variable entre les jeux de données de validation et de test.
les
rapports avancés
, dans lesquels vous trouverez d'autres indicateurs de performance, l'encodage des variables, ...
Options des rapports de modélisation
Une barre d'outils vous est proposée vous permettant de modifier l'affichage du rapport courant, de le copier, l'imprimer, le sauvegarder ou l'exporter sous format Excel.
Options d'utilisation
Copier
Imprimer
Cette option permet de copier les données de la vue courante du rapport affiché. Les informations ainsi copiées peuvent être collées dans un éditeur de texte, un tableur, un document de traitement de texte.
Si le rapport courant contient plusieurs vues (pour différentes variables, différents jeux de données, etc.) Cette option permet de copier l'ensemble des vues pour ce rapport.
Si le rapport en cours est affiché sous forme de graphique, cette option vous permet de le copier au format image et de le coller dans un éditeur de texte ou dans un logiciel graphique.
Cette option permet d'imprimer la vue courante du rapport sélectionné selon le mode d'affichage choisi
(rapport HTML, graphique, ...).
Exporter
Cette option permet d'enregistrer sous différents formats (texte, html, pdf, rtf) les données de la vue courante du rapport affiché.
Cette option permet d'enregistrer sous différents formats (texte, html, pdf, rtf) les données de l'ensemble des vues du rapport affiché.
Cette option, qui est disponible pour toutes les formes d'affichage, permet d'exporter la vue courante vers Excel (compatible avec Excel 2002, 2003, XP et 2007).
CUSTOMER SAP InfiniteInsight® 7.0
130 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Cette option vous permet de sauvegarder tous les rapports.
Cette option vous permet de sauvegarder la personnalisation des rapports.
Options d'affichage
Vue
Cette option permet d'afficher la vue courante du rapport dans un tableau graphique qui peut être triés par colonne.
Cette option permet d'afficher la vue courante du rapport sous forme de tableau HTML.
Pour certains rapports, vous pouvez choisir d'afficher la vue courante sous forme d'histogramme. Cet histogramme peut être trié par ordre ascendant ou descendant des valeurs ainsi que par ordre alphabétique ascendant ou descendant. Vous pouvez également choisir quelles données afficher.
Pour certains rapports, vous pouvez choisir d'afficher la vue courante sous forme de secteurs.
Pour certains rapports, vous pouvez choisir d'afficher la vue courante sous forme de courbe.
Trier
Quand le rapport en cours est affiché sous la forme d'un histogramme cette option vous permet de modifier son orientation (d'horizontal à vertical et inversement).
Séries
Cette option vous permet d'afficher le rapport courant sans triage.
Cette option vous permet de trier les valeurs du rapport courant par ordre ascendant.
Cette option vous permet de trier les valeurs du rapport courant par ordre descendant.
Cette option vous permet de trier les noms du rapport courant par ordre ascendant.
Cette option vous permet de trier les noms du rapport courant par ordre descendant.
Cette option permet de sélectionner quelles informations afficher dans le rapport courant.
131
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.3.7 Carte des scores
Ce panneau vous fournit les coefficients associés à chaque catégorie pour toutes les variables d'un modèle de regression.
Pour obtenir un score
Additionnez les coefficients correspondants à la valeur de chaque variable pour le cas étudié.
Remarque
Dans le cas d'une variable continue, la carte des scores comprend toujours un nombre de catégories supérieur à celui de la structure utilisateur définie ou du paramètre de
nombre de segments
si aucune structure utilisateur n'a été définie. En effet, l'encodage des variables pour la carte de score introduit des points de continuité pour augmenter la précision de codage par rapport au jeu de données d'apprentissage. Ces points de continuité scindent certaines catégories existantes et augmentent donc le nombre de catégories dans la carte de score.
CUSTOMER SAP InfiniteInsight® 7.0
132 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Mode "Risque"
La lecture de l'équation du modèle et l'interprétation de la carte de score sont facilitées dans le mode "Risque" en raison de l'encodage par palier pour les variables ordinales et continues.
En mode "Risque", il est facile d'identifier quelle catégorie a un effet positif ou négatif sur le score du risque, sur le ratio bons/mauvais ou sur la probabilité du risque.
Afin de mieux illustrer les avantages de la carte de scores pour l'interprétation des résultats, nous utilisons la variable "age" dans cet exemple.
Le segment ]24;27] a un score de risque d'environ 30 et le segment [37;43] d'environ 15. Selon le paramètre
PDO (points pour doubler le score, ici il vaut 15), on peut conclure que les individus appartenant au segment
[37;43] sont deux fois plus risqués ou que le ratio bons/mauvais pour le segment [37;43] est deux fois moins
élevé que pour le segment ]24;27].
CUSTOMER SAP InfiniteInsight® 7.0
133 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Options de la carte des scores
Une barre d'outils en tête de panneau vous permet de copier le code HTML de la carte des scores, de l'enregistrer au format HTML ou de l'imprimer.
Pour copier la carte des scores
1
Cliquez sur le bouton (
Copier
).
L'application copie le code HTML correspondant à l'aperçu du modèle.
2
Collez les paramètres dans l'application de votre choix.
Pour imprimer la carte des scores
3
Cliquez sur le bouton (
Imprimer
).
Une boîte de dialogue s'affiche vous permettant de choisir votre imprimante.
4
Sélectionnez l'imprimante et les options d'impression.
5
Cliquez sur
OK
.
L'impression est lancée.
Pour enregistrer la carte des scores
6
Cliquez sur le bouton (
Enregistrer
).
Une boîte de dialogue s'affiche vous permettant de choisir les propriétés du fichier.
7
Entrez un nom de fichier.
8
Choisissez le dossier de destination.
9
Cliquez sur
OK
.
Les informations du modèle sont sauvegardées dans un fichier texte.
CUSTOMER SAP InfiniteInsight® 7.0
134 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.3.8 Matrice de confusion
Le panneau
Matrice de confusion
permet de visualiser les valeurs de la cible prédites par le modèle par rapport aux valeurs réelles et de fixer le score à partir duquel les observations seront considérées comme positives, c'est-à-dire pour lesquelles la valeur de la cible est celle recherchée. Ce panneau vous permet également de faire des simulations de profit selon le score choisi comme seuil ou d'adapter automatiquement le seuil pour obtenir un profit maximal.
Définitions
On appelle "
Observation positive
", toute observation appartenant à la population cible.
On appelle "
Observation négative
", toute observation n'appartenant pas à la population cible.
CUSTOMER SAP InfiniteInsight® 7.0
135 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comprendre la matrice de confusion
Il y a trois façon de paramétrer le score utilisé pour séparer les observations positives des observations négatives en utilisant l'échelle affichée :
en sélectionnant le pourcentage de population visé si la population est triée par ordre descendant de score (
% de la population
)
en sélectionnant le pourcentage d'observations positives que vous souhaitez détecter (
% de cible détectée
)
en sélectionnant directement le score à utiliser comme seuil (
Score
). Toute observation dont le score est supérieur au seuil est considérée comme positives et toute observation dont le score est inférieur au seuil est considérée comme négative.
L'échelle est graduée du plus petit score (à gauche), au plus grand (à droite). Les valeurs correspondant à chaque option sont affichées dans des champs situés sous l'échelle.
Lorsque vous déplacez le curseur sur l'échelle, la matrice de confusion est modifiée en conséquence. Le tableau ci-dessous indique comment lire la matrice de confusion.
Réel[
Catégorie cible
]
Observations positives réelles
Réel[
Catégorie non-cible
]
Observations négatives réelles
Prévu[
Catégorie cible
]
Observations positives prédites
Nombre d'observations positives correctement prévues
Prévu[
Catégorie non-cible
]
Observations négatives prédites
Nombre d'observations réellement positives mais prédites négatives
Nombre d'observations réellement négatives mais prédites positives
Nombre d'observations négatives correctement prévues
Par défaut, la
Population totale
est égale au nombre d'enregistrements dans le jeu de données de validation.
Vous pouvez modifier ce nombre pour visualiser la matrice sur la population sur laquelle vous voulez appliquer votre modèle.
Les Métriques
Le
Taux de classement
correspond à la proportion de données correctement classée par le modèle lors de son application sur le jeu de données d'apprentissage.
La
Sensibilité
d'un test mesure sa capacité à donner un résultat positif lorsqu'une hypothèse est vérifiée.
La
Spécificité
d'un test mesure sa capacité à donner un résultat négatif lorsque l'hypothèse n'est pas vérifiée.
La
Précision
correspond à la proportion de mesures répétées à donner le même résultat, dans des conditions demeurant inchangées.
Le
Score
indique à quel point la fonction de vraisemblance dépend de son paramètre.
La fonction de vraisemblance est une fonction de probabilités conditionnelles qui décrit les valeurs d'une loi statistique en fonction de paramètres supposés connus.
CUSTOMER SAP InfiniteInsight® 7.0
136 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comprendre la matrice de coût
Cette section vous permet de visualiser votre profit selon le score choisi comme seuil ou de choisir automatiquement le meilleur seuil d'après vos paramètres.
Pour chaque catégorie d'observations, saisissez un profit ou un coût par observation. Le profit total s'affiche automatiquement à droite du tableau.
Pour connaître le seuil vous permettant d'atteindre un profit maximal pour le tableau de profit/coût que vous avez paramétré, cliquez sur le bouton
Maximiser le profit
.
Si on considère le tableau de profit/coût ci-dessous, chaque observation positive correctement identifiée rapportera 15€, par contre chaque observation négative identifiée comme étant positive coûtera 8€.
Catégorie Prévu[1] Prévu[0]
Réel[1]
15 0
Réel[0]
-8 0
CUSTOMER SAP InfiniteInsight® 7.0
137 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.3.9 Arbre de décision
Le panneau
Arbre de décision
contributives.
vous permet d'afficher les résultats générés par InfiniteInsight ® Modeler /
Régression ou Classement sous la forme d'un arbre de décision basé sur les cinq variables les plus
D
ANS CE CHAPITRE
CUSTOMER SAP InfiniteInsight® 7.0
138 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Afficher l'arbre de décision
Pour afficher l'arbre de décision pour une variable cible
1
Dans la liste
Cible
, choisissez la variable cible pour laquelle vous souhaitez afficher l'arbre de décision.
CUSTOMER SAP InfiniteInsight® 7.0
139 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Comprendre l'arbre de décision
Le panneau
Arbre de décision
est divisé en trois parties :
1
l'arbre de décision lui-même, affiché en première partie du panneau,
2
deux onglets situés en bas du panneau vous permettent de visualiser les informations des noeuds ainsi que la courbe de profit correspondant à l'arbre de décision affiché.
3
une fenêtre de navigation, située en bas à droite du panneau, vous permet de visualiser quelle section de l'arbre vous être en train d'étudier.
CUSTOMER SAP InfiniteInsight® 7.0
140 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
L'arbre de décision
Chaque noeud de l'arbre indique :
Le nom de la variable déployée, par exemple Marital-status.
Les catégories ayant servi à filtrer la population du noeud, par exemple
{Married-AF-spouse;Never-married}
.
La
Population
totale du noeud.
Le pourcentage de
Cible positive
(pour une cible nominale) ou la
Moyenne de la cible
(pour une cible continue).
Exemple pour une cible nominale
Exemple pour une cible continue
Lorsque vous survolez un noeud, plusieurs options sont disponibles :
Sélectionner une variable pour déployer le niveau suivant de l'arbre de décision.
Déployer automatiquement le niveau suivant, en fonction de la variable la plus contributive non encore utilisée dans l'arbre de décision.
Replier la section affichée sous le noeud.
L'épaisseur des flèches est relative à la quantité de population contenue dans le noeud pointé. Dans l'exemple suivant, la flèche pointant le noeud correspondant à la catégorie [0;4386[ de la variable capital-gain est significativement plus épaisse car ce noeud contient une population nettement plus importante que le noeud capital-gain ]4386;41310]
.
141
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Le détail des noeuds
Lorsque vous sélectionnez un noeud, les informations correspondantes s'affichent dans l'onglet
Détails du noeud
(partie inférieure gauche du panneau).
Cet onglet indique pour quelle cible l'arbre de décision est déployé et vous fournit les informations suivantes pour chaque jeu de données du modèle :
Population
, c'est-à-dire le nombre d'enregistrements existants pour le noeud,
Pour une cible continue :
Moyenne de la cible
, c'est-à-dire la moyenne de la cible pour le noeud
Pour une cible nominale :
Cible positive
, c'est-à-dire le nombre d'enregistrements pour lesquels la cible est positive
Pourcentage de cible positive
, c'est-à-dire le pourcentage de la population du noeud pour laquelle la cible est positive,
Cible négative
, c'est-à-dire le nombre d'enregistrements pour lesquels la cible est négative,
Pourcentage de cible négative
, c'est-à-dire le pourcentage de la population du noeud pour laquelle la cible est négative,
la
Variance
,
Population pondérée
, c'est-à-dire le nombre d'enregistrements lorsque une variable de poids est utilisée.
CUSTOMER SAP InfiniteInsight® 7.0
142 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
La courbe de profit
La courbe de profit pour l'arbre de décision est affichée dans l'onglet
Courbe de profit
(partie inférieure gauche du panneau). La courbe évolue en fonction des modifications faites sur l'arbre de décision.
La courbe de profit correspondant au noeud qui contient la population totale est égale à la courbe aléatoire.
Lorsque vous développé le noeud contenant le plus haut pourcentage de cible positive, la courbe de profit s'améliorera sur les premiers percentiles, c'est-à-dire que le modèle détectera d'avantage de cas dans la population ayant les plus hauts scores.
CUSTOMER SAP InfiniteInsight® 7.0
143 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Au contraire, si vous développez le noeud contenant le plus faible pourcentage de cible positive, la courbe de profit s'améliorera sur les derniers percentiles.
Cependant, si le noeud que vous développez correspond à une portion très faible de la population, la courbe de profit risque de ne pas être impactée. Il faut donc trouver le bon compromis entre la taille de la population et le pourcentage de cible positive.
Paramétrer l'affichage
Le bouton
Paramètres d'affichage
vous permet de personnaliser l'affichage de l'arbre de décision.
Orientation
: cette option vous permet de définir l'orientation de l'arbre, horizontale ou verticale.
Horizontale Verticale
Type d'affichage
: cette option vous permet de choisir entre un affichage standard (
Arbre de décision
) et un affichage en mode K2R (
Mode K2R
). L'affichage en
Arbre de décision
est plus condensé, mais moins lisible que l'affichage en
Mode K2R
.
Mode K2R Arbre de décision
Une fois vos paramètres d'affichage définis, cliquez sur
Fermer
.
CUSTOMER SAP InfiniteInsight® 7.0
144 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
5.4 Etape 4 - Utiliser le modèle
Une fois généré, un modèle de classement peut être enregistré pour utilisation ultérieure.
Un modèle de classement peut être appliqué sur de nouveaux jeux de données. Le modèle vous permet alors d'effectuer des prédictions sur ces jeux de données d'application, en prédisant les valeurs d'une variable cible.
Le modèle peut également être utilisé pour effectuer des simulations sur des observations spécifiques, au cas par cas.
Enfin, vous pouvez affiner un modèle de classement, en le générant à nouveau avec une liste optimisée de variables explicatives. SAP InfiniteInsight ® vous permet en effet de sélectionner de manière automatique les variables explicatives les plus pertinentes par rapport à votre problématique, en fonction du taux d'information expliqué par le modèle que vous souhaitez conserver.
Pour vous permettre d'appliquer le modèle sur n'importe quelle base de données, SAP InfiniteInsight
®
permet de générer les codes source du modèle.
5.4.1 Vérification des déviations
L'option
Vérification des déviations
est un outil de diagnostic des variations statistiques des variables.
Cette option peut être utilisée pour :
comparer la distribution d'un nouveau jeu de données avec celle du jeu de données utilisé pour créer le modèle,
vérifier la qualité de nouvelles données après les avoir chargées,
vérifier si vos données ont évoluées au cours du temps et si nécessaire générer un modèle mieux adapté aux nouvelles données.
Pour commencer la vérification des déviations
1
Dans la section
Exécution
du menu
Utilisation du modèle
, cliquez l'option
Vérification des déviations
. Le panneau de sélection du jeu de données à vérifier s'affiche.
CUSTOMER SAP InfiniteInsight® 7.0
145 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Sélectionner le jeu de données à analyser
Avant tout, vous devez sélectionner le jeu de données pour lequel vous souhaitez analyser les déviations.
Pour que les résultats soient compréhensibles, le nouveau jeu de données doit contenir les même colonnes que le jeu de données utilisé pour générer le modèle, en particulier la variable cible, qui doit être renseignée.
Pour sélectionner un jeu de données
1
Dans le panneau Jeu de données à analyser, sélectionnez le format de la source de données (
Fichiers texte
,
Base de données
, ...)
2
Cliquez sur le bouton
Parcourir
à droite du champ
Répertoire
. La boîte de dialogue suivante s'affiche.
3
Ouvrez le répertoire ou la base de données contenant la source de données.
4
Sélectionnez le fichier ou la table à utiliser comme source de données.
5
Cliquez sur le bouton
OK
. La boîte de dialogue se ferme et le nom de la source de données apparaît dans le champ
Données
.
6
Cliquez sur le bouton
Suivant
. Le panneau
Vérification des déviations
s'affiche.
CUSTOMER SAP InfiniteInsight® 7.0
146 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Suivi du processus de vérification des déviations
Le panneau
Vérification des déviations
vous permet de suivre le processus d'analyse grâce à une barre de progression.
CUSTOMER SAP InfiniteInsight® 7.0
147 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
A la fin de la vérification, un panneau récapitulatif s'affiche. L'explication détaillée du panneau récapitulatif est fournie dans la section
Comprendre l'analyse des déviations
.
Vous pouvez utiliser la barre d'outil affichée en haut du panneau pour :
stopper l'analyse, en cliquant sur le bouton ,
afficher les détails du processus, en cliquant sur le bouton
copier, imprimer ou enregistrer le panneau récapitulatif.
Pour copier
,
1
Cliquez sur le bouton (
Copier
).
L'application copie le code HTML du rapport affiché.
Pour imprimer
1
Cliquez sur le bouton (
Imprimer
).
Une boîte de dialogue s'affiche vous permettant de choisir votre imprimante.
2
Sélectionnez l'imprimante et les options d'impression.
3
Cliquez sur
OK
.
L'impression est lancée.
Pour enregistrer
1
Cliquez sur le bouton (
Enregistrer
).
Une boîte de dialogue s'affiche vous permettant de choisir les propriétés du fichier.
2
Entrez un nom de fichier.
3
Choisissez le dossier de destination.
4
Cliquez sur
OK
.
Le rapport est enregistré au format HTML dans le dossier sélectionné.
Comprendre l'analyse des déviations
La première chose à faire pour savoir s'il y a des déviations dans vos données est de regarder le rapport récapitulatif
(voir à la page 149) et de comparer les performances (KI et KR) obtenues sur le jeu de données
original avec celles obtenues sur le jeu de données de contrôle.
Ensuite pour visualiser quelles variables ont changé, regardez les rapports de déviations.
CUSTOMER SAP InfiniteInsight® 7.0
148 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Rapport récapitulatif
La partie
Vérification des déviations
fournit des statistiques de base sur le
Jeu de données utilisé pour le contrôle des déviations
(ou Jeu de données de contrôle) telles que :
le nom du jeu de données (
Jeu de données
),
la source de données (
Source
),
le nombre d'enregistrements contenus dans le jeu de données (
Nombre d'enregistrements
),
et le nombre de variables pour lesquelles SAP InfiniteInsight ® a trouvé des déviations par rapport au jeu de données utilisé pour créer le modèle (
Nombre de variables montrant des déviations
).
La deuxième et la troisième parties du rapport vous permettent de comparer les performances de votre modèle sur le jeu de données original avec ses performances sur le jeu de données de contrôle :
la section
Indicateurs de performance
affiche pour chaque variable cible, les indicateurs
KI
et
KR
obtenus par le modèle sur le jeu de données original.
la section
Performance sur le jeu de contrôle
affiche pour chaque variable cible, les indicateurs
KI
et
KR
obtenus par le modèle sur le jeu de données de contrôle.
Si le KI et/ou le KR du modèle sur le jeu de données de contrôle sont significativement plus faibles cela signifie que la relation entre les variables et la variable cible a changé, et en conséquence un nouveau modèle devrait
être généré sur les nouvelles données.
Si le KI et le KR n'ont pas ou peu changé, cela signifie que le relation entre les variables et la variable cible est toujours la même, mais cela ne signifie pas qu'il n'y a aucune différence de distribution entre les jeux de données.
5.4.2 Appliquer un modèle sur un nouveau jeu de données
Le modèle en cours d'utilisation peut être appliqué sur de nouveaux jeux de données. Le modèle permet alors d'effectuer des prédictions sur ces jeux de données d'application, en prédisant notamment les valeurs de la variable cible.
Pour ce scénario
Pour des contraintes d'ordre technique, un jeu de données correspondant à la base de données de 1 000 000 de clients dont il est question pour ce scénario ne peut pas vous être fourni.
Vous allez donc appliquer le modèle sur le fichier
Census01.csv
, que vous avez utilisé pour générer le modèle.
Vous pourrez ainsi comparer les prédictions données par le modèle aux valeurs réelles de la variable cible
Class
de chacune des observations.
Dans la procédure
Pour appliquer le modèle sur un nouveau jeu de données
:
Sélectionnez le format
Fichiers texte
,
Dans le champ
Générer
, sélectionnez l'option
Contributions individuelles
.
Sélectionnez un répertoire de votre choix pour enregistrer le fichier de résultats (
Sortie générée par le modèle
).
Ne sélectionnez pas l'option
Conserver uniquement les observations déviantes
.
CUSTOMER SAP InfiniteInsight® 7.0
149 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour appliquer le modèle sur un nouveau jeu de données
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Application du modèle
.
L'écran
Appliquer un modèle
apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
150 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
2
Dans la partie
Jeu de données d'application
, sélectionnez le format de la source de données.
3
Cliquez sur les boutons
Parcourir
pour indiquer respectivement :
• dans le champ
Répertoire
, le répertoire dans lequel est stocké votre jeu de données,
• dans le champ
Données
, le nom du fichier correspondant à votre jeu de données.
4
Dans le cadre
Options de génération
, sélectionnez dans la liste
Générer
le type de valeurs de sortie que vous souhaitez obtenir pour la variable cible.
5
Sélectionnez dans la liste
Mode
, le type de résultats voulu.
6
Dans le cadre
Résultats générés par le modèle
, sélectionnez le format du ficher de sortie
7
Cliquez sur le bouton
Appliquer
.
L'écran
Application du modèle
apparaît.
Une fois l'application du modèle terminée, le fichier de résultats de l'application est automatiquement enregistré à l'emplacement que vous avez défini sur l'écran
Appliquer le modèle
.
Contrainte d'utilisation d'un modèle
Pour qu'un modèle puisse être appliqué sur un jeu de données, le format du jeu de données d'application doit
être identique à celui du jeu de données d'apprentissage utilisé pour générer le modèle. La même variable cible doit notamment être contenue dans les deux jeux de données, même si ses valeurs ne sont pas renseignées dans le jeu de données d'application.
Note
Si la variable
KxIndex
du modèle est virtuelle, l'espace de données d'application ne doit pas contenir de variable
KxIndex
physique.
151
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Décision de classement
L'écran
Décision de classement
vous permet de choisir le nombre d'observations que le modèle doit détecter lors de l'application sur le nouveau jeu de données.
Pour appliquer une décision de classement
1
Dans l'écran
Appliquer un modèle
, suivez les étapes de la procédure Pour appliquer un modèle sur un nouveau jeu de données.
2
Sélectionnez l'option
Décision
dans la liste déroulante
Générer
.
3
Cliquez sur le bouton
Appliquer
.
L'écran
Décision de classement
s'affiche.
4
Utilisez le curseur pour choisir le pourcentage désiré. Pour plus d'information, reportez-vous à la section
Matrice de confusion
5
Cliquez sur le bouton
Suivant
.
Le modèle est appliqué sur le nouveau jeu de données.
CUSTOMER SAP InfiniteInsight® 7.0
152 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Comprendre l'écran Décision de classement
L'écran
Décision de classement
vous permet de sélectionner un pourcentage de la population répondant positivement à votre campagne (
% de cible détectée
) ou un pourcentage de la population totale de votre jeu de données (
% de la population
).
Lorsque vous déplacez le curseur sur l'échelles, les différentes valeurs affichées sous l'échelle sont mises à jour.
Par exemple, si vous sélectionnez l'option
% de cible détectée
et placez le curseur de l'échelle sur 80%, la valeur du champ
% de la population
sera égale à
32.0
, ce qui signifie que si vous voulez que 80% des personnes qui répondront positivement à votre campagne reçoivent votre mailing, vous devrez l'envoyer à
32% de la population totale.
D'un autre côté, si vous sélectionnez l'option
% de la population
et placez le curseur de l'échelle sur 20%, la valeur du champ
% de cible détectée
sera égale à
60.4
, ce qui signifie que si votre budget ne vous permet d'envoyer votre mailing qu'à 20% de la population totale du jeu de données, vous atteindrez 60% des personnes qui répondront de façon positive.
CUSTOMER SAP InfiniteInsight® 7.0
153 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Utiliser l'application directe dans la base de données
Pré-requis pour l'utilisation du mode d'application direct dans la base de données
Ce mode optimisé du score peut être utilisé si toutes les conditions suivantes sont remplies:
le jeu de données d'application (table, vue, requête, manipulation de données) et les résultats du jeu de données sont des tables provenant de la même base de données,
le modèle calculé contient au moins une variable avec une clé physique pré-définie dans SAP
InfiniteInsight
®
,
une licence InfiniteInsight
®
Scorer valide,
aucune erreur apparue,
un mode d'application dans la base de données activé,
un accès de lecture et d'écriture (créer une table).
Pour utiliser le mode d'application directe dans la base de données
Cochez l'option
Utiliser l'application directe dans la base de données
, l'option
Ajouter les scores de déviations
est automatiquement cochée.
CUSTOMER SAP InfiniteInsight® 7.0
154 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Paramètres avancés
Sorties globales
Copier la variable de poids
Cette option vous permet d'ajouter au fichier de sortie la variable de poids si elle a été définie lors de la sélection des variables du modèle.
Copier l’identifiant de jeu de données
Cette option vous permet d’ajouter au fichier de sortie le nom du sous-jeu de données d’apprentissage auquel appartient l’enregistrement (Estimation, Validation ou Test).
Attention
Cette option n’est pas compatible avec l’application directe en base de données.
Copier les variables
Cette option vous permet d'ajouter au fichier de sortie une ou plusieurs variables du jeu de données.
Pour ajouter toutes les variables du jeu de données
Cochez l'option
Toutes
.
Pour sélectionner uniquement les variables qui vous intéressent
1
Sélectionnez l'option
Sélection
.
2
Cliquez sur le bouton
>>
pour afficher le tableau de sélection des variables.
3
Sélectionnez dans la liste
Eléments disponibles
les variables que vous voulez ajouter (utilisez la touche
Ctrl
pour sélectionner plusieurs variables à la fois).
4
Cliquez sur le bouton
>
pour ajouter les variables sélectionnées à la liste
Eléments sélectionnés
.
CUSTOMER SAP InfiniteInsight® 7.0
155 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Constantes définies par l'utilisateur
Cette option vous permet d'ajouter au fichier de sortie des constantes comme par exemple la date de l'application du modèle, le nom du jeu de données utilisé, ou toute autre information utile pour l'exploitation du fichier de sortie.
Une constante est définie par les informations suivantes:
Paramètre Description Valeur
Générer
Nom
Format
Valeur
Clé
indique si la constante sera générée dans le jeu de données de sortie. nom de la constante type de la constante
coché
: la constante sera générée
décoché
: la constante ne sera pas générée
1
Le nom ne peut être identique à celui d'une variable du jeu de données de référence.
2
Si le nom est identique à celui d'une constante existante, celle-ci sera remplacée par la nouvelle constante.
number
: nombre
string
: chaîne de caractères
integer
: entier
date
: date
datetime
: date et heure valeur de la constante format des dates: YYYY-MM-DD format des dates avec horaire: YYYY-MM-DD HH:MM:SS spécifie si la constante est une variable clé ou un identifiant de l'enregistrement. Il est possible de déclarer des clés multiples qui seront construites selon l'ordre indiqué
(1-2-3-...).
0
: la constante n'est pas un identifiant
1
: identifiant primaire
2
: identifiant secondaire
...
Pour définir une constante
1
Cliquez sur le bouton
Ajouter
. Une fenêtre s'ouvre vous permettant de saisir les paramètres de la constante.
2
Dans le champ
Nom
, saisissez le nom de la constante.
3
Dans la liste
Format de sortie
, sélectionnez son type.
4
Dans le champ
Valeur de sortie
, saisissez la valeur que vous souhaitez donner à la constante.
5
Cliquez sur le bouton
OK
pour valider la création de la constante. La nouvelle constante apparaît dans la liste. Vous pouvez choisir de générer ou non les constantes définies en cochant la case
Générer
correspondante.
CUSTOMER SAP InfiniteInsight® 7.0
156 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Table de profit
Ce panneau vous permet de calculer la table de profit pour le jeu de données d'application, c'est-à-dire de trier vos données par ordre de score décroissant et de les répartir de façon égale en quantiles (déciles, vingtiles ou centiles).
Pour calculer la table de profit
1
Dans l'arbre
Options avancées
, situé à gauche du panneau, sélectionnez
Table de profit
.
2
Cochez la case
Calculer la table de profit sur les données d’application
.
3
Dans la liste, sélectionnez le
Nombre de quantiles
que vous souhaitez obtenir.
4
Vous pouvez ajouter des variables supplémentaires pour estimer le profit pour chaque segment de la population :
1. Dans la liste
Variables
, sélectionnez les variables que vous souhaitez ajouter à la table de profit.
Utilisez la touche
CTRL
de votre clavier pour sélectionner plusieurs variables à la fois.
2. Cliquez sur le bouton
>
pour ajouter les variables sélectionnées à la liste
Valeurs pour la table de profit
.
CUSTOMER SAP InfiniteInsight® 7.0
157 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5
La somme de chaque variable sélectionnée sera calculée pour chaque segment de la population.
6
Cliquez sur le bouton
Valider
pour enregistrer les paramètres avancés et revenir au panneau
Appliquer un modèle
.
Résultats
Le résultat du calcul de la table de profit est affiché à la fin de l’application du modèle.
Vous pouvez également le retrouver dans la section
Performance
du modèle des
Rapports de modélisation
.
CUSTOMER SAP InfiniteInsight® 7.0
158 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Sorties associées à la cible
Codes motifs
Cette fonctionnalité vous permet d'obtenir une liste des variables qui influent le plus sur une décision prise en fonction d'un score (typiquement un score de risque). Un exemple d'utilisation de ces codes motifs est de fournir à un client les raisons pour lesquelles le système de notation automatique n'a pas approuvé l'attribution d'un prêt.
Pour déterminer les codes motifs
1
Dans l'arbre
Options avancées
, situé à gauche du panneau, ouvrez le noeud
Sorties associées à la cible
'<Nom de la cible>'
.
2
Sélectionnez
Codes motifs
.
3
Cliquez sur le bouton
+
situé à droite du tableau.
4
Cliquez dans la cellule de tableau correspondant à l'option qui vous souhaitez paramétrer. Le tableau ci-dessous récapitule les options disponibles.
Options Valeurs Description
Nombre de codes motifs
Entier positif
Valeur par défaut:
3
Nombre de codes motifs à déterminer
Note
- Les codes motifs sont triés par ordre d’importance et seuls les plus importants sont conservés.
Seuil
Critère
Moyenne
(par défaut)
Maximum
Minimum
Seuil permettant de calculer les codes motifs les plus importants.
Pour chaque variable la contribution correspondant au score du client est comparée à la contribution de cette variable pour l'ensemble de la population. Les codes motifs sélectionnés sont les variables dont la contribution est la plus discriminante par rapport au seuil sélectionné.
Ainsi, si vous sélectionnez
Moyenne
, les contributions des variables correspondant au score du client seront comparées aux moyennes des contributions des variables de l'ensemble de la population afin de déterminer quelles variables sont les plus discriminantes.
En-dessous
(par défaut)
Au-dessus
Indique si vous souhaitez générer les codes motifs quand la contribution des variables du client est inférieure ou supérieure au seuil choisi
5
Si vous souhaitez générer plusieurs types de codes motifs, répéter les étapes
3
et
4
pour chaque type.
Sortie
La table fournie en sortie contient deux colonnes pour chaque code motif demandé :
reason_name_<critère>_<seuil>_<rang>_rr_<nom de la cible>
: contient le nom de la variable sélectionnée comme code motif.
Par exemple, la colonne de sortie nommée reason_name_Below_Mean_1_rr_class contient le nom de la variable déterminée comme étant le code motif le plus important (1) par rapport à la variable cible class
. Parmi les variables pour lesquelles la contribution du client est inférieure (Below) à la moyenne
(Mean) des contributions de l'ensemble de la population, c'est celle qui en dévie le plus.
reason_value_<critère>_<seuil>_<rang>_rr_<nom de la cible>
: contient la valeur du code motif, c'est-à-dire la différence entre la contribution de cette variable pour le client et le seuil choisi (par exemple la moyenne des contributions de cette variable pour l'ensemble de la population).
CUSTOMER SAP InfiniteInsight® 7.0
159 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Cible continue
Valeur prévue
Cette option, cochée par défaut, vous permet d'ajouter au fichier de sortie la valeur prévue par le modèle pour la variable cible. Cette information apparaît dans le fichier de sortie sous le nom
rr_<variable cible>
.
Indicateur d'aberrance
Cette option vous permet d'ajouter au fichier de sortie les observations déviantes dans le fichier de sortie.
Une observation est considérée comme déviante (outlier) si la différence entre sa "valeur prévue" et sa "valeur réelle" est supérieure à sa valeur de barre d'erreur. En d'autres termes, une observation est déviante quand toutes ses variables font qu'elle devrait avoir un comportement donné par rapport à la variable cible, et qu'elle a dans les faits un autre comportement.
Cette information apparaît dans le fichier de sortie sous le nom
outlier_rr_<variable cible>
. Les valeurs possibles sont 1 si l'observation est déviante et 0 sinon.
Quantiles associés à la valeur prévue
Cette option vous permet de découper le fichier de sortie, trié par ordre croissant de la cible, en quantile et d'attribuer à chaque observation le numéro du quantile dans lequel elle se trouve.
La construction des quantiles approximatifs repose sur la distribution triée et les limites des scores prédits pour l’échantillon de validation. Les limites du score sont utilisées afin de définir les quantiles approximatifs sur l’ensemble des données à appliquer.
Note
Le calcul exact des quantiles demanderait un tri complet des scores obtenu sur l’ensemble des données à appliquer, ce qui représente une grosse charge.
L’option Gain Chart de la version 6.0 a pour objectif ce calcul.
Cette information apparaît dans le fichier de sortie sous le nom
quantile_rr_<variable cible>_<nombre de quantile>
, par exemple pour une variable cible nommée "class" et un nombre de quantile égal à 10 : quantile_rr_class_10.
1
Cochez l'option
Quantile associé à la valeur prévue
.
2
Saisissez le nombre de quantiles à créer dans le champs
Nombre de quantiles
.
Contributions individuelles des variables explicatives
Cette option vous permet de faire apparaître les contributions des variables explicatives de la variable cible.
Vous pouvez choisir d'ajouter les contributions de toutes les variables ou bien sélectionner uniquement celles qui vous intéressent.
Cette information apparaît dans le fichier de sortie sous le nom contrib_<variable>_rr_<variable cible>
. Ainsi si marital-status est une variable explicative de la cible class, la colonne du fichier sortie correspondant à la contribution de cette variable s'appellera contrib_marital-status_rr_class
.
Pour ajouter les contributions de toutes les variables
Cochez l'option
Toutes
.
Pour ajouter uniquement les contributions de certaines variables
1
Cochez l'option
Sélection
.
2
Cliquez sur le bouton
>>
pour afficher le tableau de sélection des variables.
3
Sélectionnez dans la liste
Eléments disponibles
les variables que vous voulez ajouter (utilisez la touche
Ctrl
pour sélectionner plusieurs variables à la fois).
4
Cliquez sur le bouton
>
pour ajouter les variables sélectionnées à la liste
Eléments sélectionnés
.
CUSTOMER SAP InfiniteInsight® 7.0
160 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Cible nominale
Sorties par ordre d'importance des scores
Scores
Cette option vous permet de générer dans le fichier de sortie le ou les meilleurs scores pour chaque observation. Pour chaque ligne du jeu de données d'application, SAP InfiniteInsight ® compare les scores de l'observation courante obtenus pour chacune des catégories de la variable cible et affiche le meilleur score dans la colonne
best_rr_<Variable cible>_1
, puis si plusieurs scores ont été demandés par l'utilisateur il affiche le second dans la colonne
best_rr_<Variable cible>_2
, le troisième dans la colonne
best_rr_<Variable cible>_3
, et ainsi de suite... En utilisant cette option avec l'option
Décision
décrite ci-dessous, vous pouvez relier le meilleur score obtenu à la catégorie qui a permis l'obtention de ce score.
Décision
Cette option vous permet de générer dans le fichier de sortie la ou les meilleurs décisions pour chaque observation. Comme pour l'option précédente les scores obtenus pour chaque catégorie de la variable cible sont comparés et la catégorie ayant obtenu le meilleur score pour la ligne courante est affichée dans la colonne
decision_rr_<Variable cible>
, si plusieurs décisions ont été demandées, la catégorie ayant obtenu de second meilleur score est affichée dans la colonne
decision_rr_<Variable cible>_2
, la troisième dans la colonne
decision_rr_<Variable cible>_3
, et ainsi de suite…
Probabilités
Cette option vous permet de générer dans le fichier de sortie la probabilité des meilleurs décisions pour chaque observation. Comme pour l'option précédente, les scores obtenus pour chaque catégorie de la variable cible sont comparés et la probabilité d'apparition de la catégorie ayant obtenu le meilleur score pour la ligne courante est affichée dans la colonne
proba_decision_rr_<Variable cible>
, si plusieurs probabilités ont été demandées, la probabilité du second meilleur score est affichée dans la colonne
proba_decision_rr_<Variable cible>_2
, la troisième dans la colonne
proba_decision_rr_<Variable cible>_3
, et ainsi de suite…
Sorties par catégories de référence
Valeur prévue
Cette option vous permet de générer dans le fichier de sortie le score correspondant à chaque ligne pour les différentes catégories de la variable cible. Vous pouvez choisir d'ajouter le score pour toutes les catégories ou seulement pour certaines.
Cette information apparaît dans le fichier de sortie sous la forme
rr_<Variable cible>
pour la catégorie cible de la variable cible et
rr_<Variable cible>_<Nom de la catégorie>
pour les autres catégories de la variable cible.
Pour ajouter les scores de toutes les catégories
Cochez l'option
Toutes
.
Pour ajouter uniquement les scores de certaines catégories
1
Cochez l'option
Sélection
.
2
Dans la colonne
Sélection
cochez les cases correspondant aux catégories pour lesquelles vous souhaitez faire apparaître les scores dans le fichier de sortie.
Probabilité de la classe prévue
Cette option vous permet de générer dans le fichier de sortie la probabilité d'une ou plusieurs catégories de la variable cible, c'est-à-dire la probabilité
Cette information apparaît dans le fichier de sortie sous la forme
proba_rr_<Variable cible>
pour la catégorie cible de la variable cible et
proba_rr_<Variable cible>_<Nom de la catégorie>
pour les autres catégories de la variable cible.
Pour ajouter les probabilités pour toutes les catégories
161
Cochez l'option
Toutes
.
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Pour ajouter uniquement les probabilités de certaines catégories
1
Cochez l'option
Sélection
.
2
Dans la colonne
Sélection
, cochez les cases correspondant aux catégories pour lesquelles vous souhaitez faire apparaître les probabilités dans le fichier de sortie.
Autres
Indicateur d'aberrance
Cette option vous permet de faire apparaître les observations déviantes dans le fichier de sortie. Une observation est considérée comme déviante (outlier) si la différence entre sa "valeur prévue" et sa "valeur réelle" est supérieure à sa valeur de barre d'erreur. En d'autres termes, une observation est déviante quand toutes ses variables font qu'elle devrait avoir un comportement donné par rapport à la variable cible, et qu'elle a dans les faits un autre comportement.
Cette information apparaît dans le fichier de sortie sous le nom
outlier_rr_<variable cible>
. Les valeurs possibles sont 1 si l'observation est déviante et 0 sinon.
Quantiles associé à la valeur prévue
Cette option vous permet de découper le fichier de sortie, trié par ordre croissant de la cible, en quantile et d'attribuer à chaque observation le numéro du quantile dans lequel elle se trouve.
La construction des quantiles approximatifs repose sur la distribution triée et les limites des scores prédits pour l’échantillon de validation. Les limites du score sont utilisées afin de définir les quantiles approximatifs sur l’ensemble des données à appliquer.
Note
Le calcul exact des quantiles demanderait un tri complet des scores obtenu sur l’ensemble des données à appliquer, ce qui représente une grosse charge.
L’option Gain Chart de la version 6.0 a pour objectif ce calcul.
Cette information apparaît dans le fichier de sortie sous le nom
quantile_rr_<variable cible>_<nombre de quantile>
, par exemple pour une variable cible nommée "class" et un nombre de quantile égal à 10 : quantile_rr_class_10.
1
Cochez l'option
Quantiles associé à la valeur prévue
.
2
Saisissez le nombre de quantiles à créer dans le champs
Nombre de quantiles
.
Contributions individuelles des variables explicatives
Cette option vous permet de faire apparaître les contributions des variables explicatives de la variable cible.
Vous pouvez choisir d'ajouter les contributions de toutes les variables ou bien sélectionner uniquement celles qui vous intéressent.
Cette information apparaît dans le fichier de sortie sous le nom contrib_<variable>_rr_<variable cible>
. Ainsi si marital-status est une variable explicative de la cible class, la colonne du fichier sortie correspondant à la contribution de cette variable s'appellera contrib_marital-status_rr_class
.
Pour ajouter les contributions de toutes les variables
Cochez l'option
Toutes
.
Pour ajouter uniquement les contributions de certaines variables
1
Cochez l'option
Sélection
.
2
Cliquez sur le bouton
>>
pour afficher le tableau de sélection des variables.
3
Sélectionnez dans la liste
Eléments disponibles
les variables que vous voulez ajouter (utilisez la touche
Ctrl
pour sélectionner plusieurs variables à la fois).
4
Cliquez sur le bouton
>
pour ajouter les variables sélectionnées à la liste
Eléments sélectionnés
.
CUSTOMER SAP InfiniteInsight® 7.0
162 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Types de résultats proposés
L'application d'un modèle sur un jeu de données permet d'obtenir quatre types de résultats, décrit dans le tableau ci-dessous.
Type de résultat Description
valeur prévue, ou score probabilité intervalle de prédiction, ou erreur maximale contributions individuelles décision
Pour une variable continue, la valeur prévue Correspond à la valeur prévue par le modèle pour la variable cible de chaque observation. Les "valeurs prévues" correspondent aux valeurs présentées sur l'axe des abscisses du graphique des courbes de profit. La "valeur prévue" d'une observation est calculée en remplaçant les paramètres du polynôme représentant le modèle par les valeurs de chacune des variables de cette observation.
Dans le cas d’une variable binaire, le modèle donne en sortie un score.
Correspond à la probabilité de chaque observation d'appartenir ou non à la catégorie visée de la variable cible, c'est-à-dire la catégorie la moins fréquente sur l'ensemble des valeurs de la variable cible.
L'intervalle de prédiction permet de détecter sur le jeu de données les observations ayant un comportement déviant. Une observation est considérée comme déviante (outlier) si la différence entre sa "valeur prévue" et sa "valeur réelle" est supérieure à sa valeur de l'intervalle de prédiction. En d'autres termes, une observation est déviante quand toutes ses variables font qu'elle devrait avoir un comportement donné par rapport
à la variable cible, et qu'elle a dans les faits un autre comportement.
Correspondent aux contributions individuelles des variables contenues dans le jeu de données par rapport à la variable cible. La somme de toutes ces contributions individuelles correspond à la valeur prévue (score), à la constante près.
L'option "décision" n'est utilisable que pour les modèles de classement, c'est-à-dire lorsque la variable cible est nominale. Elle permet de générer une décision de classement à partir des "valeurs prévues" (ou scores) générées par le modèle. Le fichier de résultat obtenu comporte une colonne dans laquelle une catégorie de la variable cible est affectée à chaque observation.
La décision s'effectue en appliquant un seuil sur les "valeurs prévues" générées lors de l'application du modèle. Les observations dont la valeur prévue est supérieure au seuil défini se voient affecter la catégorie cible de la variable cible. Le seuil par défaut (calculé par lors de la phase de génération, ou d'apprentissage, du modèle) est choisi tel que l'affection de chaque catégorie de la variable cible aux observations soit représentatif de la répartition observée dans le jeu de données d'apprentissage.
En fonction du niveau d'information souhaité, vous pouvez choisir de générer différents fichiers de résultats, décrits dans le tableau ci-dessous.
En sélectionnant l'option...
valeur prévue
Probabilité
Contributions individuelles
Vous obtiendrez un fichier de résultats contenant pour chaque observation les informations...
uniquement la valeur prévue (rr_TargetVariableName)
la valeur prévue
la probabilité (proba_rr_TargetVariableName)
l'intervalle de prédiction (bar_rr_TargetVariableName)
la valeur prévue
la probabilité
l'intervalle de prédiction
les contributions individuelles des variables
(contrib_VariableName_rr_TargetVariableName)
CUSTOMER SAP InfiniteInsight® 7.0
163 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Decision la valeur prévue
la décision (decision_rr_TargetVariableName)
la probabilité de la décision (proba_decision_rr_TargetVariableName)
la probabilité
Analyser les résultats de l'application
Pour ce scénario
Dans Microsoft Excel, ouvrez le fichier de résultats au format texte que vous avez obtenu suite à l'application du modèle sur le fichier
Census01.csv
.
Pour ouvrir le fichier de résultats de l'application d'un modèle
1
En fonction du format du fichier de résultats généré, utilisez
Microsoft Excel
ou toute autre application pour ouvrir ce fichier.
La figure ci-dessous présente les premières lignes et les colonnes du fichier de résultats obtenu pour le scénario.
2
Vous pouvez maintenant analyser les résultats obtenus et utiliser les résultats de vos analyses pour prendre les bonnes décisions.
CUSTOMER SAP InfiniteInsight® 7.0
164 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Description du fichier de résultats
En fonction des options que vous avez sélectionnées, le fichier de résultats contient une partie ou la totalité des informations suivantes, dans l'ordre dans lequel elles sont présentées ci-dessous :
la variable clé définie lors de la description des données à l'étape de définition des paramètres de modélisation.
éventuellement la variable cible renseignée par des valeurs connues si celles-ci figuraient dans le jeu de données d'application, comme c'est le cas pour ce scénario.
la valeur prévue (
score
) par le modèle pour la variable cible de chaque observation. Le nom de cette colonne correspond au nom de la variable cible préfixé par
rr_
, soit pour ce scénario
rr_Class
.
la décision se base sur la valeur prévue ou score. Par exemple, sa valeur peut être de 1 si l'observation est considérée comme intéressante ou de 0 si elle est considérée comme inintéressante pour le modèle. Le nom de cette colonne correspond au nom de la variable cible préfixé par
decision_rr
, soit pour ce scénario
decision_rr_class.
la probabilité de la décision se base également sur la valeur prévue ou score et donne la probabilité de la décision. Plus la probabilité est forte, plus on est sûr que la décision est bonne. Le nom de cette colonne correspond au nom de la variable cible préfixé par
proba_decision_rr_
, soit pour ce scénario
proba_decision_rr_class
.
la probabilité de chaque observation d'appartenir ou non à la catégorie visée de la variable cible. Le nom de cette colonne correspond au nom de la variable cible préfixé par
proba_rr_
, soit pour ce scénario
proba_rr_Class
.
l'intervalle de prédiction, ou "erreur maximale". Le nom de cette colonne correspond au nom de la variable cible préfixé par
bar_rr_
, soit pour ce scénario
bar_rr_Class
.
les contributions individuelles des variables contenues dans le jeu de données par rapport à la variable cible. Les noms des colonnes des contributions individuelles correspondent aux noms de chacune des variables, préfixés par
contrib_
, soit pour ce scénario
contrib_age
,
contrib_workclass
, etc.
CUSTOMER SAP InfiniteInsight® 7.0
165 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.4.3 Effectuer une simulation
Le modèle en cours d'utilisation peut être utilisé pour effectuer des simulations sur des observations spécifiques, au cas par cas. Pour définir l'observation à analyser, vous renseignez les variables de votre choix, par exemple les variables
occupation
(profession) et
workclass
(catégorie socioprofessionnelle). Lors de l'exécution de la simulation, SAP InfiniteInsight ® renseigne automatiquement certaines variables dans les valeurs sont manquantes, et essentielles au bon déroulement de la simulation.
Suite à la simulation, vous obtenez les résultats suivants :
la valeur prévue (
score
),
la probabilité de cette observation d'appartenir à la catégorie cible de la variable cible.
Pour simuler un modèle
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Simulation
.
L'écran
Simulation du modèle
apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
166 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
2
Dans la partie de gauche (
Variables explicatives
), sélectionnez une variable, par exemple la variable
marital-status
.
Ses valeurs apparaissent dans la partie
Modification des valeurs
, dans la partie droite de l'écran.
3
Dans la partie
Modification des valeurs
, dans le champ
Valeur
, sélectionnez ou entrez une valeur, par exemple
Married-civ-spouse
(marié).
La valeur apparaît dans le tableau des
Variables explicatives
, en face de la variable sélectionnée.
CUSTOMER SAP InfiniteInsight® 7.0
167 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
4
Si vous souhaitez sélectionner d'autres variables explicatives, retournez à l'étape
2
.
Sinon, passez à l'étape
5
.
5
Cliquez sur le bouton
Exécuter
pour effectuer une simulation du modèle. Les résultats de la simulation apparaissent dans la section
Résultat
. Vous obtenez la Valeur prévue (score) de l'observation décrite dans le tableau des Variables explicatives, ainsi que la probabilité de cette observation d'appartenir à la catégorie cible de la variable cible. Dans notre exemple, une seule variable (marital-status) a été initialement renseignée. La probabilité que cette observation appartienne à la catégorie cible de la variable cible est de 0,1120. Vous remarquez que certaines variables du tableau des Variables explicatives ont été automatiquement renseignées suite à l'exécution de la simulation. Le modèle complète en effet automatiquement certaines valeurs manquantes, essentielles à la simulation.
Ces valeurs sont indiquées dans le tableau ci-dessous.
Type de variable Valeur par défaut
Variable continue
Variable nominale
Variable ordinale
Valeur moyenne
Valeur la plus fréquente
Valeur la plus fréquente
6
Vous pouvez modifier la valeur d'une variable explicative et exécuter à nouveau la simulation pour mesurer l'impact d'un tel changement par rapport à la variable cible. Par exemple :
1. Assignez à la variable
marital-status
la valeur
Widowed
(veuf) à la place de la valeur
Married-civ-spouse
.
2. Exécuter la simulation.
La probabilité obtenue est maintenant de 0,0040.
7
Cliquez sur le bouton
Réinitialiser
pour effectuer une nouvelle simulation du modèle.
CUSTOMER SAP InfiniteInsight® 7.0
168 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
5.4.4 Affiner un modèle
SAP InfiniteInsight ® vous permet d'affiner un modèle en cours d'utilisation. Par exemple, vous pouvez :
essayer de réduire le nombre de variables explicatives utilisées pour le modèle, tout en conservant ses indicateurs de qualité KI et de robustesse KR initiaux,
générer un modèle de degré 2 à partir des variables les plus importantes d'un modèle de degré 1.
La
Sélection intelligente
vous permet de laisser SAP InfiniteInsight
®
choisir les variables ayant les plus fortes contributions selon la quantité d'information que vous souhaitez conserver.
Pour chaque variable, les informations suivantes sont fournies:
l'indice de la variable (
Index
)
le nom de la variable (
Variable
)
la contribution maximale de la variable (
Max Contribution
)
le KI individuel de la variable (
KI
), qui représente la capacité de cette variable seule de prédire la variable cible.
le KR individuel de la variable (
KR
)
la présence de corrélations pour cette variable (
r
). Si d'autres variables sont corrélées à cette variable, l'indicateur de corrélations est allumé.
Par défaut, les variables sont triées par contributions maximales décroissantes.
Pour affiner un modèle
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Sélectionner les variables à forte contribution
.
L'écran
Sélection des variables contributives
apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
169 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
2
Dans la liste
Cibles
, sélectionnez la variable cible du modèle que vous souhaitez affiner.
3
Cliquez sur le bouton
Sélection intelligente
. La fenêtre
Sélection intelligente des variables
s'ouvre.
4
Sur la barre
Pourcentage de l'information conservée
, déplacez le curseur pour sélectionner la quantité d'information à conserver. Le nombre de variables sélectionnées est modifié en fonction de la quantité d'information.
Plus vous déplacez le curseur vers la gauche, plus vous excluez des variables. Les variables exclues sont automatiquement sélectionnées en fonction de leur importance vis à vis du modèle.
Par exemple, la figure ci-dessous montre qu'en ne conservant que deux variables sur les douze variables initiales, 45,2% de l'information apportée par le modèle est conservée.
Remarque
Certaines variables du jeu de données d'apprentissage peuvent n'apporter aucune information, telles que les variables à valeur constante. Ces variables sont alors automatiquement exclues du modèle lors de la phase d'apprentissage. Le nombre de ces variables exclues est affiché sous forme de
Remarque
. Dans la figure ci-dessus, ce nombre est égal à "0".
CUSTOMER SAP InfiniteInsight® 7.0
170 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
5
Cliquez sur le bouton
OK
.
La fenêtre se ferme et l'écran
Sélection des variables explicatives
est mis à jour avec les variables sélectionnées, vous permettant ainsi de visualiser les variables conservées et des variables exclues.
Pour notre exemple, SAP InfiniteInsight ® a automatiquement déterminé que les deux variables explicatives qui apportait le plus d'information pour expliquer la variable cible sont les variables
marital-status
et
capital-gain
.
6
Cliquez sur le bouton
Suivant
. Une boîte de dialogue de confirmation apparaît.
171
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
7
Cliquez sur
Oui
pour valider la sélection des variables et réentraîner le modèle sur ces variables.
L'écran
Sélection des variables explicatives
apparaît.
8
Reprenez le paramétrage du modèle à partir de l'étape de sélection des variables
CUSTOMER SAP InfiniteInsight® 7.0
172 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
5.4.5 Générer le code source d'un modèle
La fonctionnalité InfiniteInsight ® Scorer permet d'exporter des modèles SAP InfiniteInsight ® de segmentation et de regression vers différents langages de programmation. Le code ainsi généré permet d'appliquer les modèles hors de SAP InfiniteInsight ® . Les codes générés permettent d'intégrer les modèles SAP InfiniteInsight ® au sein d'applications ou progiciels, ou de les appliquer sur des données sans nécessiter la présence de SAP
InfiniteInsight
®
. Ils permettent notamment d'utiliser les modèles sur des plate-formes techniques différentes de celle sur laquelle ils ont été générés.
Cette fonctionnalité nécessite l'achat d'une licence spécifique. Selon votre licence, vous pouvez générer les codes sources dans les langages suivants :
Le fichier de code généré par SAP InfiniteInsight les paramètres du modèle.
® contiendra toute information nécessaire pour le modèle, comme l'encodage des variables, les valeurs de remplacement des valeurs manquantes, les compressions et
Pour générer le code correspondant au modèle
1
Dans la liste
Cible à utiliser
, sélectionnez la cible du modèle.
2
Dans la section
Options de génération
, sélectionnez l'option désirée :
Résultats du modèle généré Option choisie
Score/Estimatio ns
Probabilité
le score (classement) ou l'estimation (régression)
Bar
le score et la probabilité (sauf pour HTML et tous les codes SQL, pour lesquels seule la probabilité est donnée) le score et la barre d'erreur (sauf pour HTML et tous les codes SQL, pour lesquels seule la barre d'erreur est donnée)
Attention
Les options
Probabilités
et
Bar
sont disponible seulement pour les modèles InfiniteInsight
®
Modeler /
Régression ou Classement avec cible nominale.
Remarque
Dans le cas d'une variable continue, le code généré comprend toujours un nombre de catégories supérieur à celui de la structure utilisateur définie ou du paramètre de
nombre de segments
si aucune structure utilisateur n'a été définie. En effet, l'encodage des variables introduit des points de continuité pour augmenter la précision de codage par rapport au jeu de données d'apprentissage. Ces points de continuité scindent certaines catégories existantes et augmentent donc le nombre de catégories dans le code généré.
CUSTOMER SAP InfiniteInsight® 7.0
173 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
3
Dans la liste
Choix du type de code
, sélectionnez le type de code que vous voulez générer (Liste de codes générés).
4
Dans la section
Génération
, utilisez le bouton
Parcourir
situé à droite du champ
Répertoire
pour sélectionner où le fichier sera enregistré.
Une fenêtre de sélection apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
174 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
5
Saisissez dans le champ
Fichier généré
le nom à donner au fichier exporté. Si vous souhaitez remplacer un fichier existant, utilisez le bouton
Parcourir
pour le sélectionner.
6
Si vous avez sélectionné l'option
Visualiser le code généré
, celui-ci s'affiche à la fin de la génération.
7
Cliquez sur le bouton
Générer
. Si le fichier existe déjà, un message de demande de confirmation s'affiche.
La figure ci-dessous représente le début d'un exemple de code source C d'un modèle SAP InfiniteInsight
®
.
CUSTOMER SAP InfiniteInsight® 7.0
175 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
Liste des codes générés
Le tableau ci-dessous récapitule les codes proposés ainsi que leurs particularités.
Code généré Commentaire
AWK Code
C Code
PMML 3.0
PMML 3.1
PMML 3.2
Cpp
DB2 UDF (SQL)
HTML (Javascript)
se référer à la documentation C Code Generator (en anglais) contient un formulaire permettant de reproduire le modèle SAP
InfiniteInsight ® le fichier KxJRT.jar est nécessaire à sa compilation et son exécution
JAVA Code
Oracle UDF (SQL)
PMML2
SAS Code
SQL Code (ANSI)
SQL Code for MySQL
SQL Code for NEOVIEW
SQL Code for Oracle
SQL Code for SQLServer
entoure les nom de variables avec [ ]
SQL Code for SYBASE ASE
SQL Code for Sybase IQ
SQL Code for Teradata
SQL Code for WX2
SQLServer 2000 UDF
(SQL)
SQLTeradata
SQLNetezza
SQLVertica
ScoreCard
Teradata databases
Netezza databases
Vertica databases seulement disponible dans InfiniteInsight ®
Classement
Modeler / Régression ou
Teradata V2R5.1 UDF
UDF Code for MySQL
UDF Code for Sybase IQ
CUSTOMER SAP InfiniteInsight® 7.0
176 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Code généré
VB Code
Commentaire
Remarque
Lorsque vous générez du code SQL, SAS ou SQL pour MySQL, il vous sera demandé de fournir les noms de la colonne clé et du jeu de données utilisés.
Paramètres avancés
Mode UNICODE
Le
Mode Unicode
vous permet de générer le code choisi en Unicode pour qu'il puisse supporter les langues non-latines telles que le japonais, le russe, etc.
Note
Cette option s'applique en particulier aux codes SQL.
Options SQL/UDF
L'option
Ne pas générer le code pour les variables non contributives
vous permet d'exclure du code toutes les variables ayant une contribution de 0 puisqu'elles n'influencent pas le résultat. Dans certains cas, ceci peut réduire d'une façon significative la taille du code généré.
Vous pouvez soit
Utiliser le séparateur par défaut
("GO"), soit
Utiliser un séparateur personnalisé
.
CUSTOMER SAP InfiniteInsight® 7.0
177 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.4.6 Exporter le script KxShell
L'export de script KxShell vous permet de générer un script reproduisant le modèle en cours. Ce script peut
être ensuite utilisé pour entraîner des modèles par lots.
Lorsque vous souhaitez ajouter au script exporté des paramétrages spécifiques, tel que la sélection automatique des variables par exemple, le moyen le plus simple est d'effectuer les opérations correspondantes dans l'interface graphique avant de générer le code. Ainsi, si vous faites une sélection automatique des variables avant l'export du script shell, celui-ci contiendra le code nécessaire à cette opération.
Pour enregistrer le script KxShell
1
Dans le menu
Enregistrement/Export
du panneau d'
Utilisation du modèle
, double-cliquez l'option
Exporter le script KxShell
. Le panneau
Génération de script KxShell
s'affiche.
2
Cliquez sur le bouton
Parcourir
situé à droite du champ
Répertoire
pour sélectionner le répertoire dans lequel le script sera sauvegardé.
3
Dans le champ
Fichier
, saisissez le nom du script ou s'il existe déjà, sélectionnez le avec le bouton
Parcourir
.
4
Dans le cadre
Sauvegarde des descriptions
, Sélectionnez comment vous souhaitez enregistrer la description des données de votre modèle. Les quatre options suivantes sont disponibles :
Sauvegarder les descriptions dans le script
la description des données est ajoutée dans le script KxShell. Un seul fichier est généré.
Sauvegarder les descriptions là où est le script
La description des données est enregistrée dans un nouveau fichier situé dans le même répertoire que le script KxShell.
Sauvegarder les descriptions là où sont les données
La description des données est enregistrée dans un nouveau fichier situé dans le même répertoire que les données utilisées pour créer le modèle.
Sauvegarder les descriptions à part
L'utilisateur choisit sous quel format et où sera enregistré la description des données.
CUSTOMER SAP InfiniteInsight® 7.0
178 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Note
Lorsque la description est sauvegardée dans un fichier séparé, ce fichier est nommé sur le modèle suivant : KxDesc_<Role du jeu de données>_<Nom du jeu de données>. Par exemple, pour un jeu de données d'apprentissage nommé
Census.csv
, le nom du fichier de description sera
KxDesc_Training_Census.cs
v
.
5
De plus vous pouvez exporter la structure des variables qui dépend de la variable cible en sélectionnant l'option
Exporter la structure des variables dans le script
. Cette option vous permet de forcer les groupements des catégories lors de l'utilisation du modèle sur de nouveaux jeux de données.
6
Avant de générer le code, vous pouvez en voir un aperçu en cliquant sur le bouton
Aperçu du code
. Le code s'affiche dans une nouvelle fenêtre. Il peut alors être copié, imprimé ou sauvegardé.
7
Dans la fenêtre principale, cliquez sur le bouton
Suivant
pour lancer la génération du script.
CUSTOMER SAP InfiniteInsight® 7.0
179 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.4.7 Enregistrer un modèle
Une fois un modèle généré, vous pouvez l'enregistrer. L'enregistrement conserve la totalité des informations qui sont relatives au modèle, c'est-à-dire ses paramètres de modélisation, ses courbes de profits, etc.
Pour enregistrer un modèle
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Enregistrement
.
L'écran
Enregistrer le modèle
apparaît.
2
Renseignez les champs suivants :
Nom du modèle
: Ce champ vous permet d'associer un nom au modèle. Ce nom est utilisé dans la liste des modèles qui vous est proposée quand vous chargez un modèle existant.
Description
: Ce champ vous permet d'entrer des informations de votre choix, telles que le nom du jeu de données d'apprentissage utilisé, l'ordre du polynôme ou la capacité prédictive et la reproductibilité obtenus pour ce modèle. Ces informations peuvent vous être utiles ultérieurement pour identifier le modèle.
Type de données
: Cette liste vous permet de sélectionner dans quel format votre modèle sera enregistré. Les formats suivants sont proposés :
Fichiers texte
, pour enregistrer le modèle dans un fichier texte,
Bases de données
, pour enregistrer le modèle dans une table ODBC,
Espace de stockage mémoire
, pour enregistrer le modèle en mémoire. Le modèle sera conservé jusqu'à la fermeture de l'interface graphique de SAP InfiniteInsight peuvent être disponible (comme SAS, par exemple).
® . Notez que selon votre licence d'autres formats
Répertoire
: En fonction de l'option que vous avez sélectionnée, ce champ vous permet de spécifier la source ODBC ou le répertoire dans lequel vous souhaitez enregistrer le modèle .
Fichier/Table
: Ce champ vous permet d'entrer le nom du fichier ou de la table qui contiendra le modèle. Le nom de fichier doit contenir l'une des deux extensions de format
.txt
(fichier texte dans lequel les données sont séparées par des tabulations) ou
.csv
(fichier texte dans lequel les données sont séparées par des virgules).
CUSTOMER SAP InfiniteInsight® 7.0
180 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
Fichiers créés lors de l'enregistrement d'un modèle
Lorsque vous enregistrez un modèle, SAP InfiniteInsight spécifié. Le tableau ci-dessous liste les fichiers ou tables créés lors de l'enregistrement d'un modèle et pour quel type de modèle.
® crée un certain nombre de fichiers à l'emplacement
Nom du fichier
KxAdmin
<Model_name>
KxInfos
KxOlapCube
KxLinks
KxNodes
KxCommunities
Description Utilisé par
liste tous les modèles contenus dans le répertoire ou la base de données ainsi que leurs informations de base (date, version, nom du modèle, commentaires) tous les modèles
InfiniteInsight fichier nommé d'après le modèle et contenant toutes les données à l'exception des informations des graphiques. Ces dernières sont stockées dans des tables ou fichiers supplémentaires (voir ci-dessous) tous les modèles
InfiniteInsight indique quelles tables additionnelles sont utilisées par le modèle tous les modèles
InfiniteInsight contient les informations du cube OLAP utilisé par l'arbre de décision, lorsque l'option Arbre de décision a été activée contient les liens des graphiques du modèle liste l'ensemble des noeuds de tous les graphiques et leurs attributs contient les correspondances entre les noeuds et leur communauté lorsque la détection des communautés a été activée les modèles de régression ou de classement avec arbre de décision les modèles de réseaux sociaux uniquement les modèles de réseaux sociaux uniquement les modèles de réseaux sociaux uniquement
Attention
Lorsque vous partagez ou envoyez un modèle,
tous les fichiers créés lors de la sauvegarde du modèle doivent être joints
, sinon le destinataire ne pourra pas ouvrir le modèle.
181
CUSTOMER SAP InfiniteInsight® 7.0
© 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler
5.4.8 Ouvrir un modèle existant
Une fois enregistrés, les modèles peuvent être ouverts et réutilisés dans SAP InfiniteInsight ® .
Pour ouvrir un modèle
1
Sur la page d'accueil de l'assistant de modélisation, sélectionnez
Ouvrir un modèle
, puis cliquez sur le bouton
Suite
.
L'écran
Ouvrir un modèle
apparaît.
2
Dans la liste
Type de données
, sélectionnez le format du modèle que vous souhaitez ouvrir.
3
Cliquez sur le bouton
Parcourir
.
Une fenêtre de sélection apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
182 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de classement ou de régression avec InfiniteInsight® Mo
4
Sélectionnez le répertoire dans lequel est stocké le modèle que vous souhaitez ouvrir.
La liste des modèles stockés dans ce répertoire apparaît. Le tableau ci-dessous décrit les informations fournies pour chaque modèle et permettant d'identifier plus facilement le modèle recherché.
Colonne Description Valeurs
Nom
Type
Date
Commentai re
Version
Nom sous lequel le modèle a
été enregistré
Chaîne de caractères
Type du modèle
Kxen.Classification
: classement (cible nominale)
Kxen.Regression
: régression (cible continue)
Kxen.Segmentation
: segmentation ou regroupement en mode SQL
Kxen.Clustering
: segmentation sans mode SQL
Kxen.TimeSeries
: séries temporelles
Kxen.AssociationRules
: règles d'association
Kxen.Social
: réseaux sociaux
Kxen.SimpleModel
: modèles multi-cibles, regroupement sans mode SQL et tous les autres types de modèles
Numéro de version du modèle lorsque celui-ci a été sauvegardé plusieurs fois
Entier commençant à 1
Date et heure au format aaaa-mm-jj hh:mm:ss Date de sauvegarde du modèle
Commentaire facultatif saisi par l'utilisateur pour faciliter l'identification du modèle
Chaîne de caractères
5
Sélectionnez un modèle dans la liste.
6
Cliquez sur le bouton
Ouvrir
.
Le menu d'utilisation du modèle apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
183 © 2014 SAP AG or an SAP affiliate company. All rights reserved- Créer un modèle de classement ou de régression avec InfiniteInsight® Modeler

Lien public mis à jour
Le lien public vers votre chat a été mis à jour.
Caractéristiques clés
- Modélisation des données simple et rapide
- Résultats pertinents et interprétables
- Accès à de nombreux formats de sources de données
- Génération semi-automatique et rapide de modèles
- Interface graphique utilisateur (KxJWizard)
- Interpréteur de commandes (KxShell)
- API de contrôle (COM/DCOM, CORBA, C++)