7 Créer un modèle de segmentation ou de regroupement avec InfiniteInsight® Modeler. SAP 7.0
Vous trouverez ci-dessous de brèves informations sur InfiniteInsight 7.0. Ce guide utilisateur vous aidera à transformer vos données en connaissances et à prendre les bonnes décisions stratégiques et opérationnelles au bon moment.
7 Créer un modèle de segmentation ou de
regroupement avec InfiniteInsight® Modeler
La modélisation de données avec InfiniteInsight ®
étapes:
Modeler / Segmentation se subdivise en quatre grandes
Etape 1 - Définition des paramètres de modélisation
Etape 2 - Génération et validation du modèle
Etape 3 - Analyse et compréhension des résultats d'analyse
Etape 4 - Utilisation du modèle généré
7.1 Etape 1 - Définir les paramètres de modélisation
Pour répondre à votre problématique, vous cherchez à :
décomposer l'échantillon des 50000 prospects ayant répondu à la phase de test de votre campagne marketing (voir Scénario 1
décrire chacun de ces groupes et assurer une communication personnalisée vers ces différentes cibles.
InfiniteInsight ® Modeler / Segmentation vous permet de créer des modèles descriptifs.
La première étape du processus de modélisation consiste à définir les paramètres de modélisation, c'est-à-dire à :
1
Sélectionner une source de données à utiliser comme jeu de données d'apprentissage.
2
Décrire le jeu de données sélectionné.
3
Sélectionner les variables.
4
Vérifier les paramètres du modèle.
5
Définir le nombre de segments.
CUSTOMER SAP InfiniteInsight® 7.0
192 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.1.1 Sélectionner une source de données
Pour sélectionner une source de données
Pour sélectionner une source de données
1
Dans l'écran
Données à modéliser
, sélectionnez l'option
Fichiers texte
pour sélectionner le format de la source de données à utiliser.
2
Cliquez sur le bouton
Parcourir
.
La fenêtre de sélection suivante apparaît.
CUSTOMER
193 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
3
Double-cliquez sur le répertoire
Samples
, puis sur le répertoire
Census
.
4
Sélectionnez le fichier
Census01.csv
, puis cliquez sur
OK
.
Le nom du fichier apparaît dans le champ
Estimation
.
5
Cliquez sur le bouton
Suivant
.
L'écran
Description des données
apparaît.
6
Passez à la section Décrire les données.
7.1.2 Décrire les données sélectionnées
Pour ce scénario
Sélectionnez
Fichiers texte
comme type de source de données.
Utilisez le fichier de description existant desc_Census01.csv, correspondant au fichier de données
Census01.csv
.
Pour utiliser un fichier de description existant
1
Dans l'écran
Description des données
, cliquez sur le bouton
Ouvrir
. La fenêtre
Ouvrir une description
s'affiche.
CUSTOMER SAP InfiniteInsight® 7.0
194 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
2
Sélectionnez le type de votre source de données dans la liste en haut à droite.
3
Utilisez le bouton
Parcourir
du champ
Répertoire
pour sélectionner le répertoire ou la base de données contenant la source de données.
Note
Le répertoire sélectionné par défaut est le même que celui sélectionné à l'étape précédente.
4
Utilisez le bouton
Parcourir
du champ
Fichier
pour sélectionner le fichier ou la table contenant les données.
Attention
Quand l'espace de données utilisé pour la construction du modèle contient une variable physique appelée
KxIndex
, il n'est pas possible d'utiliser un fichier de description ne comportant aucune clé pour l'espace de données courant.
Quand l'espace de données utilisé pour la construction du modèle ne contient pas de variable nommée
KxIndex
, il n'est pas possible d'utiliser un fichier de description incluant une description à propos d'une variable
KxIndex
car cette variable n'existe pas dans l'espace de donnée courant.
5
Cliquez sur le bouton
OK
. La fenêtre
Ouvrir une description
se ferme et la description des données s'affiche dans la fenêtre principale.
CUSTOMER
195 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
6
Cliquez sur le bouton
Suivant
.
L' écran
Sélection des variables explicatives
apparaît.
7
Passez à la section
Sélectionner les variables explicatives
.
Pour créer un fichier de description
1
Dans l' écran
Description des données
, cliquez sur le bouton
Analyser
.
La description des données apparaît.
2
Vérifiez l'exactitude de la description obtenue.
Si votre fichier de données initial contient des variables qui ont fonction de clés, elles ne sont pas reconnues automatiquement. Décrivez-les manuellement.
Attention
L'espace de données source utilisé, qu'il s'agisse d'une fichier texte ou d'une base de données ODBC, doit contenir au minimum une variable clé.
3
Une fois la description des données validée, vous pouvez :
• la sauvegarder en cliquant sur le bouton
Enregistrer
.
• cliquer sur le bouton
Suivant
pour passer à l'étape suivante.
L'écran
Sélection des variables explicatives
apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
196 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
4
Passez à la section
Sélectionner les variables explicatives
.
Pour modifier la description des données
1
Dans la colonne de votre choix, par exemple la colonne
Stockage
, cliquez sur la case que vous souhaitez modifier.
La liste des valeurs possibles apparaît.
2
Sélectionnez la valeur souhaitée dans la liste.
Pour spécifier qu'une variable est une clé
1
Dans la colonne
Clé
, cliquez sur la case correspondant à la ligne de la variable clé.
2
Entrez la valeur "
1
" pour définir cette variable comme clé.
CUSTOMER
197 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Note
Chaque modèle doit contenir une clé, c'est-à-dire qu'une ou plusieurs variables avec un champ clé ayant une valeur de clé différente de zéro. Si aucune clé n'a été détectée pendant le processus d'analyse et qu'aucune variable physique nommée
KxIndex
n'existe dans l'espace de données source, il est impossible d'ajouter une variable appelée
KxIndex
avec sa description. Une variable virtuelle ne peut pas être décrite.
Dans ce cas particulier, en effet, les composants applicatifs de SAP InfiniteInsight
InfiniteInsight ® dans la colonne
Description
: 'Automatically added'.
® génèrent une variable-clé virtuelle nommée
KxIndex
et une description est ajoutée par les composants applicatifs
Pourquoi décrire les données sélectionnées
Pour que vos données soient interprétables et analysables par les fonctionnalités SAP InfiniteInsight déterminant leur :
® , elles doivent être décrites. En d'autres mots, le fichier de description spécifie la nature de chaque variable en
format de stockage : nombre (
number
), chaînes de caractère (
string
), date et heure (
datetime
) ou date
(
date
).
Note
Lorsqu'une variable est déclarée comme date (
date
ou
datetime
), la fonctionnalité <FR_KDC> (
KDC
) en extrait automatiquement des informations spécifiques telles que le jour du mois, l'année, le trimestre, etc. Des variables contenant ces informations sont créées lors de la génération du modèle et sont utilisées comme variables d'entrée. KDC est activé pour toutes les fonctionnalités SAP
InfiniteInsight ® à l'exception de InfiniteInsight ® Modeler / Séries temporelles (
KTS
).
type : variables continues (
continuous
), nominales (
nominal
) ordinales (
ordinal
) ou textuelle (
textual
).
Note
Toutes les variables décrites doivent se trouver dans la source de données utilisée pour l'apprentissage. Dans le cas où une variable physique décrite n'existe pas dans la source de données, il n'est pas possible de générer un modèle.
Pour plus d'informations sur la description des données, Types de variables
Formats de stockage
Note
La traduction des catégories d'une variable n'a pas d'influence sur sa structure qui doit être définie en fonction des valeurs initiales de la variable.
CUSTOMER SAP InfiniteInsight® 7.0
198 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Comment décrire les données sélectionnées
Pour décrire vos données, vous pouvez :
soit utiliser un fichier de description existant, c'est-à-dire issu de votre système d'information ou d'une précédente utilisation des fonctionnalités SAP InfiniteInsight ® ,
soit créer un fichier de description grâce à l'option
Analyser
, mise à votre disposition dans l'assistant de modélisation SAP InfiniteInsight
®
. Dans ce cas, vous devez valider le fichier de description obtenu. Vous pouvez sauvegarder ce fichier pour une utilisation ultérieure.
Attention
Le fichier de description obtenu avec l'option
Analyser
résulte de l'analyse des 100 premières lignes du fichier de données initial. Afin d'éviter tout biais, n'hésitez pas à brasser votre jeu données avant de l'analyser.
Le scénario d'utilisation standard [ouverture d'un espace de donnée ODBC - description en utilisant la fonction d'
Analyse
- génération du modèle] ne peut pas être mis en oeuvre lorsque l'espace de données source contient une variable nommée
KxIndex
mais aucune variable ODBC ayant le statut de clé.
CUSTOMER
199 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
La description d'une variable est composée des champs décrits dans le tableau ci-dessous :
Le champ... contient...
Nom
le nom de la variable (celui-ci ne peut être modifié)
Stockage
le type de valeurs stockées dans cette variable :
Number
: la variable contient uniquement des nombres "caculables" (attention : les numéros de téléphone, codes postaux, numéros de compte ne doivent pas être considérés comme des nombres)
String
: la variable contient des chaînes de caractères.
Datetime
: la variable contient des dates et des heures
Date
: la variable contient des dates
Type
le type de la variable :
Continuous
: une variable numérique pour laquelle la moyenne, la variance, etc. peuvent être calculées.
Nominal
: variable catégorique, seul type possible pour une chaîne de caractère (les codes postaux, numéros de téléphone, etc. sont généralement de ce type).
Ordinal
: variable numérique discrète pour laquelle l'ordre est important
Textual
: variable textuelle contenant des mots, des phrases ou des textes complets.
Attention
- lors de la création d'un modèle d'analyse textuelle, si aucune variable textuelle n'est définie le bouton
Suivant
est désactivé et il est impossible de passer à l'étape suivante.
Clé
indique si cette variable est une clé ou un identifiant pour l'observation :
0
la variable l'est pas un identifiant;
1
clé primaire;
2
clé secondaire...
Ordre
indique si la variable représente un ordre naturel.
Dans un jeu de données d'évènements il doit y avoir au moins une variable marquée comme ordonnée.
Attention
- si la source de données est un fichier et que la variable marquée comme représentant un ordre naturel n'est pas effectivement ordonnée, un message d'erreur s'affichera au moment de la vérification ou de la génération du modèle.
Inconnu
la chaîne de caractères utilisée dans le fichier de description pour représenter les valeurs manquantes
(par exemple "999" ou "#Vide" - sans les guillemets)
Groupe
le nom du groupe auquel appartient la variable. les variables appartenant à un même groupe sont considérées comme apportant la même information et ne seront donc pas croisées dans les modèles d'ordre supérieur à 1. Ce paramètre sera activé dans une future version.
Description
une éventuelle description supplémentaire de la variable
Structure
structure de la variable, c'est-à-dire les groupements des catégories des variables.
CUSTOMER SAP InfiniteInsight® 7.0
200 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Un mot sur les clés de base de données
Pour des raisons de gestion des données et de performance, le jeu de données à analyser doit comporter une variable ayant fonction de clé. Deux cas se présentent :
Si le jeu de données initial ne contient pas de variable clé, une variable index
KxIndex
est automatiquement créée par les fonctionnalités SAP InfiniteInsight ligne de données traitée.
® . Elle correspondra au numéro de la
Note
Il n'est pas possible de forcer l'indice de clé (Key Level) à 0 pour une clé virtuelle si aucune autre clé n'a
été définie.
Si le fichier contient une ou plusieurs variables clés, ces dernières ne sont pas automatiquement reconnues. Vous devez alors le spécifier manuellement dans la description des données en renseignant l'indice de clé à la valeur appropriée. Se reporter à la procédure Pour spécifier qu'une variable est une clé.
Par ailleurs, si vos données sont stockées dans une base de données, elles seront automatiquement reconnues.
CUSTOMER
201 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Voir les données
Pour vous aider à valider la description obtenue par analyse, vous pouvez afficher le contenu de votre jeu de données.
Pour voir les données
1
Cliquez sur le bouton
Aperçu
. Une nouvelle fenêtre s'ouvre affichant les cent premières lignes du jeu de données.
2
Dans le champ
Première ligne
, saisissez le numéro de la première ligne à afficher.
3
Dans le champ
Dernière ligne
, saisissez le numéro de la dernière ligne à afficher.
4
Cliquez sur le bouton (
Rafraîchir)
pour afficher les lignes sélectionnées.
CUSTOMER SAP InfiniteInsight® 7.0
202 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.1.3 Ajouter un filtre au jeu de données
Vous avez la possibilité d'appliquer un filtre à votre jeu de données afin d'accélérer le processus d'apprentissage et d'optimiser le modèle qui en résulte.
Pour ce scénario
N'utilisez pas de filtre pour votre jeu de données.
Ajouter un filtre
1
Cochez la case
Ajouter un filtre au jeu de données
.
2
Cliquez sur
Suivant
.
Ajouter une condition
1
Cliquez sur le bouton
Ajouter une condition
.
La fenêtre
Définir une condition
s'ouvre.
CUSTOMER
203 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
2
Choisissez une variable dans la première liste déroulante.
3
Choisissez un opérateur dans la deuxième liste.
4
Indiquez une valeur dans la troisième liste :
Pour une variable du type
Number
entrez une valeur.
Pour une variable du type
String
choisissez une variable dans la liste. Si cette liste est vide, cliquez sur le bouton
5
Cliquez sur
OK
.
pour extraire les catégories.
Note
Vous pouvez modifier une condition en double-cliquant dessus.
Ajouter une conjonction logique
Cliquez sur le bouton
Ajouter un "ET" logique
ou sur le bouton
Ajouter un "OU" logique
.
Note
Vous pouvez modifiez le type de conjonction en double-cliquant dessus.
CUSTOMER SAP InfiniteInsight® 7.0
204 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Changer l'ordre
Vous pouvez changer l'ordre des noeuds pour accélérer l'application du filtre en mettant les conditions, qui ont une grande probabilité de s'avérer fausse, en haut de la liste.
1
Sélectionnez le noeud que vous voulez déplacer vers le haut ou vers le bas.
2
Utilisez les boutons et pour changer sa position dans le filtre.
Supprimer un noeud
1
Sélectionnez le noeud que vous voulez supprimer.
2
Cliquer sur le bouton
Supprimer le noeud sélectionné
.
Afficher le jeu de données filtré
Vous pouvez visualiser le jeu de données qui vous obtiendrez en appliquant le filtre.
Cliquez sur le bouton
Aperçu
.
Une nouvelle fenêtre s'ouvre.
CUSTOMER
205 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Enregistrer un filtre
Vous pouvez enregistrer le filtre créer pour le réutiliser ultérieurement sans être obligé de recréer un filtre avec les mêmes conditions.
1
Cliquez sur le bouton
Enregistrer ce filtre
.
La fenêtre
Enregistrer ce filtre
s'ouvre.
2
Dans la liste
Type de données
, sélectionnez le format de l'enregistrement.
3
Utilisez le bouton
Parcourir
à droite du champ
Répertoire
pour choisir un répertoire ou une base de données pour l'enregistrement.
4
Dans le champ
Description
, entrez le nom du fichier ou de la table.
5
Cliquez sur
OK
.
Charger un filtre existant
Pour filtrer un jeu de donnée, vous pouvez utiliser un filtre préalablement créé avec SAP InfiniteInsight ce jeu de données.
® pour
1
Cliquez sur le bouton
Charger un filtre existant
.
La fenêtre
Charger un filtre existant
s'ouvre.
2
Utilisez la liste déroulant Type de données pour sélectionner le format du filtre.
3
Utilisez le bouton
Parcourir
à droite du champ
Répertoire
pour choisir le répertoire ou la base de données où se trouve le filtre.
4
Utilisez le bouton
Parcourir
à droite du champ
Description
pour choisir le fichier ou la table contenant le filtre.
5
Cliquez sur
OK
.
7.1.4 Traduire les catégories de variables
Vous pouvez traduire les catégories des variables nominales, enregistrer la traduction ou charger une traduction existante. Cette traduction n'influence pas la structure de la variable, qui doit être définie en fonction des valeurs originales de la variable.
Note
La variable "Catégorie cible", utilisée par exemple dans les paramètres avancés, ne prend pas en compte une éventuelle traduction quand les valeurs possibles de cette variable sont affichées. Pour cette raison des valeurs entrées manuellement ne peuvent pas être traitées correctement, si elles ne correspondent pas aux valeurs d'origine.
Traduire les catégories de variables
1
Faites un clique droit sur la variable nominale dont vous souhaitez traduire les catégories. Un menu contextuel est affiché.
2
Sélectionnez l'option
Traduire les catégories de <nom_de_la_variable>
.
3
Choisissez dans quelles langues vous voulez traduire. Par défaut, la langue de l'interface utilisateur est affichée comme colonne.
4
Cliquez sur le bouton
5
Traduisez les catégories.
pour extraire les catégories de variables du jeu de données.
Note
Vous n'êtes pas obligé de renseigner tous les champs.
CUSTOMER SAP InfiniteInsight® 7.0
206 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
6
Cliquez sur
OK
.
Enregistrer la traduction des catégories
1
Traduisez les catégories de variables comme expliqué ci-dessus.
2
Cliquez sur le bouton
Enregistrer
.
3
Choisissez un
Type de données
.
4
Sélectionnez un
Répertoire
.
5
Entrez un
Nom
pour le fichier ou la table.
6
Cliquez sur
OK
.
Charger une traduction existante
1
Faites un clique droit sur une variable nominale. Un menu contextuel est affiché.
2
Sélectionnez l'option
Traduire les catégories de <nom_de_la_variable>
.
3
Cliquez sur le bouton
Charger
.
4
Sélectionnez le format de la traduction dans la liste
Type de données
.
5
Utilisez le bouton
Parcourir
situé à droite du champ
Répertoire
pour choisir le répertoire ou la base de données contenant la traduction.
6
Utilisez le bouton
Parcourir
situé à droite du champ
Table ou fichier
pour choisir la traduction des catégories de variables.
7
Cliquez sur le bouton
OK
.
8
Cliquez sur le bouton
Rafraîchir
pour actualiser l'affichage des catégories.
9
Si les colonnes ne sont pas nommées correctement, utilisez les Paramètres avancés paragraphe suivant) pour choisir la ligne d'en-tête et actualisez à nouveau.
(voir
10
Mettez les noms des langues en correspondance avec les langues de la traduction chargée en cliquant sur les catégories et en choisissant la langue qui correspond dans le menu contextuel.
11
Cliquez sur le bouton
OK
.
7.1.5 Sélectionner les variables
Une fois le jeu de données d'apprentissage et sa description chargés, vous devez sélectionner :
la ou les variables à utiliser comme variables cibles si vous le souhaitez,
éventuellement une variable de poids,
les variables explicatives.
CUSTOMER
207 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Sélectionner les variables cibles
Une fois le jeu de données d'apprentissage et sa description chargés, vous pouvez sélectionner une variable à utiliser comme variable cible. InfiniteInsight ® Modeler / Segmentation est capable de segmenter un jeu de données de manière absolue, c'est-à-dire sans qu'aucune variable cible ne soit sélectionnée. Même si elle n'est pas obligatoire, la sélection d'une variable cible est cependant fortement conseillée. En effet, la segmentation d'un jeu de données prend tout son sens quand elle est réalisée en fonction d'une problématique métier, exprimée par une variable cible.
Pour ce scénario
Sélectionnez pour variable cible la variable
Class
, c'est-à-dire la variable indiquant la probabilité d'un individu à répondre de manière positive ou négative à votre campagne.
Pour sélectionner la variable cible
1
Dans l'écran
Sélection des variables explicatives
, dans la partie
Variables explicatives conservées
(partie de gauche), sélectionnez la ou les variables choisies comme cibles.
Remarque
Dans l'écran
Sélection des variables explicatives
, les variables sont présentées dans le même ordre que celui dans lequel elles sont présentées dans la table de données. Pour les trier de manière alphabétique, sélectionnez l'option
Tri alphabétique
, présentée sous chacune des parties de l'écran.
CUSTOMER SAP InfiniteInsight® 7.0
208 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
2
Cliquez sur le bouton
>
situé gauche du champ
Variable(s) cible(s)
.
Les variables sélectionnées passent dans la partie
Variable(s) cible(s)
.
3
Pour retirer une ou plusieurs variables de la liste des variables cibles, sélectionnez celles-ci dans la liste puis cliquez sur le bouton
<
.
4
Passez à la section Sélectionner la variable de poids
Sélectionner la variable de poids
Pour ce scénario
Ne sélectionnez aucune variable de poids.
Pour sélectionner une variable de poids
1
Dans l'écran
Sélection des variables explicatives
, dans la partie
Variables explicatives conservées
(partie de gauche), sélectionnez la variable à utiliser comme variable de poids.
Remarque
Dans l'écran
Sélection des variables explicatives
, les variables sont présentées dans le même ordre que celui dans lequel elles sont présentées dans la table de données. Pour les trier de manière alphabétique, sélectionnez l'option
Tri alphabétique
, présentée sous chacune des parties de l'écran.
CUSTOMER
209 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
2
Cliquez sur le bouton
>
situé gauche du champ
Variable de poids
.
La variable passe dans le champ
Variable de poids
.
3
Pour supprimer la variable de poids, cliquez sur le bouton
<
.
4
5
Passez à la section Sélectionner les variables explicatives
CUSTOMER SAP InfiniteInsight® 7.0
210 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Sélectionner les variables explicatives
Par défaut, et à l'exception des variables clés, toutes les variables contenues dans votre jeu de données sont prises en compte pour la génération du modèle. Vous pouvez exclure certaines de ces variables.
Le choix d'exclure ou d'inclure une variable dans la génération d'un modèle de segmentation dépend de considérations métiers. Votre connaissance métier vous permet de déterminer quelles sont les variables les plus intéressantes pour la description du jeu de données en groupes homogènes. Un modèle de régression généré avec
InfiniteInsight
®
Modeler
explicatives d'un phénomène.
constitue également un outil pour déterminer les variables les plus
Pour ce scénario
Laissez la variable
KxIndex
exclue. Cette variable est une variable clé. Le jeu de données initial ne contenant pas de variable clé, les composants SAP InfiniteInsight variable
KxIndex
.
® ont généré automatiquement la
Conservez toutes les autres variables.
Pour exclure des variables de l'analyse des données
1
Dans l'écran
Sélection des variables explicatives
, dans la partie
Variables explicatives conservées
(partie de gauche), sélectionnez les variables à exclure.
211
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
2
Cliquez sur le bouton
>
situé gauche du champ
Variables exclues
.
Les variables sélectionnées passent dans la partie
Variables exclues
.
3
Pour retirer une ou plusieurs variables de la liste des variables exclues, sélectionnez celles-ci dans la liste des variables exclues, puis cliquez sur le bouton
<
.
Note
Par défaut, toute variable définie comme clé est exclue automatiquement : elle figure dans la section
Variables Exclues
. Cependant, l'utilisateur a la possibilité de déplacer une variable clé dans la section
Variables Explicatives Conservées
s'il veut que cette variable joue un tel rôle.
4
Cliquez sur le bouton
Suivant
.
L'écran
Récapitulatif des paramètres de modèlisation
apparaît.
5
Passez à la section Vérifier les paramètres de modélisation.
Remarque
Dans l'écran
Sélection des variables explicatives
, les variables sont présentées dans le même ordre que celui dans lequel elles sont présentées dans la table de données. Pour les trier de manière alphabétique, sélectionnez l'option
Tri alphabétique
, présentée sous chacune des parties de l'écran.
7.1.6 Vérifier les paramètres de modélisation
L'écran
Récapitulatif des paramètres de modélisation
vous permet d'effectuer une dernière vérification des paramètres de modélisation avant de générer le modèle.
CUSTOMER SAP InfiniteInsight® 7.0
212 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Note
L'écran
Récapitulatif des paramètres de modélisation
présente également un bouton
Avancé
. Ce bouton vous permet d'accéder à l'écran
Paramètres spécifiques du modèle
dans lequel vous pouvez choisir de calculer les statistiques croisées pour le modèle à générer. Pour plus d'informations, voir la section Paramètres spécifiques du modèle
Le nom du modèle est renseigné automatiquement. Il correspond au nom de la variable cible (class pour notre scénario), suivi du signe underscore ("_") et du nom de la source de données, sans son extension de fichier (Census01 pour notre scénario).
Le bouton
Sauvegarde automatique
vous permet de spécifier que le modèle doit être automatiquement enregistré dès la fin de la génération du modèle. Les informations d'enregistrement sont paramétrables dans le panneau
Sauvegarde automatique
. Lorsque la sauvegarde automatique est activée, une coche verte s'affiche sur le bouton.
Note
Pour plus de détails, reportez-vous à la section Activation de la sauvegarde automatique
Avant de générer le modèle, vous pouvez :
activer la sauvegarde automatique du modèle,
définir le nombre de segments que vous souhaitez obtenir,
choisir de calculer les expressions SQL définissant les segments trouvés par le modèle,
spécifier les paramètres spécifiques du modèle.
Définir le nombre de segments
D'un point de vue méthodologique, vous pouvez retenir que plus le nombre de segments est élevé :
plus il est possible de trouver des segments très différents les uns des autres,
plus le nombre d’observations nécessaires pour assurer la robustesse de la segmentation est élevé.
Il est conseillé d'effectuer plusieurs segmentations, en modifiant à chaque fois le nombre segments, jusqu’à obtenir une décomposition particulièrement intéressante du jeu de données.
Pour ce scénario
Définir un nombre de segments dont l'intervalle est égal à 1.
Pour définir le nombre de segments
Sur l'écran
Récapitulatif des paramètres de modélisation
, dans le champ
Choisir le meilleur nombre de segments dans cet intervalle
, entrez le nombre de segments que vous souhaitez obtenir.
Pour une segmentation non supervisée (c'est-à-dire sans variable cible), l'utilisateur choisit le meilleur nombre de segments, par exemple [5;10] signifiant que l'utilisateur souhaite avoir entre 5 et 10 segments. Le moteur SAP InfiniteInsight ® choisit le meilleur nombre de segments en se basant sur le calcul capacité prédictive (KI) + reproductibilité (KR), par exemple 7 segments.
CUSTOMER
213 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Pour une segmentation supervisée (c'est-à-dire avec variable cible), le moteur SAP InfiniteInsight ® le nombre minimum de segments, par exemple [10;10], soit 10 segments.
calcule
Attention
Lorsque l'option
Calculer les expressions SQL
est activée, SAP InfiniteInsight
®
crée un segment supplémentaire contenant les observations non assignées (pour plus de détails sur les expressions
SQL et les observations non assignées, Différence entre statistiques croisées classiques et expressions
SQL
Calculer les expressions SQL
Les expressions SQL permettent de visualiser les requêtes SQL correspondant à chaque segment créé lors de la génération du modèle. Le calcul des expressions SQL est activé par défaut.
Pour ce scénario
Sélectionnez l'option
Calcul des expressions SQL
.
Pour désélectionner le calcul des expressions SQL,
Décochez la case
Calculer les expressions SQL
.
Paramètres spécifiques du modèle
En cliquant sur le bouton
Avancé...
de l'écran
Récapitulatif des paramètres de modélisation
, vous accédez à un
écran vous permettant de sélectionner les paramètres spécifiques du modèle.
CUSTOMER SAP InfiniteInsight® 7.0
214 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Parmi les paramètres à sélectionner, vous pouvez :
activer le calcul des statistiques croisées,
sélectionner le mode de calcul de la distance,
sélectionner la stratégie de codage,
définir la valeur clé des catégories cibles.
Ces options sont détaillées ci-dessous.
Activer le calcul des statistiques croisées
Cette option vous permet de visualiser le profil de chaque variable explicative pour chaque segment, comparé
à son profil pour l'ensemble du jeu de données.
Pour ce scénario
Sélectionnez l'option
Calcul des statistiques croisées
.
Pour sélectionner le calcul des statistiques croisées
Cochez la case
Calculer les statistiques croisées
.
Choisir la distance à utiliser
La liste Distance vous permet de spécifier la distance à utiliser pour comparer les données d'entrée une fois codées par le codeur analytique d'SAP InfiniteInsight ® .
Ce paramètre peut prendre les valeurs suivantes :
"Chessboard"
: la somme des valeurs absolues des différences entre les coordonnées (
LInf)
.
Euclidienne
: racine carrée de la somme des carrés des différences entre les coordonnées (
L2)
.
"City Block"
: maximum de la valeur absolue des différences entre les coordonnées (
L1)
.
Automatique
(valeur par défaut) : le système sélectionne la distance la plus appropriée selon les paramètres du modèle.
Note
La politique actuelle est d'utiliser
LInf
en mode non supervisé ou lorsque les expressions SQL ont été demandées et
L2
dans tous les autres cas.
Pour ce scénario
Gardez la valeur par défaut.
Pour sélectionner la distance à utiliser
Dans la liste
Distance
, sélectionnez l'option choisie.
CUSTOMER
215 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Stratégie de codage
L'option
Stratégie de codage
permet de définir le type de codage que le moteur de segmentation attend de l'encodeur analytique de
InfiniteInsight
®
Modeler
.
Pour sélectionner une stratégie de codage :
Dans la liste déroulante, choisissez une option parmi celles décrites ci-dessous :
Option Description
Automatique
Moyenne de la cible
Laisse le système sélectionner le meilleur codage d'après les paramètres du modèle. Le codage
Moyenne de la cible
est utilisé pour les modèles supervisés. Pour les modèles non-supervisés, c'est l'option
Non supervisé
qui sera utilisée.
Valeur par défaut pour la segmentation supervisée
Chaque valeur d'une variable continue est remplacée par la moyenne de la variable cible sur le segment auquel la valeur appartient.
Chaque catégorie d'une variable nominale est remplacée par la moyenne de la variable cible pour cette catégorie.
Dans le cas d'une variable cible nominale, la moyenne de la variable cible correspond au pourcentage de cas positifs de la variable cible pour cette catégorie.
Uniforme
Non supervisé
Chaque segment de variable est codé dans l'intervalle [-1;+1] afin que la distribution des variables soit uniforme.
Valeur par défaut pour la segmentation supervisée
Une stratégie sans cible. Seule la fréquence des segments est utlisée pour coder les variables.
Les options suivantes ne sont disponbiles que lorsque toutes les variables sont continues :
Option Description
Natural
Min Max
Normalisation de l'écart-type
Aucune transformation n'est appliquée aux données d'entrée.
Les variables sont codées dans l'intervalle [0,1], où 0 correspond à la valeur minimale de la variable et 1 à sa valeur maximale.
Cette option applique une normalisation reposant sur la moyenne de la variable et l'écart-type.
7.2 Etape 2 - Générer et valider le modèle
Une fois les paramètres de modélisation définis, vous pouvez générer le modèle. Vous devez ensuite valider ses performances grâce aux indicateurs de qualité KI et de robustesse KR :
Si le modèle est suffisamment performant, vous pouvez analyser les réponses qu'il apporte par rapport à votre problématique ( étape 3
à la page 106, à la page 222), puis l'appliquer sur de nouveaux jeux de
données (étape 4).
Sinon, vous pouvez modifier les paramètres de modélisation de manière à ce qu'ils soient plus adaptés à votre jeu de données et à votre problématique, et générer ainsi de nouveaux modèles plus performants.
CUSTOMER SAP InfiniteInsight® 7.0
216 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.2.1 Générer le modèle
Pour générer le modèle
1
Dans l'écran
Récapitulatif des paramètres du modèle
, cliquez sur le bouton
Générer
.
L'écran
Apprentissage du modèle
apparaît. La génération du modèle est en cours. Une barre de progression vous permet de suivre le déroulement des différentes étapes.
2
Si l'option
Sauvegarde automatique
a été activée dans le panneau
Récapitulatif des paramètres de modélisation
, un message d'alerte s'affiche à la fin du processus de génération du modèle indiquant que celui-ci a bien été enregistré.
Cliquez sur le bouton
Fermer
.
3
Une fois le modèle généré, passez à la section Valider le modèle généré
CUSTOMER
217 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
7.2.2 Suivi du processus de génération
Il existe deux manières de suivre la progression du processus de génération du modèle :
La Barre de progression affiche la progression de chaque étape. C'est l'écran par défaut..
Le Détail du processus affiche des messages détaillés pour chaque étape.
Pour afficher la barre de progression
Cliquez sur le bouton (
Affiche la progression
).
La barre de progression s'affiche.
Pour afficher le détail du processus
Cliquez sur
Type de Vue
>
L'écran ci-dessous s'affiche.
Détails des messages
.
Pour arrêter le processus d'apprentissage
1
Cliquez sur le bouton (
Arrêter
).
Une boîte de dialogue de confirmation s'affiche.
2
Cliquez sur le bouton
Précédent
.
L'écran
Récapitulatif des paramètres de modélisation
s'affiche.
3
Reportez-vous à la section Vérifier les paramètres de modélisation.
CUSTOMER SAP InfiniteInsight® 7.0
218 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.2.3 Valider le modèle généré
Une fois le modèle généré, vous devez vérifier sa validité en observant les indicateurs de performance :
la capacité prédictive vous permet de connaître le pouvoir explicatif du modèle, c'est-à-dire sa capacité à expliquer les valeurs de la variable cible sur le jeu de données d'apprentissage. Un modèle parfait possède une capacité prédictive égale à 1 et un modèle purement aléatoire possède une capacité prédictive égale à 0.
la reproductibilité vous permet de connaître le degré de robustesse du modèle, c'est-à-dire sa capacité à conserver le même pouvoir explicatif sur un nouveau jeu de données. En d'autres mots, le degré de robustesse correspond à la capacité prédictive du modèle sur un jeu de données d'application.
Pour savoir comment sont calculés la capacité prédictive et la reproductibilité, voir Capacité prédictive, reproductibilité et courbes de profit
Remarque
La validation du modèle est une phase primordiale dans le processus global de Data Mining. Accordez toujours une importance majeure aux valeurs obtenues pour la capacité prédictive et la reproductibilité d'un modèle.
CUSTOMER
219 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Pour valider un modèle de segmentation, vous pouvez également observer les valeurs des indicateurs
"fréquence" et "moyenne de la cible" de chacun des segments identifiés. En effet, les segments les plus intéressants d'une segmentation possèdent une "fréquence" élevée et une "moyenne de la cible" différente de la "moyenne de la cible" calculée sur la totalité du jeu de données. Or, un modèle de segmentation dont la capacité prédictive est faible peut receler de tels types de segments.
Pour ce scénario
Le modèle généré possède :
une capacité prédictive égale à 0,7437,
une reproductibilté égale à 0,9930.
Pour valider le modèle généré
1
Vérifiez la
Capacité prédictive (KI)
et la
Confiance prédictive (KR)
du modèle. Ces indicateurs sont mis en
évidence sur la figure suivante.
CUSTOMER SAP InfiniteInsight® 7.0
220 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Remarque
A titre indicatif, d'autres indicateurs que la capacité prédictive (KI) et la reproductibilité (KR) sont indiqués lors de la génération du modèle. Vous pouvez par exemple visualiser le temps total requis pour générer le modèle (encadré en bleu dans la figure ci-dessus).
Vous pouvez également vérifier les indicateurs dans le journal détaillé du processus.
2
Cliquez sur
Type de vue
, puis sur (
Détail des messages
). L'écran suivant s'affiche.
3
a) Si les performances du modèle vous conviennent, passez à l'étape 3 "Analyser et comprendre le modèle généré
b) Sinon, passez à la procédure Pour générer un nouveau modèle
Pour générer un nouveau modèle
Vous avez deux options. Dans l'écran
Apprentissage du modèle
, vous pouvez :
soit cliquer sur le bouton
Précédent
pour revenir sur les paramètres de modélisation initialement définis.
Vous pouvez alors modifier les paramètres un à un.
soit cliquer sur le bouton
Annuler
pour revenir à la page d'accueil de l'assistant de modélisation.
Vous devez alors redéfinir tous les paramètres de modélisation.
CUSTOMER
221 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
7.3 Etape 3 - Analyser et comprendre le modèle généré
Un ensemble d'outils graphiques vous permet d'analyser le modèle généré et de connaître :
la performance du modèle par rapport à un hypothétique modèle parfait et un modèle de type aléatoire,
les caractéristiques de chacun des segments,
l'importance des différentes catégories de chaque variable d'un segment par rapport à la variable cible
(statistiques croisées).
Si vous avez choisi une variable cible pour votre modèle, la segmentation sera dite supervisée, c'est-à-dire que les segments seront créés en fonction de leur comportement vis-à-vis de la cible.
7.3.1 Menu d'utilisation
Une fois le modèle généré, cliquez sur le bouton
Suivant
. L'écran
Utilisation du modèle
apparaît.
L'écran
Utilisation du modèle
présente les différentes options d'utilisation du modèle, qui vous permettent :
d'afficher les informations relatives au modèle généré, c'est-à-dire les graphiques des courbes de profit, la description détaillée des segments, les graphiques des segments et le profil des variables de chaque segment (groupe
Affichage
).
d'appliquer le modèle généré sur de nouvelles données (groupe
Exécution
).
d'enregistrer le modèle, l'exporter sous forme de script KxShell ou générer son code source dans un autre langage (groupe
Enregistrement/Export
).
7.3.2 Aperçu du modèle
L'
aperçu du modèle
reprend les informations récapitulée à la fin du processus de génération.
Ces informations sont détaillées dans les sections ci-dessous.
CUSTOMER SAP InfiniteInsight® 7.0
222 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Aperçu
Modèle: <Nom>
Jeu de données
Nom du modèle, créé à partir du nom de la variable cible et du nom du jeu de données
Nom du jeu de données
Nombre de variables initiales
Nombre de variables explicatives dans le jeu de données
Nombre de variables d'entrée
Nombre de variables explicatives utilisées par le modèle
Nombre d'enregistrements
Date de création
Temps d'apprentissage
Fonctionnalité
Nombre de segments demandés
Expressions SQL
Nombre d'enregistrements du jeu de données
Date et heure de la création du modèle
Temps total pour l'apprentissage du modèle
Kxen.KMeans
(InfiniteInsight ® Modeler / Segmentation)
Nombre de segments demandés par l'utilisateur
Indique si le calcul des expressions SQL a été activé
Notifications
Variables Monotones
Détectées
Variables Suspectes
Détectées
Indique si des variables monotones ont été trouvées dans le jeu de données, c'est-à-dire des variables dont le sens de variation est constant, dans l'ordre de lecture des données dans le jeu d'estimation.
Ce rapport présente une liste de variables qui sont considérées comme suspectes. Ces variables suspectes ont un KI > 0.9, elles sont très fortement corrélées à la variable cible.
Cela signifie que ces variables apportent probablement une information biaisée et qu'elles ne devraient pas être utilisées pour la modélisation. Une attention particulière doit être accordée à ces variables. Un rapport plus détaillé liste quelles variables particulères sont suspectes et dans quelle mesure (voir Rapports Statistiques > Compte Rendu Expert >
Variables Suspectes).
CUSTOMER
223 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Variables
Pour chaque cible nominale:
<Nom>
Catégorie cible
<catégories non-cible> -
Fréquence
<catégories cible> -
Fréquence
Nom de la variable cible
Valeur attendue de la variable cible
Pourcentage d'observations de la catégorie non-cible de la variable cible, dans le jeu de données d'estimation
Pourcentage d'observations de la catégorie cible de la variable cible, dans le jeu de données d'estimation
Pour chaque variable cible continue :
<Nom>
Nom de la variable cible
Min
Valeur minimale de la variable cible dans le jeu de données d'estimation
Max
Valeur maximale de la variable cible dans le jeu de données d'estimation
Moyenne
Moyenne de la variable cible pour le jeu de données d'estimation
Ecart type
Mesure de l'étendue de la dispersion des nombres autour de leur moyenne
Indicateurs de performance
Pour chaque variable cible :
Capacité prédictive (KI)
Indicateur de qualité qui correspond à la proportion d'information contenue dans la variable cible que les variables explicatives peuvent expliquer.
Confiance prédictive
(KR)
Indicateur de robustesse qui précise la capacité du modèle à obtenir les mêmes performances lorsqu'il est appliqué à un nouveau jeu de données ayant les mêmes caractéristiques que le jeu de données d'apprentissage.
Nombre de segments
Pour chaque variable cible
<Nom>
Nombre de segments demandés
nom de la variable cible
Nombre de segments demandés par l'utilisateur
Nombre de segments trouvés
Nombre de segments trouvés par InfiniteInsight
CUSTOMER SAP InfiniteInsight® 7.0
224 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.3.3 Courbes de performances
Définition
Selon le type de cible, le graphique des courbes de performances (
model curve
) vous permet de :
visualiser le profit réalisable par rapport à votre problématique en utilisant le modèle généré lorsque la cible est nominale.
comparer les performances du modèle généré à celles d'un modèle de type aléatoire et celles d'un modèle hypothétique parfait.
Sur le graphique, les courbes représentent le profit réalisable (axe des ordonnées) en fonction du taux d'observations sélectionnées sur la totalité du jeu de données initial (axe des abscisses). Les valeurs sur l'axe des abscisse sont regroupées par segment.
Afficher le graphique des courbes de performances
Pour afficher le graphique des courbes de performances
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Courbes de performances
.
Les courbes de performances s'affichent.
Les paramètres par défaut affichent les courbes de performances correspondant au sous-jeu de
Validation
, à un hypothétique modèle parfait (
Wizard
) et à un modèle aléatoire (
Aléatoire
). Le type de profit utilisé est profit
Détecté
.
CUSTOMER
225 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
2
Lorsqu'il y a plus d'une variable cible, vous pouvez sélectionner la cible pour laquelle vous voulez voir les courbes de performance dans la liste
Modèles
.
Note
A chaque variable cible correspond un modèle. Le nom du modèle est basé sur le nom de la variable cible précédée du préfixe
kc_
.
3
Sélectionnez les options de visualisation qui vous intéressent.
Pour plus d'informations sur les options de visualisation, voir section suivante.
Options de visualisation
Pour un modèle à cible nominale
Sur le graphique des courbes de performances, différentes options vous permettent de visualiser :
les valeurs exactes d'un point pour toutes les courbes représentées.
les courbes de profit associées aux sous-jeux d'estimation et de test.
les différentes courbes profit en fonction des types de profit:
Détecté
,
Lift
,
Normalisé
,
ROC
Lorenz 'Bon'
et
'Mauvais'
Densité 'Bon'
,
'Mauvais'
et
'Tous'
Personnalisé
.
Pour plus d'informations sur les courbes de profit
(voir " Types de profit " à la page 46).
Pour afficher les valeurs de profit exactes pour un point donné
Dans l' écran
Courbes de performances
, sur le graphique, cliquez sur un point de l'une des courbes représentées.
Par exemple, en cliquant sur un point de l'une des courbes ayant pour valeur en abscisse 25%, les valeurs de profit exactes apparaissent.
CUSTOMER SAP InfiniteInsight® 7.0
226 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Pour sélectionner un type de profit
1
Dans l'écran
Courbes de performances
, au-dessus du graphique, cliquez sur la liste déroulante associée au champ
Profit
.
La liste des types de profit apparaît.
2
Sélectionnez un type de profit.
Les courbes correspondantes s'affichent.
Comprendre les courbes de profit
La figure ci-dessous représente le graphique des courbes de profit utilisant les paramètres par défaut.
CUSTOMER
227 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Sur le graphique, les courbes représentent pour chaque type de modèle le profit réalisable (axe des ordonnées), c'est-à-dire le pourcentage d'observations appartenant à la catégorie cible de variable cible, en fonction du taux d'observations sélectionnées sur la totalité du jeu de données initial (axe des abscisses). Sur l'axe des abscisses, les observations sont ordonnées de manière décroissante en fonction de leur "score", c’est-à-dire par probabilité décroissante d'appartenir à la catégorie cible de variable cible.
Dans ce scénario d'utilisation, les courbes de profit représentent le taux de prospects susceptibles de répondre de manière positive à votre campagne marketing sur la totalité des prospects référencées dans votre base de données.
Le profit
Détecté
est le type de profit proposé par défaut. Avec ce type :
la valeur "0" est affectée aux observations n'appartenant pas à la catégorie cible de la variable cible,
la valeur "1/(fréquence de la variable cible dans le jeu de données)" est affectée aux observations appartenant à la catégorie cible de la variable cible.
Le tableau suivant décrit les trois courbes représentées sur le graphique utilisant les paramètres par défaut.
La courbe... Représente... Par exemple, en sélectionnant...
Wizard
(courbe verte, la plus haute) le profit réalisable en utilisant un hypothétique
modèle parfait
, permettant de
connaître de manière absolue
la valeur de la variable cible pour chaque observation du jeu de données
25% des observations sur la totalité de votre jeu de données à l'aide d'un modèle parfait, 100% des observations appartenant à la catégorie cible de la variable cible sont sélectionnées. Le profit maximum est alors atteint.
Remarque
- Ces 25% correspondent au pourcentage de prospects ayant répondu de manière positive à votre campagne marketing, lors de votre phase de test. Pour ces prospects, la valeur de la variable cible, ou profit, est égale
à 1.
Validation
(courbe bleue, du milieu)
Aléatoire
(courbe rouge, la plus basse) le profit réalisable en utilisant le
modèle généré par InfiniteInsight
®
Modeler / Segmentation
,
permettant de prédire au mieux la valeur de la variable cible pour chaque observation du jeu de données
25% des observations de votre jeu de données initial à l'aide du modèle généré, 66,9% des observations appartenant à la catégorie cible de la variable cible sont sélectionnées le profit réalisable en utilisant un
modèle aléatoire
, ne permettant de connaître en aucun cas la valeur de la variable cible pour chaque observation du jeu de données.
25% du jeu de données initial à l'aide d'un modèle aléatoire, 25% des observations appartenant à la catégorie cible de la variable cible sont sélectionnées
Capacité prédictive, reproductibilité et courbes de profit
Sur le graphique des courbes de profit :
du jeu de données d'estimation (graphique par défaut), la capacité prédictive correspond au rapport entre "la surface se trouvant entre la courbe du modèle généré et celle du modèle aléatoire" et "la surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire". Ainsi plus la courbe du modèle généré se rapproche de la courbe du modèle parfait, plus la capacité prédictive se rapproche de 1.
des jeux de données d'estimation, de validation et de test (sélectionnez l'option correspondante dans la liste
Jeu de données
, située sous le graphique), la reproductibilité correspond à 1 moins le rapport entre la
"surface se trouvant entre la courbe du jeu d'estimation et celle du jeu de validation" et la "surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire".
CUSTOMER SAP InfiniteInsight® 7.0
228 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.3.4 Détails des variables
Définition
Le graphique de détails de variable présente l'importance des catégories d'une variable donnée par rapport à la variable cible.
Afficher le graphique de détails d'une variable
Pour afficher le graphique de détails d'une variable
1
Dans l'écran
Utilisation du modèle
, cliquez sur
Détails des variables
.
Le graphique de détails des variables apparaît.
CUSTOMER
229 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
2
Au-dessus du graphique, dans la liste
Variables
, sélectionnez la variable dont vous souhaitez afficher les catégories.
Si votre jeu de données contient des variables de type Date ou Datetime, des variables générées automatiquement apparaîtront dans cette liste. Pour plus d'information, reportez-vous à la section
Variables de date : les variables générées automatiquement
(voir " Variables de Date : les variables générées automatiquement " à la page 31).
Note
Vous pouvez afficher les détails d'une variable directement à partir du graphique
Contributions des variables
, en double-cliquant la barre représentant la variable qui vous intéresse.
Dans le cas où aucune structure utilisateur n'a été définie pour une variable continue, le graphe de détail des variables affiche les catégories créées automatiquement en utilisant le paramètre de
nombre de segments
. Le nombre de catégories affichées correspond à la valeur du paramètre de nombre de segments. Pour plus d'information au sujet de la configuration du paramètre de
nombre de segments
, reportez-vous à la section Nombre de segments pour les variables continues.
Options
En haut du panneau, une barre d'outils vous est proposée vous permettant de modifier l'affichage du graphique, de l'imprimer, copier ses données ou l'enregistrer.
Options d'affichage
Pour afficher et masquer les sous-jeux d'Estimation et de Test
Cliquez sur
Jeux de données
et sélectionnez l'une des options suivantes :
Tous les jeux de données
.
Validation uniquement
.
Pour afficher un histogramme
Cliquez sur
Type de vue
et sélectionnez (
Histogramme
).
L'histogramme des catégories de la variable sélectionnée s'affiche.
Pour afficher une courbe
Cliquez sur
Type de vue
et sélectionnez (
Courbe de profit
).
La courbe de performances de la variable sélectionnée s'affiche.
Pour ouvrir la vue courante dans une nouvelle fenêtre
Cliquez sur (
Punaiser la vue
).
CUSTOMER SAP InfiniteInsight® 7.0
230 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Options d'utilisation
Pour imprimer
1
Cliquez sur le bouton (
Imprimer
).
Une boîte de dialogue s'affiche vous permettant de choisir votre imprimante.
2
Sélectionnez l'imprimante et les options d'impression.
3
Cliquez sur
OK
.
L'impression est lancée.
Pour enregistrer
1
Cliquez sur le bouton (
Enregistrer
).
Une boîte de dialogue s'affiche vous permettant de choisir les propriétés du fichier.
2
Entrez un nom de fichier.
3
Choisissez le dossier de destination.
4
Cliquez sur
OK
.
Le graphique est enregistré au format PNG dans le dossier sélectionné.
Pour copier
1
Cliquez sur le bouton (
Copier
) et sélectionnez l'option désirée.
L'application copie les paramètres du graphique.
2
Collez les paramètres dans l'application de votre choix. Vous pouvez par exemple les utiliser pour générer un graphique dans un tableur (Excel, ...).
Pour exporter au format Excel
Cliquez sur (
Exporter au format Excel
).
CUSTOMER
231 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Comprendre les graphiques de variables
Pour ce scénario
Sélectionnez la variable
marital-status
, qui est la variable explicative qui contribue le plus à la variable cible
Class
.
Ce graphique présente l’impact des catégories de la variable
marital-status
sur la variable cible.
7.3.5 Graphiques des segments
Il est possible d'afficher les différents types de graphiques suivants:
Les graphiques à bulles
Les graphiques à bulles affichent les segments en représentant la relation entre trois variables.
Les histogrammes
Les histogrammes permettent de visualiser en même temps les comportements de tous les segments vis
à vis de la variable cible.
Les trois graphiques suivants sont proposés :
CUSTOMER SAP InfiniteInsight® 7.0
232 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Moyennes relatives de la cible
,
Fréquences
,
Moyennes de la cible
.
Ces trois graphiques vous permettent de visualiser :
le pourcentage d'observations du jeu de données contenu dans chaque segment (graphique
Fréquences
),
le pourcentage de chaque segment par rapport à la variable cible (graphiques
Moyennes de la cible
et
Moyennes relatives de la cible
).
Afficher les graphiques à bulles
Pour afficher les graphiques à bulles
1
Sur l’écran
Utilisation du modèle
, cliquez
Graphique des segments
.
Le panneau
Graphique des segments
apparaît.
2
Utilisez les options pour définir les variables que vous souhaitez afficher sur le graphique à bulles.
Le tableau ci-dessous liste les options disponibles :
L'option... vous permet... À noter que...
de sélectionner la variable à utiliser sur l’axe des abscisses.
Seules les variables numériques continues et nominales peuvent être utilisées.
CUSTOMER
233 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
L'option... vous permet... À noter que...
de sélectionner la variable à utiliser sur l'axe des ordonnées. de sélectionner la variable à utiliser pour la taille des bulles.
Seules les variables numériques continues et nominales peuvent être utilisées.
Seules la variable
Fréquence
et la variable cible peuvent être utilisées. d'afficher les noms des segments. Les noms des segments peuvent être personnalisés dans
Statistiques croisées
.
Comprendre les graphiques à bulles
Les graphiques à bulles vous permettent d’afficher les segments représentant la relation de trois variables. De ce fait, un graphique à bulles peut fournir trois types d'informations sur chaque segment.
De plus, les graphiques à bulles fournissent une représentation graphique de la segmentation, vous permettant de mieux visualiser les segments. Par exemple, cela peut être utile lors d’une présentation.
L’axe des abscisses, l’axe des ordonnées et la taille des bulles représentent chacun une variable. Vous pouvez choisir les variables à utiliser dans un graphique. De ce fait, vous pouvez créer un graphique à bulles qui sépare distinctement les segments l’un de l’autre, vous permettant ainsi d’identifier les segments intéressants pour votre campagne marketing.
La figure ci-dessous représente la relation entre les variables Fréquence, class et capital-gain.
CUSTOMER SAP InfiniteInsight® 7.0
234 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Par exemple, les résultats démontrent que les clients du
segment 6
gagnent en moyenne 10 163,4 dollars par an (capital-gain: 10163,4) et représentent 5,5% (Fréquence: 0,055) de la population du jeu de données. De plus, 85,5% (class : 0,885) des clients du
segment 6
ont répondu de façon positive à la phase de test de votre campagne marketing.
En comparaison, le
segment 2
représente la plus grande population du jeu de données, soit 25,2% de la population (Fréquence 0,225), ce qui est environ cinq fois plus grand que la population du
segment 6
.
Cependant, les clients du
segment 2
gagnent moins que les clients du
segment 6
, 147,542 dollars par an en moyenne (capital-gain : 147,542), soit 70% de moins que le
segment 6
. De plus, seulement 27,16% des clients du
segment 2
ont répondu de façon positive à la phase de test de votre campagne marketing.
Par conséquence, comparé au
segment 2
, le
segment 6
est plus intéressant car il a montré de meilleurs résultats lors de la phase de test de votre campagne marketing.
Afficher les graphiques des segments
Pour afficher les histogrammes
1
Dans l'écran
Utilisation du modèle
, cliquez sur
Graphique des segments
.
Le panneau
Graphique des segments
apparaît.
2
Cliquez sur (
Type de vue)
, puis sélectionnez
Histogramme
.
CUSTOMER
235 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
3
Au-dessus du graphique, dans la liste déroulante associée au champ
Graphique
, sélectionnez le type de graphique que vous souhaitez afficher.
Remarque
Sélectionnez l'option
Tri décroissant
pour trier les barres des graphiques selon un ordre décroissant.
Par exemple, sur le graphique
Moyennes relatives de la cible
, le tri décroissant permet de visualiser rapidement les segments les plus intéressants, c'est-à-dire les segments qui diffèrent le plus du comportement moyen sur l'ensemble du jeu de données.
Comprendre les graphiques des segments
Le graphique "Fréquences"
Le graphique
Fréquences
présente en pourcentage le nombre d'observations contenues dans chaque segment sur le nombre total d'observations contenues dans le jeu de données.
La figure ci-dessous présente le graphique
Fréquences
obtenu pour ce scénario. Les barres ont été triées par ordre décroissant.
CUSTOMER SAP InfiniteInsight® 7.0
236 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Parmi les segments, le segment 7 est le segment qui contient le plus grand nombre d'observations, soit 18% du nombre total de clients contenues dans le jeu de données.
Le graphique "Moyennes de la cible"
Le graphique
Moyennes de la cible
présente pour chaque segment le pourcentage d'observations appartenant
à la catégorie cible de la variable cible.
La figure ci-dessous présente le graphique
Moyennes de la cible
obtenu pour ce scénario. Les barres ont été triées par ordre décroissant.
Parmi les segments, le segment 9 est le segment qui contient le plus grand nombre d'observations appartenant à la catégorie cible. En effet, 85,5% des observations du segment 9 appartiennent à la catégorie
1
de la variable cible
Class
. Autrement dit, 85,5% des clients du segment 9 ont répondu de façon positive à la phase de test de votre campagne marketing.
Le segment 1 est le segment qui a la plus faible densité en observations appartenant à la catégorie cible. Moins de 1% des clients contenu dans ce segment ont répondu de manière positive à la phase de test de votre campagne marketing.
CUSTOMER
237 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Le graphique "Moyennes relatives de la cible"
Comme le graphique
Moyennes de la cible
, le graphique
Moyennes relatives de la cible
présente pour chaque segment le pourcentage d'observations appartenant à la catégorie cible de la variable cible. Seule l'échelle adoptée pour l'axe des ordonnées diffère entre ces deux graphiques. Sur le graphique
Moyennes relatives de la cible
, le pourcentage d'observations appartenant à la catégorie cible de la variable cible sur l'ensemble du jeu de données est retranché. En d'autres mots, la valeur 0 de l'axe des ordonnées correspond au pourcentage d'observations appartenant à la catégorie cible de la variable cible sur l'ensemble du jeu de données.
La figure ci-dessous présente le graphique
Moyennes relatives de la cible
obtenu pour ce scénario. Les barres ont été triées par ordre décroissant.
Parmi les segments, le segment 9 est le segment qui a la plus grosse proportion d'observations appartenant à la catégorie cible de la variable cible. Comparé au pourcentage d'observations appartenant à la catégorie cible sur la totalité du jeu de donnée, 61,6% des clients contenus dans le segment 9 appartiennent à la catégorie cible
1
variable cible
Class
.
Lorsqu'un segment contient près de 0% de clients appartenant à la catégorie cible, cela signifie que ce segment a quasiment la même densité en clients appartenant à la catégorie cible que le jeu de données pris dans sa totalité.
Le segment 7 est le segment qui a la plus faible densité en observations appartenant à la catégorie cible.
Comparé au pourcentage d'observations appartenant à la catégorie cible sur la totalité du jeu de donnée,
-23,2% des clients contenu dans le segment appartiennent à la catégorie cible. Ce segment a donc une densité en clients appartenant à la catégorie cible plus faible que la densité du jeu de données.
CUSTOMER SAP InfiniteInsight® 7.0
238 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.3.6 Statistiques croisées
Statistiques croisées et profils de variables
Les statistiques croisées permettent de visualiser pour chaque segment :
le profil de chaque variable explicative par rapport à leur profil sur la totalité du jeu de données,
l'expression SQL du segment si celles-ci ont été calculées.
Profil d'une variable
Le profil d'une variable indique la distribution des observations (appartenant à un segment ou au jeu de données global) dans les catégories de cette variable. En d'autres mots, le profil indique le pourcentage d'observations contenues dans chacune des catégories de la variable.
Exemple d'un profil de variable
La variable "sexe" d'un jeu de données peut être distribuée comme suit :
53% des observations appartiennent à la catégorie "homme",
47% des observations appartiennent à la catégorie "femme".
Cette distribution correspond au profil de la variable "sexe" sur le jeu de données.
Sur un segment A, issu de ce jeu de données, la même variable "sexe" peut être distribuée comme suit :
80% des observations appartiennent à la catégorie "homme",
20% des observations appartiennent à la catégorie "femme".
Cette distribution correspond au profil de la variable "sexe" sur le segment A.
Les statistiques croisées permettent de visualiser et de comparer les profils de la variable "sexe" sur le jeu de données et sur les segments issus de ce jeu de données.
CUSTOMER
239 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Afficher les statistiques croisées
Pour afficher les statistiques croisées
1
Dans l'écran
Utilisation du modèle
, cliquez sur
Statistiques croisées
.
L'écran
Statistiques croisées
apparaît.
Par défaut, les statistiques croisées apparaissent sous forme de graphique, dans la partie inférieure de l'écran.
2
Dans le tableau, sélectionnez le segment dont vous souhaitez visualiser les statistiques croisées.
3
Dans la liste déroulante
Variable
, sélectionnez la variable dont vous souhaitez visualiser les statistiques croisées.
CUSTOMER SAP InfiniteInsight® 7.0
240 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Comprendre les statistiques croisées
L'écran
Statistiques croisées
se décompose en trois parties :
dans la partie supérieure, une liste déroulante vous permet de sélectionner la variable dont vous souhaitez visualiser les statistiques croisées. Les variables sont présentées par ordre décroissant en fonction de l'importance de leur contribution vis à vis de la catégorie cible de la variable cible. Quand un segment est sélectionné, les variables visibles dans la liste déroulante sont ordonnées selon la différence entre leur profil de segment et leur profile de population (on utilise la divergence de Kullback-Leibler comme mesure de cette différence). La variable apparaissant en premier dans la liste est la variable dont la différence de profils est la plus grande. Cette liste ordonnée de variables fournit l'ensemble des variables discriminantes pour décrire un segment.
dans la partie médiane, un tableau présente chaque segment de manière synthétique. Il vous permet de sélectionner le segment dont vous souhaitez visualiser les statistiques croisées. Le tableau ci-dessous détaille le contenu du tableau synthétique :
La colonne… Indique… Par exemple…
Nom
le nom du segment
Cluster 1
Fréquence
la nombre d'observations contenues dans le segment sur le nombre total d'observations contenues dans le jeu de données
Les clients contenus dans le segment 1 représentent 7,76% du nombre total de clients contenus votre jeu de données d'apprentissage
% de '1'
la proportion d'observations contenues dans le segment appartenant à la catégorie cible de la variable cible
34,75% des clients contenues dans le segment 1 appartiennent à la catégorie cible de la variable cible
Class
En d'autres mots, 34,75% des clients contenus dans ce
. segment ont répondu de manière positive à la phase de test de votre campagne marketing.
dans la partie inférieure, un graphique présente soit les statistiques croisées correspondant au segment et à la variable sélectionnés, soit l'expression SQL définissant le segment, lorsqu'elle a été calculée.
CUSTOMER
241 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Les graphiques de statistiques croisées
Les graphiques de statistiques croisées présentent deux courbes :
les colonnes bleues correspondent au profil de la variable sélectionnée sur le segment sélectionné,
les colonnes rouges correspondent au profil de la variable sélectionnée sur la totalité du jeu de données.
La figure ci-dessous présente les
Statistiques croisées
obtenues pour ce scénario pour le
segment 9
et la variable
capital-gain
(gain boursier annuel).
CUSTOMER SAP InfiniteInsight® 7.0
242 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Dans la figure ci-dessus, le tableau permet d'identifier le
segment 9
comme le segment qui contient une des plus fortes densités d'observations appartenant à la catégorie cible de la variable cible. 85.51% des clients contenus dans ce segment appartiennent à la catégorie cible
1
de la variable cible
Class
.
Le graphique des statistiques croisées permet de visualiser et de comparer les profils de la variable capital-gain sur la totalité du jeu de données et sur le segment 9. Ces profils sont récapitulés dans le tableau ci-dessous.
Catégories de la variable "capital-gain"
Profil sur le
jeu de données
Profil sur le
segment 6
KxMissing
[0]
]0 ; 4386]
]4386, 41310]
1%
92%
3%
5%
9%
0%
0%
91%
La distribution des données sur la catégorie
]4386 ; 41310]
met clairement en évidence que la majorité des clients contenus dans le
segment 9
réalisent des gains boursiers annuels importants par rapport à l'ensemble des clients contenus dans le jeu de données. De plus, la distribution des données sur la catégorie
[0]
indique que la majorité des clients contenus dans le jeu de données, soit 92%, ne réalisent aucun gain boursier annuel, tandis qu'aucun des clients contenus dans le
segment 9
ne réalisent un gain boursier annuel nul.
En cochant la case
Fixer la variable
, vous pouvez comparer les profils de la variable capital-gain pour les différents segments.
Afficher les expressions SQL
L'écran
Statistiques croisées
vous permet également d'afficher les expressions SQL correspondant à chaque segment.
Remarque
Les expressions SQL ne sont visibles que si vous avez coché la case dans les paramètres spécifiques du modèle avant de le générer.
Calculer les expressions SQL
Pour afficher l'expression SQL d'un segment
1
Sélectionnez le segment dans le tableau en haut de l'écran.
Le graphique correspondant au segment s'affiche.
2
Cliquez sur (
Type de vue
), puis sélectionnez (
SQL
).
L'expression SQL du segment s'affiche à la place du graphique.
3
Cliquez sur + pour explorer la structure de l'expression SQL.
4
Cliquez sur graphique.
(
Type de vue
), puis sélectionnez (
Mode comparaison
CUSTOMER
243 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
) pour retourner au
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Comprendre les expressions SQL
L'écran
Expressions SQL
se décompose en deux parties :
dans la partie supérieure, un tableau présente chaque segment de manière synthétique. Il vous permet de sélectionner le segment dont vous souhaitez visualiser l'expression SQL.
dans la partie inférieure, un arbre présente l'expression SQL correspondant au segment sélectionné.
La figure ci-dessous présente l'
expression SQL
du segment 2
L'expression SQL est structurée de la façon suivante :
la première partie (notée 1 dans la figure ci-dessus) définit un ensemble d'observations dont les variables correspondent aux valeurs indiquées,
la seconde partie (notée 2 dans la figure ci-dessus) définit des ensembles d'observations qui sont exclus de l'ensemble obtenu par la première partie de l'expression. Les pourcentages indiquent la proportion de chaque ensemble exclu par rapport à l'ensemble obtenu par la première partie de l'expression.
Dans l'exemple ci-dessus on peut voir que le premier ensemble exclu correspond aux observations pour lesquelles la variable
capital-gain
est soit manquante (
KXMissing
) soit comprise entre 4386 exclu et
41310 (
]4386 ; 41310]
), ce qui représente 1,48% des observations obtenues par la première partie de l'expression.
Note
Les segments sont créés en appliquant les expressions SQL dans un ordre précis défini par le moteur
SAP InfiniteInsight
®
. Si vous appliquez les règles dans un ordre aléatoire, vous pouvez ne pas obtenir tout à fait les même résultats.
CUSTOMER SAP InfiniteInsight® 7.0
244 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Différence entre statistiques croisées classiques et expressions SQL
La segmentation créée avec les expressions SQL est différente de celle créée sans. La raison d'être des expressions SQL est de proposer des segments faciles à comprendre et à appliquer. Les expressions SQL doivent se rapprocher au plus près des segments de base (c'est-à-dire ceux que vous obtenez sans calculer les expressions SQL). SQL peut être utilisé à la fois pour mieux comprendre les segments et pour les déployer sur la totalité de la base de données ou sur de nouvelles données (ce qui n'est généralement pas évident avec d'autres techniques).
L'utilisation de schémas permet de mieux comprendre la différence entre les segments créés à partir de centroïdes et ceux créés à partir d'expressions SQL.
Schéma Explication
Ce schéma représente un ensemble d'observations issues d'un jeu de données.
Pour créer un segment, le moteur de InfiniteInsight ® Modeler
/ Segmentation utilise l'approche centroïde. Les centroïdes sont le résultat d'un algorithme de segmentation, cela signifie qu'ils sont le barycentre de l'ensemble des points les plus proches. Quand on applique InfiniteInsight
®
Modeler /
Segmentation sur ce jeu de données, les observations sont regroupées en fonction de leur distance par rapport à chaque centroïde.
Ce schéma représente le jeu de données regroupé en quatre segments.
C'est ce qu'on appelle le diagramme de Voronoï.
Pour créer les expressions SQL qui définissent les segments, le moteur InfiniteInsight
®
Modeler / Segmentation utilise ce qu'on appelle la longueur minimum de description (Minimum
Description Length ou MDL). Cela signifie que les segments initiaux créés à partir de l'approche centroïde sont retravaillés pour correspondre à l'expression la plus simple possible essayant ainsi de trouver le meilleur compromis entre la taille de l'expression et la perte d'information.
Ce schéma représente les expressions SQL des segments (en rouge) comparées aux centroïdes.
Sur ce schéma vous pouvez voir que :
certaines observations qui se trouvaient dans un segment avec l'approche centroïde se retrouvent dans un autre quand on utilise les expressions SQL.
d'autres observations ne peuvent être décrites par les expressions SQL et sont donc laissées hors des segments.
C'est ce qu'on appelle les observations non .
certaines observations peuvent être décrites par deux expressions SQL distinctes et donc apparaître dans deux segments différents.
CUSTOMER
245 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Ce schéma représente le résultat final obtenu avec les expressions SQL.
Une observation ne peut pas apparaître dans deux segments différents, donc lorsque deux segments se recoupent, l'observation concernée est attribuée au premier segment créé. Le second segment auquel l'observation appartenait
également est redéfini pour l'exclure.
Vous pouvez voir que les observations qui apparaissaient dans deux segments sont conservées dans un seul. Le choix du segment dans lequel les observations seront conservées dépend de l'ordre dans lequel les règles SQL sont appliquées.
Dans ce cas, la règle définissant le segment 2 a été appliquée avant celles définissant les segments 1 et 3.
Légende des schémas
Comment choisir le type de segmentation le plus adapté ?
Grâce à la segmentation supervisée, InfiniteInsight ® Modeler / Segmentation vous propose des indicateurs de performance (capacité prédictive et reproductibilité). Ils peuvent être utilisés pour comparer les deux types de segmentations (car le nombre de segments est identique). Si la capacité prédictive ne change pas de façon significative, la segmentation avec expressions SQL peut être préférable car plus facile à comprendre. En revanche, si la capacité prédictive baisse, il vaut mieux en rester à la segmentation de base.
La capacité prédictive n'est pas forcément ce que vous voulez optimiser pour une segmentation. Vous pouvez visualiser le profil cible de chaque segment dans l'interface graphique. Parmi les quatre segments, un ou deux peuvent être particulièrement intéressants. Dans ce cas, il vaut mieux se concentrer sur ces segments et
étudier leur évolution lors de la génération des expressions SQL.
7.3.7 Rapport de modélisation
SAP InfiniteInsight ® vous propose un ensemble de rapports vous permettant une analyse fine de votre modèle.
Ces tables sont regroupées en plusieurs niveaux :
les
statistiques descriptives
, qui fournissent des statistiques sur les variables, leurs catégories et les jeux de données ainsi que les statistiques croisées des variables par rapport aux variables cibles.
Note
Si votre jeu de données contient des variables de type Date ou Datetime, des variables générées automatiquement apparaîtront dans ces rapports. Pour plus d'information, reportez-vous à la section Variables de date : les variables générées automatiquement (voir
" Variables de Date : les variables générées automatiquement " à la page 31).
CUSTOMER SAP InfiniteInsight® 7.0
246 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
les
performances du modèle
, dans lesquelles vous trouverez les indicateurs de performance du modèle, les individus non assignés, ainsi que les statistiques détaillées du score.
le
détail des segments
, qui détaille pour chaque segment son KL, les fréquence et moyenne de la cible, son expression SQL et ses statistiques.
la
vérification des déviations
, qui vous permet de vérifier la présence de déviation pour chaque variable et catégorie de variable entre les jeux de données de validation et de test.
les
rapports avancés
, dans lesquels vous trouverez d'autres indicateurs de performance, l'encodage des variables, ...
Options des rapports de modélisation
Une barre d'outils vous est proposée vous permettant de modifier l'affichage du rapport courant, de le copier, l'imprimer, le sauvegarder ou l'exporter sous format Excel.
Options d'affichage
Vue
Trier
Séries
Cette option permet d'afficher la vue courante du rapport dans un tableau graphique qui peut être triés par colonne.
Cette option permet d'afficher la vue courante du rapport sous forme de tableau HTML.
Pour certains rapports, vous pouvez choisir d'afficher la vue courante sous forme d'histogramme. Cet histogramme peut être trié par ordre ascendant ou descendant des valeurs ainsi que par ordre alphabétique ascendant ou descendant. Vous pouvez également choisir quelles données afficher.
Pour certains rapports, vous pouvez choisir d'afficher la vue courante sous forme de secteurs.
Pour certains rapports, vous pouvez choisir d'afficher la vue courante sous forme de courbe.
Quand le rapport en cours est affiché sous la forme d'un histogramme cette option vous permet de modifier son orientation (d'horizontal à vertical et inversement).
Cette option vous permet d'afficher le rapport courant sans triage.
Cette option vous permet de trier les valeurs du rapport courant par ordre ascendant.
Cette option vous permet de trier les valeurs du rapport courant par ordre descendant.
Cette option vous permet de trier les noms du rapport courant par ordre ascendant.
Cette option vous permet de trier les noms du rapport courant par ordre descendant.
Cette option permet de sélectionner quelles informations afficher dans le rapport courant.
CUSTOMER
247 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Options d'utilisation
Copier
Imprimer
Cette option permet de copier les données de la vue courante du rapport affiché. Les informations ainsi copiées peuvent être collées dans un éditeur de texte, un tableur, un document de traitement de texte.
Si le rapport courant contient plusieurs vues (pour différentes variables, différents jeux de données, etc.) Cette option permet de copier l'ensemble des vues pour ce rapport.
Si le rapport en cours est affiché sous forme de graphique, cette option vous permet de le copier au format image et de le coller dans un éditeur de texte ou dans un logiciel graphique.
Cette option permet d'imprimer la vue courante du rapport sélectionné selon le mode d'affichage choisi
(rapport HTML, graphique, ...).
Exporter
Cette option permet d'enregistrer sous différents formats (texte, html, pdf, rtf) les données de la vue courante du rapport affiché.
Cette option permet d'enregistrer sous différents formats (texte, html, pdf, rtf) les données de l'ensemble des vues du rapport affiché.
Cette option, qui est disponible pour toutes les formes d'affichage, permet d'exporter la vue courante vers Excel (compatible avec Excel 2002, 2003, XP et 2007).
Cette option vous permet de sauvegarder tous les rapports.
Cette option vous permet de sauvegarder la personnalisation des rapports.
7.4 Etape 4 - Utiliser le modèle
Une fois généré, un modèle de segmentation peut être enregistré pour utilisation ultérieure.
Un modèle de segmentation peut être appliqué sur de nouveaux jeux de données. Le modèle vous permet alors de déterminer à quel segment appartiennent les observations décrites dans ces jeux de données.
Cette partie présente l'option
Appliquer le modèle sur un nouveau jeu de données
proposées pour les modèles générés avec la fonctionnalité InfiniteInsight ®
Classement. Pour plus d'informations sur ces options, voir :
de InfiniteInsight ® Modeler /
Segmentation. Les autres options de déploiement des modèles de segmentation sont similaires à celles
Modeler / Régression ou
Enregistrer un modèle
Ouvrir un modèle
Générer le code source d'un modèle
CUSTOMER SAP InfiniteInsight® 7.0
248 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
7.4.1 Appliquer un modèle sur un nouveau jeu de données
Le modèle en cours d'utilisation peut être appliqué sur de nouveaux jeux de données. Le modèle permet alors de déterminer à quel segment appartiennent les observations décrites dans ces jeux de données.
Contrainte d'utilisation d'un modèle
Pour qu'un modèle puisse être appliqué sur un jeu de données, le format du jeu de données d'application doit
être identique à celui du jeu de données d'apprentissage utilisé pour générer le modèle. La même variable cible doit notamment être contenue dans les deux jeux de données, même si ses valeurs ne sont pas renseignées dans le jeu de données d'application.
Types de résultats proposés
L'application d'un modèle sur un jeu de données permet d'obtenir trois types de résultats :
le numéro du segment auquel appartient chaque observation.
le codage disjonctif des numéros de segments, ce qui signifie que pour chaque segment, une variable booléenne est créée indiquant si l'observation en cours appartient à ce segment ou non. Pour une observation donnée, la valeur "1" est assignée à la variable correspondant au segment contenant l'observation, et la valeur "0" est assignée aux variables correspondant aux autres segments. Les noms des variables sont générés selon la syntaxe suivante: kx_<Nom de la Cible>_<Index du segment>
Prenons comme exemple un modèle à cinq segments. Lorsque vous appliquez ce modèle, SAP
InfiniteInsight ® crée cinq variables correspondant aux cinq segments générés. Pour une observation appartenant au segment 3, le résultat est le suivant :
CUSTOMER
249 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
KxIndex
class kc_class kc_class_1 kc_class_2 kc_class_3 kc_class_4
15 1 3 0 0 1 0
la moyenne de la cible pour chaque segment, c'est-à-dire le pourcentage d'observations appartenant à la catégorie cible de la variable cible que contient chaque segment.
En fonction du niveau d'information souhaité, vous pouvez choisir de générer :
uniquement le numéro de segment auquel appartient chaque observation (option
valeur prévue
).
le numéro de segment et le codage disjonctif des numéros de segments (option
Codage disjonctif des numéros de segments
). Vous pouvez également décider d'inclure dans le fichier de résultats obtenu les variables contenues dans le jeu de données d'application (option
Codage disjonctif et recopie des var. explicatives
).
le numéro de segment et la moyenne de la cible pour chaque segment (option
Moyenne de la cible pour les segments
).
Pour ce scénario
Vous allez appliquer le modèle sur le fichier
Census01.csv
, que vous avez utilisé pour générer le modèle.
Dans la procédure
Pour appliquer le modèle sur un nouveau jeu de données
:
sélectionnez le format
Fichiers texte
,
dans le champ
Générer
, sélectionnez l'option
Moyenne de la cible pour les segments
,
sélectionnez un répertoire de votre choix pour enregistrer le fichier de résultats (
Résultats générés par le modèle
).
Pour appliquer le modèle sur un nouveau jeu de données
1
Dans l'écran
Utilisation du modèle
, cliquez sur l'option
Application du modèle
.
L'écran
Appliquer un modèle
apparaît.
CUSTOMER SAP InfiniteInsight® 7.0
250 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
2
Dans la partie
Jeu de données d'application
, sélectionnez le format de la source de données dans la liste
Type de donnée
.
3
Cliquez sur les boutons
Parcourir
pour indiquer respectivement :
• dans le champ
Répertoire
, le répertoire dans lequel est stocké votre jeu de données,
• dans le champ
Données
, le nom du fichier correspondant à votre jeu de données.
4
Dans le cadre
Options de génération
, sélectionnez dans la liste
Générer
le type de valeurs de sortie que vous souhaitez obtenir pour la variable cible.
5
Sélectionnez dans la liste
Mode
, le type de résultats voulu.
6
Dans le cadre
Résultats générés par le modèle
, sélectionnez le format du ficher de sortie
7
Cliquez sur le bouton
Appliquer
.
L'écran
Application du modèle
apparaît.
Une fois l'application du modèle terminée, le fichier de résultats de l'application est automatiquement enregistré à l'emplacement que vous avez défini sur l'écran
Appliquer le modèle
.
CUSTOMER
251 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Utiliser l'application directe dans la base de données
Pré-requis pour l'utilisation du mode d'application direct dans la base de données
Ce mode optimisé du score peut être utilisé si toutes les conditions suivantes sont remplies:
le jeu de données d'application (table, vue, requête, manipulation de données) et les résultats du jeu de données sont des tables provenant de la même base de données,
le modèle calculé contient au moins une variable avec une clé physique pré-définie dans SAP
InfiniteInsight
®
,
une licence InfiniteInsight
®
Scorer valide,
aucune erreur apparue,
un mode d'application dans la base de données activé,
un accès de lecture et d'écriture (créer une table).
Pour utiliser le mode d'application directe dans la base de données
Cochez l'option
Utiliser l'application directe dans la base de données
.
CUSTOMER SAP InfiniteInsight® 7.0
252 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Paramètres avancés
Copier la variable de poids
Cette option vous permet d'ajouter au fichier de sortie la variable de poids si elle a été définie lors de la sélection des variables du modèle.
Copier les variables
Cette option vous permet d'ajouter au fichier de sortie une ou plusieurs variables du jeu de données.
Pour ajouter toutes les variables du jeu de données
Cochez l'option
Toutes
.
Pour sélectionner uniquement les variables qui vous intéressent
1
Sélectionnez l'option
Sélection
.
2
Cliquez sur le bouton
>>
pour afficher le tableau de sélection des variables.
3
Sélectionnez dans la liste
Eléments disponibles
les variables que vous voulez ajouter (utilisez la touche
Ctrl
pour sélectionner plusieurs variables à la fois).
4
Cliquez sur le bouton
>
pour ajouter les variables sélectionnées à la liste
Eléments sélectionnés
.
CUSTOMER
253 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Constantes définies par l'utilisateur
Cette option vous permet d'ajouter au fichier de sortie des constantes comme par exemple la date de l'application du modèle, le nom du jeu de données utilisé, ou toute autre information utile pour l'exploitation du fichier de sortie.
Une constante est définie par les informations suivantes:
Paramètre Description Valeur
Générer
Nom
Format
Valeur
Clé
indique si la constante sera générée dans le jeu de données de sortie. nom de la constante type de la constante
coché
: la constante sera générée
décoché
: la constante ne sera pas générée
1
Le nom ne peut être identique à celui d'une variable du jeu de données de référence.
2
Si le nom est identique à celui d'une constante existante, celle-ci sera remplacée par la nouvelle constante.
number
: nombre
string
: chaîne de caractères
integer
: entier
date
: date
datetime
: date et heure valeur de la constante format des dates: YYYY-MM-DD format des dates avec horaire: YYYY-MM-DD HH:MM:SS spécifie si la constante est une variable clé ou un identifiant de l'enregistrement. Il est possible de déclarer des clés multiples qui seront construites selon l'ordre indiqué
(1-2-3-...).
0
: la constante n'est pas un identifiant
1
: identifiant primaire
2
: identifiant secondaire
...
Pour définir une constante
1
Cliquez sur le bouton
Ajouter
. Une fenêtre s'ouvre vous permettant de saisir les paramètres de la constante.
2
Dans le champ
Nom
, saisissez le nom de la constante.
3
Dans la liste
Format de sortie
, sélectionnez son type.
4
Dans le champ
Valeur de sortie
, saisissez la valeur que vous souhaitez donner à la constante.
5
Cliquez sur le bouton
OK
pour valider la création de la constante. La nouvelle constante apparaît dans la liste. Vous pouvez choisir de générer ou non les constantes définies en cochant la case
Générer
correspondante.
CUSTOMER SAP InfiniteInsight® 7.0
254 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Sorties par rang de segment
Segments par ordre de proximité
Cette option vous permet d'ajouter au fichier de sortie les numéros des segments dont le centroïde est le plus proche de l'observation en cours. Le segment dont le centroïde est le plus proche est celui auquel appartient l'observation, son numéro apparaît dans le fichier de sortie dans la colonne
kc_<Variable cible>
. Le segment suivant apparaît dans la colonne
kc_<Variable cible>_2
, et ainsi de suite en terminant par le segment dont le centroïde est le plus éloigné. Vous pouvez choisir d'ajouter tous les segments, ou seulement les plus proches.
Pour ajouter tous les segments
Cochez l'option
Tous
.
Pour ajouter les segments les plus proches
1
Cochez l'option
Les plus proches
.
2
Saisissez dans le champ texte le nombre de segments à ajouter (c'est-à-dire les deux, trois ou quatre premiers par exemple).
Noms des segments par ordre de proximité
Cette option vous permet d'ajouter au fichier de sortie les noms des segments dont les centroïdes sont les plus proches de l'observation en cours. Le segment dont le centroïde est le plus proche est celui auquel appartient l'observation, son nom apparaît dans le fichier de sortie dans la colonne
kc_name_<Variable cible>
.
Le segment suivant apparaît dans la colonne
kc_name_<Variable cible>_2
, et ainsi de suite en terminant par le segment dont le centroïde est le plus éloigné. Vous pouvez choisir d'ajouter tous les segments, ou seulement les plus proches.
Pour ajouter tous les segments
Cochez l'option
Tous
.
Pour ajouter les segments les plus proches
1
Cochez l'option
Les plus proches
.
2
Saisissez dans le champ texte le nombre de segments à ajouter (c'est-à-dire les deux, trois ou quatre premiers par exemple).
Note
Le nom par défaut d'un segment est son numéro. Vous pouvez modifier les noms des segments dans la colonne
Nom
du panneau
Statistiques croisées
accessible par le menu.
Distances par ordre croissant
Cette option vous permet d'ajouter au fichier de sortie les distances de chaque observation aux centroïdes des segments. La distance au centroïde le plus proche apparaît dans la colonne
kc_best_dist_<Variable cible>
, la distance du second centroïde le plus proche apparaît dans la colonne
kc_best_dist_<Variable cible>_2
, et ainsi de suite jusqu'au centroïde le plus éloigné de l'observation en cours. Vous pouvez ajouter les distances par rapport à tous les centroïdes ou seulement les plus courtes.
Pour ajouter toutes les distances
Cochez l'option
Toutes
.
CUSTOMER
255 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Pour ajouter les distances les plus courtes
1
Cochez l'option
Les plus proches
.
2
Saisissez dans le champ texte le nombre de distances à ajouter (c'est-à-dire les deux, trois ou quatre premières par exemple).
Remarque
Lorsque le mode SQL est activé, la notion de segment le plus proche n’est pas pertinente. Si un enregistrement appartient à un segment, la distance vaut 0. Si un enregistrement n’appartient pas à un segment, la distance vaut 1.
Probabilité
Cette option vous permet d'ajouter au fichier de sortie les probabilités que l'observation en cours appartiennent à chacun des segments. La probabilité que l'observation appartienne au segment dont le centroïde est le plus proche apparaît dans la colonne
kc_best_proba_<Variable cible>
, cette probabilité est généralement la plus haute. La probabilité que l'observation appartienne au second segment le plus proche apparaît dans la colonne
kc_best_proba_<Variable cible>_2
, et ainsi de suite jusqu'au segment dont le centroïde est le plus éloigné. Vous pouvez ajouter toutes les probabilités ou seulement celles correspondant aux segments dont les centroïdes sont les plus proches.
Pour ajouter toutes les probabilités
Cochez l'option
Toutes
.
Pour ajouter les probabilités des segments les plus proches
1
Cochez l'option
Les meilleurs
.
2
Saisissez dans le champ texte le nombre de probabilités à ajouter (c'est-à-dire les deux, trois ou quatre meilleures par exemple).
Remarque
Lorsque le mode SQL est activé, la notion de segment le plus proche n’est pas pertinente. Si un enregistrement appartient à un segment, la probabilité vaut 1. Si un enregistrement n’appartient pas à un segment, la probabilité vaut 0.
Sorties par identifiant de segment
Distance aux segments
Cette option vous permet d'ajouter au fichier de sortie la distance de chaque observation par rapport aux différents segments. Les distances sont générées dans les colonnes
kc_dist_cluster_<Variable cible>_<Identifiant segment>
. Par exemple si la variable cible est Age, la distance au segment 1 apparaîtra dans la colonne
kc_dist_cluster_Age_1
.
Pour ajouter les distances à tous les segments
Cochez l'option
Tous
.
CUSTOMER SAP InfiniteInsight® 7.0
256 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Pour sélectionner les distances à ajouter
1
Cochez l'option
Sélection
.
2
Cliquez sur le bouton
>>
. La liste des segments s'affiche.
3
Cochez les segments pour lesquels vous souhaitez avoir les distances.
Remarque
Lorsque le mode SQL est activé, la notion de segment le plus proche n’est pas pertinente. Si un enregistrement appartient à un segment, la distance vaut 0. Si un enregistrement n’appartient pas à un segment, la distance vaut 1.
Probabilité du segment
Cette option vous permet d'ajouter au fichier de sortie la probabilité de chaque observation d'appartenir aux différents segments. Les probabilités sont générées dans les colonnes
kc_proba_cluster_<Variable cible>_<Identifiant segment>
. Par exemple si la variable cible est Age, la probabilité que l'observation appartienne au segment 1 apparaîtra dans la colonne
kc_dist_cluster_Age_1
.
Pour ajouter les probabilités pour tous les segments
Cochez l'option
Tous
.
Pour sélectionner les probabilités à ajouter
1
Cochez l'option
Sélection
.
2
Cliquez sur le bouton
>>
. La liste des segments s'affiche.
3
Cochez les segments pour lesquels vous souhaitez avoir les distances.
Remarque
Lorsque le mode SQL est activé, la notion de segment le plus proche n’est pas pertinente. Si un enregistrement appartient à un segment, la probabilité vaut 1. Si un enregistrement n’appartient pas à un segment, la probabilité vaut 0.
Autres
Codage disjonctif de la valeur prévue
Une colonne est créée pour chaque segment et contient 0 ou 1 selon que l'observation appartient au segment correspondant. Les colonnes créées sont nommées kc_disj_<variable cible>_<id segment>. Par exemple, si votre modèle comporte cinq segments et que la variable cible s'appelle
Age
, les cinq colonnes suivantes seront créées :
kc_disj_age_1
,
kc_disj_age_2
,
kc_disj_age_3
,
kc_disj_age_4
,
kc_disj_age_5
.
CUSTOMER
257 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de
Valeur moyenne de la cible / Probabilité de la catégorie cible
Cette option vous permet d'ajouter au fichier de sortie :
pour les variables cibles continues :
la valeur moyenne de la cible pour le segment contenant l'observation (affichée dans la colonne
kc_<VariableCible>_Mean
),
la différence entre la moyenne de la cible pour le segment et la valeur réelle de la variable cible pour l'observation courante si elle est disponible (affichée dans la colonne
kc_<VariableCible>_Error
).
pour les variables cibles nominales :
la proportion de la catégorie cible de la variable cible dans le segment contenant l'observation
(affichée dans la colonne
kc_<Variable cible>_Mean
).
Analyser les résultats de l'application
Pour ce scénario
Dans Microsoft Excel, ouvrez le fichier de résultats au format texte que vous avez obtenu suite à l'application du modèle sur le fichier
Census01.csv
.
Pour ouvrir le fichier de résultats de l'application d'un modèle
1
En fonction du format du fichier de résultats généré, utilisez
Microsoft Excel
ou toute autre application pour ouvrir ce fichier.
La figure ci-dessous présente les premières et les colonnes du fichier de résultats obtenu pour le scénario.
2
Vous pouvez maintenant analyser les résultats obtenus et utiliser les résultats de vos analyses pour prendre les bonnes décisions.
CUSTOMER SAP InfiniteInsight® 7.0
258 © 2014 SAP AG or an SAP affiliate company. All rights reserved-Créer un modèle de segmentation ou de regroupement avec InfiniteInsig
Description du fichier de résultats
En fonction des options que vous avez sélectionnées, le fichier de résultats contient une partie ou la totalité des informations suivantes, dans l'ordre dans lequel elles sont présentées ci-dessous :
la variable clé définie lors de la description des données à l'étape de définition des paramètres de modélisation. Si votre jeu de données ne contenait pas de variable clé, alors la variable clé
KxIndex
a été automatiquement générée par SAP InfiniteInsight
®
.
éventuellement la variable cible renseignée par des valeurs connues si celles-ci figuraient dans le jeu de données d'application, comme c'est le cas pour ce scénario.
la variable
kc_clusterId
, qui indique le numéro du segment auquel appartient chaque observation.
la variable
kc_TargetMeanClusterId
, qui indique le pourcentage d'observations appartenant à la catégorie cible de la variable cible que contient chaque segment.
les variables correspondant à chaque segment, et indiquant le codage disjonctif des numéros de segments. Le nom de ces variables correspondent aux numéros des segments, préfixés par
kc_cluster_
, par exemple
kc_cluster_1
pour le segment 1.
CUSTOMER
259 © 2014 SAP AG or an SAP affiliate company. All rights reserved- regroupement avec InfiniteInsight® Modeler
SAP InfiniteInsight® 7.0
Créer un modèle de segmentation ou de

Lien public mis à jour
Le lien public vers votre chat a été mis à jour.
Caractéristiques clés
- Modélisation des données simple et rapide
- Résultats pertinents et interprétables
- Accès à de nombreux formats de sources de données
- Génération semi-automatique et rapide de modèles
- Interface graphique utilisateur (KxJWizard)
- Interpréteur de commandes (KxShell)
- API de contrôle (COM/DCOM, CORBA, C++)