3 Notions fondamentales
Cette section présente les notions fondamentales relatives à l'utilisation de SAP InfiniteInsight ® .
Toutes ces notions sont présentées et mises en gras dans la section Vue d'ensemble de SAP InfiniteInsight ® qui décrit de manière générale le processus de génération d'un modèle à l'aide de SAP InfiniteInsight ® .
,
D
ANS CE CHAPITRE
17
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.1 Fonctionnement de SAP InfiniteInsight® : Vue d'ensemble
SAP InfiniteInsight ® vous permet de faire du Data Mining supervisé, c'est-à-dire de transformer vos données en connaissances, puis en action, en fonction d'une problématique métier.
SAP InfiniteInsight ® supporte différents formats de source données (fichiers "à plat", sources compatibles
ODBC, ...). Pour être exploitables par les fonctionnalités SAP InfiniteInsight
InfiniteInsight ®
® Explorer / Codeur des journaux d'événements ou
Explorer / Codeur de séquences.
® , les jeux de données à analyser doivent être présentés sous la forme d'une table de données
(voir à la page 26) unique, sauf dans les cas où
vous utilisez les fonctionnalités InfiniteInsight
Pour utiliser les fonctionnalités SAP InfiniteInsight ® , vous devez obligatoirement posséder un jeu de données d'apprentissage, contenant une variable cible dont toutes les valeurs sont renseignées. Vous pouvez ensuite appliquer le modèle généré à partir du jeu de données d'apprentissage sur un ou plusieurs jeux de données d'application.
Le jeu de données d'apprentissage est découpé en trois sous-jeux de données d'estimation, de validation et de test, grâce à une stratégie de découpage
Les différents types de variables
(voir à la page 27) continues, ordinales et nominales sont ensuite codés par
l'encodeur analytique d'SAP InfiniteInsight
®
, et les fonctionnalités InfiniteInsight
®
Explorer / Codeur de séquences et InfiniteInsight ® Explorer / Codeur des journaux d'événements dans le cas de données dynamiques. Avant de générer le modèle, vous devez :
décrire les données. Un utilitaire intégré à SAP InfiniteInsight ® permet de générer automatiquement une description du jeu de données à analyser. Vous devez valider cette description, en vérifiant si le type et le format de stockage de chaque variable a été correctement identifié.
définir le rôle des variables contenues dans le jeu de données à analyser. Vous sélectionnez au moins une variable Y comme variable cible, ou variable qui correspond à votre problématique. Les autres variables de la table de données sont dîtes variables explicatives : elles permettent de calculer la valeur de la variable cible dans un contexte donné. Elles peuvent également être utilisées comme variables de poids.
Pour plus d'informations sur le rôle des fonctionnalités, rendez vous dans la section Fonctionnement à la page
Vous générez ensuite des modèles
(voir à la page 35), capables soit d'expliquer et de prédire un phénomène,
soit de décrire un jeu de données, dans les deux cas en fonction de la variable cible précédemment définie.
Cette phase est appelée phase d'apprentissage.
Une fois les modèles générés, vous pouvez visualiser et interpréter leur pertinence et leur robustesse grâce :
aux indicateurs de performance
(voir à la page 40) : la capacité prédictive et la reproductibilité,
différents graphiques, dont le graphique de la courbe de profit.
18
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.2 Sources de données supportées
En standard, les fonctionnalités SAP InfiniteInsight ® supportent les sources de données suivantes :
les fichiers "plats" (
flat files
) dont les données sont séparées par un élément séparateur, tels que les fichiers au format .
csv
(voir à la page 69) ou les fichiers .txt tabulés. Par exemple, le fichier exemple
Census01.csv
, utilisé pour les scénarios d'utilisation de InfiniteInsight ® Modeler / Régression ou
Classement et de InfiniteInsight
®
Modeler / Segmentation, est un fichier .csv.
les sources de données compatibles ODBC.
Selon votre licence, vous pouvez également utiliser des fichiers SAS.
Une API permet également d'interfacer les fonctionnalités SAP InfiniteInsight spécifique doit être développée pour chaque nouvelle source.
® avec n'importe quelle application (SPSS, Microsoft Excel, etc.), et ainsi d'accéder à n'importe quelle source de données. Une .dll
Remarque
Pour des informations sur le formatage des données, et notamment pour connaître la liste exacte des sources compatibles ODBC supportées, voir le document Data Modeling Specification.
3.3 Jeu de données
Pour utiliser les fonctionnalités SAP InfiniteInsight ® , vous devez obligatoirement posséder un jeu de données d'apprentissage, contenant une variable cible dont toutes les valeurs sont renseignées. Vous pouvez ensuite appliquer le modèle généré à partir du jeu de données d'apprentissage sur un ou plusieurs jeux de données d'application.
3.3.1 Jeu de données d'apprentissage
Un jeu de données d'apprentissage est un jeu de données utilisé pour la génération d'un modèle. Dans ce jeu, les valeurs de la variable cible
(voir à la page 32) - ou variable correspondant à votre problématique - sont
connues. En analysant le jeu de données d'apprentissage, les fonctionnalités SAP InfiniteInsight ® modèle qui permet d'expliquer la variable cible, grâce aux variables explicatives.
génèrent un
Pour permettre la validation du modèle généré, le jeu de données d'apprentissage est découpé en trois sous-jeux grâce à une stratégie de découpage
Le jeu de données d'apprentissage peut correspondre soit à une partie exhaustive de votre base de données, soit à un échantillon extrait de celle-ci. Le choix dépend du type d'étude à réaliser, des outils utilisés et du budget alloué à l'étude.
19
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.3.2 Jeu de données d'application
Un jeu de données d'application est un jeu de données sur lequel vous appliquez un modèle. Ce jeu de données contient une variable cible dont vous souhaitez connaître la valeur.
Le modèle appliqué sur un jeu de données d'application a été préalablement généré à partir d'un jeu de données d'apprentissage. Le jeu de données d'application doit contenir exactement les mêmes informations que le jeu de données d'apprentissage correspondant, c'est-à-dire :
le même nombre de variables,
les mêmes types de variables,
le même ordre de présentation pour ces variables.
Attention
Le jeu de données d'application doit contenir une variable cible correspondant à celle du jeu de données d'apprentissage. Cette remarque est valable dans tous les cas, même si les valeurs de cette variable cible ne sont pas renseignées. Quand ces valeurs sont renseignées, elles peuvent servir à détecter d'éventuelles observations déviantes
(outliers
).
3.4 Stratégies de découpage
3.4.1 Définition
Une stratégie de découpage est une technique qui permet de décomposer un jeu de données d'apprentissage en trois sous-jeux distincts :
un sous-jeu d'estimation,
un sous-jeu de validation,
un sous-jeu de test.
Ce découpage permet une validation croisée des modèles générés.
Il existe neuf types de stratégies de découpage.
20
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.4.2 Rôles des trois sous-jeux
Le tableau suivant définit le rôle des trois sous-jeux de données obtenus à l'aide des stratégies de découpages.
L'ensemble de données Est utilisé pour...
estimation
validation générer différents modèles. Les modèles générés à ce stade sont hypothétiques sélectionner le meilleur modèle parmi ceux générés à partir du sous-jeu d'estimation, c'est-à-dire celui qui constitue le meilleur compromis entre un modèle ayant une qualité parfaite et un modèle ayant une robustesse parfaite. vérifier la performance du modèle sélectionné sur un nouveau jeu de données. test
Pour comprendre le rôle des stratégies de découpage dans le processus de génération d'un modèle, voir le schéma Génération d'un modèle.
3.4.3 Les types de stratégies de découpage
Pour générer vos modèles, vous pouvez utiliser deux types stratégies de découpage :
la stratégie de découpage personnalisée,
les stratégies de découpage automatiques.
La stratégie de découpage personnalisée
Définition
La stratégie de découpage personnalisée vous permet de définir vos propres sous-jeux de données. Pour l'utiliser, vous devez préparer au préalable (avant de lancer les fonctionnalités SAP InfiniteInsight sous-jeux correspondant aux sous-jeux d'estimation, de validation et de test.
® ) trois
21
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Comment l'utiliser
Avant de démarrer SAP InfiniteInsight ® votre choix. Par exemple :
, découpez votre fichier de données initial en trois fichiers de la taille de
le premier fichier peut contenir les 1500 premières observations ou lignes de votre fichier de données initial,
le deuxième fichier, ses observations 1501 à 3000,
le troisième fichier, ses observations 3001 à 5000.
Avertissement
La stratégie de découpage personnalisée peut s'avérer risquée dans le cas d'un fichier initial dans lequel les données sont triées. En effet, les premières lignes ne sont alors plus représentatives de l'ensemble des données contenues dans le fichier initial. Pour éviter ce genre de biais, n'oubliez pas de brasser vos données préalablement à leur analyse.
Les stratégies de découpage automatique
Généralités
A l'exception de la stratégie de découpage personnalisée, les stratégies de découpage sont automatiques. Les stratégies de découpage automatiques travaillent sur un fichier de données unique, que constitue votre jeu de données initial.
Les stratégies de découpage automatiques découpent toujours le jeu de données initial dans les mêmes proportions. Le tableau ci-dessous détaille les proportions attribuées à chaque sous-jeu de données, selon la présence ou non d'un sous-jeu de test.
Stratégies de découpage automatiques avec test
Stratégies de découpage automatiques sans test
3/5 des données sont utilisées dans le sous-jeu d'estimation
1/5 des données sont utilisées dans le sous-jeu de validation
1/5 des données sont utilisées dans le sous-jeu de test
3/4 des données sont utilisées dans le sous-jeu d'estimation,
1/4 des données sont utilisées dans le sous-jeu de validation
22
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Stratégie de découpage aléatoire
Cette stratégie distribue les données du jeu de données initial de manière aléatoire dans les trois sous-jeux d'estimation, de validation et de test.
Aléatoire avec test à la fin
Cette stratégie distribue :
les 4/5 du jeu de données initial de manière aléatoire dans les 2 sous-jeux d'estimation et de validation.
Cette distribution respecte les proportions habituelles : 3/5 de ces 4/5 sont distribués dans le sous-jeu d'estimation, et 1/5 dans le sous-jeu de validation.
le dernier 1/5 du jeu de données initial en une fois dans le sous-jeu de test.
Cette stratégie est utile dans le cas où :
l'alimentation de votre base de données répond à une évolution bien définie, qui détermine un ordonnancement chronologique des données dans la base,
vous souhaitez prendre en compte cet ordonnancement pour la génération du modèle.
Par exemple, imaginez que :
de nouveaux clients sont référencés tous les mois dans votre base de données,
vous savez que les jeux de données sur lesquels vous appliquerez le modèle, une fois généré, auront de fortes chances de ressembler à la partie la plus récente de votre base de données, c'est-à-dire celle contenant les derniers clients référencés.
Grâce à la stratégie de découpage aléatoire avec test à la fin, vous testez alors le modèle généré sur la partie de votre base de données qui a le plus de chances de ressembler à l'état de vos futurs jeux de données d'applications.
Aléatoire sans test (stratégie par défaut)
Cette stratégie est la stratégie de découpage proposée par défaut. Elle distribue l'intégralité des données initiales de façon aléatoire entre les sous-jeux d'estimation et de validation.
3/4 du jeu de données initial sont attribués au sous-jeu de données d'estimation,
1/4 du jeu de données initial est attribué au sous-jeu de données de validation.
Etant donné qu'aucun sous-jeu de données de test n'est utilisé, toutes les données de votre jeu de données d'apprentissage peuvent être utilisées pour les sous-jeux d'estimation et de validation. Ce qui peut permettre d'augmenter la qualité et la robustesse du modèle.
23
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Périodique
Cette stratégie suit le cycle de distribution suivant :
1
Trois lignes du jeu de données initial sont distribuées dans le sous-jeu d'estimation.
2
Une ligne est distribuée dans le sous-jeu de validation.
3
Une ligne est distribuée dans le sous-jeu de test.
4
La distribution reprend à l'étape
1
.
Périodique avec test à la fin
Cette stratégie distribue :
les 4/5 du jeu de données initial de manière périodique dans les 2 sous-jeux d'estimation et de validation.
Cette distribution respecte les proportions habituelles. 3/5 de ces 4/5 sont distribués dans le sous-jeu d'estimation et 1/5 dans le sous-jeu de validation.
le dernier 1/5 du jeu de données initial d'un bloc dans le sous-jeu de test.
En d'autres mots, la stratégie suit le cycle de distribution suivant :
1
Trois lignes des premiers 4/5 du jeu de données initial sont distribuées dans le sous-jeu d'estimation.
2
Une ligne des premiers 4/5 du jeu de données initial est distribuée dans le sous-jeu de validation.
3
a. Si la totalité des premiers 4/5 du jeu de données initial ne sont pas encore distribués, la distribution reprend à l'étape
1
. b. Si la totalité des premiers 4/5 du jeu de données initial sont distribués, la distribution passe à l'étape
4
.
4
Le dernier 1/5 du jeu de données initial est distribué d'un bloc dans le sous-jeu de test.
Périodique sans test
Cette stratégie de découpage distribue l'intégralité du jeu de données initial de façon périodique entre les sous-jeux de données d'estimation et de validation :
3/4 du jeu de données initial sont attribués au sous-jeu d'estimation,
1/4 du jeu de données initial est attribué au sous-jeu de validation.
En d'autres mots, la stratégie suit le cycle de distribution suivant :
1
Trois lignes du jeu de données initial sont distribuées dans le sous-jeu d'estimation.
2
Une ligne est distribuée dans le sous-jeu de validation.
3
La distribution reprend à l'étape
1
.
Etant donné qu'aucun sous-jeu de données de test n'est utilisé, toutes les données de votre jeu de données d'apprentissage peuvent être utilisées pour les sous-jeux d'estimation et de validation. Ce qui peut permettre d'augmenter la qualité et la robustesse du modèle.
24
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Séquentielle
Cette stratégie découpe le jeu de données initial en trois blocs, correspondant aux proportions de découpage habituelles :
les lignes correspondant aux premiers 3/5 du jeu de données initial sont distribuées d'un bloc dans le jeu de données d'estimation,
les lignes correspondant aux 1/5 suivant du jeu de données initial sont distribuées d'un bloc dans le jeu de données de validation,
les lignes correspondant aux derniers 1/5 du jeu de données initial sont distribuées d'un bloc dans le jeu de données de test.
Séquentielle sans test
Cette stratégie découpe le jeu de données initial en deux blocs, correspondant aux proportions de découpage habituelles lorsqu'il n'y a pas de sous-jeu de test :
les lignes correspondant aux premiers 3/4 du jeu de données initial sont distribuées d'un bloc dans le jeu de données d'estimation,
les lignes correspondant au dernier 1/4 du jeu de données initial sont distribuées d'un bloc dans le jeu de données de validation.
Etant donné qu'aucun sous-jeu de données de test n'est utilisé, toutes les données de votre jeu de données d'apprentissage peuvent être utilisées pour les sous-jeux d'estimation et de validation. Ce qui peut permettre d'augmenter la qualité et la robustesse du modèle.
25
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.5 Table de données
3.5.1 Définition
Une table de données est un ensemble de données présentées sous la forme d'un tableau à deux dimensions.
Dans cette table :
chaque ligne représente une observation à traiter, soit dans le fichier exemple
Census01.csv
un américain.
chaque colonne représente une variable qui décrit les observations, soit dans notre exemple "l'âge" ou le
"sexe" des individus américains.
chaque cellule, soit l'intersection d'une colonne et d'une ligne, représente la valeur de la variable en colonne pour l'observation en ligne.
Le tableau suivant donne un exemple de table de données.
Observations
Observation a
Observation b
...
Observation n
Variable 1
Valeur a1
Valeur b1
...
Valeur n1
Variable 2
Valeur a2
Valeur b2
...
Valeur n2
Variable 3
Valeur a3
Valeur b3
...
Valeur n3
3.5.2 Synonymes de "observations" et "variables"
Selon votre profil et votre domaine d'expertise, vous pouvez être habitué à employer d'autres termes pour référer aux observations (en lignes) et variables (en colonnes) des tables de données.
Le tableau suivant présente ces termes. Ils sont tous synonymes.
Termes équivalents au terme "Observation"
Ligne
Enregistrement
Table
Evénement
Cas
Exemple
Termes équivalents au terme "Variable"
-
-
Colonne
Attribut
Champ
Propriété
3.5.3 Formatage des données
Quelle que soit la source de données utilisée, les deux contraintes suivantes doivent être respectées :
26
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
les données doivent être représentées sous la forme d'une table, unique sauf dans les cas où vous utilisez les fonctionnalités InfiniteInsight ® Explorer / Codeur des journaux d'événements ou InfiniteInsight ®
Explorer / Codeur de séquences. .
la variable cible doit être renseignée pour chaque observation de la table. Dans le fichier exemple
Census01.csv
, la variable "class" a été renseignée pour chaque individu.
Remarque
Pour des informations sur le formatage des données, et notamment pour connaître la liste exacte des sources compatibles ODBC supportées, voir le document Data Modeling Specification.
3.6 Variables
3.6.1 Définition générique
Une variable correspond à un attribut qui décrit les observations stockées dans votre base de données. Dans les fonctionnalités SAP InfiniteInsight ® , une variable est définie par :
un type,
un format de stockage,
un rôle.
Exemple
Dans une base de données contenant des informations sur vos clients, le "nom" et "l'adresse" de ces clients, par exemple, sont des variables.
3.6.2 Types de variables
Il existe trois types de variables :
les variables continues,
les variables ordinales,
les variables nominales.
27
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Variables continues
Définition
Les variables continues sont des variables dont les valeurs sont numériques continues et ordonnées. Des opérations arithmétiques peuvent être effectuées sur ces valeurs, telles que la somme ou la moyenne.
Exemple
La variable "Salaire" est une variable numérique. Elle peut prendre les valeurs suivantes : "1200 Euros",
"2000 Euros", ou "2035 Euros". Par exemple, la moyenne de ces valeurs peut être calculée.
Variables continues et modélisation
Lors d'une modélisation, une variable continue peut être découpée en tranches significatives.
Variables ordinales
Définition
Les variables ordinales sont des variables dont les valeurs sont discrètes, c'est-à-dire appartenant à des catégories, et ordonnées. Les variables ordinales peuvent être :
numériques, c'est-à-dire avoir pour valeurs des nombres ( l'ordre numérique naturel (0, 1, 2, etc.).
number
).. Elles sont alors ordonnées selon
textuelles, c'est-à-dire avoir pour valeurs des chaîne de caractères ( manière alphabétique.
string
). Elles sont alors ordonnées de
Exemple
La variable "note scolaire" est une variable ordinale. L'ensemble des valeurs que cette variable peut prendre constituent bien des catégories distinctes et ordonnées. Cette variable peut être :
numérique, si elle prend des valeurs comprises entre "0" et "20",
textuelle, si elle prend les valeurs A, B, C, D, E et F.
28
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Attention
Une variable "appréciation" ayant pour valeurs "un peu", "beaucoup" et "passionnément" ne peut pas
être traitée directement par les fonctionnalités SAP InfiniteInsight ® comme si elle était une variable ordinale. L'ordre obtenu serait en effet l'ordre alphabétique ("beaucoup", "passionnément", puis "un peu"), et ne serait plus en phase avec les différents degrés d'appréciation correspondant aux valeurs de cette variable. Quand l'ordre des valeurs d'une variable nominale est important, la variable doit donc être codée, soit en lettres soit en chiffres, avant de pouvoir être utilisée par SAP InfiniteInsight
®
.
Variables nominales
Définition
Les variables nominales sont des variables dont les valeurs sont discrètes, c'est-à-dire appartenant à des catégories, et non ordonnées.
Les variables nominales peuvent être :
numériques, c'est-à-dire avoir pour valeurs des nombres (
number
).
textuelles, c'est-à-dire avoir pour valeurs des chaînes de caractères (
string
).
Attention
Les variables binaires sont considérées comme des variables nominales.
Exemple
La variable "Code postal" est une variable nominale. L'ensemble des valeurs que cette variable peut prendre ("36000", "75000", "93000", etc.) constituent bien des catégories distinctes non ordonnées et représentées par des nombres.
La variable "Couleur des yeux" est une variable nominale. L'ensemble des valeurs que cette variable peut prendre ("bleu", "marron", "noir", etc.) constituent bien des catégories distinctes non ordonnées et représentées par des chaînes de caractères.
Variables nominales et modélisation
Lors d'une modélisation, les valeurs des variables catégoriques sont regroupées en catégories homogènes.
Les catégories sont ensuite ordonnées en fonction de l'importance de leur contribution par rapport aux valeurs de la variable cible.
29
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.6.3 Formats de stockage
Pour décrire les données, SAP InfiniteInsight ® utilise plusieurs types de formats de stockage :
date,
datetime (date et horaire),
number (nombre),
integer (entier),
string (chaine de caractères).
Le tableau suivant décrit ces formats de stockages.
Le format de stockage...
date datetime number integer string
Est utilisé pour décrire les variables dont les valeurs correspondent à... Par exemple...
des dates exprimées dans les formats suivants :
AAAA-MM-JJ
AAAA/MM/JJ
"2001-11-30"
"1999/04/28" des dates et heures exprimées dans les formats suivants :
AAAA-MM-JJ HH:MN:SS
AAAA/MM/JJ HH:MN:SS
"2001-11-30 14:08:17"
"1999/04/28 07:21:58" des chiffres, ou valeurs numériques, sur lesquelles peuvent
être effectuées des opérations
la variable "salaire", en Euros : "1000.00",
"1593" et "2000.54" des chiffres, ou valeurs numériques entiers, sur lesquelles peuvent être effectuées des opérations
la variable "âge", en années : "21", "34" et
"99" des chaînes de caractères alphanumériques la variable "nom de famille : "Dupond",
"Martin" et "Dumoulin"
la variable "profession" : "professeur",
"ingénieur" et "traducteur"
la variable "téléphone" : "01 41 44 88 44" et
"01 41 44 94 79"
Remarque
Une variable ayant pour valeurs des chiffres ne doit pas nécessairement être décrite par le format de stockage number. Par exemple, les variables "téléphone" et "code postal" doivent être décrites avec le format de stockage string, car aucune opération arithmétique n'ayant de sens ne peut être effectuée sur leurs valeurs. De même, une variable qui servirait d'identifiant pour les observations d'une table et qui dépasserait le format de nombre supporté pourrait être décrite par le format de stockage string.
Attention
Pour le format de stockage number, le séparateur de valeurs décimales utilisé doit être un point, et non une virgule. Ainsi, la valeur "6.5" peut être traitée mais non la valeur "6,5".
30
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Variables de date : les variables générées automatiquement
Lorsque votre jeu de données contient des variables de type date ou date et horaire la fonctionnalité de codage des dates extrait automatiquement des informations de date de ces variables. KDC extrait les informations temporelles suivantes.
Pour les variables de type date ou date et horaire :
Information temporelle Valeurs Nom de la variable générée
Jour de la semaine
selon la norme ISO : lundi=0 et dimanche=6
Jour du mois
de 1 à 31
Jour de l'année
Mois du trimestre
de 1 à 366
janvier, avril, juillet et octobre = 1
février, mai, août et novembre = 2
mars, juin, septembre et décembre = 3 de 1 à 12
Mois de l'année
Année
l'année en quatre chiffre
Trimestre
janvier à mars = 1
avril à juin = 2
juillet à septembre = 3
octobre à décembre = 4
Pour les variables de type date et horaire :
Information temporelle Valeurs Nom de la variable générée
<NomDeLaVariable>_DoW
<NomDeLaVariable>_DoM
<NomDeLaVariable>_DoY
<NomDeLaVariable>_MoQ
<NomDeLaVariable>_M
<NomDeLaVariable>_Y
<NomDeLaVariable>_Q
Heure
Minute
Seconde
µ seconde
l'heure la minute la seconde la micro-seconde
<NomDeLaVariable>_H
<NomDeLaVariable>_Mi
<NomDeLaVariable>_S
<NomDeLaVariable>_mu
Les variables générées apparaîtront dans les résultats du modèle qui listent les variables, tels que la
Contributions des variables
, les
Détails des variables
, les
rapports de modélisation
, ainsi que dans la fonction de sélection automatique des variables.
3.6.4 Rôles des variables
Dans la modélisation de données, les variables peuvent avoir trois rôles. Elles peuvent être :
variables cibles,
variables explicatives,
variables de poids.
31
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Variable cible
Définition
Une variable cible est une variable que vous cherchez à expliquer ou dont vous souhaitez prédire les valeurs dans un jeu de données d'application. Elle correspond à votre problématique métier.
Quand la variable cible est une variable binaire, SAP InfiniteInsight ® considère que la valeur cible, ou catégorie cible, de cette variable (c'est-à-dire la valeur qui fait l'objet de l'analyse) est la valeur la moins fréquente dans le jeu de données d’apprentissage. Imaginons un jeu de données d'apprentissage contenant des informations sur les clients d'une entreprise et contenant la variable cible "a répondu à mon mailing". Cette variable cible a pour valeurs "Oui" ou "Non". Si la valeur "Oui" est la valeur la moins représentée (par exemple, si 40% des clients référencés ont répondu au mailing), SAP InfiniteInsight de la variable cible.
® considère cette valeur comme catégorie cible
Synonymes
Selon votre profil et votre domaine d'expertise, vous pouvez être habitué à employer l'un des termes suivants pour référer aux variables cibles :
variables à expliquer,
variables dépendantes,
variables de sortie.
Ces termes sont synonymes.
Exemple
Votre entreprise commercialise deux produits A et B.
Vous possédez une base de données dans laquelle sont référencés :
1500 de vos clients. Vous savez quel produit, produit A ou produit B, a acheté chaque client.
10000 prospects. Vous souhaitez savoir quel produit est susceptible d'acheter chaque prospect.
La variable "produit acheté" est votre variable cible : elle correspond à votre problématique. Elle est :
connue sur le jeu de données d'apprentissage (dans notre exemple, les clients),
inconnue sur le jeu de données d'application (dans notre exemple, les prospects).
Les fonctionnalités SAP InfiniteInsight ® vous permettent de modéliser cette variable cible, et donc de prédire quel produit est susceptible d'acheter chacun de vos prospects.
La table suivante représente votre base de données.
Nom
Charles
Jean
Maryline
Age Lieu d'habitation Catégorie socioprofessionnelle
34
37
31
Marseille
Paris
Melun cadre cadre fonctionnaire
Produit acheté
Produit A
Produit A
Produit B
32
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Prospect 1
Prospect 2
...
Prospect n
34
24
...
35
Lille
Paris
...
Bordeaux cadre fonctionnaire
... ouvrier spécialisé
?
?
...
?
Contraintes d'utilisation
Une variable cible présente les contraintes d'utilisation suivantes :
dans un jeu de données d'apprentissage, toutes les valeurs de la variable cible doivent être connues.
seules les variables binaires ou continues peuvent être utilisées comme variable cible.
33
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Variable explicative
Définition
Une variable explicative est une variable qui décrit vos données et qui sert à expliquer une variable cible.
Synonymes
Selon votre profil et votre domaine d'expertise, vous pouvez être habitué à employer l'un des termes suivants pour référer aux variables explicatives :
variables causales,
variables indépendantes,
variables d'entrée.
Ces termes sont synonymes.
Exemple
Nom
Charles
Jean
Marilyne
Prospect 1
Prospect 2
...
Prospect n
Votre entreprise commercialise deux produits A et B.
Vous possédez une base de données dans laquelle sont référencés :
1500 de vos clients. Vous savez quel produit, produit A ou produit B, a acheté chaque client.
10000 prospects. Vous souhaitez savoir quel produit est susceptible d'acheter chaque prospect.
Les variables "Nom", "Âge", "Adresse" et "catégorie socioprofessionnelle" sont vos variables explicatives : elles permettent de générer un modèle capables d'expliquer et de prédire les valeur de variable cible "Produit acheté".
La table suivante représente votre base de données.
Age Adresse
34
24
...
35
34
37
31
Marseille
Paris
Melun
Lille
Paris
...
Bordeaux
Catégorie socioprofessionnelle
cadre cadre fonctionnaire cadre fonctionnaire
... ouvrier spécialisé
Produit acheté
?
?
...
?
Produit A
Produit A
Produit B
34
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Variable de poids
Définition
Une variable de poids permet d'attribuer un poids relatif à chacune des observations qu'elle décrit, et d'orienter le processus d'apprentissage en conséquence. Déclarer une variable comme variable de poids revient à faire un nombre de copies pour chacune des observations du jeu de données qui soit proportionnel à la valeur qu'elles possèdent pour cette variable.
Exemple
Imaginons un jeu de données dans lequel les observations correspondent à des personnes. Ces observations sont entre autres décrites par une variable "Age". Définir la variable "Age" comme variable de poids signifie que pour la génération du modèle, les individus ayant un âge plus élevé auront un poids plus fort que les individus ayant un âge moins élevé.
Contrainte d'utilisation
Seules les variables continues positives peuvent être utilisées comme variables de poids.
3.7 Modèles
Le terme "modèle" est fréquemment utilisé et son sens dépend de son champ d'application. En Data Mining, un modèle permet de prédire et d'expliquer des phénomènes, ou de les décrire.
3.7.1 Définition générique
Le terme "modèle" a de nombreuses significations différentes selon le domaine d'application dans lequel il est utilisé. En Data Mining, un modèle décrit et explique les relations qui existent entre des données d'entrée
(variables explicatives) et des données de sortie (une ou plusieurs variables cibles). Il permet de prédire et d'expliquer un phénomène, ou de le décrire.
D'après George E.P. Box "
Tous les modèles sont mauvais, mais certains peuvent être utiles
".
Note
Citation de "Robustness is the Strategy of Scientific Model Building" in
R.L. Launer and G.N. Wilkinson, 1979, Academic Press.
Robustness in Statistics. eds.
,
35
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.7.2 Performance d'un modèle
Un modèle performant possède à la fois :
un bon pouvoir explicatif, c'est-à-dire une bonne capacité à expliquer la variable cible. Ce pouvoir explicatif est indiqué par l'indicateur de qualité KI.
une bonne robustesse, c'est-à-dire une bonne capacité à conserver les mêmes performances sur de nouveaux jeux de données contenant des observations de la même nature que ceux du jeu de données d'apprentissage. Ce pouvoir explicatif est indiqué par l'indicateur de robustesse KR.
3.7.3 Types de modèles
En Data Mining, il existe deux types de modèles :
les modèles prédictifs et explicatifs, qui permettent de prédire et d'expliquer des phénomènes,
les modèles descriptifs, qui permettent de décrire des jeux de données.
3.7.4 Génération d'un modèle
Le modèle est généré pendant une phase dite "d'apprentissage". Un modèle est généré sur la base d'un jeu de données d'apprentissage.
Selon le cas, ce jeu de données doit être découpé en trois sous-jeux :
un sous-jeu d'estimation,
un sous-jeu de validation,
un sous-jeu de test.
Une stratégie de découpage détermine la manière dont les données du jeu d'apprentissage sont distribuées dans les sous-jeux.
Remarque
Les sous-jeux de données sont virtuels : ils ne sont à aucun moment stockés en mémoire. Le fichier correspondant au jeu de données initial reste intact à tout moment.
36
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Le schéma suivant illustre le processus de génération d'un modèle, également appelé "phase d'apprentissage".
3.7.5 Représentation d'un modèle
Un modèle peut être représenté entre autres sous la forme :
d'un arbre de décision,
d'un réseau de neurones,
d'une fonction mathématique.
Dans SAP InfiniteInsight ® , les modèles sont représentés sous la forme de fonctions mathématiques, et plus exactement de polynômes.
Description du polynôme
Un polynôme peut être de degré 1, 2, 3 ou plus. En définissant l'ordre du polynôme, vous définissez le degré de complexité du modèle.
Exemples de polynômes
Un polynôme d'ordre 1 est de la forme : f(X1, X2, ..., Xn) = w0 + w1.X1 + w2.X2 + ... + wn.Xn
Un polynôme d'ordre 2 est de la forme : f(X1, X2, ..., Xn) = w0 + w1.X1 + w2.X2 + ... + wn.Xn + w11X1.X1 + w12.X1.X2 + w13.X1.X3
+ ... + wij.Xi.Xj
37
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Méthodologie
Dans la grande majorité des cas, un degré 1 est suffisant pour générer un modèle pertinent et robuste.
Un ordre de polynôme élevé ne garantit pas toujours l'obtention de résultats meilleurs que ceux obtenus avec un polynôme d'ordre 1. De plus, plus vous sélectionnez un ordre de polynôme élevé et plus :
le temps nécessaire pour générer le modèle correspondant est important,
le temps nécessaire pour appliquer le modèle à de nouveaux jeux de données est important,
les résultats de la modélisation sont difficiles à interpréter.
Le choix de tel ou tel ordre pour le polynôme dépend de la nature des données à analyser. La méthodologie conseillée est de :
générer en premier lieu un modèle ayant un degré d'ordre 1. Dans la grande majorité des cas, ce degré est suffisant pour garantir un modèle pertinent et robuste.
tester les résultats obtenus avec des modèles de degré supérieur, si les performances du modèle de degré 1 semblent insuffisantes.
3.7.6 Validation d'un modèle
Une fois le modèle généré, vous devez vérifier sa validité en observant les indicateurs de performance :
la capacité prédictive vous permet de connaître le pouvoir explicatif du modèle, c'est-à-dire sa capacité à expliquer les valeurs de la variable cible sur le jeu de données d'apprentissage. Un modèle parfait possède une capacité prédictive égale à 1 et un modèle purement aléatoire possède une capacité prédictive égale à 0.
la reproductibilité vous permet de connaître le degré de robustesse du modèle, c'est-à-dire sa capacité à conserver le même pouvoir explicatif sur un nouveau jeu de données. En d'autres mots, le degré de robustesse correspond à la capacité prédictive du modèle sur un jeu de données d'application.
Pour savoir comment sont calculés la capacité prédictive et la reproductibilité, voir Capacité prédictive, reproductibilité et courbes de profit
Remarque
La validation du modèle est une phase primordiale dans le processus global de Data Mining. Accordez toujours une importance majeure aux valeurs obtenues pour la capacité prédictive et la reproductibilité d'un modèle.
38
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.7.7 Dans quels cas un modèle est-il acceptable
Reproductibilité : indicateur de robustesse acceptable
Un modèle possédant une reproductibilité inférieure à 0.95 doit être considéré avec précaution. Les performances d'un tel modèle ont de fortes chances de varier entre le jeu de données d'apprentissage et les jeux de données d'application.
Capacité prédictive : indicateur de qualité acceptable
Aucun seuil minimum n'est requis pour le pouvoir prédictif d'un modèle. Tout dépend de votre contexte métier, c'est-à-dire de votre domaine d'application, de la nature de vos données et de votre problématique.
Dans certains cas, un modèle possédant une capacité prédictive de seulement 0,1 peut permettre de réaliser un profit équivalent à plusieurs milliers d'euros. Dans tous les cas, une capacité prédictive positive indique que le modèle généré est plus performant qu'un modèle de type aléatoire, et permet donc de réaliser un profit.
3.7.8 Comment obtenir un meilleur modèle
Obtenir un meilleur modèle consiste :
soit à améliorer la reproductibilité du modèle,
soit à améliorer la capacité prédictive du modèle,
soit à améliorer à la fois la capacité prédictive et la reproductibilité du modèle.
Plusieurs techniques permettent d'améliorer ces indicateurs :
vous pouvez augmenter le degré de complexité du modèle (ordre du polynôme).
le tableau suivant présente d'autres techniques.
Pour améliorer... Vous pouvez...
la
capacité prédictive
d'un modèle la
reproductibilité
d'un modèle
ajouter des variables dans le jeu de données d'apprentissage
effectuer des combinaisons de variables explicatives qui vous semblent pertinentes ajouter des observations dans le jeu de données d'apprentissage
Remarque
Pour plus d'informations sur l'amélioration de la capacité prédictive et de la reproductibilité, consultez l'aide contextuelle de SAP InfiniteInsight ® .
39
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.8 Indicateurs de performance
3.8.1 Indicateurs spécifiques à SAP InfiniteInsight®
Deux indicateurs vous permettent de connaître la performance d'un modèle.
la capacité prédictive (KI), qui est l'indicateur de qualité,
la reproductibilité (KR), qui est l'indicateur de robustesse.
La capacité prédictive : indicateur de qualité
Définition
La capacité prédictive est l'indicateur de qualité des modèles générés par SAP InfiniteInsight d'expliquer.
® . Cet indicateur correspond au taux d'information contenu dans la variable cible que les variables explicatives permettent
Exemple
Un modèle possédant une capacité prédictive égale à :
"0,79" est capable d'expliquer 79% de l'information contenue dans la variable cible grâce aux variables explicatives contenues dans le jeu de données analysé.
"1" est un hypothétique modèle parfait, capable d'expliquer 100% de la variable cible grâce aux variables explicatives contenues dans le jeu de données analysé. Dans la réalité, une telle capacité prédictive indique généralement qu'une variable 100% corrélée à la variable cible n'a pas été exclue du jeu de données analysé.
"0" est un modèle purement aléatoire.
Améliorer la capacité prédictive d'un modèle
Pour améliorer la capacité prédictive d'un modèle, de nouvelles variables peuvent être ajoutées au jeu de données d'apprentissage. Des combinaisons de variables explicatives peuvent également être effectuées.
40
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
La reproductibilité : indicateur de robustesse
Définition
La reproductibilité est l'indicateur de robustesse des modèles générés par SAP InfiniteInsight données présentant les mêmes attributs que le jeu de données d'apprentissage.
® . Elle indique la capacité d'un modèle à conserver les mêmes performances dans le cas où il est appliqué à un nouveau jeu de
Exemple
Un modèle possédant une reproductibilité:
égale à "0,98" est très robuste. Il possède une forte capacité de généralisation.
inférieure à "0,95" devrait être considéré avec précaution. Son application sur un nouveau jeu de données présenterait le risque de générer des résultats douteux.
Améliorer la reproductibilité d'un modèle
Pour améliorer la reproductibilité d'un modèle, des lignes d'observations peuvent être ajoutées au jeu de données d'apprentissage.
Capacité prédictive, reproductibilité et courbe de profit
Sur le graphique des courbes de profit :
du jeu de données d'estimation (graphique par défaut), la capacité prédictive correspond au rapport entre "la surface se trouvant entre la courbe du modèle généré et celle du modèle aléatoire" et "la surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire". Ainsi plus la courbe du modèle généré se rapproche de la courbe du modèle parfait, plus la capacité prédictive se rapproche de 1.
des jeux de données d'estimation, de validation et de test (sélectionnez l'option correspondante dans la liste
Jeu de données
, située sous le graphique), la reproductibilité correspond à 1 moins le rapport entre la
"surface se trouvant entre la courbe du jeu d'estimation et celle du jeu de validation" et la "surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire".
Pour plus d'informations sur les courbes de profit, voir Les courbes de profit.
41
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Utilisation avancée : la capacité prédictive pour des cibles continues
1
En travaillant avec le jeu de données de validation, utilisez un codage uniforme basé sur la courbe de distribution pour mapper les valeurs cible dans l’intervalle [-1;1].
La courbe est différente pour chaque sous-jeu de données. Vous pouvez accéder à cette courbe par l’arbre des paramètres dans la section UniformCurvePoints.
2
Triez les valeurs cibles normalisées et générez le graphe wizard à partir des sommes cumulatives. Pour diminuer le nombre de calculs tout en conservant une bonne approximation, utilisez 20 segments.
3
Triez à nouveau par valeurs estimées et générez encore une fois le graphe des distributions cumulatives des valeurs actuelles (graphe de validation).
4
Comme toujours, la capacité prédictive représente le ratio entre la zone du wizard et la zone de validation.
La capacité prédictive repose alors sur l’ordre des valeurs estimées et cet ordre est comparé aux réelles cibles continues. En conséquence, elle est plus robuste que les indicateurs L1 (l’erreur absolue moyenne) ou L2
(l’erreur quadratique moyenne, l’erreur racine carrée de l'erreur quadratique moyenne ou le coefficient de
Pearson) souvent utilisés pour la régression, car une cible erronée ne peut pas diminuer la capacité prédictive globale (mais constitue une des causes principales pour l’instabilité de tous les autres indicateurs). De l’autre côté, la capacité prédictive ne prend pas en compte les valeurs estimées par rapport aux valeurs cible.
C’est-à-dire qu'un modèle avec des valeurs estimées dans l’intervalle [-2;2] peut obtenir une très bonne capacité prédictive, même si les cibles réelles se trouvent dans l’intervalle [0;100], pourvu que le modèle ait trouvé l’ordre correct entre les valeurs estimées et les cibles réelles. La technologie InfiniteInsight ® limite cet effet en offrant une recalibration linéaire par morceau des valeurs estimées vers les cibles réelles basées sur les statistiques du jeu de données de validation. Ainsi vous n’obtenez pas seulement de bonnes estimations de l’ordre mais également de bonnes estimations de l’intervalle.
3.8.2 Autres indicateurs
Trois autres indicateurs, communément utilisé en Data Mining, sont fournis pour évaluer la qualité d'un modèle SAP InfiniteInsight ® :
le GINI index,
le K-S,
le AUC.
GINI index
L'index GIN I est une mes ure de l a c apacit é prédicti ve d'un modèl e qui r epos e s ur la c our be de Lor enz. Il est proportionnel à l a s uperfici e entr e l a c our be al éat oire et l a c ourbe du modèl e.
L'axe horiz ontal augmente en même t emps que l e sc ore et peut êtr e ass ocié à 1-f .
La formule correspondante est :
42
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
K-S
Le K-S est le critère de Kolmogorov-Smirnov appliqué comme mesure de la déviation par rapport aux taux de réponse uniformes pour les catégories d'une variable. K-S est un test d'ajustement non paramétrique qui repose sur la déviation maximale entre les fonctions de distribution cumulative et empirique.
Dans le cas d'un classement binaire, ce qui intéresse les utilisateurs c'est la différence entre la courbe de
Lorenz pour les cas positifs '1α '
courbe de Lorenz pour les cas négatifs ' β ' (voir à la
temps entre 0 et 1, et le K-S est la déviation maximale entre ces deux courbes. Lorsqu'on a un système parfait, le K-S est égal à 1, et lorsque le système est aléatoire le K-S est égal à 0, à cause de l'égalité entre les deux courbes.
Conseil
Le K-S est utilisé pour calculer la différence entre deux distributions afin d'avoir une meilleur idée de la qualité du jeu de données.
3.8.3 Indicateurs d'erreurs
Quelques précisions préalables :
Cible (valeur de réponse) :
Prédicteur (prédicteur des valeurs de résponse) :
Résidu :
Erreur :
Poids des observations testées :
Poids total de la population :
Cible moyenne :
Prédicteur moyen :
43
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Erreur absolue moyenne (L1)
Définition : moyenne arithmétique des valeurs absolues des écarts (distance Manhattan ou City block)
Formule :
Erreur quadratique moyenne (L2)
Définition : racine carré de la moyenne arithmétique des carrés des écarts (l’importance des grosses erreurs est majorée) (distance Euclidienne)
Formule :
Erreur maximale (LInf)
Définition : écart maximum (distance de Chebyshev)
Formule :
Erreur moyenne (ErrorMean)
Définition : moyenne arithmétique des écarts
Formule :
Erreur moyenne en pourcentage (MPE) :
44
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Erreur moyenne absolue en pourcentage (MAPE) :
Ecart-type de l'erreur (ErrorStdDev)
Définition : dispersion des erreurs autour du résultat réel
Formule : où
Taux de classement (ClassificationRate)
Définition : rapport entre le nombre d’enregistrements classifiés correctement et le nombre total d’enregistrements
Formule :
Coefficient de détermination (R2)
Définition : rapport entre la variabilité des prédictions (somme des carrés expliqués) et la variabilité des données (somme des carrés totaux)
Formule :
45
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.9 Types de profit
3.9.1 Définition
Un type de profit permet de calculer le profit réalisable grâce à l'utilisation d'un modèle. De manière générale, un bénéfice est associé aux valeurs souhaitées (ou attendues) de la variable cible et un coût est associé à ses valeurs non souhaitées (ou non attendues). Par exemple, dans le cadre d'une campagne d'envois publicitaires, une personne se voit associée à :
un bénéfice si elle répond à l'envoi publicitaire,
un coût si elle ne répond pas l'envoi publicitaire.
3.9.2 Les quatre types de profit
Pour visualiser le profit réalisable grâce à un modèle généré avec SAP InfiniteInsight
®
, vous pouvez utiliser les quatre types de profit suivants :
Détecté,
Lift,
Normalisé,
Personnalisé.
Le profit détecté
Le profit détecté est le type de profit proposé par défaut. Il permet de visualiser le pourcentage d'observations appartenant à la catégorie cible de la variable cible, c'est-à-dire la catégorie la moins fréquente, en fonction du taux d'observations sélectionné sur la totalité du jeu de données. Avec ce profit :
la valeur "0" est affectée aux observations n'appartenant pas à la catégorie cible de la variable cible,
la valeur "1/ (fréquence de la catégorie cible de la variable cible dans le jeu de données)" est affectée aux observations appartenant à la cible.
Le profit Lift
Le profit Lift permet de visualiser la différence entre un modèle parfait (Wizard) et un modèle aléatoire et entre le modèle généré et un modèle aléatoire. Le modèle aléatoire sert de référence et est toujours égal à 1.
46
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Le profit normalisé
Le profit normalisé permet de visualiser l'apport du modèle généré par les fonctionnalités SAP InfiniteInsight par rapport à un modèle de type aléatoire, c'est-à-dire un modèle qui vous permettrait de sélectionner uniquement au hasard des observations dans votre base de données.
®
Ce profit est utilisé pour les graphiques de détail des variables, qui présentent l'importance de chacune des catégories d'une variable donnée par rapport à la variable cible.
Le profit personnalisé
Le profit personnalisé vous permet de définir vos propres valeurs de profit, c'est-à-dire d'associer à chaque valeur de la variable cible un coût et un bénéfice. Par exemple, vous pouvez définir le coût d'envoi d'un mailing et le gain apporté par la réponse à ce mailing.
3.10 Courbes avancées
En plus des courbes de profit décrites dans la section précédente, un ensemble de courbes avancées est proposé par SAP InfiniteInsight ® .
3.10.1 ROC
La courbe
ROC
( discrimination.
Receiver Operating Characteristic
) est dérivée de la théorie de détection du signal. Elle permet d'étudier les variations de la spécificité et de la sensitivité d'un test pour différentes valeurs du seuil de
La
Sensitivité
, qui apparaît sur l'axe des ordonnées, est la proportion de signaux trouvés qui ont été correctement identifiés (également appelés
vrais positifs
).
[1- la Spécificité]
, qui apparaît sur l'axe des abscisses, est la proportion de signaux incorrectement identifiés comme positifs (autrement dit les
faux positifs
)
47
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.10.2 Courbes de Lorenz
Lorenz "Bon"
La courbe
Lorenz "Bon"
affiche la proportion cumulative des signaux mal devinés (faux négatifs) trouvés dans les n% de scores les plus bas.
L'axe des ordonnées mesure
[1- Sensitivité]
, c'est-à-dire [1 - proportion de vrais positifs], ce qui
équivaut à la proportion des signaux manqués ou des opportunités perdues. Les données étant ordonnées de gauche à droite, des enregistrements les moins susceptibles d'être des signaux ceux les plus susceptibles de l'être, plus la courbe montre lentement, plus le modèle est sensible en terme de détection des signaux. La courbe du modèle parfait (en vert) augmente à partir du point de l'axe des abscisses correspondant à la proportion de non-signaux dans le jeu de données de validation.
Lorenz "Mauvais"
La courbe de
Lorenz 'Mauvais'
affiche la proportion cumulée de vrais négatifs (specificité) représentés par les x% scores les plus bas du modèle. Plus la courbe augmente rapidement, plus la fréquence de détection erronée est faible.
48
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
3.10.3 Courbes de densité
Les courbes de densité affiche la fonction de la densité de la variable peuvent aussi être vues comme la dérivée de la courbe de Lorenz.
Score
dans l'ensemble des signaux
(
Courbe de densité 'Bon'
) et dans l'ensemble des non-signaux (
Courbe de densité 'Mauvais'
). Ces courbes
La fonction estimée de la densité dans un groupe ou intervalle est égale à:
(nombre de signaux dans l'intervalle / nombre total de signaux) / longueur de l'intervalle
La longueur d'un intervalle est par définition sa borne supérieure moins sa borne inférieure.
Courbe de densité "Bon"
La
courbe de densité "Bon"
représente la distribution des scores du modèles pour les réponses positives.
Courbe de densité "Mauvais"
La
courbe de densité "Mauvais"
représente la distribution des scores du modèle pour les réponses négatives.
49
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Courbes avancées > Courbe de densité "Tous"
La
courbe de densité "Tous"
affiche à la fois les courbes de densité
"Bon"
et
"Mauvais"
, vous permettant ainsi de comparer les deux distributions.
3.10.4 Courbes de "Risque"
Good/Bad Odds
L'axe des abscisses représente le risque et l'axe des ordonnées la valeur du rapport bon/mauvais.
Le rapport bons/mauvais est égal à (1-p)/p , où p est défini comme étant la probabilité du risque.
50
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Probabilité du risque
L'axe des abscisses représente le risque et l'axe des y la valeur de probabilité de risque.
La probabilité du risque p est calculée pour chaque regroupement de score de risque comme suit : le nombre de "mauvais" divisé par le nombre d'enregistrements dans un regroupement.
Densité de la population
La densité de la population est calculée en se basant sur le nombre d'enregistrements de score de risque dans chaque regroupement de score de risque (20 par défaut).
51
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales
Risque 'tout'
Les courbes représentant le risque sont affichées sur un même graphe (à l'exception de la courbe
Log(Good/Bad Odds)).
Note
L'axe des ordonnées pour la courbe de probabilité se trouve sur la droite et que la courbe de population de densité et du Bon/Mauvais partagent le même axe des ordonnées à gauche.
52
CUSTOMER
© 2014 SAP AG or an SAP affiliate company. All rights reserved-
SAP InfiniteInsight® 7.0
Notions fondamentales

Публичная ссылка обновлена
Публичная ссылка на ваш чат обновлена.