3 Notions fondamentales. SAP 7.0

PDF

Документ

3 Notions fondamentales

Cette section présente les notions fondamentales relatives à l'utilisation de SAP InfiniteInsight ® .

Toutes ces notions sont présentées et mises en gras dans la section Vue d'ensemble de SAP InfiniteInsight ® qui décrit de manière générale le processus de génération d'un modèle à l'aide de SAP InfiniteInsight ® .

ANS CE CHAPITRE

Fonctionnement de SAP InfiniteInsight® : Vue d'ensemble.................................................................................. 18

Sources de données supportées .......................................................................................................................... 19

Jeu de données .................................................................................................................................................... 19

Stratégies de découpage ...................................................................................................................................... 20

Table de données ................................................................................................................................................. 26

Variables .............................................................................................................................................................. 27

Modèles ................................................................................................................................................................ 35

Indicateurs de performance .................................................................................................................................. 40

Types de profit ...................................................................................................................................................... 46

Courbes avancées ................................................................................................................................................ 47

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.1 Fonctionnement de SAP InfiniteInsight® : Vue d'ensemble

SAP InfiniteInsight ® vous permet de faire du Data Mining supervisé, c'est-à-dire de transformer vos données en connaissances, puis en action, en fonction d'une problématique métier.

SAP InfiniteInsight ® supporte différents formats de source données (fichiers "à plat", sources compatibles

ODBC, ...). Pour être exploitables par les fonctionnalités SAP InfiniteInsight

InfiniteInsight ®

® Explorer / Codeur des journaux d'événements ou

Explorer / Codeur de séquences.

® , les jeux de données à analyser doivent être présentés sous la forme d'une table de données

(voir à la page 26) unique, sauf dans les cas où

vous utilisez les fonctionnalités InfiniteInsight

Pour utiliser les fonctionnalités SAP InfiniteInsight ® , vous devez obligatoirement posséder un jeu de données d'apprentissage, contenant une variable cible dont toutes les valeurs sont renseignées. Vous pouvez ensuite appliquer le modèle généré à partir du jeu de données d'apprentissage sur un ou plusieurs jeux de données d'application.

Le jeu de données d'apprentissage est découpé en trois sous-jeux de données d'estimation, de validation et de test, grâce à une stratégie de découpage

(voir à la page 20).

Les différents types de variables

(voir à la page 27) continues, ordinales et nominales sont ensuite codés par

l'encodeur analytique d'SAP InfiniteInsight

, et les fonctionnalités InfiniteInsight

Explorer / Codeur de séquences et InfiniteInsight ® Explorer / Codeur des journaux d'événements dans le cas de données dynamiques. Avant de générer le modèle, vous devez :

 décrire les données. Un utilitaire intégré à SAP InfiniteInsight ® permet de générer automatiquement une description du jeu de données à analyser. Vous devez valider cette description, en vérifiant si le type et le format de stockage de chaque variable a été correctement identifié.

 définir le rôle des variables contenues dans le jeu de données à analyser. Vous sélectionnez au moins une variable Y comme variable cible, ou variable qui correspond à votre problématique. Les autres variables de la table de données sont dîtes variables explicatives : elles permettent de calculer la valeur de la variable cible dans un contexte donné. Elles peuvent également être utilisées comme variables de poids.

Pour plus d'informations sur le rôle des fonctionnalités, rendez vous dans la section Fonctionnement à la page

13.

Vous générez ensuite des modèles

(voir à la page 35), capables soit d'expliquer et de prédire un phénomène,

soit de décrire un jeu de données, dans les deux cas en fonction de la variable cible précédemment définie.

Cette phase est appelée phase d'apprentissage.

Une fois les modèles générés, vous pouvez visualiser et interpréter leur pertinence et leur robustesse grâce :

 aux indicateurs de performance

(voir à la page 40) : la capacité prédictive et la reproductibilité,

 différents graphiques, dont le graphique de la courbe de profit.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.2 Sources de données supportées

En standard, les fonctionnalités SAP InfiniteInsight ® supportent les sources de données suivantes :

 les fichiers "plats" (

flat files

) dont les données sont séparées par un élément séparateur, tels que les fichiers au format .

csv

(voir à la page 69) ou les fichiers .txt tabulés. Par exemple, le fichier exemple

Census01.csv

, utilisé pour les scénarios d'utilisation de InfiniteInsight ® Modeler / Régression ou

Classement et de InfiniteInsight

Modeler / Segmentation, est un fichier .csv.

 les sources de données compatibles ODBC.

Selon votre licence, vous pouvez également utiliser des fichiers SAS.

Une API permet également d'interfacer les fonctionnalités SAP InfiniteInsight spécifique doit être développée pour chaque nouvelle source.

® avec n'importe quelle application (SPSS, Microsoft Excel, etc.), et ainsi d'accéder à n'importe quelle source de données. Une .dll

Remarque

Pour des informations sur le formatage des données, et notamment pour connaître la liste exacte des sources compatibles ODBC supportées, voir le document Data Modeling Specification.

3.3 Jeu de données

3.3.1 Jeu de données d'apprentissage

Un jeu de données d'apprentissage est un jeu de données utilisé pour la génération d'un modèle. Dans ce jeu, les valeurs de la variable cible

(voir à la page 32) - ou variable correspondant à votre problématique - sont

connues. En analysant le jeu de données d'apprentissage, les fonctionnalités SAP InfiniteInsight ® modèle qui permet d'expliquer la variable cible, grâce aux variables explicatives.

génèrent un

Pour permettre la validation du modèle généré, le jeu de données d'apprentissage est découpé en trois sous-jeux grâce à une stratégie de découpage

(voir à la page 20).

Le jeu de données d'apprentissage peut correspondre soit à une partie exhaustive de votre base de données, soit à un échantillon extrait de celle-ci. Le choix dépend du type d'étude à réaliser, des outils utilisés et du budget alloué à l'étude.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.3.2 Jeu de données d'application

Un jeu de données d'application est un jeu de données sur lequel vous appliquez un modèle. Ce jeu de données contient une variable cible dont vous souhaitez connaître la valeur.

Le modèle appliqué sur un jeu de données d'application a été préalablement généré à partir d'un jeu de données d'apprentissage. Le jeu de données d'application doit contenir exactement les mêmes informations que le jeu de données d'apprentissage correspondant, c'est-à-dire :

 le même nombre de variables,

 les mêmes types de variables,

 le même ordre de présentation pour ces variables.

Attention

Le jeu de données d'application doit contenir une variable cible correspondant à celle du jeu de données d'apprentissage. Cette remarque est valable dans tous les cas, même si les valeurs de cette variable cible ne sont pas renseignées. Quand ces valeurs sont renseignées, elles peuvent servir à détecter d'éventuelles observations déviantes

(outliers

3.4 Stratégies de découpage

3.4.1 Définition

Une stratégie de découpage est une technique qui permet de décomposer un jeu de données d'apprentissage en trois sous-jeux distincts :

 un sous-jeu d'estimation,

 un sous-jeu de validation,

 un sous-jeu de test.

Ce découpage permet une validation croisée des modèles générés.

Il existe neuf types de stratégies de découpage.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.4.2 Rôles des trois sous-jeux

Le tableau suivant définit le rôle des trois sous-jeux de données obtenus à l'aide des stratégies de découpages.

L'ensemble de données Est utilisé pour...

estimation

validation générer différents modèles. Les modèles générés à ce stade sont hypothétiques sélectionner le meilleur modèle parmi ceux générés à partir du sous-jeu d'estimation, c'est-à-dire celui qui constitue le meilleur compromis entre un modèle ayant une qualité parfaite et un modèle ayant une robustesse parfaite. vérifier la performance du modèle sélectionné sur un nouveau jeu de données. test

Pour comprendre le rôle des stratégies de découpage dans le processus de génération d'un modèle, voir le schéma Génération d'un modèle.

3.4.3 Les types de stratégies de découpage

Pour générer vos modèles, vous pouvez utiliser deux types stratégies de découpage :

 la stratégie de découpage personnalisée,

 les stratégies de découpage automatiques.

La stratégie de découpage personnalisée

Définition

La stratégie de découpage personnalisée vous permet de définir vos propres sous-jeux de données. Pour l'utiliser, vous devez préparer au préalable (avant de lancer les fonctionnalités SAP InfiniteInsight sous-jeux correspondant aux sous-jeux d'estimation, de validation et de test.

® ) trois

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Comment l'utiliser

Avant de démarrer SAP InfiniteInsight ® votre choix. Par exemple :

, découpez votre fichier de données initial en trois fichiers de la taille de

 le premier fichier peut contenir les 1500 premières observations ou lignes de votre fichier de données initial,

 le deuxième fichier, ses observations 1501 à 3000,

 le troisième fichier, ses observations 3001 à 5000.

Avertissement

La stratégie de découpage personnalisée peut s'avérer risquée dans le cas d'un fichier initial dans lequel les données sont triées. En effet, les premières lignes ne sont alors plus représentatives de l'ensemble des données contenues dans le fichier initial. Pour éviter ce genre de biais, n'oubliez pas de brasser vos données préalablement à leur analyse.

Les stratégies de découpage automatique

Généralités

A l'exception de la stratégie de découpage personnalisée, les stratégies de découpage sont automatiques. Les stratégies de découpage automatiques travaillent sur un fichier de données unique, que constitue votre jeu de données initial.

Les stratégies de découpage automatiques découpent toujours le jeu de données initial dans les mêmes proportions. Le tableau ci-dessous détaille les proportions attribuées à chaque sous-jeu de données, selon la présence ou non d'un sous-jeu de test.

Stratégies de découpage automatiques avec test

Stratégies de découpage automatiques sans test



3/5 des données sont utilisées dans le sous-jeu d'estimation



1/5 des données sont utilisées dans le sous-jeu de validation



1/5 des données sont utilisées dans le sous-jeu de test



3/4 des données sont utilisées dans le sous-jeu d'estimation,



1/4 des données sont utilisées dans le sous-jeu de validation

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Stratégie de découpage aléatoire

Cette stratégie distribue les données du jeu de données initial de manière aléatoire dans les trois sous-jeux d'estimation, de validation et de test.

Aléatoire avec test à la fin

Cette stratégie distribue :

 les 4/5 du jeu de données initial de manière aléatoire dans les 2 sous-jeux d'estimation et de validation.

Cette distribution respecte les proportions habituelles : 3/5 de ces 4/5 sont distribués dans le sous-jeu d'estimation, et 1/5 dans le sous-jeu de validation.

 le dernier 1/5 du jeu de données initial en une fois dans le sous-jeu de test.

Cette stratégie est utile dans le cas où :

 l'alimentation de votre base de données répond à une évolution bien définie, qui détermine un ordonnancement chronologique des données dans la base,

 vous souhaitez prendre en compte cet ordonnancement pour la génération du modèle.

Par exemple, imaginez que :

 de nouveaux clients sont référencés tous les mois dans votre base de données,

 vous savez que les jeux de données sur lesquels vous appliquerez le modèle, une fois généré, auront de fortes chances de ressembler à la partie la plus récente de votre base de données, c'est-à-dire celle contenant les derniers clients référencés.

Grâce à la stratégie de découpage aléatoire avec test à la fin, vous testez alors le modèle généré sur la partie de votre base de données qui a le plus de chances de ressembler à l'état de vos futurs jeux de données d'applications.

Aléatoire sans test (stratégie par défaut)

Cette stratégie est la stratégie de découpage proposée par défaut. Elle distribue l'intégralité des données initiales de façon aléatoire entre les sous-jeux d'estimation et de validation.



3/4 du jeu de données initial sont attribués au sous-jeu de données d'estimation,



1/4 du jeu de données initial est attribué au sous-jeu de données de validation.

Etant donné qu'aucun sous-jeu de données de test n'est utilisé, toutes les données de votre jeu de données d'apprentissage peuvent être utilisées pour les sous-jeux d'estimation et de validation. Ce qui peut permettre d'augmenter la qualité et la robustesse du modèle.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Périodique

Cette stratégie suit le cycle de distribution suivant :

Trois lignes du jeu de données initial sont distribuées dans le sous-jeu d'estimation.

Une ligne est distribuée dans le sous-jeu de validation.

Une ligne est distribuée dans le sous-jeu de test.

La distribution reprend à l'étape

Périodique avec test à la fin

Cette stratégie distribue :

 les 4/5 du jeu de données initial de manière périodique dans les 2 sous-jeux d'estimation et de validation.

Cette distribution respecte les proportions habituelles. 3/5 de ces 4/5 sont distribués dans le sous-jeu d'estimation et 1/5 dans le sous-jeu de validation.

 le dernier 1/5 du jeu de données initial d'un bloc dans le sous-jeu de test.

En d'autres mots, la stratégie suit le cycle de distribution suivant :

Trois lignes des premiers 4/5 du jeu de données initial sont distribuées dans le sous-jeu d'estimation.

Une ligne des premiers 4/5 du jeu de données initial est distribuée dans le sous-jeu de validation.

a. Si la totalité des premiers 4/5 du jeu de données initial ne sont pas encore distribués, la distribution reprend à l'étape

. b. Si la totalité des premiers 4/5 du jeu de données initial sont distribués, la distribution passe à l'étape

Le dernier 1/5 du jeu de données initial est distribué d'un bloc dans le sous-jeu de test.

Périodique sans test

Cette stratégie de découpage distribue l'intégralité du jeu de données initial de façon périodique entre les sous-jeux de données d'estimation et de validation :



3/4 du jeu de données initial sont attribués au sous-jeu d'estimation,



1/4 du jeu de données initial est attribué au sous-jeu de validation.

En d'autres mots, la stratégie suit le cycle de distribution suivant :

Trois lignes du jeu de données initial sont distribuées dans le sous-jeu d'estimation.

Une ligne est distribuée dans le sous-jeu de validation.

La distribution reprend à l'étape

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Séquentielle

Cette stratégie découpe le jeu de données initial en trois blocs, correspondant aux proportions de découpage habituelles :

 les lignes correspondant aux premiers 3/5 du jeu de données initial sont distribuées d'un bloc dans le jeu de données d'estimation,

 les lignes correspondant aux 1/5 suivant du jeu de données initial sont distribuées d'un bloc dans le jeu de données de validation,

 les lignes correspondant aux derniers 1/5 du jeu de données initial sont distribuées d'un bloc dans le jeu de données de test.

Séquentielle sans test

Cette stratégie découpe le jeu de données initial en deux blocs, correspondant aux proportions de découpage habituelles lorsqu'il n'y a pas de sous-jeu de test :

 les lignes correspondant aux premiers 3/4 du jeu de données initial sont distribuées d'un bloc dans le jeu de données d'estimation,

 les lignes correspondant au dernier 1/4 du jeu de données initial sont distribuées d'un bloc dans le jeu de données de validation.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.5 Table de données

3.5.1 Définition

Une table de données est un ensemble de données présentées sous la forme d'un tableau à deux dimensions.

Dans cette table :

 chaque ligne représente une observation à traiter, soit dans le fichier exemple

Census01.csv

un américain.

 chaque colonne représente une variable qui décrit les observations, soit dans notre exemple "l'âge" ou le

"sexe" des individus américains.

 chaque cellule, soit l'intersection d'une colonne et d'une ligne, représente la valeur de la variable en colonne pour l'observation en ligne.

Le tableau suivant donne un exemple de table de données.

Observations

Observation a

Observation b

...

Observation n

Variable 1

Valeur a1

Valeur b1

...

Valeur n1

Variable 2

Valeur a2

Valeur b2

...

Valeur n2

Variable 3

Valeur a3

Valeur b3

...

Valeur n3

3.5.2 Synonymes de "observations" et "variables"

Selon votre profil et votre domaine d'expertise, vous pouvez être habitué à employer d'autres termes pour référer aux observations (en lignes) et variables (en colonnes) des tables de données.

Le tableau suivant présente ces termes. Ils sont tous synonymes.

Termes équivalents au terme "Observation"

Ligne

Enregistrement

Table

Evénement

Cas

Exemple

Termes équivalents au terme "Variable"

Colonne

Attribut

Champ

Propriété

3.5.3 Formatage des données

Quelle que soit la source de données utilisée, les deux contraintes suivantes doivent être respectées :

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

 les données doivent être représentées sous la forme d'une table, unique sauf dans les cas où vous utilisez les fonctionnalités InfiniteInsight ® Explorer / Codeur des journaux d'événements ou InfiniteInsight ®

Explorer / Codeur de séquences. .

 la variable cible doit être renseignée pour chaque observation de la table. Dans le fichier exemple

Census01.csv

, la variable "class" a été renseignée pour chaque individu.

Remarque

Pour des informations sur le formatage des données, et notamment pour connaître la liste exacte des sources compatibles ODBC supportées, voir le document Data Modeling Specification.

3.6 Variables

3.6.1 Définition générique

Une variable correspond à un attribut qui décrit les observations stockées dans votre base de données. Dans les fonctionnalités SAP InfiniteInsight ® , une variable est définie par :

 un type,

 un format de stockage,

 un rôle.

Exemple

Dans une base de données contenant des informations sur vos clients, le "nom" et "l'adresse" de ces clients, par exemple, sont des variables.

3.6.2 Types de variables

Il existe trois types de variables :

 les variables continues,

 les variables ordinales,

 les variables nominales.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Variables continues

Définition

Les variables continues sont des variables dont les valeurs sont numériques continues et ordonnées. Des opérations arithmétiques peuvent être effectuées sur ces valeurs, telles que la somme ou la moyenne.

Exemple

La variable "Salaire" est une variable numérique. Elle peut prendre les valeurs suivantes : "1200 Euros",

"2000 Euros", ou "2035 Euros". Par exemple, la moyenne de ces valeurs peut être calculée.

Variables continues et modélisation

Lors d'une modélisation, une variable continue peut être découpée en tranches significatives.

Variables ordinales

Définition

Les variables ordinales sont des variables dont les valeurs sont discrètes, c'est-à-dire appartenant à des catégories, et ordonnées. Les variables ordinales peuvent être :

 numériques, c'est-à-dire avoir pour valeurs des nombres ( l'ordre numérique naturel (0, 1, 2, etc.).

number

).. Elles sont alors ordonnées selon

 textuelles, c'est-à-dire avoir pour valeurs des chaîne de caractères ( manière alphabétique.

string

). Elles sont alors ordonnées de

Exemple

La variable "note scolaire" est une variable ordinale. L'ensemble des valeurs que cette variable peut prendre constituent bien des catégories distinctes et ordonnées. Cette variable peut être :

 numérique, si elle prend des valeurs comprises entre "0" et "20",

 textuelle, si elle prend les valeurs A, B, C, D, E et F.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Attention

Une variable "appréciation" ayant pour valeurs "un peu", "beaucoup" et "passionnément" ne peut pas

être traitée directement par les fonctionnalités SAP InfiniteInsight ® comme si elle était une variable ordinale. L'ordre obtenu serait en effet l'ordre alphabétique ("beaucoup", "passionnément", puis "un peu"), et ne serait plus en phase avec les différents degrés d'appréciation correspondant aux valeurs de cette variable. Quand l'ordre des valeurs d'une variable nominale est important, la variable doit donc être codée, soit en lettres soit en chiffres, avant de pouvoir être utilisée par SAP InfiniteInsight

Variables nominales

Définition

Les variables nominales sont des variables dont les valeurs sont discrètes, c'est-à-dire appartenant à des catégories, et non ordonnées.

Les variables nominales peuvent être :

 numériques, c'est-à-dire avoir pour valeurs des nombres (

number

 textuelles, c'est-à-dire avoir pour valeurs des chaînes de caractères (

string

Attention

Les variables binaires sont considérées comme des variables nominales.

Exemple

La variable "Code postal" est une variable nominale. L'ensemble des valeurs que cette variable peut prendre ("36000", "75000", "93000", etc.) constituent bien des catégories distinctes non ordonnées et représentées par des nombres.

La variable "Couleur des yeux" est une variable nominale. L'ensemble des valeurs que cette variable peut prendre ("bleu", "marron", "noir", etc.) constituent bien des catégories distinctes non ordonnées et représentées par des chaînes de caractères.

Variables nominales et modélisation

Lors d'une modélisation, les valeurs des variables catégoriques sont regroupées en catégories homogènes.

Les catégories sont ensuite ordonnées en fonction de l'importance de leur contribution par rapport aux valeurs de la variable cible.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.6.3 Formats de stockage

Pour décrire les données, SAP InfiniteInsight ® utilise plusieurs types de formats de stockage :

 date,

 datetime (date et horaire),

 number (nombre),

 integer (entier),

 string (chaine de caractères).

Le tableau suivant décrit ces formats de stockages.

Le format de stockage...

date datetime number integer string

Est utilisé pour décrire les variables dont les valeurs correspondent à... Par exemple...

des dates exprimées dans les formats suivants :



AAAA-MM-JJ



AAAA/MM/JJ



"2001-11-30"

"1999/04/28" des dates et heures exprimées dans les formats suivants :



AAAA-MM-JJ HH:MN:SS



AAAA/MM/JJ HH:MN:SS



"2001-11-30 14:08:17"

"1999/04/28 07:21:58" des chiffres, ou valeurs numériques, sur lesquelles peuvent

être effectuées des opérations

 la variable "salaire", en Euros : "1000.00",

"1593" et "2000.54" des chiffres, ou valeurs numériques entiers, sur lesquelles peuvent être effectuées des opérations

 la variable "âge", en années : "21", "34" et

"99" des chaînes de caractères alphanumériques  la variable "nom de famille : "Dupond",

"Martin" et "Dumoulin"



la variable "profession" : "professeur",

"ingénieur" et "traducteur"

 la variable "téléphone" : "01 41 44 88 44" et

"01 41 44 94 79"

Remarque

Une variable ayant pour valeurs des chiffres ne doit pas nécessairement être décrite par le format de stockage number. Par exemple, les variables "téléphone" et "code postal" doivent être décrites avec le format de stockage string, car aucune opération arithmétique n'ayant de sens ne peut être effectuée sur leurs valeurs. De même, une variable qui servirait d'identifiant pour les observations d'une table et qui dépasserait le format de nombre supporté pourrait être décrite par le format de stockage string.

Attention

Pour le format de stockage number, le séparateur de valeurs décimales utilisé doit être un point, et non une virgule. Ainsi, la valeur "6.5" peut être traitée mais non la valeur "6,5".

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Variables de date : les variables générées automatiquement

Lorsque votre jeu de données contient des variables de type date ou date et horaire la fonctionnalité de codage des dates extrait automatiquement des informations de date de ces variables. KDC extrait les informations temporelles suivantes.

Pour les variables de type date ou date et horaire :

Information temporelle Valeurs Nom de la variable générée

Jour de la semaine

selon la norme ISO : lundi=0 et dimanche=6

Jour du mois

de 1 à 31

Jour de l'année

Mois du trimestre

de 1 à 366

 janvier, avril, juillet et octobre = 1

 février, mai, août et novembre = 2

 mars, juin, septembre et décembre = 3 de 1 à 12

Mois de l'année

Année

l'année en quatre chiffre

Trimestre

 janvier à mars = 1

 avril à juin = 2

 juillet à septembre = 3

 octobre à décembre = 4

Pour les variables de type date et horaire :

Information temporelle Valeurs Nom de la variable générée

<NomDeLaVariable>_DoW

<NomDeLaVariable>_DoM

<NomDeLaVariable>_DoY

<NomDeLaVariable>_MoQ

<NomDeLaVariable>_M

<NomDeLaVariable>_Y

<NomDeLaVariable>_Q

Heure

Minute

Seconde

µ seconde

l'heure la minute la seconde la micro-seconde

<NomDeLaVariable>_H

<NomDeLaVariable>_Mi

<NomDeLaVariable>_S

<NomDeLaVariable>_mu

Les variables générées apparaîtront dans les résultats du modèle qui listent les variables, tels que la

Contributions des variables

, les

Détails des variables

, les

rapports de modélisation

, ainsi que dans la fonction de sélection automatique des variables.

3.6.4 Rôles des variables

Dans la modélisation de données, les variables peuvent avoir trois rôles. Elles peuvent être :

 variables cibles,

 variables explicatives,

 variables de poids.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Variable cible

Définition

Une variable cible est une variable que vous cherchez à expliquer ou dont vous souhaitez prédire les valeurs dans un jeu de données d'application. Elle correspond à votre problématique métier.

Quand la variable cible est une variable binaire, SAP InfiniteInsight ® considère que la valeur cible, ou catégorie cible, de cette variable (c'est-à-dire la valeur qui fait l'objet de l'analyse) est la valeur la moins fréquente dans le jeu de données d’apprentissage. Imaginons un jeu de données d'apprentissage contenant des informations sur les clients d'une entreprise et contenant la variable cible "a répondu à mon mailing". Cette variable cible a pour valeurs "Oui" ou "Non". Si la valeur "Oui" est la valeur la moins représentée (par exemple, si 40% des clients référencés ont répondu au mailing), SAP InfiniteInsight de la variable cible.

® considère cette valeur comme catégorie cible

Synonymes

Selon votre profil et votre domaine d'expertise, vous pouvez être habitué à employer l'un des termes suivants pour référer aux variables cibles :

 variables à expliquer,

 variables dépendantes,

 variables de sortie.

Ces termes sont synonymes.

Exemple

Votre entreprise commercialise deux produits A et B.

Vous possédez une base de données dans laquelle sont référencés :



1500 de vos clients. Vous savez quel produit, produit A ou produit B, a acheté chaque client.



10000 prospects. Vous souhaitez savoir quel produit est susceptible d'acheter chaque prospect.

La variable "produit acheté" est votre variable cible : elle correspond à votre problématique. Elle est :

 connue sur le jeu de données d'apprentissage (dans notre exemple, les clients),

 inconnue sur le jeu de données d'application (dans notre exemple, les prospects).

Les fonctionnalités SAP InfiniteInsight ® vous permettent de modéliser cette variable cible, et donc de prédire quel produit est susceptible d'acheter chacun de vos prospects.

La table suivante représente votre base de données.

Nom

Charles

Jean

Maryline

Age Lieu d'habitation Catégorie socioprofessionnelle

Marseille

Paris

Melun cadre cadre fonctionnaire

Produit acheté

Produit A

Produit B

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Prospect 1

Prospect 2

...

Prospect n

...

Lille

Paris

...

Bordeaux cadre fonctionnaire

... ouvrier spécialisé

...

Contraintes d'utilisation

Une variable cible présente les contraintes d'utilisation suivantes :

 dans un jeu de données d'apprentissage, toutes les valeurs de la variable cible doivent être connues.

 seules les variables binaires ou continues peuvent être utilisées comme variable cible.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Variable explicative

Définition

Une variable explicative est une variable qui décrit vos données et qui sert à expliquer une variable cible.

Synonymes

Selon votre profil et votre domaine d'expertise, vous pouvez être habitué à employer l'un des termes suivants pour référer aux variables explicatives :

 variables causales,

 variables indépendantes,

 variables d'entrée.

Ces termes sont synonymes.

Exemple

Nom

Charles

Jean

Marilyne

Prospect 1

Prospect 2

...

Prospect n

Votre entreprise commercialise deux produits A et B.

Vous possédez une base de données dans laquelle sont référencés :



1500 de vos clients. Vous savez quel produit, produit A ou produit B, a acheté chaque client.



10000 prospects. Vous souhaitez savoir quel produit est susceptible d'acheter chaque prospect.

Les variables "Nom", "Âge", "Adresse" et "catégorie socioprofessionnelle" sont vos variables explicatives : elles permettent de générer un modèle capables d'expliquer et de prédire les valeur de variable cible "Produit acheté".

La table suivante représente votre base de données.

Age Adresse

...

Marseille

Paris

Melun

Lille

Paris

...

Bordeaux

Catégorie socioprofessionnelle

cadre cadre fonctionnaire cadre fonctionnaire

... ouvrier spécialisé

Produit acheté

...

Produit A

Produit B

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Variable de poids

Définition

Une variable de poids permet d'attribuer un poids relatif à chacune des observations qu'elle décrit, et d'orienter le processus d'apprentissage en conséquence. Déclarer une variable comme variable de poids revient à faire un nombre de copies pour chacune des observations du jeu de données qui soit proportionnel à la valeur qu'elles possèdent pour cette variable.

Exemple

Imaginons un jeu de données dans lequel les observations correspondent à des personnes. Ces observations sont entre autres décrites par une variable "Age". Définir la variable "Age" comme variable de poids signifie que pour la génération du modèle, les individus ayant un âge plus élevé auront un poids plus fort que les individus ayant un âge moins élevé.

Contrainte d'utilisation

Seules les variables continues positives peuvent être utilisées comme variables de poids.

3.7 Modèles

Le terme "modèle" est fréquemment utilisé et son sens dépend de son champ d'application. En Data Mining, un modèle permet de prédire et d'expliquer des phénomènes, ou de les décrire.

3.7.1 Définition générique

Le terme "modèle" a de nombreuses significations différentes selon le domaine d'application dans lequel il est utilisé. En Data Mining, un modèle décrit et explique les relations qui existent entre des données d'entrée

(variables explicatives) et des données de sortie (une ou plusieurs variables cibles). Il permet de prédire et d'expliquer un phénomène, ou de le décrire.

D'après George E.P. Box "

Tous les modèles sont mauvais, mais certains peuvent être utiles

Note

Citation de "Robustness is the Strategy of Scientific Model Building" in

R.L. Launer and G.N. Wilkinson, 1979, Academic Press.

Robustness in Statistics. eds.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.7.2 Performance d'un modèle

Un modèle performant possède à la fois :

 un bon pouvoir explicatif, c'est-à-dire une bonne capacité à expliquer la variable cible. Ce pouvoir explicatif est indiqué par l'indicateur de qualité KI.

 une bonne robustesse, c'est-à-dire une bonne capacité à conserver les mêmes performances sur de nouveaux jeux de données contenant des observations de la même nature que ceux du jeu de données d'apprentissage. Ce pouvoir explicatif est indiqué par l'indicateur de robustesse KR.

3.7.3 Types de modèles

En Data Mining, il existe deux types de modèles :

 les modèles prédictifs et explicatifs, qui permettent de prédire et d'expliquer des phénomènes,

 les modèles descriptifs, qui permettent de décrire des jeux de données.

3.7.4 Génération d'un modèle

Le modèle est généré pendant une phase dite "d'apprentissage". Un modèle est généré sur la base d'un jeu de données d'apprentissage.

Selon le cas, ce jeu de données doit être découpé en trois sous-jeux :

 un sous-jeu d'estimation,

 un sous-jeu de validation,

 un sous-jeu de test.

Une stratégie de découpage détermine la manière dont les données du jeu d'apprentissage sont distribuées dans les sous-jeux.

Remarque

Les sous-jeux de données sont virtuels : ils ne sont à aucun moment stockés en mémoire. Le fichier correspondant au jeu de données initial reste intact à tout moment.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Le schéma suivant illustre le processus de génération d'un modèle, également appelé "phase d'apprentissage".

3.7.5 Représentation d'un modèle

Un modèle peut être représenté entre autres sous la forme :

 d'un arbre de décision,

 d'un réseau de neurones,

 d'une fonction mathématique.

Dans SAP InfiniteInsight ® , les modèles sont représentés sous la forme de fonctions mathématiques, et plus exactement de polynômes.

Description du polynôme

Un polynôme peut être de degré 1, 2, 3 ou plus. En définissant l'ordre du polynôme, vous définissez le degré de complexité du modèle.

Exemples de polynômes

Un polynôme d'ordre 1 est de la forme : f(X1, X2, ..., Xn) = w0 + w1.X1 + w2.X2 + ... + wn.Xn

Un polynôme d'ordre 2 est de la forme : f(X1, X2, ..., Xn) = w0 + w1.X1 + w2.X2 + ... + wn.Xn + w11X1.X1 + w12.X1.X2 + w13.X1.X3

+ ... + wij.Xi.Xj

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Méthodologie

Dans la grande majorité des cas, un degré 1 est suffisant pour générer un modèle pertinent et robuste.

Un ordre de polynôme élevé ne garantit pas toujours l'obtention de résultats meilleurs que ceux obtenus avec un polynôme d'ordre 1. De plus, plus vous sélectionnez un ordre de polynôme élevé et plus :

 le temps nécessaire pour générer le modèle correspondant est important,

 le temps nécessaire pour appliquer le modèle à de nouveaux jeux de données est important,

 les résultats de la modélisation sont difficiles à interpréter.

Le choix de tel ou tel ordre pour le polynôme dépend de la nature des données à analyser. La méthodologie conseillée est de :

 générer en premier lieu un modèle ayant un degré d'ordre 1. Dans la grande majorité des cas, ce degré est suffisant pour garantir un modèle pertinent et robuste.

 tester les résultats obtenus avec des modèles de degré supérieur, si les performances du modèle de degré 1 semblent insuffisantes.

3.7.6 Validation d'un modèle

Une fois le modèle généré, vous devez vérifier sa validité en observant les indicateurs de performance :

 la capacité prédictive vous permet de connaître le pouvoir explicatif du modèle, c'est-à-dire sa capacité à expliquer les valeurs de la variable cible sur le jeu de données d'apprentissage. Un modèle parfait possède une capacité prédictive égale à 1 et un modèle purement aléatoire possède une capacité prédictive égale à 0.

 la reproductibilité vous permet de connaître le degré de robustesse du modèle, c'est-à-dire sa capacité à conserver le même pouvoir explicatif sur un nouveau jeu de données. En d'autres mots, le degré de robustesse correspond à la capacité prédictive du modèle sur un jeu de données d'application.

Pour savoir comment sont calculés la capacité prédictive et la reproductibilité, voir Capacité prédictive, reproductibilité et courbes de profit

à la page 228.

Remarque

La validation du modèle est une phase primordiale dans le processus global de Data Mining. Accordez toujours une importance majeure aux valeurs obtenues pour la capacité prédictive et la reproductibilité d'un modèle.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.7.7 Dans quels cas un modèle est-il acceptable

Reproductibilité : indicateur de robustesse acceptable

Un modèle possédant une reproductibilité inférieure à 0.95 doit être considéré avec précaution. Les performances d'un tel modèle ont de fortes chances de varier entre le jeu de données d'apprentissage et les jeux de données d'application.

Capacité prédictive : indicateur de qualité acceptable

Aucun seuil minimum n'est requis pour le pouvoir prédictif d'un modèle. Tout dépend de votre contexte métier, c'est-à-dire de votre domaine d'application, de la nature de vos données et de votre problématique.

Dans certains cas, un modèle possédant une capacité prédictive de seulement 0,1 peut permettre de réaliser un profit équivalent à plusieurs milliers d'euros. Dans tous les cas, une capacité prédictive positive indique que le modèle généré est plus performant qu'un modèle de type aléatoire, et permet donc de réaliser un profit.

3.7.8 Comment obtenir un meilleur modèle

Obtenir un meilleur modèle consiste :

 soit à améliorer la reproductibilité du modèle,

 soit à améliorer la capacité prédictive du modèle,

 soit à améliorer à la fois la capacité prédictive et la reproductibilité du modèle.

Plusieurs techniques permettent d'améliorer ces indicateurs :

 vous pouvez augmenter le degré de complexité du modèle (ordre du polynôme).

 le tableau suivant présente d'autres techniques.

Pour améliorer... Vous pouvez...

capacité prédictive

d'un modèle la

reproductibilité

d'un modèle

 ajouter des variables dans le jeu de données d'apprentissage

 effectuer des combinaisons de variables explicatives qui vous semblent pertinentes ajouter des observations dans le jeu de données d'apprentissage

Remarque

Pour plus d'informations sur l'amélioration de la capacité prédictive et de la reproductibilité, consultez l'aide contextuelle de SAP InfiniteInsight ® .

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.8 Indicateurs de performance

3.8.1 Indicateurs spécifiques à SAP InfiniteInsight®

Deux indicateurs vous permettent de connaître la performance d'un modèle.

 la capacité prédictive (KI), qui est l'indicateur de qualité,

 la reproductibilité (KR), qui est l'indicateur de robustesse.

La capacité prédictive : indicateur de qualité

Définition

La capacité prédictive est l'indicateur de qualité des modèles générés par SAP InfiniteInsight d'expliquer.

® . Cet indicateur correspond au taux d'information contenu dans la variable cible que les variables explicatives permettent

Exemple

Un modèle possédant une capacité prédictive égale à :



"0,79" est capable d'expliquer 79% de l'information contenue dans la variable cible grâce aux variables explicatives contenues dans le jeu de données analysé.



"1" est un hypothétique modèle parfait, capable d'expliquer 100% de la variable cible grâce aux variables explicatives contenues dans le jeu de données analysé. Dans la réalité, une telle capacité prédictive indique généralement qu'une variable 100% corrélée à la variable cible n'a pas été exclue du jeu de données analysé.



"0" est un modèle purement aléatoire.

Améliorer la capacité prédictive d'un modèle

Pour améliorer la capacité prédictive d'un modèle, de nouvelles variables peuvent être ajoutées au jeu de données d'apprentissage. Des combinaisons de variables explicatives peuvent également être effectuées.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

La reproductibilité : indicateur de robustesse

Définition

La reproductibilité est l'indicateur de robustesse des modèles générés par SAP InfiniteInsight données présentant les mêmes attributs que le jeu de données d'apprentissage.

® . Elle indique la capacité d'un modèle à conserver les mêmes performances dans le cas où il est appliqué à un nouveau jeu de

Exemple

Un modèle possédant une reproductibilité:



égale à "0,98" est très robuste. Il possède une forte capacité de généralisation.

 inférieure à "0,95" devrait être considéré avec précaution. Son application sur un nouveau jeu de données présenterait le risque de générer des résultats douteux.

Améliorer la reproductibilité d'un modèle

Pour améliorer la reproductibilité d'un modèle, des lignes d'observations peuvent être ajoutées au jeu de données d'apprentissage.

Capacité prédictive, reproductibilité et courbe de profit

Sur le graphique des courbes de profit :

 du jeu de données d'estimation (graphique par défaut), la capacité prédictive correspond au rapport entre "la surface se trouvant entre la courbe du modèle généré et celle du modèle aléatoire" et "la surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire". Ainsi plus la courbe du modèle généré se rapproche de la courbe du modèle parfait, plus la capacité prédictive se rapproche de 1.

 des jeux de données d'estimation, de validation et de test (sélectionnez l'option correspondante dans la liste

Jeu de données

, située sous le graphique), la reproductibilité correspond à 1 moins le rapport entre la

"surface se trouvant entre la courbe du jeu d'estimation et celle du jeu de validation" et la "surface se trouvant entre la courbe du modèle parfait et celle du modèle aléatoire".

Pour plus d'informations sur les courbes de profit, voir Les courbes de profit.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Utilisation avancée : la capacité prédictive pour des cibles continues

En travaillant avec le jeu de données de validation, utilisez un codage uniforme basé sur la courbe de distribution pour mapper les valeurs cible dans l’intervalle [-1;1].

La courbe est différente pour chaque sous-jeu de données. Vous pouvez accéder à cette courbe par l’arbre des paramètres dans la section UniformCurvePoints.

Triez les valeurs cibles normalisées et générez le graphe wizard à partir des sommes cumulatives. Pour diminuer le nombre de calculs tout en conservant une bonne approximation, utilisez 20 segments.

Triez à nouveau par valeurs estimées et générez encore une fois le graphe des distributions cumulatives des valeurs actuelles (graphe de validation).

Comme toujours, la capacité prédictive représente le ratio entre la zone du wizard et la zone de validation.

La capacité prédictive repose alors sur l’ordre des valeurs estimées et cet ordre est comparé aux réelles cibles continues. En conséquence, elle est plus robuste que les indicateurs L1 (l’erreur absolue moyenne) ou L2

(l’erreur quadratique moyenne, l’erreur racine carrée de l'erreur quadratique moyenne ou le coefficient de

Pearson) souvent utilisés pour la régression, car une cible erronée ne peut pas diminuer la capacité prédictive globale (mais constitue une des causes principales pour l’instabilité de tous les autres indicateurs). De l’autre côté, la capacité prédictive ne prend pas en compte les valeurs estimées par rapport aux valeurs cible.

C’est-à-dire qu'un modèle avec des valeurs estimées dans l’intervalle [-2;2] peut obtenir une très bonne capacité prédictive, même si les cibles réelles se trouvent dans l’intervalle [0;100], pourvu que le modèle ait trouvé l’ordre correct entre les valeurs estimées et les cibles réelles. La technologie InfiniteInsight ® limite cet effet en offrant une recalibration linéaire par morceau des valeurs estimées vers les cibles réelles basées sur les statistiques du jeu de données de validation. Ainsi vous n’obtenez pas seulement de bonnes estimations de l’ordre mais également de bonnes estimations de l’intervalle.

3.8.2 Autres indicateurs

Trois autres indicateurs, communément utilisé en Data Mining, sont fournis pour évaluer la qualité d'un modèle SAP InfiniteInsight ® :

 le GINI index,

 le K-S,

 le AUC.

GINI index

L'index GIN I est une mes ure de l a c apacit é prédicti ve d'un modèl e qui r epos e s ur la c our be de Lor enz. Il est proportionnel à l a s uperfici e entr e l a c our be al éat oire et l a c ourbe du modèl e.

L'axe horiz ontal augmente en même t emps que l e sc ore et peut êtr e ass ocié à 1-f .

La formule correspondante est :

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

K-S

Le K-S est le critère de Kolmogorov-Smirnov appliqué comme mesure de la déviation par rapport aux taux de réponse uniformes pour les catégories d'une variable. K-S est un test d'ajustement non paramétrique qui repose sur la déviation maximale entre les fonctions de distribution cumulative et empirique.

Dans le cas d'un classement binaire, ce qui intéresse les utilisateurs c'est la différence entre la courbe de

Lorenz pour les cas positifs '1α '

(voir à la page 48), et la

courbe de Lorenz pour les cas négatifs ' β ' (voir à la

page 48) lorsqu'on sélectionne une proportion croissante de la population. Ces courbes évoluent en même

temps entre 0 et 1, et le K-S est la déviation maximale entre ces deux courbes. Lorsqu'on a un système parfait, le K-S est égal à 1, et lorsque le système est aléatoire le K-S est égal à 0, à cause de l'égalité entre les deux courbes.

Conseil

Le K-S est utilisé pour calculer la différence entre deux distributions afin d'avoir une meilleur idée de la qualité du jeu de données.

3.8.3 Indicateurs d'erreurs

Quelques précisions préalables :



Cible (valeur de réponse) :



Prédicteur (prédicteur des valeurs de résponse) :



Résidu :



Erreur :



Poids des observations testées :



Poids total de la population :



Cible moyenne :



Prédicteur moyen :

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Erreur absolue moyenne (L1)

Définition : moyenne arithmétique des valeurs absolues des écarts (distance Manhattan ou City block)

Formule :

Erreur quadratique moyenne (L2)

Définition : racine carré de la moyenne arithmétique des carrés des écarts (l’importance des grosses erreurs est majorée) (distance Euclidienne)

Formule :

Erreur maximale (LInf)

Définition : écart maximum (distance de Chebyshev)

Formule :

Erreur moyenne (ErrorMean)

Définition : moyenne arithmétique des écarts

Formule :



Erreur moyenne en pourcentage (MPE) :

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales



Erreur moyenne absolue en pourcentage (MAPE) :

Ecart-type de l'erreur (ErrorStdDev)

Définition : dispersion des erreurs autour du résultat réel

Formule : où

Taux de classement (ClassificationRate)

Définition : rapport entre le nombre d’enregistrements classifiés correctement et le nombre total d’enregistrements

Formule :

Coefficient de détermination (R2)

Définition : rapport entre la variabilité des prédictions (somme des carrés expliqués) et la variabilité des données (somme des carrés totaux)

Formule :

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.9 Types de profit

3.9.1 Définition

Un type de profit permet de calculer le profit réalisable grâce à l'utilisation d'un modèle. De manière générale, un bénéfice est associé aux valeurs souhaitées (ou attendues) de la variable cible et un coût est associé à ses valeurs non souhaitées (ou non attendues). Par exemple, dans le cadre d'une campagne d'envois publicitaires, une personne se voit associée à :

 un bénéfice si elle répond à l'envoi publicitaire,

 un coût si elle ne répond pas l'envoi publicitaire.

3.9.2 Les quatre types de profit

Pour visualiser le profit réalisable grâce à un modèle généré avec SAP InfiniteInsight

, vous pouvez utiliser les quatre types de profit suivants :



Détecté,



Lift,



Normalisé,



Personnalisé.

Le profit détecté

Le profit détecté est le type de profit proposé par défaut. Il permet de visualiser le pourcentage d'observations appartenant à la catégorie cible de la variable cible, c'est-à-dire la catégorie la moins fréquente, en fonction du taux d'observations sélectionné sur la totalité du jeu de données. Avec ce profit :

 la valeur "0" est affectée aux observations n'appartenant pas à la catégorie cible de la variable cible,

 la valeur "1/ (fréquence de la catégorie cible de la variable cible dans le jeu de données)" est affectée aux observations appartenant à la cible.

Le profit Lift

Le profit Lift permet de visualiser la différence entre un modèle parfait (Wizard) et un modèle aléatoire et entre le modèle généré et un modèle aléatoire. Le modèle aléatoire sert de référence et est toujours égal à 1.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Le profit normalisé

Le profit normalisé permet de visualiser l'apport du modèle généré par les fonctionnalités SAP InfiniteInsight par rapport à un modèle de type aléatoire, c'est-à-dire un modèle qui vous permettrait de sélectionner uniquement au hasard des observations dans votre base de données.

Ce profit est utilisé pour les graphiques de détail des variables, qui présentent l'importance de chacune des catégories d'une variable donnée par rapport à la variable cible.

Le profit personnalisé

Le profit personnalisé vous permet de définir vos propres valeurs de profit, c'est-à-dire d'associer à chaque valeur de la variable cible un coût et un bénéfice. Par exemple, vous pouvez définir le coût d'envoi d'un mailing et le gain apporté par la réponse à ce mailing.

3.10 Courbes avancées

En plus des courbes de profit décrites dans la section précédente, un ensemble de courbes avancées est proposé par SAP InfiniteInsight ® .

3.10.1 ROC

La courbe

ROC

( discrimination.

Receiver Operating Characteristic

) est dérivée de la théorie de détection du signal. Elle permet d'étudier les variations de la spécificité et de la sensitivité d'un test pour différentes valeurs du seuil de

Sensitivité

, qui apparaît sur l'axe des ordonnées, est la proportion de signaux trouvés qui ont été correctement identifiés (également appelés

vrais positifs

[1- la Spécificité]

, qui apparaît sur l'axe des abscisses, est la proportion de signaux incorrectement identifiés comme positifs (autrement dit les

faux positifs

)

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.10.2 Courbes de Lorenz

Lorenz "Bon"

La courbe

Lorenz "Bon"

affiche la proportion cumulative des signaux mal devinés (faux négatifs) trouvés dans les n% de scores les plus bas.

L'axe des ordonnées mesure

[1- Sensitivité]

, c'est-à-dire [1 - proportion de vrais positifs], ce qui

équivaut à la proportion des signaux manqués ou des opportunités perdues. Les données étant ordonnées de gauche à droite, des enregistrements les moins susceptibles d'être des signaux ceux les plus susceptibles de l'être, plus la courbe montre lentement, plus le modèle est sensible en terme de détection des signaux. La courbe du modèle parfait (en vert) augmente à partir du point de l'axe des abscisses correspondant à la proportion de non-signaux dans le jeu de données de validation.

Lorenz "Mauvais"

La courbe de

Lorenz 'Mauvais'

affiche la proportion cumulée de vrais négatifs (specificité) représentés par les x% scores les plus bas du modèle. Plus la courbe augmente rapidement, plus la fréquence de détection erronée est faible.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

3.10.3 Courbes de densité

Les courbes de densité affiche la fonction de la densité de la variable peuvent aussi être vues comme la dérivée de la courbe de Lorenz.

Score

dans l'ensemble des signaux

(

Courbe de densité 'Bon'

) et dans l'ensemble des non-signaux (

Courbe de densité 'Mauvais'

). Ces courbes

La fonction estimée de la densité dans un groupe ou intervalle est égale à:

(nombre de signaux dans l'intervalle / nombre total de signaux) / longueur de l'intervalle

La longueur d'un intervalle est par définition sa borne supérieure moins sa borne inférieure.

Courbe de densité "Bon"

courbe de densité "Bon"

représente la distribution des scores du modèles pour les réponses positives.

Courbe de densité "Mauvais"

courbe de densité "Mauvais"

représente la distribution des scores du modèle pour les réponses négatives.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Courbes avancées > Courbe de densité "Tous"

courbe de densité "Tous"

affiche à la fois les courbes de densité

"Bon"

"Mauvais"

, vous permettant ainsi de comparer les deux distributions.

3.10.4 Courbes de "Risque"

Good/Bad Odds

L'axe des abscisses représente le risque et l'axe des ordonnées la valeur du rapport bon/mauvais.

Le rapport bons/mauvais est égal à (1-p)/p , où p est défini comme étant la probabilité du risque.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Probabilité du risque

L'axe des abscisses représente le risque et l'axe des y la valeur de probabilité de risque.

La probabilité du risque p est calculée pour chaque regroupement de score de risque comme suit : le nombre de "mauvais" divisé par le nombre d'enregistrements dans un regroupement.

Densité de la population

La densité de la population est calculée en se basant sur le nombre d'enregistrements de score de risque dans chaque regroupement de score de risque (20 par défaut).

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales

Risque 'tout'

Les courbes représentant le risque sont affichées sur un même graphe (à l'exception de la courbe

Log(Good/Bad Odds)).

Note

L'axe des ordonnées pour la courbe de probabilité se trouve sur la droite et que la courbe de population de densité et du Bon/Mauvais partagent le même axe des ordonnées à gauche.

CUSTOMER

SAP InfiniteInsight® 7.0

Notions fondamentales