Manuel du propriétaire | PALISADE NEURALTOOLS 5.5 Manuel utilisateur

Ajouter à Mes manuels
118 Des pages
Manuel du propriétaire | PALISADE NEURALTOOLS 5.5 Manuel utilisateur | Fixfr
Guide d’utilisation
NeuralTools
Compagnon de réseaux neuronaux
pour Microsoft Excel
®
Version 5.5
janvier, 2010
Palisade Corporation
798 Cascadilla St.
Ithaca, NY 14850
États-Unis
+1-607-277-8000
+1-607-277-8001 (fax)
http://www.palisade.com (site Web)
[email protected] (courriel)
Avis de copyright
Copyright © 2010, Palisade Corporation.
Marques déposées
Microsoft, Excel et Windows sont des marques déposées de Microsoft Corporation.
IBM est une marque déposée d’International Business Machines, Inc.
Palisade, TopRank, BestFit et RISKview sont des marques déposées de Palisade
Corporation.
Bienvenue à NeuralTools pour
Excel
Bienvenue
NeuralTools apporte à Microsoft Excel, l’étalon de l’analyse et de la
modélisation, un nouvel et puissant ensemble d’outils ! NeuralTools
est un complément Microsoft Excel de réseaux neuronaux. Il vous
permet d’analyser les données de vos feuilles de calcul Excel dans
l’environnement familier de Microsoft Excel. Combinaison d’un
puissant gestionnaire de données et d’algorithmes de réseaux
neuronaux à la pointe de la technologie, NeuralTools vous offre le
meilleur de deux mondes : la convivialité et les rapports de Microsoft
Office, unis aux prédictions solides et précises des réseaux neuronaux.
Environnement familier
Si vous savez utiliser Excel, vous saurez utiliser NeuralTools !
NeuralTools opère tout comme Excel, avec ses barres d’outils, ses
menus et ses fonctions de feuille de calcul personnalisées. Le tout
dans le contexte même d’Excel. Contrairement aux logiciels de
réseaux neuronaux autonomes, NeuralTools n’exige aucun
apprentissage intensif ni frais de formation initiaux, tout simplement
parce que le travail s’accomplit dans Excel. Les données et les
variables se trouvent dans vos feuilles de calcul Excel. Vous utilisez
vos formules de calcul Excel standard, ainsi que les tableaux croisés
dynamiques et de tri Excel. Les rapports et graphiques de vos
analyses sont au format Excel standard et répondent à toutes les
fonctions de formatage Excel.
Bienvenue à NeuralTools pour Excel
i
Analyses NeuralTools
Les réseaux neuronaux « apprennent » les rapports complexes entre
les données. En imitant les fonctions cérébrales, ils discernent les
motifs et tendances des données, et peuvent ensuite émettre, par
extrapolation, leurs prédictions sur les nouvelles données qui leur
sont soumises. Les réseaux neuronaux sont utiles à la résolution de
deux grands types de problèmes :
•
Problèmes de classification : Problèmes où l’on essaie de
déterminer le type de catégorie d’un élément inconnu. Par
exemple : diagnostics médicaux et prédiction de capacité de
remboursement de crédit.
•
Problèmes numériques :Situations dans lesquelles on doit
prédire un résultat numérique spécifique. Par exemple :
prévision de cours en bourse ou du c.a. d'une période future.
Les réseaux neuronaux sont utiles à de nombreuses et diverses
applications. Notamment : prédictions boursières, gestion du risque
de crédit, détection de la fraude au crédit, prévisions commerciales,
prévisions générales d’entreprise, risque de l’investissement,
diagnostic médical, recherche scientifique et systèmes de contrôle.
NeuralTools est doté des derniers algorithmes de réseaux neuronaux
en date, pour la résolution prédictive optimale des problèmes de
classification (dits de « prédiction de catégorie » dans NeuralTools) et
numériques.
ii
Bienvenue
Gestion des données NeuralTools
NeuralTools apporte un gestionnaire complet d'ensembles de
données et de variables dans Excel même, semblable à celui de
StatTools, le compagnon statistique Palisade pour Excel. Vous pouvez
définir un nombre quelconque d'ensembles de données avec, chacun,
les variables à analyser, directement depuis vos données Excel.
NeuralTools évalue intelligemment les blocs de données ; il suggère
les noms et types de variables, ainsi que les emplacements de
données. Vos ensembles de données et variables peuvent résider dans
des feuilles de calcul et classeurs différents. Vous pouvez ainsi
organiser vos données comme bon vous semble. Il suffit ensuite de
« former » des réseaux neuronaux faisant référence aux variables,
plutôt que de resélectionner chaque fois les données dans Excel.
Mieux encore, les variables de NeuralTools ne sont pas limitées à une
seule colonne de données dans une feuille de calcul Excel : la même
colonne peut être utilisée, pour une même variable, sur 255 feuilles de
calcul !
Bienvenue à NeuralTools pour Excel
iii
Rapports NeuralTools
Excel convient parfaitement à la production de rapports et de
graphiques. NeuralTools en tire excellemment parti. NeuralTools
utilise les formats graphiques d’Excel, dont les couleurs, les polices et
le texte peuvent être aisément personnalisés. Les titres des rapports,
les formats numériques et le texte peuvent être modifiés comme sur
une feuille de calcul Excel ordinaire. Les tableaux et graphiques des
rapports NeuralTools peuvent être transférés vers les documents
d'autres applications par simple glissement-déplacement.
NeuralTools Industrial inclut aussi une fonctionnalité de prédiction
en direct, où les valeurs prédites se calculent comme de nouvelles
données entrées dans la feuille de calcul Excel. Ce calcul en direct
s’effectue automatiquement, comme tout autre recalcul Excel.
Accès aux données et partage
Excel dispose d’excellentes fonctionnalités d’importation.
L'importation de données existantes dans NeuralTools en est d'autant
plus simple ! Il suffit d'utiliser les capacités Excel standard pour lire
les données originaires de Microsoft SQL Server, Oracle, Microsoft
Access ou toute autre base de données à compatibilité ODBC.
Données de fichiers texte ou d’autres applications ? Si Excel peut les
lire, NeuralTools les lira aussi !
NeuralTools enregistre tous ses résultats dans des classeurs Excel.
Comme tout autre fichier Excel, les résultats et réseaux NeuralTools
peuvent être envoyés à d'autres utilisateurs. Le partage ne pourrait
être plus simple !
NeuralTools - versions Professional et Industrial
NeuralTools est proposé en deux versions : Professional et Industrial.
Les différences entre les deux versions sont les suivantes :
iv
•
Les ensembles de données de la version Professional sont
limités à 1 000 cas, par rapport à 16 777 216 pour la version
Industrial.
•
La fonctionnalité de prédiction en direct, où les valeurs
prédites se calculent comme de nouvelles données entrées
dans la feuille de calcul Excel, n’est proposée que dans la
version Industrial. Ce calcul en direct s’effectue
automatiquement, comme tout autre recalcul Excel.
Bienvenue
Table des matières
Chapitre 1 : Mise en route
1
Introduction .........................................................................................3
Contenu du coffret ...................................................................................3
Éléments du progiciel..............................................................................3
À propos de cette version........................................................................3
Votre contexte d’exploitation.................................................................4
Si vous avez besoin d’aide......................................................................4
Configuration requise : ...........................................................................6
Installation ...........................................................................................7
Généralités ................................................................................................7
Configuration des icônes ou raccourcis NeuralTools........................8
DecisionTools Suite.................................................................................9
Activation du logiciel........................................................................11
Chapitre 2 : Présentation de NeuralTools
15
Introduction .......................................................................................17
Pourquoi les réseaux neuronaux ?.......................................................17
NeuralTools et les réseaux neuronaux ...............................................18
Menu et barre d’outils NeuralTools ...................................................19
Ensembles de données et Gestionnaire des ensembles ..................20
Formation d’un réseau neuronal .........................................................22
Test de réseau..........................................................................................27
Prédiction.................................................................................................29
Rapports et graphiques NeuralTools .................................................31
Utilitaires NeuralTools .........................................................................32
NeuralTools, StatTools, Solveur et Evolver ......................................32
Chapitre 3 : Guide de référence NeuralTools
35
Introduction .......................................................................................37
Référence : Icônes NeuralTools
39
Barre d’outils NeuralTools...............................................................39
Table des matières
v
Référence : Commandes du menu NeuralTools
41
Introduction ...................................................................................... 41
Icônes des boîtes de dialogue ............................................................. 42
Commandes...................................................................................... 43
Commande Gestionnaire des ensembles de données .................... 43
Commande Former................................................................................ 50
Commande Tester ................................................................................. 64
Commande Prédire ............................................................................... 72
Utilitaires ........................................................................................... 77
Commande Paramètres d’application................................................ 77
Commande Gestionnaire de réseaux neuronaux............................. 81
Commande Utilitaire Données manquantes.................................... 83
En savoir plus sur les réseaux neuronaux
87
Notions élémentaires ....................................................................... 87
Réseaux neuronaux vs méthodes statistiques.................................. 88
Structure de réseau neuronal .............................................................. 88
Prédiction numérique et catégorielle ................................................ 89
Formation d’un réseau.......................................................................... 89
Traitement informatique des réseaux neuronaux ........................... 89
Types de réseaux neuronaux ............................................................... 90
Réseaux feedforward à couches multiples (MLF) ........................ 91
Architecture MLF .................................................................................. 91
Formation de réseau MLF .................................................................... 93
Réseaux GRNN et PNN .................................................................... 97
Réseaux GRNN...................................................................................... 97
Réseaux PNN ....................................................................................... 100
Comparaison des réseaux MLF et PNN/GRNN ........................... 103
Transformation d’entrée................................................................ 105
Lectures recommandées............................................................... 107
Index
vi
109
Bienvenue
Chapitre 1 : Mise en route
Introduction .........................................................................................3
Contenu du coffret ...................................................................................3
Éléments du progiciel..............................................................................3
À propos de cette version........................................................................3
Votre contexte d’exploitation.................................................................4
Si vous avez besoin d’aide......................................................................4
Configuration requise : ...........................................................................6
Installation ...........................................................................................7
Généralités ................................................................................................7
Configuration des icônes ou raccourcis NeuralTools........................8
DecisionTools Suite.................................................................................9
Activation du logiciel........................................................................11
@RISK 4.5 Help System © Palisade Corporation, 1999
Chapitre 1 : Mise en route
1
2
Introduction
Cette introduction décrit le contenu de votre coffret NeuralTools et
vous indique comment installer et relier NeuralTools à votre copie de
Microsoft Excel 2000 pour Windows ou version supérieure.
Contenu du coffret
Le coffret NeuralTools doit contenir les éléments suivants :
le CD-ROM NeuralTools ou DecisionTools Suite , comportant
•
le programme NeuralTools
•
le didacticiel NeuralTools
•
le Guide de l’utilisateur NeuralTools (ce manuel) au format .PDF
•
la licence d’exploitation de NeuralTools
Si votre coffret est incomplet, prenez contact avec votre revendeur
NeuralTools ou appelez Palisade Corporation directement au
+1-607-277-8000.
Éléments du progiciel
NeuralTools peut être acheté en autonome ou dans le cadre des
versions DecisionTools Suite Professional et Industrial. Le CD-ROM
NeuralTools contient le complément Excel NeuralTools, plusieurs
exemples d’application de NeuralTools et un système d’aide
NeuralTools en ligne indexé. Les versions DecisionTools Suite
Professional et Industrial contiennent, en plus des éléments ci-dessus,
une série d’autres applications.
À propos de cette version
Cette version de NeuralTools peut être installée en tant que
programme 32 bits pour Microsoft Excel 2000 ou version ultérieure.
Chapitre 1 : Mise en route
3
Votre contexte d’exploitation
Les descriptions contenues dans ce guide présupposent une
connaissance générale du système d’exploitation Windows et du
tableur Excel, notamment :
•
familiarité avec l’ordinateur et la souris
• compréhension des termes icônes, cliquer, double-clic, menu, fenêtre,
commande, objet, etc.
• notions élémentaires de structure de répertoires et désignation
des fichiers
Si vous avez besoin d’aide
Un service d’assistance technique est proposé gratuitement à tous les
utilisateurs enregistrés de NeuralTools dotés d’un plan de
maintenance à jour, ou sur forfait à l’incident. Pour assurer que vous
êtes bien un utilisateur enregistré de NeuralTools, enregistrez-vous
en ligne sur http://www.palisade.com/support/register.asp.
Si vous nous contactez par téléphone, soyez prêt à nous communiquer
le numéro de série de vos outils et gardez votre guide d’utilisation à
portée de main. Nous pourrons vous être d’une meilleure assistance si
vous vous trouvez face à votre ordinateur, prêt à exécuter les
commandes du programme.
Avant d’appeler
4
Avant d’appeler le service d’assistance technique, passez en revue la
liste de contrôle suivante :
•
Avez-vous consulté l’aide en ligne ?
•
Avez-vous consulté ce manuel et passé en revue le didacticiel multimédia
en ligne ?
•
Avez-vous consulté le fichier LISEZMOI.WRI ? Il contient des
informations sur NeuralTools non disponibles lors de la composition
du manuel.
•
Pouvez-vous reproduire le problème de manière cohérente ? Pouvez-vous
reproduire le problème sur un autre ordinateur ou avec un autre
modèle ?
•
Avez-vous consulté notre site Web, à l’adresse
http://www.palisade.com ? Vous y trouverez notre dernier fichier
FAQ (base de données consultable de questions et réponses techniques)
et les correctifs NeuralTools dans la section de support technique. Il est
utile de consulter régulièrement notre site pour obtenir les dernières
informations publiées sur NeuralTools et sur les autres logiciels
Palisade.
Introduction
Contacter Palisade
Vos questions, commentaires ou suggestions relatifs à NeuralTools
sont les bienvenus ! Vous pouvez prendre contact avec notre
personnel d’assistance technique par l’une des méthodes suivantes :
•
Courriel : [email protected]
•
Téléphone : +1-607-277-8000, du lundi au vendredi, de 9 à 17 heures,
heure de l’Est des États-Unis. Suivez les instructions données pour
joindre l’Assistance technique (Technical Support).
•
Fax : +1-607-277-8001
•
Adresse postale :
Technical Support
Palisade Corporation
798 Cascadilla St.
Ithaca, NY 14850 USA
Palisade Europe :
•
Courriel : [email protected]
•
Téléphone : +44 1895 425050 (Royaume-Uni)
•
Fax : +44 1895 425051 (Royaume-Uni).
•
Adresse postale :
Palisade Europe
31 The Green
West Drayton
Middlesex
UB7 7PN
Royaume-Uni
Palisade Asie-Pacifique :
•
Courriel : [email protected]
•
Téléphone : +61 2 9929 9799 (Australie)
•
Fax : +61 2 9954 3882 (Australie)
•
Adresse postale :
Palisade Asia-Pacific Pty Limited
Suite 101, Level 1
8 Cliff Street
Milsons Point NSW 2061
Australie
Quelle que soit la méthode choisie, veillez à indiquer le nom de votre
produit, sa version et son numéro de série. La version exacte de votre
produit est indiquée sous la commande Aide, À propos de… du
menu NeuralTools proposé dans Excel.
Chapitre 1 : Mise en route
5
Versions étudiants
L’assistance téléphonique n’est pas disponible pour la version
étudiants de NeuralTools. Si vous avez besoin d’aide, procédez de
l’une des manières suivantes :
♦
Consultez votre professeur ou assistant.
♦
Consultez le fichier FAQ sur http://www.palisade.com.
♦
Adressez-vous au service d’assistance technique par courriel ou par
fax.
Configuration requise :
Configuration requise pour l’installation de NeuralTools 5.5 pour
Microsoft Excel pour Windows :
6
•
PC Pentium ou mieux avec disque dur.
•
Microsoft Windows 2000 SP4, Windows XP ou mieux.
•
Microsoft Excel 2000 ou mieux.
Introduction
Installation
Généralités
Le programme d’installation copie les fichiers système NeuralTools
dans un répertoire spécifié du disque dur.
Sous Windows 2000 ou version ultérieure :
1) Insérez le CD-ROM NeuralTools ou DecisionTools Suite dans le lecteur
CD-ROM.
2) Cliquez sur le bouton Démarrer, puis sur Paramètres et enfin sur
Panneau de configuration.
3) Cliquez deux fois sur l’icône Ajout/Suppression de programmes.
4) Cliquez sur le bouton Installer de l’onglet Installation/désinstallation.
5) Suivez les instructions d’installation affichées à l’écran.
En cas de problème, vérifiez que vous disposez d’un espace suffisant
sur le disque prévu pour l’installation. Après avoir libéré l’espace
disque requis, essayez de réexécuter l’installation.
Suppression de
NeuralTools de
l’ordinateur
Pour désinstaller NeuralTools, utilisez l’utilitaire Ajout/Suppression
de programmes du Panneau de configuration et sélectionnez l’entrée
correspondant à NeuralTools.
Chapitre 1 : Mise en route
7
Configuration des icônes ou raccourcis
NeuralTools
Création du
raccourci sur la
barre des tâches
Windows
Sous Windows, l’installation crée automatiquement une commande
NeuralTools dans le menu Programmes\Palisade DecisionTools de la
barre des tâches. Si toutefois vous rencontrez des problèmes en cours
d’installation ou que vous souhaitez exécuter cette opération
ultérieurement, procédez comme suit : Remarquez que les
instructions ci-dessous concernent Windows XP Professional. Celles
applicables aux autres systèmes d’exploitation varieront peut-être.
1) Cliquez sur le bouton Démarrer et pointez sur Paramètres.
2) Cliquez sur Barre des tâches et Menu Démarrer, puis sur l’onglet
Menu Démarrer.
3) Cliquez sur Personnaliser, Ajouter, puis sur Parcourir.
4) Repérez le fichier NeuralTools.EXE, cliquez dessus puis sur OK.
5) Cliquez une fois sur Suivant, puis deux fois sur le menu de votre
choix.
6) Tapez le nom « NeuralTools » et cliquez sur Terminer.
7) Cliquez sur OK dans toutes les boîtes de dialogue ouvertes.
8
Installation
DecisionTools Suite
NeuralTools fait partie des outils d’analyse du risque et de décision
DecisionTools Suite, de Palisade Corporation. L’installation par
défaut de NeuralTools place le programme dans un sous-répertoire
du répertoire principal « Program Files\Palisade », de la même
manière qu’Excel s’installe généralement dans un sous-répertoire du
répertoire « Microsoft Office ».
Ce sous-répertoire de Program Files\Palisade devient le répertoire
NeuralTools (appelé, par défaut, NeuralTools5). Ce répertoire
contient le fichier programme du compagnon NeuralTools
(NEURALTOOLS.XLA), plus les modèles types et les autres fichiers
nécessaires à l’exécution de NeuralTools. Un autre sous-répertoire de
Program Files\Palisade, intitulé SYSTEM, reçoit les fichiers
nécessaires à tous les programmes de la série DecisionTools Suite, y
compris les fichiers d’aide et bibliothèques communs.
Chapitre 1 : Mise en route
9
10
Activation du logiciel
L’activation est une opération de vérification de licence exigée, une
seule fois, pour l’exploitation de votre logiciel sous pleine
autorisation. Votre code d’activation (séquence de type « 19a0-c7c115ef-1be0-4d7f-cd ») figure sur la facture qui vous a été envoyée par
courrier ou par courriel. Si vous entrez ce code au moment de
l’installation, votre logiciel s’active dès la première exécution et
aucune autre intervention n’est nécessaire. Pour activer le logiciel
après l’installation, choisissez la commande Activation de licence
dans le menu d’aide de NeuralTools et entrez votre code d’activation
dans la boîte de dialogue d’activation qui s’affiche.
Foire aux questions
1) Que se passera-t-il si mon logiciel n’est pas activé ?
Si vous n’entrez pas de code d’activation lors de l’installation ou que
vous installez une version d’essai, votre logiciel s’exécutera en tant
que tel et sera soumis aux limites de temps/nombre d’ouvertures
applicables. Pour disposer d’un logiciel sous licence pleinement
autorisée, vous devrez l’activer sous le code d’activation approprié.
2) Pendant combien de temps puis-je utiliser le logiciel avant de
l’activer ?
Le logiciel non activé s’exécute pendant 15 jours. Toutes les fonctions
sont accessibles, mais la boîte de dialogue d’activation de la licence
s’ouvre à chaque démarrage du programme pour vous indiquer le
temps d’exploitation restant sans activation. Au bout de la période
d’essai de 15 jours, le logiciel ne s’exécutera plus que s’il est activé.
Chapitre 1 : Mise en route
11
3) Comment vérifier l’état d’activation de mon logiciel ?
La commande Activation de licence du menu d’aide de NeuralTools
donne accès à la boîte de dialogue d’activation. Le logiciel activé y
figure sous l’état Activé et la version d’essai, sous l’état Non activé. Si
le logiciel n’est pas activé, la durée restante de la période d’essai est
indiquée.
4) Comment activer mon logiciel ?
En l’absence de code d’activation, cliquez sur le bouton Acheter de la
boîte de dialogue Activation de licence. En cas d’achat en ligne, vous
recevrez immédiatement un code d’activation et un lien (facultatif) de
téléchargement du programme d’installation, au cas où la
réinstallation du logiciel serait nécessaire. Pour acheter NeuralTools
par téléphone, prenez contact avec votre représentation Palisade
locale, au numéro indiqué dans ce chapitre sous Contacter Palisade.
L’activation peut se faire sur Internet ou par courriel :
•
Si vous avez accès à Internet
Dans la boîte de dialogue Activation de licence, tapez ou collez votre
code d’activation et cliquez sur « Automatique via Internet ». Un
message de confirmation devrait s’afficher après quelques secondes et
la boîte de dialogue Activation de licence doit refléter l’état activé du
logiciel.
•
Si vous n’avez pas accès à Internet
Pour activer votre logiciel par courriel, procédez comme suit :
1.
Cliquez sur « Manuel par courriel » pour ouvrir le fichier de
demande request.xml, à enregistrer sur disque ou copier dans
le Presse-Papiers Windows. (Ne manquez pas de noter le lieu
d’enregistrement de ce fichier sur votre ordinateur.)
2.
Copiez ou joignez le fichier XML à un courriel adressé à
[email protected]. Vous devriez recevoir rapidement une
confirmation automatique par retour de courriel.
3.
Enregistrez le fichier response.xml joint au courriel de
réponse sur votre disque dur.
4.
Cliquez sur le bouton Traiter qui apparaît maintenant dans
la boîte de dialogue d’activation de licence Palisade et
naviguez jusqu’au fichier response.xml. Sélectionnez le fichier
et cliquez sur OK.
Un message de confirmation devrait apparaître et la boîte de dialogue
Activation de licence doit refléter l’état activé du logiciel.
12
Activation du logiciel
5) Comment transférer ma licence logicielle sur un autre
ordinateur ?
Le transfert d’une licence, ou réhébergement, peut s’effectuer en deux
étapes à travers la boîte de dialogue Activation de licence de
Palisade : par désactivation sur le premier ordinateur, puis activation
sur le second. Un exemple type de réhébergement consiste à
transférer NeuralTools d’un PC de bureau sur portable. Pour
transférer la licence de l’ordinateur1 à l’ordinateur2, veillez à ce que le
logiciel soit installé sur les deux ordinateurs et à ce que les deux
soient connectés à Internet pendant l’opération de
désactivation/activation.
1.
Sur l’ordinateur1, choisissez la désactivation Automatique via
Internet dans la boîte de dialogue Activation de licence.
Attendez que s’affiche le message de confirmation.
2.
Sur l’ordinateur2, choisissez l’activation Automatique via
Internet. Attendez que s’affiche le message de confirmation.
Si les ordinateurs n’ont pas accès à Internet, suivez la procédure
décrite plus haut pour l’activation par courriel.
6) J’ai accès à Internet mais je ne réussis pas à activer/désactiver
automatiquement.
Votre pare-feu doit être configuré de manière à autoriser l’accès TCP
au serveur de licences. Pour les installations mono-utilisateur (hors
réseau), il s’agit de http://service.palisade.com:8888 (port TCP 8888
sur http://service.palisade.com).
Chapitre 1 : Mise en route
13
14
Chapitre 2 : Présentation de
NeuralTools
Introduction
17
Pourquoi les réseaux neuronaux ?.......................................................17
NeuralTools et les réseaux neuronaux ...............................................18
Menu et barre d’outils NeuralTools ...................................................19
Ensembles de données et Gestionnaire des ensembles ..................20
Types de variables....................................................................21
Données multi-plages..............................................................21
Formation d’un réseau neuronal .........................................................22
Combinaison des opérations Formation, Test
et Prédiction ..........................................................................22
Configurations de réseau ........................................................23
Aperçu de la formation............................................................24
Formation ...................................................................................25
Rapports de formation.............................................................26
Test de réseau..........................................................................................27
Rapports de test ........................................................................28
Prédiction.................................................................................................29
Résultats de la prédiction........................................................30
Prédiction en direct ..................................................................30
Rapports et graphiques NeuralTools .................................................31
Utilitaires NeuralTools .........................................................................32
NeuralTools, StatTools, Solveur et Evolver ......................................32
Chapitre 2 : Présentation de NeuralTools
15
16
Introduction
NeuralTools introduit la puissance des réseaux neuronaux dans
l’environnement familier de Microsoft Excel. Les procédures
NeuralTools -- telles que la définition d'ensembles de données, la
formation et le test de réseaux neuronaux et la prédiction de valeurs
au moyen des réseaux formés – s’exécutent sur les données Excel
existantes et les rapports et graphiques des analyses effectuées se
créent dans Excel aussi.
Pourquoi les réseaux neuronaux ?
Les réseaux neuronaux « apprennent » les rapports complexes entre
les données. En imitant les fonctions cérébrales, ils discernent les
motifs et tendances des données, et peuvent ensuite émettre, par
extrapolation, leurs prédictions sur les nouvelles données qui leur
sont soumises. Les réseaux neuronaux sont utiles à la résolution de
deux grands types de problèmes :
•
Problèmes de classification : Problèmes où l’on essaie de
déterminer le type de catégorie d’un élément inconnu. Par
exemple : diagnostics médicaux et prédiction de capacité de
remboursement de crédit.
•
Problèmes numériques : Situations dans lesquelles on doit
prédire un résultat numérique spécifique. Par exemple :
prévision de cours en bourse ou du c.a. d’une période future.
NeuralTools s’accompagne d’exemples illustrant l’application des
réseaux neuronaux à différents problèmes de prédiction. Ces
exemples sont accessibles, sous forme de classeurs Excel, dans le
dossier NeuralTools\Exemples.
Chapitre 2 : Présentation de NeuralTools
17
NeuralTools et les réseaux neuronaux
Sous NeuralTools, les réseaux neuronaux s'élaborent et s’utilisent en
quatre étapes :
•
Préparation des données – Les données utilisées dans
NeuralTools se définissent dans des ensembles de données.
Le Gestionnaire des ensembles de données sert à configurer
les ensembles en vue de leur utilisation répétée par les
réseaux neuronaux.
•
Formation – Le processus de formation génère un réseau
neuronal au départ d'un ensemble de données composé de
cas à valeurs de sortie connues. Ces données se composent
souvent de cas historiques dont les valeurs de sortie/variable
dépendante sont connues.
•
Test – Lors du test, un réseau neuronal formé est « testé »
pour évaluer la qualité de ses prédictions de valeurs de sortie
connues. Les données soumises au test représentent
généralement un sous-ensemble des données historiques non
soumis à la formation. Après le test, la performance du réseau
est mesurée statistiquement (% de réponses connues
adéquatement prédites, etc.)
•
Prédiction – Un réseau neuronal formé sert à prédire les
valeurs de sortie inconnues. Une fois formé et testé, le réseau
peut servir à prédire les sorties des données de nouveaux cas.
La formation et le test peuvent constituer un processus itératif de
longue haleine. On procède souvent à plusieurs répétitions de la
formation, sous différents paramètres, afin de produire le meilleur
réseau neuronal possible à soumettre au test. Le « réseau optimal »
produit peut être rapidement mis au service de la prédiction.
Voyons maintenant comment NeuralTools opère sous Excel et
comment définir les ensembles de données, puis former et tester les
réseaux neuronaux au moyen de ces ensembles. Nous passerons
ensuite à la prédiction de valeurs de sorties inconnues à l’aide des
réseaux formés.
18
Introduction
Menu et barre d’outils NeuralTools
Une fois le programme installé, le menu et les commandes de
NeuralTools s’ajoutent à la barre de menus des versions Excel 2003 et
antérieures. Une barre d’outils NeuralTools s’affiche aussi. Le menu
affiche les commandes 1) de définition des données dans les
ensembles, 2) de formation et test des réseaux neuronaux et 3) de
prédiction des valeurs à l’aide des réseaux formés. Sous Excel 2007,
toutes les commandes sont accessibles sur le ruban NeuralTools.
Chapitre 2 : Présentation de NeuralTools
19
Ensembles de données et Gestionnaire des
ensembles
Sous NeuralTools, les données se structurent autour des cas et des
variables. On travaille sur un ensemble de données, ou un ensemble
de variables statistiques, disposé dans des colonnes contiguës, avec
les noms de variable figurant sur la première ligne de l’ensemble.
Chaque ligne de l’ensemble de données représente un cas. Chaque cas
comporte un ensemble de valeurs variables indépendantes et une
valeur connue ou manquante pour la variable de sortie dépendante.
La tâche de NeuralTools consiste à prédire la valeur de la variable de
sortie dans les cas où elle est inconnue.
Le Gestionnaire des ensembles de données de NeuralTools sert à
définir les ensembles de données, les variables et les cas. Les variables
prédéfinies peuvent ensuite servir à la formation et au test des
réseaux neuronaux, sans exiger la resélection continue des données à
analyser. Tous les cas historiques connus peuvent par exemple être
disposés dans un ensemble de données, et les cas dont les résultats
doivent être prédits dans un autre. Toutes les données – historiques
connues et à prédire – peuvent aussi être combinées dans un même
ensemble.
20
Introduction
Dans un ensemble de données, chaque variable est désignée par un
nom et est associée à une plage de cellules Excel. Chaque colonne de
la plage contient les données d’une variable différente. Un ensemble
de données peut comporter plusieurs blocs de cellules et permettre la
disposition des données sur différentes feuilles d’un même classeur.
Lors de la définition d’un ensemble de données, NeuralTools tente
d’identifier les variables dans un bloc de cellules voisin de la sélection
Excel courante. Il facilite et accélère ainsi la configuration d'un
ensemble où les noms de variable s’inscrivent sur la première ligne et
les variables se disposent en colonnes.
Types de variables
Sous NeuralTools, les variables peuvent être indépendantes ou
dépendantes et numériques ou catégorielles (Oui ou Non, par
exemple, ou Rouge, Vert ou Bleu). Le Gestionnaire tente d’identifier le
type de chaque variable comprise dans l’ensemble. Rien n’empêche
cependant de remplacer ses choix.
Données multiplages
Une colonne de feuille de calcul Excel 2003 ou version antérieure
admet un maximum de 65 536 points de données pour une variable.
En présence de valeurs plus nombreuses, si le passage à Excel 2007
n’est pas possible, NeuralTools admet l'affectation de plusieurs plages
de cellules à un même ensemble de données. En d’autres termes, il est
possible de « répéter » un ensemble de données sur plusieurs feuilles
de calcul, en affectant les mêmes colonnes des différentes feuilles aux
valeurs de l’ensemble.
Chapitre 2 : Présentation de NeuralTools
21
Formation d’un réseau neuronal
Après avoir défini un ensemble de données contenant les cas à
valeurs historiques connues, on forme un réseau neuronal sur ces
données. Différentes options déterminent le type de réseau généré.
Suivant la nature des données, différentes options de réseau
produisent des réseaux formés plus performants (c.-à-d. mieux aptes
à effectuer leurs prédictions). Le test – effectué après la formation –
mesure avec précision la qualité de prédiction du réseau formé.
La formation d’un réseau neuronal, de même que le test et la
prédiction, exigent la spécification d'un ensemble de données
contenant les données à utiliser pour l'opération. NeuralTools
enregistre le réseau formé directement dans le classeur ou,
facultativement, dans un fichier sur disque.
Combinaison des
opérations
Formation, Test et
Prédiction
22
Si toutes les données se trouvent dans un seul et même ensemble de
données (comprenant les données historiques connues et les
nouvelles données dont on ne connaît pas les valeurs de sortie),
NeuralTools permet la formation et le test d'un réseau, puis la
prédiction des valeurs de sortie, en une seule étape : on choisit de
retenir un certain pourcentage des données historiques pour le test
(20 % dans l’exemple illustré plus haut) et on choisit ensuite de
prédire automatiquement les valeurs de sortie des cas à valeur
dépendante manquante. On obtient ainsi rapidement les réponses
recherchées en une seule opération.
Introduction
Configurations de
réseau
NeuralTools gère plusieurs configurations de réseaux neuronaux,
dans le but d’assurer les meilleures prédictions possibles. Pour la
classification/prédiction de catégorie (où la variable dépendante est
un type de catégorie), deux types de réseau sont proposés : les
réseaux probabilistes (PNN) et les réseaux « feedforward » à
couches multiples (MLF). La prédiction numérique peut s’effectuer à
travers les réseaux MLF, de même que par les réseaux généraux de
régression (GRNN), proches du type PNN.
NeuralTools facilite la sélection de la configuration de réseau
appropriée à travers l’option de recherche du réseau optimal. Sous
cette option, NeuralTools forme et teste différentes configurations de
réseau, afin de générer celui apte à produire les meilleures prédictions
compte tenu des données considérées. La configuration optimale est
déterminée en fonction des données de test. L'option de « test
automatique » doit donc être sélectionnée sous l'onglet Former.
Chapitre 2 : Présentation de NeuralTools
23
Aperçu de la
formation
24
Après sélection des options de formation et de configuration du
réseau, NeuralTools affiche un aperçu de l'opération configurée. La
formation est le processus de modélisation par réseaux neuronaux le
plus exigent en temps. Il est donc utile de passer en revue sa
configuration avant de lancer l’opération. NeuralTools tente
d’identifier les problèmes éventuellement rencontrés dans les
données. Ils peuvent ainsi être corrigés avant le lancement de la
formation.
Introduction
Formation
NeuralTools suit et rapporte la progression de la formation du réseau
neuronal. Le réseau s’améliore généralement à mesure de la
progression de la formation et de la génération de réseaux aptes à
effectuer de meilleures prédictions, avec moins d’erreurs, sur les
données. Les graphiques s’actualisent pour refléter la progression de
la formation.
La formation s’interrompt lorsque toutes les conditions d’arrêt
configurées (durée maximum, etc.) sont remplies. Si l’option de test
automatique du réseau ou de prédiction automatique des valeurs de
sortie manquantes est sélectionnée, l’opération s’effectue après la
formation.
Chapitre 2 : Présentation de NeuralTools
25
Rapports de
formation
26
Les rapports de formation indiquent la qualité du réseau formé. Des
statistiques telles que le pourcentage de mauvaises prédictions
indiquent le nombre de cas, dans l’ensemble de formation, pour
lesquels le réseau a prédit une valeur de sortie non conforme à la
valeur réelle connue.
Introduction
Test de réseau
Lors du test, un réseau neuronal formé est « testé » pour évaluer la
qualité de ses prédictions de valeurs de sortie connues. Les données
soumises au test forment généralement un sous-ensemble des
données historiques dont les valeurs de sortie sont déjà connues. Ce
sous-ensemble est resté exclu de la formation du réseau.
Quand les données de test se trouvent dans un ensemble de données
différent, NeuralTools établit la correspondance entre leurs variables
et celles des données de formation. Comme pour la formation,
NeuralTools affiche un aperçu de la configuration du test avant de
procéder.
Chapitre 2 : Présentation de NeuralTools
27
Rapports de test
28
Le test (de même que la prédiction) s'exécutent beaucoup plus
rapidement que la formation. NeuralTools rapporte la performance
de prédiction du réseau sur les données soumises au test, signe de sa
qualité ultérieure sur les cas à valeurs de sortie inconnues.
Introduction
Prédiction
L’utilité ultime d’un réseau neuronal est la prédiction. On applique
un réseau formé aux nouveaux cas, dont on veut prédire les valeurs
de sortie inconnues. NeuralTools propose deux méthodes de
prédiction : 1) une méthode de prédiction pilotée par commandes
sur les cas d'un ensemble de données et 2) la prédiction en direct
(version Industrial seulement), où les valeurs variables
indépendantes d'un cas de la feuille de calcul sont entrées et
NeuralTools calcule automatiquement la valeur de sortie prédite.
La configuration du processus de prédiction des valeurs d’un groupe
de cas dans un ensemble de données se définit dans la boîte de
dialogue Prédiction. La prédiction peut être demandée pour les seuls
cas à valeur de sortie manquante et l’option de prédiction en direct
peut être activée pour permettre la modification des données et son
effet sur les prédictions. L’application de différents réseaux formés
révèle la différence entre les valeurs prédites.
Comme pour la formation et le test, NeuralTools commence par
afficher un aperçu des données et de la configuration à utiliser pour la
prédiction. Les prédictions sont ensuite rapportées sur la feuille de
calcul Excel.
Chapitre 2 : Présentation de NeuralTools
29
Résultats de la
prédiction
Prédiction en direct
Les valeurs de sortie prédites s’affichent en regard des cas pour
lesquels la prédiction est effectuée. Sur l’écran reproduit ci-dessous,
les valeurs prédites figurent en violet.
Si la prédiction en direct est activée, NeuralTools ajoute
automatiquement une formule Excel à la cellule d’affichage de la
valeur prédite. Cette formule génère la valeur prédite, de sorte que si
les valeurs variables indépendantes d’un cas changent, la valeur
prédite se recalcule automatiquement. Avec la prédiction en direct, il
suffit de taper les données de nouveaux cas directement dans Excel et
de générer une nouvelle prédiction, sans passer par la boîte de
dialogue Prédiction. Par exemple, si les valeurs variables
indépendantes du cas de la ligne 7, dans l'exemple de feuille de calcul
ci-dessus, changent comme indiqué, les valeurs prédites s'actualisent
automatiquement. Comme toute autre cellule de feuille de calcul, il
est possible de référencer une cellule de prédiction en direct dans une
formule Excel.
(Remarque : La prédiction en direct n’est disponible que dans la
version Industrial.)
30
Introduction
Rapports et graphiques NeuralTools
NeuralTools crée des rapports de synthèse et détaillés sur la
formation, le test et la prédiction. Les rapports de synthèse s’affichent
sur leur propre feuille de calcul et présentent une information globale
sur les opérations de test ou de formation. Un rapport détaillé de
l'information relative à chaque cas s’affiche en regard des données
concernées. De plus, la plupart de l’information du rapport de
synthèse est incluse dans le rapport détaillé sous forme de
commentaire ajouté à la cellule titre. Cette version du rapport de
synthèse en est le sommaire.
Les graphiques créés par NeuralTools accompagnent les rapports. Les
graphiques se créent au format Excel et peuvent être personnalisés à
l’aide des commandes graphiques Excel standard.
Chapitre 2 : Présentation de NeuralTools
31
Utilitaires NeuralTools
Deux utilitaires facilitent la gestion de la modélisation par réseaux
neuronaux dans NeuralTools. Le Gestionnaire de réseaux neuronaux
permet de copier ou déplacer les réseaux formés d’un classeur ou
d’un fichier vers un autre. L’utilitaire Données manquantes aide à
identifier et corriger les cas à données manquantes dans les ensembles
de données.
NeuralTools, StatTools, Solveur et Evolver
NeuralTools est conçu pour être utilisé avec StatTools, le compagnon
de statistiques Palisade pour Excel. Les deux produits partagent le
même Gestionnaire d’ensembles de données : les ensembles définis
dans NeuralTools peuvent être analysés dans StatTools et vice-versa.
StatTools permet le calcul de statistiques sur les variables des
ensembles de données définis dans NeuralTools, ainsi que sur les
prédictions générées par NeuralTools.
Les rapports détaillés de NeuralTools sont immédiatement
disponibles à l’analyse sous StatTools : ils s’inscrivent
automatiquement sur la liste du Gestionnaire d’ensembles de données
StatTools. L’usage de StatTools pour l’obtention de résultats
statistiques au-delà de ceux contenus dans les rapports de synthèse de
NeuralTools en est facilité. Ainsi, un rapport de synthèse de test inclut
un histogramme des résidus (les différences entre les valeurs réelles et
prédites). Sur la base de cet histogramme, les résidus peuvent sembler
suivre une distribution plus ou moins normale. Pour tester
l’hypothèse de distribution normale, un test de normalité StatTools
peut être appliqué à la variable Résidus du rapport détaillé. Un
exemple en est présenté dans le fichier « Prédiction d’âge d’abalone
par analyse StatTools.xls ».
Avec la fonction de prédiction en direct de NeuralTools, on voit
aisément comment les changements des valeurs indépendantes
affectent la prédiction. D'autres outils Excel permettent alors
d'explorer la relation entre les variables indépendantes et la variable
dépendante.
32
Introduction
Solveur – En combinaison avec la fonctionnalité de prédiction en
direct de NeuralTools, l’optimiseur d’Excel peut calculer les valeurs
de décision optimales sur les prédictions effectuées dans NeuralTools.
Le fichier « Financements autos avec Solveur.xls » en présente un
exemple. Dans cet exemple, un réseau neuronal sert à prédire si un
emprunteur remboursera son prêt dans les délais impartis. Le réseau
n’atteint cependant qu’un degré de confiance de 60 %. Le Solveur
d’Excel peut alors servir à déterminer un montant de prêt où le réseau
serait sûr à 90 % du remboursement aux échéances fixées. Dans ce cas,
l’optimiseur essaierait différents montants de prêt, et NeuralTools
actualiserait automatiquement la valeur de probabilité. Evolver,
l’optimiseur par algorithmes génétiques de Palisade, peut être utilisé
à la place de Solveur. Contrairement à Solveur, Evolver peut gérer les
problèmes d’optimisation qui présentent plus d’un optimum local.
Chapitre 2 : Présentation de NeuralTools
33
34
Chapitre 3 : Guide de référence
NeuralTools
Introduction
37
Référence : Icônes NeuralTools
39
Barre d’outils NeuralTools...............................................................39
Référence : Commandes du menu NeuralTools
41
Introduction .......................................................................................41
Icônes des boîtes de dialogue ..............................................................42
Commandes ......................................................................................43
Commande Gestionnaire des ensembles de données .....................43
Commande Former ................................................................................50
Commande Tester ..................................................................................64
Commande Prédire ................................................................................72
Utilitaires............................................................................................77
Commande Paramètres d’application ................................................77
Commande Gestionnaire de réseaux neuronaux .............................81
Commande Utilitaire Données manquantes.....................................83
En savoir plus sur les réseaux neuronaux
Chapitre 3 : Guide de référence NeuralTools
87
35
36
Introduction
Ce chapitre décrit les icônes, commandes et fonctions statistiques de
NeuralTools. Il se divise en deux sections :
1) Référence : Icônes NeuralTools
2) Référence : Commandes du menu NeuralTools
Chapitre 3 : Guide de référence NeuralTools
37
38
Référence : Icônes NeuralTools
Barre d’outils NeuralTools
Les icônes NeuralTools servent à définir les ensembles de données,
avec cas et variables, puis à créer et exploiter des réseaux neuronaux
sur ces données. Elles figurent sur la « barre d’outils » du tableur,
sous forme de barre d’outils personnalisée dans Excel 2003 et versions
antérieures ou de ruban dans Excel 2007. Cette section décrit
brièvement chaque icône : elle explique les fonctions qu’elle exécute et
sa commande de menu équivalente. Sous Excel 2007, toutes les
commandes sont accessibles sur le ruban NeuralTools.
Les icônes décrites ci-dessous figurent sur la barre d’outils
NeuralTools installée dans Excel 2003 et versions antérieures et/ou
dans les boîtes de dialogue NeuralTools.
Icône
Fonction et commande équivalente
Définir - ou modifier ou supprimer - un ensemble de
données et des variables
Commande équivalente : Gestionnaire des ensembles de données
Former un réseau neuronal
Commande équivalente : Former
Tester un réseau neuronal
Commande équivalente : Tester
Prédire des valeurs à l’aide d’un réseau formé
Commande équivalente : Prédire
Exécuter les utilitaires de réseaux neuronaux
Commande équivalente : Utilitaires
Afficher le fichier d’aide de NeuralTools
Commande équivalente : Aide
Référence : Icônes NeuralTools
39
Les icônes décrites ci-dessous figurent sur le ruban NeuralTools
installé dans Excel 2007.
Icône
Fonction et commande équivalente
Définir - ou modifier ou supprimer - un ensemble de
données et des variables
Commande équivalente : Gestionnaire des ensembles de
données
Former un réseau neuronal
Commande équivalente : Former
Tester un réseau neuronal
Commande équivalente : Tester
Prédire des valeurs à l’aide d’un réseau formé
Commande équivalente : Prédire
Exécuter les utilitaires de réseaux neuronaux
Commande équivalente : Utilitaires
Afficher le fichier d’aide de NeuralTools
Commande équivalente : Aide
40
Référence : Commandes du
menu NeuralTools
Introduction
Cette section du Guide de référence décrit les commandes
NeuralTools telles qu’elles figurent dans le menu ou sur le ruban
NeuralTools d’Excel. Les commandes sont expliquées dans leur ordre
d’apparition dans le menu, en commençant par Gestionnaire des
ensembles de données. Les icônes NeuralTools donnent accès à
beaucoup des commandes. La section Référence : Icônes
NeuralTools présentée dans ce chapitre identifie la commande
équivalente de chaque icône NeuralTools.
Référence : Commandes du menu NeuralTools
41
Icônes des boîtes de dialogue
Deux icônes – l’icône d’Aide et celle des Paramètres d’application –
peuvent figurer dans les boîtes de dialogue individuelles de
NeuralTools. L’icône d'aide donne rapidement accès à la rubrique
d'aide relative à la boîte de dialogue. Celle des paramètres
d’application ouvre la boîte de dialogue Paramètres d’application,
pour la saisie ou la modification des paramètres de rapports
NeuralTools, ainsi que des paramètres par défaut de formation,
prédiction et exécution.
42
Introduction
Commandes
Commande Gestionnaire des ensembles de
données
Définit les ensembles de données et variables, ou modifie ou
supprime un ensemble de données et des variables existants.
La commande Gestionnaire des ensembles de données sert à définir
les ensembles de données, cas et variables. Les ensembles définis
peuvent ensuite servir à la formation et au test d’un réseau neuronal,
puis à la prédiction de valeurs. Dans la boîte de dialogue du
Gestionnaire, on peut ajouter ou supprimer des ensembles de
données, nommer un ensemble, spécifier la disposition des variables
dans un ensemble et nommer ces variables.
Définitions?
NeuralTools s’organise autour de variables et de cas. On travaille sur
un ensemble de données, ou un ensemble de variables statistiques,
disposé dans des colonnes contiguës sur une feuille de calcul Excel,
avec les noms de variable sur la première ligne de l’ensemble. Chaque
ligne de l’ensemble de données représente un cas. Chaque cas
comporte un ensemble de valeurs variables indépendantes et une
valeur connue ou manquante pour la variable de sortie dépendante.
Dans un ensemble de données, chaque variable est désignée par un
nom et est associée à une plage de cellules Excel. Un ensemble de
données peut comporter plusieurs blocs de cellules et permettre la
disposition des données sur différentes feuilles d’un même classeur.
Lors de la définition d’un ensemble de données, NeuralTools tente
d’identifier les variables dans un bloc de cellules voisin de la sélection
Excel courante. Il facilite et accélère ainsi la configuration d'un
ensemble où les noms de variable s’inscrivent sur la première ligne et
les variables se disposent en colonnes.
Référence : Commandes du menu NeuralTools
43
Boîte de dialogue du
Gestionnaire
La boîte de dialogue du Gestionnaire propose les options Ensemble
de données suivantes :
44
•
Nouveau / Supprimer – Ajoute un nouvel ensemble de
données, ou en supprime un existant.
•
Nom – Spécifie le nom de l’ensemble de données.
•
Plage Excel – Spécifie la plage Excel associée à un ensemble
de données. Si plusieurs plages de cellules ont été affectées à
un ensemble de données, la valeur de ce champ est précédée
de l’étiquette Multiple.
•
Appliquer le formatage des cellules – Ajoute une grille et
des couleurs d’identification des ensembles de données.
•
Multiple – Un clic sur le bouton Multiple de la boîte de
dialogue Gestionnaire des ensembles de données ouvre la
boîte de dialogue Définition d’ensemble de données à
plages multiples. Cette boîte de dialogue permet l’entrée des
plages de cellules individuelles qui constituent l’ensemble de
données à plages de cellules multiples.
Commandes
•
Ensembles de
données à plages
multiples
Importer – Permet la copie (par importation) de types de
variables depuis un autre ensemble de données ou réseau
neuronal formé. L’emplacement et le réseau à utiliser pour les
définitions des variables se sélectionnent dans la boîte de
dialogue Importer les types de variables.
NeuralTools admet l’affectation de plusieurs plages de cellules, sur
différentes feuilles de calcul, à un même ensemble de données. Un
ensemble de données à plages multiples peut être utile dans les cas
suivants :
1) quand chaque variable d’un ensemble de données comporte plus
de 65 536 points de données sous Excel 2003 ou version
antérieure, exigeant l'expansion des données sur plusieurs
feuilles de calcul d’un même classeur ;
2) quand les données d’une variable se trouvent dans plusieurs
blocs dispersés à travers les différentes feuilles de calcul d’un
classeur.
Remarque : Un ensemble de données à plages multiples ne peut pas
être défini sur une même feuille de calcul. Il peut l’être sur plusieurs
feuilles de calcul d’un même classeur.
Référence : Commandes du menu NeuralTools
45
La boîte de dialogue Définition d’ensemble de données à plages
multiples propose les options suivantes :
46
•
Effacer tout – Efface toutes les plages entrées.
•
Remplissage auto – Applique la première plage entrée (sur la
première ligne) à toutes les feuilles de calcul visibles du
classeur actif et entre les références NomFeuille!PlageCellules
dans la grille.
•
Sélectionner – Affiche un sélecteur pour la sélection d’un
bloc de cellules à utiliser comme plage d’ensemble de
données.
•
Noms de variable des plages secondaires dans la première
colonne (sur la première ligne) – Pour les ensembles de
données à plages multiples, les noms de variable peuvent être
étiquetés dans les colonnes de chaque plage listée, ou dans
celles de la première plage sélectionnée seulement. La
première plage sélectionnée est celle entrée sur la première
ligne de la boîte de dialogue de sélection de plages multiples.
Commandes
Options de variables
Chaque ligne de la grille du Gestionnaire des ensembles de données
liste les variables d’un ensemble, y compris la plage de données Excel
contenant les points de données d’une variable, le nom de la variable
et son type.
Les options de type de variable sont les suivantes :
•
Catégorie dépendante – Variable dépendante ou de sortie
dont les valeurs possibles viennent d’un ensemble de
catégories possibles : Oui ou Non, par exemple, ou Rouge, Vert
ou Bleu.
•
Numérique dépendante – Variable dépendante ou de sortie
dont les valeurs possibles sont numériques.
•
Catégorie indépendante – Variable indépendante dont les
valeurs possibles viennent d’un ensemble de catégories
possibles : Oui ou Non, par exemple, ou Rouge, Vert ou Bleu.
•
Numérique indépendante – Variable indépendante dont les
valeurs possibles sont numériques.
Référence : Commandes du menu NeuralTools
47
Les variables
« balises »
•
Balise – Variable prenant la valeur possible « former »,
« tester » ou « prédire ». Ce type de variable sert à identifier
les cas d’un ensemble de données qui serviront à la formation,
au test et à la prédiction.
•
Inutilisée – Variable d’un ensemble de données qui ne sera
pas utilisée dans un réseau neuronal.
Les balises représentent un type de variable spécial destiné, dans
un ensemble de données NeuralTools, à identifier les cas à utiliser
pour la formation, le test et la prédiction. Ces balises sont
particulièrement utiles quand on veut inclure toutes les données
(de formation, test et prédiction) dans un seul et même ensemble
de données. En présence d’une variable de type balise,
NeuralTools sélectionne les cas à utiliser pour la formation, le test
ou la prédiction en fonction de la valeur de la balise. En
changeant les valeurs des balises, on peut répéter la formation
d’un réseau sur la base de différents cas et observer les différences
de performance éventuelles. On peut également ajouter de
nouveaux cas à valeurs de variable dépendante inconnues et les
affecter à la prédiction sous la balise « Prédire ». Les balises
n’admettent que trois valeurs possibles :
• Former – Spécifie que le cas sera affecté à la formation.
• Tester – Spécifie que le cas sera affecté au test.
• Prédire – Spécifie que le cas sera affecté à la prédiction.
Remarque : En présence d’une balise dans un ensemble de données, les
options de la boîte de dialogue Formation changent. Voir la
commande Former pour plus de détails.
48
Commandes
Capacité
d'ensembles de
données et variables
En l’espace d’une session, NeuralTools admet :
•
un maximum de 256 ensembles de données, dans un même
classeur ;
•
un maximum de 16 384 variables par ensemble de données
dans Excel 2007 (256 variables dans les versions Excel
antérieures). Toutes les données d’un même ensemble de
données doivent se trouver dans le même classeur ;
•
un nombre de points de données par variable et de cas par
ensemble de données soumis à la seule limite de la mémoire
disponible dans Excel 2007 (16 777 216 points de données
dans les versions antérieures d’Excel).
Les capacités de données effectives peuvent être inférieures aux
valeurs indiquées ci-dessus suivant la configuration du système et la
version d’Excel. Les limites de mémoire d’Excel même peuvent aussi
affecter ces capacités.
Remarque : La boîte de dialogue Gestionnaire des ensembles de
données liste tous les ensembles de données et toutes les variables du
classeur actif (dont le nom est indiqué dans le titre de la boîte de
dialogue). Pour lister les ensembles de données d’un autre classeur,
activez-le dans Excel et rouvrez la boîte de dialogue du Gestionnaire.
Référence : Commandes du menu NeuralTools
49
Commande Former
Spécifie les paramètres de formation d’un réseau neuronal et
exécute la formation.
La commande Former permet 1) de spécifier les paramètres à utiliser
pour la formation d’un réseau neuronal dans NeuralTools et 2) de
lancer la formation d’un réseau.
Onglet Former
50
L’onglet Former de la boîte de dialogue Formation spécifie les options
générales de formation d’un réseau neuronal :
•
Ensemble de données – Indique l’ensemble de données à
utiliser lors de la formation du réseau neuronal. Cet ensemble
de données doit être défini à l’aide du Gestionnaire des
ensembles et doit être présent sur la feuille active.
•
Enregistrer le réseau sous – Spécifie le nom et l’emplacement
du réseau neuronal à former. Les réseaux neuronaux peuvent
être enregistrés dans un classeur Excel ou dans un fichier sur
disque. Cliquez sur Parcourir… pour changer le nom ou
l’emplacement affiché.
Commandes
Le nom et la description du réseau neuronal à enregistrer peuvent
aussi être indiqués.
Les options En fin de formation permettent de passer
automatiquement au test et à la prédiction sur la base du réseau
formé. L’opération est possible lorsque les données à tester et
prédire se trouvent dans le même ensemble de données que les
données de formation.
•
•
Tester automatiquement – Spécifie que
1)
un pourcentage des cas de l’ensemble de données
doit être automatiquement « exclu » de la formation
et est réservé au test, ou que
2)
les cas assortis de la balise « test » serviront au test.
Une balise est un type de variable spécifié dans le
Gestionnaire des ensembles de données.
Prédire automatiquement les valeurs dépendantes
manquantes – Spécifie que le réseau formé servira à
prédire les valeurs de variable dépendante
1)
dans les cas où la valeur dépendante est manquante
ou
2)
dans les cas où la balise est « prédire ». Une balise est
un type de variable spécifié dans le Gestionnaire des
ensembles de données.
Référence : Commandes du menu NeuralTools
51
Qu’est-ce que
l’analyse d’impact
des variables ?
52
•
Activer la prédiction en direct – Spécifie que
NeuralTools va placer une formule dans les cellules des
valeurs de variable dépendante prédites, pour le calcul de
ces valeurs prédites. Pour plus de détails sur la prédiction
en direct, voir la commande Prédiction, plus loin dans ce
chapitre.
•
Calculer l’impact des variables – Spécifie que
NeuralTools va calculer l’impact relatif de chaque
variable indépendante de l’ensemble de données de
formation lors de la détermination des prédictions
calculées par le réseau.
Le but de l’analyse d’impact des variables est de mesurer la
sensibilité des prédictions du réseau aux changements des variables
indépendantes. Cette analyse ne s’effectue que sur les données de
formation. L’analyse affecte à chaque variable indépendante une
valeur d’« impact relatif ». La somme de ces valeurs, exprimées sous
forme de pourcentage, est de 100 %. Moins le pourcentage affecté à
une variable est élevé, moins cette variable affecte les prédictions. Les
résultats de l’analyse peuvent être utiles à la sélection d’un nouvel
ensemble de variables indépendantes, en vue de prédictions plus
précises. Par exemple, une variable à faible valeur d’impact peut être
éliminée au profit d’une nouvelle variable. Il ne faudrait cependant
pas oublier que les résultats de l'analyse d'impact sont relatifs à un
réseau donné. Une fois qu’un réseau « a appris » à omettre une
variable donnée, il est probable qu’un autre réseau « apprenne » aussi
à l’omettre. Mais une autre session de formation sous type de réseau
différent pourrait « découvrir » la manière dont la variable peut
contribuer significativement à la production de prédictions correctes.
Dans les ensembles de données caractérisés par de moindres nombres
de cas et/ou de plus grands nombres de variables, les différences
d’impact relatif des variables d’un réseau formé à l’autre peuvent être
plus prononcées. On n’oubliera pas non plus que ces valeurs sont
« relatives ». Supposons, par exemple, deux variables indépendantes,
dont l'une recevrait la valeur 99 % et l'autre, 1 %. Cela voudrait dire
que la seconde est beaucoup moins importante que la première, mais
pas qu’elle est sans importance, surtout si un haut niveau de précision
est désiré pour les prédictions.
Commandes
Autres considérations concernant l’analyse d’impact des variables :
1) Seul l’ensemble de données de formation est inclus dans l’analyse.
(Si le test automatique ou la prédiction automatique sont
configurés, les cas concernés sont exclus. La raison en est qu’ils
peuvent avoir des valeurs numériques extérieures à la plage de
formation et que les résultats de l'analyse en seraient plus
imprévisibles.)
2) Pour une variable indépendante catégorielle donnée, l’analyse
examine, pour chaque cas, toutes les catégories valables de la
variable et mesure le changement apporté à la valeur prédite. (La
prédiction de catégorie ne comporte pas de valeurs prédites
numériques, mais la prédiction repose sur des sorties de réseau
numériques brutes. Ces sorties numériques sont utilisées par
l’analyse.)
3) Pour une variable indépendante numérique donnée, l’analyse
examine, pour chaque cas, la plage de la valeur de formation
minimum à maximum de cette variable et mesure le changement
apporté à la valeur prédite (ou, dans le cas d'une prédiction de
catégorie, le changement des sorties numériques brutes).
Le but de l’analyse d’impact des variables n’est pas d’appuyer de
fermes conclusions, telles qu’une affirmation irréfutable de non
pertinence d’une variable, mais plutôt de favoriser la recherche du
meilleur ensemble de variables indépendantes : les résultats de
l’analyse peuvent indiquer qu’une variable donnée ne semble pas
pertinente, au point de justifier l’essai de formation d’un réseau sans
cette variable.
Référence : Commandes du menu NeuralTools
53
Les résultats de l’analyse d’impact des variables s’affichent dans le
rapport de synthèse de formation :
54
Commandes
Onglet
Configuration du
réseau
L’onglet Configuration du réseau de la boîte de dialogue Formation
permet la sélection du type de réseau neuronal à former sur les
données. Outre les configurations spécifiques proposées, l’option de
recherche du réseau optimal indique à NeuralTools de tester
différentes configurations possibles afin d'identifier la plus
performante.
NeuralTools gère plusieurs configurations de réseaux neuronaux,
dans le but d’assurer les meilleures prédictions possibles. Pour
classification / prédiction de catégorie, deux types de réseaux sont
proposés : les réseaux probabilistes PNN et les réseaux
« feedforward » à couches multiples MLF. La prédiction numérique
peut s’effectuer à l’aide de réseaux MLF, ainsi que de réseaux
généraux de régression GRNN, proches des réseaux PNN. Pour plus
de détails sur les aspects techniques des configurations de réseau
disponibles, voir la section Plus de détails sur les réseaux neuronaux.
Référence : Commandes du menu NeuralTools
55
L’onglet Configuration du réseau se compose des éléments suivants :
• Type de réseau – Sélectionne le type de réseau à utiliser lors de
la formation, ou spécifie la recherche du réseau optimal. Le
volet Options de l’onglet varie suivant le type de réseau
sélectionné. Les types de réseau proposés sont :
56
1)
Recherche du réseau optimal. Dans une recherche de
réseau optimal, NeuralTools teste toutes les
configurations de réseau cochées, y compris les réseaux
PNN/GRNN et MLFN à nombre de nœuds défini dans la
plage minimum-maximum. La configuration la plus
performante pour les données considérées est identifiée
en fonction de l’erreur obtenue sur données soumises au
test. Sous l’option Stocker tous les réseaux d’essai dans
un nouveau classeur, on peut charger individuellement
chaque réseau testé (indépendamment de son niveau de
performance) depuis son classeur et l’utiliser pour la
prédiction après la formation. Un rapport de synthèse de
test complet est aussi disponible pour chaque réseau.
2)
PNN/GRNN. Ces types de réseau ne requièrent la
sélection d’aucune autre option de formation. Il s’agit,
pour cette raison, de l’option sélectionnée par défaut à
l’installation de NeuralTools. Pour les valeurs de sortie
numériques, un réseau GRNN est formé. Pour les valeurs
de sortie catégorielles, le réseau formé est de type PNN.
3)
MLF. Un réseau « feedforward » MLF comporte une ou
plusieurs couches cachées de nœuds.
Commandes
La sélection de zéro nœud pour la seconde couche
élimine cette couche. Pour identifier la meilleure
configuration possible d’un réseau MLFN, le moyen le
plus fiable est de sélectionner l'option Recherche du
réseau optimal plutôt que celle de formation d’un simple
réseau MLF. S'il n’est pas possible, par manque de temps,
de rechercher le réseau optimal, il est recommandé de
garder la valeur « Automatique » comme « Nombre de
nœuds ».
Onglet Temps
d’exécution
L’onglet Temps d’exécution de la boîte de dialogue Formation sert à
définir les conditions d’arrêt de la formation. Si aucune condition
d’arrêt n’est sélectionnée, la formation finit par s’arrêter d’elle-même :
le délai est relativement bref pour les réseaux PNN/GRNN et
beaucoup plus long pour les réseaux MLF. Une approche possible
consiste à ne sélectionner aucune condition d’arrêt et à cliquer sur le
bouton d’arrêt de la boîte de dialogue de progression quand le temps
disponible à la formation est écoulé. Sous l’option de recherche du
réseau optimal, une limite de temps doit être définie pour la
formation d’un réseau, afin d’éviter que l’algorithme de recherche ne
consacre trop de temps à une configuration particulière. Les trois
conditions d’arrêt proposées peuvent être combinées. NeuralTools
s’arrête dans ce cas dès le moment où l’une des conditions est remplie.
Référence : Commandes du menu NeuralTools
57
Les options Temps d’exécution de formation suivantes sont
proposées :
• Durée – Spécifie une durée fixe de formation par réseau. La
formation peut s’interrompre avant l’écoulement de la durée
spécifiée, dès que l’algorithme détermine peu probable tout
progrès ultérieur. Sous l’option de recherche du réseau optimal,
la formation de chaque configuration testée est limitée à la
durée indiquée.
• Essais – Spécifie le nombre maximum d’essais qui seront
effectués avant l’arrêt. Sous l’option de réseau MLF, un
« essai » représente une affectation de « poids » aux connexions
entre les neurones. La formation consiste en une recherche
intelligente de poids aptes à produire les meilleures
prédictions. Sous l’option de réseau PNN/GRNN, un essai est
une affectation de « facteurs de lissage » aux variables. La
formation consiste en une recherche des meilleurs facteurs de
lissage.
• Progression – Spécifie l’arrêt de NeuralTools en l’absence
d’amélioration, dans la mesure du % indiqué au moins, de la
statistique d’erreur pendant le délai imparti.
58
Commandes
Aperçu Formation
La boîte de dialogue Aperçu Formation affiche la configuration de la
formation de réseau actuelle, ainsi que les erreurs éventuellement
relevées dans les données, avant de lancer la formation en soi. Le
contenu de cette boîte de dialogue présente tous les paramètres
sélectionnés pour la formation, tels que rapportés par NeuralTools. Le
volet Erreurs et avertissements décrit les problèmes que NeuralTools
a éventuellement détectés dans les données ou les paramètres, afin de
permettre toutes corrections nécessaires avant d’engager du temps
dans la formation en soi.
Référence : Commandes du menu NeuralTools
59
Progression de la
formation
La fenêtre de progression de formation suit l’état de la formation du
réseau en cours d’exécution. Les graphiques présentent l’amélioration
progressive du réseau et la réduction du rapport d’erreur.
La fenêtre de progression rapporte l’erreur sur les données de
formation. Aucune conclusion directe ne doit être tirée de la variation
de cette valeur quant à la qualité des prédictions que le réseau
effectuera sur les cas non inclus dans la formation. L’erreur obtenue
sur les données du test est celle à considérer pour ces conclusions.
Remarquez aussi que pour la prédiction numérique, l’erreur
rapportée dans la fenêtre de progression est l’erreur moyenne
quadratique des données réduites (voir l’information relative à la
réduction sous le titre « Transformation d’entrée »). Pour la prédiction
catégorielle, l’erreur rapportée repose sur la représentation
numérique des données de catégorie.
60
Commandes
Rapports de
formation
Les rapports de synthèse et détaillé peuvent tous deux être créés
après la formation. Ces rapports présentent le détail de performance
du réseau neuronal formé. Le contenu de ces rapports est configuré
dans la boîte de dialogue Paramètres d’application, sous les rubriques
Rapports à générer et Colonnes des rapports détaillés.
• Rapport de synthèse de formation – Ce rapport présente les
statistiques et graphiques de performance du réseau neuronal
formé.
Référence : Commandes du menu NeuralTools
61
Pour la prédiction de catégorie / classification, les statistiques clés et
graphiques du rapport de synthèse sont :
1)
% mauv. prédictions – Pourcentage de cas pour lesquels la
catégorie prédite ne correspond pas à la catégorie réelle.
2)
Probabilité incorrecte moyenne (pour les réseaux PNN
seulement) – Pour chaque cas, NeuralTools calcule la
probabilité de catégories incorrectes, soit la somme des
probabilités affectées par le réseau PNN à des catégories
incorrectes. Par exemple, si, pour un cas donné, un réseau
affecte une probabilité de 30 % à « rouge », de 20 % à « jaune »
et de 50 % à « vert » et que l’on sait que la réponse correcte est
« rouge », la valeur du cas est 20 % + 50 % = 70 %. Cette
valeur apporte une mesure de l’erreur au cas par cas pour la
prédiction catégorielle, équivalent de l’erreur résiduelle pour
la prédiction numérique. La « Probabilité incorrecte
moyenne » représente la valeur d’erreur moyenne de tous les
cas.
Les rapports détaillés affichent la probabilité incorrecte au cas
par cas. Pour mieux comprendre le concept, il peut être utile
de changer les paramètres de Rapport détaillé de manière à
afficher les probabilités affectées par un réseau PNN à chaque
catégorie possible pour la variable dépendante. Pour ce faire,
sélectionnez Paramètres d’application dans le menu
Utilitaires et cliquez sur le menu déroulant à droite de
Colonnes des rapports détaillés. La boîte de dialogue
NeuralTools – Colonnes à afficher dans les rapports
détaillés s’affiche. Sélectionnez-y Probabilité de toutes les
catégories (PNN) dans la colonne Test. Formez ensuite un
réseau PNN sur un ensemble de données comportant au
moins 3 catégories dans la variable dépendante (l’exemple
Financements Autos.xls peut être utilisé ici), sous sélection de
Test automatique. Dans le rapport détaillé résultant,
observez le rapport entre les valeurs de la colonne
Incorrectes% et les probabilités affectées à chaque catégorie
possible. La valeur Incorrectes% représente la somme des
probabilités de toutes les catégories incorrectes.
3)
62
Matrice de classification – Compare les catégories réelles et
prédites catégorie par catégorie. Par exemple, la matrice de
classification peut révéler qu’un réseau détecte correctement
une affection médicale chez les patients qui en sont atteints,
mais qu’il a aussi tendance à créer de fausses alertes chez les
patients non affectés.
Commandes
4)
Impact des variables – Si cette option est sélectionnée, affiche
l’impact relatif des variables indépendantes sur les réponses
prédites.
5)
Histogramme de probabilité de catégories incorrectes (pour
les réseaux PNN seulement) - Voir « Probabilité incorrecte
moyenne », ci-dessus, pour une explication de la « probabilité
de catégories incorrectes ».
Pour la prédiction numérique, les statistiques clés et graphiques du
rapport de synthèse sont :
1)
% mauv. prédictions - Une prédiction est « mauvaise » si elle
tombe en dehors de la marge définie autour de la valeur
réelle ; la largeur de la marge est définie sous le paramètre
« Tolérance Bonnes/Mauvaises (Formation) » dans la boîte de
dialogue Paramètres d’application.
2)
Erreur moyenne quadratique - Mesure d’écart de prédiction
par rapport à la valeur réelle (calculée comme la racine carrée
de l’écart quadratique moyen).
3)
Erreur absolue moyenne – Écart moyen des prédictions par
rapport aux valeurs réelles.
4)
Impact des variables – Si cette option est sélectionnée, affiche
l’impact relatif des variables indépendantes sur les réponses
prédites.
5)
Histogramme de résidus – Un « résidu » représente la
différence entre la valeur réelle et la valeur prédite.
6)
Les diagrammes de dispersion affichent les rapports entre les
valeurs réelles, les valeurs prédites et les résidus.
Référence : Commandes du menu NeuralTools
63
Commande Tester
Spécifie les paramètres de test d’un réseau neuronal formé et
exécute le test.
La commande Tester permet 1) de spécifier les paramètres à utiliser
pour le test d’un réseau neuronal formé et 2) de lancer le test.
Les données soumises au test sont généralement des données à
valeurs de sortie connues non utilisées lors de la formation du réseau.
Options de la boîte de dialogue Test :
64
•
Ensemble de données – Indique l’ensemble de données à
utiliser lors du test du réseau neuronal formé. Cet ensemble
de données doit être défini à l’aide du Gestionnaire des
ensembles de données et doit être présent sur la feuille de
calcul active.
•
Réseau – Spécifie le nom et l’emplacement du réseau
neuronal à tester. Les réseaux neuronaux peuvent être
enregistrés dans un classeur Excel ou dans un fichier sur
disque. Cliquez sur Parcourir… pour changer le nom ou
l’emplacement affiché.
Commandes
Correspondance
des variables
La correspondance des variables spécifie comment la correspondance
sera établie entre les variables de l’ensemble de données à tester et
celles de l’ensemble utilisé pour la formation du réseau.
Deux options sont proposées :
1)
Correspondance automatique. La correspondance
s’établit entre les noms de variable de l’ensemble de
données à tester et ceux de l’ensemble de données du
réseau formé. Les types de variable s’établissent sur la
base de cette correspondance.
2)
Correspondance personnalisée. La correspondance
personnalisée permet d’affecter individuellement les
correspondances de variables entre l’ensemble de
données à tester et celui du réseau formé. L’approche
convient en présence de noms de variable différents dans
les deux ensembles de données ou lorsque des
affectations différentes sont désirées.
Référence : Commandes du menu NeuralTools
65
La boîte de dialogue Correspondance des variables énumère les
variables de chaque ensemble de données, pour l’établissement des
correspondances. Les correspondances ne peuvent être établies
qu’entre variables de même type. Chaque correspondance établie se
stocke avec l’ensemble de données. Le bouton Charger la
correspondance antérieure donne accès aux affectations antérieures
de l’ensemble de données.
Aperçu Test
66
La boîte de dialogue Aperçu Test affiche la configuration de test de
réseau actuelle, ainsi que les erreurs éventuellement relevées dans les
données, avant de lancer le test en soi. Le contenu de cette boîte de
dialogue présente tous les paramètres sélectionnés pour le test, tels
que rapportés par NeuralTools. Le volet Erreurs et avertissements
décrit les problèmes que NeuralTools a éventuellement détectés dans
les données, afin de permettre toutes corrections nécessaires avant le
test.
Commandes
Rapports de test
Les rapports de synthèse et détaillé peuvent tous deux être créés
après le test. Ces rapports présentent le détail de performance du
réseau neuronal formé sur l’ensemble de données à tester. Le contenu
de ces rapports est configuré dans la boîte de dialogue Paramètres
d’application, sous les rubriques Rapports à générer et Colonnes des
rapports détaillés. Le rapport détaillé du test est particulièrement
utile en ce qu’il révèle la qualité de prédiction du réseau formé sur les
valeurs de sortie individuelles de l’ensemble de données soumis au
test.
• Rapport de synthèse de test – Ce rapport présente les
statistiques et graphiques de performance du réseau neuronal
formé sur l’ensemble de données soumis au test.
Référence : Commandes du menu NeuralTools
67
Pour la prédiction de catégorie, les statistiques clés et graphiques du
rapport de synthèse sont :
1)
% mauv. prédictions – Pourcentage de cas pour lesquels
la catégorie prédite ne correspond pas à la catégorie
réelle.
2)
Probabilité incorrecte moyenne (pour les réseaux PNN
seulement) – Pour chaque cas, NeuralTools calcule la
probabilité de catégories incorrectes, soit la somme des
probabilités affectées par le réseau PNN à des catégories
incorrectes. Par exemple, si, pour un cas donné, un réseau
affecte une probabilité de 30 % à « rouge », de 20 % à
« jaune » et de 50 % à « vert » et que l’on sait que la
réponse correcte est « rouge », la valeur du cas est 20 % +
50 % = 70 %. Cette valeur apporte une mesure de l’erreur
au cas par cas pour la prédiction catégorielle, équivalent
de l’erreur résiduelle pour la prédiction numérique. La
« Probabilité incorrecte moyenne » représente la valeur
d’erreur moyenne de tous les cas.
Les rapports détaillés affichent la probabilité incorrecte
au cas par cas. Pour mieux comprendre le concept, il peut
être utile de changer les paramètres de Rapport détaillé
de manière à afficher les probabilités affectées par un
réseau PNN à chaque catégorie possible pour la variable
dépendante. Pour ce faire, sélectionnez Paramètres
d’application dans le menu Utilitaires et cliquez sur le
menu déroulant à droite de Colonnes des rapports
détaillés. La boîte de dialogue NeuralTools – Colonnes à
afficher dans les rapports détaillés s’affiche.
Sélectionnez-y Probabilité de toutes les catégories (PNN)
dans la colonne Test. Formez ensuite un réseau PNN sur
un ensemble de données comportant au moins 3
catégories dans la variable dépendante (l’exemple
Financements Autos.xls peut être utilisé ici), sous
sélection de Test automatique. Dans le rapport détaillé
résultant, observez le rapport entre les valeurs de la
colonne Incorrectes% et les probabilités affectées à
chaque catégorie possible. La valeur Incorrectes%
représente la somme des probabilités de toutes les
catégories incorrectes.
68
Commandes
3)
Matrice de classification – Compare les catégories réelles
et prédites catégorie par catégorie. Par exemple, la
matrice de classification peut révéler qu’un réseau détecte
correctement une affection médicale chez les patients qui
en sont atteints, mais qu’il a aussi tendance à créer de
fausses alertes chez les patients non affectés.
4)
Histogramme de probabilité de catégories incorrectes
(pour les réseaux PNN seulement) - Voir « Probabilité
incorrecte moyenne », ci-dessus, pour une explication de
la « probabilité de catégories incorrectes ».
Pour la prédiction numérique, les statistiques clés et graphiques du
rapport de synthèse sont :
1)
% mauv. prédictions - Une prédiction est « mauvaise » si
elle tombe en dehors de la marge définie autour de la
valeur réelle ; la largeur de la marge est définie sous le
paramètre « Tolérance Bonnes/Mauvaises (Test) » dans la
boîte de dialogue Paramètres d’application.
2)
Erreur moyenne quadratique - Mesure d’écart de
prédiction par rapport à la valeur réelle (calculée comme
la racine carrée de l’écart quadratique moyen).
3)
Erreur absolue moyenne – Écart moyen des prédictions
par rapport aux valeurs réelles.
4)
Histogramme de résidus – Un « résidu » représente la
différence entre la valeur réelle et la valeur prédite.
5)
Les diagrammes de dispersion affichent les rapports
entre les valeurs réelles, les valeurs prédites et les résidus.
Référence : Commandes du menu NeuralTools
69
• Rapport de test détaillé Ce rapport s’affiche en regard de
l’ensemble de données soumis au test. Il révèle la qualité de
prédiction du réseau formé sur les valeurs de sortie
individuelles de l’ensemble de données soumis au test.
Dans le rapport détaillé, les prédictions sont qualifiées de « Bonne »
ou « Mauvaise » suivant le niveau de tolérance configuré dans les
Paramètres d’application. Si plusieurs tests sont exécutés, d’autres
rapports détaillés peuvent venir s’ajouter à droite de l’ensemble de
données du test, pour révéler la variation des prédictions relatives
aux cas individuels sous les nouveaux réseaux testés.
70
Commandes
Rapports
sommaires des
rapports détaillés
Un commentaire contextuel Excel donne accès à l’information du
Rapport sommaire en cours même d’examen d’un rapport détaillé. Il
suffit de glisser la souris sur le titre du rapport pour afficher le
commentaire contextuel. Remarque : Pour permettre l’affichage des
commentaires contextuels, les commentaires doivent être activés sous
la commande Excel Outils, boîte de dialogue Options, onglet
Affichage.
Référence : Commandes du menu NeuralTools
71
Commande Prédire
Spécifie les paramètres de prédiction de valeurs à l’aide d’un
réseau neuronal formé et exécute la prédiction.
La commande Prédire permet 1) de spécifier les paramètres à utiliser
pour la prédiction de valeurs à l’aide d’un réseau neuronal formé et 2)
d’exécuter la prédiction.
Les données à prédire concernent généralement des cas à valeur de
variable dépendante inconnue. Options de la boîte de dialogue
Prédiction :
72
•
Ensemble de données – Indique l’ensemble de données à
utiliser pour la prédiction. Cet ensemble de données doit être
défini à l’aide du Gestionnaire des ensembles de données et
doit être présent sur la feuille de calcul active.
•
Réseau – Spécifie le nom et l’emplacement du réseau
neuronal à utiliser pour la prédiction. Les réseaux neuronaux
peuvent être enregistrés dans un classeur Excel ou dans un
fichier sur disque. Cliquez sur Parcourir… pour changer le
nom ou l’emplacement affiché.
Commandes
•
Correspondance des variables – Spécifie comment la
correspondance sera établie entre les variables de l’ensemble
de données à utiliser pour la prédiction et celles de l’ensemble
utilisé pour la formation du réseau. Cliquez sur Modifier…
pour changer le type de correspondance. Pour plus de détails
sur la correspondance des variables, voir la section de ce
chapitre consacrée à la commande Tester.
•
Prédire pour – Sélectionne les cas à soumettre aux
prédictions. On prédit généralement les cas à valeurs
dépendantes manquantes, mais la prédiction peut aussi être
demandée pour tous les cas (y compris ceux dont la valeur de
variable dépendante est connue). En présence d’une variable
balise dans l’ensemble de données, les valeurs de variable
dépendante ne seront prédites que pour les cas marqués de la
balise « prédire ».
•
Options – Les options de ce volet définissent l’emplacement
des valeurs prédites et configurent l’activation ou non de la
prédiction en direct.
1)
Placer les valeurs prédites directement dans l'ensemble
de données. Cette option spécifie que les valeurs
prédites doivent être disposées directement à
l’emplacement de la variable dépendante dans
l’ensemble de données pour chaque cas prédit, en plus,
éventuellement, de leur placement dans le rapport
détaillé (suivant que l’option est sélectionnée ou non
sous la rubrique Rapports à générer des Paramètres
d’application). Attention : cette option de placement
remplace le contenu éventuel de la cellule concernée. Les
valeurs prédites sont identifiables par leur couleur dans
l’ensemble de données.
2)
Activer la prédiction en direct – Spécifie que
NeuralTools va placer une formule dans les cellules des
valeurs de variable dépendante prédites. Ces formules
serviront au calcul des valeurs prédites en cas de
changement des valeurs indépendantes.
Référence : Commandes du menu NeuralTools
73
3)
Prédiction en direct
Exclure la prédiction en direct pour les cas à valeurs
manquantes ou incorrectes – Spécifie qu’aucune
formule de prédiction en direct ne doit être ajoutée
quand les valeurs de variable d’entrée d’un cas sont
manquantes. Ces valeurs manquantes causent en effet le
renvoi d’erreurs sous prédiction en direct. Il peut
cependant être utile de permettre l’insertion de formules
dans les cas où les valeurs indépendantes sont
manquantes : dès l’apport des valeurs manquantes, la
prédiction s’affiche ainsi automatiquement.
Puissante fonctionnalité de NeuralTools (version Industrial
uniquement) la prédiction en direct permet l’exécution
automatique de prédictions dans Excel, sans avoir à passer
par une opération Prédire spécifique. Sous prédiction en
direct, NeuralTools place une formule dans les cellules
d’affichage des valeurs de variable dépendante prédites.
Cette formule recourt à une fonction NeuralTools
personnalisée de calcul des valeurs prédites. Par exemple :
=NetOutputPrediction(_PALDS_DG25B8C82B!$A$140,
"DG25B8C82B", "VG1DD83AF2", 'Données
Prédiction'!$A$6:$I$6, A7:I7)
NeuralTools ajoute la formule à la feuille de calcul, sans
intervention de l’utilisateur. Les arguments indiquent à
NeuralTools le réseau formé utilisé, ainsi que l’emplacement
des valeurs indépendantes sur la feuille de calcul. Lors de
l’ajout ou du changement des valeurs variables
indépendantes en entrée d’un cas, NeuralTools renvoie
automatiquement une nouvelle valeur prédite. L’approche
simplifie l’ajout et la génération de prédictions de nouveaux
cas au moyen d’un réseau formé existant.
Remarque : Si la prédiction doit reposer sur des valeurs de
cellule qui ne changeront probablement pas, il est
recommandé de désélectionner la prédiction en direct dans la
boîte de dialogue de formation ou de prédiction, pour
minimiser la durée de recalcul du classeur.
74
Commandes
Aperçu Prédiction
La boîte de dialogue Aperçu Prédiction affiche la configuration de
prédiction pour l’ensemble de données sélectionné, ainsi que les
erreurs éventuellement relevées dans les données ou les paramètres,
avant de lancer la prédiction en soi. Le contenu de cette boîte de
dialogue présente tous les paramètres sélectionnés pour la prédiction,
tels que rapportés par NeuralTools. Le volet Erreurs et
avertissements décrit les problèmes que NeuralTools a
éventuellement détectés dans les données, afin de permettre toutes
corrections nécessaires avant la prédiction.
Référence : Commandes du menu NeuralTools
75
Rapports de
prédiction
Les rapports de synthèse et détaillé peuvent tous deux être créés
après la prédiction. Ces rapports présentent le détail de performance
du réseau neuronal formé sur l’ensemble de données. Le contenu de
ces rapports est configuré dans la boîte de dialogue Paramètres
d’application, sous les rubriques Rapports à générer et Colonnes des
rapports détaillés.
• Rapport de prédiction détaillé. Ce rapport se place en regard
de l’ensemble de données soumis à la prédiction. Il sert
d’emplacement aux prédictions quand l’utilisateur ne désire
pas les placer dans la variable dépendante de l’ensemble de
données en soi. Si la variable dépendante contient les données
historiques de certains cas, il vaut parfois mieux éviter de
mélanger ces cas historiques avec les prédictions du réseau.
Si plusieurs prédictions sont exécutées, d’autres rapports détaillés
peuvent venir s’ajouter à droite de l’ensemble de données, pour
révéler la variation des prédictions relatives aux cas individuels sous
les nouveaux réseaux utilisés.
76
Commandes
Utilitaires
Commande Paramètres d’application
Spécifie les paramètres des rapports de formation, test et
prédiction.
La commande Paramètres d’application permet la sélection 1) des
rapports de formation, test et prédiction à produire, 2) des paramètres
de formation par défaut et 3) des paramètres de prédiction et
d’exécution à utiliser par défaut. Les Paramètres d’application définis
représentent les valeurs par défaut des boîtes de dialogue Formation,
Test et Prédiction. Ces paramètres sont décrits en détails dans les
sections consacrées à ces boîtes de dialogue. Les autres paramètres
sont décrits ici.
Référence : Commandes du menu NeuralTools
77
Rapports
Les paramètres de rapport suivants peuvent être définis :
• Rapports à générer – Chaque opération effectuée dans
NeuralTools peut produire un rapport de synthèse et un
rapport détaillé. Il est généralement utile de garder le
paramètre de rapports par défaut : certains rapports
n’apportent en effet guère de valeur à certaines opérations. Par
exemple, le rapport détaillé est proposé par défaut pour la
prédiction. Le rapport de synthèse ne serait guère utile.
Les rapports de synthèse occupent leur propre feuille de calcul,
tandis que ceux détaillés se disposent dans les colonnes libres à
droite de l’ensemble de données, sur la même feuille que ce
dernier.
• Les options suivantes sont proposées pour Placer les rapports
de synthèse dans :
-
Nouveau classeur si un nouveau classeur doit être créé
pour chaque rapport. Le classeur actif peut être réutilisé
pour les rapports.
• Les options d’emplacement de rapport détaillé suivantes sont
proposées :
78
-
Remplacer les rapports existants remplace les colonnes
des rapports détaillés précédents d'un ensemble de
données par celles des nouveaux rapports détaillés (pour
supprimer manuellement un rapport détaillé, on
sélectionnera les colonnes entières qui le contiennent en
cliquant-glissant sur leurs titres et on choisira ensuite la
commande Supprimer du menu Edition).
-
A droite de l’ensemble de données dispose les nouveaux
rapports détaillés dans de nouvelles colonnes insérées à
droite de l’ensemble de données.
-
A droite des rapports existants dispose les nouveaux
rapports détaillés dans les colonnes situées à droite de
l’ensemble de données et des rapports existants.
Utilitaires
• Colonnes des rapports détaillés. Pour chaque ligne
sélectionnée, une colonne s’affichera dans le rapport détaillé à
droite de l’ensemble de données, pour afficher l’information
relative à chaque cas.
Les colonnes suivantes peuvent être affichées :
1)
Balise Les balises « former », « tester » et « prédire »
s’affichent pour chaque cas de formation, test ou
prédiction pertinent.
2)
Prédiction obtenue du réseau – Nombre ou catégorie
prédit(e) par le réseau.
3)
Probabilité de catégorie prédite (PNN) – Les réseaux
PNN ne prédisent pas seulement une catégorie inconnue,
ils affectent aussi une probabilité de catégorie. Non
disponible sous prédiction de catégories par réseaux
MLF. Non applicable à la prédiction numérique.
4)
Probabilité de catégories incorrectes (PNN) – Somme des
probabilités affectées par un réseau PNN à des catégories
incorrectes. Par exemple, si, pour un cas donné, un réseau
affecte une probabilité de 30 % à « rouge », de 20 % à
« jaune » et de 50 % à « vert » et que l’on sait que la
réponse correcte est « rouge », la valeur du cas est 20 % +
50 % = 70 %. Cette colonne apporte une mesure de
l’erreur au cas par cas pour la prédiction catégorielle,
équivalent de l’erreur résiduelle pour la prédiction
numérique.
5)
Erreur résiduelle – Différence entre la valeur dépendante
réelle et prédite. Non applicable à la prédiction de
catégorie.
Référence : Commandes du menu NeuralTools
79
6)
Bonnes/Mauvaises évaluations – Pour la prédiction
numérique, cette colonne indique si la prédiction relative
à un cas donné tombe dans la marge définie autour de la
valeur actuelle ; la largeur de la marge est la « Tolérance
Bonnes/Mauvaises ». Pour la prédiction catégorielle, la
colonne indique simplement si la catégorie prédite est
conforme ou non à celle réelle.
7)
Probabilité de toutes les catégories (PNN) – Si cette
option est sélectionnée et qu'un réseau PNN est formé,
une colonne est insérée pour chaque catégorie
dépendante. Par exemple, si le réseau doit prédire une
couleur, les colonnes « %rouge », « %jaune » et « %vert »
pourront indiquer les probabilités affectées à chaque
couleur.
• Tolérance Bonnes/Mauvaises. Pour le test et la formation, si
une prédiction numérique est conforme au % entré de la valeur
de variable dépendante réelle, elle est marquée « Bonne ».
80
Utilitaires
Commande Gestionnaire de réseaux neuronaux
Permet la copie, le déplacement et la suppression de réseaux
neuronaux formés.
La commande Gestionnaire de réseaux neuronaux sert à gérer les
réseaux neuronaux formés, pour les déplacer par exemple d’un
classeur ou d’en fichier vers un autre ou pour y ajouter une
information descriptive.
Les réseaux neuronaux peuvent être stockés dans un classeur Excel ou
dans un fichier sur disque. Un nombre illimité de réseaux peut être
placé dans un même classeur Excel. Le Gestionnaire de réseaux
neuronaux permet le déplacement de réseaux vers de nouveaux
classeurs ou fichiers. Il permet aussi leur suppression ou leur
remplacement. On peut ainsi analyser aisément les ensembles de
données de différents classeurs avec les réseaux formés existants, en
l’absence même du classeur des données de formation.
Référence : Commandes du menu NeuralTools
81
Options du Gestionnaire de réseaux neuronaux :
• Copier – Copie un réseau neuronal formé vers un autre
emplacement. Il suffit de sélectionner le classeur ou fichier
destinataire.
• Supprimer – Supprime un réseau neuronal formé.
• Remplacer – Remplace un réseau neuronal formé par un
nouveau réseau. Cette fonction est disponible pour les réseaux
utilisés pour la prédiction en direct. Après le remplacement, les
prédictions en direct précédemment effectuées au moyen de
l’ancien réseau le sont avec le nouveau. L’opération ne
s’applique cependant pas aux rapports détaillés. Si un rapport
détaillé contient des cellules de prédiction en direct liées au
réseau à remplacer, ces cellules contiennent des valeurs fixes
après le remplacement.
• Info réseau – Permet l’ajout d’une information descriptive utile
à l’identification du réseau formé et des conditions de sa
formation.
82
Utilitaires
Commande Utilitaire Données manquantes
Permet le remplacement de données manquantes et de valeurs
erronées dans un ensemble de données par des valeurs
artificielles.
La commande Utilitaire Données manquantes permet de remplacer
des données manquantes ou autres données non désirables d’un
ensemble de données par des valeurs artificielles. NeuralTools omet à
la formation, au test et à la prédiction les cas à valeurs variables
manquantes. Il est par conséquent souvent utile de corriger ces
valeurs avant le traitement.
La boîte de dialogue Aperçu Formation avertit de la présence de cas à
valeurs manquantes dans un ensemble de données. La commande
Utilitaire Données manquantes permet de remédier à la situation.
Référence : Commandes du menu NeuralTools
83
La boîte de dialogue Utilitaire Données manquantes propose les
options suivantes :
•
Variables à modifier – Liste des variables de l’ensemble de
données de la feuille de calcul active, indiquant le nombre de
données manquantes, d’erreurs et (pour les variables
numériques) de données non numériques. Cocher une variable la
sélectionne en vue du remplacement des données manquantes ou
autres non désirables.
La liste s’accompagne d’un menu contextuel (clic droit) dont les
commandes permettent de sélectionner ou désélectionner des
groupes de variables.
•
Valeurs à remplacer – Les types de valeurs à remplacer dans les
variables sélectionnées se sélectionnent ici. Valeur spécifique
permet de remplacer toutes les instances d’une valeur spécifique
de variable par une autre valeur.
•
Remplacement – Les paramètres définis ici spécifient les valeurs
à utiliser dans l'ensemble de données en remplacement des
données manquantes ou autres non désirables. Différentes
valeurs sont proposées pour les variables catégorielles et
numériques :
Variables catégorielles – Options :
84
-
Catégorie la plus ou la moins fréquente – la valeur
catégorielle la plus ou la moins fréquente des cas de
l'ensemble de données.
-
Catégorie voisine – la valeur catégorielle du cas
voisin de celui dont la valeur est manquante dans
l’ensemble de données.
-
Catégorie aléatoire – valeur catégorielle sélectionnée
aléatoirement parmi celles de l’ensemble de données.
-
Catégorie spécifiée – règle toutes les valeurs
manquantes ou indésirables sur une valeur spécifiée.
Utilitaires
Variables numériques – Options :
-
Valeur moyenne de la variable – la valeur moyenne
de la variable sur tous les cas de l’ensemble de
données.
-
Valeur médiane de la variable – la valeur médiane
de la variable sur tous les cas de l’ensemble de
données.
-
Interpolation des valeurs voisines – la valeur
calculée par interpolation entre les valeurs de
variable des cas de l’ensemble de données voisins du
cas dont la valeur est manquante.
-
Val. aléatoire (entre min. et max.) – une valeur
sélectionnée aléatoirement entre le minimum et le
maximum de la variable pour tous les cas de
l’ensemble de données.
Pour les deux types de variables, l’option Effacer les cellules efface
les valeurs sélectionnées pour la variable.
Bon à savoir…
La boîte de dialogue Utilitaire Valeurs manquantes offre une
approche possible au problème des données manquantes, par
génération de données artificielles la où les données réelles font
défaut. Il vaut cependant parfois mieux laisser les données
manquantes comme cellules blanches et laisser NeuralTools omettre
les cas concernés. On notera que NeuralTools ne reconnaît pas les
symboles spéciaux tels que le point d'interrogation (?) comme
représentant des données manquantes. Les points d’interrogation
doivent être supprimés : ils peuvent l’être avec l’aide de l’Utilitaire
Données manquantes, par sélection de « Valeur spécifique » dans le
volet Valeurs à remplacer et de « Effacer les cellules » dans le volet
Remplacement.
Il est parfois possible aussi d’utiliser NeuralTools pour prédire les
valeurs manquantes d’une variable indépendante depuis d’autres
variables indépendantes ne présentant pas ou guère de données
manquantes. Les résultats du test indiquent la fiabilité d’un réseau
formé pour prédire les valeurs manquantes.
Référence : Commandes du menu NeuralTools
85
86
En savoir plus sur les réseaux
neuronaux
Notions élémentaires
Un réseau neuronal est un système qui, au départ d’entrées
numériques, effectue des calculs sur ces entrées et produit, en sortie,
une ou plusieurs valeurs numériques. Lorsqu’un réseau neuronal est
conçu et formé pour une application particulière, il produit des
valeurs de sortie approximativement correctes pour les entrées
données. Ainsi, un réseau pourrait avoir pour entrées des valeurs
représentant certaines caractéristiques aisément mesurées de
l’abalone (un animal marin) : longueur, diamètre et poids, par
exemple. Les calculs effectués au sein du réseau produiraient une
seule valeur numérique, généralement proche de l’âge de l’animal
(l’âge d’un abalone est plus difficile à déterminer).
Les réseaux neuronaux s’inspirent de la structure du cerveau. Le
cerveau se compose d’un grand nombre de cellules appelées
« neurones ». Un neurone reçoit les impulsions d’autres neurones à
travers un certain nombre de « dendrites ». Suivant les impulsions
reçues, un neurone peut envoyer un signal à d’autres neurones, à
travers son seul « axone » relié aux dendrites d’autres neurones. À
l’image du cerveau, les réseaux neuronaux artificiels se composent
d’éléments recevant chacun un nombre d’entrées et générant une
seule sortie. Cette sortie représente une fonction relativement simple
des entrées.
En savoir plus sur les réseaux neuronaux
87
Réseaux neuronaux vs méthodes statistiques
Les réseaux neuronaux apportent une solution apte à remplacer les
méthodes statistiques traditionnelles. À l'image de la régression
linéaire, ils servent à l’approximation d’une fonction. Comme
l’analyse discriminante et la régression logistiques, ils sont utiles à la
classification. L'avantage des réseaux neuronaux est qu’ils offrent, par
rapport aux techniques linéaires conventionnelles (régression linéaire
et analyse discriminante linéaire), une capacité de modélisation de
fonctions extrêmement complexes. Les techniques d’optimisation de
modèles linéaires étaient bien connues avant l’invention des réseaux
neuronaux artificiels, vers le milieu du 20e siècle. Le développement
d’algorithmes de formation efficace de réseaux neuronaux a, certes,
pris de nombreuses années. Mais on dispose aujourd’hui d’une
gamme intéressante d’algorithmes de formation sophistiqués, offrant
une solution de remplacement attrayante aux méthodes
traditionnelles.
Structure de réseau neuronal
La structure d’un réseau neuronal se compose d’unités connectées,
appelées « nœuds » ou « neurones ». Chaque neurone effectue une
portion des calculs au sein du réseau : un neurone prend quelques
chiffres comme entrées, effectue un calcul relativement simple sur ces
entrées et renvoie une sortie. La valeur de sortie d’un neurone devient
l’une des valeurs en entrée d’un autre neurone, jusqu’aux neurones
produisant les valeurs de sortie finale du système.
Les neurones s’organisent en couches. Les neurones de la couche
d’entrée reçoivent les entrées devant servir à leurs calculs : la
longueur, le diamètre et le poids d’un abalone individuel, par
exemple. Ces valeurs sont transmises aux neurones de la première
couche cachée. Ces neurones effectuent leurs calculs et passent leurs
sorties à la couche suivante. Cette deuxième couche peut aussi être
cachée. Les sorties des neurones de la dernière couche cachée sont
transmis au ou aux neurones appelés à produire les sorties finales du
réseau : l’âge de l’abalone, dans notre exemple.
88
Notions élémentaires
Prédiction numérique et catégorielle
Les réseaux neuronaux appelés à prédire des valeurs numériques
n’ont généralement qu’une sortie. La raison en est que les réseaux à
sortie unique sont plus fiables que ceux à sorties multiples et qu’ils
conviennent à pratiquement tous les problèmes de prédiction. Par
exemple, plutôt que de construire un réseau unique de prédiction du
volume et du cours d’une action pour le lendemain, il vaut mieux en
construire un pour les prédictions de cours et un autre pour celles de
volume. En revanche, les réseaux neuronaux destinés à la
classification / prédiction de catégorie produisent des sorties
multiples. Si l’on veut, par exemple, prédire si le cours d’une action
« augmentera de plus d’un pour cent », « diminuera de plus d’un
pour cent » ou « ne variera pas de plus d’un pour cent » le lendemain,
le réseau produira trois sorties numériques et la sortie la plus grande
indiquera la catégorie sélectionnée par le réseau.
Formation d’un réseau
La formation d’un réseau est le processus de raffinement des
paramètres du calcul : le but est que le réseau produise des valeurs de
sortie à peu près correctes pour les entrées données. Le processus est
guidé par les données de formation d’une part, et par l’algorithme de
formation d’autre part. L’algorithme de formation sélectionne
différents ensembles de paramètres de calcul et évalue chaque
ensemble par application du réseau à chaque cas de formation et
détermination de la qualité des réponses produites. Chaque ensemble
de paramètres forme un « essai ». L’algorithme de formation
sélectionne de nouveaux ensembles de paramètres en fonction des
résultats des essais précédents.
Traitement informatique des réseaux neuronaux
Un réseau neuronal est un modèle de calculs pouvant être soumis à
différents types de matériel informatique. Un réseau neuronal peut
reposer sur de petits éléments de traitement, effectuant chacun la
tâche d’un neurone. Les réseaux neuronaux sont cependant
généralement mis en œuvre sur un ordinateur doté d’un processeur
puissant, tel que la plupart des systèmes utilisés aujourd’hui. Sur
ordinateur monoprocesseur, le programme, tel que NeuralTools,
recourt à un même processeur pour l’exécution des calculs de chaque
neurones. Dans ce cas, le concept du neurone décrit une partie des
En savoir plus sur les réseaux neuronaux
89
calculs nécessaires à l’obtention d’une prédiction, par opposition à un
élément de traitement physique.
Types de réseaux neuronaux
Les différents types de réseaux neuronaux se distinguent par leur
structure, les types de calcul effectués par leurs neurones et leurs
algorithmes de formation. NeuralTools propose notamment le type
MLF (Multi-Layer Feedforward). Sous ce type, l’utilisateur de
NeuralTools peut spécifier (avec l’aide du programme, comme décrit
dans la section relative aux réseaux MLF) la présence d’une ou deux
couches de neurones cachés, ainsi que le nombre de neurones
contenus dans ces couches cachées. NeuralTools propose aussi les
réseaux de type GRNN (Generalized Regression Neural Net) et
PNN (Probabilistic Neural Net) : ces deux types sont étroitement liés,
le premier servant à la prédiction numérique et le second, à la
prédiction de catégorie / classification. Sous les types GRNN/PNN,
l’utilisateur ne doit prendre aucune décision quant à la structure du
réseau. Le réseau compte toujours deux couches de neurones cachés :
la première couche cachée comporte un neurone par cas de formation
et la taille de la seconde est déterminée par certains faits ayant trait
aux données de formation.
Les sections restantes de ce chapitre décrivent en plus de détails
chaque type de réseau neuronal proposé dans NeuralTools.
90
Notions élémentaires
Réseaux feedforward à couches multiples
(MLF)
Les réseaux feedforward MLF (également appelés « réseaux
perceptron ») sont des systèmes capables d’approximation de
fonctions complexes, et donc de modélisation de rapports complexes
entre des variables indépendantes et une variable dépendante.
Architecture MLF
Le diagramme ci-dessous illustre un réseau MLF de prédiction
numérique à trois variables numériques indépendantes. Sa
configuration compte 2 neurones/nœuds dans la première couche
cachée et 3 neurones/nœuds dans la seconde couche cachée.
Sortie
Seconde couche cachée
Première couche cachée
Entrées
En savoir plus sur les réseaux neuronaux
91
Le comportement du réseau est déterminé par :
• sa topologie (le nombre de couches cachées et les nombres de
nœuds dans ces couches),
• les « poids » des connexions (paramètre affecté à chaque
connexion) et les conditions de biais (paramètre affecté à chaque
neurone),
• la fonction d’activation/transfert, utilisée pour convertir les
entrées de chaque neurone en sa sortie.
Plus spécifiquement, un neurone caché à n entrées calcule d'abord la
somme pondérée de ses entrées :
Somme = en0 * p0 + en1 * p1 + ... + enn * pn + biais
où en0 à enn représentent les sorties des neurones de la couche
précédente, et p0 à pn les poids de connexion ; chaque neurone a sa
propre valeur de biais. La fonction d’activation s’applique ensuite à la
Somme pour générer la sortie du neurone.
Une fonction sigmoïde (en s) sert de fonction d’activation des
neurones de couche cachée. Plus spécifiquement, NeuralTools utilise
la fonction tangente hyperbolique. Dans NeuralTools, le neurone de
sortie utilise l’identité comme fonction d’activation : il renvoie
simplement la somme pondérée de ses entrées. Les réseaux
neuronaux sont parfois construits à l’aide de fonctions d’activation
sigmoïdes dans les neurones de sortie. L’approche n’est cependant
pas nécessaire à l’approximation de fonctions complexes. De plus, les
fonctions sigmoïdes ont une plage de sortie restreinte (-1 à 1 pour la
fonction tangente hyperbolique) et il n'est pas rare de voir des valeurs
dépendantes en dehors de cette plage. Le recours à une fonction
sigmoïde dans le neurone de sortie exigerait par conséquent une
transformation supplémentaire des valeurs de sortie avant le passage
des données de formation au réseau.
Les réseaux MLF de classification ont plusieurs neurones de sortie,
dont un pour chaque catégorie dépendante possible. Le réseau
classifie un cas par calcul de ses sorties numériques. La catégorie
sélectionnée est celle correspondant au neurone qui produit la valeur
la plus élevée.
92
Réseaux feedforward à couches multiples (MLF)
Formation de réseau MLF
La formation d’un réseau MLF consiste à trouver un ensemble de
poids de connexion et de biais tel que le réseau produira
généralement des réponses correctes lorsque de nouveaux cas lui
seront soumis. (Pour la simplicité de la présentation, le biais est omis
dans l’exemple ci-dessous.) La formation commence par l’affectation
d’un ensemble de poids de connexion aléatoires. Une prédiction est
émise pour chaque cas de formation (par présentation des valeurs
indépendantes en entrée pour obtenir la sortie). La sortie sera très
probablement différente de la valeur dépendante connue. Ainsi, pour
chaque cas de formation, on obtient une valeur d’erreur. Ces valeurs
servent au calcul d’une mesure d’erreur pour l’ensemble de formation
tout entier : on découvre ainsi la qualité du réseau face aux poids
initiaux.
Il n’est guère probable que le réseau produise de bons résultats sous
l’affectation aléatoire initiale de poids. On passe donc aux essais
suivants, sous d’autres affectations de poids. Ces affectations ne sont
cependant plus aléatoires, mais déterminées par l’algorithme de
formation : la méthode de sélection des poids de connexion en
fonction des résultats des essais antérieurs. Le problème est une
question d’optimisation : il s’agit de minimiser la mesure d’erreur en
changeant les poids de connexion.
Histoire
La première réussite algorithmique de formation des poids de
connexion dans les réseaux MFL revient à la « rétropropagation ». Les
chercheurs tendent aujourd'hui à favoriser d’autres algorithmes, plus
rapides et plus susceptibles de découvrir l’optimum global.
NeuralTools utilise la « méthode du gradient conjugué », dans la
catégorie des méthodes d’optimisation du « second ordre ». Les
méthodes d’optimisation « déterministes » sont conçues pour trouver
le minimum local d’une fonction : elles procèdent avec efficacité le
long de la pente de la fonction d’erreur. Pour réduire le risque de
trouver le minimum local plutôt que global, NeuralTools combine les
méthodes d’optimisation « déterministes » aux méthodes
« stochastiques ». Plus spécifiquement, la méthode stochastique du
« recuit simulé » est utilisée en combinaison avec celle du gradient
conjugué. L’algorithme décide de la méthode à utiliser à un point
donné, en fonction des résultats des essais précédents. Pour plus de
détails sur la méthode du gradient conjugué, voir Bishop (1995) et
Masters (1995). Pour plus de détails sur le recuit simulé, voir Masters
(1995).
En savoir plus sur les réseaux neuronaux
93
Mesures d’erreur
La mesure d’erreur utilisée lors de la formation de réseaux de
prédiction numérique est l’erreur quadratique moyenne sur tous les
cas de formation, soit la moyenne du carré de la différence entre la
réponse correcte et la réponse produite par le réseau. Pour la
classification, comme il y a plusieurs sorties par cas de formation (une
sortie par catégorie dépendante), on calcule l’erreur quadratique
moyenne sur toutes les sorties de tous les cas de formation, par
référence aux valeurs de sortie désirées : pour chaque cas de
formation, la valeur de sortie doit être proche de 1 pour la sortie
correspondant à la catégorie correcte et les valeurs de sortie restantes
doivent être proches de 0.
Durée de formation
L'algorithme de formation MLF de NeuralTools redémarre plusieurs
fois, sous différents poids initiaux. Plus la formation est longue, plus
le réseau en bénéficie donc. Plus le nombre de démarrages est grand,
plus le réseau a de chances de trouver le minimum global de la
fonction d’erreur.
Sélection de
topologie
La sélection du nombre de couches et des nombres de neurones des
couches détermine la capacité du réseau à apprendre le rapport entre
les variables indépendantes et la variable dépendante. Un réseau à
couche cachée unique et deux neurones cachés n’atteindra
généralement pas un niveau d’erreur satisfaisant. L’accroissement du
nombre de couches et de neurones a cependant son prix, et il n’en
vaut pas souvent la peine. Une simple couche cachée suffit dans la
plupart des cas. Deux couches exigent généralement une durée de
formation inutilement longue. Cela d’autant plus que quelques
neurones dans une couche unique sont généralement suffisants aussi.
NeuralTools peut configurer automatiquement la topologie du réseau
en fonction des données de formation. La fonction de recherche du
réseau optimal offre cependant une approche plus fiable. Dans le
cadre de cette recherche, plusieurs réseaux à couche cachée unique et
différents nombres de neurones sont formés. Par défaut, cinq réseaux
MLF, de 2 à 6 neurones cachés, sont inclus. Si le temps le permet, la
série peut être élargie. Il est toutefois recommandé de commencer
avec un réseau à deux neurones, pour éviter la surformation.
94
Réseaux feedforward à couches multiples (MLF)
Éviter la
surformation
Le terme « surformation » désigne une situation où le réseau apprend
non seulement les caractéristiques générales de la relation entre les
variables indépendantes et la variable dépendante, mais où il se met
aussi à apprendre les faits relatifs aux cas de formation non
applicables de manière générale (dans les cas autres que de
formation). Pour résoudre ce problème, l’ensemble de test est parfois
réparti en un ensemble de test en cours de formation et un ensemble
de test proprement dit, à utiliser après la formation. L’erreur de
l’ensemble de test en cours de formation est calculée périodiquement
pendant la formation. Dès qu’elle se met à croître, l’indication est que
le réseau commence à se surformer et la formation est interrompue.
NeuralTools adopte une approche différente pour éviter la
surformation. Celle des deux ensembles de test distincts est souvent
peu réaliste, en ce que les données ne sont généralement pas
suffisantes pour permettre la division en un ensemble de formation et
deux ensembles de test. La hausse de l’erreur au test en cours de
formation n'est d'ailleurs pas un indicateur de surformation fiable :
l'accroissement peut en effet être local et l'erreur pourrait continuer à
baisser si la formation continuait. La fonction NeuralTools de
recherche du réseau optimal est conçue pour éviter la surformation.
Sous la configuration par défaut, la recherche commence par un
réseau à deux neurones, généralement trop petit pour être surformé.
Toujours sous configuration par défaut, la fonction forme des réseaux
comportant jusqu’à six neurones. Le cas échéant, la surformation des
réseaux à cinq ou six réseaux se révèle dans les résultats du simple
ensemble de test : l’un des réseaux à deux, trois ou quatre neurones
aura la plus faible erreur de test.
En savoir plus sur les réseaux neuronaux
95
96
Réseaux GRNN et PNN
Les réseaux GRNN (Generalized Regression Neural Network) et PNN
(Probabilistic Neural Network) reposent sur un concept similaire.
Les premiers servent à la prédiction numérique / approximation de
fonction et les seconds, à la prédiction de catégorie / classification.
Les deux types de réseaux ont été proposés par Donald Specht
("Probabilistic Neural Networks", Neural Networks, 3, 1990, pp. 109118; "A General Regression Neural Network", IEEE Transactions on
Neural Networks, 2, 1991, pp. 568-576). Ils sont couverts dans Masters
(1995), dont la présentation est résumée ci-dessous. Ne manquez pas
de consulter ces sources pour plus de détails.
Réseaux GRNN
Considérons, par exemple, l’ensemble de données de formation
présenté dans le graphique, avec une variable numérique
indépendante et une variable numérique dépendante.
1200
1000
800
600
400
200
0
-12 -10 -8 -6 -4 -200
-2 0
-400
-600
-800
-1000
En savoir plus sur les réseaux neuronaux
2
4
6
8 10 12
97
Un observateur humain peut discerner un motif dans les données. On
peut estimer que la valeur dépendante inconnue correspondant à la
valeur indépendante 6 est supérieure à 200 et inférieure à 400. Cette
estimation n’est pas basée sur les deux cas connus les plus proches
(on aurait alors une valeur inférieure à 200) : elle tient compte des cas
situés au-delà des plus proches. On ne s’intéresse cependant pas aux
cas à valeurs indépendantes proches de -10 : plus un cas connu est
proche de celui inconnu, plus il reçoit de poids dans l’estimation de la
valeur dépendante inconnue. Le réseau GRNN repose sur ces notions
intuitives. Chaque cas de formation est représenté dans le réseau. En
présence d'un cas qui lui est soumis, le réseau calcule la valeur
dépendante prédite en fonction des valeurs dépendantes de chaque
cas de formation, les cas les plus proches contribuant plus
significativement à la valeur de la sortie.
Architecture GRNN
Un réseau GRNN à deux variables numériques indépendantes se
structure comme illustré dans le graphique (en présence de trois cas
de formation seulement) :
Sortie
Couche de sommation (nœuds
numérateur et dénominateur)
Couche de motifs (un neurone
par cas de formation)
Entrées
98
Réseaux GRNN et PNN
La couche de motifs contient un nœud par cas de formation. La
soumission d’un cas de formation au réseau consiste ici à présenter
deux valeurs numériques indépendantes. Chaque neurone de la
couche de motifs calcule sa distance par rapport au cas présenté. Les
valeurs transmises aux nœuds numérateur et dénominateur sont des
fonctions de la distance et de la valeur dépendante. Les deux nœuds
de la couche de sommation totalisent ses entrées, tandis que le nœud
de sortie les divise pour générer la prédiction.
La fonction de distance calculée dans les neurones de la couche de
motifs utilise des « facteurs de lissage » ; chaque entrée a sa propre
valeur de « facteur de lissage ». Avec une seule entrée, plus la valeur
du facteur de lissage est grande, plus les cas de formation distants
deviennent significatifs pour la valeur prédite. Avec deux entrées, le
facteur de lissage se rapporte à la distance le long d’un axe sur un
plan et, en général, en présence d’entrées multiples, à une dimension
dans un espace multidimensionnel.
La formation d’un réseau GRNN consiste à optimiser les facteurs de
lissage pour minimiser l'erreur sur l’ensemble de formation. La
méthode d’optimisation du gradient conjugué est utilisée à cette fin.
La mesure d’erreur utilisée lors de la formation pour évaluer
différents ensembles de facteurs de lissage est l’erreur quadratique
moyenne. Lors du calcul de l’erreur au carré d’un cas de formation
toutefois, ce cas est exclu temporairement de la couche de motifs. La
raison en est que le neurone exclu calculerait une distance zéro,
rendant les autres neurones insignifiants dans le calcul de la
prédiction.
En savoir plus sur les réseaux neuronaux
99
Réseaux PNN
Pour le réseau de type PNN, considérons l’ensemble de données de
formation suivant, comportant deux variables numériques
indépendantes et une variable dépendante à deux catégories :
?
Les cercles représentent les cas de formation dans une catégorie, et les
carrés désignent ceux appartenant à l’autre catégorie. Le but est de
prédire la catégorie du cas indiqué par le point d’interrogation. Un
observateur humain décidera que le cas tombera plus
vraisemblablement dans la catégorie des cercles que dans celle des
carrés. Plusieurs méthodes de classification ne pourraient cependant
pas atteindre cette même conclusion. Les méthodes qui exigent la
séparabilité linéaire des catégories échoueraient. Celles du voisin le
plus proche placeraient le cas inconnu dans la catégorie des carrés.
Les méthodes axées sur les tendances centrales feraient de même, car
le cas inconnu est plus proche du centroïde de la catégorie des carrés
que de celui de la catégorie des cercles.
En revanche, un réseau probabiliste de type PNN effectuera la bonne
prédiction. Il considérera la distance du nouveau cas par rapport à
chaque cas de formation, accordant plus de poids aux cas plus
proches. L’effet du carré voisin en sera éclipsé par les cercles du
voisinage immédiat.
100
Réseaux GRNN et PNN
Architecture PNN
La structure d’un réseau PNN est telle qu’illustrée dans le graphique
ci-dessous. Celui-ci compte deux variables numériques
indépendantes, deux catégories dépendantes et cinq cas de formation
(trois dans une catégorie et deux dans l’autre) :
Sortie
Couche de sommation
(un neurone par
catégorie)
Couche de motifs (un
neurone par cas de
formation)
Entrées
Lorsqu’un cas est présenté au réseau, chaque neurone de la couche de
motifs calcule la distance entre le cas de formation représenté par le
neurone et le cas en entrée. La valeur transmise aux neurones de la
couche de sommation est une fonction de la distance et des facteurs
de lissage. Comme pour les réseaux GRNN, chaque entrée a son
propre facteur de lissage. Ces facteurs déterminent la vitesse à
laquelle l’importance des cas de formation diminue avec la distance.
La couche de sommation compte un neurone par catégorie
dépendante. Chaque neurone totalise les valeurs de sortie des
neurones correspondant aux cas de formation de la catégorie. Les
valeurs de sortie des neurones de la couche de sommation peuvent
être interprétées comme les estimations d’une fonction de densité de
probabilité pour chaque classe. Le neurone de sortie sélectionne la
catégorie à valeur de fonction de probabilité la plus élevée comme
catégorie prédite.
En savoir plus sur les réseaux neuronaux
101
Comme pour les réseaux GRNN, la formation d’un réseau PNN
consiste à optimiser les facteurs de lissage pour minimiser l'erreur sur
l’ensemble de formation. La méthode d’optimisation du gradient
conjugué est également utilisée à cette fin. La mesure d’erreur utilisée
lors de la formation pour évaluer les différents ensembles de facteurs
de lissage se calcule sur la base de toutes les valeurs renvoyées par les
neurones de la couche de sommation pour tous les cas de formation.
Cette mesure tient compte non seulement de la probabilité affectée à
la catégorie correcte, mais aussi de la distribution des probabilités
affectées aux catégories incorrectes (une distribution
approximativement uniforme des probabilités parmi les catégories
incorrectes vaut mieux qu’une catégorie incorrecte présentant une
forte probabilité). On remarquera que lors du calcul de l’erreur d’un
cas de formation, ce cas est exclu temporairement de la couche de
motifs. La raison en est que le neurone exclu calculerait une distance
zéro, rendant les autres neurones insignifiants dans le calcul.
102
Réseaux GRNN et PNN
Comparaison des réseaux MLF et PNN/GRNN
Chaque type de réseau neuronal proposé dans NeuralTools a ses
avantages et ses inconvénients, tels que décrits ici.
Avantages des réseaux GRNN/PNN :
• Formation rapide.
• Spécification topologique (nombre de couches cachées et de
nœuds) non requise.
• Outre la classification, les réseaux PNN renvoient les probabilités
d'aboutissement du cas dans les différentes catégories
dépendantes possibles.
Avantages des réseaux MLF :
• Taille moindre, donc prédictions plus rapides.
• Plus fiables en dehors de la plage de données de formation (quand
la valeur d’une variable indépendante tombe en dehors de la plage
de valeurs de cette variable dans les données de formation) - mais
attention, la prédiction hors plage des données de formation reste
risquée.
• Capacité de généralisation à partir de très petits ensembles de
formation.
En savoir plus sur les réseaux neuronaux
103
104
Comparaison des réseaux MLF et PNN/GRNN
Transformation d’entrée
NeuralTools réduit les variables numériques avant la formation, de
manière à ce que les valeurs de chaque variable se trouvent
approximativement dans la même plage. Le but en est d’égaliser
l’effet des variables sur la sortie nette durant les phases initiales de la
formation. Quand une variable n’est pas significative à la génération
de prédictions correctes, sa faiblesse se reflète à la formation par la
réduction des poids des connexions menant d’une entrée aux
neurones de la première couche cachée. Toutefois, si cette variable
insignifiante présente un ordre de grandeur supérieur à d’autres, les
poids doivent être réduits davantage pour compenser ces valeurs
supérieures.
La réduction utilise la moyenne et l’écart type pour chaque variable,
d’après l'ensemble de formation. La moyenne est soustraite de chaque
valeur et le résultat est divisé par l’écart type. Les mêmes paramètres
de réduction s’appliquent lors du test du réseau formé ou de son
utilisation pour les prédictions.
En savoir plus sur les réseaux neuronaux
105
Les données catégorielles / symboliques ne sont pas directement
exploitables par un réseau neuronal, qui prend ses entrées sous forme
numérique. Ainsi, chaque variable de catégorie indépendante est
représentée par un nombre d’entrées de réseau numériques (une pour
chaque catégorie possible). La méthode de conversion « un de n » est
utilisée. Par exemple, l’ensemble de cas de formation suivant
Âge
État
Montant du prêt
Dépendante :
Remboursement du prêt
41
NY
4000
à temps
32
CT
7000
en retard
54
NJ
6000
à temps
37
NY
5000
défaut
est présenté au réseau sous la forme suivante :
106
Âge
État=
CT
État=
NJ
État=
NY
Montant du
prêt
Dépendante :
Remboursement
du prêt
41
0
0
1
4000
à temps
32
1
0
0
7000
en retard
54
0
1
0
6000
à temps
37
0
0
1
5000
défaut
Transformation d’entrée
Lectures recommandées
Les textes suivants décrivent en plus de détails (en anglais) les
réseaux neuronaux utilisés dans NeuralTools :
Bishop, Christopher M., Neural Networks for Pattern Recognition,
Oxford, 1995.
Masters, Timothy, Advanced Algorithms for Neural Networks, Wiley,
1995.
Reed, Russell D., Robert J. Marks, Neural Smithing, MIT, 1999.
En savoir plus sur les réseaux neuronaux
107
108
Index
A
Aperçu Prédiction, 75
Aperçu Test, 66
Architecture GRNN, 98
Architecture MLF, 91
Architecture PNN, 101
Ensembles de données à plages
multiples, 45
Ensembles de données et variables Définitions, 43
Erreur moyenne quadratique, 63
Éviter la surformation, 95
Evolver, 32
F
B
Balises, 48
Barres d’outils
NeuralTools, 39
Boîte de dialogue du Gestionnaire, 44
C
Capacité d'ensembles de données et
variables, 49
Commande Former, 50
Commande Gestionnaire des
ensembles de données, 43
Commande Paramètres d’application,
77
Commande Prédire, 72
Commande Tester, 64
Commande Utilitaire Données
manquantes, 83
Comparaison des réseaux MLF et
PNN/GRNN, 103
Configuration requise, 6
Correspondance des variables, 65
D
Désinstallation de NeuralTools, 7
E
Ensembles de données, 20
Index
Formation, 18
Formation de réseau MLF, 93
G
Gestionnaire des ensembles de
données, 20
H
Histogramme de résidus, 63
I
Icônes
Bureau, 8
NeuralTools, 39
Icônes des boîtes de dialogue, 42
Installation, 6
M
Matrice de classification, 62
P
Palisade Corporation, 5
Prédiction, 18, 29
Prédiction en direct, 30, 74
Problèmes de classification, ii
Problèmes numériques, ii
109
R
Rapports de formation, 61
Rapports de test, 28, 67
Rapports sommaires des rapports
détaillés, 71
Réseau feedforward à couches
multiples, 55
Réseau feedforward MLF, 91
Réseaux généraux de régression, 55
Réseaux GRNN, 97
Réseaux neuronaux généraux de
régression, 23
Réseaux neuronaux vs méthodes
statistiques, 88
Réseaux PNN, 100
Réseaux probabilistes, 55
110
S
Solveur, 32
StatTools, 32
T
Temps d’exécution, 57
Test, 18
Test de réseau, 27
Tester automatiquement, 51
Transformation d’entrée, 105
Type de variable, 47
V
Valeurs manquantes, 85
version Professional, iv

Manuels associés