VMware vSphere Big Data Extensions 2.3 Manuel utilisateur

Documento
Guide de l'utilisateur et de
l'administrateur VMware vSphere Big
Data Extensions
vSphere Big Data Extensions 2.3
Ce document prend en charge la version de chacun des produits
r&eacute;pertori&eacute;s, ainsi que toutes les versions publi&eacute;es par la suite
jusqu'au remplacement dudit document par une nouvelle
&eacute;dition. Pour rechercher des &eacute;ditions plus r&eacute;centes de ce
document, rendez-vous sur :
http://www.vmware.com/fr/support/pubs.
FR-TBD-00
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Vous trouverez la documentation technique la plus r&eacute;cente sur le site Web de VMware &agrave; l'adresse :
http://www.vmware.com/fr/support/
Le site Web de VMware propose &eacute;galement les derni&egrave;res mises &agrave; jour des produits.
N’h&eacute;sitez pas &agrave; nous transmettre tous vos commentaires concernant cette documentation &agrave; l’adresse suivante :
[email protected]
Copyright &copy; 2013 – 2015 VMware, Inc. Tous droits r&eacute;serv&eacute;s. Copyright et informations sur les marques.
Cet ouvrage est conc&eacute;d&eacute; sous la licence Creative Commons Attribution-NoDerivs 3.0 aux &Eacute;tats-Unis
(http://creativecommons.org/licenses/by-nd/3.0/us/legalcode).
VMware, Inc.
3401 Hillview Ave.
Palo Alto, CA 94304
www.vmware.com
2
VMware, Inc.
100-101 Quartier Boieldieu
92042 Paris La D&eacute;fense
France
www.vmware.com/fr
VMware, Inc.
Table des mati&egrave;res
&Agrave; propos de ce guide 7
1 &Agrave; propos de VMware vSphere Big Data Extensions 9
Prise en main de Big Data Extensions 9
Big Data Extensions et Project Serengeti 10
&Agrave; propos de l'architecture de Big Data Extensions
&Agrave; propos des gestionnaires d'applications 13
12
2 Installation de Big Data Extensions 17
Configuration syst&egrave;me requise pour Big Data Extensions 17
Prise en charge d'Unicode UTF-8 et des caract&egrave;res sp&eacute;ciaux 20
Le programme d'am&eacute;lioration du produit 22
D&eacute;ployer le vApp Big Data Extensions dans vSphere Web Client 23
Installer des RPM dans le r&eacute;f&eacute;rentiel Yum du serveur de gestion Serengeti 26
Installer le plug-in Big Data Extensions 27
Configurer les param&egrave;tres vCenter Single Sign-On du serveur de gestion Serengeti 29
Se connecter &agrave; un serveur de gestion Serengeti 30
Installer le client d'interface de ligne de commande distant Serengeti 31
Acc&eacute;der &agrave; l'interface de ligne de commande Serengeti &agrave; l'aide du client d'interface de ligne de
commande distant 31
3 Mise &agrave; niveau de Big Data Extensions 35
Pr&eacute;parer la mise &agrave; niveau de Big Data Extensions 35
Mettre &agrave; niveau le dispositif virtuel Big Data Extensions 36
Mettre &agrave; niveau le plug-in Big Data Extensions 37
Mettre &agrave; niveau des clusters Big Data Extensions &agrave; l'aide de l'interface de ligne de commande
Serengeti 38
Mettre &agrave; niveau l' Serengeti CLI 39
Ajouter un serveur Syslog distant 39
4 Gestion des gestionnaires d'applications 41
Ajouter un gestionnaire d'applications &agrave; l'aide de vSphere Web Client 41
Modifier un gestionnaire d'applications &agrave; l'aide de vSphere Web Client 42
Supprimer un gestionnaire d'applications &agrave; l'aide de vSphere Web Client 42
Afficher les gestionnaires d'applications et les distributions &agrave; l'aide de vSphere Web Client 42
Afficher les r&ocirc;les du gestionnaire d'applications et de la distribution &agrave; l'aide de vSphere Web
Client 43
5 Gestion de distributions Hadoop 45
Types de d&eacute;ploiement de distribution Hadoop 45
VMware, Inc.
3
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Configurer une distribution Hadoop d&eacute;ploy&eacute;e sur Tarball &agrave; l'aide de l'interface de ligne de
commande Serengeti 46
Configuration de Yum et de r&eacute;f&eacute;rentiels Yum
48
6 G&eacute;rer les mod&egrave;les de nœud 65
Tenir &agrave; jour une machine virtuelle de mod&egrave;le Hadoop personnalis&eacute;e 65
Cr&eacute;er une machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL Server 6.7 et VMware Tools 66
Prendre en charge plusieurs mod&egrave;les de machine virtuelle 70
7 G&eacute;rer l'environnement Big Data Extensions 71
Ajouter des noms d'utilisateur sp&eacute;cifiques pour la connexion au serveur de gestion Serengeti 71
Modifier le mot de passe du serveur de gestion Serengeti 72
Cr&eacute;er un nom d'utilisateur et un mot de passe pour l'interface de ligne de commande Serengeti 73
Autoriser et v&eacute;rifier les commandes ex&eacute;cut&eacute;es en tant qu'utilisateur racine 74
Sp&eacute;cifier un groupe d'utilisateurs dans Active Directory ou LDAP pour utiliser un cluster Hadoop 74
Arr&ecirc;ter et d&eacute;marrer les services Serengeti 75
Ports utilis&eacute;s pour la communication entre Big Data Extensions et vCenter Server 76
V&eacute;rifier l'&eacute;tat de fonctionnement de l'environnement Big Data Extensions 77
Passer en mode maintenance pour effectuer la sauvegarde et la restauration &agrave; l'aide du client
d'interface de ligne de commande Serengeti 86
Sauvegarder et restaurer l'environnement Big Data Extensions 87
8 Gestion de ressources vSphere pour les clusters 89
Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 89
Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 90
Mettre &agrave; jour les pools de ressources &agrave; l'aide de l'interface de ligne de commande Serengeti 90
Ajouter une banque de donn&eacute;es dans vSphere Web Client 91
Supprimer une banque de donn&eacute;es de vSphere Web Client 92
Mettre &agrave; jour les banques de donn&eacute;es &agrave; l'aide de l'interface de ligne de commande Serengeti 93
Ajouter un contr&ocirc;leur SCSI Paravirtual pour les disques syst&egrave;me et de permutation 94
Ajouter un r&eacute;seau dans vSphere Web Client 94
Modifier le type de DNS dans vSphere Web Client 95
Reconfigurer un r&eacute;seau IP statique dans vSphere Web Client 96
Supprimer un r&eacute;seau de vSphere Web Client 96
9 Cr&eacute;ation de clusters Hadoop et HBase 99
&Agrave; propos des types de d&eacute;ploiement de clusters Hadoop et HBase 101
Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2 (YARN) 101
&Agrave; propos de la topologie des clusters 102
&Agrave; propos de l'acc&egrave;s &agrave; la base de donn&eacute;es HBase 103
Cr&eacute;er un cluster Big Data dans vSphere Web Client 103
Cr&eacute;er un cluster uniquement HBase dans Big Data Extensions 107
Cr&eacute;er un cluster avec un gestionnaire d'applications &agrave; l'aide de vSphere Web Client 109
Cr&eacute;er un cluster de calcul uniquement avec un gestionnaire d'applications tiers en utilisant
vSphere Web Client 110
Cr&eacute;er un cluster de calcul du travailleur uniquement &agrave; l'aide de vSphere Web Client 110
4
VMware, Inc.
Table des mati&egrave;res
10 Gestion des clusters Hadoop et HBase 113
Arr&ecirc;ter et d&eacute;marrer un cluster dans vSphere Web Client 113
Supprimer un cluster dans vSphere Web Client 114
Agrandir ou r&eacute;duire un cluster &agrave; l'aide de vSphere Web Client 114
Mettre &agrave; l'&eacute;chelle le CPU et la RAM dans vSphere Web Client 115
Utiliser des partages de disque E/S pour fixer la priorit&eacute; des machines virtuelles de cluster dans
vSphere Web Client 116
&Agrave; propos de vSphere High Availability et de vSphere Fault Tolerance 117
Modifier le mot de passe utilisateur sur tous les nœuds d'un cluster 117
Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 118
Configurer le nombre de disques de donn&eacute;es par groupe de nœuds 120
R&eacute;cup&eacute;rer d'une d&eacute;faillance disque avec le client d'interface de ligne de commande Serengeti 121
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 122
11 Surveillance de l'environnement Big Data Extensions 123
Activer le collecteur de donn&eacute;es Big Data Extensions 123
D&eacute;sactiver le collecteur de donn&eacute;es Big Data Extensions 124
Afficher l'&eacute;tat d'initialisation du serveur de gestion Serengeti 124
Afficher les clusters provisionn&eacute;s dans vSphere Web Client 125
Afficher les informations des clusters dans vSphere Web Client 126
Surveiller l'&eacute;tat de HDFS dans vSphere Web Client 127
Surveiller le statut MapReduce dans vSphere Web Client 128
Surveiller l'&eacute;tat de HBase dans vSphere Web Client 129
12 Acc&egrave;s aux donn&eacute;es Hive avec JDBC ou ODBC 131
Configurer Hive pour travailler avec JDBC 131
Configurer Hive pour travailler avec ODBC 133
13 R&eacute;f&eacute;rence de s&eacute;curit&eacute; Big Data Extensions 135
Services, ports r&eacute;seau et interfaces externes 135
Fichiers de configuration de Big Data Extensions 138
Cl&eacute; publique, certificat et KeyStore Big Data Extensions
Fichiers journaux Big Data Extensions 138
Comptes d'utilisateurs Big Data Extensions 139
Correctifs et mises &agrave; jour de s&eacute;curit&eacute; 140
138
14 D&eacute;pannage 141
Fichiers journaux pour le d&eacute;pannage 142
Configurer les niveaux de journalisation Serengeti 142
Collecter les fichiers journaux &agrave; des fins de d&eacute;pannage 143
R&eacute;solution des &eacute;checs de cr&eacute;ation d'un cluster 144
La mise &agrave; niveau du dispositif virtuel de Big Data Extensions &eacute;choue. 150
Erreur de mise &agrave; niveau du cluster lors de l'utilisation du cluster cr&eacute;&eacute; dans une version ant&eacute;rieure
de Big Data Extensions 151
Impossible de connecter le plug-in Big Data Extensions au serveur Serengeti 152
Les connexions &agrave; vCenter Server &eacute;chouent. 152
Le serveur de gestion ne peut pas se connecter &agrave; vCenter Server 153
VMware, Inc.
5
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Erreur de certificat SSL lors de la connexion &agrave; un serveur autre que Serengeti avec la console
vSphere 153
Impossible de red&eacute;marrer ou de reconfigurer un cluster pour lequel l'heure n'est pas synchronis&eacute;e 153
Impossible de red&eacute;marrer ou de reconfigurer un cluster apr&egrave;s la modification de sa distribution 154
La machine virtuelle ne peut pas obtenir d'adresse IP et la commande &eacute;choue. 154
Impossible de modifier l'adresse IP du serveur Serengeti dans vSphere Web Client 155
Une nouvelle instance de plug-in avec un num&eacute;ro de version identique ou ant&eacute;rieure &agrave; une
instance de plug-in pr&eacute;c&eacute;dente ne se charge pas. 155
Le nom d'h&ocirc;te et le FQDN ne correspondent pas pour le serveur de gestion Serengeti. 156
Les op&eacute;rations de Serengeti &eacute;chouent apr&egrave;s que vous ayez renomm&eacute; une ressource dans vSphere. 157
Big Data Extensions Le serveur refuse les noms de ressource comptant au moins deux espaces
blancs &agrave; la suite. 157
Les caract&egrave;res non ASCII ne s'affichent pas correctement. 157
L'ex&eacute;cution de la t&acirc;che MapReduce &eacute;choue et n'appara&icirc;t pas dans l'historique des t&acirc;ches. 158
Impossible d'envoyer des t&acirc;ches MapReduce pour les clusters de calcul uniquement avec l'HDFS
Isilon externe 158
La t&acirc;che MapReduce ne r&eacute;pond plus sur un cluster PHD ou CDH4 YARN. 159
Impossible de t&eacute;l&eacute;charger le paquet &agrave; l'aide du plug-in Downloadonly 159
Impossible de trouver des paquets avec la recherche Yum 159
Supprimer HBase Rootdir dans HDFS avant de supprimer le cluster uniquement HBase 160
Index
6
161
VMware, Inc.
&Agrave; propos de ce guide
Guide de l'administrateur et de l'utilisateur de VMware vSphere Big Data Extensions d&eacute;crit comment installer
VMware vSphere Big Data Extensions™ au sein de votre environnement vSphere, puis comment g&eacute;rer et
surveiller les clusters Hadoop et HBase &agrave; l'aide du plug-in Big Data Extensions pour vSphere Web Client.
Guide de l'administrateur et de l'utilisateur de VMware vSphere Big Data Extensions d&eacute;crit &eacute;galement comment
effectuer des op&eacute;rations Hadoop et HBase &agrave; l'aide du client d'interface de ligne de commande VMware
Serengeti™, qui permet un contr&ocirc;le plus important de certaines t&acirc;ches de gestion syst&egrave;me et de cr&eacute;ation de
clusters Big Data.
Public cibl&eacute;
Le guide est destin&eacute; aux administrateurs syst&egrave;me et aux d&eacute;veloppeurs qui veulent utiliser
Big Data Extensions pour d&eacute;ployer et g&eacute;rer des clusters Hadoop. Pour utiliser correctement
&reg;
&reg;
Big Data Extensions, il est pr&eacute;f&eacute;rable de conna&icirc;tre VMware vSphere ainsi que le d&eacute;ploiement et le
fonctionnement de Hadoop et HBase.
Glossaire VMware Technical Publications
VMware Technical Publications fournit un glossaire des termes qui peuvent &eacute;ventuellement ne pas vous
&ecirc;tre familiers. Pour consulter la d&eacute;finition des termes utilis&eacute;s dans la documentation technique VMware,
visitez le site Web http://www.vmware.com/support/pubs.
VMware, Inc.
7
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
8
VMware, Inc.
&Agrave; propos de VMware vSphere Big
Data Extensions
1
VMware vSphere Big Data Extensions vous permet de d&eacute;ployer et d'utiliser de mani&egrave;re centralis&eacute;e des
clusters Big Data ex&eacute;cut&eacute;s sur VMware vSphere. Big Data Extensions simplifie le processus de d&eacute;ploiement
et de provisionnement Hadoop et HBase. Il vous permet aussi de voir en temps r&eacute;el les services en cours
d'ex&eacute;cution et l'&eacute;tat de leurs h&ocirc;tes virtuels. Il offre un point central &agrave; partir duquel vous pouvez g&eacute;rer et
surveiller votre cluster Big Data, et incorpore un ensemble complet d'outils susceptibles de vous aider &agrave;
optimiser les performances et l'utilisation du cluster.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Prise en main de Big Data Extensions &raquo;, page 9
n
&laquo; Big Data Extensions et Project Serengeti &raquo;, page 10
n
&laquo; &Agrave; propos de l'architecture de Big Data Extensions &raquo;, page 12
n
&laquo; &Agrave; propos des gestionnaires d'applications &raquo;, page 13
Prise en main de Big Data Extensions
Big Data Extensions vous permet de d&eacute;ployer des clusters Big Data. Les t&acirc;ches incluses dans cette section
&reg;
d&eacute;crivent la mani&egrave;re de configurer VMware vSphere pour une utilisation avec Big Data Extensions, de
&reg;
d&eacute;ployer le vApp Big Data Extensions, d'acc&eacute;der aux consoles d'administration VMware vCenter Server et
d'interface de ligne de commande (CLI), ainsi que de configurer une distribution Hadoop &agrave; utiliser avec
Big Data Extensions.
Pr&eacute;requis
&reg;
n
Une bonne compr&eacute;hension de ce que sont Project Serengeti et Big Data Extensions vous permet
d'appr&eacute;hender la mani&egrave;re dont ils s'int&egrave;grent dans votre workflow Big Data et votre environnement
vSphere.
n
V&eacute;rifiez que les fonctionnalit&eacute;s Big Data Extensions que vous souhaitez utiliser, comme les clusters de
calcul uniquement ou les clusters donn&eacute;es-calcul s&eacute;par&eacute;s, sont prises en charge par Big Data Extensions
pour la distribution Hadoop que vous souhaitez utiliser.
n
Examinez les fonctionnalit&eacute;s prises en charge par votre distribution Hadoop.
VMware, Inc.
9
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
2
Effectuez l'une des op&eacute;rations suivantes.
n
Effectuez la premi&egrave;re installation de Big Data Extensions. Passez en revue la configuration syst&egrave;me
requise, installez vSphere et installez les composants Big Data Extensions : vApp
Big Data Extensions, plug-in Big Data Extensions pour vCenter Server et Serengeti CLI Client.
n
Effectuez une mise &agrave; niveau de Big Data Extensions &agrave; partir d'une version pr&eacute;c&eacute;dente. Suivez les
&eacute;tapes de mise &agrave; niveau.
(Facultatif) Installez et configurez une distribution autre qu'Apache Bigtop &agrave; utiliser avec
Big Data Extensions.
Apache Bigtop est inclus dans le serveur de gestion Serengeti, mais vous pouvez utiliser n'importe
quelle distribution Hadoop prise en charge par Big Data Extensions.
Suivant
Une fois que vous avez correctement install&eacute; et configur&eacute; votre environnement Big Data Extensions, vous
pouvez effectuer les t&acirc;ches suppl&eacute;mentaires suivantes.
n
Arr&ecirc;tez et d&eacute;marrez les services Serengeti, cr&eacute;ez des comptes d'utilisateurs, g&eacute;rez des mots de passe et
connectez-vous &agrave; des nœuds de cluster pour r&eacute;soudre les probl&egrave;mes.
n
G&eacute;rez les pools de ressources vSphere, les banques de donn&eacute;es et les r&eacute;seaux que vous utilisez pour
cr&eacute;er des clusters Hadoop et HBase.
n
Cr&eacute;ez, provisionnez et g&eacute;rez des clusters Big Data.
n
Surveillez l'&eacute;tat des clusters que vous cr&eacute;ez, notamment leurs banques de donn&eacute;es, r&eacute;seaux et pools de
ressources, via vSphere Web Client et l'interface de ligne de commande Serengeti.
n
Sur vos clusters Big Data, ex&eacute;cutez des commandes HDFS, des scripts Hive et Pig, ainsi que des travaux
MapReduce, et acc&eacute;dez aux donn&eacute;es Hive.
n
Si vous rencontrez des probl&egrave;mes en utilisant Big Data Extensions, consultez Chapitre 14,
&laquo; D&eacute;pannage &raquo;, page 141.
Big Data Extensions et Project Serengeti
Big Data Extensions s'ex&eacute;cute sur Project Serengeti, projet open source lanc&eacute; par VMware pour automatiser
le d&eacute;ploiement et la gestion des clusters Hadoop et HBase dans des environnements virtuels comme
vSphere.
Big Data Extensions et Project Serengeti fournissent les composants suivants.
10
Project Serengeti
Projet open source lanc&eacute; par VMware, Project Serengeti permet aux
utilisateurs de d&eacute;ployer et g&eacute;rer des clusters Big Data dans un
environnement g&eacute;r&eacute; vCenter Server. Les composants majeurs sont ceux de
Serengeti Management Server, qui permettent le provisionnement de cluster,
la configuration logicielle et les services de gestion, ainsi qu'une interface de
ligne de commande. Project Serengeti est disponible sous licence Apache 2.0,
laquelle permet &agrave; tout le monde de modifier et de redistribuer Project
Serengeti conform&eacute;ment &agrave; ses termes.
Serengeti Management
Server
Fournit l'infrastructure et les services permettant d'ex&eacute;cuter des clusters Big
Data sur vSphere. Serengeti Management Server assure la gestion des
ressources, le placement des machines virtuelles selon la strat&eacute;gie, le
provisionnement du cluster, la gestion de la configuration logicielle et la
surveillance de l'environnement.
VMware, Inc.
Chapitre 1 &Agrave; propos de VMware vSphere Big Data Extensions
Client d'interface de
ligne de commande
Serengeti
Le client d'interface de ligne de commande (CLI, Command-Line Interface)
offre un ensemble complet d'outils et d'utilitaires permettant de surveiller et
de g&eacute;rer votre d&eacute;ploiement Big Data. Si vous utilisez la version open source
de Serengeti sans Big Data Extensions, l'interface de ligne de commande est
la seule interface par l'interm&eacute;diaire de laquelle vous pouvez effectuer des
t&acirc;ches administratives. Pour plus d'informations sur l'interface de ligne de
commande, consultez le Guide de l'interface de ligne de commande VMware
vSphere Big Data Extensions.
Big Data Extensions
La version commerciale de Project Serengeti, projet open source de VMware,
&agrave; savoir Big Data Extensions, est fournie en tant que
vCenter Server Appliance. Big Data Extensions inclut toutes les fonctions de
Project Serengeti, ainsi que les fonctionnalit&eacute;s et composants
suppl&eacute;mentaires suivants.
n
Support de niveau entreprise par VMware.
n
Distribution Bigtop par la communaut&eacute; Apache.
REMARQUE VMware fournit la distribution Hadoop par souci pratique
mais n'en assure pas le support de niveau entreprise. La distribution
Apache Bigtop est prise en charge par la communaut&eacute; open source.
n
VMware, Inc.
Plug-in Big Data Extensions, interface graphique utilisateur int&eacute;gr&eacute;e
dans vSphere Web Client. Ce plug-in vous permet d'effectuer des t&acirc;ches
administratives courantes de gestion de l'infrastructure et du cluster
Hadoop.
11
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
&Agrave; propos de l'architecture de Big Data Extensions
Serengeti Management Server et la machine virtuelle du mod&egrave;le Hadoop fonctionnent ensemble pour
configurer et provisionner des clusters Big Data.
Figure 1‑1. Architecture de Big Data Extensions
CLI
GUI
API Rest
Infrastructure d'approvisionnement
de machines virtuelles et d'applications
Gestion de logiciels SPI
12
Adaptateur
par d&eacute;faut
Adaptateur
Cloudera
Adaptateur
Ambari
Service Thrift
Gestionde
logiciels
Serveur
Cloudera
Manager
Serveur
Ambari
VMware, Inc.
Chapitre 1 &Agrave; propos de VMware vSphere Big Data Extensions
Big Data Extensions effectue les &eacute;tapes suivantes pour d&eacute;ployer un cluster Big Data.
1
Serengeti Management Server recherche les h&ocirc;tes ESXi dot&eacute;s de suffisamment de ressources pour faire
fonctionner le cluster avec les param&egrave;tres de configuration que vous sp&eacute;cifiez, puis s&eacute;lectionne les h&ocirc;tes
ESXi sur lesquels placer des machines virtuelles Hadoop.
2
Serengeti Management Server envoie une demande &agrave; vCenter Server pour cloner et configurer les
machines virtuelles &agrave; utiliser avec le cluster Big Data.
3
Serengeti Management Server configure le syst&egrave;me d'exploitation et les param&egrave;tres r&eacute;seau des
nouvelles machines virtuelles.
4
Chaque machine virtuelle t&eacute;l&eacute;charge les modules logiciels Hadoop et les installe conform&eacute;ment aux
informations d'installation et de distribution issues de Serengeti Management Server.
5
Serengeti Management Server configure les param&egrave;tres Hadoop pour les nouvelles machines virtuelles
en fonction des param&egrave;tres de configuration du cluster que vous sp&eacute;cifiez.
6
Les services Hadoop sont d&eacute;marr&eacute;s sur les nouvelles machines virtuelles. &Agrave; ce stade, vous avez un
cluster en cours d'ex&eacute;cution selon vos param&egrave;tres de configuration.
&Agrave; propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par d&eacute;faut pour
provisionner et g&eacute;rer des clusters avec VMware vSphere Big Data Extensions.
Apr&egrave;s avoir ajout&eacute; un nouveau gestionnaire d'applications Cloudera Manager ou Ambari &agrave;
Big Data Extensions, vous pouvez y rediriger vos t&acirc;ches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les t&acirc;ches suivantes :
n
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
des configurations ou des r&ocirc;les pour un gestionnaire d'applications et une distribution sp&eacute;cifiques.
n
Cr&eacute;er des clusters.
n
Surveiller et g&eacute;rer des services &agrave; partir de la console du gestionnaire d'applications.
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
n
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
au lieu de l'URL.
n
Vous ne pouvez pas renommer un cluster cr&eacute;&eacute; avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
Vous ne pouvez pas changer les services d'un cluster Big Data &agrave; partir de Big Data Extensions si le
cluster a &eacute;t&eacute; cr&eacute;&eacute; avec le gestionnaire d'applications Ambari ou Cloudera Manager.
n
Pour modifier les services, les configurations ou les deux, vous devez le faire &agrave; partir du gestionnaire
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les d&eacute;marre et les arr&ecirc;te en m&ecirc;me temps
que les anciens.
VMware, Inc.
13
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
clusters Big Data, ces modifications ne peuvent pas &ecirc;tre synchronis&eacute;es &agrave; partir de Big Data Extensions.
Les nœuds que vous cr&eacute;ez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Services et op&eacute;rations pris en charge par les gestionnaires d'applications
Si vous utilisez Cloudera Manager ou Apache Ambari avec Big Data Extensions, il existe plusieurs services
suppl&eacute;mentaires &agrave; votre disposition.
Distributions et gestionnaires d'applications pris en charge
Big Data Extensions prend en charge certains gestionnaires d'applications et certaines distributions Hadoop.
Toutes les fonctionnalit&eacute;s et op&eacute;rations ne sont pas prises en charge par certaines versions des gestionnaires
d'applications. Le tableau ci-dessous indique les fonctionnalit&eacute;s disponibles avec chacun des gestionnaires
d'applications list&eacute;s.
Tableau 1‑1. Distributions Hadoop et gestionnaires d'applications pris en charge
Fonctionnalit&eacute;s et
op&eacute;rations prises en
charge
14
Cloudera Manager
Hortonworks
Ambari
Pivotal Ambari
Gestionnaire
d'applications par
d&eacute;faut
Versions prises en
charge
5.3-5.4
2.0-2.1
1.7
2.3
Distributions prises en
charge
CDH 5.3-5.4, OneFS
7.1-7.2
HDP 2.2-2.3, OneFS*
7.1-7.2
PHD 3.0, OneFS*
7.1-7.2
Bigtop 1.0, CDH
5.3-5.4, HDP 2.1, PHD
2.0-2.1, MapR 4.1-5.0
et OneFS 7.1-7.2
D&eacute;ploiement
automatique
X
X
X
X
Liste de clusters,
Arr&ecirc;ter, D&eacute;marrer,
Exporter et Reprendre
X
X
X
X
vSphere High
Availability
X
X
X
X
vSphere Fault
Tolerance
X
X
X
X
Multiples r&eacute;seaux
Les multiples
r&eacute;seaux ne sont pas
pris en charge.
Les multiples
r&eacute;seaux ne sont pas
pris en charge.
Les multiples
r&eacute;seaux ne sont pas
pris en charge.
Non pris en charge
avec MapR.
Donn&eacute;es-calcul
combin&eacute;s
X
X
X
X
S&eacute;paration de calcul
de donn&eacute;es
X
X
X
X
VMware, Inc.
Chapitre 1 &Agrave; propos de VMware vSphere Big Data Extensions
Tableau 1‑1. Distributions Hadoop et gestionnaires d'applications pris en charge (suite)
Fonctionnalit&eacute;s et
op&eacute;rations prises en
charge
Cloudera Manager
Calcul uniquement
Cluster HBase
Gestionnaire
d'applications par
d&eacute;faut
Hortonworks
Ambari
Pivotal Ambari
X
Ambari peut
provisionner des
clusters de calcul
uniquement avec
Isilon OneFS.
Reportez-vous &agrave; la
documentation EMC
Isilon Hadoop
Starter Kit for
Hortonworks pour
obtenir des
informations sur la
configuration de
Ambari et de
Isilon OneFS.
Ambari peut
provisionner des
clusters de calcul
uniquement avec
Isilon OneFS.
Reportez-vous &agrave; la
documentation EMC
Isilon Hadoop
Starter Kit for
Hortonworks pour
obtenir des
informations sur la
configuration de
Ambari et de
Isilon OneFS.
Non pris en charge
avec MapR.
X
X
X
X
HBase uniquement
Non pris en charge
avec MapR.
Topologie/HVE
Hadoop
X
X
X
La topologie n'est pas
prise en charge avec
MapR.
HVE n'est pris en
charge qu'avec PHD.
Configuration Hadoop
Pris en charge via
l'interface Web du
gestionnaire
d'applications.
Pris en charge via
l'interface Web du
gestionnaire
d'applications.
Pris en charge via
l'interface Web du
gestionnaire
d'applications.
Non pris en charge
avec MapR.
Composants de
l'&eacute;cosyst&egrave;me Hadoop
Pile pleine via
Cloudera Manager.
Pile pleine via
Ambari.
Pile pleine via
Ambari.
Pig, Hive, Hive Server
et Zookeeper.
Prise en charge des distributions Hadoop dans Isilon OneFS
Si vous souhaitez utiliser Isilon OneFS, v&eacute;rifiez d'abord si votre distribution Hadoop est compatible avec
OneFS. Reportez-vous &agrave; la section Distributions Hadoop prises en charge dans OneFS du site Internet
d'EMC.
REMARQUE Big Data Extensions ne prend pas nativement en charge le provisionnement des clusters de
calcul uniquement avec Ambari Manager. Cependant, Ambari peut provisionner des clusters de calcul
uniquement avec Isilon OneFS. Reportez-vous &agrave; la documentation EMC Isilon Hadoop Starter Kit for
Hortonworks pour obtenir des informations sur la configuration de Ambari et de Isilon OneFS.
Services pris en charge sur Cloudera Manager et Ambari
Tableau 1‑2. Services pris en charge sur Cloudera Manager et Ambari
Nom du service
Cloudera Manager 5.3, 5.4
Falcon
Flume
X
X
Ganglia
HBase
HCatalog
VMware, Inc.
Ambari 1.6, 1.7
X
X
X
X
X
15
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 1‑2. Services pris en charge sur Cloudera Manager et Ambari (suite)
Nom du service
Cloudera Manager 5.3, 5.4
Ambari 1.6, 1.7
HDFS
X
X
Hive
X
X
Hue
X
X
Impala
X
MapReduce
X
Nagios
Oozie
X
X
X
Pig
X
X
Sentry
Solr
X
Spark
X
Sqoop
X
X
Storm
X
TEZ
X
WebHCAT
X
YARN
X
X
Zookeeper
X
X
&Agrave; propos du niveau de service vSphere High Availability pour Ambari
Ambari prend en charge la fonction NameNode HA. Toutefois, vous devez configurer cette fonction de
sorte qu'elle utilise votre d&eacute;ploiement Hadoop. Reportez-vous &agrave; la section Haute disponibilit&eacute; NameNode
pour Hadoop de la documentation Hortonworks.
&Agrave; propos du niveau de service vSphere High Availability pour Cloudera
Les distributions Cloudera offrent la prise en charge suivante de la haute disponibilit&eacute; vSphere de niveau de
service.
n
Cloudera avec MapReduce v1 offre une prise en charge de la haute disponibilit&eacute; vSphere de niveau de
service pour JobTracker.
n
Cloudera offre sa propre prise en charge de la haute disponibilit&eacute; de niveau de service pour NameNode
via HDFS2.
Pour plus d'informations sur la mani&egrave;re d'utiliser un gestionnaire d'applications avec l'interface de ligne de
commande, consultez le Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions.
16
VMware, Inc.
Installation de Big Data Extensions
2
Pour installer Big Data Extensions afin de pouvoir cr&eacute;er et provisionner des clusters Big Data, vous devez
installer les composants Big Data Extensions dans l'ordre indiqu&eacute;.
Suivant
Si vous voulez cr&eacute;er des clusters sur une distribution Hadoop autre qu'Apache Bigtop, incluse dans
Serengeti Management Server, installez et configurez la distribution afin de l'utiliser avec
Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Configuration syst&egrave;me requise pour Big Data Extensions &raquo;, page 17
n
&laquo; Prise en charge d'Unicode UTF-8 et des caract&egrave;res sp&eacute;ciaux &raquo;, page 20
n
&laquo; Le programme d'am&eacute;lioration du produit &raquo;, page 22
n
&laquo; D&eacute;ployer le vApp Big Data Extensions dans vSphere Web Client &raquo;, page 23
n
&laquo; Installer des RPM dans le r&eacute;f&eacute;rentiel Yum du serveur de gestion Serengeti &raquo;, page 26
n
&laquo; Installer le plug-in Big Data Extensions &raquo;, page 27
n
&laquo; Configurer les param&egrave;tres vCenter Single Sign-On du serveur de gestion Serengeti &raquo;, page 29
n
&laquo; Se connecter &agrave; un serveur de gestion Serengeti &raquo;, page 30
n
&laquo; Installer le client d'interface de ligne de commande distant Serengeti &raquo;, page 31
n
&laquo; Acc&eacute;der &agrave; l'interface de ligne de commande Serengeti &agrave; l'aide du client d'interface de ligne de
commande distant &raquo;, page 31
Configuration syst&egrave;me requise pour Big Data Extensions
Avant de commencer &agrave; d&eacute;ployer Big Data Extensions, votre syst&egrave;me doit remplir toutes les conditions
pr&eacute;alables li&eacute;es &agrave; vSphere, aux clusters, aux r&eacute;seaux, au stockage, au mat&eacute;riel et aux licences.
Big Data Extensions requiert que vous installiez et configuriez vSphere et que votre environnement r&eacute;ponde
aux besoins en ressources minimaux. Assurez-vous de poss&eacute;der des licences pour les composants VMware
de votre d&eacute;ploiement.
Exigences vSphere
Avant d'installer Big Data Extensions, configurez les produits VMware
suivants.
n
VMware, Inc.
Installez vSphere 5.5 (ou version ult&eacute;rieure) Enterprise ou Enterprise
Plus.
17
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Param&egrave;tres cluster
Param&egrave;tres r&eacute;seau
n
Quand vous installez Big Data Extensions sur vSphere 5.5 ou version
&reg;
ult&eacute;rieure, utilisez VMware vCenter™ Single Sign-On pour fournir
l'authentification utilisateur. Quand vous vous connectez &agrave; vSphere 5.5
ou version ult&eacute;rieure, vous transmettez l'authentification au serveur
vCenter Single Sign-On, que vous pouvez configurer avec plusieurs
sources d'identit&eacute; comme Active Directory et OpenLDAP. Quand
l'authentification r&eacute;ussit, votre nom d'utilisateur et votre mot de passe
sont &eacute;chang&eacute;s contre un jeton de s&eacute;curit&eacute; qui est utilis&eacute; pour acc&eacute;der aux
composants vSphere comme Big Data Extensions.
n
Si votre instance de vCenter Server utilise un FQDN, assurez-vous de le
configurer correctement &agrave; l'installation de vCenter Server.
n
Configurez tous les h&ocirc;tes ESXi de sorte &agrave; utiliser le m&ecirc;me serveur NTP
(Network Time Protocol).
n
Sur chaque h&ocirc;te ESXi, ajoutez le serveur NTP &agrave; la configuration d'h&ocirc;te,
puis, dans la liste Strat&eacute;gie de d&eacute;marrage de la configuration d'h&ocirc;te,
s&eacute;lectionnez D&eacute;marrer et arr&ecirc;ter avec l'h&ocirc;te. Le d&eacute;mon NTP veille &agrave; ce
que les processus d&eacute;pendant de l'heure se produisent de mani&egrave;re
synchronis&eacute;e sur tous les h&ocirc;tes.
Configurez votre cluster avec les param&egrave;tres suivants.
&reg;
n
Activez la haute disponibilit&eacute; vSphere et VMware vSphere Distributed
Resource Scheduler™.
n
Activez la surveillance de l'h&ocirc;te.
n
Activez le contr&ocirc;le d'admission et d&eacute;finissez la strat&eacute;gie souhait&eacute;e. La
strat&eacute;gie par d&eacute;faut consiste &agrave; tol&eacute;rer une seule d&eacute;faillance de l'h&ocirc;te.
n
D&eacute;finissez une priorit&eacute; &eacute;lev&eacute;e pour le red&eacute;marrage de la machine
virtuelle.
n
D&eacute;finissez la surveillance de la machine virtuelle sur une surveillance de
la machine virtuelle et de l'application.
n
D&eacute;finissez une sensibilit&eacute; &eacute;lev&eacute;e pour la surveillance.
n
Activez vMotion et la journalisation de la tol&eacute;rance aux pannes.
n
Tous les h&ocirc;tes du cluster ont le VT mat&eacute;riel activ&eacute; dans le BIOS.
n
Pour le port VMkernel du r&eacute;seau de gestion, vMotion et la journalisation
de la tol&eacute;rance aux pannes sont activ&eacute;s.
Big Data Extensions peut d&eacute;ployer des clusters sur un seul r&eacute;seau ou utiliser
plusieurs r&eacute;seaux. L'environnement d&eacute;termine la mani&egrave;re dont les groupes
de ports attach&eacute;s aux cartes r&eacute;seau sont configur&eacute;s et quel r&eacute;seau soutient
chaque groupe de ports.
Vous pouvez utiliser soit un vSwitch, soit un vDS (vSphere Distributed
Switch) pour assurer le soutien du groupe de ports par un cluster Serengeti.
Un vDS joue le r&ocirc;le d'un commutateur virtuel unique sur tous les h&ocirc;tes
attach&eacute;s tandis qu'un vSwitch est individuel pour chaque port et requiert la
configuration manuelle du groupe de ports.
18
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Quand vous configurez vos r&eacute;seaux &agrave; utiliser avec Big Data Extensions,
v&eacute;rifiez que les ports suivants sont ouverts en tant que ports d'&eacute;coute.
Stockage en
attachement direct
n
Les ports 8080 et 8443 sont utilis&eacute;s par l'interface utilisateur du plug-in
Big Data Extensions et le client d'interface de ligne de commande
Serengeti.
n
Le port 5480 est utilis&eacute; par vCenter Single Sign-On &agrave; des fins de
surveillance et de gestion.
n
Le port 22 est utilis&eacute; par les clients SSH.
n
Pour &eacute;viter d'avoir &agrave; ouvrir un port de pare-feu r&eacute;seau pour acc&eacute;der aux
services Hadoop, connectez-vous au nœud client Hadoop. &Agrave; partir de ce
nœud, vous pouvez en effet acc&eacute;der &agrave; votre cluster.
n
Pour vous connecter &agrave; Internet (par exemple, pour cr&eacute;er un r&eacute;f&eacute;rentiel
Yum interne &agrave; partir duquel installer des distributions Hadoop), vous
pouvez utiliser un proxy.
n
Pour permettre les communications, assurez-vous que les pare-feu et
filtres Web ne bloquent pas le serveur de gestion Serengeti ni d'autres
nœuds Serengeti.
Attachez et configurez un stockage en attachement direct sur le contr&ocirc;leur
physique pour pr&eacute;senter chaque disque s&eacute;par&eacute;ment au syst&egrave;me
d'exploitation. Cette configuration est couramment d&eacute;sign&eacute;e par l'acronyme
JBOD (Just A Bunch Of Disks, juste un paquet de disques). Cr&eacute;ez des
banques de donn&eacute;es VMFS sur le stockage en attachement direct en
respectant les recommandations suivantes li&eacute;es aux lecteurs de disque.
n
Entre 8 et 12 lecteurs de disque par h&ocirc;te. Plus le nombre de lecteurs de
disque par h&ocirc;te est &eacute;lev&eacute;, meilleures sont les performances.
n
Entre 1 et 1,5 lecteurs de disque par cœur de processeur.
n
Lecteurs de disques Serial ATA 7 200 tr/min.
Ne pas utiliser
Big Data Extensions en
conjonction avec
vSphere Storage DRS
Avant de les cr&eacute;er, Big Data Extensions place les machines virtuelles sur les
h&ocirc;tes en fonction des ressources disponibles, des meilleures pratiques
Hadoop et des strat&eacute;gies de placement d&eacute;finies par l'utilisateur. De ce fait,
&eacute;vitez de d&eacute;ployer Big Data Extensions dans les environnements vSphere en
conjonction avec Storage DRS. Storage DRS &eacute;quilibre en permanence
l'utilisation de l'espace de stockage et la charge d'E/S de stockage pour
respecter les niveaux de service applicatif dans les environnements
sp&eacute;cifiques. Si Storage DRS est utilis&eacute; avec Big Data Extensions, les strat&eacute;gies
de placement du cluster Big Data de vos machines virtuelles ne seront pas
respect&eacute;es.
La migration des
machines virtuelles
dans vCenter Server
peut perturber la
strat&eacute;gie de placement
des machines virtuelles
Big Data Extensions place les machines virtuelles en fonction des ressources
disponibles, des meilleures pratiques Hadoop et des strat&eacute;gies de placement
d&eacute;finies par l'utilisateur que vous sp&eacute;cifiez. De ce fait, DRS est d&eacute;sactiv&eacute; sur
toutes les machines virtuelles cr&eacute;&eacute;es dans l'environnement
Big Data Extensions. Cela emp&ecirc;che la migration automatique des machines
virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer
accidentellement les machines virtuelles avec l'interface utilisateur de
vCenter Server. Cela peut enfreindre la strat&eacute;gie de placement d&eacute;finie dans
Big Data Extensions. Par exemple, le nombre d'instances par h&ocirc;te et les
associations de groupes peuvent ne pas &ecirc;tre respect&eacute;s.
VMware, Inc.
19
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Besoins en ressources
du serveur de gestion et
des mod&egrave;les vSphere
Besoins en ressources
du cluster Hadoop
Configuration mat&eacute;rielle
requise pour
l'environnement
vSphere et
Big Data Extensions
n
Pool de ressources dot&eacute; d'au moins 27,5 Go de RAM.
n
Espace disque de 40 Go ou plus (recommand&eacute;) pour les disques virtuels
du serveur de gestion et du mod&egrave;le Hadoop.
n
L'espace libre de banque de donn&eacute;es n'est pas inf&eacute;rieur &agrave; la taille totale
requise par le cluster Hadoop, outre les disques d'&eacute;change pour chaque
nœud Hadoop &eacute;gal &agrave; la taille de m&eacute;moire demand&eacute;e.
n
Le r&eacute;seau est configur&eacute; sur tous les h&ocirc;tes ESXi appropri&eacute;s et une
connectivit&eacute; existe avec le r&eacute;seau utilis&eacute; par le serveur de gestion.
n
La haute disponibilit&eacute; vSphere est activ&eacute;e pour le nœud master si la
protection de la haute disponibilit&eacute; vSphere est n&eacute;cessaire. Pour utiliser
la haute disponibilit&eacute; ou la tol&eacute;rance aux pannes vSphere afin de
prot&eacute;ger le nœud master Hadoop, vous devez utiliser le stockage
partag&eacute;.
Le mat&eacute;riel de l'h&ocirc;te est r&eacute;pertori&eacute; dans le Guide de compatibilit&eacute; VMware.
Pour obtenir des performances optimales &agrave; l'ex&eacute;cution, installez votre
environnement vSphere et Big Data Extensions sur le mat&eacute;riel suivant.
n
Double CPU quadricœurs ou plus avec Hyper-Threading activ&eacute;. Si vous
pouvez estimer votre charge de travail de calcul, envisagez d'utiliser un
CPU plus puissant.
n
Utilisez la haute disponibilit&eacute; et deux blocs d'alimentation pour la
machine h&ocirc;te du nœud master.
n
Entre 4 et 8 Go de m&eacute;moire pour chaque cœur de processeur, avec 6 %
de traitement pour la virtualisation.
n
Utilisez une interface Ethernet de 1 Go ou plus pour fournir la bande
passante r&eacute;seau ad&eacute;quate.
Prise en charge de
l'h&ocirc;te et de la machine
virtuelle test&eacute;s
La prise en charge maximale de l'h&ocirc;te et de la machine virtuelle qui a &eacute;t&eacute;
confirm&eacute;e par une ex&eacute;cution correcte avec Big Data Extensions comprend
256 h&ocirc;tes physiques ex&eacute;cutant un total de 512 machines virtuelles.
Licences vSphere
Vous devez disposer d'une licence vSphere Enterprise ou sup&eacute;rieure pour
utiliser la haute disponibilit&eacute; VMware vSphere et vSphere DRS.
Prise en charge d'Unicode UTF-8 et des caract&egrave;res sp&eacute;ciaux
Big Data Extensions prend en charge le niveau 3 de l'internationalisation (I18N). Cependant, il existe des
ressources que vous sp&eacute;cifiez qui n'offrent pas de prise en charge UTF-8. Vous pouvez uniquement utiliser
des noms d'attribut ASCII compos&eacute;s de caract&egrave;res alphanum&eacute;riques et de traits de soulignement (_) pour
ces ressources.
Big Data Extensions prend en charge Unicode UTF-8
Les ressources vCenter Server que vous sp&eacute;cifiez avec l'interface de ligne de commande et vSphere Web
Client peuvent &ecirc;tre exprim&eacute;es avec des traits de soulignement (_), des tirets (-), des espaces et la totalit&eacute; des
lettres et chiffres de toute langue. Par exemple, vous pouvez sp&eacute;cifier des ressources comme les banques de
donn&eacute;es &eacute;tiquet&eacute;es &agrave; l'aide de caract&egrave;res &eacute;tendus.
20
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Quand vous utilisez un syst&egrave;me d'exploitation Linux, vous devez configurer le syst&egrave;me de mani&egrave;re &agrave; utiliser
un codage UTF-8 propre &agrave; vos param&egrave;tres r&eacute;gionaux. Par exemple, pour utiliser le fran&ccedil;ais de France,
sp&eacute;cifiez le codage de param&egrave;tres r&eacute;gionaux suivant : fr_FR.UTF-8. Reportez-vous &agrave; la documentation de
votre fournisseur pour plus d'informations sur la configuration du codage UTF-8 pour votre environnement
Linux.
Prise en charge des caract&egrave;res sp&eacute;ciaux
Les ressources vCenter Server suivantes peuvent comporter un point (.) dans leur nom, ce qui vous permet
de les s&eacute;lectionner &agrave; la fois avec l'interface de ligne de commande et vSphere Web Client.
n
nom de groupe de ports
n
nom de cluster
n
nom de pool de ressources
n
nom de banque de donn&eacute;es
L'utilisation d'un point n'est pas autoris&eacute;e dans le nom de la ressource Serengeti.
Ressources exclues de la prise en charge Unicode UTF-8
Le fichier de sp&eacute;cification de cluster Serengeti, le fichier de manifeste et le fichier de mappage racks-h&ocirc;tes de
topologie n'offrent pas de prise en charge UTF-8. Quand vous cr&eacute;ez ces fichiers pour d&eacute;finir les nœuds et
ressources que le cluster va utiliser, utilisez uniquement des noms d'attributs ASCII compos&eacute;s de caract&egrave;res
alphanum&eacute;riques et de traits de soulignement (_).
Les noms de ressources suivants sont exclus de la prise en charge UTF-8 :
n
nom de cluster
n
nom nodeGroup
n
nom de nœud
n
nom de machine virtuelle
Les attributs suivants inclus dans le fichier de sp&eacute;cification de cluster Serengeti sont exclus de la prise en
charge UTF-8 :
n
nom de distribution
n
r&ocirc;le
n
configuration de cluster
n
type de stockage
n
haFlag
n
instanceType
n
groupAssociationsType
Le nom de rack dans le fichier de mappage racks-h&ocirc;tes de topologie et le champ placementPolicies du
fichier de sp&eacute;cification de cluster Serengeti sont &eacute;galement exclus de la prise en charge UTF-8.
VMware, Inc.
21
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Le programme d'am&eacute;lioration du produit
Vous pouvez configurer Big Data Extensions de sorte qu'il collecte des donn&eacute;es afin de nous aider &agrave;
am&eacute;liorer votre exp&eacute;rience utilisateur des produits VMware. La section suivante contient des informations
importantes sur le programme d'am&eacute;lioration du produit VMware.
Le programme d'am&eacute;lioration du produit vise &agrave; identifier et &agrave; r&eacute;gler rapidement les probl&egrave;mes qui peuvent
affecter votre exp&eacute;rience. Si vous choisissez de participer au programme d'am&eacute;lioration du produit,
Big Data Extensions enverra r&eacute;guli&egrave;rement des donn&eacute;es anonymes &agrave; VMware. Nous utiliserons ces donn&eacute;es
&agrave; des fins de d&eacute;veloppement de produits et de r&eacute;solution des probl&egrave;mes.
Avant de collecter des donn&eacute;es, VMware anonymise tous les champs contenant des informations propres &agrave;
votre entreprise. VMware rend ces champs neutres en hachant leur valeur r&eacute;elle. Lorsqu'une valeur hach&eacute;e
est collect&eacute;e, VMware n'est pas en mesure d'identifier la valeur r&eacute;elle, mais d&eacute;tecte les changements qu'elle
subit lorsque vous modifiez votre environnement.
Cat&eacute;gories d'information dans les donn&eacute;es collect&eacute;es
Lorsque vous choisissez de participer au programme d'am&eacute;lioration du produit VMware (CEIP), VMware
obtient des donn&eacute;es des cat&eacute;gories suivantes :
Donn&eacute;es de
configuration
Donn&eacute;es sur votre configuration des produits VMware et informations li&eacute;es
&agrave; votre environnement informatique. Exemples de donn&eacute;es de
configuration : informations sur la version des produits VMware, sur le
mat&eacute;riel et les logiciels utilis&eacute;s dans votre environnement, param&egrave;tres de
configuration des produits et informations sur votre environnement r&eacute;seau.
Les donn&eacute;es de configuration peuvent inclure des versions hach&eacute;es des ID et
des adresses MAC et IP de vos p&eacute;riph&eacute;riques.
Donn&eacute;es sur l'utilisation
des fonctions
Donn&eacute;es sur votre utilisation des produits et services VMware. Exemples de
donn&eacute;es sur l'utilisation des fonctions : informations sur les fonctions
utilis&eacute;es, indicateurs d'activit&eacute; dans l'interface utilisateur et informations sur
vos appels API.
Donn&eacute;es performances
Donn&eacute;es sur les performances des produits et services VMware. Exemples de
donn&eacute;es sur les performances : indicateurs de performance et &eacute;chelle des
produits et services VMware, temps de r&eacute;ponse des interfaces utilisateur et
informations sur vos appels d'API.
Activation et d&eacute;sactivation de la collecte des donn&eacute;es
Par d&eacute;faut, l'inscription au programme d'am&eacute;lioration du produit est activ&eacute;e pendant l'installation. Vous
avez la possibilit&eacute; de d&eacute;sactiver ce service &agrave; ce moment-l&agrave;. Vous pouvez &eacute;galement mettre fin &agrave; votre
participation au programme &agrave; tout moment et ainsi arr&ecirc;ter d'envoyer des donn&eacute;es &agrave; VMware. Reportezvous &agrave; &laquo; D&eacute;sactiver le collecteur de donn&eacute;es Big Data Extensions &raquo;, page 124.
Pour toute question ou inqui&eacute;tude concernant le programme d'am&eacute;lioration du produit pour Log Insight,
contactez [email protected].
22
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
D&eacute;ployer le vApp Big Data Extensions dans vSphere Web Client
Le d&eacute;ploiement du vApp Big Data Extensions constitue la premi&egrave;re &eacute;tape pour rendre votre cluster
op&eacute;rationnel avec Big Data Extensions.
Pr&eacute;requis
n
Installez et configurez vSphere.
n
Configurez tous les h&ocirc;tes ESXi pour utiliser le m&ecirc;me serveur NTP.
n
Sur chaque h&ocirc;te ESXi, ajoutez le serveur NTP &agrave; la configuration d'h&ocirc;te, puis, dans la liste Strat&eacute;gie
de d&eacute;marrage de la configuration d'h&ocirc;te, s&eacute;lectionnez D&eacute;marrer et arr&ecirc;ter avec l'h&ocirc;te. Le d&eacute;mon
NTP veille &agrave; ce que les processus d&eacute;pendant de l'heure se produisent de mani&egrave;re synchronis&eacute;e sur
tous les h&ocirc;tes.
n
Lorsque vous installez Big Data Extensions sur vSphere 5.5 ou version ult&eacute;rieure, utilisez vCenter
Single Sign-On pour fournir l'authentification utilisateur.
n
V&eacute;rifiez que vous poss&eacute;dez une licence vSphere Enterprise pour chaque h&ocirc;te sur lequel vous d&eacute;ployez
des nœuds Hadoop virtuels. Vous g&eacute;rez vos licences vSphere dans vSphere Web Client ou dans
vCenter Server.
n
Installez le plug-in Client Integration pour vSphere Web Client. Ce plug-in permet le d&eacute;ploiement OVF
sur votre syst&egrave;me de fichiers local.
REMARQUE Selon les param&egrave;tres de s&eacute;curit&eacute; de votre navigateur, vous devrez peut-&ecirc;tre accepter le
plug-in lors de sa premi&egrave;re utilisation.
n
T&eacute;l&eacute;chargez Big Data Extensions OVA depuis le site de t&eacute;l&eacute;chargement VMware.
n
V&eacute;rifiez que vous avez au moins 40 Go d'espace disque disponible pour OVA. Vous avez besoin
d'autres ressources pour le cluster Hadoop.
n
Assurez-vous de conna&icirc;tre l'URL du service de recherche vCenter Single Sign-On pour votre service
vCenter Single Sign-On.
Si vous installez Big Data Extensions sur vSphere 5.5 ou version ult&eacute;rieure, veillez &agrave; ce que votre
environnement inclue vCenter Single Sign-On. Utilisez vCenter Single Sign-On pour fournir
l'authentification utilisateur sur vSphere 5.5 ou version ult&eacute;rieure.
n
Lisez la description du programme d'am&eacute;lioration du produit et d&eacute;cidez si vous souhaitez collecter des
donn&eacute;es et les envoyer &agrave; VMware afin de contribuer &agrave; am&eacute;liorer l'exp&eacute;rience client dans
Big Data Extensions. Reportez-vous &agrave; &laquo; Le programme d'am&eacute;lioration du produit &raquo;, page 22.
Proc&eacute;dure
1
Dans vSphere Web Client, s&eacute;lectionnez un pool de ressources de niveau sup&eacute;rieur, puis Actions &gt;
D&eacute;ployer le mod&egrave;le OVF.
S&eacute;lectionnez un pool de ressources de niveau sup&eacute;rieur : Les pools de ressources enfants ne sont pas
pris en charge par Big Data Extensions m&ecirc;me si vous pouvez en s&eacute;lectionner un. Si vous en s&eacute;lectionnez
un, vous ne pouvez pas cr&eacute;er de clusters Big Data avec Big Data Extensions.
2
VMware, Inc.
Choisissez l'emplacement dans lequel Big Data Extensions OVA r&eacute;side et cliquez sur Suivant.
Option
Description
D&eacute;ployez &agrave; partir du fichier
Parcourez votre syst&egrave;me de fichiers pour un mod&egrave;le OVF ou OVA.
D&eacute;ployez &agrave; partir d'une URL
Tapez l'URL d'un mod&egrave;le OVF ou OVA situ&eacute; sur Internet. Par exemple :
http://vmware.com/VMTN/appliance.ovf.
23
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Consultez la page des d&eacute;tails du mod&egrave;le OVF et cliquez sur Suivant.
4
Acceptez le contrat de licence, puis cliquez sur Suivant.
5
Sp&eacute;cifiez un nom pour le vApp, s&eacute;lectionnez un centre de donn&eacute;es cible pour OVA, puis cliquez sur
Suivant.
Les seuls caract&egrave;res valides dans les noms de vApp Big Data Extensions sont les caract&egrave;res
alphanum&eacute;riques et les traits de soulignement. Le nom de vApp doit comprendre moins de
60 caract&egrave;res. Quand vous choisissez le nom de vApp, tenez &eacute;galement compte de la mani&egrave;re dont vous
allez nommer vos clusters. Ensemble, les noms de vApp et de cluster doivent comprendre moins de
80 caract&egrave;res.
6
S&eacute;lectionnez un stockage partag&eacute; pour OVA et cliquez sur Suivant.
Si le stockage partag&eacute; n'est pas disponible, un stockage local est acceptable.
7
Pour chaque r&eacute;seau sp&eacute;cifi&eacute; dans le mod&egrave;le OVF, s&eacute;lectionnez un r&eacute;seau dans la colonne R&eacute;seaux de
destination de votre infrastructure pour configurer le mappage r&eacute;seau.
Le premier r&eacute;seau permet au serveur de gestion de communiquer avec votre cluster Hadoop. Le second
r&eacute;seau permet au serveur de gestion de communiquer avec vCenter Server. Si votre d&eacute;ploiement
vCenter Server n'utilise pas IPv6, vous pouvez sp&eacute;cifier le m&ecirc;me r&eacute;seau de destination IPv4 &agrave; utiliser
par les deux r&eacute;seaux sources.
24
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
8
Configurez les param&egrave;tres r&eacute;seau de votre environnement, puis cliquez sur Suivant.
a
Entrez les param&egrave;tres r&eacute;seau qui permettent au serveur de gestion de communiquer avec votre
cluster Hadoop.
Utilisez un r&eacute;seau IPv4 (IP) statique. Une adresse IPv4 correspond &agrave; quatre nombres s&eacute;par&eacute;s par
des points comme dans aaa.bbb.ccc.ddd, o&ugrave; chaque plage num&eacute;rique est comprise entre 0 et 255.
Vous devez entrer un masque de r&eacute;seau, comme 255.255.255.0, ainsi qu'une adresse de passerelle,
comme 192.168.1.253.
Si vCenter Server, tout h&ocirc;te ESXi ou un r&eacute;f&eacute;rentiel de distribution Hadoop sont r&eacute;solus &agrave; l'aide
d'un nom de domaine complet (FQDN, Fully Qualified Domain Name), vous devez entrer une
adresse DNS. Entrez l'adresse IP du serveur DNS dans Serveur DNS 1. S'il existe un serveur DNS
secondaire, entrez son adresse IP dans Serveur DNS 2.
REMARQUE Vous ne pouvez pas utiliser un pool IP partag&eacute; avec Big Data Extensions.
b
(Facultatif) Si vous utilisez IPv6 entre le serveur de gestion et vCenter Server, cochez la case
Activer la connexion Ipv6.
Entrez l'adresse IPv6 ou le FQDN de vCenter Server. La taille de l'adresse IPv6 s'&eacute;l&egrave;ve &agrave; 128 bits. La
repr&eacute;sentation pr&eacute;f&eacute;r&eacute;e de l'adresse IPv6 est : xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx o&ugrave; chaque
x est un chiffre hexad&eacute;cimal qui repr&eacute;sente 4 bits. Les adresses IPv6 vont de
0000:0000:0000:0000:0000:0000:0000:0000 &agrave; ffff:ffff:ffff:ffff:ffff:ffff:ffff:ffff. Par commodit&eacute;, une
adresse IPv6 peut &ecirc;tre abr&eacute;g&eacute;e sous la forme d'une notation plus courte en appliquant les r&egrave;gles ciapr&egrave;s.
n
Supprimez le ou les z&eacute;ros non significatifs de tous les groupes de chiffres hexad&eacute;cimaux. Cette
suppression est g&eacute;n&eacute;ralement appliqu&eacute;e soit &agrave; tous les z&eacute;ros non significatifs, soit &agrave; aucun. Par
exemple, le groupe 0042 est converti en 42.
n
Remplacez les sections cons&eacute;cutives de z&eacute;ros par un double deux-points (::). Vous pouvez
utiliser le double deux-points une seule fois dans une adresse, car en utiliser plusieurs rendrait
l'adresse impr&eacute;cise. La norme RFC 5952 recommande de ne pas utiliser de double deux-points
pour repr&eacute;senter une section unique de z&eacute;ros omise.
L'exemple suivant montre comment ces r&egrave;gles sont appliqu&eacute;es &agrave; l'adresse
2001:0db8:0000:0000:0000:ff00:0042:8329.
n
La suppression de tous les z&eacute;ros non significatifs permet d'obtenir l'adresse
2001:db8:0:0:0:ff00:42:8329.
n
L'omission des sections cons&eacute;cutives de z&eacute;ros permet d'obtenir l'adresse
2001:db8::ff00:42:8329.
Consultez la norme RFC 4291 pour plus d'informations sur la notation des adresses IPv6.
9
V&eacute;rifiez que la case Initialiser les ressources est coch&eacute;e et cliquez sur Suivant.
Si la case n'est pas coch&eacute;e, le pool de ressources, la banque de donn&eacute;es et la connexion r&eacute;seau affect&eacute;s &agrave;
vApp ne sont pas ajout&eacute;s &agrave; Big Data Extensions.
Si vous n'ajoutez pas le pool de ressources, la banque de donn&eacute;es et le r&eacute;seau quand vous d&eacute;ployez
vApp, utilisez vSphere Web Client ou Serengeti CLI Client pour sp&eacute;cifier des informations s'y
rapportant avant de cr&eacute;er un cluster Hadoop.
10
Ex&eacute;cutez l'URL du service de recherche vCenter Single Sign-On pour activer vCenter Single Sign-On.
n
Si vous utilisez vCenter 5.x, utilisez l'URL suivante : https://FQDN_ou_IP_de_SSO_SERVER:
7444/lookupservice/sdk
VMware, Inc.
25
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Si vous utilisez vCenter 6.0, utilisez l'URL suivante : https://FQDN_de_SSO_SERVER:
443/lookupservice/sdk
Si vous ne renseignez pas l'URL, vCenter Single Sign-On est d&eacute;sactiv&eacute;.
11
Pour d&eacute;sactiver la collecte de donn&eacute;es Big Data Extensions, d&eacute;cochez la case Programme d'am&eacute;lioration
du produit.
12
(Facultatif) Pour d&eacute;sactiver l'enregistrement automatique du plug-in Web Big Data Extensions,
d&eacute;cochez la case d'activation correspondante.
Par d&eacute;faut, la case d'activation de l'enregistrement automatique du plug-in Web Big Data Extensions est
coch&eacute;e. Lorsque vous vous connectez au client Web de Big Data Extensions pour la premi&egrave;re fois, il se
connecte automatiquement au Serengeti management server.
13
Sp&eacute;cifiez un serveur Syslog distant, tel que VMware vRealize Log Insight, auquel Big Data Extensions
peut envoyer des informations de journalisation &agrave; travers le r&eacute;seau.
Il s'agit du serveur Syslog recevant et g&eacute;rant les journaux qui contr&ocirc;le les param&egrave;tres de r&eacute;tention, de
rotation et de division de ceux-ci. Big Data Extensions ne peut pas configurer ni contr&ocirc;ler la gestion des
journaux sur un serveur Syslog distant. Pour en savoir plus sur la gestion des journaux, reportez-vous &agrave;
la documentation relative au serveur Syslog.
Quelle que soit la configuration Syslog suppl&eacute;mentaire sp&eacute;cifi&eacute;e avec cette option, les journaux
continuent d'&ecirc;tre plac&eacute;s dans les emplacements par d&eacute;faut de l'environnement Big Data Extensions.
14
V&eacute;rifiez les liaisons vService et cliquez sur Suivant.
15
V&eacute;rifiez les informations d'installation, puis cliquez sur Terminer.
vCenter Server d&eacute;ploie Big Data Extensions vApp. Quand le d&eacute;ploiement est termin&eacute;, deux machines
virtuelles sont disponibles dans vApp :
n
La machine virtuelle du serveur de gestion, management-server (&eacute;galement appel&eacute;e
Serengeti Management Server), qui est d&eacute;marr&eacute;e dans le cadre du d&eacute;ploiement OVA.
n
La machine virtuelle de mod&egrave;le de nœud, node-template, n'est pas allum&eacute;e. Big Data Extensions
clone les nœuds Hadoop &agrave; partir de ce mod&egrave;le lors du provisionnement d'un cluster. Ne d&eacute;marrez
pas ou n'arr&ecirc;tez pas cette machine virtuelle sans bonne raison. Le mod&egrave;le n'inclut pas de
distribution Hadoop.
IMPORTANT Ne supprimez pas de fichiers dans le r&eacute;pertoire /opt/serengeti/.chef. Si vous supprimez
l'un de ces fichiers, comme serengeti.pem, les mises &agrave; niveau ult&eacute;rieures de Big Data Extensions
risquent d'&eacute;chouer sans afficher de notifications d'erreur.
Suivant
Installez le plug-in Big Data Extensions dans vSphere Web Client. Reportez-vous &agrave; &laquo; Installer le plug-in Big
Data Extensions &raquo;, page 27.
Si la case Initialiser les ressources n'est pas coch&eacute;e, ajoutez des ressources au serveur Big Data Extensions
avant de cr&eacute;er un cluster Hadoop.
Installer des RPM dans le r&eacute;f&eacute;rentiel Yum du serveur de gestion
Serengeti
Installer les packages Red Hat Package Manager (RPM) wsdl4j et mailx dans le r&eacute;f&eacute;rentiel Yum interne de
Serengeti Management Server.
Les packages RPM wsdl4j et mailx ne sont pas int&eacute;gr&eacute;s dans Big Data Extensions en raison des contrats de
licence. De ce fait, vous devez les installer dans le r&eacute;f&eacute;rentiel Yum interne de Serengeti Management Server.
26
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Pr&eacute;requis
D&eacute;ployez le vApp Big Data Extensions.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
T&eacute;l&eacute;chargez et installez les packages RPM wsdl4j et mailx.
n
Si Serengeti Management Server peut se connecter &agrave; Internet, ex&eacute;cutez les commandes comme
indiqu&eacute; dans l'exemple ci-dessous pour t&eacute;l&eacute;charger les RPM, copiez les fichiers dans le r&eacute;pertoire
requis, puis cr&eacute;ez un r&eacute;f&eacute;rentiel.
umask 022
cd /opt/serengeti/www/yum/repos/centos/6/base/RPMS/
wget http://mirror.centos.org/centos/6/os/x86_64/Packages/mailx-12.4-8.el6_6.x86_64.rpm
wget http://mirror.centos.org/centos/6/os/x86_64/Packages/wsdl4j-1.5.2-7.8.el6.noarch.rpm
createrepo ..
n
Si Serengeti Management Server ne peut pas se connecter &agrave; Internet, vous devez ex&eacute;cuter les t&acirc;ches
suivantes manuellement.
a
T&eacute;l&eacute;chargez les fichiers RPM comme indiqu&eacute; dans l'exemple ci-dessous.
http://mirror.centos.org/centos/6/os/x86_64/Packages/mailx-12.4-8.el6_6.x86_64.rpm
http://mirror.centos.org/centos/6/os/x86_64/Packages/wsdl4j-1.5.2-7.8.el6.noarch.rpm
b
Copiez les fichiers RPM dans /opt/serengeti/www/yum/repos/centos/6/base/RPMS/.
c
Ex&eacute;cutez la commande createrepo pour cr&eacute;er un r&eacute;f&eacute;rentiel &agrave; partir des RPM que vous avez
t&eacute;l&eacute;charg&eacute;s.
umask 022
chmod a+r /opt/serengeti/www/yum/repos/centos/6/base/*.rpm
createrepo /opt/serengeti/www/yum/repos/centos/6/base/
Installer le plug-in Big Data Extensions
Pour permettre &agrave; l'interface utilisateur Big Data Extensions d'&ecirc;tre utilis&eacute;e avec vCenter Server Web Client,
enregistrez le plug-in aupr&egrave;s de vSphere Web Client. L'interface utilisateur graphique Big Data Extensions
est uniquement prise en charge lorsque vous utilisez vSphere Web Client 5.5 et version ult&eacute;rieure.
Le plug-in Big Data Extensions propose une interface graphique utilisateur qui s'int&egrave;gre &agrave;
vSphere Web Client. &Agrave; l'aide de l'interface du plug-in Big Data Extensions, vous pouvez effectuer des t&acirc;ches
courantes de gestion de l'infrastructure Hadoop et de clusters.
REMARQUE Utilisez uniquement l'interface du plug-in Big Data Extensions dans vSphere Web Client ou le
client Serengeti CLI pour surveiller et g&eacute;rer votre environnement Big Data Extensions. L'ex&eacute;cution
d'op&eacute;rations de gestion dans vCenter Server risque d'entra&icirc;ner une d&eacute;synchronisation des outils de gestion
Big Data Extensions et leur incapacit&eacute; &agrave; signaler correctement l'&eacute;tat de fonctionnement de votre
environnement Big Data Extensions.
Pr&eacute;requis
n
VMware, Inc.
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
27
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Par d&eacute;faut, le plug-in Web Big Data Extensions s'installe et s'enregistre automatiquement lors du
d&eacute;ploiement du vApp Big Data Extensions. Pour installer le plug-in Web Big Data Extensions apr&egrave;s
avoir d&eacute;ploy&eacute; le vApp Big Data Extensions, vous devez avoir choisi de ne pas activer l'enregistrement
automatique du plug-in Web pendant le d&eacute;ploiement. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data
Extensions dans vSphere Web Client &raquo;, page 23.
n
Assurez-vous de disposer d'informations d'identification de connexion avec des privil&egrave;ges
d'administration pour le syst&egrave;me vCenter Server pour lequel vous enregistrez Big Data Extensions.
REMARQUE Le nom d'utilisateur et le mot de passe que vous utilisez pour la connexion ne peuvent pas
contenir de caract&egrave;res dont le codage UTF-8 est sup&eacute;rieur &agrave; 0x8000.
n
Si vous voulez utiliser l'adresse IP de vCenter Server pour acc&eacute;der &agrave; vSphere Web Client et que votre
navigateur utilise un proxy, ajoutez l'adresse IP de vCenter Server &agrave; la liste des exceptions de proxy.
Proc&eacute;dure
1
Ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL de vSphere Web Client 5.5 ou version ult&eacute;rieure.
https://hostname-or-ip-address:port/vsphere-client
La variable hostname-or-ip-address peut &ecirc;tre le nom d'h&ocirc;te DNS ou l'adresse IP de vCenter Server. Par
d&eacute;faut, le port est 9443, mais il peut avoir chang&eacute; au cours de l'installation de vSphere Web Client.
2
Entrez le nom d'utilisateur et le mot de passe avec des privil&egrave;ges d'administration qui poss&egrave;dent des
autorisations sur vCenter Server, puis cliquez sur Connexion.
3
&Agrave; l'aide du volet de navigation vSphere Web Client, acc&eacute;dez au fichier ZIP sur
Serengeti Management Server qui contient le plug-in Big Data Extensions &agrave; enregistrer aupr&egrave;s de
vCenter Server.
Pour trouver Serengeti Management Server, recherchez sous le centre de donn&eacute;es et le pool de
ressources dans lesquels il est d&eacute;ploy&eacute;.
4
Dans l'arborescence de l'inventaire, s&eacute;lectionnez management-server pour afficher des informations sur
Serengeti Management Server dans le volet central.
Cliquez sur l'onglet R&eacute;sum&eacute; dans le volet central pour acc&eacute;der &agrave; des informations suppl&eacute;mentaires.
5
Notez l'adresse IP de la machine virtuelle Serengeti Management Server.
6
Ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL de la machine virtuelle management-server.
https://management-server-ip-address:8443/register-plugin
La variable management-server-ip-address correspond &agrave; l'adresse IP que vous avez not&eacute;e &agrave; l'&eacute;tape &Eacute;tape 5.
7
28
Entrez les informations pour enregistrer le plug-in.
Option
Action
Enregistrer ou annuler
l'enregistrement
Cliquez sur Installer pour installer le plug-in. S&eacute;lectionnez D&eacute;sinstaller
pour d&eacute;sinstaller le plug-in.
Nom d'h&ocirc;te ou adresse IP de
vCenter Server
Entrez le nom d'h&ocirc;te ou l'adresse IP de vCenter Server.
Nom utilisateur et Mot de passe
Entrez le nom d'utilisateur et le mot de passe avec des privil&egrave;ges
d'administration que vous utilisez pour vous connecter &agrave; vCenter Server.
Le nom d'utilisateur et le mot de passe ne peuvent pas contenir de
caract&egrave;res dont le codage UTF-8 est sup&eacute;rieur &agrave; 0x8000.
URL du package Big Data
Extensions
Entrez l'URL avec l'adresse IP de la machine virtuelle management-server
o&ugrave; se trouve le package du plug-in Big Data Extensions :
https://management-server-ip-address/vcplugin/serengetiplugin.zip
N'incluez pas http:// ni https:// quand vous entrez le nom d'h&ocirc;te ou
l'adresse IP.
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
8
Cliquez sur Soumettre.
Le plug-in Big Data Extensions s'enregistre aupr&egrave;s de vCenter Server et de vSphere Web Client.
9
D&eacute;connectez-vous de vSphere Web Client, puis reconnectez-vous &agrave; l'aide de vos nom d'utilisateur et
mot de passe vCenter Server.
L'ic&ocirc;ne Big Data Extensions appara&icirc;t dans la liste des objets de l'inventaire.
10
Cliquez sur Big Data Extensions dans le volet Inventaire.
Suivant
Connectez le plug-in Big Data Extensions &agrave; l'instance Big Data Extensions que vous voulez g&eacute;rer en vous
connectant au Serengeti Management Server correspondant. Reportez-vous &agrave; &laquo; Se connecter &agrave; un serveur de
gestion Serengeti &raquo;, page 30.
Configurer les param&egrave;tres vCenter Single Sign-On du serveur de
gestion Serengeti
Si les param&egrave;tres d'authentification Single Sign-On (SSO) Big Data Extensions ne sont pas configur&eacute;s ou s'ils
ont chang&eacute; suite &agrave; l'installation du plug-in Big Data Extensions, vous pouvez utiliser le portail
d'administration du serveur de gestion Serengeti pour activer SSO, mettre &agrave; jour le certificat et enregistrer le
plug-in pour pouvoir vous connecter au serveur de gestion Serengeti et continuer &agrave; g&eacute;rer des clusters.
Le certificat SSL du plug-in Big Data Extensions peut changer pour de nombreuses raisons. Par exemple,
vous installez un certificat personnalis&eacute; ou remplacez un certificat qui a expir&eacute;.
Pr&eacute;requis
n
Assurez-vous de conna&icirc;tre l'adresse IP du serveur de gestion Serengeti auquel vous voulez vous
connecter.
n
Assurez-vous de disposer des informations d'identification de connexion de l'utilisateur root du
serveur de gestion Serengeti.
Proc&eacute;dure
1
Ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL du portail d'administration du serveur de gestion
Serengeti.
https://management-server-ip-address:5480
2
Tapez root pour le nom d'utilisateur, tapez le mot de passe, puis cliquez sur Connexion.
3
S&eacute;lectionnez l'onglet SSO.
4
Effectuez l'une des op&eacute;rations suivantes.
Option
Description
Mettre &agrave; jour le certificat
Cliquez sur Mettre &agrave; jour le certificat.
Activer SSO pour la premi&egrave;re fois
Tapez l'URL du service de recherche, puis cliquez sur Activer SSO.
Les certificats de serveur SSO Big Data Extensions et vCenter sont synchronis&eacute;s.
Suivant
Enregistrez de nouveau le plug-in Big Data Extensions aupr&egrave;s du serveur de gestion Serengeti. Reportezvous &agrave; &laquo; Se connecter &agrave; un serveur de gestion Serengeti &raquo;, page 30.
VMware, Inc.
29
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Se connecter &agrave; un serveur de gestion Serengeti
Pour utiliser le plug-in Big Data Extensions pour g&eacute;rer et surveiller des clusters Big Data et des distributions
Hadoop, vous devez connecter le plug-in Big Data Extensions au Serengeti Management Server dans votre
d&eacute;ploiement Big Data Extensions.
Vous pouvez d&eacute;ployer plusieurs instances du Serengeti Management Server dans votre environnement. En
revanche, vous ne pouvez connecter le plug-in Big Data Extensions qu'&agrave; une seule instance du serveur de
gestion Serengeti &agrave; la fois. Vous pouvez changer l'instance Serengeti Management Server &agrave; laquelle se
connecte le plug-in, puis utiliser l'interface du plug-in Big Data Extensions pour g&eacute;rer et surveiller plusieurs
distributions Hadoop et HBase d&eacute;ploy&eacute;es dans votre environnement.
IMPORTANT Le Serengeti Management Server auquel vous vous connectez est partag&eacute; par tous les
utilisateurs de l'interface du plug-in Big Data Extensions dans vSphere Web Client. Si un utilisateur se
connecte &agrave; un autre Serengeti Management Server, tous les autres utilisateurs sont affect&eacute;s par ce
changement.
Pr&eacute;requis
n
V&eacute;rifiez que le d&eacute;ploiement du vApp Big Data Extensions s'est correctement d&eacute;roul&eacute; et que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
n
V&eacute;rifiez que la version du serveur de gestion Serengeti et du plug-in Big Data Extensions est la m&ecirc;me.
n
V&eacute;rifiez que vCenter Single Sign-On est activ&eacute; et configur&eacute; pour &ecirc;tre utilis&eacute; par Big Data Extensions
pour vSphere 5.5 et versions ult&eacute;rieures.
n
Installez le plug-in Big Data Extensions.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Cliquez sur l'onglet R&eacute;sum&eacute;.
4
Dans le volet Serveur connect&eacute;, cliquez sur le lien Connecter le serveur.
5
Acc&eacute;dez &agrave; la machine virtuelle du Serengeti Management Server dans le vApp Big Data Extensions
auquel se connecter, s&eacute;lectionnez-la, puis cliquez sur OK.
Le plug-in Big Data Extensions communique via le protocole SSL avec le Serengeti Management Server.
Quand vous vous connectez &agrave; une instance du serveur Serengeti, le plug-in v&eacute;rifie que le certificat SSL
en cours d'utilisation par le serveur est install&eacute;, valide et approuv&eacute;.
L'instance du serveur Serengeti appara&icirc;t en tant que serveur connect&eacute; sous l'onglet R&eacute;sum&eacute; de la page
d'accueil Big Data Extensions.
Suivant
Vous pouvez ajouter un pool de ressources, une banque de donn&eacute;es et des ressources r&eacute;seau &agrave; votre
d&eacute;ploiement Big Data Extensions, puis cr&eacute;er des clusters Big Data que vous pouvez provisionner &agrave; des fins
d'utilisation.
30
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Installer le client d'interface de ligne de commande distant Serengeti
Bien que le plug-in Big Data Extensions pour vSphere Web Client prenne en charge des t&acirc;ches de gestion de
ressources et de clusters basiques, vous pouvez ex&eacute;cuter bien plus de t&acirc;ches de gestion &agrave; l'aide du client
Serengeti CLI.
Pr&eacute;requis
n
V&eacute;rifiez que le d&eacute;ploiement du vApp Big Data Extensions s'est correctement d&eacute;roul&eacute; et que le serveur
de gestion est en cours d'ex&eacute;cution.
n
V&eacute;rifiez que vous disposez du nom d'utilisateur et du mot de passe corrects pour vous connecter au
client Serengeti CLI. Si vous effectuez le d&eacute;ploiement sur vSphere 5.5 ou version ult&eacute;rieure, le client
Serengeti CLI utilise vos informations d'identification vCenter Single Sign-On.
n
V&eacute;rifiez que l'environnement d'ex&eacute;cution Java (JRE, Java Runtime Environment) est install&eacute; dans votre
environnement et que son emplacement se trouve dans votre variable d'environnement PATH.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Cliquez sur l'onglet D&eacute;marrage, puis sur le lien T&eacute;l&eacute;charger la console d'interface de ligne de
commande Serengeti.
Un fichier ZIP contenant le client Serengeti CLI est t&eacute;l&eacute;charg&eacute; sur votre ordinateur.
4
D&eacute;compressez-le et examinez le t&eacute;l&eacute;chargement, qui inclut les composants suivants dans le r&eacute;pertoire
cli.
n
Fichier JAR serengeti-cli-version, qui inclut le client Serengeti CLI.
n
R&eacute;pertoire samples, qui inclut des exemples de configurations de clusters.
n
Biblioth&egrave;ques dans le r&eacute;pertoire lib.
5
Ouvrez une interface de commande, puis acc&eacute;dez au r&eacute;pertoire dans lequel vous avez d&eacute;compress&eacute; le
package de t&eacute;l&eacute;chargement du client Serengeti CLI.
6
Acc&eacute;dez au r&eacute;pertoire cli, puis ex&eacute;cutez la commande suivante pour ouvrir le client Serengeti CLI :
java -jar serengeti-cli-version.jar
Suivant
Pour en savoir plus sur l'utilisation du client Serengeti CLI, consultez le Guide de l'interface de ligne de
commande VMware vSphere Big Data Extensions.
Acc&eacute;der &agrave; l'interface de ligne de commande Serengeti &agrave; l'aide du
client d'interface de ligne de commande distant
Vous pouvez acc&eacute;der &agrave; l'interface de ligne de commande (CLI) Serengeti pour effectuer des t&acirc;ches
administratives Serengeti &agrave; l'aide du client d'interface de ligne de commande distant Serengeti.
Pr&eacute;requis
&reg;
n
Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server sur
lequel vous avez d&eacute;ploy&eacute; le vApp Serengeti.
n
V&eacute;rifiez que le d&eacute;ploiement de Serengeti vApp s'est correctement d&eacute;roul&eacute; et que le serveur de gestion
est en cours d'ex&eacute;cution.
VMware, Inc.
31
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
V&eacute;rifiez que le mot de passe dont vous disposez pour vous connecter &agrave; la Serengeti CLI est exact.
Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
La Serengeti CLI utilise ses informations d'identification vCenter Server.
n
V&eacute;rifiez que l'environnement d'ex&eacute;cution Java (JRE, Java Runtime Environment) est install&eacute; dans votre
environnement et que son emplacement se trouve dans votre variable d'environnement path.
Proc&eacute;dure
1
T&eacute;l&eacute;chargez le package Serengeti CLI &agrave; partir du Serengeti Management Server.
Ouvrez un navigateur Web et naviguez jusqu'&agrave; l'URL suivante :
https://server_ip_address/cli/VMware-Serengeti-CLI.zip
2
T&eacute;l&eacute;chargez le fichier ZIP.
Le nom de fichier est au format VMware-Serengeti-cli-num&eacute;ro_version-num&eacute;ro_build.ZIP.
3
D&eacute;compressez le fichier t&eacute;l&eacute;charg&eacute;.
Celui-ci inclut les composants suivants.
n
Le fichier JAR serengeti-cli-version_number, qui inclut le Serengeti Remote CLI Client.
n
R&eacute;pertoire samples, qui inclut des exemples de configurations de clusters.
n
Biblioth&egrave;ques dans le r&eacute;pertoire lib.
4
Ouvrez une interface de commande, puis acc&eacute;dez au r&eacute;pertoire dans lequel vous avez d&eacute;compress&eacute; le
package.
5
Acc&eacute;dez au r&eacute;pertoire cli, puis ex&eacute;cutez la commande suivante pour entrer dans l'interface de ligne de
commande Serengeti.
n
Pour les langues autres que le fran&ccedil;ais ou l'allemand, ex&eacute;cutez la commande suivante.
java -jar serengeti-cli-num&eacute;ro_version.jar
n
Pour le fran&ccedil;ais ou l'allemand, qui utilisent l'encodage linguistique de page de code 850 (CP 850)
ex&eacute;cuter l'interface de ligne de commande Serengeti &agrave; partir d'une console de commandes
Windows, ex&eacute;cutez la commande suivante.
java -Dfile.encoding=cp850 -jar serengeti-cli-num&eacute;ro_version.jar
6
Connectez-vous au service Serengeti.
Vous devez ex&eacute;cuter la commande connect host chaque fois que vous commencez une session
d'interface de ligne de commande, puis une nouvelle fois &agrave; l'issue du d&eacute;lai d'expiration de session de
30 minutes. Si vous n'ex&eacute;cutez pas cette commande, vous ne pouvez pas en ex&eacute;cuter d'autres.
a
Ex&eacute;cutez la commande connect.
connect --host xx.xx.xx.xx:8443
b
&Agrave; l'invite, tapez votre nom d'utilisateur, qui peut &ecirc;tre diff&eacute;rent des informations d'identification
que vous utilisez pour vous connecter au Serengeti Management Server.
REMARQUE Si vous ne cr&eacute;ez pas de nom d'utilisateur et de mot de passe pour le
Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification
d'administrateur vCenter Server par d&eacute;faut. Le Serengeti Command-Line Interface Client utilise les
informations d'identification de vCenter Server avec les autorisations de lecture sur le
Serengeti Management Server.
c
32
&Agrave; l'invite, tapez votre mot de passe.
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI appara&icirc;t. Vous pouvez utiliser la
commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe.
n
Pour afficher la liste des commandes disponibles, tapez help.
n
Pour obtenir de l'aide sur une commande particuli&egrave;re, ajoutez son nom apr&egrave;s la commande help.
help cluster create
n
VMware, Inc.
Appuyez sur Tab ex&eacute;cuter une commande.
33
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
34
VMware, Inc.
Mise &agrave; niveau de Big Data Extensions
3
Vous pouvez mettre &agrave; niveau Big Data Extensions &agrave; partir de versions ant&eacute;rieures.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Pr&eacute;parer la mise &agrave; niveau de Big Data Extensions &raquo;, page 35
n
&laquo; Mettre &agrave; niveau le dispositif virtuel Big Data Extensions &raquo;, page 36
n
&laquo; Mettre &agrave; niveau le plug-in Big Data Extensions &raquo;, page 37
n
&laquo; Mettre &agrave; niveau des clusters Big Data Extensions &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 38
n
&laquo; Mettre &agrave; niveau l'Serengeti CLI &raquo;, page 39
n
&laquo; Ajouter un serveur Syslog distant &raquo;, page 39
Pr&eacute;parer la mise &agrave; niveau de Big Data Extensions
Avant d'effectuer la mise &agrave; niveau Big Data Extensions, vous devez pr&eacute;parer votre syst&egrave;me pour vous
assurer que tous les logiciels requis sont correctement install&eacute;s et configur&eacute;s et que l'&eacute;tat de tous les
composants est correct.
Les donn&eacute;es issues de d&eacute;ploiements Big Data Extensions qui ne fonctionnent pas ne sont pas migr&eacute;es
pendant le processus de mise &agrave; niveau. Si Big Data Extensions ne fonctionne pas et que vous ne pouvez pas
effectuer une r&eacute;cup&eacute;ration conform&eacute;ment aux proc&eacute;dures de r&eacute;solution des probl&egrave;mes, n'essayez pas
d'effectuer la mise &agrave; niveau. D&eacute;sinstallez plut&ocirc;t les composants Big Data Extensions pr&eacute;c&eacute;dents et installez
la nouvelle version.
IMPORTANT Ne supprimez pas de fichiers dans le r&eacute;pertoire /opt/serengeti/.chef. Si vous supprimez l'un
de ces fichiers, comme serengeti.pem, les mises &agrave; niveau ult&eacute;rieures de Big Data Extensions risquent
d'&eacute;chouer sans afficher de notifications d'erreur.
Pr&eacute;requis
n
V&eacute;rifiez que votre d&eacute;ploiement Big Data Extensions pr&eacute;c&eacute;dent fonctionne normalement.
Proc&eacute;dure
1
Connectez-vous &agrave; Serengeti Management Server.
2
Ex&eacute;cutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode Maintenance.
serengeti-maintenance.sh on
VMware, Inc.
35
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
V&eacute;rifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a termin&eacute; toutes les t&acirc;ches qui ont &eacute;t&eacute; envoy&eacute;es, l'&eacute;tat de maintenance
entre en mode s&eacute;curis&eacute;. Ex&eacute;cutez le script serengeti-maintenance.sh avec le param&egrave;tre status de
mani&egrave;re r&eacute;p&eacute;t&eacute;e jusqu'&agrave; obtenir le message d'&eacute;tat du syst&egrave;me s&eacute;curis&eacute;.
serengeti-maintenance.sh status
safe
Lorsque le syst&egrave;me renvoie le message d'&eacute;tat syst&egrave;me s&eacute;curis&eacute;, vous pouvez proc&eacute;dez aux t&acirc;ches de
mise &agrave; niveau du syst&egrave;me.
Suivant
Vous pouvez &agrave; pr&eacute;sent effectuer la mise &agrave; niveau vers la nouvelle version de Big Data Extensions. Reportezvous &agrave; la section &laquo; Mettre &agrave; niveau le dispositif virtuel Big Data Extensions &raquo;, page 36.
Mettre &agrave; niveau le dispositif virtuel Big Data Extensions
Vous devez effectuer plusieurs t&acirc;ches pour accomplir la mise &agrave; niveau du dispositif virtuel
Big Data Extensions.
Pr&eacute;requis
La nouvelle version de Big Data Extensions se d&eacute;ploie avec succ&egrave;s dans le m&ecirc;me environnement
vCenter Server que la version &agrave; partir de laquelle vous effectuez la mise &agrave; niveau.
Proc&eacute;dure
1
Ex&eacute;cutez le script de mise &agrave; niveau de Big Data Extensions. page 36
Le script de mise &agrave; niveau importe la configuration de la version pr&eacute;c&eacute;dente de Big Data Extensions.
2
Mettre &agrave; niveau Serengeti Management Server &agrave; l'aide du Portail d'administration de Serengeti
Management Server page 37
Vous pouvez effectuer des mises &agrave; niveau de votre version ant&eacute;rieure de Big Data Extensions vers la
derni&egrave;re version &agrave; l'aide du Portail d'administration de Serengeti Management Server.
Ex&eacute;cutez le script de mise &agrave; niveau de Big Data Extensions .
Le script de mise &agrave; niveau importe la configuration de la version pr&eacute;c&eacute;dente de Big Data Extensions.
Pr&eacute;requis
n
D&eacute;ployez la nouvelle version de Big Data Extensions sur la m&ecirc;me instance vCenter Server que votre
ancienne version. Cela permet au script de mise &agrave; niveau d'importer les param&egrave;tres Big Data Extensions
de votre pr&eacute;c&eacute;dent d&eacute;ploiement dans la derni&egrave;re version.
n
Vous ne pouvez utiliser cette m&eacute;thode de mise &agrave; niveau que pour passer de la version 2.2 &agrave; la
version 2.3. Si vous effectuez une mise &agrave; niveau depuis une version ant&eacute;rieure de Big Data Extensions,
vous devez d'abord proc&eacute;der &agrave; la mise &agrave; niveau vers la version 2.2.
n
Si vous utilisez un mod&egrave;le Hadoop personnalis&eacute;, cr&eacute;ez un mod&egrave;le Hadoop pour votre environnement
avant de proc&eacute;der &agrave; la mise &agrave; niveau vers la nouvelle version de Big Data Extensions. Reportez-vous &agrave;
la section &laquo; Cr&eacute;er une machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL Server 6.7 et VMware
Tools &raquo;, page 66.
n
Veillez &agrave; avoir &agrave; disposition l'adresse IP de la version 2.2 de Serengeti Management Server.
Proc&eacute;dure
1
36
Ouvrez une interface de commande sur la version de Serengeti Management Server vers laquelle vous
effectuez la mise &agrave; niveau (version 2.3) et connectez-vous en tant qu'utilisateur serengeti.
VMware, Inc.
Chapitre 3 Mise &agrave; niveau de Big Data Extensions
2
Ex&eacute;cutez le script /opt/serengeti/sbin/upgrade.py.
Indiquez l'adresse IP de la version 2.2 de Serengeti Management Server. Le script vous invite &agrave; entrer le
mot de passe d'utilisateur serengeti de la version 2.2 de Serengeti Management Server.
/opt/serengeti/sbin/upgrade.py ip_address_2.2
Le processus de mise &agrave; niveau prend quelques minutes. Des messages vous informent de la progression
de la mise &agrave; niveau au fil de celle-ci.
3
Ouvrez une interface de commande sur Serengeti Management Server pour la version 2.3 et connectezvous en tant qu'utilisateur serengeti.
Si la proc&eacute;dure de mise &agrave; niveau renvoie une erreur, consultez le
fichier /opt/serengeti/logs/serengeti-upgrade.log. Ce fichier journal assure le suivi et
l'enregistrement des &eacute;v&eacute;nements pendant la mise &agrave; niveau de Big Data Extensions et peut servir &agrave;
diagnostiquer d'&eacute;ventuels probl&egrave;mes.
Suivant
Vous pouvez &agrave; pr&eacute;sent proc&eacute;der &agrave; la mise &agrave; niveau de Serengeti Management Server. Reportez-vous &agrave;
&laquo; Mettre &agrave; niveau Serengeti Management Server &agrave; l'aide du Portail d'administration de Serengeti
Management Server &raquo;, page 37.
Mettre &agrave; niveau Serengeti Management Server &agrave; l'aide du Portail
d'administration de Serengeti Management Server
Vous pouvez effectuer des mises &agrave; niveau de votre version ant&eacute;rieure de Big Data Extensions vers la
derni&egrave;re version &agrave; l'aide du Portail d'administration de Serengeti Management Server.
Proc&eacute;dure
1
Ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL du Portail d'administration de
Serengeti Management Server pour Big Data Extensions 2.3.
https://management-server-ip-address:5480
2
Tapez root pour le nom d'utilisateur, tapez le mot de passe, puis cliquez sur Connexion.
3
S&eacute;lectionnez l'onglet Mettre &agrave; niveau.
4
Saisissez les adresses IP du serveur Big Data Extensions &agrave; partir duquel vous souhaitez effectuer la mise
&agrave; niveau, puis le mot de passe de l'utilisateur serengeti, et cliquez sur Mettre &agrave; niveau.
Mettre &agrave; niveau le plug-in Big Data Extensions
Vous devez utiliser la m&ecirc;me version pour le Serengeti Management Server et le plug-in Big Data Extensions.
Par d&eacute;faut, le plug-in Web Big Data Extensions s'installe et s'enregistre aupr&egrave;s du
Serengeti Management Server automatiquement lors du d&eacute;ploiement du vApp Big Data Extensions. Si vous
choisissez de ne pas installer ni enregistrer le plug-in Web Big Data Extensions lors de l'installation du vApp
Big Data Extensions, vous devez proc&eacute;der comme suit pour mettre &agrave; niveau le plug-in.
Proc&eacute;dure
1
Ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL du service de gestion de plug-in
Serengeti Management Server.
https://management-server-ip-address:8443/register-plugin
2
S&eacute;lectionnez D&eacute;sinstaller et cliquez sur Envoyer.
3
S&eacute;lectionnez Installer.
VMware, Inc.
37
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
4
Entrez les informations pour enregistrer le nouveau plug-in, puis cliquez sur Envoyer.
Mettre &agrave; niveau des clusters Big Data Extensions &agrave; l'aide de l'interface
de ligne de commande Serengeti
Pour permettre &agrave; Serengeti Management Server de g&eacute;rer les clusters cr&eacute;&eacute;s dans une version ant&eacute;rieure de
Big Data Extensions, vous devez mettre &agrave; niveau les composants des machines virtuelles de chaque cluster.
Serengeti Management Server utilise ces composants pour contr&ocirc;ler les nœuds de cluster.
Quand vous effectuez une mise &agrave; niveau &agrave; partir d'une version ant&eacute;rieure de Big Data Extensions, les
clusters que vous avez besoin de mettre &agrave; niveau apparaissent avec une ic&ocirc;ne d'alerte en regard de leur
nom. Lorsque vous cliquez sur l'ic&ocirc;ne d'alerte, le message d'erreur Mettre &agrave; niveau le cluster vers la
version la plus r&eacute;cente s'affiche sous la forme d'une info-bulle. Reportez-vous &agrave; &laquo; Afficher les clusters
provisionn&eacute;s dans vSphere Web Client &raquo;, page 125.
Vous pouvez &eacute;galement identifier les clusters qui ont besoin d'une mise &agrave; niveau avec la commande cluster
list. Quand vous ex&eacute;cutez la commande cluster list, une indication d'ant&eacute;riorit&eacute; s'affiche l&agrave; o&ugrave; se trouve
normalement la version du cluster.
Pr&eacute;requis
n
Vous pouvez mettre &agrave; niveau tout cluster cr&eacute;&eacute; par Big Data Extensions 2.x vers la version 2.3. Vous
n'avez pas &agrave; mettre &agrave; niveau le cluster vers la version 2.2 avant de le mettre &agrave; niveau vers la version 2.3.
Proc&eacute;dure
1
Connectez-vous au vSphere Web Client qui est connect&eacute; &agrave; vCenter Server et acc&eacute;dez &agrave; H&ocirc;tes et
clusters.
2
S&eacute;lectionnez le pool de ressources du cluster, s&eacute;lectionnez l'onglet Machines virtuelles, puis mettez
sous tension les machines virtuelles du cluster.
IMPORTANT L'affectation des adresses IP valides aux nœuds de cluster Big Data par vCenter Server peut
prendre jusqu'&agrave; cinq minutes. N'effectuez pas les &eacute;tapes de mise &agrave; niveau restantes tant que les nœuds
n'ont pas re&ccedil;u leurs adresses IP. Si un nœud ne poss&egrave;de pas d'adresse IP valide, il n'est pas possible de
le mettre &agrave; niveau vers la nouvelle version des outils de machine virtuelle Big Data Extensions.
3
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous &agrave;
Serengeti Management Server en tant qu'utilisateur serengeti.
4
Ex&eacute;cutez la commande cluster upgrade pour chaque cluster qui a &eacute;t&eacute; cr&eacute;&eacute; avec une version ant&eacute;rieure
de Big Data Extensions.
5
Si la mise &agrave; niveau &eacute;choue pour un nœud, assurez-vous que le nœud qui a &eacute;chou&eacute; poss&egrave;de une adresse
IP valide, puis r&eacute;ex&eacute;cutez la commande cluster upgrade.
Vous pouvez r&eacute;ex&eacute;cuter la commande autant de fois que n&eacute;cessaire pour mettre &agrave; niveau tous les
nœuds.
Suivant
Arr&ecirc;tez et red&eacute;marrez vos clusters Big Data.
38
VMware, Inc.
Chapitre 3 Mise &agrave; niveau de Big Data Extensions
Mettre &agrave; niveau l' Serengeti CLI
La version de l'Serengeti CLI doit &ecirc;tre la m&ecirc;me que celle de votre d&eacute;ploiement Big Data Extensions. Si vous
ex&eacute;cutez l'interface de ligne de commande &agrave; distance pour vous connecter au serveur de gestion, vous devez
mettre &agrave; niveau l'Serengeti CLI.
Proc&eacute;dure
1
Connectez-vous &agrave; vSphere Web Client.
2
S&eacute;lectionnez Big Data Extensions dans le panneau de navigation.
3
Cliquez sur l'onglet R&eacute;sum&eacute;.
4
Dans le panneau Serveur connect&eacute;, cliquez sur Connecter le serveur.
5
S&eacute;lectionnez la machine virtuelle Serengeti Management Server dans le vApp Big Data Extensions
auquel se connecter, puis cliquez sur OK.
6
Cliquez sur l'onglet D&eacute;marrage, puis sur T&eacute;l&eacute;charger la console d'interface de ligne de commande
Serengeti.
Un fichier ZIP contenant le client Serengeti CLI est t&eacute;l&eacute;charg&eacute; sur votre ordinateur.
7
D&eacute;compressez et examinez le fichier ZIP, qui inclut les composants suivants dans le r&eacute;pertoire CLI :
n
Fichier JAR serengeti-cli-version, qui inclut le client Serengeti CLI.
n
R&eacute;pertoire samples, qui inclut des exemples de configurations de clusters.
n
Biblioth&egrave;ques dans le r&eacute;pertoire lib.
8
Ouvrez une interface de commande, puis acc&eacute;dez au r&eacute;pertoire dans lequel vous avez d&eacute;compress&eacute; le
package de t&eacute;l&eacute;chargement du client Serengeti CLI.
9
Acc&eacute;dez au r&eacute;pertoire CLI, puis ex&eacute;cutez la commande suivante pour ouvrir le client Serengeti CLI :
java -jar serengeti-cli-version.jar
Suivant
1
Si vos clusters sont d&eacute;ploy&eacute;s avec une machine virtuelle de mod&egrave;le Hadopp dont la version du syst&egrave;me
d'exploitation CentOS 6.x est personnalis&eacute;e et inclut VMware Tools, vous devez personnaliser un
nouveau mod&egrave;le CentOS 6.x &agrave; utiliser apr&egrave;s la mise &agrave; niveau de Big Data Extensions.
2
Pour permettre &agrave; Serengeti Management Server de g&eacute;rer les clusters que vous avez cr&eacute;&eacute;s dans une
version pr&eacute;c&eacute;dente de Big Data Extensions, vous devez mettre &agrave; niveau chaque cluster.
Ajouter un serveur Syslog distant
Si vous souhaitez utiliser un serveur Syslog distant apr&egrave;s une mise &agrave; niveau depuis des versions ant&eacute;rieures
de Big Data Extensions, vous devez sp&eacute;cifier manuellement le serveur Syslog distant que vous souhaitez
utiliser.
C'est le serveur Syslog recevant et g&eacute;rant les journaux qui contr&ocirc;le les param&egrave;tres de r&eacute;tention, de rotation et
de division de ceux-ci. Big Data Extensions ne peut pas configurer ni contr&ocirc;ler la gestion des journaux sur
un serveur Syslog distant. Pour en savoir plus sur la gestion des journaux, reportez-vous &agrave; la documentation
relative &agrave; votre serveur Syslog.
Pr&eacute;requis
n
VMware, Inc.
Effectuer une mise &agrave; niveau vers la version actuelle de Big Data Extensions.
39
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Disposer dans votre environnement d'un serveur Syslog distant auquel Big Data Extensions peut
envoyer des informations de journalisation.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ouvrez le fichier /etc/rsyslog.d/20-base.conf dans un &eacute;diteur de texte.
3
Modifiez le fichier pour inclure les informations sur le service Syslog distant.
*.* @syslog_ip_address:port_number
4
Red&eacute;marrez le service Syslog.
service rsyslog restart
Votre d&eacute;ploiement Big Data Extensions mis &agrave; niveau enverra des ifnormations de journalisation au service
Syslog distant que vous sp&eacute;cifiez.
REMARQUE Quelle que soit la configuration Syslog suppl&eacute;mentaire sp&eacute;cifi&eacute;e avec cette proc&eacute;dure, les
journaux continuent d'&ecirc;tre plac&eacute;s dans les emplacements par d&eacute;faut de l'environnement
Big Data Extensions. Reportez-vous &agrave; &laquo; Fichiers journaux pour le d&eacute;pannage &raquo;, page 142.
40
VMware, Inc.
Gestion des gestionnaires
d'applications
4
Pour bien g&eacute;rer vos clusters Hadoop, il est essentiel de comprendre comment g&eacute;rer les diff&eacute;rents
gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Ajouter un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 41
n
&laquo; Modifier un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 42
n
&laquo; Supprimer un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 42
n
&laquo; Afficher les gestionnaires d'applications et les distributions &agrave; l'aide de vSphere Web Client &raquo;,
page 42
n
&laquo; Afficher les r&ocirc;les du gestionnaire d'applications et de la distribution &agrave; l'aide de vSphere Web
Client &raquo;, page 43
Ajouter un gestionnaire d'applications &agrave; l'aide de vSphere Web Client
Pour utiliser un gestionnaire d'applications Cloudera Manager ou Ambari visant &agrave; g&eacute;rer des clusters, vous
devez ajouter ce gestionnaire d'applications ainsi que des informations sur le serveur &agrave; Big Data Extensions.
Les noms des gestionnaires d'applications peuvent comporter uniquement des caract&egrave;res alphanum&eacute;riques
([0-9, a-z, A-Z]) et les caract&egrave;res sp&eacute;ciaux suivants : trait de soulignement, tiret et espace.
Proc&eacute;dure
1
Dans le volet de navigation Big Data Extensions, cliquez sur Gestionnaires d'applications.
2
Cliquez sur l'ic&ocirc;ne Ajouter un gestionnaire d'applications (+) en haut de la page pour ouvrir
l'Assistant Nouveau gestionnaire d'applications.
3
Suivez les invites pour terminer l'installation du gestionnaire d'applications.
Vous pouvez utiliser soit http, soit https.
Option
Action
Utiliser http
Entrez l'URL du serveur avec http. La zone de texte Certification SSL est
d&eacute;sactiv&eacute;e.
Utiliser https
Entrez le FQDN au lieu de l'URL. La zone de texte Certification SSL est
activ&eacute;e.
L'interface utilisateur Web vSphere actualise la liste des gestionnaires d'applications et l'affiche en mode
Liste.
VMware, Inc.
41
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Modifier un gestionnaire d'applications &agrave; l'aide de vSphere Web Client
Vous pouvez modifier les informations d'un gestionnaire d'applications. Par exemple, vous pouvez modifier
l'adresse IP du serveur de gestion si elle n'est pas statique ou vous pouvez mettre &agrave; niveau le compte
d'administrateur.
Pr&eacute;requis
V&eacute;rifiez que vous avez au moins un gestionnaire d'applications externe install&eacute; dans votre environnement
Big Data Extensions.
Proc&eacute;dure
1
Dans vSphere Web Client, cliquez sur Gestionnaires d'applications dans le menu de navigation.
2
Dans la liste Gestionnaires d'applications, cliquez avec le bouton droit sur le gestionnaire d'applications
&agrave; modifier et s&eacute;lectionnez Modifier les param&egrave;tres.
3
Dans la bo&icirc;te de dialogue Modifier le gestionnaire d'applications, apportez les modifications au
gestionnaire d'applications et cliquez sur OK.
Supprimer un gestionnaire d'applications &agrave; l'aide de vSphere Web
Client
Vous pouvez supprimer un gestionnaire d'applications avec vSphere Web Client quand vous n'en avez plus
besoin.
Le processus &eacute;choue si le gestionnaire d'applications que vous voulez supprimer contient des clusters.
Pr&eacute;requis
V&eacute;rifiez que vous avez au moins un gestionnaire d'applications externe install&eacute; dans votre environnement
Big Data Extensions.
Proc&eacute;dure
1
Dans vSphere Web Client, cliquez sur Gestionnaires d'applications dans le volet de navigation.
2
Cliquez avec le bouton droit sur le gestionnaire d'applications &agrave; supprimer et s&eacute;lectionnez Supprimer.
Le gestionnaire d'applications est supprim&eacute; de la liste Gestionnaires d'applications.
Afficher les gestionnaires d'applications et les distributions &agrave; l'aide de
vSphere Web Client
Vous pouvez afficher la liste des gestionnaires d'applications et des distributions en cours d'utilisation dans
votre environnement Big Data Extensions.
Proc&eacute;dure
u
&Agrave; partir de Big Data Extensions, cliquez sur Gestionnaires d'applications depuis Listes d'inventaire.
La liste qui s'ouvre contient les distributions, les descriptions, les gestionnaires d'applications, ainsi que
le nombre de clusters g&eacute;r&eacute;s par votre environnement Big Data Extensions.
42
VMware, Inc.
Chapitre 4 Gestion des gestionnaires d'applications
Afficher les r&ocirc;les du gestionnaire d'applications et de la distribution &agrave;
l'aide de vSphere Web Client
Vous pouvez utiliser le volet Gestionnaires d'applications pour afficher la liste et les d&eacute;tails des r&ocirc;les
Hadoop pour un gestionnaire d'applications et une distribution sp&eacute;cifiques.
Proc&eacute;dure
1
&Agrave; partir de Big Data Extensions, cliquez sur Listes d'inventaire &gt; Gestionnaires d'applications.
2
S&eacute;lectionnez le gestionnaire d'applications pour lequel vous voulez afficher les d&eacute;tails.
Le volet de d&eacute;tails qui s'ouvre contient la liste des distributions prises en charge avec leur nom, leur
fournisseur, leur version et leurs r&ocirc;les.
VMware, Inc.
43
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
44
VMware, Inc.
5
Gestion de distributions Hadoop
Le Serengeti Management Server inclut la distribution Apache Bigtop, mais vous pouvez ajouter n'importe
quelle distribution Hadoop prise en charge dans votre environnement Big Data Extensions.
Proc&eacute;dure
1
Types de d&eacute;ploiement de distribution Hadoop page 45
Vous pouvez choisir la distribution Hadoop&agrave; utiliser lorsque vous d&eacute;ployez un cluster. Le type de
distribution que vous choisissez d&eacute;termine la mani&egrave;re de la configurer pour une utilisation avec
Big Data Extensions. Lorsque vous d&eacute;ployez l'application virtuelle Big Data Extensions, la distribution
Bigtop 1.0 est incluse dans le fichier OVA que vous t&eacute;l&eacute;chargez et d&eacute;ployez.
2
Configurer une distribution Hadoop d&eacute;ploy&eacute;e sur Tarball &agrave; l'aide de l'interface de ligne de commande
Serengeti page 46
Vous pouvez ajouter et configurer des distributions Hadoop diff&eacute;rentes de celles incluses avec
l'application virtuelle Big Data Extensions &agrave; l'aide de la ligne de commande. Vous pouvez configurer
plusieurs distributions Hadoop de diff&eacute;rents fournisseurs.
3
Configuration de Yum et de r&eacute;f&eacute;rentiels Yum page 48
Vous pouvez d&eacute;ployer les distributions Hadoop Cloudera CDH4 et CDH5, Apache Bigtop, MapR et
Pivotal PHD &agrave; l'aide de Yellowdog Updater, Modified (Yum). Yum permet la mise &agrave; jour automatique
et la gestion des paquets des distributions de logiciel bas&eacute;es sur RPM. Pour d&eacute;ployer une distribution
Hadoop &agrave; l'aide de Yum, vous devez cr&eacute;er et configurer un r&eacute;f&eacute;rentiel Yum.
Types de d&eacute;ploiement de distribution Hadoop
Vous pouvez choisir la distribution Hadoop&agrave; utiliser lorsque vous d&eacute;ployez un cluster. Le type de
distribution que vous choisissez d&eacute;termine la mani&egrave;re de la configurer pour une utilisation avec
Big Data Extensions. Lorsque vous d&eacute;ployez l'application virtuelle Big Data Extensions, la distribution
Bigtop 1.0 est incluse dans le fichier OVA que vous t&eacute;l&eacute;chargez et d&eacute;ployez.
En fonction de la distribution Hadoopque vous souhaitez configurer pour une utilisation avec
Big Data Extensions, utilisez un r&eacute;f&eacute;rentiel tarball ou yum pour installer votre distribution. Le tableau
r&eacute;pertorie les distributions Hadoop prises en charge, ainsi que le nom, l'abr&eacute;viation du fournisseur et le
num&eacute;ro de version de la distribution &agrave; utiliser en tant que param&egrave;tres d'entr&eacute;e lors de la configuration de la
distribution pour une utilisation avec Big Data Extensions.
Tableau 5‑1. Types de d&eacute;ploiement Hadoop dans le gestionnaire d'applications par d&eacute;faut
Distribution Hadoop
Num&eacute;ro de
version
Abr&eacute;viation du
fournisseur
Type de
d&eacute;ploiement
Prise en charge
HVE ?
Bigtop
1.0
BIGTOP
Yum
Non
Pivotal HD
2.0, 2.1
PHD
Yum
Oui
VMware, Inc.
45
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 5‑1. Types de d&eacute;ploiement Hadoop dans le gestionnaire d'applications par d&eacute;faut (suite)
Distribution Hadoop
Num&eacute;ro de
version
Abr&eacute;viation du
fournisseur
Type de
d&eacute;ploiement
Prise en charge
HVE ?
Hortonworks Data Platform
1.2, 2.1
HDP
Yum
Non
Cloudera
5.3, 5.4
CDH
Yum
Non
MapR
4.1, 5.0
MAPR
Yum
Non
&Agrave; propos des
Extensions de
virtualisation Hadoop
Hadoop Virtualization Extensions (HVE), d&eacute;velopp&eacute; par VMware, optimise
les performances Hadoop dans les environnements virtuels en am&eacute;liorant le
m&eacute;canisme de reconnaissance de topologie de Hadoop afin de tenir compte
de la couche de virtualisation.
Configurer des
distributions
Hadoop 2.x et version
ult&eacute;rieure avec
r&eacute;solution des noms
DNS
Lorsque vous cr&eacute;ez des clusters en utilisant des distributions Hadoopbas&eacute;es
sur Hadoop 2.0 ou version ult&eacute;rieure, le serveur DNS de votre r&eacute;seau doit
assurer une r&eacute;solution FQDN/IP dans les deux sens. Sans param&egrave;tres DNS et
FQDN valides, le processus de cr&eacute;ation du cluster risque d'&eacute;chouer ou le
cluster est cr&eacute;&eacute; mais il ne fonctionne pas. Les distributions Hadoop bas&eacute;es
sur Hadoop 2.x et version ult&eacute;rieure incluent Apache Bigtop,
Cloudera CDH4 et CDH5, Hortonworks HDP 2.x, et Pivotal PHD 1.1 et
versions ult&eacute;rieures.
Configurer une distribution Hadoop d&eacute;ploy&eacute;e sur Tarball &agrave; l'aide de
l'interface de ligne de commande Serengeti
Vous pouvez ajouter et configurer des distributions Hadoop diff&eacute;rentes de celles incluses avec l'application
virtuelle Big Data Extensions &agrave; l'aide de la ligne de commande. Vous pouvez configurer plusieurs
distributions Hadoop de diff&eacute;rents fournisseurs.
Reportez-vous au site Web de votre fournisseur de distribution Hadoop pour acqu&eacute;rir les URL de
t&eacute;l&eacute;chargement &agrave; utiliser pour les composants que vous souhaitez installer. Si vous utilisez un pare-feu,il se
peut que vous ayez &agrave; modifier les param&egrave;tres de votre proxy pour permettre le t&eacute;l&eacute;chargement. Avant
d'installer et de configurer des d&eacute;ploiements bas&eacute;s sur un tarball, v&eacute;rifiez que vous disposez des URL du
fournisseur pour t&eacute;l&eacute;charger les diff&eacute;rents composants Hadoop. Utilisez ces URL comme param&egrave;tres de
saisie dans l'utilitaire de configuration config-distro.rb.
Si vous poss&eacute;dez une distribution Hadoop locale et que votre serveur ne peut pas acc&eacute;der &agrave; Internet, vous
pouvez t&eacute;l&eacute;charger la distribution manuellement.
Pr&eacute;requis
n
D&eacute;ployez Big Data Extensions vApp.
n
V&eacute;rifiez toutes les distributions Hadoop pour savoir quel nom de distribution, quelle abr&eacute;viation de
fournisseur et quel num&eacute;ro de version utiliser en param&egrave;tre de saisie et si la distribution prend en
charge Hadoop Virtualization Extension (HVE).
n
(Facultatif) D&eacute;finissez le mot de passe du serveur de gestion Serengeti.
Proc&eacute;dure
1
46
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
2
Ex&eacute;cutez le script Ruby /opt/serengeti/sbin/config-distro.rb.
config-distro.rb --name distro_name --vendor vendor_name --version version_number
--hadoop hadoop_package_url --pig pig_package_url --hive hive_package_url
--hbase hbase_package_url --zookeeper zookeeper_package_URL --hve {true | false} --yes
Option
Description
--nom
Nommez la distribution Hadoop que vous t&eacute;l&eacute;chargez. Par exemple, hdp
pour Hortonworks. Ce nom peut comporte des caract&egrave;res alphanum&eacute;rique
([a-z], [A-Z], [0-9]) et des underscores (&laquo; _ &raquo;).
-- fournisseur
Nom du fournisseur de la distribution Hadoop que vous souhaitez utiliser.
Par exemple, HDP pour Hortonworks.
--version
Version de la distribution Hadoop que vous souhaitez utiliser. Par
exemple, 1.3.
--hadoop
URL &agrave; partir de laquelle t&eacute;l&eacute;charger le package tarball de distribution
Hadoop sur le site Web du fournisseur d'Hadoop.
--pig
URL &agrave; partir de laquelle t&eacute;l&eacute;charger le package tarball de distribution Pig
sur le site Web du fournisseur d'Hadoop.
--hive
URL &agrave; partir de laquelle t&eacute;l&eacute;charger le package tarball de distribution Hive
sur le site Web du fournisseur d'Hadoop.
--hbase
(Facultatif) URL &agrave; partir de laquelle t&eacute;l&eacute;charger le package tarball de
distribution HBase sur le site Web du fournisseur d'Hadoop.
--zookeeper
(Facultatif) URL &agrave; partir de laquelle t&eacute;l&eacute;charger le package tarball de
distribution ZooKeeper sur le site Web du fournisseur d'Hadoop.
--hve {true | false}
(Facultatif) Indique si la distribution Hadoop prend en charge HVE.
--oui
(Facultatif) Indique que toutes les invites de confirmation du script
config-distro.rb ont &eacute;t&eacute; confirm&eacute;es.
Dans cet exemple, la version tarball d'Hortonworks Data Platform (HDP) est t&eacute;l&eacute;charg&eacute;e. Elle se
compose des distributions Hortonworks Hadoop, Hive, HBase, Pig et ZooKeeper. Veuillez noter que
vous devez fournir l'URL de t&eacute;l&eacute;chargement de chacun des composants logiciels que vous souhaitez
configurer pour les utiliser avec Big Data Extensions.
config-distro.rb --name hdp --vendor HDP --version 1.3.2
--hadoop http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
hadoop-1.2.0.1.3.2.0-111.tar.gz
--pig http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
pig-0.11.1.1.3.2.0-111.tar.gz
--hive http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
hive-0.11.0.1.3.2.0-111.tar.gz
--hbase http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
hbase-0.94.6.1.3.2.0-111-security.tar.gz
--zookeeper http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
zookeeper-3.4.5.1.3.2.0-111.tar.gz
--hve true
Le script t&eacute;l&eacute;charge les fichiers.
VMware, Inc.
47
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
4
&Agrave; la fin du t&eacute;l&eacute;chargement, explorez le r&eacute;pertoire /opt/serengeti/www/distros, qui inclue les
r&eacute;pertoires et les fichiers suivants.
&Eacute;l&eacute;ment
Description
nom
R&eacute;pertoire nomm&eacute; d'apr&egrave;s la distribution. Par exemple, apache.
manifeste
Fichier manifeste g&eacute;n&eacute;r&eacute; par config-distro.rb qui est utilis&eacute; pour le
t&eacute;l&eacute;chargement de la distribution Hadoop.
manifeste.exemple
Fichier manifeste d'exemple. Ce fichier est disponible avant l'ex&eacute;cution
du t&eacute;l&eacute;chargement. Le fichier manifeste est un fichier JSON contenant trois
sections : le nom, la version et les packages.
Pour permettre &agrave; Big Data Extensions d'utiliser la distribution ajout&eacute;e, red&eacute;marrez le service Tomcat.
sudo /sbin/service tomcat restart
Serengeti Management Server lit le fichier manifeste modifi&eacute; et ajoute la distribution &agrave; celles &agrave; partir
desquelles vous pouvez cr&eacute;er un cluster.
5
Revenez au plug-in Big Data Extensions de vSphere Web Client, puis cliquez sur Distributions Hadoop
afin de v&eacute;rifier que la distribution Hadoop est disponible pour cr&eacute;er un cluster.
La distribution et le r&ocirc;le correspondant apparaissent.
La distribution est ajout&eacute;e &agrave; Serengeti Management Server, mais n'est pas install&eacute;e dans la machine virtuelle
du mod&egrave;le Hadoop. L'agent est pr&eacute;install&eacute; sur chaque machine virtuelle qui copie dans les nœuds les
composants de la distribution que vous sp&eacute;cifiez &agrave; partir de Serengeti Management Server au cours du
processus de cr&eacute;ation d'un cluster Hadoop.
Suivant
Vous pouvez ajouter une banque de donn&eacute;es et des ressources de r&eacute;seau pour les clusters Hadoop que vous
cr&eacute;ez.
Vous pouvez cr&eacute;er et d&eacute;ployer des clusters Big Data &agrave; l'aide de la distribution Hadoop de votre choix.
Configuration de Yum et de r&eacute;f&eacute;rentiels Yum
Vous pouvez d&eacute;ployer les distributions Hadoop Cloudera CDH4 et CDH5, Apache Bigtop, MapR et Pivotal
PHD &agrave; l'aide de Yellowdog Updater, Modified (Yum). Yum permet la mise &agrave; jour automatique et la gestion
des paquets des distributions de logiciel bas&eacute;es sur RPM. Pour d&eacute;ployer une distribution Hadoop &agrave; l'aide de
Yum, vous devez cr&eacute;er et configurer un r&eacute;f&eacute;rentiel Yum.
n
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum page 49
Pour cr&eacute;er un r&eacute;f&eacute;rentiel Yum local, vous cr&eacute;ez un fichier de configuration qui identifie les noms de
fichiers et de packages d'une distribution &agrave; t&eacute;l&eacute;charger et &agrave; d&eacute;ployer. Lorsque vous cr&eacute;ez le fichier de
configuration, vous remplacez un ensemble de valeurs d'espaces r&eacute;serv&eacute;s par des valeurs qui
correspondent &agrave; votre distribution Hadoop. Les r&eacute;f&eacute;rentiels Yum sont utilis&eacute;s pour installer ou mettre
&agrave; jour des logiciels Hadoop sur CentOS et d'autres syst&egrave;mes d'exploitation qui utilisent
Red Hat Package Manager (RPM).
n
Configurer un r&eacute;f&eacute;rentiel Yum local pour des distributions Hadoop Apache Bigtop, Cloudera,
Hortonworks et MapR page 52
Bien que des r&eacute;f&eacute;rentiels Yum publics existent pour les distributions Ambari, Apache Bigtop,
Cloudera, Hortonworks et MapReduce, le fait de cr&eacute;er votre propre r&eacute;f&eacute;rentiel Yum peut vous
permettre des t&eacute;l&eacute;chargements plus rapides et un meilleur contr&ocirc;le du r&eacute;f&eacute;rentiel.
48
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
n
Configurer un r&eacute;f&eacute;rentiel Yum local pour la distribution Hadoop Pivotal page 54
Pivotal ne fournit pas de r&eacute;f&eacute;rentiel Yum public &agrave; partir duquel il est possible de d&eacute;ployer et de mettre
&agrave; jour la distribution de logiciel Hadoop Pivotal. Il vous est n&eacute;anmoins possible de t&eacute;l&eacute;charger les
tarballs de logiciel Pivotal et de cr&eacute;er votre r&eacute;f&eacute;rentiel Yum pour Pivotal qui vous permettra d'acc&eacute;der
plus facilement et de mieux contr&ocirc;ler l'installation et la mise &agrave; jour de votre logiciel de distribution HD
Pivotal.
n
Configurer une distribution Hadoop d&eacute;ploy&eacute;e sur Yum page 56
Vous pouvez installer les distributions Hadoop qui utilisent des r&eacute;f&eacute;rentiels Yum (contrairement aux
tarballs) &agrave; utiliser avec Big Data Extensions. Lorsque vous cr&eacute;ez un cluster pour une distribution
Hadoop d&eacute;ploy&eacute;e sur Yum, les nœuds Hadoop t&eacute;l&eacute;chargent et installent les paquets Red Hat Package
Manager (RPM) depuis les r&eacute;f&eacute;rentiels Yum officiels pour une distribution donn&eacute;e ou pour vos
r&eacute;f&eacute;rentiels Yum locaux.
n
Configurer un r&eacute;f&eacute;rentiel Yum local pour le gestionnaire d'applications Cloudera Manager page 57
Lorsque vous cr&eacute;ez un nouveau cluster avec un gestionnaire d'applications externe, vous devez
installer les agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation
t&eacute;l&eacute;charge les agents et les paquets sur Internet, le processus peut &ecirc;tre lent. Si vous ne disposez pas de
connexion Internet, le processus de cr&eacute;ation du cluster n'est pas possible. Pour &eacute;viter ces probl&egrave;mes,
vous pouvez cr&eacute;er un r&eacute;f&eacute;rentiel Yum local.
n
Configurer un r&eacute;f&eacute;rentiel Yum local pour le gestionnaire d'applications Ambari page 60
Lorsque vous cr&eacute;ez un nouveau cluster avec un gestionnaire d'applications externe, vous devez
installer les agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation
t&eacute;l&eacute;charge les agents et les paquets sur Internet, le processus peut &ecirc;tre lent. Si vous ne disposez pas de
connexion Internet, le processus de cr&eacute;ation du cluster n'est pas possible. Pour &eacute;viter ces probl&egrave;mes,
vous pouvez cr&eacute;er un r&eacute;f&eacute;rentiel Yum local.
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum
Pour cr&eacute;er un r&eacute;f&eacute;rentiel Yum local, vous cr&eacute;ez un fichier de configuration qui identifie les noms de fichiers
et de packages d'une distribution &agrave; t&eacute;l&eacute;charger et &agrave; d&eacute;ployer. Lorsque vous cr&eacute;ez le fichier de configuration,
vous remplacez un ensemble de valeurs d'espaces r&eacute;serv&eacute;s par des valeurs qui correspondent &agrave; votre
distribution Hadoop. Les r&eacute;f&eacute;rentiels Yum sont utilis&eacute;s pour installer ou mettre &agrave; jour des logiciels Hadoop
sur CentOS et d'autres syst&egrave;mes d'exploitation qui utilisent Red Hat Package Manager (RPM).
Les tableaux suivants r&eacute;pertorient les valeurs &agrave; utiliser pour les distributions Ambari, Apache Bigtop,
Cloudera, Hortonworks, MapR et Pivotal.
REMARQUE Si vous copiez et collez des valeurs dans ce tableau, veillez &agrave; inclure toutes les informations
requises. Certaines valeurs apparaissent sur deux lignes dans le tableau, par exemple, &laquo; maprtech
maprecosystem &raquo;, alors que vous devez les combiner sur une seule ligne quand vous les utilisez.
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum Apache Bigtop
VMware, Inc.
49
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 5‑2. Valeurs d'espaces r&eacute;serv&eacute;s de r&eacute;f&eacute;rentiels Yum Apache Bigtop
Espace r&eacute;serv&eacute;
Valeur
repo_file_name
bigtop.repo
package_info
[bigtop]
name=Bigtop
enabled=1
gpgcheck=1
type=NONE
baseurl=http://bigtop-repos.s3.amazonaws.com/releases/1.0.0/centos/6/x86_64
gpgkey=https://dist.apache.org/repos/dist/release/bigtop/KEYS
REMARQUE Si vous utilisez une version autre que 1.0.0, utilisez le num&eacute;ro de version exact de
votre distribution Apache Bigtop dans le nom du chemin.
mirror_cmds
reposync -r bigtop
default_rpm_dir
bigtop
target_rpm_dir
bigtop
local_repo_info
[bigtop]
name=Apache Bigtop
baseurl=http://ip_of_yum_repo_webserver/bigtop/
enabled=1
gpgcheck=0
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum Cloudera
Tableau 5‑3. Valeurs d'espaces r&eacute;serv&eacute;s de r&eacute;f&eacute;rentiels Yum Cloudera
50
Espace r&eacute;serv&eacute;
Valeur
repo_file_name
cloudera-cdh.repo
package_info
Si vous utilisez CDH4, utilisez les valeurs ci-dessous.
[cloudera-cdh]
name=Cloudera's Distribution for Hadoop
http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/4/
gpkey=http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
gpgcheck=1
Si vous utilisez CDH5, utilisez les valeurs ci-dessous.
[cloudera-cdh]
name=Cloudera's Distribution for Hadoop
baseurl=http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5/
gpgkey=http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
gpgcheck=1
mirror_cmds
reposync -r cloudera-cdh4
default_rpm_dir
cloudera-cdh/RPMS
target_rpm_dir
cdh/version_number
local_repo_info
[cloudera-cdh]
name=Cloudera's Distribution for Hadoop
baseurl=http://ip_of_yum_repo_webserver/cdh/version_number/
enabled=1
gpgcheck=0
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum Hortonworks
Tableau 5‑4. Valeurs d'espaces r&eacute;serv&eacute;s de r&eacute;f&eacute;rentiels Yum Hortonworks
Espace r&eacute;serv&eacute;
Valeur
repo_file_name
hdp.repo
package_info
[hdp]
name=Hortonworks Data Platform Version - HDP-2.1.1.0
baseurl=http://public-repo-1.hortonworks.com/HDP/centos6/2.x/GA/2.1.1.0
gpgcheck=1
gpgkey=http://public-repo-1.hortonworks.com/HDP/centos6/2.x/GA/2.1.1.0/RPM-GPGKEY/RPM-GPG-KEY-Jenkins
enabled=1
priority=1
REMARQUE Si vous utilisez une version autre que HDP 2.1.1.0, utilisez le num&eacute;ro de version
exact de votre distribution Hortonworks dans le nom du chemin.
mirror_cmds
reposync -r hdp
default_rpm_dir
hdp
target_rpm_dir
hdp/2
local_repo_info
[hdp]
name=Hortonworks Data Platform Version -HDP-2.1.1.0
baseurl=http://ip_of_yum_repo_webserver/hdp/2/
enabled=1
gpgcheck=0
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum MapR
Tableau 5‑5. Valeurs d'espaces r&eacute;serv&eacute;s de r&eacute;f&eacute;rentiels Yum MapR
Espace r&eacute;serv&eacute;
Valeur
repo_file_name
mapr.repo
package_info
[maprtech]
name=MapR Technologies
baseurl=http://package.mapr.com/releases/3.1.0/redhat/
enabled=1
gpgcheck=0
protect=1
[maprecosystem]
name=MapR Technologies
baseurl=http://package.mapr.com/releases/ecosystem/redhat
enabled=1
gpgcheck=0
protect=1
REMARQUE Si vous utilisez une version autre que 3.1.0, utilisez le num&eacute;ro de version exact de
votre distribution MapR dans le nom du chemin.
mirror_cmds
reposync -r maprtech
reposync -r maprecosystem
default_rpm_dir
maprtech maprecosystem
VMware, Inc.
51
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 5‑5. Valeurs d'espaces r&eacute;serv&eacute;s de r&eacute;f&eacute;rentiels Yum MapR (suite)
Espace r&eacute;serv&eacute;
Valeur
target_rpm_dir
mapr/3
local_repo_info
[mapr]
name=MapR Version 3
baseurl=http://ip_of_yum_repo_webserver/mapr/3/
enabled=1
gpgcheck=0
protect=1
Valeurs de configuration de r&eacute;f&eacute;rentiels Yum Pivotal
Tableau 5‑6. Valeurs d'espaces r&eacute;serv&eacute;s de r&eacute;f&eacute;rentiels Yum Pivotal
Espace r&eacute;serv&eacute;
Valeur
repo_file_name
phd.repo
package_info
Non applicable
mirror_cmds
Non applicable
default_rpm_dir
pivotal
target_rpm_dir
phd/1
local_repo_info
[pivotalhd]
name=PHD Version 1.0
baseurl=http://ip_of_yum_repo_webserver/phd/1/
enabled=1
gpgcheck=0
Configurer un r&eacute;f&eacute;rentiel Yum local pour des distributions Hadoop Apache
Bigtop, Cloudera , Hortonworks et MapR
Bien que des r&eacute;f&eacute;rentiels Yum publics existent pour les distributions Ambari, Apache Bigtop, Cloudera,
Hortonworks et MapReduce, le fait de cr&eacute;er votre propre r&eacute;f&eacute;rentiel Yum peut vous permettre des
t&eacute;l&eacute;chargements plus rapides et un meilleur contr&ocirc;le du r&eacute;f&eacute;rentiel.
Pr&eacute;requis
n
Connexion Internet haut d&eacute;bit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du mod&egrave;le de nœud de l'application virtuelle Serengeti contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du mod&egrave;le de nœud vers une nouvelle
machine virtuelle et y cr&eacute;er le r&eacute;f&eacute;rentiel Yum.
52
n
Serveur HTTP sur lequel cr&eacute;er le r&eacute;f&eacute;rentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre syst&egrave;me est dot&eacute; d'un pare-feu, v&eacute;rifiez que celui-ci ne bloque pas le num&eacute;ro de port du r&eacute;seau
utilis&eacute; par votre serveur proxy HTTP. Il s'agit g&eacute;n&eacute;ralement du port 80.
n
Reportez-vous aux valeurs du signet du r&eacute;f&eacute;rentiel Yum pour alimenter les variables n&eacute;cessaires dans
les &eacute;tapes. Reportez-vous &agrave; &laquo; Valeurs de configuration de r&eacute;f&eacute;rentiels Yum &raquo;, page 49.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Proc&eacute;dure
1
Si votre serveur de r&eacute;f&eacute;rentiel Yum n&eacute;cessite un serveur proxy HTTP, ouvrez une interface de
commande, comme Bash ou PuTTY, puis connectez-vous au serveur du r&eacute;f&eacute;rentiel Yum et ex&eacute;cutez les
commandes suivantes pour exporter la variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://h&ocirc;te:port
2
Option
Description
h&ocirc;te
Nom d'h&ocirc;te ou adresse IP du serveur proxy.
port
Num&eacute;ro de port du r&eacute;seau &agrave; utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser comme serveur Yum.
Dans cet exemple, le serveur HTTP Apache est install&eacute; et le serveur httpd est activ&eacute; pour d&eacute;marrer d&egrave;s
que la machine red&eacute;marre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Installez yum-utils et les paquets createrepo.
Le paquet yum-utils contient la commande reposync.
yum install -y yum-utils createrepo
4
Synchronisez le serveur Yum avec le r&eacute;f&eacute;rentiel Yum officiel de votre fournisseur Hadoop pr&eacute;f&eacute;r&eacute;.
a
&Agrave; l'aide d'un &eacute;diteur de texte, cr&eacute;ez le fichier /etc/yum.repos.d/$repo_file_name.
b
Ajoutez le contenu package_info au nouveau fichier.
c
Mettez en miroir le r&eacute;f&eacute;rentiel Yum distant sur la machine locale en ex&eacute;cutant mirror_cmds pour les
paquets de votre distribution.
Le t&eacute;l&eacute;chargement des RPM &agrave; partir du r&eacute;f&eacute;rentiel distant peut vous prendre plusieurs minutes.
Les RPM sont plac&eacute;s dans les r&eacute;pertoires $default_rpm_dir.
5
Cr&eacute;ez le r&eacute;f&eacute;rentiel Yum local.
a
D&eacute;placez les RPM dans un nouveau r&eacute;pertoire sous la racine de document du serveur HTTP
Apache.
La racine de document par d&eacute;faut est /var/www/html/.
doc_root=/var/www/html
mkdir -p $doc_root/$target_rpm_dir
mv $default_rpm_dir $doc_root/$target_rpm_dir/
Par exemple, la commande mv de la distribution Hadoop MapR est la suivante :
mv maprtech maprecosystem $doc_root/mapr/3/
b
Cr&eacute;ez un r&eacute;f&eacute;rentiel Yum pour les RPM.
cd $doc_root/$target_rpm_dir
createrepo .
VMware, Inc.
53
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
c
d
6
Cr&eacute;ez un nouveau fichier, $doc_root/$target_rpm_dir/$repo_file_name,et incluez
local_repo_info.
Dans une autre machine, v&eacute;rifiez que vous pouvez t&eacute;l&eacute;charger le fichier de r&eacute;f&eacute;rentiel &agrave; partir de
http://ip_of_webserver target_rpm_dir//repo_file_name.
(Facultatif) Configurez le proxy HTTP.
Si les machines virtuelles cr&eacute;&eacute;es par Serengeti Management Server n'ont pas besoin de proxy HTTP
pour se connecter au r&eacute;f&eacute;rentiel Yum local, passez directement &agrave; l'&eacute;tape suivante.
Sur le serveur de gestion Serengeti, modifiez le fichier /opt/serengeti/conf/serengeti.properties et
ajoutez le contenu suivant n'importe o&ugrave; dans le fichier ou remplacez les &eacute;l&eacute;ments existants :
# set http proxy server
serengeti.http_proxy = http://&lt;proxy_server:port&gt;
# set the FQDNs (or IPs if no FQDN) of the Serengeti Management Server and the
local yum repository servers for 'serengeti.no_proxy'.
The wildcard for matching multi IPs doesn't work.
serengeti.no_proxy = serengeti_server_fqdn_or_ip.
yourdomain.com, yum_server_fqdn_or_ip.
yourdomain.com
Suivant
Configurez votre d&eacute;ploiement Apache Bigtop, Cloudera, Hortonworks ou MapR &agrave; utiliser avec
Big Data Extensions. Reportez-vous &agrave; &laquo; Configurer une distribution Hadoop d&eacute;ploy&eacute;e sur Yum &raquo;, page 56.
Configurer un r&eacute;f&eacute;rentiel Yum local pour la distribution Hadoop Pivotal
Pivotal ne fournit pas de r&eacute;f&eacute;rentiel Yum public &agrave; partir duquel il est possible de d&eacute;ployer et de mettre &agrave;
jour la distribution de logiciel Hadoop Pivotal. Il vous est n&eacute;anmoins possible de t&eacute;l&eacute;charger les tarballs de
logiciel Pivotal et de cr&eacute;er votre r&eacute;f&eacute;rentiel Yum pour Pivotal qui vous permettra d'acc&eacute;der plus facilement
et de mieux contr&ocirc;ler l'installation et la mise &agrave; jour de votre logiciel de distribution HD Pivotal.
Pivotal ne fournit pas de r&eacute;f&eacute;rentiel Yum public &agrave; partir duquel il est possible de d&eacute;ployer et de mettre &agrave;
jour la distribution de logiciel Hadoop Pivotal. Il est n&eacute;anmoins possible de t&eacute;l&eacute;charger des tarballs de
logiciel Pivotal et de cr&eacute;er un r&eacute;f&eacute;rentiel Yum &agrave; partir duquel d&eacute;ployer et configurer le logiciel Hadoop
Pivotal.
Pr&eacute;requis
n
Connexion Internet haut d&eacute;bit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du mod&egrave;le de nœud de l'application virtuelle Big Data Extensions contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du mod&egrave;le de nœud vers une nouvelle
machine virtuelle et y cr&eacute;er le r&eacute;f&eacute;rentiel Yum.
REMARQUE La distribution Hadoop Pivotal n&eacute;cessitant la version CentOS 6.2 64-bit ou 6.4 64-bit
(x86_64), le serveur Yum que vous cr&eacute;ez pour d&eacute;ployer la distribution doit &eacute;galement utiliser un
syst&egrave;me d'exploitation CentOS 6.x 64-bit.
54
n
Serveur HTTP sur lequel cr&eacute;er le r&eacute;f&eacute;rentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre syst&egrave;me est dot&eacute; d'un pare-feu, v&eacute;rifiez que celui-ci ne bloque pas le num&eacute;ro de port du r&eacute;seau
utilis&eacute; par votre serveur proxy HTTP. Il s'agit g&eacute;n&eacute;ralement du port 80.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Proc&eacute;dure
1
Si votre serveur de r&eacute;f&eacute;rentiel Yum n&eacute;cessite un serveur proxy HTTP, ouvrez une interface de
commande, comme Bash ou PuTTY, puis connectez-vous au serveur du r&eacute;f&eacute;rentiel Yum et ex&eacute;cutez les
commandes suivantes pour exporter la variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://h&ocirc;te:port
2
Option
Description
h&ocirc;te
Nom d'h&ocirc;te ou adresse IP du serveur proxy.
port
Num&eacute;ro de port du r&eacute;seau &agrave; utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser avec un serveur Yum.
Dans cet exemple, le serveur HTTP Apache est install&eacute; et le serveur httpd est activ&eacute; pour d&eacute;marrer d&egrave;s
que la machine red&eacute;marre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Installez yum-utils et les paquets createrepo.
Le paquet yum-utils contient la commande reposync.
yum install -y yum-utils createrepo
4
T&eacute;l&eacute;chargez le tarball Pivotal HD 1.0 ou 2.0 sur le site Web de Pivotal.
5
Extrayez le tarball que vous avez t&eacute;l&eacute;charg&eacute;.
Le nom du tarball peut varier si vous t&eacute;l&eacute;chargez une autre version de Pivotal HD.
tar -xf phd_1.0.1.0-19_community.tar
6
Extrayez PHD_1.0.1_CE/PHD-1.0.1.0-19.tar dans le r&eacute;pertoire default_rpm_dir.
Pour Hadoop Pivotal, le r&eacute;pertoire default_rpm_dir est pivotal.
Les num&eacute;ros de version du tar que vous extrayez peuvent &ecirc;tre diff&eacute;rents de ceux utilis&eacute;s dans l'exemple
s'il y a eu une mise &agrave; jour.
tar -xf PHD_1.0.1_CE/PHD-1.0.1.0-19.tar -C pivotal
7
Cr&eacute;ez et configurez le r&eacute;f&eacute;rentiel Yum local.
a
D&eacute;placez les RPM dans un nouveau r&eacute;pertoire sous la racine de document du serveur HTTP
Apache.
La racine de document par d&eacute;faut est /var/www/html/.
doc_root=/var/www/html
mkdir -p $doc_root/$target_rpm_dir
mv $default_rpm_dir $doc_root/$target_rpm_dir/
Dans cet exemple, les RPM sont d&eacute;plac&eacute;s pour la distribution Hadoop Pivotal.
mv pivotal $doc_root/phd/1/
b
Cr&eacute;ez un r&eacute;f&eacute;rentiel Yum pour les RPM.
cd $doc_root/$target_rpm_dir
createrepo .
VMware, Inc.
55
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
8
c
Cr&eacute;ez un fichier, $doc_root/$target_rpm_dir/$repo_file_name, et incluez local_repo_info.
d
Dans une autre machine, v&eacute;rifiez que vous pouvez t&eacute;l&eacute;charger le fichier de r&eacute;f&eacute;rentiel &agrave; partir de
http://ip_of_webserver/$target_rpm_dir/$repo_file_name.
(Facultatif) Configurez un proxy HTTP.
Si les machines virtuelles cr&eacute;&eacute;es par Serengeti Management Server n'ont pas besoin de proxy HTTP
pour se connecter au r&eacute;f&eacute;rentiel Yum local, passez directement &agrave; l'&eacute;tape suivante.
Sur Serengeti Management Server, modifiez le fichier /opt/serengeti/conf/serengeti.properties et
ajoutez le contenu suivant n'importe o&ugrave; dans le fichier ou remplacez les &eacute;l&eacute;ments existants :
# set http proxy server
serengeti.http_proxy = http://&lt;proxy_server:port&gt;
# set the FQDNs (or IPs if no FQDN) of the Serengeti Management Server and the
local yum repository servers for 'serengeti.no_proxy'.
The wildcard for matching multi IPs doesn't work.
serengeti.no_proxy = serengeti_server_fqdn_or_ip.
yourdomain.com, yum_server_fqdn_or_ip.yourdomain.com
Configurer une distribution Hadoop d&eacute;ploy&eacute;e sur Yum
Vous pouvez installer les distributions Hadoop qui utilisent des r&eacute;f&eacute;rentiels Yum (contrairement aux
tarballs) &agrave; utiliser avec Big Data Extensions. Lorsque vous cr&eacute;ez un cluster pour une distribution Hadoop
d&eacute;ploy&eacute;e sur Yum, les nœuds Hadoop t&eacute;l&eacute;chargent et installent les paquets Red Hat Package Manager
(RPM) depuis les r&eacute;f&eacute;rentiels Yum officiels pour une distribution donn&eacute;e ou pour vos r&eacute;f&eacute;rentiels Yum
locaux.
Pr&eacute;requis
n
V&eacute;rifiez toutes les distributions Hadoop pour savoir quel nom de distribution, quelle abr&eacute;viation de
fournisseur et quel num&eacute;ro de version utiliser en param&egrave;tre de saisie et si la distribution prend en
charge Hadoop Virtualization Extensions.
n
Cr&eacute;ez un r&eacute;f&eacute;rentiel Yum local pour votre distribution Hadoop. La cr&eacute;ation de votre r&eacute;f&eacute;rentiel peut
contribuer &agrave; am&eacute;liorer l'acc&egrave;s et le contr&ocirc;le du r&eacute;f&eacute;rentiel.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez le script Ruby /opt/serengeti/sbin/config-distro.rb.
config-distro.rb --name distro_name --vendor vendor_abbreviation --version ver_number
--repos http://url_to_yum_repo/name.repo
56
Option
Description
--nom
Nommez la distribution Hadoop que vous t&eacute;l&eacute;chargez. Par exemple, chd4
pour Cloudera CDH4. Ce nom peut comporte des caract&egrave;res
alphanum&eacute;rique ([a-z], [A-Z], [0-9]) et des underscores (&laquo; _ &raquo;).
-- fournisseur
Abr&eacute;viation du nom du fournisseur de la distribution Hadoop que vous
souhaitez utiliser. Par exemple, CDH.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Option
Description
--version
Version de la distribution Hadoop que vous souhaitez utiliser. Par
exemple, 4.6.0.
--r&eacute;f&eacute;rentiels
URL &agrave; partir de laquelle t&eacute;l&eacute;charger le paquet Yum de la distribution
Hadoop. Cette URL peut se trouver sur un r&eacute;f&eacute;rentiel Yum local que vous
cr&eacute;ez ou sur un r&eacute;f&eacute;rentiel Yum public h&eacute;berg&eacute; par le fournisseur de
logiciel.
Cet exemple ajoute la distribution Hadoop Apache Bigtop &agrave; Big Data Extensions.
config-distro.rb --name bigtop --vendor BIGTOP --version 0.8.0
--repos http://url_to_yum_repo/bigtop.repo
Cet exemple ajoute la distribution Hadoop Cloudera CDH4 &agrave; Big Data Extensions.
config-distro.rb --name cdh4 --vendor CDH --version 4.6.0 --repos
http://url_to_yum_repo/cloudera-cdh4.repo
REMARQUE Le script config-distro.rb ne t&eacute;l&eacute;charge que les fichiers pour les distributions d&eacute;ploy&eacute;es
sur tarball. Aucun fichier n'est t&eacute;l&eacute;charg&eacute; pour les distributions d&eacute;ploy&eacute;es sur Yum.
Cet exemple ajoute la distribution Hadoop Hortonworks &agrave; Big Data Extensions.
config-distro.rb --name hdp --vendor HDP --version 2.1.1
--repos http://url_to_yum_repo/hdp.repo
Cet exemple ajoute la distribution Hadoop MapR &agrave; Big Data Extensions.
config-distro.rb --name mapr --vendor MAPR --version 3.1.0 --repos
http://url_to_yum_repo/mapr.repo
Cet exemple ajoute la distribution Hadoop Pivotal &agrave; Big Data Extensions.
config-distro.rb --name phd --vendor PHD --version 2.0
--repos http://url_to_yum_repo/phd.repo
3
Pour permettre &agrave; Big Data Extensions d'utiliser la nouvelle distribution, red&eacute;marrez le service Tomcat.
sudo /sbin/service tomcat restart
Le serveur de gestion Serengeti lit le fichier manifeste modifi&eacute; et ajoute la distribution &agrave; ceux &agrave; partir
desquels vous pouvez cr&eacute;er un cluster.
4
Revenez au plug-in Big Data Extensions de vSphere Web Client, puis cliquez sur Distributions Hadoop
pour v&eacute;rifier que la distribution Hadoop est disponible.
Suivant
Vous pouvez cr&eacute;er des clusters Hadoop et HBase.
Configurer un r&eacute;f&eacute;rentiel Yum local pour le gestionnaire d'applications
Cloudera Manager
Lorsque vous cr&eacute;ez un nouveau cluster avec un gestionnaire d'applications externe, vous devez installer les
agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation t&eacute;l&eacute;charge les agents et les
paquets sur Internet, le processus peut &ecirc;tre lent. Si vous ne disposez pas de connexion Internet, le processus
de cr&eacute;ation du cluster n'est pas possible. Pour &eacute;viter ces probl&egrave;mes, vous pouvez cr&eacute;er un r&eacute;f&eacute;rentiel Yum
local.
VMware, Inc.
57
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Pr&eacute;parer l'environnement logiciel pour le r&eacute;f&eacute;rentiel local pour Cloudera Manager
Pour cr&eacute;er un r&eacute;f&eacute;rentiel Yum local pour Cloudera Manager, la premi&egrave;re &eacute;tape consiste &agrave; pr&eacute;parer
l'environnement logiciel en configurant les serveurs et les r&eacute;pertoires n&eacute;cessaires.
Pr&eacute;requis
V&eacute;rifiez que toutes les conditions suivantes sont r&eacute;unies.
n
Connexion Internet haut d&eacute;bit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du mod&egrave;le de nœud de l'application virtuelle Serengeti contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du mod&egrave;le de nœud vers une nouvelle
machine virtuelle et y cr&eacute;er le r&eacute;f&eacute;rentiel Yum.
n
Serveur HTTP sur lequel cr&eacute;er le r&eacute;f&eacute;rentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre syst&egrave;me dispose d'un pare-feu, v&eacute;rifiez que celui-ci ne bloque pas le num&eacute;ro de port du r&eacute;seau
que votre proxy de serveur HTTP utilise. Il s'agit g&eacute;n&eacute;ralement du port 80.
n
Pour plus d'informations sur les valeurs du signet du r&eacute;f&eacute;rentiel Yum, reportez-vous &agrave; &laquo; Valeurs de
configuration de r&eacute;f&eacute;rentiels Yum &raquo;, page 49.
Proc&eacute;dure
1
Si votre serveur de r&eacute;f&eacute;rentiel Yum n&eacute;cessite un serveur proxy HTTP, proc&eacute;dez comme suit :
a
Ouvrez une interface de commande, comme Bash ou PuTTY.
b
Connectez-vous au serveur de r&eacute;f&eacute;rentiel Yum.
c
Exportez la variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://h&ocirc;te:port
2
Option
Description
h&ocirc;te
Nom d'h&ocirc;te ou adresse IP du serveur proxy.
port
Num&eacute;ro de port du r&eacute;seau &agrave; utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser comme serveur Yum.
Dans cet exemple, le serveur HTTP Apache est install&eacute; et le serveur httpd est activ&eacute; pour d&eacute;marrer d&egrave;s
que la machine red&eacute;marre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Cr&eacute;ez le r&eacute;pertoire CentOS.
mkdir -p /var/www/html/yum/centos6
4
Cr&eacute;ez le r&eacute;pertoire Cloudera Manager.
mkdir -p /var/www/html/yum/cm
5
Installez le RPM createrepo.
yum install -y createrepo
58
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Configurer le r&eacute;f&eacute;rentiel Yum CentOS local
Vous devez copier tous les packages RPM des images CentOS 6 DVD ISO pour configurer le r&eacute;f&eacute;rentiel Yum
CentOS local.
Pr&eacute;requis
V&eacute;rifiez que vous avez pr&eacute;par&eacute; l'environnement logiciel pour la cr&eacute;ation du r&eacute;f&eacute;rentiel Yum CentOS,
notamment les r&eacute;pertoires pour CentOS et le gestionnaire d'applications. Reportez-vous &agrave; la documentation
CentOS.
Proc&eacute;dure
1
T&eacute;l&eacute;chargez les images CentOS 6 DVD ISO CentOS-6.7-x86_64-bin-DVD1.iso et CentOS-6.7-x86_64bin-DVD2.iso sur le site Internet officiel de CentOS.
2
T&eacute;l&eacute;chargez les images ISO sur les serveurs de machine virtuelle.
3
Copiez tous les packages RPM CentOS vers /var/www/html/yum/centos6.
mkdir /mnt/centos6-1
mount -o loop CentOS-6.7-x86_64-bin-DVD1.iso /mnt/centos6-1
cp /mnt/centos6-1/Packages/* /var/www/html/yum/centos6
mkdir /mnt/centos6-2
mount -o loop CentOS-6.7-x86_64-bin-DVD2.iso /mnt/centos6-2
cp /mnt/centos6-2/Packages/* /var/www/html/yum/centos6
4
Cr&eacute;ez le r&eacute;f&eacute;rentiel Yum CentOS 6.
createrepo /var/www/html/yum/centos6
T&eacute;l&eacute;charger les packages pour Cloudera Manager
Apr&egrave;s avoir configur&eacute; le r&eacute;f&eacute;rentiel Yum CentOS local, vous devez t&eacute;l&eacute;charger les packages de Cloudera
Manager.
Proc&eacute;dure
1
T&eacute;l&eacute;chargez le fichier cm5.4.8-centos6.tar.gz.
wget http://archive-primary.cloudera.com/cm5/repo-as-tarball/5.4.8/cm5.4.8-centos6.tar.gz
Pour les autres versions de Cloudera Manager, les URL utilis&eacute;es dans l'exemple peuvent varier.
2
Extrayez le tarball.
tar xzf cm5.4.8-centos6.tar.gz -C /var/www/html/yum/cm/
Pour les autres versions de Cloudera Manager, les URL utilis&eacute;es dans l'exemple peuvent varier.
Configurer le serveur du r&eacute;f&eacute;rentiel Yum et le r&eacute;f&eacute;rentiel de paquet local
Vous devez configurer le serveur du r&eacute;f&eacute;rentiel Yum et le r&eacute;f&eacute;rentiel de paquet local avant de pouvoir
distribuer le fichier de paquets.
Proc&eacute;dure
1
Cr&eacute;ez le r&eacute;f&eacute;rentiel Yum.
Le r&eacute;pertoire repodata est cr&eacute;&eacute; sous /var/www/html/yum/cm/5.4.8.
createrepo /var/www/html/yum/cm/5.4.8
2
VMware, Inc.
V&eacute;rifiez que vous pouvez acc&eacute;der &agrave; l'URL http://yum_repo_server_ip/yum &agrave; partir d'un navigateur.
59
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Cr&eacute;ez le r&eacute;pertoire Parcels (Paquets).
mkdir -p /var/www/html/parcels
4
Passez au r&eacute;pertoire Parcels (Paquets).
cd /var/www/html/parcels
5
T&eacute;l&eacute;chargez le fichier Parcels (Paquets).
wget http://archive-primary.cloudera.com/cdh5/parcels/5.4.8/CDH-5.4.8-1.cdh5.4.8.p0.4el6.parcel
6
T&eacute;l&eacute;chargez le fichier manifest.json.
wget http://archive-primary.cloudera.com/cdh5/parcels/5.4.8/manifest.json
7
Dans le fichier manifest.json, supprimez tous les &eacute;l&eacute;ments sauf CDH-5.4.8-1.cdh5.4.8.p0.4-
el6.parcel.
8
Ouvrez un navigateur, acc&eacute;dez &agrave; http://your_cloudera_manager_server:7180/cmf/parcel/status et cliquez
sur Edit Settings (Modifier les param&egrave;tres).
9
Dans la zone de texte Parcel Update Frequency (Fr&eacute;quence de mise &agrave; jour des paquets), s&eacute;lectionnez
une minute.
10
Supprimez l'URL du r&eacute;pertoire de paquet distant qui &eacute;tait remplac&eacute;e par l'URL de paquet cible.
11
Ajoutez l'URL http://yum_repo_server_ip/parcels.
Vous pouvez maintenant cr&eacute;er des clusters pour Cloudera Manager &agrave; l'aide du r&eacute;f&eacute;rentiel Yum local.
Configurer un r&eacute;f&eacute;rentiel Yum local pour le gestionnaire d'applications Ambari
Lorsque vous cr&eacute;ez un nouveau cluster avec un gestionnaire d'applications externe, vous devez installer les
agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation t&eacute;l&eacute;charge les agents et les
paquets sur Internet, le processus peut &ecirc;tre lent. Si vous ne disposez pas de connexion Internet, le processus
de cr&eacute;ation du cluster n'est pas possible. Pour &eacute;viter ces probl&egrave;mes, vous pouvez cr&eacute;er un r&eacute;f&eacute;rentiel Yum
local.
Pr&eacute;parer l'environnement logiciel pour le r&eacute;f&eacute;rentiel local pour Ambari
Pour cr&eacute;er un r&eacute;f&eacute;rentiel Yum local pour Ambari, la premi&egrave;re &eacute;tape consiste &agrave; pr&eacute;parer l'environnement
logiciel.
Pr&eacute;requis
V&eacute;rifiez que toutes les conditions suivantes sont r&eacute;unies.
n
Connexion Internet haut d&eacute;bit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du mod&egrave;le de nœud de l'application virtuelle Serengeti contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du mod&egrave;le Hadoop &agrave; une nouvelle machine
virtuelle et y cr&eacute;er le r&eacute;f&eacute;rentiel Yum.
60
n
Serveur HTTP sur lequel cr&eacute;er le r&eacute;f&eacute;rentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre syst&egrave;me dispose d'un pare-feu, v&eacute;rifiez que celui-ci ne bloque pas le num&eacute;ro de port du r&eacute;seau
que votre proxy de serveur HTTP utilise. Il s'agit g&eacute;n&eacute;ralement du port 80.
n
Pour plus d'informations sur les valeurs du signet du r&eacute;f&eacute;rentiel Yum, reportez-vous &agrave; &laquo; Valeurs de
configuration de r&eacute;f&eacute;rentiels Yum &raquo;, page 49.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Proc&eacute;dure
1
Si votre serveur de r&eacute;f&eacute;rentiel Yum n&eacute;cessite un serveur proxy HTTP, ouvrez une interface de
commande, comme Bash ou PuTTY, puis connectez-vous au serveur du r&eacute;f&eacute;rentiel Yum et exportez la
variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://h&ocirc;te:port
2
Option
Description
h&ocirc;te
Nom d'h&ocirc;te ou adresse IP du serveur proxy.
port
Num&eacute;ro de port du r&eacute;seau &agrave; utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser comme serveur Yum.
Dans cet exemple, le serveur HTTP Apache est install&eacute; et le serveur httpd est activ&eacute; pour d&eacute;marrer d&egrave;s
que la machine red&eacute;marre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Cr&eacute;ez le r&eacute;pertoire CentOS.
mkdir -p /var/www/html/yum/centos6
4
Cr&eacute;ez le r&eacute;pertoire Ambari.
mkdir -p /var/www/html/yum/ambari
5
Installez le RPM createrepo.
yum install -y createrepo
Configurer le r&eacute;f&eacute;rentiel Yum CentOS local
Vous devez copier tous les packages RPM des images CentOS 6 DVD ISO pour configurer le r&eacute;f&eacute;rentiel Yum
CentOS local.
Pr&eacute;requis
V&eacute;rifiez que vous avez pr&eacute;par&eacute; l'environnement logiciel pour la cr&eacute;ation du r&eacute;f&eacute;rentiel Yum CentOS,
notamment les r&eacute;pertoires pour CentOS et le gestionnaire d'applications. Reportez-vous &agrave; la documentation
CentOS.
Proc&eacute;dure
1
T&eacute;l&eacute;chargez les images CentOS 6 DVD ISO CentOS-6.7-x86_64-bin-DVD1.iso et CentOS-6.7-x86_64bin-DVD2.iso sur le site Internet officiel de CentOS.
2
T&eacute;l&eacute;chargez les images ISO sur les serveurs de machine virtuelle.
3
Copiez tous les packages RPM CentOS vers /var/www/html/yum/centos6.
mkdir /mnt/centos6-1
mount -o loop CentOS-6.7-x86_64-bin-DVD1.iso /mnt/centos6-1
cp /mnt/centos6-1/Packages/* /var/www/html/yum/centos6
mkdir /mnt/centos6-2
mount -o loop CentOS-6.7-x86_64-bin-DVD2.iso /mnt/centos6-2
cp /mnt/centos6-2/Packages/* /var/www/html/yum/centos6
VMware, Inc.
61
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
4
Cr&eacute;ez le r&eacute;f&eacute;rentiel Yum CentOS 6.
createrepo /var/www/html/yum/centos6
T&eacute;l&eacute;charger les packages pour Ambari
Apr&egrave;s avoir configur&eacute; le r&eacute;f&eacute;rentiel Yum CentOS local, t&eacute;l&eacute;chargez les paquets du gestionnaire
d'applications Ambari.
Proc&eacute;dure
1
Faites de /var/www/html/yum/ambari votre r&eacute;pertoire de travail.
cd /var/www/html/yum/ambari
2
T&eacute;l&eacute;chargez l'agent Ambari.
wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.1.2/AMBARI-2.1.2-377centos6.tar.gz
Si vous utilisez d'autres versions d'Ambari, par exemple Ambari 2.1.1, l'URL que vous utilisez peut
varier.
3
T&eacute;l&eacute;chargez les paquets HDP.
Si vous utilisez d'autres versions de HDP, par exemple HDP 2.2 ou HDP 2.3, l'URL que vous utilisez
peut varier.
4
T&eacute;l&eacute;chargez les paquets HDP-UTILS.
wget http://public-repo-1.hortonworks.com/HDP-UTILS-1.1.0.20/repos/centos6/HDPUTILS-1.1.0.20-centos6.tar.gz
5
Proc&eacute;dez &agrave; l'extraction de tous les fichiers tarball.
tar xzf AMBARI-2.1.2-377-centos6.tar.gz
tar xzf HDP-2.3.2.0-centos6-rpm.tar.gz
tar xzf HDP-UTILS-1.1.0.20-centos6.tar.gz
Configurer le fichier de r&eacute;f&eacute;rentiel Ambari sur le serveur Ambari
Pour configurer le r&eacute;f&eacute;rentiel Yum local, vous devez configurer le fichier de r&eacute;f&eacute;rentiel Ambari.
Proc&eacute;dure
1
Connectez-vous &agrave; Ambari via SSH.
ssh nom d'utilisateur@ambari_server_ip_address
2
Arr&ecirc;tez le serveur Ambari.
ambari-server stop
3
T&eacute;l&eacute;chargez le fichier ambari.repo.
cd /etc/yum.repos.d
wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.1.2/ambari.repo
4
62
Modifiez le fichier ambari.repo.
a
Remplacez les URL par l'adresse du serveur de r&eacute;f&eacute;rentiel Yum.
b
Supprimez la v&eacute;rification de groupe.
c
Ajoutez une nouvelle section pour CentOS.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Exemple : Configuration du fichier de r&eacute;f&eacute;rentiel Ambari sur le serveur Ambari
[centos]
name=centos6
baseurl=http://&lt;yum_repo_server_ip&gt;/yum/centos6/
gpgcheck=0
enabled=1
[Updates-ambari-2.1.2]
name=ambari-2.1.2 - Updates
baseurl=http://&lt;yum_repo_server_ip&gt;/yum/ambari/AMBARI-2.1.2/centos6/
gpgcheck=0
enabled=1
priority=1
Configurer le r&eacute;f&eacute;rentiel HDP sur le serveur Ambari
Apr&egrave;s avoir configur&eacute; le r&eacute;f&eacute;rentiel Ambari sur le serveur Ambari, vous devez configurer le r&eacute;f&eacute;rentiel HDP
sur le serveur Ambari.
Pr&eacute;requis
V&eacute;rifiez que vous avez configur&eacute; ambari.repository sur le serveur Ambari.
Proc&eacute;dure
1
Modifiez le fichier suivant :
/var/lib/ambari-server/resources/stacks/HDP/2.3/repos/repoinfo.xml
a
Remplacez le num&eacute;ro de version 2.3 par le v&ocirc;tre.
b
Remplacez l'url de base de os type=&quot;redhat6&quot; par l'URL de votre r&eacute;f&eacute;rentiel HDP local, comme
indiqu&eacute; dans l'exemple suivant :
&lt;?xml version=&quot;1.0&quot;?&gt;
&lt;!-License section(not displayed here).
--&gt;
&lt;reposinfo&gt;
&lt;os family=&quot;redhat6&quot;&gt;
&lt;repo&gt;
&lt;baseurl&gt;http://yum_repo_server_ip/yum/ambari/HDP/centos6/2.x/updates/2.3.0.0&lt;/baseurl&gt;
&lt;repoid&gt;HDP-2.3&lt;/repoid&gt;
&lt;reponame&gt;HDP&lt;/reponame&gt;
&lt;/repo&gt;
&lt;repo&gt;
&lt;baseurl&gt;http://yum_repo_server_ip/yum/ambari/HDPUTILS-1.1.0.20/repos/centos6&lt;/baseurl&gt;
&lt;repoid&gt;HDP-UTILS-1.1.0.20&lt;/repoid&gt;
&lt;reponame&gt;HDP-UTILS&lt;/reponame&gt;
&lt;/repo&gt;
&lt;/os&gt;
&lt;/reposinfo&gt;
2
D&eacute;marrez le serveur Ambari.
ambari-server start
Vous pouvez d&eacute;sormais cr&eacute;er des clusters pour le serveur Ambari &agrave; l'aide du r&eacute;f&eacute;rentiel Yum local.
VMware, Inc.
63
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
64
VMware, Inc.
G&eacute;rer les mod&egrave;les de nœud
6
Vous pouvez g&eacute;rer les mod&egrave;les.
Pr&eacute;requis
Proc&eacute;dure
u
Exemple :
Suivant
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Tenir &agrave; jour une machine virtuelle de mod&egrave;le Hadoop personnalis&eacute;e &raquo;, page 65
n
&laquo; Cr&eacute;er une machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL Server 6.7 et VMware Tools &raquo;,
page 66
n
&laquo; Prendre en charge plusieurs mod&egrave;les de machine virtuelle &raquo;, page 70
Tenir &agrave; jour une machine virtuelle de mod&egrave;le Hadoop personnalis&eacute;e
Vous pouvez modifier ou mettre &agrave; jour le syst&egrave;me d'exploitation d'une machine virtuelle du mod&egrave;le
Hadoop. Si vous proc&eacute;dez &agrave; des mises &agrave; jour, vous devez supprimer l'instantan&eacute; qui est cr&eacute;&eacute; par la machine
virtuelle.
Si vous cr&eacute;ez une machine virtuelle du mod&egrave;le Hadoop personnalis&eacute;e qui utilise une version de RHEL 6.x,
ou si vous modifiez le syst&egrave;me d'exploitation, vous devez supprimer l'instantan&eacute; Serengeti que Big Data
Extensions cr&eacute;e. Si vous ne supprimez pas l'instantan&eacute; Serengeti, les modifications que vous apportez &agrave; la
machine virtuelle du mod&egrave;le Hadoop ne prendront pas effet.
Pr&eacute;requis
n
D&eacute;ployez Big Data Extensions vApp. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
n
Cr&eacute;ez une machine virtuelle du mod&egrave;le Hadoop personnalis&eacute;e &agrave; l'aide de RHEL 6.x. Voir &laquo; Cr&eacute;er une
machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL Server 6.7 et VMware Tools &raquo;, page 66
.
VMware, Inc.
65
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
Allumez la machine virtuelle du mod&egrave;le Hadoop et appliquez les modifications ou les mises &agrave; jour.
3
Supprimez le fichier /etc/udev/rules.d/70-persistent-net.rules pour &eacute;viter d'augmenter le nombre
eth lors du clonage.
Si vous ne supprimez pas ce fichier, les machines virtuelles clon&eacute;es &agrave; partir du mod&egrave;le ne peuvent pas
obtenir d'adresses IP. Si vous mettez la machine virtuelle du mod&egrave;le Hadoop sous tension pour
apporter des modifications, supprimez le fichier avant d'&eacute;teindre cette machine virtuelle.
4
Dans vSphere Web Client, &eacute;teignez la machine virtuelle du mod&egrave;le Hadoop.
5
Supprimez l'instantan&eacute; Serengenti &eacute;tiquet&eacute; de la machine virtuelle du mod&egrave;le Hadoop personnalis&eacute;e.
a
Dans vSphere Web Client, cliquez avec le bouton droit de la souris sur la machine virtuelle du
mod&egrave;le Hadoop et s&eacute;lectionnez Snapshot &gt; Snapshot Manager (Instantan&eacute;, Gestionnaire
d'instantan&eacute;s).
b
S&eacute;lectionnez l'instantan&eacute; Serengeti et cliquez sur Supprimer.
L'instantan&eacute; g&eacute;n&eacute;r&eacute; est supprim&eacute;.
6
Synchronisez l'heure sur la machine virtuelle du mod&egrave;le Hadoop avec vCenter Server.
a
Dans vSphere Web Client, cliquez avec le bouton droit sur la machine virtuelle du mod&egrave;le Hadoop
et s&eacute;lectionnez Modifier les param&egrave;tres.
b
Dans l'onglet Options VM, cliquez sur VMware Tools &gt; Synchroniser l'heure invit&eacute; avec l'h&ocirc;te.
Cr&eacute;er une machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL
Server 6.7 et VMware Tools
Vous pouvez cr&eacute;er une machine virtuelle de mod&egrave;le de nœud poss&eacute;dant une version personnalis&eacute;e du
syst&egrave;me d'exploitation Red Hat Enterprise Linux (RHEL) Server 6.x, qui inclut VMware Tools. Bien que peu
de distributions Hadoop n&eacute;cessitent une version personnalis&eacute;e de RHEL Server 6.7, vous pouvez le
personnaliser pour toute distribution Hadoop.
Avant de cr&eacute;er une machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL
Server 6.7 et VMware Tools
Avant de cr&eacute;er une machine virtuelle de mod&egrave;le de nœud &agrave; l'aide de RHEL Server 6.7 et de VMware Tools,
vous devez effectuer quelques t&acirc;ches pr&eacute;alables et conna&icirc;tre certaines informations importantes sur RHEL
Server 6.1, les noms d'h&ocirc;te, le partitionnement du disque et la cr&eacute;ation de machines virtuelles du mod&egrave;le
Hadoop avec plusieurs cœurs par socket.
Vous pouvez cr&eacute;er une machine virtuelle de mod&egrave;le de nœud qui utilise RHEL Server 6.7 ou version
ult&eacute;rieure en tant que syst&egrave;me d'exploitation invit&eacute; sur lequel vous pouvez installer VMware Tools pour
RHEL 6.7 en association avec une distribution Hadoop prise en charge. Cela vous permet de cr&eacute;er une
machine virtuelle du mod&egrave;le Hadoop qui utilise la configuration du syst&egrave;me d'exploitation de votre
entreprise. Lorsque vous provisionnez des clusters Big Data &agrave; l'aide du mod&egrave;le Hadoop personnalis&eacute;,
VMware Tools pour RHEL 6.7 sera install&eacute; sur les machines virtuelles cr&eacute;&eacute;es &agrave; partir de la machine virtuelle
du mod&egrave;le Hadoop.
66
VMware, Inc.
Chapitre 6 G&eacute;rer les mod&egrave;les de nœud
Si vous cr&eacute;ez des machines virtuelles du mod&egrave;le Hadoop dot&eacute;es de plusieurs cœurs par socket, lorsque vous
sp&eacute;cifiez les param&egrave;tres de CPU pour la machine virtuelle, vous devez indiquer plusieurs cœurs par socket.
Par exemple, si la machine virtuelle utilise deux cœurs par socket, les param&egrave;tres du vCPU doivent &ecirc;tre un
nombre pair. Par exemple 4, 8 ou 12. Si vous sp&eacute;cifiez un nombre impair, le provisionnement du cluster ou
le redimensionnement du CPU &eacute;chouera.
IMPORTANT
n
Vous devez utiliser localhost.localdomain comme nom d'h&ocirc;te lorsque vous installez le mod&egrave;le RHEL,
sinon le FQDN de la machine virtuelle clon&eacute;e &agrave; partir du mod&egrave;le risque de ne pas &ecirc;tre d&eacute;fini
correctement.
n
Si vous effectuez un partitionnement de disque, n'utilisez pas Linux Volume Manager (LVM).
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
n
Obtenez l'adresse IP du serveur de gestion Serengeti.
n
Localisez la version de VMware Tools correspondant &agrave; la version ESXi de votre centre de donn&eacute;es.
Cr&eacute;er un mod&egrave;le de machine virtuelle avec un disque &agrave; provisionnement
dynamique de 20 Go et installer RHEL 6.7
Vous cr&eacute;ez un mod&egrave;le de machine virtuelle et installez Red Hat Enterprise Linux 6.7.
Pour plus d'informations sur cette proc&eacute;dure, consultez le Guide d'installation de Red Hat Enterprise Linux,
disponible sur le site Web de Red Hat.
Proc&eacute;dure
1
T&eacute;l&eacute;chargez l'ISO d'installation de RHEL Server 6.7 sur www.redhat.com dans une banque de donn&eacute;es.
2
Dans vSphere Client, cr&eacute;ez une nouvelle machine virtuelle avec un disque &agrave; provisionnement
dynamique de 20 Go et s&eacute;lectionnez Red Hat Enterprise Linux 6.7 (64 bits) comme syst&egrave;me
d'exploitation invit&eacute;.
3
Cliquez avec le bouton droit sur la machine virtuelle et cliquez sur Modifier les param&egrave;tres.
4
S&eacute;lectionnez CD/DVD Device 0 (CD/DVD Appareil 0), puis s&eacute;lectionnez le fichier ISO de la banque de
donn&eacute;es pour le fichier ISO RHEL.
5
S&eacute;lectionnez SCSI controller 0 &gt; Change Type &gt; LSI Logic Parallel (Contr&ocirc;leur SCSI 0, Changer Type,
Parall&egrave;le Logique LSI), puis cliquez sur OK.
6
Dans Device Status (&Eacute;tat de l'appareil), s&eacute;lectionnez Connect&eacute; et Connect&eacute; sous tension, puis cliquez
sur OK.
7
Dans la fen&ecirc;tre de console de la machine virtuelle, installez le syst&egrave;me d'exploitation RHEL Server 6.x &agrave;
l'aide des param&egrave;tres par d&eacute;faut pour tous les param&egrave;tres, &agrave; l'exception des &eacute;l&eacute;ments suivants :
VMware, Inc.
n
Vous pouvez s&eacute;lectionner la langue et le fuseau horaire que vous souhaitez utiliser sur votre
syst&egrave;me d'exploitation.
n
Vous pouvez indiquer que la partition de permutation utilise une plus petite taille pour enregistrer
l'espace disque (par exemple, 500 Mo).
n
Vous pouvez r&eacute;duire la taille de la partition de permutation car elle n'est pas utilis&eacute;e par
Big Data Extensions.
n
S&eacute;lectionnez Minimal dans l'&eacute;cran Package Installation Defaults (Param&egrave;tres par d&eacute;faut de
l'installation du paquet).
67
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
V&eacute;rifier que la machine virtuelle poss&egrave;de une adresse IP valide et une
connectivit&eacute; Internet
La machine virtuelle du mod&egrave;le Hadoop a besoin d'une adresse IP valide et d'une connexion &agrave; Internet.
Pr&eacute;requis
n
Proc&eacute;dure
u
Ex&eacute;cutez la commande ifconfig pour v&eacute;rifier que la machine virtuelle poss&egrave;de une adresse IP valide et
une connectivit&eacute; Internet.
Cette t&acirc;che suppose que le protocole DHCP (Dynamic Host Configuration Protocol) est utilis&eacute;.
n
Si les informations sur l'adresse IP apparaissent dans la sortie de la commande ifconfig, reportezvous &agrave; &laquo; Configurer le r&eacute;seau pour que la machine virtuelle du mod&egrave;le Hadoop utilise DHCP &raquo;,
page 68.
n
Si aucune information sur l'adresse IP n'appara&icirc;t, reportez-vous &agrave; &laquo; Configurer le r&eacute;seau pour que
la machine virtuelle du mod&egrave;le Hadoop utilise DHCP &raquo;, page 68.
Configurer le r&eacute;seau pour que la machine virtuelle du mod&egrave;le Hadoop utilise
DHCP
Proc&eacute;dure
1
&Agrave; l'aide d'un &eacute;diteur de texte, ouvrez le fichier /etc/sysconfig/network-scripts/ifcfg-eth0.
2
Localisez les param&egrave;tres suivants et sp&eacute;cifiez la configuration suivante.
ONBOOT=yes
DEVICE=eth0
BOOTPROTO=dhcp
3
Enregistrez les modifications et fermez le fichier.
4
Red&eacute;marrez le service r&eacute;seau.
sudo /sbin/service network restart
5
Ex&eacute;cutez la commande ifconfig pour v&eacute;rifier que la machine virtuelle poss&egrave;de une adresse IP valide et
une connectivit&eacute; Internet.
Installer le RPM JDK 7
Proc&eacute;dure
&reg;
1
&Agrave; partir de la page des t&eacute;l&eacute;chargements Oracle Java SE 7, t&eacute;l&eacute;chargez le dernier RPM JDK 7 Linux x64
et copiez-le dans le dossier racine du mod&egrave;le de machine virtuelle.
2
Installez le RPM.
rpm -Uvh jdk-7u91-linux-x64.rpm
3
Supprimez le fichier RPM.
rm -f jdk-7u91-linux-x64.rpm
4
68
Modifiez /etc/environment et ajoutez la ligne suivante : JAVA_HOME=/usr/java/default
VMware, Inc.
Chapitre 6 G&eacute;rer les mod&egrave;les de nœud
Personnaliser la machine virtuelle
Ex&eacute;cutez les scripts d'installation pour personnaliser la machine virtuelle.
Proc&eacute;dure
1
Enregistrez le syst&egrave;me d'exploitation RHEL pour activer les r&eacute;f&eacute;rentiels Yum RHEL. Cela permet au
script d'installation de t&eacute;l&eacute;charger des packages &agrave; partir du r&eacute;f&eacute;rentiel Yum. Reportez-vous &agrave; la section
&laquo; Registering from the Command Line &raquo; dans le document Red Hat Enterprise Linux 6 Deployment Guide,
disponible sur le site Web de Red Hat.
2
T&eacute;l&eacute;chargez les scripts &agrave; l'adresse https://deployed_serengeti_server_IP/custos/custos.tar.gz.
3
Cr&eacute;ez le r&eacute;pertoire /tmp/custos, faites-en votre r&eacute;pertoire de travail, et ex&eacute;cutez tar xf pour
d&eacute;compresser le fichier .tar.
mkdir /tmp/custos
cd /tmp/custos
tar xf /tmp/custos/custos.tar.gz
4
Ex&eacute;cutez le script installer.sh en sp&eacute;cifiant le chemin du r&eacute;pertoire /usr/java/default.
./installer.sh /usr/java/default
Vous devez utiliser la m&ecirc;me version du script installer.sh que votre d&eacute;ploiement
Big Data Extensions.
5
Supprimez le fichier /etc/udev/rules.d/70-persistent-net.rules pour &eacute;viter d'augmenter le nombre
eth lors du clonage.
Si vous ne supprimez pas ce fichier, les machines virtuelles clon&eacute;es &agrave; partir du mod&egrave;le ne peuvent pas
obtenir d'adresses IP. Si vous mettez la machine virtuelle du mod&egrave;le Hadoop sous tension pour
apporter des modifications, supprimez le fichier avant d'&eacute;teindre cette machine virtuelle.
Installer VMware Tools pou RHEL 6.x
Proc&eacute;dure
1
Cliquez avec le bouton droit de la souris sur la machine virtuelle RHEL 6 de vSphere Client, puis
s&eacute;lectionnez Guest &gt; Install/Upgrade VMware Tools (Invit&eacute;, Installer/Mettre &agrave; niveau VMware Tools).
2
Connectez-vous &agrave; la machine virtuelle et installez le CD-ROM pour acc&eacute;der au paquet d'installation
VMware Tools.
mkdir /mnt/cdrom
mount /dev/cdrom /mnt/cdrom
mkdir /tmp/vmtools
cd /tmp/vmtools
3
Ex&eacute;cutez la commande tar xf pour extraire le fichier tar du paquet VMware Tools.
tar xf /mnt/cdrom/VMwareTools-*.tar.gz
4
Faites de vmware-tools-distrib votre r&eacute;pertoire de travail et ex&eacute;cutez le script vmware-install.pl.
cd vmware-tools-distrib
./vmware-install.pl
Appuyez sur Entr&eacute;e pour terminer l'installation.
VMware, Inc.
69
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
5
Supprimez le fichier temporaire (temp) vmtools qui est cr&eacute;&eacute; en guise d'art&eacute;fact du processus
d'installation.
rm -rf /tmp/vmtools
6
Arr&ecirc;tez la machine virtuelle.
Synchroniser l'heure sur la machine virtuelle de mod&egrave;le Hadoop
Synchronisez l'heure sur la machine virtuelle de mod&egrave;le Hadoop avec vCenter Server.
Proc&eacute;dure
1
Dans vSphere Web Client, cliquez avec le bouton droit sur la machine virtuelle du mod&egrave;le Hadoop et
s&eacute;lectionnez Modifier les param&egrave;tres.
2
Dans l'onglet Options VM, cliquez sur VMware Tools &gt; Synchroniser l'heure invit&eacute; avec l'h&ocirc;te.
Terminer le processus de cr&eacute;ation d'une machine virtuelle de mod&egrave;le Hadoop
Pour utiliser la machine virtuelle du mod&egrave;le Hadoop, vous devez remplacer la machine virtuelle du mod&egrave;le
Hadoop d'origine et red&eacute;marrer le service Tomcat pour activer le mod&egrave;le de machine virtuelle RHEL
personnalis&eacute;.
Proc&eacute;dure
1
Dans l'onglet Mat&eacute;riel virtuel de la bo&icirc;te de dialogue Modifier les param&egrave;tres, d&eacute;cochez la case
Connect&eacute;. Si le lecteur CD/DVD est connect&eacute; au fichier ISO, le processus de clonage de la machine
virtuelle &eacute;choue.
2
Remplacez la machine virtuelle du mod&egrave;le Hadoop d'origine par la machine virtuelle personnalis&eacute;e que
vous avez cr&eacute;&eacute;e. Pour ce faire, faites glisser la nouvelle machine virtuelle de mod&egrave;le que vous avez
cr&eacute;&eacute;e dans l'application virtuelle.
3
Connectez-vous &agrave; Serengeti Management Server en tant qu'utilisateur serengeti et red&eacute;marrez le
service Tomcat.
sudo /sbin/service tomcat restart
Le fait de red&eacute;marrer le service Tomcat active le mod&egrave;le de machine virtuelle RHEL personnalis&eacute; pour
en faire votre machine virtuelle du mod&egrave;le Hadoop.
Prendre en charge plusieurs mod&egrave;les de machine virtuelle
Vous pouvez configurer plusieurs mod&egrave;les de machines virtuelles et choisir celui que vous souhaitez utiliser
lorsque vous cr&eacute;ez un cluster Big Data. Cela vous permet de satisfaire les besoins d'optimisation propres &agrave;
diff&eacute;rents sc&eacute;narios d'utilisation.
Big Data Extensions prend en charge l'utilisation de plusieurs mod&egrave;les de machine virtuelle. Vous pouvez
sp&eacute;cifier le mod&egrave;le de nœud &agrave; partir duquel cr&eacute;er un cluster dans Serengeti CLI ou vSphere Web Client.
Pour cr&eacute;er un mod&egrave;le de nœud en utilisant un syst&egrave;me d'exploitation autre que celui par d&eacute;faut, reportezvous &agrave; la section &laquo; Tenir &agrave; jour une machine virtuelle de mod&egrave;le Hadoop personnalis&eacute;e &raquo;, page 65.
70
VMware, Inc.
G&eacute;rer l'environnement
Big Data Extensions
7
Apr&egrave;s avoir install&eacute; Big Data Extensions, vous pouvez arr&ecirc;ter et d&eacute;marrer les services Serengeti, cr&eacute;er des
comptes d'utilisateur, g&eacute;rer les mots de passe, mettre &agrave; jour les certificats SSL et vous connecter aux nœuds
de cluster pour r&eacute;soudre les probl&egrave;mes.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Ajouter des noms d'utilisateur sp&eacute;cifiques pour la connexion au serveur de gestion Serengeti &raquo;,
page 71
n
&laquo; Modifier le mot de passe du serveur de gestion Serengeti &raquo;, page 72
n
&laquo; Cr&eacute;er un nom d'utilisateur et un mot de passe pour l'interface de ligne de commande Serengeti &raquo;,
page 73
n
&laquo; Autoriser et v&eacute;rifier les commandes ex&eacute;cut&eacute;es en tant qu'utilisateur racine &raquo;, page 74
n
&laquo; Sp&eacute;cifier un groupe d'utilisateurs dans Active Directory ou LDAP pour utiliser un cluster Hadoop &raquo;,
page 74
n
&laquo; Arr&ecirc;ter et d&eacute;marrer les services Serengeti &raquo;, page 75
n
&laquo; Ports utilis&eacute;s pour la communication entre Big Data Extensions et vCenter Server &raquo;, page 76
n
&laquo; V&eacute;rifier l'&eacute;tat de fonctionnement de l'environnement Big Data Extensions &raquo;, page 77
n
&laquo; Passer en mode maintenance pour effectuer la sauvegarde et la restauration &agrave; l'aide du client
d'interface de ligne de commande Serengeti &raquo;, page 86
n
&laquo; Sauvegarder et restaurer l'environnement Big Data Extensions &raquo;, page 87
Ajouter des noms d'utilisateur sp&eacute;cifiques pour la connexion au
serveur de gestion Serengeti
Vous pouvez ajouter des noms d'utilisateur sp&eacute;cifiques avec lesquels vous pouvez vous connecter au
Serengeti Management Server. Les noms d'utilisateur que vous ajoutez correspondent aux seuls utilisateurs
autoris&eacute;s &agrave; se connecter au Serengeti Management Server &agrave; l'aide de la Serengeti CLI ou de l'interface
utilisateur de Big Data Extensions pour une utilisation avec vSphere Web Client.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Pr&eacute;requis
n
VMware, Inc.
D&eacute;ployez le vApp Serengeti.
71
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et s&eacute;lectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe dispara&icirc;t de l'&eacute;cran de la console, appuyez sur Ctrl+D pour revenir &agrave;
l'invite de commande.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
Utilisez l'adresse IP qui figure sur l'onglet R&eacute;sum&eacute; et le mot de passe actuel.
3
Modifiez le fichier /opt/serengeti/conf/Users.xml pour ajouter des noms d'utilisateur.
vi /opt/serengeti/conf/Users.xml
4
Modifiez l'attribut &lt;user name=&quot;*&quot; /&gt; en rempla&ccedil;ant le caract&egrave;re g&eacute;n&eacute;rique ast&eacute;risque (*) par le nom
d'utilisateur que vous souhaitez utiliser. Vous pouvez ajouter plusieurs noms d'utilisateur en ajoutant
un nouvel attribut &lt;user name=&quot;nom&quot; /&gt; sur sa ligne. Le fichier User.xml prend en charge plusieurs
lignes.
&lt;user name=&quot;jsmith&quot; /&gt;
&lt;user name=&quot;sjones&quot; /&gt;
&lt;user name=&quot;jlydon&quot; /&gt;
5
Red&eacute;marrez le service Tomcat.
/sbin/service tomcat restart
Seuls les noms d'utilisateur que vous ajoutez au fichier User.xml peuvent &ecirc;tre utilis&eacute;s pour se connecter au
Serengeti Management Server &agrave; l'aide de la Serengeti CLI ou de l'interface utilisateur de Big Data Extensions
pour une utilisation avec vSphere Web Client.
Modifier le mot de passe du serveur de gestion Serengeti
Lorsque vous vous connectez pour la premi&egrave;re fois sur le serveur de gestion Serengeti, celui-ci g&eacute;n&egrave;re un
mot de passe al&eacute;atoire destin&eacute; aux utilisateurs root et serengeti. Si vous souhaitez utiliser un mot de passe
plus facile &agrave; retenir, vous pouvez modifier le mot de passe al&eacute;atoire destin&eacute; aux utilisateurs root et
serengeti &agrave; l'aide de la console de la machine virtuelle.
REMARQUE Vous pouvez modifier le mot de passe pour la machine virtuelle de n'importe quel nœud en
proc&eacute;dant comme suit.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Pr&eacute;requis
72
n
D&eacute;ployez le vApp Serengeti.
n
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine virtuelle
du serveur de gestion Serengeti est en marche.
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
Proc&eacute;dure
1
Cliquez avec le bouton droit de la souris sur la machine virtuelle du serveur de gestion Serengeti et
s&eacute;lectionnez Open Console (Ouvrir console).
Le mot de passe du serveur de gestion Serengeti s'affiche.
REMARQUE Si le mot de passe dispara&icirc;t de l'&eacute;cran de la console, appuyez sur Ctrl+D pour revenir &agrave;
l'invite de commande.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
Utilisez l'adresse IP qui figure sur l'onglet R&eacute;sum&eacute; et le mot de passe actuel.
3
Utilisez la commande /opt/serengeti/sbin/set-password pour modifier le mot de passe des
utilisateurs root et serengeti.
sudo /opt/serengeti/sbin/set-password -u
4
Saisissez le nouveau mot de passe deux fois pour le confirmer.
&Agrave; votre prochaine connexion au serveur de gestion Serengeti, utilisez le nouveau mot de passe.
Suivant
Vous pouvez cr&eacute;er un nouvel identifiant et un nouveau mot de passe pour le client d'interface de ligne de
commande Serengeti.
Cr&eacute;er un nom d'utilisateur et un mot de passe pour l'interface de ligne
de commande Serengeti
Le client d'interface de ligne de commande Serengeti utilise les informations d'identification de connexion
vCenter Server avec des autorisations de lecture sur le serveur de gestion Serengeti. Si vous ne cr&eacute;ez pas de
nom d'utilisateur et de mot de passe pour le client d'interface de ligne de commande Serengeti, il utilisera
les informations d'identification d'administrateur vCenter Server. N&eacute;anmoins, pour des raisons de s&eacute;curit&eacute;,
il est pr&eacute;f&eacute;rable de cr&eacute;er un compte utilisateur sp&eacute;cifique au client d'interface de ligne de commande
Serengeti.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Pr&eacute;requis
n
D&eacute;ployez Big Data Extensions vApp. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
n
Installez le client d'interface de ligne de commande Serengeti. Reportez-vous &agrave; &laquo; Installer le client
d'interface de ligne de commande distant Serengeti &raquo;, page 31.
Proc&eacute;dure
1
Ouvrez un navigateur Web et rendez-vous sur : https://vc-hostname:port/vsphere-client.
Le vc-hostname peut &ecirc;tre soit le nom d'h&ocirc;te DNS soit l'adresse IP de vCenter Server. Par d&eacute;faut, le port
est 9443, mais il est possible de le changer au cours de l'installation de vSphere Web Client.
2
Saisissez le nom d'utilisateur et le mot de passe qui correspondent aux privil&egrave;ges administratifs de
vCenter Server, puis cliquez sur Login (Connexion).
REMARQUE Les utilisateurs de vCenter Server 5.5 doivent utiliser un domaine local pour ex&eacute;cuter les
op&eacute;rations relatives au SSO.
VMware, Inc.
73
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Dans le panneau Navigator (Navigateur) de vSphere Web Client, s&eacute;lectionnez Administration, SSO
Users and Groups (Utilisateurs et groupes SSO).
4
Modifiez les informations de connexion.
Les informations de connexion sont mises &agrave; jour. Pour votre prochaine connexion &agrave; l'interface de ligne de
commande Serengeti, utilisez les nouvelles informations de connexion.
Suivant
Vous pouvez modifier le mot de passe du serveur de gestion Serengeti. Reportez-vous &agrave; &laquo; Modifier le mot
de passe du serveur de gestion Serengeti &raquo;, page 72.
Autoriser et v&eacute;rifier les commandes ex&eacute;cut&eacute;es en tant qu'utilisateur
racine
Vous pouvez personnaliser la commande sudo en utilisant pbrun. La commande pbrun vous permet
d'ex&eacute;cuter les commandes avec les privil&egrave;ges d'un autre utilisateur, g&eacute;n&eacute;ralement l'utilisateur racine.
La commande pbrun utilise PowerBroker, une application de serveur centralis&eacute;e, pour autoriser et v&eacute;rifier
les commandes ex&eacute;cut&eacute;es en tant qu'utilisateur racine. PowerBroker vous permet d'attribuer des privil&egrave;ges
d'utilisateur racine &agrave; des utilisateurs sp&eacute;cifiques, puis d'autoriser et de v&eacute;rifier leur utilisation de
l'environnement.
Pr&eacute;requis
Pour utiliser PowerBroker ou des services d'identit&eacute; similaires, vous devez d'abord configurer votre
environnement pour pouvoir l'utiliser avec eux.
Proc&eacute;dure
1
Connectez-vous &agrave; Serengeti Management Server.
2
Exportez la commande sudo personnalis&eacute;e en utilisant pbrun dans votre environnement.
&quot;export SUDO_CMD=pbrun&quot; &gt;&gt; /opt/serengeti/sbin/env.sh
3
Connectez-vous au nœud de cluster, puis ex&eacute;cutez la s&eacute;quence de commandes suivante.
sed -i 's|^serengeti.sudo.command.*|serengeti.sudo.command =
pbrun|' /opt/serengeti/conf/serengeti.properties
Sp&eacute;cifier un groupe d'utilisateurs dans Active Directory ou LDAP pour
utiliser un cluster Hadoop
Vous pouvez sp&eacute;cifier un serveur Active Directory ou LDAP pour l'authentification utilisateur. Cela vous
permet de g&eacute;rer les utilisateurs de mani&egrave;re centralis&eacute;e.
Par d&eacute;faut, l'authentification est configur&eacute;e uniquement pour les comptes d'utilisateurs locaux dans
Big Data Extensions. Si vous voulez utiliser LDAP ou Active Directory pour authentifier les utilisateurs,
vous devez configurer Big Data Extensions pour utiliser votre service LDAP ou Active Directory.
Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux g&eacute;r&eacute;s par le serveur LDAP ou
Active Directory, ou une combinaison de ces m&eacute;thodes d'authentification.
Pr&eacute;requis
n
74
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
n
Utilisez le portail d'administration du Serengeti Management Server pour activer le SSO et mettre &agrave; jour
le certificat. Reportez-vous &agrave; &laquo; Configurer les param&egrave;tres vCenter Single Sign-On du serveur de gestion
Serengeti &raquo;, page 29.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions et cliquez sur l'onglet G&eacute;rer.
3
S&eacute;lectionnez Mode utilisateur et cliquez sur Modifier.
La bo&icirc;te de dialogue Configurer utilisateur appara&icirc;t.
4
Choisissez le mode d'authentification utilisateur que vous souhaitez utiliser pour votre environnement
Big Data Extensions.
Tableau 7‑1. Modes d'authentification utilisateur
5
Mode utilisateur
Description
Local
S&eacute;lectionnez Local pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s localement
dans votre environnement Big Data Extensions. Il s'agit de la solution de gestion des
utilisateurs par d&eacute;faut.
Utilisateur LDAP
S&eacute;lectionnez Utilisateur LDAP pour cr&eacute;er et g&eacute;rer les utilisateurs et les groupes stock&eacute;s
dans la source d'identit&eacute; de votre entreprise telle qu'Active Directory ou LDAP. Si vous
choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il utilise un service
LDAP ou Active Directory.
Mode mixte
S&eacute;lectionnez Mode mixte pour utiliser une combinaison des utilisateurs locaux et de ceux
stock&eacute;s dans une source d'identit&eacute; externe. Si vous choisissez ce mode, vous devez
configurer Big Data Extensions de sorte &agrave; utiliser le mode AD en tant que LDAP.
Si vous choisissez le mode LDAP ou le mode mixte, vous devez configurer Big Data Extensions pour
qu'il utilise un service LDAP ou Active Directory.
Tableau 7‑2. Informations de connexion LDAP
6
DN utilisateur de base
Indiquez le DN utilisateur de base.
DN groupe de base
Indiquez le DN groupe de base.
URL du serveur
principal
Indiquez l'URL du serveur principal de votre serveur Active Directory ou LDAP.
URL secondaire du
serveur
Indiquez l'URL du serveur secondaire de votre serveur Active Directory ou LDAP.
Nom d'utilisateur
Saisissez le nom d'utilisateur du compte d'administrateur Active Directory ou LDAP.
Mot de passe
Saisissez le mot de passe du compte d'administrateur Active Directory ou LDAP.
(Facultatif) Cliquez sur Tester pour v&eacute;rifier que les comptes d'utilisateurs ne sont pas introuvables.
Arr&ecirc;ter et d&eacute;marrer les services Serengeti
Vous pouvez arr&ecirc;ter et d&eacute;marrer les services Serengeti pour appliquer une reconfiguration ou pour
r&eacute;cup&eacute;rer suite &agrave; une anomalie d'op&eacute;ration.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
VMware, Inc.
75
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
2
Ex&eacute;cutez le script serengeti-stop-services.sh pour arr&ecirc;ter les services Serengeti.
serengeti-stop-services.sh
3
Ex&eacute;cutez le script serengeti-start-services.sh pour d&eacute;marrer les services Serengeti.
serengeti-start-services.sh
Ports utilis&eacute;s pour la communication entre Big Data Extensions et
vCenter Server
Big Data Extensions demande des informations &agrave; vCenter Server et utilise le service Single Sign-On de
vCenter Server.
Serveur de gestion Big Data Extensions
Le tableau ci-dessous indique le port publi&eacute; pour le serveur de gestion.
VMware
Port
Commentaires
API Rest Serengeti
8080, 8443
Ouvert pour le client Serengeti et pour
l'enregistrement du plug-in BDE appel&eacute; par VC
SSHD
22
Ouvert pour la connexion au client Serengeti
Ports Hadoop
Serengeti d&eacute;ploie les clusters Hadoop et Hbase en utilisant tous les ports par d&eacute;faut. Le tableau suivant
indique tous les ports utilis&eacute;s par le service Hadoop ou HBase, le r&eacute;seau de production.
HDFS
MapReduce
Yarn
Hive
Processus
Port d&eacute;fini par d&eacute;faut
Page Web NameNode
50070
RPC NameNode
8020
DataNode
50075
50010
50020
Page Web JobTracker
50030
RPC JobTracker
8021
TaskTracker
50060
Page Web du gestionnaire de
ressources
8088
RPC du gestionnaire de ressources
8030, 8031, 8032, 8033
Gestionnaire de nœuds
8040, 8042
S/O
1000
Ports HBase
Le tableau ci-dessous indique les ports utilis&eacute;s par les clusters HBase ainsi que les num&eacute;ros de port par
d&eacute;faut.
76
VMware
Nom de propri&eacute;t&eacute;
Port
ZooKeeper
hbase.zookeeper.property.clientPort
2181
Ma&icirc;tre
hbase.master.port
60000
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
VMware
Nom de propri&eacute;t&eacute;
Port
Ma&icirc;tre
hbase.master.info.port
60010
Serveur r&eacute;gional
hbase.regionserver.port
60020
Serveur r&eacute;gional
hbase.regionserver.info.port
60030
Serveur REST
hbase.rest.port
8080
Serveur REST
hbase.rest.info.port
8085
Serveur Thrift
hbase.thrift.port
9090
Serveur Thrift
hbase.thrift.info.port
9095
Ports MapR
Le tableau ci-dessous d&eacute;finit les ports utilis&eacute;s par un cluster MapR ainsi que les num&eacute;ros de port par d&eacute;faut.
VMware
Port
CLDB
7222
Port de surveillance JMX CLDB
7220
CLDB web port
7221
HBase Master
60000
HBase Master (pour l'interface graphique utilisateur)
60010
HBase RegionServer
60020
Hive Metastore
9083
Page Web JobTracker
50030
RPC JobTracker
8021
Serveur MFS
5660
MySQL
3306
NFS
2049
Contr&ocirc;le NFS (pour la HA)
9997
Gestion NFS
9998
Dispositif de mappage des ports
111
TaskTracker
50060
HTTPS de l'UI Web
8443
ZooKeeper
5181
V&eacute;rifier l'&eacute;tat de fonctionnement de l'environnement Big Data
Extensions
Pour que vous puissiez provisionner correctement un cluster Hadoop, votre environnement
Big Data Extensions doit remplir certains crit&egrave;res. Vous pouvez v&eacute;rifier que votre environnement r&eacute;pond
bien &agrave; ces crit&egrave;res avant de cr&eacute;er des clusters Hadoop, et r&eacute;soudre les &eacute;ventuels probl&egrave;mes de cr&eacute;ation de
clusters.
VMware, Inc.
77
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
&Eacute;tat de fonctionnement des services Big Data Extensions
Big Data Extensions se compose de plusieurs services dont vous pouvez v&eacute;rifier l'ex&eacute;cution.
Big Data Extensions se compose des serveurs suivants : serveur Tomcat, serveur Yum, serveur Chef et
serveur PostgreSQL. Vous pouvez v&eacute;rifier que ces services sont ex&eacute;cut&eacute;s avant de cr&eacute;er des clusters
Hadoop.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
V&eacute;rifiez que le service Tomcat est en cours d'ex&eacute;cution.
a
Ex&eacute;cutez la commande pgrep -f org.apache.catalina.startup.Bootstrap -l.
pgrep -f org.apache.catalina.startup.Bootstrap -l
b
Ex&eacute;cutez la commande wget https://bde_server_ip:8443 --no-check-certificate
wget https://bde_server_ip:8443 --no-check-certificate
3
V&eacute;rifiez que le serveur Yum est en cours d'ex&eacute;cution.
Ex&eacute;cutez la commande /sbin/service httpd status.
/sbin/service httpd status
Si le serveur Yum fonctionne correctement, il renvoie le message d'&eacute;tat en cours d'ex&eacute;cution.
4
V&eacute;rifiez que le serveur Chef est en cours d'ex&eacute;cution.
Ex&eacute;cutez la commande sudo /chef-server-ctl status. La sous-commande status affiche l'&eacute;tat de tous
les services disponibles pour le serveur Chef.
sudo /chef-server-ctl status
5
V&eacute;rifiez que le serveur PostgreSQL est en cours d'ex&eacute;cution.
a
Ex&eacute;cutez la commande pgrep -f /opt/opscode/embedded/bin/postgres -l pour v&eacute;rifier que le
processus postgresest en cours d'ex&eacute;cution. L'option -l indique les bases de donn&eacute;es disponibles.
pgrep -f /opt/opscode/embedded/bin/postgres -l
b
Ex&eacute;cutez la commande echo &quot;\dt&quot; | psql -U serengeti pour afficher les tables de bases de
donn&eacute;es cr&eacute;&eacute;es pour Big Data Extensions. L'option -dt indique le nom de la base de donn&eacute;es &agrave;
laquelle se connecter et d&eacute;sactive l'affichage des noms des colonnes des bases de donn&eacute;es dans la
sortie en r&eacute;sultant. L'option -U indique le nom d'utilisateur avec lequel se connecter &agrave; la base de
donn&eacute;es.
echo &quot;\dt&quot; | psql -U serengeti
Si les bases de donn&eacute;es disponibles pour PostgreSQL et les tables appartenant &agrave; l'utilisateur serengeti
s'affichent, votre serveur PostgreSQL fonctionne correctement.
78
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
Suivant
Si l'un des services ci-dessus ne s'ex&eacute;cute pas, vous pouvez consulter l'&eacute;tat d'initialisation des services
Serengeti Management Server, les messages d'erreur pour r&eacute;soudre les probl&egrave;mes et restaurer les services
qui ont pu rencontrer des probl&egrave;mes de d&eacute;marrage &agrave; l'aide du portail d'administration du serveur de
gestion Serengeti. Reportez-vous &agrave; &laquo; Afficher l'&eacute;tat d'initialisation du serveur de gestion Serengeti &raquo;,
page 124.
V&eacute;rifier la connectivit&eacute; r&eacute;seau avec vCenter Server
Vous pouvez v&eacute;rifier si votre d&eacute;ploiement Big Data Extensions est en mesure de se connecter &agrave;
vCenter Server et identifier les causes possibles d'un &eacute;chec de connexion r&eacute;seau.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande wget https://vcenter_server_ip:9443 --no-check-certificate.
wget https://vcenter_server_ip:9443 --no-check-certificate
Si cette commande r&eacute;cup&egrave;re le fichier index.html intitul&eacute; vSphere Web Client, vCenter Server est en cours
d'ex&eacute;cution et il existe une connectivit&eacute; entre Big Data Extensions et vCenter Server.
Si cette commande ne parvient pas &agrave; r&eacute;cup&eacute;rer le fichier index.html, reportez-vous &agrave; l'&eacute;tape 3.
3
Si la commande renvoie le message d'erreur Connecting to
vcenter_server_ip:vcenter_server_port... failed: Connection refused, l'adresse IP de vCenter
Server que vous avez indiqu&eacute;e est joignable, mais le num&eacute;ro de port r&eacute;seau de vCenter Server est
incorrect.
4
Si l'adresse IP et le num&eacute;ro de port de vCenter Server sont corrects, v&eacute;rifiez la configuration r&eacute;seau de
votre d&eacute;ploiement Big Data Extensions. Par exemple, v&eacute;rifiez que Big Data Extensions utilise une
adresse IP et une passerelle valides.
Suivant
Si vous n'&ecirc;tes pas en mesure de v&eacute;rifier une connexion r&eacute;seau entre Big Data Extensions et vCenter Server,
et que vous ne parvenez pas &agrave; identifier l'origine du probl&egrave;me, les rubriques de d&eacute;pannage fournissent des
solutions aux probl&egrave;mes que vous pourriez rencontrer avec Big Data Extensions. Reportez-vous &agrave; Chapitre
14, &laquo; D&eacute;pannage &raquo;, page 141
V&eacute;rifier l'authentification utilisateur de vCenter Server
Vous pouvez v&eacute;rifier si l'authentification utilisateur de vCenter Server fonctionne correctement et identifier
les causes possibles des probl&egrave;mes de cr&eacute;ation de clusters.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
VMware, Inc.
79
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Saisissez serengeti pour lancer l'interface de ligne de commande Serengeti.
3
Ex&eacute;cutez la commande connect –host localhost:8443 et, lorsque vous y &ecirc;tes invit&eacute;, saisissez votre
nom d'utilisateur et votre mot de passe (ils peuvent &ecirc;tre diff&eacute;rents de ceux de
Serengeti Management Server). Si vous parvenez &agrave; vous connecter &agrave; Big Data Extensions,
l'authentification utilisateur de vCenter Server fonctionne correctement.
Suivant
Avant la cr&eacute;ation de nouvelles machines virtuelles sur des h&ocirc;tes, l'heure sur les h&ocirc;tes cibles est compar&eacute;e &agrave;
celle sur le Serengeti Management Server. Si l'heure n'est pas synchronis&eacute;e entre le
Serengeti Management Server et les h&ocirc;tes, la cr&eacute;ation de la machine virtuelle &eacute;chouera. Reportez-vous &agrave;
&laquo; V&eacute;rifier la synchronisation de l'heure entre le serveur de gestion Serengeti et les h&ocirc;tes &raquo;, page 80.
V&eacute;rifier la synchronisation de l'heure entre le serveur de gestion Serengeti et
les h&ocirc;tes
Lorsque vous ex&eacute;cutez la commande cluster create ou cluster create ... --resume, celle-ci peut
&eacute;chouer s'il existe des diff&eacute;rences d'heure dans l'environnement. Vous pouvez v&eacute;rifier que l'heure se trouve
dans les limites de tol&eacute;rance et synchroniser l'heure entre le Serengeti Management Server et les autres h&ocirc;tes
de votre environnement.
Avant la cr&eacute;ation de nouvelles machines virtuelles sur des h&ocirc;tes, l'heure sur les h&ocirc;tes cibles est compar&eacute;e &agrave;
celle sur le Serengeti Management Server. Si l'heure n'est pas synchronis&eacute;e entre le
Serengeti Management Server et les h&ocirc;tes, la cr&eacute;ation du cluster peut &eacute;chouer.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande date +%T pour afficher l'heure sur le Serengeti Management Server.
date +%T
3
Dans vSphere Web Client, notez l'heure de chaque h&ocirc;te du centre de donn&eacute;es.
4
Comparez la date et l'heure entre le Serengeti Management Server et chaque h&ocirc;te pour voir si la
diff&eacute;rence exc&egrave;de le seuil maximal. Si le service HBase est pr&eacute;sent dans le cluster, le seuil maximal est
de 20 secondes. Autrement, le seuil maximal est de 4 minutes.
Si l'heure n'est pas synchronis&eacute;e entre les h&ocirc;tes, connectez-vous &agrave; chaque h&ocirc;te et affichez le
fichier /etc/ntp.conf pour v&eacute;rifier si la configuration NTP est correcte.
5
Dans vSphere Web Client, configurez tous les h&ocirc;tes ESXi de sorte qu'ils synchronisent leurs horloges
avec le m&ecirc;me serveur NTP.
Suivant
Une fois l'heure synchronis&eacute;e entre le Serengeti Management Server et les autres h&ocirc;tes ESXi dans votre
environnement, essayez de cr&eacute;er un cluster.
80
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
V&eacute;rifier la connectivit&eacute; r&eacute;seau entre des nœuds de calcul et Isilon HDFS
Si vous utilisez EMC Isilon OneFS pour votre HDFS, vous pouvez v&eacute;rifier la connectivit&eacute; r&eacute;seau des nœuds
de calcul jusqu'au syst&egrave;me de fichiers Isilon OneFS.
Proc&eacute;dure
1
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
Pour chaque nœud de calcul (TaskTracker or NodeManager), connectez-vous et ex&eacute;cutez la commande
hadoop dfsadmin -report pour v&eacute;rifier que le HDFS fonctionne correctement. Si la commande renvoie
la Capacit&eacute; configur&eacute;e et la Capacit&eacute; pr&eacute;sente, le nœud worker peut acc&eacute;der au HDFS.
Si le HDFS ne r&eacute;pond pas, reportez-vous &agrave; l'&eacute;tape 3.
3
V&eacute;rifiez que l'adresse IP et le num&eacute;ro de port r&eacute;seau du HDFS sont corrects. Connectez-vous au
NameNode Isilon (qui peut demander un nom d'utilisateur et un mot de passe diff&eacute;rents) et v&eacute;rifiez
que le service HDFS &eacute;coute le port 8020.
Si le HDFS &eacute;coute le bon port r&eacute;seau, reportez-vous &agrave; l'&eacute;tape 4.
4
V&eacute;rifiez l'entr&eacute;e fs.defaultFS dans le fichier de configuration Hadoop core-site.xml. Assurez-vous
que l'adresse IP, le FQDN et le port r&eacute;seau sont configur&eacute;s pour utiliser le service HDFS appropri&eacute;.
V&eacute;rifier les utilisateurs et les groupes d'utilisateurs existant dans Isilon OneFS
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vous devez cr&eacute;er et configurer des
utilisateurs et des groupes d'utilisateurs, et pr&eacute;parer votre environnement Isilon OneFS. Vous pouvez
v&eacute;rifier que vous avez cr&eacute;&eacute; les bons utilisateurs et groupes d'utilisateurs, et savoir lesquels existent dans
votre environnement Isilon OneFS.
Pr&eacute;requis
Pr&eacute;parez Isilon OneFS &agrave; &ecirc;tre utilis&eacute; en tant que cluster HDFS externe. Reportez-vous &agrave; &laquo; Pr&eacute;parer EMC
Isilon OneFS en tant que cluster HDFS externe &raquo;, page 108.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au nœud
Isilon OneFS via SSH.
2
Ex&eacute;cutez la commande isi auth users/groups list pour afficher la liste des utilisateurs et groupes
d'utilisateurs Isilon OneFS existants.
3
Ex&eacute;cutez la commande ls -al HDFS_ROOT_DIR pour v&eacute;rifier les utilisateurs et les groupes d'utilisateurs
du HDFS.
Lorsque vous ex&eacute;cutez la commande ls dans le syst&egrave;me de fichiers Isilon, l'option -al doit appara&icirc;tre
avant le nom du r&eacute;pertoire HDFS_ROOT_DIR. Sinon, l'option -al sera consid&eacute;r&eacute;e par la commande comme
un nom de r&eacute;pertoire ls.
ls -al HDFS_ROOT_DIR
REMARQUE Dans le sous-r&eacute;pertoire HDFS, les autorisations et droits de propri&eacute;t&eacute; de certains fichiers et
r&eacute;pertoires peuvent &ecirc;tre attribu&eacute;s &agrave; des utilisateurs ou des groupes autres que ceux utilisant
Big Data Extensions.
VMware, Inc.
81
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
V&eacute;rifier la capacit&eacute; de stockage
Pour d&eacute;ployer correctement un cluster, vous devez disposer d'une capacit&eacute; de stockage suffisante dans
votre environnement Big Data Extensions.
Les banques de donn&eacute;es que vous ajoutez &agrave; votre environnement Big Data Extensions sont disponibles pour
les clusters que vous cr&eacute;ez dans Big Data Extensions. Si vous n'ajoutez pas une capacit&eacute; de stockage
suffisante, la cr&eacute;ation du cluster &eacute;chouera.
Outre la capacit&eacute; de stockage globale, vous devez vous assurer de disposer d'un stockage partag&eacute; et local
suffisant. Le stockage partag&eacute; est recommand&eacute; pour les nœuds master et vous permet d'utiliser vMotion, la
haute disponibilit&eacute; et la tol&eacute;rance aux pannes. Le stockage local est recommand&eacute; pour les nœuds worker
Pr&eacute;requis
Vous devez avoir ajout&eacute; une banque de donn&eacute;es &agrave; votre environnement Big Data Extensions. Reportez-vous
&agrave; &laquo; Ajouter une banque de donn&eacute;es dans vSphere Web Client &raquo;, page 91
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande datastore list --detail pour afficher les banques de donn&eacute;es vCenter Server
utilis&eacute;es par Big Data Extensions.
3
&Agrave; l'aide des valeurs de configuration indiqu&eacute;es dans le fichier de sp&eacute;cification du cluster, calculez la
capacit&eacute; de stockage requise par le cluster.
4
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que les banques de
donn&eacute;es que vous avez identifi&eacute;es comme appartenant &agrave; Big Data Extensions disposent d'une capacit&eacute;
de stockage suffisante pour les clusters que vous souhaitez cr&eacute;er. Assurez-vous &eacute;galement que les
banques de donn&eacute;es sont &agrave; l'&eacute;tat actif.
Suivant
Si votre environnement Big Data Extensions ne dispose pas d'une capacit&eacute; de stockage ad&eacute;quate pour cr&eacute;er
des clusters, ajoutez des banques de donn&eacute;es. Reportez-vous &agrave; &laquo; Ajouter une banque de donn&eacute;es dans
vSphere Web Client &raquo;, page 91.
V&eacute;rifier l'installation du gestionnaire d'applications the Ambari
Si vous utilisez Apache Ambari pour g&eacute;rer votre cluster Hadoop, vous pouvez v&eacute;rifier que le service
Ambari est en cours d'ex&eacute;cution, dispose d'une connexion r&eacute;seau et d'informations d'identification
utilisateur valides lui permettant de se connecter &agrave; votre cluster.
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
n
Ajoutez le gestionnaire d'applications Ambari &agrave; votre environnement Big Data Extensions. Reportezvous &agrave; &laquo; Ajouter un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 41.
Proc&eacute;dure
1
82
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
2
Ex&eacute;cutez la commande curl avec l'option -u pour indiquer le nom d'utilisateur et le mot de passe utilis&eacute;
par le service Ambari, et l'option -G pour indiquer l'URL du service de v&eacute;rification syst&egrave;me Ambari :
http://ambari_server_ip:8080/api/v1/check
curl -u nom d'utilisateur:mot de passe -G http://ambari_server_ip:8080/api/v1/check
n
Si le syst&egrave;me renvoie EN COURS D'EX&Eacute;CUTION, le serveur Ambari est en cours d'ex&eacute;cution. Si vous
recevez un message syst&egrave;me indiquant que votre service Ambari n'est pas en cours d'ex&eacute;cution,
recherchez le probl&egrave;me et v&eacute;rifiez que vous pouvez d&eacute;marrer Ambari correctement avant de
continuer.
n
Si le syst&egrave;me renvoie Informations d'identification erron&eacute;es, le nom d'utilisateur et le mot de
passe sont incorrects. Procurez-vous le nom d'utilisateur et le mot de passe appropri&eacute;s pour votre
installation Ambari.
n
Si la commande curl ne r&eacute;pond pas pendant 30 secondes ou plus et que le syst&egrave;me renvoie le
message d'erreur curl: (7) Failed to connect to ambari_server_ip port port_number:
Connection refused, l'adresse IP, le FQDN ou le num&eacute;ro de port est incorrect. Procurez-vous
l'adresse r&eacute;seau appropri&eacute;e pour votre installation Ambari.
Ce message d'erreur peut &eacute;galement indiquer que le serveur virtuel Ambari est hors tension.
V&eacute;rifiez que la machine virtuelle Ambari est sous tension et que le serveur Ambari est en cours
d'ex&eacute;cution.
Suivant
Si votre installation Ambari ne r&eacute;pond pas, v&eacute;rifiez qu'elle est install&eacute;e et configur&eacute;e correctement.
Reportez-vous &agrave; &laquo; Modifier un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 42.
V&eacute;rifier l'installation de Cloudera Manager
Si vous utilisez Cloudera Manager pour g&eacute;rer votre cluster Hadoop, vous pouvez v&eacute;rifier que
Cloudera Manager est en cours d'ex&eacute;cution, dispose d'une connexion r&eacute;seau et d'informations
d'identification utilisateur valides lui permettant de se connecter &agrave; votre cluster.
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
n
Ajoutez l'application Cloudera Manager &agrave; votre environnement Big Data Extensions. Reportez-vous &agrave;
&laquo; Ajouter un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 41.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande curl avec l'option -u pour indiquer le nom d'utilisateur et le mot de passe
utilis&eacute;s par Cloudera Manager, et l'option -G pour indiquer l'URL du num&eacute;ro de version de l'API
Cloudera Manager : http://cloudera_manager_server_ip:7180/api/version
curl -u nom d'utilisateur:mot de passe -G http://cloudera_manager_server_ip:7180/api/version
Notez le num&eacute;ro de version de l'API renvoy&eacute; par Cloudera Manager.
VMware, Inc.
83
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Ex&eacute;cutez la commande curl avec l'option -u pour indiquer le nom d'utilisateur et le mot de passe
utilis&eacute;s par Cloudera Manager, et l'option -G pour indiquer l'URL de la requ&ecirc;te
Cloudera Manager /tools/echo : http://cloudera_manager_server_ip:
7180/api/cloudera_manager_api_version/tools/echo
curl -u nom d'utilisateur:mot de passe -G http://cloudera_manager_server_ip:
7180/api/cloudera_manager_api_version/tools/echo
Cet exemple indique une installation Cloudera Manager dont l'adresse r&eacute;seau est 192.168.1.1 &agrave; l'aide
du nom d'utilisateur et du mot de passe cloudera, avec la version v5 de l'API.
curl -u cloudera:cloudera -G http://192.168.1.1:7180/api/v5/tools/echo
n
Si le syst&egrave;me renvoie Hello world!, Cloudera Manager est en cours d'ex&eacute;cution. Si vous recevez un
message syst&egrave;me indiquant que votre Cloudera Manager n'est pas en cours d'ex&eacute;cution, recherchez
le probl&egrave;me et v&eacute;rifiez que vous pouvez d&eacute;marrer Cloudera Manager correctement avant de
continuer.
n
Si le syst&egrave;me renvoie Error 401 Bad credentials, le nom d'utilisateur et le mot de passe sont
incorrects. Procurez-vous le nom d'utilisateur et le mot de passe appropri&eacute;s pour votre installation
Cloudera Manager.
n
Si le syst&egrave;me renvoie le message d'erreur curl: (7) Failed to connect to
cloudera_manager_server_ip port 7180: No route to host, l'adresse IP ou le FQDN est incorrect.
Procurez-vous l'adresse r&eacute;seau appropri&eacute;e pour votre installation Cloudera Manager.
Ce message d'erreur peut &eacute;galement indiquer que la machine virtuelle Cloudera Manager est hors
tension. V&eacute;rifiez que la machine virtuelle Cloudera Manager est sous tension et que
Cloudera Manager est en cours d'ex&eacute;cution.
Suivant
Si votre installation Cloudera Manager ne r&eacute;pond pas, v&eacute;rifiez qu'elle est install&eacute;e et configur&eacute;e
correctement. Reportez-vous &agrave; &laquo; Modifier un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;,
page 42.
V&eacute;rifier la recherche DNS normale et inverse
Big Data Extensions n&eacute;cessite un environnement r&eacute;seau correctement configur&eacute;. Vous pouvez v&eacute;rifier que
votre recherche DNS normale et inverse est bien configur&eacute;e.
La recherche DNS inverse d&eacute;termine le nom d'h&ocirc;te associ&eacute; &agrave; une adresse IP donn&eacute;e. La recherche DNS
normale d&eacute;termine l'adresse IP associ&eacute;e &agrave; un nom d'h&ocirc;te donn&eacute;.
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande echo pour r&eacute;cup&eacute;rer les adresses IP utilis&eacute;es par le cluster.
echo ipv4_address_from_network_interface | psql
Notez les adresses IP de chaque carte d'interface r&eacute;seau utilis&eacute;e par le cluster.
84
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
3
Pour chaque adresse IP que vous avez not&eacute;e &agrave; l'&eacute;tape pr&eacute;c&eacute;dente, ex&eacute;cutez la commande host pour
v&eacute;rifier que la recherche DNS inverse renvoie le nom de domaine complet (FQDN). Si le syst&egrave;me
renvoie un FQDN pour chaque adresse IP, la recherche DNS inverse fonctionne.
host IP_address
Notez le FQDN pour chaque adresse r&eacute;seau que vous v&eacute;rifiez.
4
Pour chaque FQDN que vous avez not&eacute; &agrave; l'&eacute;tape pr&eacute;c&eacute;dente, ex&eacute;cutez la commande host pour v&eacute;rifier
que la recherche DNS normale renvoie l'adresse IP associ&eacute;e au FQDN. Si le syst&egrave;me renvoie une
adresse IP pour chaque FQDN, la recherche DNS normale fonctionne.
5
(Facultatif) Si vous n'&ecirc;tes pas en mesure de r&eacute;soudre les adresses IP et les FQDN, ouvrez le
fichier /etc/resolv.conf et v&eacute;rifiez qu'un serveur de noms DNS a &eacute;t&eacute; configur&eacute; pour &ecirc;tre utilis&eacute; dans
votre environnement.
n
Si aucun serveur de noms n'a &eacute;t&eacute; configur&eacute; pour &ecirc;tre utilis&eacute; dans votre environnement, demandez
&agrave; votre administrateur le nom du serveur DNS &agrave; utiliser.
n
Si un serveur de noms est configur&eacute;, mais que votre DNS ne fournit pas de recherche normale ou
inverse, recherchez la cause et configurez votre DNS selon les besoins. Les causes d'un
dysfonctionnement de votre DNS peuvent &ecirc;tre les suivantes :
n
Le serveur de nom n'est pas joignable en raison d'une adresse IP incorrecte.
n
Le service DNS sur cette machine virtuelle peut &ecirc;tre &eacute;teint ou ne pas r&eacute;pondre.
n
La machine virtuelle contenant le service DNS peut &ecirc;tre &eacute;teinte.
Suivant
Si votre DNS ne fonctionne pas comme pr&eacute;vu, recherchez la cause et apportez les modifications n&eacute;cessaires
&agrave; la configuration ou au fonctionnement jusqu'&agrave; ce que vous puissiez v&eacute;rifier que la recherche d'adresse
normale et inverse de votre DNS est correctement configur&eacute;e. Reportez-vous &agrave; &laquo; Modifier le type de DNS
dans vSphere Web Client &raquo;, page 95.
V&eacute;rifier la connexion r&eacute;seau entre Big Data Extensions et les nœuds de
clusters
Le Serengeti Management Server doit &ecirc;tre en mesure de se connecter &agrave; chacun des nœuds d'un cluster
Hadoop. Vous pouvez v&eacute;rifier que le Serengeti Management Server est capable de contacter chaque nœud
du cluster.
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
n
Ajoutez un r&eacute;seau &agrave; utiliser par Big Data Extensions. Reportez-vous &agrave; &laquo; Ajouter un r&eacute;seau dans vSphere
Web Client &raquo;, page 94.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande echo pour r&eacute;cup&eacute;rer les adresses IP utilis&eacute;es par le cluster.
echo &quot;select ipv4_address_from_network_interface&quot; | psql
Notez les adresses IP de chaque carte d'interface r&eacute;seau utilis&eacute;e par le cluster.
VMware, Inc.
85
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Ex&eacute;cutez la commande ping pour contacter chaque adresse IP et v&eacute;rifier que le
Serengeti Management Server est en mesure de contacter chacun des nœuds du cluster.
Suivant
Si vous ne parvenez pas &agrave; &eacute;tablir une connexion entre le Serengeti Management Server et les nœuds du
cluster Hadoop, recherchez la cause et apportez les modifications n&eacute;cessaires jusqu'&agrave; ce que vous puissiez
v&eacute;rifier que votre r&eacute;seau est configur&eacute; correctement.
V&eacute;rifier le r&eacute;f&eacute;rentiel Yum local
Si vous avez cr&eacute;&eacute; un r&eacute;f&eacute;rentiel Yum local &agrave; partir duquel vous souhaitez d&eacute;ployer vos distributions
Hadoop, vous pouvez v&eacute;rifier que le r&eacute;f&eacute;rentiel fonctionne correctement.
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23
n
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine
virtuelle Serengeti Management Server est en cours d'ex&eacute;cution.
n
Vous avez cr&eacute;&eacute; un r&eacute;f&eacute;rentiel Yum local &agrave; partir duquel vous souhaitez d&eacute;ployer vos distributions
Hadoop. Reportez-vous &agrave; &laquo; Configuration de Yum et de r&eacute;f&eacute;rentiels Yum &raquo;, page 48.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez la commande wget local_repository_url pour t&eacute;l&eacute;charger la page Web du r&eacute;f&eacute;rentiel local.
3
Vous pouvez ouvrir et afficher la page Web du r&eacute;f&eacute;rentiel local &agrave; l'aide d'un navigateur Web dans votre
r&eacute;seau pour v&eacute;rifier son fonctionnement.
Suivant
Vous pouvez cr&eacute;er des clusters Hadoop dans votre environnement Big Data Extensions. Reportez-vous &agrave;
Chapitre 9, &laquo; Cr&eacute;ation de clusters Hadoop et HBase &raquo;, page 99
Passer en mode maintenance pour effectuer la sauvegarde et la
restauration &agrave; l'aide du client d'interface de ligne de commande
Serengeti
Avant d'effectuer les op&eacute;rations de sauvegarde et de restauration, ou d'autres t&acirc;ches de maintenance, vous
devez placer Big Data Extensions en mode maintenance.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
86
Connectez-vous &agrave; Serengeti Management Server.
VMware, Inc.
Chapitre 7 G&eacute;rer l'environnement Big Data Extensions
2
Ex&eacute;cutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode maintenance ou v&eacute;rifier l'&eacute;tat de maintenance.
serengeti-maintenance.sh on | off | status
Option
Description
activ&eacute;
Active le mode maintenance. Lorsque vous entrez en mode maintenance,
Big Data Extensions continue &agrave; ex&eacute;cuter les t&acirc;ches d&eacute;j&agrave; commenc&eacute;es, mais
ne r&eacute;pond pas aux nouvelles requ&ecirc;tes.
d&eacute;sactiv&eacute;
D&eacute;sactive le mode maintenance et remet Big Data Extensions dans son &eacute;tat
de fonctionnement normal.
Statut
Affiche l'&eacute;tat de maintenance de Big Data Extensions.
n
L'&eacute;tat s&eacute;curis&eacute; indique que les op&eacute;rations de sauvegarde et les autres
t&acirc;ches de maintenance peuvent &ecirc;tre effectu&eacute;es en toute s&eacute;curit&eacute; dans
votre d&eacute;ploiement Big Data Extensions.
n
L'&eacute;tat d&eacute;sactiv&eacute; indique que le mode maintenance a &eacute;t&eacute; d&eacute;sactiv&eacute; et
que les t&acirc;ches de maintenance telles que la sauvegarde et la
restauration ne peuvent pas &ecirc;tre effectu&eacute;es en toute s&eacute;curit&eacute;.
n
L'&eacute;tat activ&eacute; signifie que Big Data Extensions est entr&eacute; en mode
maintenance, mais que les op&eacute;rations de sauvegarde et de restauration
ne peuvent pas encore &ecirc;tre effectu&eacute;es en toute s&eacute;curit&eacute;. Vous devez
attendre que le syst&egrave;me renvoie le message d'&eacute;tat s&eacute;curis&eacute;.
Pour placer votre d&eacute;ploiement Big Data Extensions en mode maintenance, ex&eacute;cutez le script serengetimaintenance.sh avec l'option on.
serengeti-maintenance.sh on
3
V&eacute;rifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a termin&eacute; toutes les t&acirc;ches qui ont &eacute;t&eacute; envoy&eacute;es, l'&eacute;tat de maintenance
entre en mode s&eacute;curis&eacute;. Ex&eacute;cutez le script serengeti-maintenance.sh avec le param&egrave;tre status de
mani&egrave;re r&eacute;p&eacute;t&eacute;e jusqu'&agrave; obtenir le message d'&eacute;tat du syst&egrave;me s&eacute;curis&eacute;.
serengeti-maintenance.sh status
safe
4
Effectuez les t&acirc;ches de maintenance syst&egrave;me souhait&eacute;es.
5
Une fois que vous avez termin&eacute;, faites repasser Big Data Extensions &agrave; son &eacute;tat de fonctionnement
normal en quittant manuellement le mode maintenance.
serengeti-maintenance.sh off
Sauvegarder et restaurer l'environnement Big Data Extensions
Vous pouvez r&eacute;cup&eacute;rer Big Data Extensions depuis un &eacute;tat de fonctionnement anormal en effectuant une
op&eacute;ration de sauvegarde et de restauration.
Vous pouvez effectuer une op&eacute;ration de sauvegarde et de restauration sur la m&ecirc;me instance
Big Data Extensions, ou sur deux serveurs Big Data Extensions diff&eacute;rents d&eacute;ploy&eacute;s dans le m&ecirc;me
environnement vCenter Server.
Pr&eacute;requis
Avant d'effectuer une op&eacute;ration de sauvegarde et de restauration, placez Big Data Extensions en mode de
maintenance. Reportez-vous &agrave; &laquo; Passer en mode maintenance pour effectuer la sauvegarde et la restauration
&agrave; l'aide du client d'interface de ligne de commande Serengeti &raquo;, page 86.
VMware, Inc.
87
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Sauvegardez vos donn&eacute;es dans un fichier du serveur Big Data Extensions source en utilisant le
script /opt/serengeti/sbin/backup.sh.
/opt/serengeti/sbin/backup.sh nom de fichier
2
Copiez le fichier bde-backup-xxxx.tar.gz sur le serveur Big Data Extensions cible.
3
Sur le serveur Big Data Extensions cible, ex&eacute;cutez le fichier /opt/serengeti/sbin/restore.sh bdebackup-xxxx.tar.gz pour restaurer les donn&eacute;es du premier serveur Big Data Extensions.
Une fois le processus de restauration termin&eacute;, le serveur Big Data Extensions cible est pr&ecirc;t &agrave; l'utilisation.
88
VMware, Inc.
Gestion de ressources vSphere pour
les clusters
8
Big Data Extensions vous permet de g&eacute;rer les pools de ressources, banques de donn&eacute;es et r&eacute;seaux que vous
utilisez dans les clusters que vous cr&eacute;ez.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti &raquo;, page 89
n
&laquo; Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti &raquo;, page 90
n
&laquo; Mettre &agrave; jour les pools de ressources &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 90
n
&laquo; Ajouter une banque de donn&eacute;es dans vSphere Web Client &raquo;, page 91
n
&laquo; Supprimer une banque de donn&eacute;es de vSphere Web Client &raquo;, page 92
n
&laquo; Mettre &agrave; jour les banques de donn&eacute;es &agrave; l'aide de l'interface de ligne de commande Serengeti &raquo;,
page 93
n
&laquo; Ajouter un contr&ocirc;leur SCSI Paravirtual pour les disques syst&egrave;me et de permutation &raquo;, page 94
n
&laquo; Ajouter un r&eacute;seau dans vSphere Web Client &raquo;, page 94
n
&laquo; Modifier le type de DNS dans vSphere Web Client &raquo;, page 95
n
&laquo; Reconfigurer un r&eacute;seau IP statique dans vSphere Web Client &raquo;, page 96
n
&laquo; Supprimer un r&eacute;seau de vSphere Web Client &raquo;, page 96
Ajouter un pool de ressources avec l'interface de ligne de commande
Serengeti
Vous pouvez ajouter des pools de ressources pour qu'ils puissent &ecirc;tre utilis&eacute;s par les clusters Hadoop. Les
pools de ressources doivent &ecirc;tre situ&eacute;s au niveau sup&eacute;rieur du cluster. Les pools de ressources imbriqu&eacute;s ne
sont pas pris en charge.
Lorsque vous ajoutez un pool de ressources &agrave; Big Data Extensions, il repr&eacute;sente symboliquement le pool de
ressources vSphere r&eacute;el tel qu'il est identifi&eacute; par vCenter Server. Cette repr&eacute;sentation symbolique vous
permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'acc&egrave;s complet du
pool de ressources dans vCenter Server, dans les fichiers de sp&eacute;cification de cluster.
REMARQUE Apr&egrave;s avoir ajout&eacute; un pool de ressources &agrave; Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas ex&eacute;cuter d'op&eacute;rations Serengeti sur les
clusters qui utilisent ce pool de ressources.
VMware, Inc.
89
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Acc&eacute;dez au client d'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande resourcepool add.
Le param&egrave;tre --vcrp est facultatif.
Cet exemple ajoute un pool de ressources Serengeti nomm&eacute; myRP au pool de ressources vSphere rp1
contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP --vccluster cluster1 --vcrp rp1
Supprimer un pool de ressources avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilis&eacute;s par un cluster Hadoop.
Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les
clusters Hadoop que vous cr&eacute;ez dans le serveur de gestion Serengeti soient d&eacute;ploy&eacute;s sous un autre pool de
ressources. La suppression d'un pool de ressources supprime sa r&eacute;f&eacute;rence dans vSphere. Le pool de
ressources n'est pas r&eacute;ellement supprim&eacute;.
Proc&eacute;dure
1
Acc&eacute;dez au client d'interface de ligne de commande Serengeti.
2
Ex&eacute;cutez la commande resourcepool delete.
Si la commande &eacute;choue parce que le pool de ressources est r&eacute;f&eacute;renc&eacute; par un cluster Hadoop, vous
pouvez utiliser la commande resourcepool list pour voir quel cluster r&eacute;f&eacute;rence ce pool de ressources.
Cet exemple supprime le pool de ressources nomm&eacute; myRP.
resourcepool delete --name myRP
Mettre &agrave; jour les pools de ressources &agrave; l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez mettre &agrave; jour un cluster existant pour utiliser de nouveaux pools de ressources. Pour ce faire,
lorsque vous &eacute;tendez votre environnement, ajoutez un nouveau cluster ESX avec les nouveaux pools de
ressources.
La commande cluster update vous permet d'ajouter de nouveaux pools de ressources &agrave; un cluster existant,
ainsi que de mettre &agrave; jour les pools de ressources d&eacute;j&agrave; utilis&eacute;s.
Vous pouvez &eacute;galement ajouter de nouveaux pools de ressources &agrave; ceux existants &agrave; l'aide du param&egrave;tre -append. Cela vous permet d'ajouter de nouveaux pools de ressources sans mettre &agrave; jour ceux d&eacute;j&agrave; utilis&eacute;s par
le cluster. Si votre environnement contient de nombreux pools de ressources, le param&egrave;tre --append vous
permet d'ajouter de nouveaux pools de ressource sans avoir &agrave; lister explicitement chacun des pools de
ressources d&eacute;j&agrave; utilis&eacute;s.
Pr&eacute;requis
n
Vous devez disposer d'un cluster Big Data que vous souhaitez mettre &agrave; jour avec des pools de
ressources nouveaux ou diff&eacute;rents.
n
Ex&eacute;cutez la commande cluster export pour v&eacute;rifier et noter quels pools de ressources sont
actuellement utilis&eacute;s par le cluster que vous souhaitez mettre &agrave; jour avec des pools de ressources
nouveaux ou diff&eacute;rents.
Proc&eacute;dure
1
90
Connectez-vous &agrave; Serengeti CLI.
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
2
Ajoutez un nouveau pool de ressources &agrave; partir d'un cluster ESX &agrave; l'aide de la commande resourcepool
add.
Dans cet exemple, un pool de ressources &eacute;tiquet&eacute; myRP2 est ajout&eacute; &agrave; partir du pool de ressources
vSphere rp1 contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP2 --vccluster cluster1 --vcrp rp1
3
Ex&eacute;cutez la commande cluster export pour v&eacute;rifier et noter quels pools de ressources sont
actuellement utilis&eacute;s par le cluster.
cluster export --name cluster_name
4
Mettez &agrave; jour les pools de ressources du cluster &agrave; l'aide de la commande cluster update.
cluster update --name cluster1 –-rpNames myRP,myRP2
Le nouveau pool de ressources, myRP2, est &agrave; pr&eacute;sent disponible pour une utilisation par le cluster
&eacute;tiquet&eacute; cluster1.
5
Vous pouvez si vous le souhaitez ajouter le nouveau pool de ressources myRP2 &agrave; vos pools de ressources
existants &agrave; l'aide du param&egrave;tre --append. Cela vous permet d'ajouter de nouveaux pools de ressources
sans mettre &agrave; jour ceux d&eacute;j&agrave; utilis&eacute;s par le cluster.
cluster update --name cluster1 --rpNames myPR2 --append
Suivant
Vous pouvez si vous le souhaitez mettre &agrave; jour le cluster pour utiliser de nouvelles banques de donn&eacute;es.
Reportez-vous &agrave; &laquo; Mettre &agrave; jour les banques de donn&eacute;es &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 93.
Ajouter une banque de donn&eacute;es dans vSphere Web Client
Vous pouvez ajouter des banques de donn&eacute;es &agrave; Big Data Extensions pour les mettre &agrave; la disposition des
clusters Big Data. Big Data Extensions prend en charge les banques de donn&eacute;es partag&eacute;es et les banques de
donn&eacute;es locales.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Ressources.
4
D&eacute;veloppez les listes d'inventaire, puis s&eacute;lectionnez Banques de donn&eacute;es.
5
Cliquez sur l'ic&ocirc;ne Ajouter (+).
6
Dans la zone de texte Nom, tapez un nom servant &agrave; identifier la banque de donn&eacute;es dans Big Data
Extensions.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
VMware, Inc.
91
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
7
Dans la liste Type, s&eacute;lectionnez le type de banque de donn&eacute;es dans vSphere.
Type
Description
Partag&eacute;e
Recommand&eacute; pour les nœuds master. Vous permet d'exploiter vMotion, la
haute disponibilit&eacute; et la tol&eacute;rance aux pannes.
REMARQUE Si vous ne sp&eacute;cifiez pas de stockage partag&eacute; et que vous
essayez de provisionner un cluster en utilisant vMotion, la haute
disponibilit&eacute; ou la tol&eacute;rance aux pannes, le provisionnement &eacute;choue.
Local
Recommand&eacute; pour les nœuds worker. Le d&eacute;bit est &eacute;volutif et le co&ucirc;t de
stockage moindre.
8
S&eacute;lectionnez une ou plusieurs banques de donn&eacute;es vSphere &agrave; mettre &agrave; la disposition de la banque de
donn&eacute;es Big Data Extensions que vous ajoutez.
9
Cliquez sur OK pour enregistrer vos modifications.
Les banques de donn&eacute;es vSphere peuvent &ecirc;tre utilis&eacute;es par les clusters Big Data d&eacute;ploy&eacute;s au sein de
Big Data Extensions.
Supprimer une banque de donn&eacute;es de vSphere Web Client
Vous supprimez une banque de donn&eacute;es de Big Data Extensions quand vous ne voulez plus que les clusters
Hadoop que vous cr&eacute;ez l'utilise.
Pr&eacute;requis
Supprimez tous les clusters Hadoop associ&eacute;s &agrave; la banque de donn&eacute;es. Reportez-vous &agrave; &laquo; Supprimer un
cluster dans vSphere Web Client &raquo;, page 114.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Ressources.
4
D&eacute;veloppez Ressources, s&eacute;lectionnez Listes d'inventaire, puis Banques de donn&eacute;es.
5
S&eacute;lectionnez la banque de donn&eacute;es &agrave; supprimer, cliquez avec le bouton droit, puis s&eacute;lectionnez
Supprimer.
6
Cliquez sur Oui pour confirmer.
Si vous n'avez pas supprim&eacute; le cluster qui utilise la banque de donn&eacute;es, vous recevez un message
d'erreur indiquant que la banque de donn&eacute;es ne peut pas &ecirc;tre supprim&eacute;e, car elle est actuellement
utilis&eacute;e.
La banque de donn&eacute;es est supprim&eacute;e de Big Data Extensions.
92
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
Mettre &agrave; jour les banques de donn&eacute;es &agrave; l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez mettre &agrave; jour un cluster existant pour utiliser de nouvelles banques de donn&eacute;es. Pour ce faire,
lorsque vous &eacute;tendez votre environnement, ajoutez un nouvel h&ocirc;te ESXi avec les nouvelles banques de
donn&eacute;es.
Lorsque vous ajoutez des banques de donn&eacute;es &agrave; un cluster existant, si les noms des nouvelles banques de
donn&eacute;es correspondent &agrave; ceux des banques de donn&eacute;es d&eacute;j&agrave; utilis&eacute;es par le cluster, elles seront
automatiquement disponibles pour une utilisation par le cluster. En revanche, si les noms des banques de
donn&eacute;es existantes ne correspondent pas &agrave; ceux des banques de donn&eacute;es des nouveaux h&ocirc;tes ESXi, vous
devez utiliser les commandes datastore add et cluster update pour mettre &agrave; jour les banques de donn&eacute;es
disponibles pour le cluster, en sp&eacute;cifiant les noms des banques de donn&eacute;es existantes et nouvelles.
Pr&eacute;requis
Vous devez disposer d'un cluster Big Data que vous souhaitez mettre &agrave; jour avec une banque de donn&eacute;es
nouvelle ou diff&eacute;rente. Par exemple si vous avez ajout&eacute; un nouvel h&ocirc;te ESXi &agrave; votre environnement et que
vous souhaitez &eacute;tendre les ressources disponibles &agrave; votre environnement Big Data Extensions.
Proc&eacute;dure
1
Connectez-vous &agrave; Serengeti CLI.
2
Ajoutez une nouvelle banque de donn&eacute;es &agrave; partir d'un h&ocirc;te ESXi &agrave; l'aide de la commande datastore
add ou de vSphere Web Client.
Dans cet exemple, Serengeti CLI est utilis&eacute;e pour ajouter une nouvelle banque de donn&eacute;es de stockage
local nomm&eacute;e newDS. La valeur du param&egrave;tre --spec, local*, est un caract&egrave;re g&eacute;n&eacute;rique sp&eacute;cifiant un
ensemble de banques de donn&eacute;es vSphere. Toutes les banques de donn&eacute;es vSphere dont le nom
commence par &laquo; local &raquo; sont ajout&eacute;es et g&eacute;r&eacute;es comme un tout par Big Data Extensions.
datastore add --name newDS --spec local* --type LOCAL
3
Mettez &agrave; jour la liste des banques de donn&eacute;es disponibles pour &ecirc;tre utilis&eacute;es par le cluster &agrave; l'aide de la
commande cluster update. Lorsque vous ajoutez des banques de donn&eacute;es &agrave; un cluster existant, vous
devez &eacute;galement sp&eacute;cifier les banques de donn&eacute;es actuellement utilis&eacute;es par le cluster. Dans cette
exemple, les &eacute;tiquettes currentDS et newDS sont utilis&eacute;es pour diff&eacute;rencier les banques de donn&eacute;es en
cours d'ajout au cluster (newDS) et celles d&eacute;j&agrave; utilis&eacute;es par le cluster (currentDS).
Si vous n'indiquez pas les noms des banques de donn&eacute;es d&eacute;j&agrave; utilis&eacute;es par le cluster avec le param&egrave;tre
--dsNames, un message d'avertissement vous pr&eacute;vient que le cluster utilise toutes les banques de
donn&eacute;es disponibles, et que les banques de donn&eacute;es en cours de mise &agrave; jour appartiennent &agrave; un sousensemble de ces banques de donn&eacute;es. Dans ce cas, il se peut que certaines donn&eacute;es ne soient pas
disponibles apr&egrave;s la mise &agrave; jour, ce qui peut provoquer des erreurs. Serengeti CLI vous invitera &agrave;
confirmer que vous souhaitez poursuivre la mise &agrave; jour en tapant O (oui) ou &agrave; abandonner la mise &agrave; jour
en tapant N (non).
cluster update --name cluster1 –-dsNames currentDS,newDS
L'ancienne et la nouvelle banque de donn&eacute;es sont &agrave; pr&eacute;sent toutes deux disponibles pour une utilisation
par le cluster &eacute;tiquet&eacute; cluster1.
4
Si vous souhaitez ajouter de nouvelles banques de donn&eacute;es en plus de celles d&eacute;j&agrave; utilis&eacute;es par le cluster,
utilisez le param&egrave;tre --append. La commande --append vous permet d'omettre de lister les banques de
donn&eacute;es d&eacute;j&agrave; utilis&eacute;es par le cluster avec le param&egrave;tre --dsNames.
cluster update --name cluster1 –-dsNames newDS --append
La nouvelle banque de donn&eacute;es est &agrave; pr&eacute;sent disponible pour une utilisation par le cluster &eacute;tiquet&eacute;
cluster1. Aucune des banques de donn&eacute;es d&eacute;j&agrave; utilis&eacute;es par le cluster auparavant n'est affect&eacute;e.
VMware, Inc.
93
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Suivant
Vous pouvez si vous le souhaitez mettre &agrave; jour le cluster pour utiliser de nouveaux pools de ressources.
Reportez-vous &agrave; &laquo; Mettre &agrave; jour les pools de ressources &agrave; l'aide de l'interface de ligne de commande
Serengeti &raquo;, page 90.
Ajouter un contr&ocirc;leur SCSI Paravirtual pour les disques syst&egrave;me et de
permutation
Vous pouvez ajouter un contr&ocirc;leur de stockage haute performance VMware Paravirtual SCSI (PVSCSI) pour
optimiser le d&eacute;bit et minimiser l'utilisation du CPU.
Les contr&ocirc;leurs PVSCSI sont mieux adapt&eacute;s aux environnements d'ex&eacute;cution d'op&eacute;rations intensives en E/S
tels que les disques syst&egrave;me et de permutation. Le contr&ocirc;leur PVSCSI optimise le d&eacute;bit et minimise
l'utilisation du CPU.
REMARQUE Par d&eacute;faut, le type de contr&ocirc;leur des disques de donn&eacute;es est d&eacute;fini sur PVSCSI. Vous pouvez
faire en sorte que le disque de donn&eacute;es utilise le contr&ocirc;leur LSI Logic SAS en modifiant le param&egrave;tre
storage.data.disk.controller.type comme d&eacute;crit dans cette proc&eacute;dure.
Pr&eacute;requis
Avant d'ajouter le contr&ocirc;leur PVSCSI, arr&ecirc;tez la machine virtuelle du mod&egrave;le Hadoop.
Proc&eacute;dure
1
&Agrave; partir de vSphere Web Client, arr&ecirc;tez la machine virtuelle du mod&egrave;le Hadoop.
2
Connectez-vous &agrave; Serengeti Management Server en tant qu'utilisateur serengeti.
3
Ouvrez le fichier /opt/serengeti/conf/serengeti.properties dans un &eacute;diteur de texte.
4
D&eacute;finissez la valeur de configuration du param&egrave;tre storage.system_swap.disk.controller.type= sur
ParaVirtualSCSIController.
storage.system_swap.disk.controller.type=ParaVirtualSCSIController
5
Dans l'arborescence des machines virtuelles et mod&egrave;les, s&eacute;lectionnez la machine virtuelle du mod&egrave;le de
nœud dont vous souhaitez modifier le param&egrave;tre de contr&ocirc;leur de disque.
6
Dans le panneau Mat&eacute;riel de la machine virtuelle, cliquez sur Modifier les param&egrave;tres.
7
Cliquez sur Mat&eacute;riel virtuel.
8
Cliquez sur le triangle &agrave; c&ocirc;t&eacute; du p&eacute;riph&eacute;rique SCSI pour d&eacute;velopper les options de p&eacute;riph&eacute;rique.
9
Dans le menu d&eacute;roulant Modifier le type, s&eacute;lectionnez Paravirtuel VMware.
10
Cliquez sur OK pour enregistrer les modifications et quitter la bo&icirc;te de dialogue.
11
Supprimez tous les instantan&eacute;s de la machine virtuelle du mod&egrave;le de nœud.
Ajouter un r&eacute;seau dans vSphere Web Client
Ajoutez des r&eacute;seaux &agrave; Big Data Extensions pour que les adresses IP qu'ils contiennent soient disponibles
pour les clusters Big Data.
Proc&eacute;dure
94
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Ressources.
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
4
D&eacute;veloppez Ressources, cliquez sur Listes d'inventaire &gt; Listes d'inventaire et s&eacute;lectionnez R&eacute;seaux.
5
Cliquez sur l'ic&ocirc;ne Ajouter (+).
6
Dans la zone de texte Nom, tapez un nom servant &agrave; identifier la ressource r&eacute;seau dans Big Data
Extensions.
7
Dans la liste Nom du groupe de ports, s&eacute;lectionnez le groupe de ports vSphere &agrave; ajouter &agrave; Big Data
Extensions.
8
S&eacute;lectionnez un type de DNS.
Option
Description
Normale
Le serveur DNS fournit la r&eacute;solution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il
s'agit de l'inverse du DNS normal qui mappe les noms de domaine aux
adresses IP. Par d&eacute;faut, le type de DNS est normal.
Dynamique
Dynamic DNS (DDNS ou DynDNS) est une m&eacute;thode qui permet la mise &agrave;
jour automatique d'un nom de serveur du syst&egrave;me DNS (Domain Name
System) avec la configuration DNS active de ses noms d'h&ocirc;te configur&eacute;s,
adresses ou autres informations. Big Data Extensions s'int&egrave;gre &agrave; un serveur
Dynamic DNS de son r&eacute;seau, au travers duquel il fournit des noms d'h&ocirc;te
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement aupr&egrave;s du serveur DNS.
Autres
Il n'y a pas de serveur DNS dans le VLAN ou le serveur DNS n'offre pas
de r&eacute;solution DNS normale ou de services Dynamic DNS. Dans ce cas,
vous devez ajouter un mappage FQDN/IP pour tous les nœuds du
fichier /etc/hosts de chaque nœud du cluster. Gr&acirc;ce &agrave; ce mappage de
noms d'h&ocirc;te vers des adresses IP, chaque nœud peut contacter un autre
nœud du cluster.
9
Choisissez le type d'adressage &agrave; utiliser pour le r&eacute;seau : Utiliser DHCP pour obtenir les adresses IP ou
Utiliser des adresses IP statiques.
10
(Facultatif) Si vous avez choisi Utiliser des adresses IP statiques dans &Eacute;tape 9, entrez une ou plusieurs
plages d'adresses IP.
11
Cliquez sur OK pour enregistrer vos modifications.
Les adresses IP du r&eacute;seau sont disponibles pour les clusters Big Data que vous cr&eacute;ez au sein de Big Data
Extensions.
Modifier le type de DNS dans vSphere Web Client
DHCP s&eacute;lectionne l'adresse IP du pool IP de mani&egrave;re al&eacute;atoire. Le FQN et l'adresse IP des nœuds d'un
cluster sont al&eacute;atoires. L'utilisateur ou l'application Hadoop ne peut pas localiser les nœuds master &agrave; moins
qu'ils n'envoient une requ&ecirc;te &agrave; Big Data Extensions. M&ecirc;me si l'utilisateur conna&icirc;t l'adresse d'origine, elle
peut changer lors du red&eacute;marrage du cluster. De ce fait, il est difficile pour l'utilisateur ou l'application
Hadoop d'acc&eacute;der au cluster.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Ressources.
4
D&eacute;veloppez l'option Ressources, s&eacute;lectionnez Listes d'inventaire &gt; R&eacute;seaux.
5
S&eacute;lectionnez un seul r&eacute;seau &agrave; modifier, cliquez avec le bouton droit et s&eacute;lectionnez Modifier le type de
DNS.
VMware, Inc.
95
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
6
7
S&eacute;lectionnez un type de DNS.
Option
Description
Normale
Le serveur DNS fournit la r&eacute;solution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il
s'agit de l'inverse du DNS normal qui mappe les noms de domaine aux
adresses IP. Par d&eacute;faut, le type de DNS est normal.
Dynamique
Dynamic DNS (DDNS ou DynDNS) est une m&eacute;thode qui permet la mise &agrave;
jour automatique d'un nom de serveur du syst&egrave;me DNS (Domain Name
System) avec la configuration DNS active de ses noms d'h&ocirc;te configur&eacute;s,
adresses ou autres informations. Big Data Extensions s'int&egrave;gre &agrave; un serveur
Dynamic DNS de son r&eacute;seau, au travers duquel il fournit des noms d'h&ocirc;te
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement aupr&egrave;s du serveur DNS.
Autres
Il n'y a pas de serveur DNS dans le VLAN ou le serveur DNS n'offre pas
de r&eacute;solution DNS normale ou de services Dynamic DNS. Dans ce cas,
vous devez ajouter un mappage FQDN/IP pour tous les nœuds du
fichier /etc/hosts de chaque nœud du cluster. Gr&acirc;ce &agrave; ce mappage de
noms d'h&ocirc;te vers des adresses IP, chaque nœud peut contacter un autre
nœud du cluster.
Cliquez sur OK pour enregistrer vos modifications.
Reconfigurer un r&eacute;seau IP statique dans vSphere Web Client
Vous pouvez reconfigurer un r&eacute;seau IP statique Big Data Extensions en lui ajoutant des segments d'adresse
IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de
capacit&eacute; pour le cluster que vous voulez cr&eacute;er.
Pr&eacute;requis
Si votre r&eacute;seau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occup&eacute;es avant
d'ajouter le r&eacute;seau.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Ressources.
4
D&eacute;veloppez l'option Ressources, s&eacute;lectionnez Listes d'inventaire &gt; R&eacute;seaux.
5
S&eacute;lectionnez le r&eacute;seau IP statique pour le reconfigurer, cliquez sur le bouton droit de la souris et
s&eacute;lectionnez Ajouter une plage d'adresses IP.
6
Cliquez sur Ajouter une plage d'adresses IP, puis saisissez les informations de l'adresse IP.
7
Cliquez sur OK pour enregistrer vos modifications.
Les segments d'adresse IP sont ajout&eacute;s au r&eacute;seau.
Supprimer un r&eacute;seau de vSphere Web Client
Vous pouvez supprimer un r&eacute;seau existant de Big Data Extensions si vous n'en avez plus besoin. La
suppression d'un r&eacute;seau non utilis&eacute; lib&egrave;re les adresses IP pour qu'elles soient utilis&eacute;es par d'autres services.
Pr&eacute;requis
Supprimez les clusters attribu&eacute;s au r&eacute;seau. Reportez-vous &agrave; &laquo; Supprimer un cluster dans vSphere Web
Client &raquo;, page 114.
96
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Ressources.
4
D&eacute;veloppez l'option Ressources, s&eacute;lectionnez Listes d'inventaire &gt; R&eacute;seaux.
5
S&eacute;lectionnez le r&eacute;seau &agrave; supprimer, cliquez sur le bouton droit de la souris, puis cliquez sur Supprimer.
6
Cliquez sur Oui pour confirmer.
Si vous n'avez pas supprim&eacute; le cluster qui utilise le r&eacute;seau, vous recevez un message d'erreur indiquant
que le r&eacute;seau ne peut pas &ecirc;tre supprim&eacute;, car il est actuellement utilis&eacute;.
Le r&eacute;seau est supprim&eacute; et les adresses IP peuvent &ecirc;tre utilis&eacute;es.
VMware, Inc.
97
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
98
VMware, Inc.
Cr&eacute;ation de clusters Hadoop et
HBase
9
Dans Big Data Extensions, vous pouvez cr&eacute;er et d&eacute;ployer des clusters Hadoop et HBase. Un cluster Big Data
est un type de cluster de calcul con&ccedil;u pour stocker et analyser de grandes quantit&eacute;s de donn&eacute;es non
structur&eacute;es dans un environnement informatique distribu&eacute;.
Restrictions.
n
Lorsque vous cr&eacute;ez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par
d&eacute;faut, car les autres ne prennent pas en charge ce type de cluster.
n
Vous ne pouvez pas renommer un cluster cr&eacute;&eacute; avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
La mise hors tension temporaire des h&ocirc;tes provoque l'&eacute;chec des clusters Big Data pendant la cr&eacute;ation
du cluster.
Lorsque vous cr&eacute;ez des clusters Big Data, Big Data Extensions calcule le placement des machines
virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des strat&eacute;gies de
placement d&eacute;finies par l'utilisateur avant la cr&eacute;ation des machines virtuelles. Lors de ces calculs, si
certains h&ocirc;tes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power
Management (VMware DPM), ces h&ocirc;tes ne sont pas consid&eacute;r&eacute;s comme des ressources disponibles par
Big Data Extensions.
Si un h&ocirc;te est mis hors tension ou en veille apr&egrave;s que Big Data Extensions a calcul&eacute; le placement des
machines virtuelles, mais avant leur cr&eacute;ation, la cr&eacute;ation du cluster &eacute;choue tant que vous ne remettez
pas ces h&ocirc;tes sous tension. Les solutions de contournement suivantes peuvent vous aider &agrave; &eacute;viter ce
probl&egrave;me et &agrave; y rem&eacute;dier.
n
D&eacute;sactivez VMware DPM sur les clusters vSphere o&ugrave; vous d&eacute;ployez et ex&eacute;cutez
Big Data Extensions.
n
Mettez les h&ocirc;tes en mode maintenance avant de les mettre hors tension.
n
Si la cr&eacute;ation d'un cluster Big Data &eacute;choue en raison de l'indisponibilit&eacute; temporaire des h&ocirc;tes qui
lui sont attribu&eacute;s, reprenez la cr&eacute;ation du cluster apr&egrave;s avoir mis les h&ocirc;tes sous tension.
Conditions
Les besoins en ressources sont diff&eacute;rents pour les clusters cr&eacute;&eacute;s avec l'interface de ligne de commande de
Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des mod&egrave;les
par d&eacute;faut diff&eacute;rents. Les clusters par d&eacute;faut cr&eacute;&eacute;s &agrave; l'aide de la Serengeti CLI sont cibl&eacute;s sur les utilisateurs
de Project Serengeti et les applications de validation technique. Ils sont plus petits que les mod&egrave;les de plugin de Big Data Extensions, qui sont cibl&eacute;s sur des d&eacute;ploiements de plus grande envergure &agrave; usage
commercial.
VMware, Inc.
99
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Certaines configurations de d&eacute;ploiement n&eacute;cessitent plus de ressources que d'autres. Par exemple, si vous
cr&eacute;ez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous
cr&eacute;ez un cluster MapR ou Greenplum HD par d&eacute;faut &agrave; l'aide de la Serengeti CLI, il est recommand&eacute; de
disposer d'au moins 550 Go de stockage et de 55 Go de m&eacute;moire. Pour les autres distributions Hadoop, il est
recommand&eacute; de disposer d'au moins 350 Go de stockage et de 35 Go de m&eacute;moire.
AVERTISSEMENT Lorsque vous cr&eacute;ez un cluster avec Big Data Extensions, Big Data Extensions d&eacute;sactive la
migration automatique des machines virtuelles sur le cluster. Cela emp&ecirc;che la migration automatique des
machines virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer accidentellement les nœuds du
cluster vers d'autres h&ocirc;tes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur
de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de
l'environnement Big Data Extensions peut vous emp&ecirc;cher d'effectuer certaines op&eacute;rations de Big Data
Extensions telles que la r&eacute;cup&eacute;ration de d&eacute;faillances de disque.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Ce chapitre aborde les rubriques suivantes :
100
n
&laquo; &Agrave; propos des types de d&eacute;ploiement de clusters Hadoop et HBase &raquo;, page 101
n
&laquo; Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2 (YARN) &raquo;, page 101
n
&laquo; &Agrave; propos de la topologie des clusters &raquo;, page 102
n
&laquo; &Agrave; propos de l'acc&egrave;s &agrave; la base de donn&eacute;es HBase &raquo;, page 103
n
&laquo; Cr&eacute;er un cluster Big Data dans vSphere Web Client &raquo;, page 103
n
&laquo; Cr&eacute;er un cluster uniquement HBase dans Big Data Extensions &raquo;, page 107
n
&laquo; Cr&eacute;er un cluster avec un gestionnaire d'applications &agrave; l'aide de vSphere Web Client &raquo;, page 109
n
&laquo; Cr&eacute;er un cluster de calcul uniquement avec un gestionnaire d'applications tiers en utilisant vSphere
Web Client &raquo;, page 110
n
&laquo; Cr&eacute;er un cluster de calcul du travailleur uniquement &agrave; l'aide de vSphere Web Client &raquo;, page 110
VMware, Inc.
Chapitre 9 Cr&eacute;ation de clusters Hadoop et HBase
&Agrave; propos des types de d&eacute;ploiement de clusters Hadoop et HBase
Avec Big Data Extensions, vous pouvez cr&eacute;er et utiliser plusieurs types de clusters Big Data.
Cluster Hadoop de base
D&eacute;ploiement Hadoop simple pour les projets de validation technique et
d'autres t&acirc;ches de traitement de donn&eacute;es &agrave; petite &eacute;chelle. Le cluster Hadoop
de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure
MapReduce traite les probl&egrave;mes en parall&egrave;le sur d'&eacute;normes jeux de donn&eacute;es
dans le HDFS.
Cluster HBase
Il s'ex&eacute;cute par-dessus HDFS et offre une solution de tol&eacute;rance aux pannes
pour stocker de grandes quantit&eacute;s de donn&eacute;es &eacute;parses.
Cluster de s&eacute;paration
de donn&eacute;es et de calcul
S&eacute;pare les nœuds de donn&eacute;es et de calcul ou les clusters qui contiennent des
nœuds de calcul uniquement. Dans ce type de cluster, le nœud de donn&eacute;es et
le nœud de calcul ne sont pas sur la m&ecirc;me machine virtuelle.
Cluster de calcul
uniquement
Vous pouvez cr&eacute;er un cluster qui contient uniquement des nœuds de calcul,
par exemple des nœuds JobTracker, TaskTracker, ResourceManager et
NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de
calcul uniquement sert &agrave; ex&eacute;cuter des t&acirc;ches MapReduce sur un cluster
HDFS externe.
Cluster de calcul de
travailleurs uniquement
Contient uniquement des nœuds worker, par exemple des nœuds
TaskTracker et NodeManager, mais pas des nœuds NameNode ni
DataNode. Un cluster de calcul de travailleurs uniquement sert &agrave; ajouter des
nœuds de calcul worker &agrave; un cluster Hadoop existant.
Cluster uniquement
HBase
Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais
pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase
uniquement peuvent utiliser le m&ecirc;me cluster HDFS externe.
Cluster personnalis&eacute;
Utilise un fichier de sp&eacute;cification de cluster pour cr&eacute;er des clusters &agrave; l'aide de
la m&ecirc;me configuration que celle des clusters pr&eacute;c&eacute;demment cr&eacute;&eacute;s. Vous
pouvez modifier le fichier de sp&eacute;cification de cluster pour personnaliser la
configuration du cluster.
Distributions Hadoop prenant en charge MapReduce v1 et
MapReduce v2 (YARN)
Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge &agrave; la fois
MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par d&eacute;faut sont diff&eacute;rentes.
La configuration de cluster Hadoop par d&eacute;faut pour CDH4 est un cluster MapReduce v1. La configuration
de cluster Hadoop par d&eacute;faut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions
prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux.
VMware, Inc.
101
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
&Agrave; propos de la topologie des clusters
Vous pouvez am&eacute;liorer l'&eacute;quilibrage de la charge de travail entre vos nœuds de cluster et accro&icirc;tre les
performances et le d&eacute;bit en sp&eacute;cifiant comment les machines virtuelles Hadoop sont plac&eacute;es, &agrave; l'aide de la
reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de donn&eacute;es et des nœuds de
calcul distincts, et am&eacute;liorer les performances et le d&eacute;bit en pla&ccedil;ant les nœuds sur le m&ecirc;me ensemble d'h&ocirc;tes
physiques.
Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse
la topologie de l'h&ocirc;te de votre environnement et les informations sur le r&eacute;seau. Les performances d'Hadoop
sont sup&eacute;rieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est
disponible, plut&ocirc;t que les transferts hors rack lorsqu'il attribue des t&acirc;ches MapReduce aux nœuds. HDFS
peut placer des r&eacute;plicas de mani&egrave;re plus intelligente pour am&eacute;liorer les performances et la r&eacute;silience. Par
exemple, si vous avez des nœuds de donn&eacute;es et des nœuds de calcul distincts, vous pouvez am&eacute;liorer les
performances et le d&eacute;bit en pla&ccedil;ant les nœuds sur le m&ecirc;me ensemble d'h&ocirc;tes physiques.
AVERTISSEMENT Lorsque vous cr&eacute;ez un cluster avec Big Data Extensions, Big Data Extensions d&eacute;sactive la
migration automatique des machines virtuelles du cluster. Cela emp&ecirc;che la migration des machines
virtuelles par vSphere, mais ne vous emp&ecirc;che pas de d&eacute;placer accidentellement les nœuds du cluster vers
d'autres h&ocirc;tes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la strat&eacute;gie de placement du cluster, notamment le nombre d'instances par
h&ocirc;te et les associations de groupe. M&ecirc;me si vous ne sp&eacute;cifiez aucune strat&eacute;gie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la strat&eacute;gie de placement
ROUNDROBIN par d&eacute;faut.
Vous pouvez sp&eacute;cifier les configurations suivantes de reconnaissance de la topologie.
Extensions de
virtualisation Hadoop
(HVE, Hadoop
Virtualization
Extensions)
Fiabilit&eacute; et performances des clusters am&eacute;lior&eacute;es gr&acirc;ce &agrave; un placement des
r&eacute;plicas, une planification des t&acirc;ches et des politiques d'&eacute;quilibrage Hadoop
plus pr&eacute;cis. Les clusters Hadoop impl&eacute;ment&eacute;s dans une infrastructure
virtualis&eacute;e sont dot&eacute;s d'une reconnaissance compl&egrave;te de la topologie sur
laquelle ils fonctionnent lorsqu'ils utilisent HVE.
Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et
vous devez cr&eacute;er et t&eacute;l&eacute;charger un fichier de mappage rack-h&ocirc;tes.
RACK_EN_RACK
Topologie standard pour les distributions Apache Hadoop. Seules les
informations sur le rack et l'h&ocirc;te sont expos&eacute;es &agrave; Hadoop. Pour utiliser
RACK_AS_RACK, cr&eacute;ez et t&eacute;l&eacute;chargez un fichier de topologie de serveur.
H&Ocirc;TE_EN_RACK
Topologie simplifi&eacute;e pour les distributions Apache Hadoop. Pour &eacute;viter de
placer tous les r&eacute;plicas de blocs de donn&eacute;es HDFS sur le m&ecirc;me h&ocirc;te
physique, chaque h&ocirc;te physique est trait&eacute; comme un rack. &Eacute;tant donn&eacute; que
les r&eacute;plicas des blocs de donn&eacute;es ne sont jamais plac&eacute;s sur un rack, cela &eacute;vite
le pire sc&eacute;nario o&ugrave; une d&eacute;faillance d'un seul h&ocirc;te provoque la perte totale
d'un bloc de donn&eacute;es.
Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne
disposez pas d'informations sur le rack vous permettant de d&eacute;cider des
options de configuration de la topologie.
Aucune
102
Aucune topologie n'est sp&eacute;cifi&eacute;e.
VMware, Inc.
Chapitre 9 Cr&eacute;ation de clusters Hadoop et HBase
&Agrave; propos de l'acc&egrave;s &agrave; la base de donn&eacute;es HBase
Serengeti prend en charge plusieurs m&eacute;thodes d'acc&egrave;s &agrave; la base de donn&eacute;es HBase.
n
Connectez-vous &agrave; la machine virtuelle du nœud client et ex&eacute;cutez les commandes hbase shell.
n
Connectez-vous &agrave; la machine virtuelle du nœud client et ex&eacute;cutez les t&acirc;ches HBase &agrave; l'aide de la
commande hbase.
hbase org.apache.hadoop.hbase.PerformanceEvaluation –-nomapred randomWrite 3
Le cluster HBase par d&eacute;faut d&eacute;ploy&eacute; par Serengeti ne contient pas de d&eacute;mons Hadoop JobTracker ou
Hadoop TaskTracker. Pour ex&eacute;cuter une t&acirc;che HBase MapReduce, vous devez d&eacute;ployer un cluster
personnalis&eacute; qui inclut les nœuds JobTracker et TaskTracker.
n
Utilisez les services Rest-ful Web Services du nœud client, qui &eacute;coutent sur le port 8080, &agrave; l'aide de la
commande curl.
curl –I http://client_node_ip:8080/status/cluster
n
Utilisez la passerelle Thrift du nœud client, qui &eacute;coute sur le port 9090.
Cr&eacute;er un cluster Big Data dans vSphere Web Client
Une fois que vous avez termin&eacute; le d&eacute;ploiement de la distribution Hadoop, vous pouvez cr&eacute;er des clusters
Big Data pour traiter des donn&eacute;es. Vous pouvez cr&eacute;er plusieurs clusters dans votre environnement
Big Data Extensions, mais ce dernier doit remplir toutes les conditions pr&eacute;alables et disposer des ressources
ad&eacute;quates.
Pr&eacute;requis
n
D&eacute;marrez le vApp Big Data Extensions.
n
Installez le plug-in Big Data Extensions.
n
Connectez-vous &agrave; un Serengeti Management Server.
n
Configurez une ou plusieurs distributions Hadoop.
n
Assurez-vous de bien comprendre les options de configuration de la topologie que vous voulez utiliser
avec votre cluster.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions &gt; Clusters Big Data.
3
Dans l'onglet Objets, cliquez sur Nouveau cluster Big Data.
VMware, Inc.
103
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
4
104
Suivez les invites pour cr&eacute;er le cluster. Le tableau d&eacute;crit les informations &agrave; entrer pour le cluster que
vous voulez cr&eacute;er.
Option
Description
Nom du cluster Hadoop
Tapez un nom pour identifier le cluster.
Les seuls caract&egrave;res valides dans les noms de clusters sont les caract&egrave;res
alphanum&eacute;riques et les traits de soulignement. Quand vous choisissez le
nom de cluster, tenez &eacute;galement compte du nom de vApp applicable.
Ensemble, les noms de vApp et du cluster doivent comprendre moins de
80 caract&egrave;res.
Gestionnaire d'applications
S&eacute;lectionnez un gestionnaire d'applications. La liste contient le
gestionnaire d'applications par d&eacute;faut et les gestionnaires d'applications
que vous avez ajout&eacute;s &agrave; votre environnement Big Data Extensions. Par
exemple, Cloudera Manager et Ambari.
Mod&egrave;le de nœud
S&eacute;lectionnez un mod&egrave;le de nœud. La liste contient tous les mod&egrave;les
disponibles dans l'application virtuelle Big Data Extensions.
Distribution Hadoop
S&eacute;lectionnez la distribution Hadoop. La liste contient la distribution
Apache Bigtop par d&eacute;faut pour Big Data Extensions et les distributions que
vous avez ajout&eacute;es &agrave; votre environnement Big Data Extensions. Les noms
de distribution correspondent &agrave; la valeur du param&egrave;tre --name qui a &eacute;t&eacute;
transmis au script config-distro.rb lors de la configuration de la
distribution Hadoop. Par exemple, cdh5 et mapr.
REMARQUE Pour cr&eacute;er un cluster Apache Bigtop, Cloudera CDH4 et
CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ult&eacute;rieure,
vous devez configurer un DNS et un FQDN valides pour le trafic r&eacute;seau
HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la
r&eacute;solution FQDN/IP dans un sens et dans l'autre, le processus de cr&eacute;ation
du cluster risque d'&eacute;chouer ou le cluster est cr&eacute;&eacute; mais il ne fonctionne pas.
URL du r&eacute;f&eacute;rentiel local
Tapez l'URL d'un r&eacute;f&eacute;rentiel local. Cet &eacute;l&eacute;ment est facultatif pour tous les
gestionnaires d'applications. Si vous sp&eacute;cifiez une URL de r&eacute;f&eacute;rentiel local,
le gestionnaire d'applications Cloudera Manager ou Ambari t&eacute;l&eacute;charge les
Red Hat Package Manager (RPM) depuis le r&eacute;f&eacute;rentiel local que vous
sp&eacute;cifiez plut&ocirc;t qu'un r&eacute;f&eacute;rentiel distant, ce qui peut avoir des
r&eacute;percussions sur les performances de votre syst&egrave;me.
Type de d&eacute;ploiement
S&eacute;lectionnez le type de cluster &agrave; cr&eacute;er.
n Cluster Hadoop de base
n Cluster HBase de base
n Cluster Hadoop de calcul uniquement
n Cluster de calcul de travailleurs uniquement
n Cluster uniquement HBase
n Cluster Hadoop de s&eacute;paration donn&eacute;es/calcul
n Personnalis&eacute;
Le type de cluster que vous cr&eacute;ez d&eacute;termine les s&eacute;lections de groupes de
nœuds disponibles.
Si vous s&eacute;lectionnez Personnaliser, vous pouvez charger un fichier de
sp&eacute;cification de cluster existant.
Groupe de nœuds DataMaster
Le nœud DataMaster est une machine virtuelle qui ex&eacute;cute le service
Hadoop NameNode. Ce nœud g&egrave;re les donn&eacute;es HDFS et affecte des t&acirc;ches
aux services Hadoop TaskTracker d&eacute;ploy&eacute;s dans le groupe de nœuds
worker.
S&eacute;lectionnez un mod&egrave;le de ressource dans le menu d&eacute;roulant, ou
s&eacute;lectionnez Personnaliser pour personnaliser un mod&egrave;le de ressource.
Pour le nœud master, utilisez un stockage partag&eacute; pour prot&eacute;ger cette
machine virtuelle avec la haute disponibilit&eacute; vSphere et la tol&eacute;rance aux
pannes vSphere.
VMware, Inc.
Chapitre 9 Cr&eacute;ation de clusters Hadoop et HBase
Option
Description
Groupe de nœuds ComputeMaster
Le nœud ComputeMaster est une machine virtuelle qui ex&eacute;cute le service
Hadoop JobTracker. Ce nœud affecte des t&acirc;ches aux services Hadoop
TaskTracker d&eacute;ploy&eacute;s dans le groupe de nœuds worker.
S&eacute;lectionnez un mod&egrave;le de ressource dans le menu d&eacute;roulant, ou
s&eacute;lectionnez Personnaliser pour personnaliser un mod&egrave;le de ressource.
Pour le nœud master, utilisez un stockage partag&eacute; pour prot&eacute;ger cette
machine virtuelle avec la haute disponibilit&eacute; vSphere et la tol&eacute;rance aux
pannes vSphere.
Groupe de nœuds HBaseMaster
(cluster HBase uniquement)
Le nœud HBaseMaster est une machine virtuelle qui ex&eacute;cute le service
ma&icirc;tre HBase. Ce nœud orchestre un cluster d'un ou plusieurs nœuds
esclaves RegionServer.
S&eacute;lectionnez un mod&egrave;le de ressource dans le menu d&eacute;roulant ou
s&eacute;lectionnez Personnaliser pour personnaliser un mod&egrave;le de ressource.
Pour le nœud master, utilisez un stockage partag&eacute; pour prot&eacute;ger cette
machine virtuelle avec la haute disponibilit&eacute; vSphere et la tol&eacute;rance aux
pannes vSphere.
Groupe de nœuds worker
Les nœuds worker sont des machines virtuelles qui ex&eacute;cutent les services
Hadoop DataNode, TaskTracker et HBase HRegionServer. Ces nœuds
stockent des donn&eacute;es HDFS et ex&eacute;cutent des t&acirc;ches.
S&eacute;lectionnez le nombre de nœuds et le mod&egrave;le de ressource dans le menu
d&eacute;roulant ou s&eacute;lectionnez Personnaliser pour personnaliser un mod&egrave;le de
ressource.
Pour les nœuds worker, utilisez un stockage local.
REMARQUE Vous pouvez ajouter des nœuds au groupe de nœuds worker
en utilisant la fonction Agrandir le cluster. Vous ne pouvez pas r&eacute;duire le
nombre de nœuds.
VMware, Inc.
Groupe de nœuds clients
Un nœud client est une machine virtuelle qui contient des composants
clients Hadoop. &Agrave; partir de cette machine virtuelle, vous pouvez acc&eacute;der &agrave;
HDFS, soumettre des travaux MapReduce, ex&eacute;cuter des scripts Pig,
ex&eacute;cuter des requ&ecirc;tes Hive et des commandes HBase.
S&eacute;lectionnez le nombre de nœuds et un mod&egrave;le de ressource dans le menu
d&eacute;roulant, ou s&eacute;lectionnez Personnaliser pour personnaliser un mod&egrave;le de
ressource.
REMARQUE Vous pouvez ajouter des nœuds au groupe de nœuds clients en
utilisant la fonction Agrandir le cluster. Vous ne pouvez pas r&eacute;duire le
nombre de nœuds.
Topologie Hadoop
S&eacute;lectionnez la configuration de topologie que vous voulez que le cluster
utilise.
n RACK_EN_RACK
n H&Ocirc;TE_EN_RACK
n HVE
n AUCUNE
Si la configuration de topologie souhait&eacute;e n'appara&icirc;t pas, d&eacute;finissez-la
dans un fichier de mappage rack-h&ocirc;tes de topologie, puis utilisez
l'interface de ligne de commande Serengeti pour t&eacute;l&eacute;charger le fichier dans
le Serengeti Management Server. Reportez-vous &agrave; &laquo; &Agrave; propos de la
topologie des clusters &raquo;, page 102
(Facultatif) Si vous souhaitez s&eacute;lectionner des banques de donn&eacute;es
sp&eacute;cifiques &agrave; utiliser avec le cluster, cochez la case Voulez-vous sp&eacute;cifier
des banques de donn&eacute;es &agrave; d&eacute;ployer ? Par d&eacute;faut, le cluster que vous cr&eacute;ez
utilise toutes les banques de donn&eacute;es disponibles.
105
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Option
Description
R&eacute;seau
S&eacute;lectionnez un ou plusieurs r&eacute;seaux pour le cluster.
Pour optimiser les performances, utilisez le m&ecirc;me r&eacute;seau pour le trafic
HDFS et MapReduce dans les clusters Hadoop et Hadoop+HBase. Les
clusters HBase utilisent le r&eacute;seau HDFS pour le trafic li&eacute; aux services
HBase Master et HBase RegionServer.
IMPORTANT Vous ne pouvez pas configurer plusieurs r&eacute;seaux pour les
clusters qui utilisent la distribution Hadoop MapR, ni pour les clusters
g&eacute;r&eacute;s par Cloudera Manager et Ambari. Seul le gestionnaire d'applications
Big Data Extensions par d&eacute;faut prend en charge plusieurs r&eacute;seaux.
n Pour utiliser un seul r&eacute;seau pour tout le trafic, s&eacute;lectionnez-le dans la
liste R&eacute;seau.
n Pour utiliser des r&eacute;seaux distincts pour la gestion, le trafic HDFS et le
trafic MapReduce, s&eacute;lectionnez Personnaliser les r&eacute;seaux HDFS et
MapReduce, puis s&eacute;lectionnez un r&eacute;seau dans chaque liste.
S&eacute;lectionner les banques de
donn&eacute;es
(Facultatif) La possibilit&eacute; de s&eacute;lectionner des banques de donn&eacute;es
sp&eacute;cifiques &agrave; utiliser avec le cluster n'est disponible que si vous
s&eacute;lectionnez Voulez-vous sp&eacute;cifier des banques de donn&eacute;es &agrave; d&eacute;ployer ?
dans le volet S&eacute;lectionner la topologie et le r&eacute;seau.
Cochez la case situ&eacute;e en regard des banques de donn&eacute;es que vous
souhaitez utiliser avec le cluster. Si vous ne s&eacute;lectionnez aucune banque de
donn&eacute;es, le cluster que vous cr&eacute;ez utilisera toutes les banques de donn&eacute;es
disponibles.
Pools de ressources
S&eacute;lectionnez un ou plusieurs pools de ressources que vous voulez que le
cluster utilise.
Mot de passe de machine virtuelle
Choisissez la mani&egrave;re d'affecter les mots de passe administrateur initiaux
aux nœuds de machine virtuelle du cluster.
n Utiliser un mot de passe al&eacute;atoire.
n D&eacute;finir le mot de passe.
Pour affecter un mot de passe administrateur initial personnalis&eacute; &agrave; tous les
nœuds du cluster, choisissez D&eacute;finir le mot de passe, puis tapez et
confirmez le mot de passe initial.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement
des caract&egrave;res ASCII inf&eacute;rieurs visibles (pas d'espaces) et comporter au
moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre
(0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
IMPORTANT Si vous d&eacute;finissez un mot de passe administrateur initial, il est
utilis&eacute; pour les nœuds cr&eacute;&eacute;s par de futures op&eacute;rations de mise &agrave; l'&eacute;chelle et
de r&eacute;cup&eacute;ration de d&eacute;faillance de disque. Si vous utilisez le mot de passe
al&eacute;atoire, les nœuds cr&eacute;&eacute;s par de futures op&eacute;rations de mise &agrave; l'&eacute;chelle et
de r&eacute;cup&eacute;ration de d&eacute;faillance de disque utilisent de nouveaux mots de
passe al&eacute;atoires.
Utilisateur LDAP
Si LDAP/AD est activ&eacute;, vous pouvez sp&eacute;cifier un groupe de noms
d'administrateurs et un groupe d'utilisateurs standard pour chaque
cluster. Big Data Extensions cr&eacute;e des connexions AD/LDAP sur les
machines virtuelles du nœud afin que les utilisateurs des deux groupes
puissent se connecter aux machines virtuelles du nœud. L'utilisateur du
groupe d'administrateurs dispose du privil&egrave;ge sudo, qui lui permet
d'ex&eacute;cuter des t&acirc;ches administratives sur les machines virtuelles du nœud.
URL du r&eacute;f&eacute;rentiel local
Tapez l'URL d'un r&eacute;f&eacute;rentiel local.
Cet &eacute;l&eacute;ment est facultatif pour tous les gestionnaires d'applications. Si vous
sp&eacute;cifiez une URL de r&eacute;f&eacute;rentiel local, le gestionnaire d'applications
Cloudera Manager ou Ambari t&eacute;l&eacute;charge les Red Hat Package Manager
(RPM) depuis le r&eacute;f&eacute;rentiel local que vous sp&eacute;cifiez plut&ocirc;t que depuis un
r&eacute;f&eacute;rentiel distant, ce qui peut avoir des r&eacute;percussions sur les
performances de votre syst&egrave;me.
Le Serengeti Management Server clone la machine virtuelle du mod&egrave;le pour cr&eacute;er les nœuds dans le cluster.
Quand chaque machine virtuelle d&eacute;marre, l'agent qui se trouve dessus applique les composants logiciels
Big Data Extensions appropri&eacute;s sur ce nœud, puis d&eacute;ploie les logiciels.
106
VMware, Inc.
Chapitre 9 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster uniquement HBase dans Big Data Extensions
Big Data Extensions vous permet de cr&eacute;er un cluster uniquement HBase qui contient uniquement des
nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le
cluster uniquement HBase pr&eacute;sente l'avantage de permettre &agrave; plusieurs clusters HBase d'utiliser le m&ecirc;me
HDFS externe.
Proc&eacute;dure
1
Conditions pr&eacute;alables &agrave; la cr&eacute;ation d'un cluster uniquement HBase page 107
Pour pouvoir cr&eacute;er un cluster uniquement HBase, vous devez d'abord v&eacute;rifier que votre syst&egrave;me
remplit toutes les conditions pr&eacute;alables.
2
Pr&eacute;parer EMC Isilon OneFS en tant que cluster HDFS externe page 108
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser
avec un cluster uniquement HBase, vous devez cr&eacute;er et configurer des utilisateurs et des groupes
d'utilisateurs, et pr&eacute;parer votre environnement Isilon OneFS.
3
Cr&eacute;er un cluster uniquement HBase &agrave; l'aide de vSphere Web Client page 109
Vous pouvez utiliser vSphere Web Client pour cr&eacute;er un cluster uniquement HBase.
Conditions pr&eacute;alables &agrave; la cr&eacute;ation d'un cluster uniquement HBase
Pour pouvoir cr&eacute;er un cluster uniquement HBase, vous devez d'abord v&eacute;rifier que votre syst&egrave;me remplit
toutes les conditions pr&eacute;alables.
Conditions pr&eacute;alables
n
V&eacute;rifiez que vous avez d&eacute;marr&eacute; Serengeti vApp.
n
V&eacute;rifiez que vous avez plusieurs distributions si vous voulez en utiliser une diff&eacute;rente de celle par
d&eacute;faut.
n
V&eacute;rifiez que vous avez un cluster HDFS existant &agrave; utiliser en tant que cluster HDFS externe.
Pour &eacute;viter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters
doivent utiliser la m&ecirc;me distribution Hadoop et la m&ecirc;me version.
n
n
Si le cluster HDFS n'a pas &eacute;t&eacute; cr&eacute;&eacute; &agrave; l'aide de Big Data Extensions, v&eacute;rifiez que le r&eacute;pertoire
HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS
externe :
n
hdfs
n
hbase
n
serengeti
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, v&eacute;rifiez que votre environnement
Isilon est pr&eacute;par&eacute;.
Pour plus d'informations sur la mani&egrave;re de pr&eacute;parer votre environnement, consultez &laquo; Pr&eacute;parer EMC
Isilon OneFS en tant que cluster HDFS externe &raquo;, page 108.
VMware, Inc.
107
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Pr&eacute;parer EMC Isilon OneFS en tant que cluster HDFS externe
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez cr&eacute;er et configurer des utilisateurs et des groupes d'utilisateurs, et
pr&eacute;parer votre environnement Isilon OneFS.
Proc&eacute;dure
1
Connectez-vous &agrave; l'un des nœuds HDFS Isilon en tant que user root
2
Cr&eacute;ez les utilisateurs.
n
hdfs
n
hbase
n
serengeti
n
mapred
Les utilisateurs yarn et mapred doivent disposer d'autorisations d'&eacute;criture; de lecture et d'ex&eacute;cution pour
tout le r&eacute;pertoire HDFS export&eacute;.
3
Cr&eacute;ez le groupe d'utilisateurs hadoop.
4
Cr&eacute;ez le r&eacute;pertoire tmp sous le r&eacute;pertoire HDFS racine.
5
D&eacute;finissez le propri&eacute;taire en tant que hdfs:hadoop et les autorisations de lecture et d'&eacute;criture 777.
6
Cr&eacute;ez le r&eacute;pertoire hadoop sous le r&eacute;pertoire HDFS racine.
7
D&eacute;finissez le propri&eacute;taire en tant que hdfs:hadoop et les autorisations de lecture et d'&eacute;criture 775.
8
Cr&eacute;ez le r&eacute;pertoire hbase sous le r&eacute;pertoire hadoop.
9
D&eacute;finissez le propri&eacute;taire en tant que hbase:hadoop et les autorisations de lecture et d'&eacute;criture 775.
10
D&eacute;finissez le propri&eacute;taire du r&eacute;pertoire HDFS en tant que hdfs:hadoop.
Exemple : Configuration de l'environnement EMC Isilon OneFS
isi auth users create --name=&quot;hdfs&quot;
isi auth users create --name=&quot;hbase&quot;
isi auth users create --name=&quot;serengeti&quot;
isi auth groups create --name=&quot;hadoop&quot;
pw useradd mapred -G wheel
pw useradd yarn -G wheel
chown hdfs:hadoop /ifs
mkdir /ifs/tmp
chmod 777 /ifs/tmp
chown hdfs:hadoop /ifs/tmp
mkdir -p /ifs/hadoop/hbase
chmod -R 775 /ifs/hadoop
chown hdfs:hadoop /ifs/hadoop
chown hbase:hadoop /ifs/hadoop/hbase
Suivant
Vous &ecirc;tes maintenant pr&ecirc;t &agrave; cr&eacute;er le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster
externe.
108
VMware, Inc.
Chapitre 9 Cr&eacute;ation de clusters Hadoop et HBase
Cr&eacute;er un cluster uniquement HBase &agrave; l'aide de vSphere Web Client
Vous pouvez utiliser vSphere Web Client pour cr&eacute;er un cluster uniquement HBase.
Vous devez utiliser le gestionnaire d'applications par d&eacute;faut, car les autres gestionnaires d'applications ne
prennent pas en charge les clusters uniquement HBase.
Proc&eacute;dure
1
Dans la page Clusters Big Data, cliquez sur Nouveau cluster Big Data.
2
Dans la page G&eacute;n&eacute;ral, entrez un nom pour le cluster.
3
S&eacute;lectionnez Par d&eacute;faut dans le menu d&eacute;roulant Gestionnaire d'applications.
4
S&eacute;lectionnez une distribution dans le menu d&eacute;roulant Distribution Hadoop.
5
Dans la page D&eacute;finir les groupes de nœuds, s&eacute;lectionnez Cluster HBase uniquement dans le menu
d&eacute;roulant Type de d&eacute;ploiement.
6
Dans la zone de texte URI NameNode, entrez l'URI NameNode du HDFS externe.
L'URI NameNode correspond &agrave; l'URI du NameNode, par exemple hdfs://namenode_hostname:8020.
7
Suivez les invites pour terminer le processus de cr&eacute;ation du cluster HBase.
Cr&eacute;er un cluster avec un gestionnaire d'applications &agrave; l'aide de
vSphere Web Client
Pour cr&eacute;er et g&eacute;rer un cluster avec un gestionnaire d'applications autre que celui par d&eacute;faut, vous devez
indiquer le gestionnaire d'applications &agrave; utiliser avant de cr&eacute;er le cluster.
REMARQUE Si vous souhaitez utiliser un r&eacute;f&eacute;rentiel Yum local apr&egrave;s avoir s&eacute;lectionn&eacute; Cloudera Manager ou
Ambari pour votre gestionnaire d'applications, une zone de texte s'affiche. Vous pouvez y saisir l'URL du
r&eacute;f&eacute;rentiel local que vous souhaitez utiliser. Vous devez d'abord avoir cr&eacute;&eacute; le r&eacute;f&eacute;rentiel avant de cr&eacute;er le
cluster. Pour plus d'informations sur la configuration d'un r&eacute;f&eacute;rentiel Yum, reportez-vous &agrave; &laquo; Configurer un
r&eacute;f&eacute;rentiel Yum local pour le gestionnaire d'applications Ambari &raquo;, page 60 ou &laquo; Configurer un r&eacute;f&eacute;rentiel
Yum local pour le gestionnaire d'applications Cloudera Manager &raquo;, page 57.
Pr&eacute;requis
n
Connectez-vous &agrave; un gestionnaire d'applications.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop. Pour plus
d'informations sur les ressources requises, consultez la documentation de votre gestionnaire
d'applications.
n
Configurez une ou plusieurs distributions Hadoop.
Proc&eacute;dure
1
Dans la page Clusters Big Data, cliquez sur Nouveau cluster Big Data.
2
Suivez les invites pour cr&eacute;er le cluster.
Suivant
Pour afficher le nouveau cluster, dans leBig Data Extensions panneau de navigation, dans Listes
d'inventaire, cliquez sur Clusters Big Data.
Si vous n'indiquez pas de gestionnaire d'applications, celui par d&eacute;faut est utilis&eacute;.
VMware, Inc.
109
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Cr&eacute;er un cluster de calcul uniquement avec un gestionnaire
d'applications tiers en utilisant vSphere Web Client
Vous pouvez cr&eacute;er des clusters de calcul uniquement ex&eacute;cuter les t&acirc;ches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe pour le cluster uniquement HBase, vous
devez cr&eacute;er et configurer des utilisateurs et des groupes d'utilisateurs, et pr&eacute;parer votre environnement
Isilon OneFS. Reportez-vous &agrave; &laquo; Pr&eacute;parer EMC Isilon OneFS en tant que cluster HDFS externe &raquo;, page 108.
Pr&eacute;requis
n
D&eacute;ployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources ad&eacute;quates allou&eacute;es ex&eacute;cuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par d&eacute;faut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Proc&eacute;dure
1
Dans Big Data Extensions, s&eacute;lectionnez Nouveau cluster Big Data.
2
Dans le volet G&eacute;n&eacute;ral, s&eacute;lectionnez dans la liste d&eacute;roulante le gestionnaire d'applications que vous
souhaitez utiliser pour g&eacute;rer le cluster.
3
Pour personnaliser le cluster pour les gestionnaires d'applications Cloudera Manager ou Ambari,
s&eacute;lectionnez Personnaliser dans la liste d&eacute;roulante.
4
Cliquez sur Charger pour s&eacute;lectionner le fichier de sp&eacute;cification.
5
Suivez la proc&eacute;dure indiqu&eacute;e par l'assistant pour terminer la cr&eacute;ation.
Cr&eacute;er un cluster de calcul du travailleur uniquement &agrave; l'aide de
vSphere Web Client
Si vous disposez d&eacute;j&agrave; d'un cluster Hadoop physique et que vous voulez effectuer des op&eacute;rations n&eacute;cessitant
plus de CPU ou de m&eacute;moire, vous pouvez augmenter la capacit&eacute; de calcul en provisionnant un cluster de
travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et
peut &ecirc;tre augment&eacute; de fa&ccedil;on &eacute;lastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez &laquo; passer d'un seul coup en mode
virtuel &raquo;. Il s'agit d'une op&eacute;ration temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec &laquo; passer d'un seul coup en mode
virtuel &raquo;, vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez &agrave; un cluster
physique existant ou &agrave; un cluster Hadoop virtuel.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
Pr&eacute;requis
n
V&eacute;rifiez que vous avez un cluster Hadoop existant.
n
V&eacute;rifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
Proc&eacute;dure
110
1
Cliquez sur Cr&eacute;er un cluster Big Data dans le volet Objets.
2
Dans l'assistant de cr&eacute;ation du cluster Big Data, choisissez la m&ecirc;me distribution que le cluster Hadoop.
VMware, Inc.
Chapitre 9 Cr&eacute;ation de clusters Hadoop et HBase
3
D&eacute;finissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020.
4
D&eacute;finissez l'URL ComputeMaster nodeManager ip ou fqdn.
5
Suivez la proc&eacute;dure indiqu&eacute;e dans l'assistant et ajoutez les autres ressources.
Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont
enregistr&eacute;s aupr&egrave;s du gestionnaire de ressources.
VMware, Inc.
111
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
112
VMware, Inc.
Gestion des clusters Hadoop et
HBase
10
Vous pouvez utiliser vSphere Web Client pour d&eacute;marrer et arr&ecirc;ter votre cluster Big Data, et pour modifier la
configuration du cluster. Vous pouvez &eacute;galement g&eacute;rer un cluster &agrave; l'aide de l'interface de ligne de
commande Serengeti.
AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de
cluster vers d'autres h&ocirc;tes pour les clusters cr&eacute;&eacute;s avec Big Data Extensions. L'utilisation de ces fonctions de
gestion en dehors de l'environnement Big Data Extensions peut vous emp&ecirc;cher d'effectuer certaines
op&eacute;rations de Big Data Extensions telles que la r&eacute;cup&eacute;ration de d&eacute;faillances de disque.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Arr&ecirc;ter et d&eacute;marrer un cluster dans vSphere Web Client &raquo;, page 113
n
&laquo; Supprimer un cluster dans vSphere Web Client &raquo;, page 114
n
&laquo; Agrandir ou r&eacute;duire un cluster &agrave; l'aide de vSphere Web Client &raquo;, page 114
n
&laquo; Mettre &agrave; l'&eacute;chelle le CPU et la RAM dans vSphere Web Client &raquo;, page 115
n
&laquo; Utiliser des partages de disque E/S pour fixer la priorit&eacute; des machines virtuelles de cluster dans
vSphere Web Client &raquo;, page 116
n
&laquo; &Agrave; propos de vSphere High Availability et de vSphere Fault Tolerance &raquo;, page 117
n
&laquo; Modifier le mot de passe utilisateur sur tous les nœuds d'un cluster &raquo;, page 117
n
&laquo; Reconfigurer un cluster avec l'interface de ligne de commande Serengeti &raquo;, page 118
n
&laquo; Configurer le nombre de disques de donn&eacute;es par groupe de nœuds &raquo;, page 120
n
&laquo; R&eacute;cup&eacute;rer d'une d&eacute;faillance disque avec le client d'interface de ligne de commande Serengeti &raquo;,
page 121
n
&laquo; Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti &raquo;,
page 122
Arr&ecirc;ter et d&eacute;marrer un cluster dans vSphere Web Client
Vous pouvez arr&ecirc;ter un cluster Hadoop en cours d'ex&eacute;cution et d&eacute;marrer un cluster Hadoop arr&ecirc;t&eacute; dans
vSphere Web Client.
Pr&eacute;requis
n
Pour &ecirc;tre arr&ecirc;t&eacute;, le cluster doit &ecirc;tre en cours d'ex&eacute;cution.
n
Pour &ecirc;tre d&eacute;marr&eacute;, le cluster doit &ecirc;tre arr&ecirc;t&eacute;.
VMware, Inc.
113
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
S&eacute;lectionnez le cluster &agrave; arr&ecirc;ter ou &agrave; d&eacute;marrer dans la colonne Hadoop Cluster Name (Nom du cluster
Hadoop), puis cliquez sur le bouton droit de la souris pour afficher le menu Actions.
5
S&eacute;lectionnez Arr&ecirc;ter le cluster Big Data pour arr&ecirc;ter un cluster en cours d'ex&eacute;cution ou s&eacute;lectionnez
Start Big Data Cluster (D&eacute;marrer un cluster Big Data) pour d&eacute;marrer un cluster.
Supprimer un cluster dans vSphere Web Client
Vous pouvez supprimer un cluster &agrave; l'aide de vSphere Web Client. &Agrave; sa suppression, le cluster est retir&eacute; de
l'inventaire et de la banque de donn&eacute;es.
Lorsque vous cr&eacute;ez un cluster, Big Data Extensions cr&eacute;e un dossier et un pool de ressources pour chaque
cluster, et des pools de ressources pour chacun des groupes de nœuds du cluster. Lorsque vous supprimez
un cluster, tous les dossiers et les pools de ressources sont supprim&eacute;s.
&Agrave; sa suppression, le cluster est retir&eacute; de l'inventaire et de la banque de donn&eacute;es.
Vous pouvez supprimer un cluster en cours de fonctionnement, un cluster interrompu ou un cluster en &eacute;tat
d'erreur.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
Dans le navigateur objet, s&eacute;lectionnez Big Data Extensions.
3
Dans les listes d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
Dans la colonne Objects Name (Nom Objets), s&eacute;lectionnez le cluster &agrave; supprimer.
5
Cliquez sur l'ic&ocirc;ne All Actions (Toutes les actions), puis s&eacute;lectionnez Supprimer le cluster Big Data.
Le cluster et toutes les machines virtuelles qu'il contient sont supprim&eacute;s de votre Big Data Extensions
environnement.
Agrandir ou r&eacute;duire un cluster &agrave; l'aide de vSphere Web Client
Lorsque vous cr&eacute;ez des clusters Hadoop, vous devez sp&eacute;cifier le nombre de nœuds &agrave; utiliser. Apr&egrave;s la
cr&eacute;ation du cluster, vous pouvez redimensionner le cluster en changeant le nombre de nœuds worker et de
nœuds client. Vous pouvez augmenter le nombre de nœuds pour agrandir un groupe de nœuds. Vous
pouvez &eacute;galement r&eacute;duire le nombre de nœuds pour r&eacute;duire un groupe de nœuds de calcul uniquement.
Un groupe de nœuds est consid&eacute;r&eacute; comme un groupe de nœuds de calcul uniquement s'il contient
uniquement des r&ocirc;les de calcul tels que TaskTracker or NodeManager.
Vous pouvez redimensionner le cluster &agrave; l'aide de vSphere Web Client ou du client Serengeti CLI. Toutefois,
l'interface de ligne de commande offre davantage d'options de configuration que vSphere Web Client.
Reportez-vous &agrave; Guide de l'interface de ligne de commande de VMware vSphere Big Data Extensions.
114
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
Par d&eacute;faut, vous pouvez uniquement r&eacute;duire les nœuds de calcul. Pour r&eacute;duire des groupes de nœuds
contenant d'autres r&ocirc;les (par exemple, le r&ocirc;le A et le r&ocirc;le B), vous devez vous connecter au serveur Big Data
Extensions et supprimer les r&ocirc;les A et B dans les fichiers de liste noire li&eacute;s. Le fichier de liste noire porte le
nom scale_in_roles_blacklist.json et se trouve dans le
r&eacute;pertoire /opt/serengeti/conf/application_manager_type. Le application_manager_type peut &ecirc;tre Ambari,
Cloudera Manager ou celui par d&eacute;faut.
IMPORTANT M&ecirc;me si vous avez modifi&eacute; le mot de passe utilisateur sur les nœuds, le mot de passe modifi&eacute;
n'est pas utilis&eacute; pour les nouveaux nœuds cr&eacute;&eacute;s par l'op&eacute;ration de redimensionnement du cluster. Si vous
avez d&eacute;fini le mot de passe initial de l'administrateur lorsque vous avez cr&eacute;&eacute; le cluster, ce mot de passe est
utilis&eacute; pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le mot de passe initial de l'administrateur lorsque
vous avez cr&eacute;&eacute; le cluster, les nouveaux mots de passe al&eacute;atoires sont utilis&eacute;s pour les nouveaux nœuds.
Pr&eacute;requis
n
V&eacute;rifiez que le cluster est en cours d'ex&eacute;cution. Reportez-vous &agrave; &laquo; Arr&ecirc;ter et d&eacute;marrer un cluster dans
vSphere Web Client &raquo;, page 113.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
Dans la colonne Nom du cluster Hadoop, s&eacute;lectionnez le cluster &agrave; redimensionner.
5
Cliquez sur l'ic&ocirc;ne Toutes les actions, puis s&eacute;lectionnez Agrandir/r&eacute;duire
6
Dans la liste Groupe de nœuds, s&eacute;lectionnez le groupe de nœuds worker ou client &agrave; agrandir ou
r&eacute;duire.
Si un groupe ne contient aucun nœud, il ne figure pas dans la liste Groupe de nœuds.
7
Dans la zone de texte Nombre d'instances, saisissez le nombre cible d'instances de nœud &agrave; ajouter, puis
cliquez sur OK.
Le cluster est adapt&eacute; au nombre de nœuds sp&eacute;cifi&eacute;.
Mettre &agrave; l'&eacute;chelle le CPU et la RAM dans vSphere Web Client
Vous pouvez augmenter ou r&eacute;duire la capacit&eacute; de calcul d'un cluster afin d'emp&ecirc;cher la contention des
ressources m&eacute;moire ou CPU des t&acirc;ches en cours d'ex&eacute;cution.
Vous pouvez ajuster les ressources de calcul sans augmenter la charge de travail du nœud master. Si
l'augmentation ou la diminution du CPU ou de la RAM d'un cluster n'aboutit pas pour un nœud, ce qui est
g&eacute;n&eacute;ralement d&ucirc; &agrave; l'insuffisance des ressources disponibles, le nœud est r&eacute;tabli &agrave; sa valeur de CPU ou de
RAM originale.
M&ecirc;me si tous les types de nœuds prennent en charge la mise &agrave; l'&eacute;chelle du CPU et de la RAM, ne mettez pas
&agrave; l'&eacute;chelle le CPU ou la RAM du nœud master d'un cluster, car Big Data Extensions arr&ecirc;te la machine
virtuelle lors du processus de mise &agrave; l'&eacute;chelle.
Lorsque vous mettez &agrave; l'&eacute;chelle le CPU ou la RAM d'un cluster, le nombre de CPU peut &ecirc;tre un multiple du
nombre de cœurs par point de connexion, et vous devez mettre &agrave; l'&eacute;chelle la quantit&eacute; de RAM en multiple
de 4, pour un minimum de 3 748 Mo.
Pr&eacute;requis
n
VMware, Inc.
V&eacute;rifiez que le cluster que vous souhaitez mettre &agrave; l'&eacute;chelle est en cours d'ex&eacute;cution. Reportez-vous &agrave;
&laquo; Arr&ecirc;ter et d&eacute;marrer un cluster dans vSphere Web Client &raquo;, page 113.
115
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
Dans la colonne Hadoop Cluster Name (Nom du cluster Hadoop), s&eacute;lectionnez le cluster que vous
souhaitez monter/descendre en puissance.
5
Cliquez sur l'ic&ocirc;ne Toutes les actions, puis s&eacute;lectionnez Monter/descendre en puissance.
6
Dans le menu d&eacute;roulant Groupe de nœuds, s&eacute;lectionnez le groupe de nœuds ComputeMaster,
DataMaster, Worker, Client ou Customized dont vous souhaitez monter/descendre en puissance le CPU
ou la RAM.
7
Saisissez le nombre de vCPU &agrave; utiliser et la quantit&eacute; de RAM et cliquez sur OK.
Apr&egrave;s avoir appliqu&eacute; les nouvelles valeurs de CPU et de RAM, le cluster est plac&eacute; en mode Maintenance
pendant qu'il applique les nouvelles valeurs. Vous pouvez surveiller l'&eacute;tat du cluster pendant l'application
des nouvelles valeurs.
Utiliser des partages de disque E/S pour fixer la priorit&eacute; des machines
virtuelles de cluster dans vSphere Web Client
Vous pouvez &eacute;tablir des partages de disque E/S pour les machines virtuelles ex&eacute;cutant un cluster. Les
partages de disque distinguent les machines virtuelles &agrave; haute priorit&eacute; et &agrave; basse priorit&eacute;.
Les partages de disque sont une valeur qui repr&eacute;sente la mesure relative pour la bande passante de contr&ocirc;le
de disque &agrave; toutes les machines virtuelles. Les valeurs sont compar&eacute;es &agrave; la somme de tous les partages de
toutes les machines virtuelles sur le serveur et, sur un h&ocirc;te ESXi, la console du service. Big Data Extensions
peut ajuster les partages de disque pour toutes les machines virtuelles dans un cluster. Les partages de
disque vous permettent de modifier la bande passante E/S d'un cluster pour am&eacute;liorer les performances E/S
du cluster.
Pour plus d'informations sur l'utilisation des partages de disque pour fixer la priorit&eacute; des machines
virtuelles, reportez-vous &agrave; la documentation de VMware vSphere ESXi et de vCenter Server.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
Dans le navigateur objet, s&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
S&eacute;lectionnez le cluster dont vous souhaitez &eacute;tablir des partages E/S de disque, dans la colonne Hadoop
Cluster Name (Nom du cluster Hadoop).
5
Cliquez sur l'ic&ocirc;ne Actions et s&eacute;lectionnez D&eacute;finir les partages d'E/S disque.
6
Indiquez une valeur pour attribuer un nombre de partages de bande passante de disque &agrave; la machine
virtuelle ex&eacute;cutant le cluster.
Les clusters configur&eacute;s pour les partages E/S &Eacute;LEV&Eacute;S b&eacute;n&eacute;ficient d'un acc&egrave;s prioritaire par rapport &agrave;
ceux pr&eacute;sentant des priorit&eacute;s NORMALES et FAIBLES, ce qui permet d'am&eacute;liorer les performances E/S
de disque. Les partages de disque sont g&eacute;n&eacute;ralement d&eacute;finis sur FAIBLE pour les machines virtuelles
de calcul et NORMAL pour les machines virtuelles de donn&eacute;es. La machine virtuelle du nœud master
est g&eacute;n&eacute;ralement d&eacute;finie sur NORMAL.
7
116
Cliquez sur OK pour enregistrer vos modifications.
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
&Agrave; propos de vSphere High Availability et de vSphere Fault Tolerance
Le serveur de gestion Serengeti tire parti de la haute disponibilit&eacute; vSphere pour prot&eacute;ger la machine
virtuelle du nœud Hadoop master, qui peut &ecirc;tre surveill&eacute;e par vSphere.
Lorsque un service Hadoop NameNode ou JobTracker s'arr&ecirc;te de mani&egrave;re inattendue, vSphere red&eacute;marre la
machine virtuelle Hadoop dans un autre h&ocirc;te afin de r&eacute;duire la p&eacute;riode d'interruption non planifi&eacute;e. Si
vSphere Fault Tolerance est configur&eacute; et que la machine virtuelle du nœud master s'arr&ecirc;te de mani&egrave;re
inattendue en raison du basculement ou de la perte de connectivit&eacute; r&eacute;seau d'un h&ocirc;te, le nœud secondaire est
utilis&eacute;, sans provoquer d'interruption de service.
Modifier le mot de passe utilisateur sur tous les nœuds d'un cluster
Vous pouvez modifier le mot de passe utilisateur sur tous les nœuds d'un cluster. Le mot de passe
utilisateur que vous pouvez modifier concerne les utilisateurs serengeti et root.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
IMPORTANT Si vous agrandissez ou si vous r&eacute;alisez des op&eacute;rations de r&eacute;cup&eacute;ration de disque sur un cluster
apr&egrave;s avoir modifi&eacute; le mot de passe utilisateur sur les nœuds d'origine du cluster, le mot de passe modifi&eacute;
n'est pas utilis&eacute; pour les nouveaux nœuds du cluster qui sont cr&eacute;&eacute;s par les op&eacute;rations d'agrandissement ou
de r&eacute;cup&eacute;ration de disque. Si vous avez d&eacute;fini le mot de passe initial de l'administrateur du cluster lorsque
vous avez cr&eacute;&eacute; le cluster, ce mot de passe est utilis&eacute; pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le
mot de passe initial de l'administrateur du cluster lorsque vous avez cr&eacute;&eacute; le cluster, les nouveaux mots de
passe al&eacute;atoires sont utilis&eacute;s pour les nouveaux nœuds.
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
n
Configurez une distribution Hadoop &agrave; utiliser avec Big Data Extensions.
n
Cr&eacute;ez un cluster. Reportez-vous &agrave; Chapitre 9, &laquo; Cr&eacute;ation de clusters Hadoop et HBase &raquo;, page 99.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
2
Ex&eacute;cutez le script serengeti-ssh.sh .
serengeti-ssh.sh cluster_name 'echo new_password | sudo passwd username --stdin'
Dans cet exemple, le mot de passe est modifi&eacute; sur tous les nœuds du cluster &eacute;tiquet&eacute; mycluster pour les
utilisateurs serengeti &agrave; mypassword.
serengeti-ssh.sh mycluster
'echo mypassword | sudo passwd serengeti --stdin'
Le mot de passe du compte utilisateur que vous indiquez est modifi&eacute; sur tous les nœuds du cluster.
VMware, Inc.
117
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Reconfigurer un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez reconfigurer tout cluster big data que vous cr&eacute;ez avec Big Data Extensions.
La configuration des clusters est sp&eacute;cifi&eacute;e par des attributs dans des fichiers de configuration XML de
distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh,
yarn-site.sh et hadoop-metrics.properties.
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associ&eacute;s dans les
fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphere
Big Data Extensions.
REMARQUE Utilisez toujours la commande cluster config pour modifier les param&egrave;tres sp&eacute;cifi&eacute;s par les
fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effac&eacute;es si la
machine virtuelle red&eacute;marre ou si vous utilisez les commandes cluster config, cluster start, cluster
stop ou cluster resize.
Proc&eacute;dure
1
Utilisez la commande cluster export pour exporter le fichier de sp&eacute;cification pour le cluster que vous
souhaitez reconfigurer.
cluster export --name
2
cluster_name --specFile file_path/cluster_spec_file_name
Option
Description
cluster_name
Nom du cluster que vous souhaitez reconfigurer.
file_path
Le chemin du syst&egrave;me de fichiers vers lequel vous voulez exporter le
fichier de sp&eacute;cification.
cluster_spec_file_name
Le nom de l'&eacute;tiquette &agrave; attribuer au fichier de sp&eacute;cification du cluster
export&eacute;.
Modifiez les informations de configuration situ&eacute;es pr&egrave;s de la fin du fichier de sp&eacute;cification du cluster
export&eacute;.
Si vous mod&eacute;lisez votre fichier de configuration sur des fichiers de configuration XML Hadoop
existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format
JSON requis.
…
&quot;configuration&quot;: {
&quot;hadoop&quot;: {
&quot;core-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// &quot;io.file.buffer.size&quot;: &quot;4096&quot;
},
&quot;hdfs-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
&quot;mapred-site.xml&quot;: {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
118
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
},
&quot;hadoop-env.sh&quot;: {
// &quot;HADOOP_HEAPSIZE&quot;: &quot;&quot;,
// &quot;HADOOP_NAMENODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_DATANODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_SECONDARYNAMENODE_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_JOBTRACKER_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_TASKTRACKER_OPTS&quot;: &quot;&quot;,
// &quot;HADOOP_CLASSPATH&quot;: &quot;&quot;,
// &quot;JAVA_HOME&quot;: &quot;&quot;,
// &quot;PATH&quot;: &quot;&quot;,
},
&quot;log4j.properties&quot;: {
// &quot;hadoop.root.logger&quot;: &quot;DEBUG, DRFA &quot;,
// &quot;hadoop.security.logger&quot;: &quot;DEBUG, DRFA &quot;,
},
&quot;fair-scheduler.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// &quot;text&quot;: &quot;the full content of fair-scheduler.xml in one line&quot;
},
&quot;capacity-scheduler.xml&quot;: {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
}
}
}
…
3
(Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le r&eacute;pertoire
$HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de
sp&eacute;cification de cluster.
Cette op&eacute;ration permet aux d&eacute;mons Hadoop de localiser les fichiers JAR de distribution.
Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent
sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de sp&eacute;cification du cluster
pour permettre &agrave; Hadoop d'utiliser les fichiers JAR.
…
&quot;configuration&quot;: {
&quot;hadoop&quot;: {
&quot;hadoop-env.sh&quot;: {
&quot;HADOOP_CLASSPATH&quot;: &quot;/usr/lib/hadoop/contrib/fairscheduler/*:$HADOOP_CLASSPATH&quot;
},
&quot;mapred-site.xml&quot;: {
&quot;mapred.jobtracker.taskScheduler&quot;: &quot;org.apache.hadoop.mapred.FairScheduler&quot;
…
},
&quot;fair-scheduler.xml&quot;: {
…
}
}
}
…
4
VMware, Inc.
Acc&eacute;dez &agrave; l'Serengeti CLI.
119
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
5
Ex&eacute;cutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile file_path/cluster_spec_file_name
6
(Facultatif) R&eacute;initialisez un attribut de configuration existant &agrave; sa valeur par d&eacute;faut.
a
Supprimez l'attribut de la section de configuration du fichier de configuration ou commentez
l'attribut en utilisant deux barres obliques invers&eacute;es (//).
b
Ex&eacute;cutez &agrave; nouveau la commande cluster config.
Configurer le nombre de disques de donn&eacute;es par groupe de nœuds
Vous pouvez sp&eacute;cifier le nombre de disques &agrave; utiliser pour chaque groupe de nœuds. Cela vous fournit une
m&eacute;thode plus granulaire pour placer des disques de machine virtuelle sur les disques d'un cluster.
Vous pouvez sp&eacute;cifier le nombre de disques pour chaque groupe de nœuds dans le fichier de sp&eacute;cification
du cluster ou dans le fichier serengeti.properties. La capacit&eacute; de stockage du nœud est r&eacute;partie
uniform&eacute;ment entre les disques que vous sp&eacute;cifiez et tous les nœuds de ce groupe utilisent le m&ecirc;me point
de montage pour les disques li&eacute;s. Cela est particuli&egrave;rement avantageux lorsque vous utilisez
Ambari Manager, car Big Data Extensions peut r&eacute;duire le nombre de groupes de configuration quand vous
cr&eacute;ez un cluster Ambari.
Si vous ne sp&eacute;cifiez pas le nombre de disques &agrave; utiliser dans le fichier de sp&eacute;cification du cluster,
Big Data Extensions utilise la valeur sp&eacute;cifi&eacute;e dans le fichier serengeti.properties. Vous pouvez modifier
cette valeur en changeant les param&egrave;tres storage.local.disk_number_per_node ou
storage.shared.disk_number_per_node = 0 et en sp&eacute;cifiant le nombre de disques &agrave; utiliser par nœud. Cela
garantit que chaque cluster que vous cr&eacute;ez utilisera le m&ecirc;me nombre de disques par groupe de nœuds. Par
d&eacute;faut, le nombre de disques &agrave; utiliser par nœud est d&eacute;fini sur 0, valeur qui correspond &agrave; la strat&eacute;gie de
r&eacute;partition du stockage par d&eacute;faut. Pour storage.local.disk_number_per_node, une valeur de 0 d&eacute;finit une
strat&eacute;gie de disque EVEN_SPLIT. Pour storage.shared.disk_number_per_node, une valeur de 0 d&eacute;finit une
strat&eacute;gie de disque AGGREGATE.
storage.local.disk_number_per_node = 0
storage.shared.disk_number_per_node = 0
Pr&eacute;requis
n
D&eacute;ployez le vApp Big Data Extensions. Reportez-vous &agrave; &laquo; D&eacute;ployer le vApp Big Data Extensions dans
vSphere Web Client &raquo;, page 23.
n
Configurez une distribution Hadoop &agrave; utiliser avec Big Data Extensions.
n
Cr&eacute;ez un cluster. Reportez-vous &agrave; Chapitre 9, &laquo; Cr&eacute;ation de clusters Hadoop et HBase &raquo;, page 99.
Proc&eacute;dure
120
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ouvrez le fichier de sp&eacute;cification du cluster dont vous souhaitez configurer les disques de nœuds dans
un &eacute;diteur de texte.
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
3
D&eacute;finissez le param&egrave;tre diskNum sur le nombre de disques que vous souhaitez utiliser par groupe de
nœuds.
Dans cet exemple, le groupe de nœuds worker a &eacute;t&eacute; configur&eacute; pour utiliser trois disques de 40 Go de
stockage au total. Les 40 Go sont r&eacute;partis comme suit entre trois disques de machine virtuelle : 13 Go,
13 Go et 14 Go. Les points de montage des trois disques sont : /mnt/data0, /mnt/data1 et /mnt/data2.
{
&quot;name&quot;: &quot;worker&quot;,
&quot;roles&quot;: [
&quot;hadoop_datanode&quot;,
&quot;hadoop_nodemanager&quot;
],
&quot;instanceNum&quot;: 2,
&quot;cpuNum&quot;: 2,
&quot;memCapacityMB&quot;: 7500,
&quot;storage&quot;: {
&quot;type&quot;: &quot;LOCAL&quot;,
&quot;diskNum&quot;: 3,
&quot;sizeGB&quot;: 40
},
&quot;haFlag&quot;: &quot;off&quot;,
&quot;configuration&quot;: {
&quot;hadoop&quot;: {
}
}
}
4
Ex&eacute;cutez la commande cluster create pour cr&eacute;er un cluster avec la sp&eacute;cification de disques par
groupe de nœuds.
cluster create --name cluster_name --specFile file_path/cluster_spec_file_name
Les nœuds du groupe de travail utiliseront alors le nombre de disques sp&eacute;cifi&eacute;, avec pour r&eacute;pertoires de
points de montage /mnt/data0, /mnt/data1 et /mnt/data2.
R&eacute;cup&eacute;rer d'une d&eacute;faillance disque avec le client d'interface de ligne
de commande Serengeti
Dans le cas d'une d&eacute;faillance de disque dans un cluster, si le disque ne joue aucun r&ocirc;le de gestion tel que
NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez r&eacute;cup&eacute;rer &agrave; l'aide la
commande Serengeti cluster fix.
Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des donn&eacute;es (configur&eacute;s
en tant que JBOD). En cas de d&eacute;faillance de plusieurs disques, le nœud de donn&eacute;es Hadoop peut s'&eacute;teindre.
Big Data Extensions vous permet de r&eacute;cup&eacute;rer des d&eacute;faillances de disque.
Serengeti prend en charge la r&eacute;cup&eacute;ration apr&egrave;s un &eacute;change ou une d&eacute;faillance de disque sur toutes les
distributions Hadoop prises en charge. Les disques sont r&eacute;cup&eacute;r&eacute;s et d&eacute;marr&eacute;s l'un apr&egrave;s l'autre pour &eacute;viter
la perte temporaire de plusieurs nœuds &agrave; la fois. Les nouveaux disques correspondent au type de stockage
et aux strat&eacute;gies de placement des disques d&eacute;faillants qu'ils remplacent.
VMware, Inc.
121
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
La distribution MapR ne prend pas en charge la r&eacute;cup&eacute;ration d'une d&eacute;faillance de disque &agrave; l'aide de la
commande cluster fix.
IMPORTANT M&ecirc;me si vous avez modifi&eacute; le mot de passe utilisateur sur les nœuds du cluster, le mot de passe
modifi&eacute; n'est pas utilis&eacute; pour les nouveaux nœuds cr&eacute;&eacute;s par l'op&eacute;ration de r&eacute;cup&eacute;ration de disque. Si vous
avez d&eacute;fini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez cr&eacute;&eacute; le cluster, ce
mot de passe est utilis&eacute; pour les nouveaux nœuds. Si vous n'avez pas d&eacute;fini le mot de passe initial de
l'administrateur pour le cluster lorsque vous avez cr&eacute;&eacute; le cluster, de nouveaux mots de passe al&eacute;atoires sont
utilis&eacute;s pour les nouveaux nœuds.
Proc&eacute;dure
1
Acc&eacute;dez &agrave; l'interface de ligne de commandeSerengeti.
2
Ex&eacute;cutez la commande cluster fix.
Le param&egrave;tre nodeGroup est facultatif.
cluster fix --name cluster_name --disk [--nodeGroup nodegroup_name]
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de
commande Serengeti
Pour r&eacute;soudre les probl&egrave;mes ou ex&eacute;cuter vos scripts d'automatisation de la gestion, connectez-vous aux
nœuds Hadoop master, worker et client via SSH &agrave; partir du Serengeti Management Server &agrave; l'aide des outils
des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de
passe.
Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion
authentifi&eacute;e par un nom d'utilisateur et un mot de passe. Tous les nœuds d&eacute;ploy&eacute;s sont prot&eacute;g&eacute;s par un mot
de passe soit al&eacute;atoire, soit d&eacute;fini par l'utilisateur, qui a &eacute;t&eacute; attribu&eacute; lors de la cr&eacute;ation du cluster.
Pr&eacute;requis
Utilisez le vSphere Web Client pour vous connecter &agrave; vCenter Server, et v&eacute;rifiez que la machine virtuelle
Serengeti Management Server est en cours d'ex&eacute;cution.
Proc&eacute;dure
1
Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et s&eacute;lectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe dispara&icirc;t de l'&eacute;cran de la console, appuyez sur Ctrl+D pour revenir &agrave;
l'invite de commande.
2
Utilisez vSphere Web Client pour vous connecter au nœud Hadoop.
Le mot de passe de l'utilisateur root appara&icirc;t sur la console de la machine virtuelle dans
vSphere Web Client.
3
Modifiez le mot de passe du nœud Hadoop en ex&eacute;cutant la commande set-password -u.
sudo /opt/serengeti/sbin/set-password -u
122
VMware, Inc.
Surveillance de l'environnement Big
Data Extensions
11
Vous pouvez surveiller l'&eacute;tat des clusters d&eacute;ploy&eacute;s sur Serengeti, y compris leurs banques de donn&eacute;es, leurs
r&eacute;seaux et leurs pools de ressources &agrave; l'aide de l'interface de ligne de commande Serengeti. Vous pouvez
&eacute;galement afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont
&eacute;galement disponibles dans vSphere Web Client.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Activer le collecteur de donn&eacute;es Big Data Extensions &raquo;, page 123
n
&laquo; D&eacute;sactiver le collecteur de donn&eacute;es Big Data Extensions &raquo;, page 124
n
&laquo; Afficher l'&eacute;tat d'initialisation du serveur de gestion Serengeti &raquo;, page 124
n
&laquo; Afficher les clusters provisionn&eacute;s dans vSphere Web Client &raquo;, page 125
n
&laquo; Afficher les informations des clusters dans vSphere Web Client &raquo;, page 126
n
&laquo; Surveiller l'&eacute;tat de HDFS dans vSphere Web Client &raquo;, page 127
n
&laquo; Surveiller le statut MapReduce dans vSphere Web Client &raquo;, page 128
n
&laquo; Surveiller l'&eacute;tat de HBase dans vSphere Web Client &raquo;, page 129
Activer le collecteur de donn&eacute;es Big Data Extensions
Si vous n'avez pas activ&eacute; le collecteur de donn&eacute;es Big Data Extensions lors de l'installation, vous pouvez le
faire ult&eacute;rieurement. Le programme d'am&eacute;lioration du produit collecte des donn&eacute;es sur l'utilisation des
produits dans votre environnement Big Data Extensions &agrave; des fins d'analyse et de r&eacute;solution des probl&egrave;mes.
Le collecteur de donn&eacute;es recueille quatre types de donn&eacute;es, &agrave; savoir l'encombrement de
Big Data Extensions, des informations sur le fonctionnement et l'environnement, et des snapshots de
clusters.
Pr&eacute;requis
n
Lisez la description du programme d'am&eacute;lioration du produit et d&eacute;cidez si vous souhaitez collecter des
donn&eacute;es et les envoyer &agrave; VMware afin de contribuer &agrave; am&eacute;liorer l'exp&eacute;rience client dans
Big Data Extensions. Reportez-vous &agrave; &laquo; Le programme d'am&eacute;lioration du produit &raquo;, page 22.
n
Installez Big Data Extensions. Reportez-vous &agrave; Chapitre 2, &laquo; Installation de Big Data Extensions &raquo;,
page 17
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions et cliquez sur l'onglet G&eacute;rer.
VMware, Inc.
123
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Dans le volet Programme d'am&eacute;lioration du produit, cliquez sur Modifier.
La bo&icirc;te de dialogue Programme d'am&eacute;lioration du produit s'affiche.
4
Cochez la case Programme d'am&eacute;lioration du produit.
Suivant
Vous pourrez d&eacute;sactiver le collecteur de donn&eacute;es ult&eacute;rieurement si vous ne souhaitez plus participer au
Programme d'am&eacute;lioration du produit. Reportez-vous &agrave; &laquo; D&eacute;sactiver le collecteur de donn&eacute;es Big Data
Extensions &raquo;, page 124.
D&eacute;sactiver le collecteur de donn&eacute;es Big Data Extensions
Le Programme d'am&eacute;lioration du produit collecte des donn&eacute;es sur l'utilisation des produits dans votre
environnement Big Data Extensions &agrave; des fins d'analyse et de r&eacute;solution des probl&egrave;mes si n&eacute;cessaire. Si vous
ne souhaitez pas participer &agrave; ce programme, vous pouvez d&eacute;sactiver le collecteur de donn&eacute;es de
Big Data Extensions.
Le collecteur de donn&eacute;es recueille quatre types de donn&eacute;es, &agrave; savoir l'encombrement de
Big Data Extensions, des informations sur le fonctionnement et l'environnement, et des snapshots de
clusters. Si vous d&eacute;sactivez le Programme d'am&eacute;lioration du produit, ces donn&eacute;es ne sont pas disponibles
pour le d&eacute;pannage et la r&eacute;solution des probl&egrave;mes.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; Big Data Extensions.
2
S&eacute;lectionnez Big Data Extensions et cliquez sur l'onglet G&eacute;rer.
3
Dans le volet Programme d'am&eacute;lioration du produit, cliquez sur Modifier.
La bo&icirc;te de dialogue Programme d'am&eacute;lioration du produit s'affiche.
4
D&eacute;cochez la case Activer le programme d'am&eacute;lioration du produit.
Suivant
Vous pourrez activer le collecteur de donn&eacute;es ult&eacute;rieurement si vous souhaitez participer au Programme
d'am&eacute;lioration du produit. Reportez-vous &agrave; &laquo; Activer le collecteur de donn&eacute;es Big Data Extensions &raquo;,
page 123.
Afficher l'&eacute;tat d'initialisation du serveur de gestion Serengeti
Vous pouvez afficher l'&eacute;tat d'initialisation des services du serveur de gestion Serengeti, consulter les
messages d'erreur pour r&eacute;soudre les probl&egrave;mes et restaurer les services qui ont pu rencontrer des probl&egrave;mes
de d&eacute;marrage.
Big Data Extensions peut rencontrer des probl&egrave;mes de d&eacute;marrage pour de nombreuses raisons. Le portail
d'administration du serveur de gestion Serengeti vous permet d'afficher l'&eacute;tat d'initialisation des services
Serengeti, de consulter les messages d'erreur de chaque service pour r&eacute;soudre les probl&egrave;mes et de restaurer
les services qui ont pu rencontrer des probl&egrave;mes de d&eacute;marrage.
Pr&eacute;requis
124
n
Assurez-vous de conna&icirc;tre l'adresse IP du serveur de gestion Serengeti auquel vous voulez vous
connecter.
n
Assurez-vous de disposer des informations d'identification de connexion de l'utilisateur root du
serveur de gestion Serengeti.
VMware, Inc.
Chapitre 11 Surveillance de l'environnement Big Data Extensions
Proc&eacute;dure
1
Ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL du portail d'administration du serveur de gestion
Serengeti.
https://management-server-ip-address:5480
2
Tapez root pour le nom d'utilisateur, tapez le mot de passe, puis cliquez sur Connexion.
3
Cliquez sur l'onglet R&eacute;sum&eacute;.
Les services du serveur de gestion Serengeti et leur &eacute;tat de fonctionnement s'affichent sur la page
R&eacute;sum&eacute;.
4
Effectuez l'une des op&eacute;rations suivantes.
Option
Description
Afficher l'&eacute;tat d'initialisation
Cliquez sur Details (D&eacute;tails). La bo&icirc;te de dialogue Serengeti Server Setup
(Configuration du serveur Serengeti) vous permet de consulter l'&eacute;tat
d'initialisation du serveur de gestion Serengeti. En cas d'&eacute;chec de
l'initialisation du serveur de gestion Serengeti, un message d'erreur
contenant des informations de d&eacute;pannage s'affiche. Une fois les probl&egrave;mes
r&eacute;solus, un bouton Retry (R&eacute;essayer) vous permet de red&eacute;marrer le service
concern&eacute;.
Afficher les services du serveur
Chef
Cliquez sur Chef Server (Serveur Chef) dans l'arborescence pour
d&eacute;velopper la liste des services Chef.
Restauration d'un service apr&egrave;s un
arr&ecirc;t ou un &eacute;chec
Cliquez sur Recover (Restaurer) pour red&eacute;marrer un service apr&egrave;s un arr&ecirc;t
ou un &eacute;chec. Si un service &eacute;choue en raison d'une erreur de configuration,
vous devez d'abord r&eacute;soudre le probl&egrave;me &agrave; l'origine de l'&eacute;chec avant de
pouvoir restaurer le service.
Actualiser
Cliquez sur Refresh (Actualiser) pour mettre &agrave; jour les informations
affich&eacute;es sur la page R&eacute;sum&eacute;.
Suivant
En cas d'erreur, les rubriques de d&eacute;pannage fournissent des solutions aux probl&egrave;mes que vous pouvez
rencontrer lors de l'utilisation de Big Data Extensions. Reportez-vous &agrave; Chapitre 14, &laquo; D&eacute;pannage &raquo;,
page 141.
Afficher les clusters provisionn&eacute;s dans vSphere Web Client
Vous pouvez afficher les clusters d&eacute;ploy&eacute;s dans Big Data Extensions, notamment les informations indiquant
si le cluster est en cours d'ex&eacute;cution, le type de distribution Hadoop utilis&eacute;e par un cluster et le nombre et le
type de nœuds du cluster.
Pr&eacute;requis
n
Cr&eacute;ez un ou plusieurs clusters dont vous pouvez afficher les informations.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
S&eacute;lectionnez Clusters Big Data.
Les informations sur tous les clusters provisionn&eacute;s figurent dans le panneau droit.
VMware, Inc.
125
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 11‑1. Informations de cluster
Option
Description
Nom
Nom du cluster.
&Eacute;tat
&Eacute;tat du cluster.
Distribution
Distribution Hadoop utilis&eacute;e par le cluster.
Mode &eacute;lasticit&eacute;
Mode &eacute;lasticit&eacute; utilis&eacute; par le cluster.
Partages d'E/S
disque
Partages d'E/S disque utilis&eacute;s par le cluster.
Ressources
Pool de ressources ou cluster vCenter Server utilis&eacute; par le cluster Big Data.
G&eacute;r&eacute; par
Gestionnaire d'applications qui g&egrave;re le cluster.
Informations
Nombre et type de nœuds du cluster.
Progression
Messages d'&eacute;tat des actions ex&eacute;cut&eacute;es sur le cluster.
Afficher les informations des clusters dans vSphere Web Client
Utilisez vSphere Web Client pour afficher les machines virtuelles ex&eacute;cutant chaque nœud, l'attribution des
ressources, les adresses IP et les informations de stockage de chaque nœud dans le cluster Hadoop.
Pr&eacute;requis
n
Cr&eacute;ez un ou plusieurs clusters Hadoop.
n
D&eacute;marrez le cluster Hadoop.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
Cliquez sur un cluster Big Data.
Les informations au sujet du cluster apparaissent dans le panneau droit, dans l'onglet Nœuds.
Tableau 11‑2. Informations de cluster
126
Colonne
Description
Groupe de nœuds
R&eacute;pertorie par type tous les nœuds du cluster.
Nom de VM
Nom de la machine virtuelle sur laquelle un nœud est en cours d'ex&eacute;cution.
R&eacute;seau de gestion
Adresse IP de la machine virtuelle.
H&ocirc;te
Nom d'h&ocirc;te, adresse IP ou nom de domaine complet (FQDN) de l'h&ocirc;te ESXi sur lequel la
machine virtuelle fonctionne.
VMware, Inc.
Chapitre 11 Surveillance de l'environnement Big Data Extensions
Tableau 11‑2. Informations de cluster (suite)
5
Colonne
Description
&Eacute;tat
La machine virtuelle signale les types d'&eacute;tat suivants :
n N'existe pas. &Eacute;tat avant la cr&eacute;ation d'une instance de machine virtuelle dans vSphere.
n Sous tension. La machine virtuelle est sous tension apr&egrave;s la configuration des disques
virtuels et du r&eacute;seau.
n MV Pr&ecirc;te. Une machine virtuelle d&eacute;marre et l'IP est pr&ecirc;te.
n Service Pr&ecirc;t. Les services de la machine virtuelle ont &eacute;t&eacute; provisionn&eacute;s.
n &Eacute;chec de lancement. Les services de la machine virtuelle n'ont pas &eacute;t&eacute; provisionn&eacute;s.
n Hors tension. La machine virtuelle est hors tension.
n Alerte de service. Un probl&egrave;me critique est signal&eacute; pour les services de la machine
virtuelle.*
n Service en mauvais &eacute;tat. Un probl&egrave;me d'&eacute;tat est signal&eacute; pour les services de la machine
virtuelle.*
* V&eacute;rifiez les informations dans le gestionnaire d'applications correspondant.
T&acirc;che
&Eacute;tat des op&eacute;rations Serengeti en cours.
Dans l'onglet Nœuds, s&eacute;lectionnez un groupe de nœuds.
Les informations sur le groupe de nœuds figurent dans le panneau de d&eacute;tails des nœuds de l'onglet
Nœuds.
Tableau 11‑3. D&eacute;tail des nœuds du cluster
Champ
Description
Groupe de nœuds
Nom du groupe de nœuds s&eacute;lectionn&eacute;.
Nom de VM
Nom de la machine virtuelle du groupe de nœuds.
R&eacute;seau de gestion
R&eacute;seau utilis&eacute; pour le trafic de gestion.
R&eacute;seau HDFS
R&eacute;seau utilis&eacute; pour le trafic de HDFS.
R&eacute;seau MapReduce
R&eacute;seau utilis&eacute; pour le trafic de MapReduce.
H&ocirc;te
Nom d'h&ocirc;te, adresse IP ou nom de domaine complet
(FQDN) de l'h&ocirc;te ESXi sur lequel la machine virtuelle
fonctionne.
vCPU
Nombre de CPU virtuels attribu&eacute;s au nœud.
RAM
Quantit&eacute; de RAM utilis&eacute;e par le nœud.
REMARQUE La taille de la RAM qui appara&icirc;t pour chaque
nœud indique la RAM attribu&eacute;e, et non la RAM utilis&eacute;e.
Stockage
Quantit&eacute; de stockage attribu&eacute;e &agrave; la machine virtuelle
ex&eacute;cutant le nœud.
Erreur
Indique un &eacute;chec de nœud.
Surveiller l'&eacute;tat de HDFS dans vSphere Web Client
Lorsque vous configurez une distribution Hadoop &agrave; utiliser avec Big Data Extensions, le logiciel Hadoop
inclut Hadoop Distributed File System (HDFS). Vous pouvez surveiller la sant&eacute; et l'&eacute;tat de HDFS &agrave; partir de
vSphere Web Client. La page HDFS vous permet de parcourir le syst&egrave;me de fichier Hadoop, d'afficher les
fichiers journaux NameNode et de consulter les informations des clusters, notamment les informations sur
les nœuds vivants, morts et hors service et sur le stockage NameNode.
HDFS est le principal stockage distribu&eacute; utilis&eacute; par les applications Hadoop. Un cluster HDFS se compose
d'un NameNode qui g&egrave;re les m&eacute;tadonn&eacute;es du syst&egrave;me de fichier et de DataNodes qui stockent les donn&eacute;es
r&eacute;elles.
VMware, Inc.
127
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Pr&eacute;requis
n
Cr&eacute;ez un ou plusieurs clusters Hadoop.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
S&eacute;lectionnez le cluster dont vous souhaitez consulter l'&eacute;tat HDFS, dans l'onglet Big Data Cluster List
(Liste des clusters Big Data).
5
S&eacute;lectionnez Ouvrir la page d'&eacute;tat HDFS dans le menu Actions.
Les informations sur l'&eacute;tat HDFS apparaissent sur une nouvelle page Web.
REMARQUE Si vous utilisez Big Data Extensions dans un environnement vCenter Server avec IPv6, le
vSphere Web Client ne peut pas acc&eacute;der &agrave; la page d'&eacute;tat HDFS, qui utilise l'adresse IPv4. Pour afficher
la page d'&eacute;tat HDFS, ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL qui s'affiche dans le message
d'erreur lorsque vous essayez d'acc&eacute;der &agrave; la page d'&eacute;tat comme indiqu&eacute; dans cette proc&eacute;dure.
Surveiller le statut MapReduce dans vSphere Web Client
Le logiciel Hadoop inclut MapReduce, un cadriciel destin&eacute; au traitement des donn&eacute;es distribu&eacute;es. Vous
pouvez surveiller le statut MapReduce vSphere Web Client. La page Web de MapReduce contient des
informations au sujet de la programmation et l'ex&eacute;cution de t&acirc;ches, des t&acirc;ches termin&eacute;es et des fichiers
journaux.
Pr&eacute;requis
n
Cr&eacute;ez un ou plusieurs clusters Hadoop dont vous pouvez surveiller le statut MapReduce.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
S&eacute;lectionnez le cluster dont vous souhaitez consulter le statut MapReduce, dans l'onglet Big Data
Cluster List (Liste des clusters Big Data).
5
S&eacute;lectionnez Open MapReduce Status Page (Ouvrir la page du statut MapReduce) dans le menu
Actions.
Les informations sur le statut MapReduce apparaissent sur une nouvelle page Web.
REMARQUE Si vous utilisez Big Data Extensions dans un environnement vCenter Server avec IPv6,
vSphere Web Client ne peut pas acc&eacute;der &agrave; la page du statut MapReduce, qui utilise l'adresse IPv4. Pour
afficher la page du statut MapReduce, ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL qui s'affiche dans
le message d'erreur lorsque vous essayez d'acc&eacute;der &agrave; la page de statut comme indiqu&eacute; dans cette
proc&eacute;dure.
128
VMware, Inc.
Chapitre 11 Surveillance de l'environnement Big Data Extensions
Surveiller l'&eacute;tat de HBase dans vSphere Web Client
HBase est la base de donn&eacute;es Hadoop. Vous pouvez surveiller la sant&eacute; et l'&eacute;tat de votre cluster HBase ainsi
que les tableaux qu'il h&eacute;berge, &agrave; partir de vSphere Web Client.
Pr&eacute;requis
Cr&eacute;ez un ou plusieurs clusters HBase.
Proc&eacute;dure
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
S&eacute;lectionnez Big Data Extensions.
3
Dans la liste d'inventaire, s&eacute;lectionnez Clusters Big Data.
4
Dans l'onglet Big Data Cluster List (Liste des clusters Big Data), s&eacute;lectionnez le cluster dont vous
souhaitez voir l'&eacute;tat HBase.
5
Dans le menu Actions, s&eacute;lectionnez Ouvrir la page d'&eacute;tat HBase.
Les informations sur l'&eacute;tat HBase apparaissent sur une nouvelle page Web.
REMARQUE Si vous utilisez Big Data Extensions dans un environnement vCenter Server avec IPv6, le
vSphere Web Client ne peut pas acc&eacute;der &agrave; la page d'&eacute;tat HBase, qui utilise l'adresse IPv4. Pour afficher
la page d'&eacute;tat HBase, ouvrez un navigateur Web et acc&eacute;dez &agrave; l'URL qui s'affiche dans le message
d'erreur lorsque vous essayez d'acc&eacute;der &agrave; la page d'&eacute;tat comme indiqu&eacute; dans cette proc&eacute;dure.
VMware, Inc.
129
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
130
VMware, Inc.
Acc&egrave;s aux donn&eacute;es Hive avec JDBC
ou ODBC
12
Vous pouvez ex&eacute;cuter les requ&ecirc;tes Hive &agrave; partir de l'application Java Database Connectivity (JDBC) ou
Open Database Connectivity (ODBC) en utilisant les pilotes JDBC et ODBC de Hive.
Vous pouvez acc&eacute;der aux donn&eacute;es depuis Hive &agrave; l'aide de JDBC ou d'ODBC.
Pilote JDBC de Hive
Hive fournit un pilote JDBC de Type 4 (pure Java), d&eacute;fini dans la classe
org.apache.hadoop.hive.jdbc.HiveDriver. Lorsqu'elle est configur&eacute;e avec un JDBC URI de forme
jdbc:hive://host:port/dbname, une application Java peut se connecter &agrave; un serveur Hive fonctionnant sur
l'h&ocirc;te et le port indiqu&eacute;s. Le pilote &eacute;met des appels vers une interface int&eacute;gr&eacute;e par Hive Thrift Client &agrave; l'aide
des liaisons Java Thrift.
Si vous le souhaitez, vous pouvez vous connecter &agrave; Hive via JDBC en mode embarqu&eacute; &agrave; l'aide de l'URI
jdbc:hive://. En mode embarqu&eacute;, Hive ex&eacute;cute dans le m&ecirc;me JVM que l'application qu'il appelle. Vous
n'avez pas besoin de le lancer comme serveur autonome, car il n'utilise pas le service Thrift ou Hive Thrift
Client.
Pilote ODBC de Hive
Le pilote ODBC de Hive permet aux applications qui prennent en charge le protocole ODBC de se connecter
&agrave; Hive. Tout comme le pilote JDBC, le pilote ODBC utilise Thrift pour communiquer avec le serveur Hive.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Configurer Hive pour travailler avec JDBC &raquo;, page 131
n
&laquo; Configurer Hive pour travailler avec ODBC &raquo;, page 133
Configurer Hive pour travailler avec JDBC
Le pilote JDBC de Hive vous permet d'acc&eacute;der &agrave; Hive &agrave; partir d'un programme Java que vous avez &eacute;crit ou
d'une application Business Intelligence ou similaire qui utilise JDBC pour communiquer avec les produits de
base de donn&eacute;es.
Le port JDBC 2.0 par d&eacute;faut est 21050. Hive accepte les connexions JDBC via le port 21050 par d&eacute;faut.
V&eacute;rifiez que le port est disponible pour communiquer avec les autres h&ocirc;tes de votre r&eacute;seau. Par exemple,
v&eacute;rifiez que le port n'est pas bloqu&eacute; par le logiciel pare-feu.
Pr&eacute;requis
Vous devez avoir une application capable d'utiliser le pilote JDBC de Hive pour vous connecter &agrave; un serveur
Hive.
VMware, Inc.
131
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au nœud du serveur
Hive.
2
Cr&eacute;ez le fichier HiveJdbcClient.java avec le code Java pour vous connecter au serveur Hive.
import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;
public class HiveJdbcClient {
private static String driverName = &quot;org.apache.hadoop.hive.jdbc.HiveDriver&quot;;
/**
* @param args
* @throws SQLException
**/
public static void main(String[] args) throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e){
// TODO Auto-generated catch block
e.printStackTrace();
System.exit(1);
}
Connection con = DriverManager.getConnection(&quot;jdbc:hive://localhost:10000/default&quot;,
&quot;&quot;, &quot;&quot;);
Statement stmt = con.createStatement();
String tableName = &quot;testHiveDriverTable&quot;;
stmt.executeQuery(&quot;drop table &quot; + tableName);
ResultSet res = stmt.executeQuery(&quot;create table &quot; + tableName + &quot; (key int, value
string)&quot;);
// show tables
String sql = &quot;show tables '&quot; + tableName + &quot;'&quot;;
System.out.println(&quot;Running: &quot; + sql);
res = stmt.executeQuery(sql);
if (res.next()) {
System.out.println(res.getString(1));
}
// describe table
sql = &quot;describe &quot; + tableName;
System.out.println(&quot;Running: &quot; + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1) + &quot;\t&quot; + res.getString(2));
}
// load data into table
// NOTE: filepath has to be local to the hive server
// NOTE: /tmp/test_hive_server.txt is a ctrl-A separated file with two fields per
line
String filepath = &quot;/tmp/test_hive_server.txt&quot;;
sql = &quot;load data local inpath '&quot; + filepath + &quot;' into table &quot; + tableName;
System.out.println(&quot;Running: &quot; + sql);
res = stmt.executeQuery(sql);
// select * query
sql = &quot;select * from &quot; + tableName;
132
VMware, Inc.
Chapitre 12 Acc&egrave;s aux donn&eacute;es Hive avec JDBC ou ODBC
System.out.println(&quot;Running: &quot; + sql);
res = stmt.executeQuery(sql);
while (res.next()){
System.out.println(String.valueOf(res.getInt(1)) + &quot;\t&quot; + res.getString(2));
}
// regular hive query
sql = &quot;select count(1) from &quot; + tableName;
System.out.println(&quot;Running: &quot; + sql);
res = stmt.executeQuery(sql);
while (res.next()){
System.out.println(res.getString(1));
}
}
}
3
Ex&eacute;cutez le code JDBC en utilisant l'une des m&eacute;thodes suivantes.
u
Ex&eacute;cutez la commande javac en identifiant le code Java contenant le code JDBC.javac
HiveJdbcClient.java
u
Ex&eacute;cutez un script shell pour alimenter le fichier de donn&eacute;es, d&eacute;finissez le classpath et appelez le
client JDBC.
L'exemple ci-dessous utilise la distribution Apache Hadoop 1.1.2. Si vous utilisez une autre distribution
Hadoop, vous devez mettre &agrave; jour la valeur de la variable HADOOP_CORE pour la faire correspondre &agrave; la
version de la distribution que vous utilisez.
#!/bin/bash
HADOOP_HOME=/usr/lib/hadoop
HIVE_HOME=/usr/lib/hive
echo -e '1\x01foo' &gt; /tmp/test_hive_server.txt
echo -e '2\x01bar' &gt;&gt; /tmp/test_hive_server.txt
HADOOP_CORE=`ls /usr/lib/hadoop-1.1.2/hadoop-core-*.jar`
CLASSPATH=.:$HADOOP_CORE:$HIVE_HOME/conf
for jar_file_name in ${HIVE_HOME}/lib/*.jar
do
CLASSPATH=$CLASSPATH:$jar_file_name
done
java -cp $CLASSPATH HiveJdbcClient
Les deux m&eacute;thodes permettent d'&eacute;tablir une connexion JDBC avec le serveur Hive &agrave; l'aide des informations
de l'h&ocirc;te et du port que vous indiquez dans l'application Java ou le script shell.
Configurer Hive pour travailler avec ODBC
Le pilote ODBC de Hive vous permet d'acc&eacute;der &agrave; Hive &agrave; partir d'un programme que vous avez &eacute;crit ou
d'une application Business Intelligence ou similaire qui utilise ODBC pour communiquer avec les produits
de base de donn&eacute;es.
Pour acc&eacute;der aux donn&eacute;es de Hive &agrave; l'aide d'ODBC, utilisez le pilote ODBC recommand&eacute; pour l'utilisation
avec votre distribution Hadoop.
Pr&eacute;requis
n
V&eacute;rifiez que le pilote ODBC de Hive prend en charge l'application ou le produit tiers que vous
souhaitez utiliser.
n
T&eacute;l&eacute;chargez un connecteur ODBC appropri&eacute; et configurez-le pour pouvoir l'utiliser avec votre
environnement.
n
Configurer un nom de source de donn&eacute;es (DSN)
VMware, Inc.
133
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Les DSN indiquent comment l'application se connecte &agrave; Hive ou &agrave; d'autres produits de base de
donn&eacute;es. Consultez la documentation de votre application pour savoir comment elle se connecte &agrave; Hive
ou &agrave; d'autres produits de base de donn&eacute;es &agrave; l'aide d'ODBC.
Proc&eacute;dure
1
Ouvrez l'administrateur de source de donn&eacute;es d'ODBC dans le menu D&eacute;marrer de Windows.
2
Cliquez sur l'onglet System DSN (DSN syst&egrave;me), puis sur Ajouter.
3
S&eacute;lectionnez le pilote ODBC que vous souhaitez utiliser avec votre distribution Hadoop, puis cliquez
sur Finish (Terminer).
4
Saisissez les valeurs dans les champs suivants.
Option
Description
Nom de la source de donn&eacute;es
Saisissez un nom qui servira &agrave; identifier le DSN.
H&ocirc;te
Nom d'h&ocirc;te complet ou adresse IP du nœud ex&eacute;cutant le service Hive.
Port
Num&eacute;ro de port du service Hive. Le niveau par d&eacute;faut est 21000.
Type de serveur Hive
D&eacute;finissez sur HiveServer1 ou HiveServer2.
Authentification
Si vous utilisez Hiveserver2, indiquez les informations suivantes.
M&eacute;canisme. D&eacute;finissez sur le nom d'utilisateur.
n Nom d'utilisateur. Nom d'utilisateur servant &agrave; ex&eacute;cuter les requ&ecirc;tes
Hive.
n
5
Cliquez sur OK.
6
Cliquez sur Test pour tester la connexion ODBC.
7
Apr&egrave;s avoir v&eacute;rifi&eacute; que la connexion marche, cliquez sur Finish (Terminer).
Le nouveau connecteur ODBC appara&icirc;t dans la liste User Data Sources (Sources de donn&eacute;es
d'utilisateur).
Suivant
Configurez l'application pour travailler avec le service Hive de votre distribution Hadoop. Consultez la
documentation de votre application pour savoir comment elle se connecte &agrave; Hive ou &agrave; d'autres produits de
base de donn&eacute;es &agrave; l'aide d'ODBC.
134
VMware, Inc.
13
R&eacute;f&eacute;rence de s&eacute;curit&eacute; Big Data
Extensions
Utilisez la r&eacute;f&eacute;rence de s&eacute;curit&eacute; pour conna&icirc;tre les fonctions de s&eacute;curit&eacute; de votre installation
Big Data Extensions et les mesures que vous pouvez prendre pour prot&eacute;ger votre environnement des
attaques.
n
Services, ports r&eacute;seau et interfaces externes page 135
Le fonctionnement de Big Data Extensions d&eacute;pend de certains services, ports et interfaces externes.
n
Fichiers de configuration de Big Data Extensions page 138
Certains fichiers de configuration de Big Data Extensions contiennent des param&egrave;tres qui peuvent
affecter la s&eacute;curit&eacute; de votre environnement.
n
Cl&eacute; publique, certificat et KeyStore Big Data Extensions page 138
La cl&eacute; publique, le certificat et le Keystore Big Data Extensions se situent sur le
Serengeti Management Server.
n
Fichiers journaux Big Data Extensions page 138
Les fichiers contenant des messages syst&egrave;me sont situ&eacute;s sur le Serengeti Management Server
n
Comptes d'utilisateurs Big Data Extensions page 139
Vous devez configurer un compte d'utilisateur administratif et un compte d'utilisateur racine pour
administrer Big Data Extensions.
n
Correctifs et mises &agrave; jour de s&eacute;curit&eacute; page 140
Vous pouvez appliquer des correctifs et des mises &agrave; jour de s&eacute;curit&eacute; d&egrave;s qu'ils sont publi&eacute;s par
VMware ou les fournisseurs de syst&egrave;mes d'exploitation et de distributions Hadoop.
Services, ports r&eacute;seau et interfaces externes
Le fonctionnement de Big Data Extensions d&eacute;pend de certains services, ports et interfaces externes.
Services Big Data Extensions
Le fonctionnement de Big Data Extensions d&eacute;pend de plusieurs services qui s'ex&eacute;cutent sur le vApp
Big Data Extensions.
Tableau 13‑1. Services Big Data Extensions
Nom des services
Type d&eacute;marrage
Description
HTTP
Automatique
Acc&egrave;s &agrave; distance s&eacute;curis&eacute; &agrave; la console
du serveur Web Apache.
sshd
Automatique
Acc&egrave;s &agrave; distance s&eacute;curis&eacute; &agrave; la console.
VMware, Inc.
135
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 13‑1. Services Big Data Extensions (suite)
Nom des services
Type d&eacute;marrage
Description
rsyslog
Automatique
Le service rsyslog est un d&eacute;mon
syslog multithread am&eacute;lior&eacute;
Tomcat
Automatique
Tomcat Server qui ex&eacute;cute le service
Web Big Data Extensions
Thrift Service
Automatique
Courtier de communication entre le
service Web Big Data Extensions et le
processus knife du serveur Chef.
Chef Server
Automatique
Chef est un outil et une infrastructure
de gestion des configurations open
source. Le Chef Server est le principal
composant de l'infrastructure Chef.
Nginx
Automatique
Nginx fait partie du Chef Server et
joue le r&ocirc;le de proxy pour la gestion
de toutes les requ&ecirc;tes envers l'API
Chef Server .
Postgres
Automatique
Le serveur de base de donn&eacute;es est
utilis&eacute; par le Chef Server et le service
Web Big Data Extensions.
Ports de communication Big Data Extensions
Big Data Extensions utilise plusieurs ports et protocoles de communication.
Le tableau ci-dessous indique les ports &agrave; l'&eacute;coute du Serengeti Management Server (&eacute;galement appel&eacute;
serveur de gestion Big Data Extensions) pour toutes les adresses r&eacute;seau locales et externes.
Tableau 13‑2. Services et ports r&eacute;seau Serengeti Management Server
Nom du service
Ports
Protocole
&Eacute;couter sur le port local ?
httpd
433/TCP
HTTP
Non
sshd
22/TCP
SSH
Non
Tomcat
8080/TCP, 8443/TCP
HTTP, HTTPS
Non
nginx
9080/TCP, 9443/TCP
HTTP, HTTPS
Non
Service Thrift
9090
TCP
Oui
postgres
5432
Postgres
Oui
Ports de communication de nœuds HBase et Hadoop Big Data Extensions
Big Data Extensions d&eacute;ploie des clusters Hadoop et HBase qui utilisent leurs ports par d&eacute;faut pour les
nœuds de cluster qu'ils d&eacute;ploient.
Tableau 13‑3. Ports utilis&eacute;s par les clusters Hadoop cr&eacute;&eacute;s avec Big Data Extensions
Nom du service
Nom du d&eacute;mon
Ports
Protocole
HDFS
Page Web NameNode
50070/TCP
HTTP
RPC NameNode
8020/TCP
RPC
DataNode
50075/TCP, 50010/TCP,
50020/TCP
RPC
Page Web JobTracker
50030/TCP
HTTP
RPC JobTracker
8021/TCP
RPC
MapReduce
136
VMware, Inc.
Chapitre 13 R&eacute;f&eacute;rence de s&eacute;curit&eacute; Big Data Extensions
Tableau 13‑3. Ports utilis&eacute;s par les clusters Hadoop cr&eacute;&eacute;s avec Big Data Extensions (suite)
Nom du service
Yarn
Hive
Nom du d&eacute;mon
Ports
Protocole
TaskTracker
50060/TCP
RPC
Page Web du gestionnaire
de ressources
8088/TCP
HTTP
RPC du gestionnaire de
ressources
8030/TCP, 8031/TCP,
8032/TCP, 8033/TCP
RPC
NodeManager
8040/TCP, 8042/TCP
RPC
Hive Server
10000/TCP
RPC
Tableau 13‑4. Ports utilis&eacute;s par les clusters HBase cr&eacute;&eacute;s avec Big Data Extensions
Nom du service
Ports
Protocole
Zookeeper
2181/TCP
Zookeeper
HBase Master
60000/TCP, 60010/TCP
RPC
HBase RegionServer
60020/TCP, 60030/TCP
RPC
Service Thrift HBase
9090/TCP, 9095/TCP
RPC
Service REST HBase
8080/TCP, 8085/TCP
HTTP
Tableau 13‑5. Ports utilis&eacute;s par les clusters MapR cr&eacute;&eacute;s avec Big Data Extensions
Nom du service
Ports
CLDB
7222
Port de surveillance CLDB JMX
7220
Port Web CLDB
7221
HBase Master
60000
HBase Master (pour la GUI)
60010
HBase RegionServer
60020
Hive Metastore
9083
Page Web JobTracker
50030
RPC JobTracker
8021
Serveur MFS
5660
MySQL
3306
NFS
2049
Contr&ocirc;le NFS (pour la HA)
9997
Gestion NFS
9998
Dispositif de mappage des ports
111
TaskTracker
50060
HTTPS de l'UI Web
8443
Zookeeper
5180
VMware, Inc.
Protocole
RPC
137
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Fichiers de configuration de Big Data Extensions
Certains fichiers de configuration de Big Data Extensions contiennent des param&egrave;tres qui peuvent affecter la
s&eacute;curit&eacute; de votre environnement.
Fichiers de configuration de Big Data Extensions contenant des ressources
li&eacute;es &agrave; la s&eacute;curit&eacute;
Toutes les ressources li&eacute;es &agrave; la s&eacute;curit&eacute; sont accessibles &agrave; partir des comptes d'utilisateurs serengeti et
racine. Pour la s&eacute;curit&eacute; de Big Data Extensions, il est essentiel de prot&eacute;ger ces comptes d'utilisateurs.
Tableau 13‑6. Fichiers de configuration contenant des ressources li&eacute;es &agrave; la s&eacute;curit&eacute;
Fichier
Description
/opt/serengeti/tomcat/conf/server.xml
Fichier de configuration pour le serveur Tomcat, qui
contient les ports r&eacute;seau et les emplacements et mots de
passe des fichiers KeyStore SSL.
/opt/serengeti/conf/vc.properties
Fichier de configuration KeyStore pour le service Web
Big Data Extensions.
/var/opt/opscode/nginx/etc/nginx.conf
Fichier de configuration pour le serveur Web Nginx, qui
inclut les ports r&eacute;seau et les informations sur le certificat.
/etc/httpd/conf.d/ssl.conf
Fichier de configuration pour le serveur Web httpd.
Cl&eacute; publique, certificat et KeyStore Big Data Extensions
La cl&eacute; publique, le certificat et le Keystore Big Data Extensions se situent sur le
Serengeti Management Server.
Toutes les ressources li&eacute;es &agrave; la s&eacute;curit&eacute; sont accessibles &agrave; partir des comptes d'utilisateurs serengeti et
racine. Pour la s&eacute;curit&eacute; de Big Data Extensions, il est essentiel de prot&eacute;ger ces comptes d'utilisateurs.
Tableau 13‑7. Cl&eacute; publique, certificat et KeyStore Big Data Extensions
Emplacement du fichier
VMware
/opt/serengeti/.certs/
Tomcat
/var/opt/opscode/nginx/ca/
Nginx
/etc/pki/tls/private/
httpd
/etc/pki/tls/certs/
httpd
Fichiers journaux Big Data Extensions
Les fichiers contenant des messages syst&egrave;me sont situ&eacute;s sur le Serengeti Management Server
Big Data Extensions utilise les fichiers journaux suivants pour suivre et enregistrer les messages syst&egrave;me et
les &eacute;v&eacute;nements. Les fichiers journaux sont situ&eacute;s sur le Serengeti Management Server et sur le serveur Chef.
Tableau 13‑8. Fichiers journaux Big Data Extensions
138
Fichier
Description
/opt/serengeti/logs/serengeti.log
Suit et enregistre les &eacute;v&eacute;nements pour le service Web
Big Data Extensions.
/opt/serengeti/logs/ironfan.log
Suit et enregistre les &eacute;v&eacute;nements lors du provisionnement
de nouveaux clusters &agrave; l'aide du gestionnaire
d'applications par d&eacute;faut.
VMware, Inc.
Chapitre 13 R&eacute;f&eacute;rence de s&eacute;curit&eacute; Big Data Extensions
Tableau 13‑8. Fichiers journaux Big Data Extensions (suite)
Fichier
Description
/opt/serengeti/logs/serengeti-boot.log
Suit et enregistre les &eacute;v&eacute;nements lors du d&eacute;marrage du
serveur Big Data Extensions.
/opt/serengeti/logs/serengeti-upgrade.log
Suit et enregistre les &eacute;v&eacute;nements lors de la mise &agrave; niveau
de Big Data Extensions et des nœuds de cluster.
/opt/serengeti/logs/provision-hook.log
Suit et enregistre les &eacute;v&eacute;nements lors de l'ex&eacute;cution de
hooks pendant le provisionnement du cluster.
sudo chef-server-ctl tail
Pour suivre les fichiers journaux du serveur Chef, ex&eacute;cutez
la commande tail sur le service chef-server-ctl .
Messages de journaux li&eacute;s &agrave; la s&eacute;curit&eacute;
Big Data Extensions ne fournit pas de messages journaux li&eacute;s &agrave; la s&eacute;curit&eacute;.
Comptes d'utilisateurs Big Data Extensions
Vous devez configurer un compte d'utilisateur administratif et un compte d'utilisateur racine pour
administrer Big Data Extensions.
Compte d'utilisateur racine Big Data Extensions
Le mot de passe racine du Serengeti Management Server est g&eacute;n&eacute;r&eacute; al&eacute;atoirement lorsque vous mettez le
vApp Big Data Extensions sous tension pour la premi&egrave;re fois. Le mot de passe est visible dans la console de
la machine virtuelle de Big Data Extensions dans vSphere Web Client.
Le mot de passe des nœuds Big Data Extensions dans un cluster est g&eacute;n&eacute;r&eacute; al&eacute;atoirement lors de la cr&eacute;ation
du cluster ou sp&eacute;cifi&eacute; par l'utilisateur avant sa cr&eacute;ation.
Les mots de passe doivent contenir 8 &agrave; 20 caract&egrave;res, utiliser uniquement des caract&egrave;res ASCII inf&eacute;rieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caract&egrave;res sp&eacute;ciaux suivants : _, @, #, $, %, ^, &amp;, *
Uniquement les caract&egrave;res ASCII inf&eacute;rieurs visibles (pas d'espaces)
Compte d'utilisateur administratif Big Data Extensions
L'utilisateur administratif Big Data Extensions est le compte d'utilisateur serengeti, qui dispose de
privil&egrave;ges sudo. Le mot de passe utilisateur serengeti est identique &agrave; celui de l'utilisateur racine. Vous
pouvez modifier le mot de passe en ex&eacute;cutant la commande sudo /opt/serengeti/sbin/set-password -u
sur le Serengeti Management Server.
Vous pouvez sp&eacute;cifier le mot de passe de l'utilisateur serengeti en ex&eacute;cutant la commande passwd
serengeti. Le mot de passe de l'utilisateur serengeti peut &ecirc;tre diff&eacute;rent de celui attribu&eacute; &agrave; l'utilisateur
racine.
Pour g&eacute;rer Big Data Extensions, vous devez vous connecter au Serengeti Management Server en tant
qu'utilisateur serengeti. Une fois que vous &ecirc;tes connect&eacute; en tant qu'utilisateur serengeti, vous pouvez
apporter des modifications au compte d'utilisateur racine si n&eacute;cessaire.
Prise en charge d'Active Directory et d'OpenLDAP
Big Data Extensions prend en charge l'int&eacute;gration avec Active Directory et OpenLDAP. Lorsqu'ils sont
configur&eacute;s pour fonctionner avec Active Directory ou OpenLDAP, le Serengeti Management Server et les
nœuds du cluster peuvent authentifier ou autoriser les utilisateurs en fonction de votre r&eacute;pertoire utilisateur
Active Directory ou OpenLDAP.
VMware, Inc.
139
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Correctifs et mises &agrave; jour de s&eacute;curit&eacute;
Vous pouvez appliquer des correctifs et des mises &agrave; jour de s&eacute;curit&eacute; d&egrave;s qu'ils sont publi&eacute;s par VMware ou
les fournisseurs de syst&egrave;mes d'exploitation et de distributions Hadoop.
Versions du syst&egrave;me d'exploitation Big Data Extensions
Big Data Extensions utilise les syst&egrave;mes d'exploitation et versions suivants.
n
Le dispositif virtuel Big Data Extensions utilise CentOS 6.7 (x86_64) et CentOS 6.7 (x86_64) en tant que
syst&egrave;mes d'exploitation invit&eacute;s.
n
Serengeti Management Server utilise CentOS 6.7.
n
Les nœuds du cluster Big Data Extensions utilisent CentOS 6.7.
Application des correctifs et des mises &agrave; jour de s&eacute;curit&eacute;
Pour appliquer des correctifs et des mises &agrave; jour de s&eacute;curit&eacute;, utilisez les proc&eacute;dures de mise &agrave; niveau
classiques. Par exemple, utilisez la mise &agrave; niveau Yum ou RPM. Reportez-vous &agrave; Chapitre 3, &laquo; Mise &agrave; niveau
de Big Data Extensions &raquo;, page 35.
140
VMware, Inc.
D&eacute;pannage
14
Les rubriques de d&eacute;pannage apportent des solutions aux probl&egrave;mes susceptibles de se produire lors de
l'utilisation de Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
&laquo; Fichiers journaux pour le d&eacute;pannage &raquo;, page 142
n
&laquo; Configurer les niveaux de journalisation Serengeti &raquo;, page 142
n
&laquo; Collecter les fichiers journaux &agrave; des fins de d&eacute;pannage &raquo;, page 143
n
&laquo; R&eacute;solution des &eacute;checs de cr&eacute;ation d'un cluster &raquo;, page 144
n
&laquo; La mise &agrave; niveau du dispositif virtuel de Big Data Extensions &eacute;choue. &raquo;, page 150
n
&laquo; Erreur de mise &agrave; niveau du cluster lors de l'utilisation du cluster cr&eacute;&eacute; dans une version ant&eacute;rieure de
Big Data Extensions &raquo;, page 151
n
&laquo; Impossible de connecter le plug-in Big Data Extensions au serveur Serengeti &raquo;, page 152
n
&laquo; Les connexions &agrave; vCenter Server &eacute;chouent. &raquo;, page 152
n
&laquo; Le serveur de gestion ne peut pas se connecter &agrave; vCenter Server &raquo;, page 153
n
&laquo; Erreur de certificat SSL lors de la connexion &agrave; un serveur autre que Serengeti avec la console
vSphere &raquo;, page 153
n
&laquo; Impossible de red&eacute;marrer ou de reconfigurer un cluster pour lequel l'heure n'est pas synchronis&eacute;e &raquo;,
page 153
n
&laquo; Impossible de red&eacute;marrer ou de reconfigurer un cluster apr&egrave;s la modification de sa distribution &raquo;,
page 154
n
&laquo; La machine virtuelle ne peut pas obtenir d'adresse IP et la commande &eacute;choue. &raquo;, page 154
n
&laquo; Impossible de modifier l'adresse IP du serveur Serengeti dans vSphere Web Client &raquo;, page 155
n
&laquo; Une nouvelle instance de plug-in avec un num&eacute;ro de version identique ou ant&eacute;rieure &agrave; une instance
de plug-in pr&eacute;c&eacute;dente ne se charge pas. &raquo;, page 155
n
&laquo; Le nom d'h&ocirc;te et le FQDN ne correspondent pas pour le serveur de gestion Serengeti. &raquo;, page 156
n
&laquo; Les op&eacute;rations de Serengeti &eacute;chouent apr&egrave;s que vous ayez renomm&eacute; une ressource dans vSphere. &raquo;,
page 157
n
&laquo; Big Data Extensions Le serveur refuse les noms de ressource comptant au moins deux espaces blancs
&agrave; la suite. &raquo;, page 157
n
&laquo; Les caract&egrave;res non ASCII ne s'affichent pas correctement. &raquo;, page 157
n
&laquo; L'ex&eacute;cution de la t&acirc;che MapReduce &eacute;choue et n'appara&icirc;t pas dans l'historique des t&acirc;ches. &raquo;, page 158
VMware, Inc.
141
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
&laquo; Impossible d'envoyer des t&acirc;ches MapReduce pour les clusters de calcul uniquement avec l'HDFS
Isilon externe &raquo;, page 158
n
&laquo; La t&acirc;che MapReduce ne r&eacute;pond plus sur un cluster PHD ou CDH4 YARN. &raquo;, page 159
n
&laquo; Impossible de t&eacute;l&eacute;charger le paquet &agrave; l'aide du plug-in Downloadonly &raquo;, page 159
n
&laquo; Impossible de trouver des paquets avec la recherche Yum &raquo;, page 159
n
&laquo; Supprimer HBase Rootdir dans HDFS avant de supprimer le cluster uniquement HBase &raquo;, page 160
Fichiers journaux pour le d&eacute;pannage
Big Data Extensions et Serengeti cr&eacute;ent des fichiers journaux qui procurent des informations syst&egrave;me et des
informations d'&eacute;tat pouvant servir &agrave; r&eacute;soudre les probl&egrave;mes de d&eacute;ploiement et de fonctionnement.
Tableau 14‑1. Journaux
Cat&eacute;gorie
Nom de fichier
Informations
Emplacement
Journal de d&eacute;marrage de
l'application virtuelle
Serengeti
n
serengeti-boot.log
Messages de d&eacute;lai de
d&eacute;ploiement, que vous
pouvez utiliser pour
r&eacute;soudre un probl&egrave;me de
d&eacute;ploiement.
/opt/serengeti/logs
Journal de service du
serveur Serengeti
n
serengeti.log
Fichiers journaux de
composants du service
Web.
/opt/serengeti/logs
Journal d'installation et de
configuration du serveur
Serengeti
n
ironfan.log
Informations d'installation
et de configuration de
logiciel.
/opt/serengeti/logs
Fichiers journaux de VMware vSphere ESXi et vCenter Server
En plus des fichiers journaux Big Data Extensions et Serengeti, vSphere ESXi et vCenter Server cr&eacute;ent des
fichiers journaux qui fournissent des informations syst&egrave;me et des informations d'&eacute;tat pouvant servir &agrave;
r&eacute;soudre les probl&egrave;mes de d&eacute;ploiement et de fonctionnement.
Si vous rencontrez des messages d'erreur commen&ccedil;ant par la formule &Eacute;chec d'ex&eacute;cution de la commande
vCenter Server :, v&eacute;rifiez vos fichiers journaux vSphere ESXi et vCenter Server pour obtenir plus
d'informations utiles au d&eacute;pannage. Vous pouvez voir les fichiers journaux de plusieurs fa&ccedil;ons selon qu'ils
sont destin&eacute;s &agrave; vCenter Server ou &agrave; un h&ocirc;te ESXi. Reportez-vous &agrave; la documentation de VMware vSphere
ESXi et vCenter Server pour conna&icirc;tre la version de vos produits ESXi et vCenter Server
Configurer les niveaux de journalisation Serengeti
Les t&acirc;ches syst&egrave;me et principales de Serengeti utilisent Apache log4j, avec le niveau de journalisation par
d&eacute;faut INFO, pour consigner les messages. Vous pouvez configurer le niveau de journalisation pour
personnaliser la quantit&eacute; et le type d'informations affich&eacute;s dans les journaux du syst&egrave;me et des &eacute;v&eacute;nements.
Le fait d'activer la journalisation &agrave; un niveau donn&eacute; permet &eacute;galement d'activer la journalisation &agrave; tous les
niveaux sup&eacute;rieurs.
Les niveaux sont les suivants (dans l'ordre d&eacute;croissant) :
142
n
GRAVE (valeur la plus &eacute;lev&eacute;e)
n
AVERTISSEMENT
n
INFO
n
CONFIG
VMware, Inc.
Chapitre 14 D&eacute;pannage
n
FIN
n
PLUS FIN
n
LE PLUS FIN (valeur la plus faible)
Il existe &eacute;galement un niveau D&Eacute;SACTIV&Eacute; qui permet de d&eacute;sactiver la journalisation, et un niveau TOUS
permettant d'activer la journalisation de tous les messages.
Proc&eacute;dure
1
Ouvrez le fichier /opt/serengeti/conf/log4j.properties pour le modifier.
2
Modifier le niveau de journalisation.
3
Enregistrez les modifications et fermez le fichier.
4
Arr&ecirc;tez et red&eacute;marrez les services Serengeti.
Collecter les fichiers journaux &agrave; des fins de d&eacute;pannage
Vous pouvez collecter des fichiers journaux sur le Serengeti Management Server ou sur les nœuds d'un
cluster pour vous aider, ainsi que l'&eacute;quipe de support VMware, &agrave; r&eacute;soudre les probl&egrave;mes.
Si vous indiquez le nom d'un cluster dans la commande, les fichiers journaux suivants sont collect&eacute;s sur
chaque nœud du cluster sp&eacute;cifi&eacute;.
n
/var/log/hadoop
n
/var/log/hbase
n
/var/log/zookeeper
n
/var/log/gphd
n
/opt/mapr/logs
n
/opt/mapr/hadoop/hadoop/logs
n
/var/chef/cache/chef-stacktrace.out
Si vous n'indiquez aucun nom de cluster dans la commande, les fichiers journaux suivants sont collect&eacute;s sur
le Serengeti Management Server.
n
/opt/serengeti/logs
n
/opt/serengeti/conf
n
/var/log/messages
REMARQUE Les fichiers journaux qui sont collect&eacute;s sur chaque nœud ou sur le Serengeti Management Server
sont configur&eacute;s dans les fichiers /opt/serengeti/etc/support/cluster.files
et /opt/serengeti/etc/support/serengeti.files, respectivement. Pour changer les fichiers journaux &agrave;
collecter, modifiez le fichier FILES applicable.
Proc&eacute;dure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Remplacez le r&eacute;pertoire par celui dans lequel vous souhaitez stocker les fichiers journaux.
3
Ex&eacute;cutez le script serengeti-support.sh.
serengeti-support.sh cluster_name
Big Data Extensions collecte les fichiers journaux et les enregistre dans un fichier .tar unique dans le
r&eacute;pertoire Serengeti Management Server &agrave; partir duquel la commande a &eacute;t&eacute; ex&eacute;cut&eacute;e.
VMware, Inc.
143
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
R&eacute;solution des &eacute;checs de cr&eacute;ation d'un cluster
Le processus de cr&eacute;ation d'un cluster peut &eacute;chouer pour de nombreuses raisons. Si la cr&eacute;ation d'un cluster
&eacute;choue, essayez de reprendre le processus.
Vous pouvez utiliser l'une de ces m&eacute;thodes pour reprendre le processus de cr&eacute;ation d'un cluster.
n
Si vous avez cr&eacute;&eacute; le cluster avec l'interface de ligne de commande Serengeti, ex&eacute;cutez la commande
cluster create ... --resume.
n
Si vous avez cr&eacute;&eacute; le cluster avec vSphere Web Client, s&eacute;lectionnez le cluster, cliquez avec le bouton
droit de la souris et s&eacute;lectionnez Resume (Reprendre).
Si vous ne pouvez pas reprendre le processus et cr&eacute;er le cluster, reportez-vous aux rubriques de d&eacute;pannage
de cette section.
Erreur non autoris&eacute;e 401 d'&eacute;chec du lancement
Lorsque vous ex&eacute;cutez la commande cluster create ou cluster create ... --resume, celle-ci peut
&eacute;chouer. Les raisons de cet &eacute;chec sont r&eacute;pertori&eacute;es dans le fichier journal correspondant d'installation et de
configuration du serveur Serengeti, /opt/serengeti/logs/ironfan.log.
Probl&egrave;me
La commande cluster create ou cluster create ... --resume &eacute;choue.
n
Sur l'interface de ligne de commande, un message d'erreur appara&icirc;t :
Bootstrap Failed
n
Dans le fichier journal d'installation et de configuration du serveur
Serengeti, /opt/seregeti/logs/ironfan.log, un message d'erreur appara&icirc;t :
[Fri, 09 Aug 2013 01:24:01 +0000] INFO: *** Chef 11.X.X *** [Fri, 09 Aug 2013 01:24:01
+0000] INFO: Client key /home/ubuntu/chef-repo/client.pem is not present - registering [Fri,
09 Aug 2013 01:24:01 +0000] INFO: HTTP Request Returned 401 Unauthorized: Failed to
authenticate. Please synchronize the clock on your client [Fri, 09 Aug 2013 01:24:01 +0000]
FATAL: Stacktrace dumped to /var/chef/cache/chef-stacktrace.out [Fri, 09 Aug 2013 01:24:01
+0000] FATAL: Net::HTTPServerException: 401 &quot;Unauthorized&quot;
Cause
Cette erreur appara&icirc;t si le serveur de gestion Serengeti et les horloges de la machine virtuelle qui ont &eacute;chou&eacute;
ne sont pas synchronis&eacute;s.
Solution
Dans vSphere Client, configurez tous les h&ocirc;tes ESXi de sorte qu'ils synchronisent leurs horloges avec le
m&ecirc;me serveur NTP.
Apr&egrave;s avoir r&eacute;gl&eacute; les horloges, vous pouvez ex&eacute;cuter la commande cluster create ... --resume pour
terminer le processus de provisionnement du cluster.
144
VMware, Inc.
Chapitre 14 D&eacute;pannage
Impossible de cr&eacute;er un cluster avec le fichier hdfs-hbase-template-spec.json
Si vous utilisez le fichier /opt/serengeti/conf/hdfs-hbase-template-spec.json sur la machine virtuelle du
serveur Serengeti pour cr&eacute;er un cluster, la cr&eacute;ation du cluster &eacute;choue.
Probl&egrave;me
La commande cluster create ou cluster create ... --resume &eacute;choue, et l'interface de ligne de commande
affiche le message d'erreur suivant :
cluster cluster_name create failed: Unrecognized field &quot;groups&quot; (Class
com.vmware.bdd.apitypes.ClusterCreate), not marked as ignorable at [Source:
java.io.StringReader@7563a320; line: 3, column: 13] (through reference chain:
com.vmware.bdd.apitypes.ClusterCreate[&quot;groups&quot;])
Cause
Le fichier /opt/serengeti/conf/hdfs-hbase-template-spec.json est uniquement destin&eacute; &agrave; l'utilisation
interne du serveur de gestion Serengeti. Il ne s'agit pas d'un fichier de sp&eacute;cification de cluster valide.
Solution
Cr&eacute;ez votre propre fichier de sp&eacute;cification de cluster.
Vous trouverez des exemples d fichiers de sp&eacute;cification de cluster dans le
r&eacute;pertoire /opt/serengeti/samples.
Espace de stockage insuffisant
Si les ressources de stockage ne sont pas suffisantes lorsque vous ex&eacute;cutez la commande cluster create ou
cluster create ... --resume, la cr&eacute;ation du cluster &eacute;choue.
Probl&egrave;me
La commande cluster create ou cluster create ... --resume &eacute;choue, et l'interface de ligne de commande
ou l'interface du plug-in Big Data Extensions affiche le message d'erreur suivant :
cluster $CLUSTER_NAME create failed: Cannot find a host with enough storage to place base nodes
[$NODE_NAME].
Node $NODE_NAME placed on host $HOST_NAME. Node $NODE_NAME placed on host $HOST_NAME. You must
add datastores on these hosts [$HOST_NAMES] to use them with the node group [$GROUP_NAME].
Cause
Cette erreur appara&icirc;t si l'espace de banque de donn&eacute;es n'est pas suffisant.
Solution
1
Examinez le fichier /opt/serengeti/logs/serengeti.log et recherchez la formule cannot find host
with enough.
Cette information montre l'instantan&eacute; du serveur Serengeti pour l'environnement du cluster vCenter
Server juste apr&egrave;s l'&eacute;chec de la mise en place.
Vous pouvez &eacute;galement trouver des informations sur le nom de la banque de donn&eacute;es et sa capacit&eacute;.
Vous pouvez par ailleurs trouver le fichier de sp&eacute;cification du cluster que vous avez utilis&eacute; et les
informations sur les nœuds qui ont bien &eacute;t&eacute; mis en place.
VMware, Inc.
145
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
2
Examinez le fichier de sp&eacute;cification du cluster.
Il d&eacute;finit les crit&egrave;res de la banque de donn&eacute;es du cluster et d&eacute;termine l'espace disponible sur la banque
de donn&eacute;e que vous avez ajout&eacute;e &agrave; Serengeti. Servez-vous de ces informations pour savoir quel
stockage a un espace insuffisant.
Par exemple, si la capacit&eacute; de la banque de donn&eacute;es LOCALE est insuffisante pour les nœuds worker,
vous devez ajouter d'autres banques de donn&eacute;es LOCALES au serveur Serengeti et les attribuer au
cluster.
&Eacute;chec de t&eacute;l&eacute;chargement de distribution
Si le serveur de la distribution Hadoop est en panne lorsque vous ex&eacute;cutez la commande cluster create ou
cluster create ... --resume, la cr&eacute;ation du cluster &eacute;choue.
Probl&egrave;me
La raison de l'&eacute;chec de la commande est consign&eacute;e dans un journal.
n
Pour les distributions d&eacute;ploy&eacute;es sur tarball, le message d'erreur suivant appara&icirc;t sur l'interface de ligne
de commande ou l'interface de plug-in Big Data Extensions :
Unable to run command 'execute[install hadoop-1.2.1 from tarball]' on node xftest-client-0.
SSH to this node and run the command 'sudo chef-client' to view error messages.
n
Pour les distributions d&eacute;ploy&eacute;es sur Yum, le message d'erreur suivant appara&icirc;t sur l'interface de ligne
de commande ou l'interface de plug-in Big Data Extensions :
Cannot bootstrap node xfbigtop-master-0.
remote_file[/etc/yum.repos.d/bigtop2.repo] (hadoop_common::add_repo line 85) had an error:
Net::HTTPServerException: 404 &quot;Not Found&quot;
SSH to this node and view the log file /var/chef/cache/chef-stacktrace.out, or run the
command 'sudo chef-client' to view error messages.
Cause
Le serveur de paquet est en panne.
n
Pour les distributions d&eacute;ploy&eacute;es sur tarball, le serveur de paquet est le serveur de gestion Serengeti.
n
Pour les distributions d&eacute;ploy&eacute;es sur Yum, le serveur de paquet est la source de la distribution d&eacute;ploy&eacute;e
sur Yum : soi le r&eacute;f&eacute;rentiel Yum officiel soit votre serveur Yum local.
Solution
1
2
146
V&eacute;rifiez que le paquet est accessible.
Type de distribution
Server
d&eacute;ploy&eacute;e sur tarball
V&eacute;rifiez que le service httpd du serveur de gestion Serengeti est en cours
d'ex&eacute;cution.
d&eacute;ploy&eacute;e sur Yum
V&eacute;rifiez que les URL du fichier de r&eacute;f&eacute;rentiel Yum sont correctement
configur&eacute;es dans le fichier manifeste.
V&eacute;rifiez que vous pouvez t&eacute;l&eacute;charger le fichier n&eacute;cessaire &agrave; partir du nœud qui a &eacute;chou&eacute;.
Type de distribution
Fichier n&eacute;cessaire
d&eacute;ploy&eacute;e sur tarball
tarball
d&eacute;ploy&eacute;e sur Yum
fichier de r&eacute;f&eacute;rentiel Yum
VMware, Inc.
Chapitre 14 D&eacute;pannage
L'adresse IP du serveur de gestion Serengeti change de mani&egrave;re impr&eacute;vue.
L'adresse IP du serveur de gestion Serengeti change de mani&egrave;re impr&eacute;vue.
Probl&egrave;me
Lorsque vous cr&eacute;ez un cluster apr&egrave;s que l'adresse IP du serveur de gestion Seregenti est chang&eacute;e, le
processus de cr&eacute;ation du cluster &eacute;choue avec un &eacute;chec de lancement.
Cause
Le param&egrave;tre du r&eacute;seau est DHCP.
Solution
Red&eacute;marrez la machine virtuelle du serveur de gestion Serengeti.
Apr&egrave;s avoir d&eacute;connect&eacute; un h&ocirc;te de vCenter Server, le processus de reprise du
cluster &eacute;choue.
Si vous d&eacute;connectez un h&ocirc;te de vCenter Server apr&egrave;s un &eacute;chec de tentative de cr&eacute;ation d'un cluster, vous ne
pouvez pas reprendre la cr&eacute;ation du cluster.
Probl&egrave;me
Si, apr&egrave;s l'&eacute;chec de cr&eacute;ation d'un cluster, vous d&eacute;connectez l'h&ocirc;te concern&eacute; de vCenter Server et essayez de
reprendre le processus de cr&eacute;ation, celui-ci &eacute;choue et vous recevez le message d'erreur suivant : cluster
nom-cluster &eacute;chec de reprise : &Eacute;chec de la cr&eacute;ation du cluster cluster-name de la machine
virtuelle.
Cause
Lorsque vous d&eacute;connectez l'h&ocirc;te de vCenter Server, les machines virtuelles de l'h&ocirc;te ne sont plus
disponibles. Lorsque vous essayez de reprendre la cr&eacute;ation du cluster, le serveur de gestion Serengeti ne
peut pas supprimer les machines virtuelles indisponibles de l'h&ocirc;te d&eacute;connect&eacute;.
Solution
1
Supprimez manuellement les h&ocirc;tes concern&eacute;s de vCenter Server.
2
R&eacute;p&eacute;tez le processus de reprise de cr&eacute;ation de cluster.
Le provisionnement de cluster ne r&eacute;pond plus si les machines virtuelles sont
mises hors tension ou r&eacute;initialis&eacute;es au cours du lancement.
Lorsque vous cr&eacute;ez, configurez ou reprenez la cr&eacute;ation ou la configuration d'un cluster, le processus ne
r&eacute;pond plus.
Probl&egrave;me
Si vous cr&eacute;ez, configurez ou reprenez la cr&eacute;ation ou la configuration d'un cluster en mettant hors tension ou
en r&eacute;initialisant une machine virtuelle en cours de lancement, le processus de provisionnement du cluster ne
r&eacute;pond plus.
Cause
Lorsqu'une machine virtuelle est mise hors tension ou r&eacute;initialis&eacute;e au cours du lancement, sa connexion SSH
ne r&eacute;pond plus.
VMware, Inc.
147
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Solution
1
Effectuez l'une des op&eacute;rations suivantes :
n
Si vous utilisez l'interface de ligne de commande Serengeti, appuyez sur Ctrl+C.
n
Si vous utilisez vSphere Web Client, vous n'avez rien &agrave; faire.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
3
Annulez le processus de provisionnement du cluster qui a &eacute;chou&eacute;.
ps ax | grep knife | grep cluster-name | head -1 | awk '{print $1}' | xargs kill -9
4
Forcez le cluster &agrave; passer &agrave; l'&eacute;tat PROVISION_ERROR.
set-cluster-status.sh cluster-name PROVISION_ERROR
5
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
6
Allumez toutes les machines virtuelles du cluster qui sont hors tension.
7
Reprenez le processus de cr&eacute;ation du cluster.
Si vous avez cr&eacute;&eacute; le cluster avec l'interface de ligne de commande Serengeti, ex&eacute;cutez la commande
n
cluster create ... --resume.
n
Si vous avez cr&eacute;&eacute; le cluster avec vSphere Web Client, s&eacute;lectionnez le cluster, cliquez avec le bouton
droit de la souris et s&eacute;lectionnez Resume (Reprendre).
La t&acirc;che de cr&eacute;ation du cluster HBase &eacute;choue lorsque l'intervalle de temps
entre les nœuds d&eacute;passe 20 secondes.
Si l'intervalle de temps entre les nœuds d&eacute;passe 20 secondes, vous devez synchroniser les intervalles avant
de cr&eacute;er un cluster HBase ou d'ex&eacute;cuter des t&acirc;ches.
Probl&egrave;me
Si vous tentez de cr&eacute;er un cluster HBase avec des nœuds dont les intervalles d&eacute;passent 20 secondes chacun,
la cr&eacute;ation du cluster risque d'&eacute;chouer. Si elle r&eacute;ussit, les t&acirc;ches HBase que vous ex&eacute;cutez &eacute;choueront.
Cause
Pour HBase, l'intervalle entre ses nœuds de serveur ma&icirc;tre et de serveur r&eacute;gion ne doit pas d&eacute;passer
20 secondes.
Solution
1
V&eacute;rifiez que le serveur NTP est en cours d'ex&eacute;cution sur tous les h&ocirc;tes ESXi et que l'intervalle entre tous
les h&ocirc;tes ESXi ne d&eacute;passe pas 20 secondes.
Attendez quelques minutes que les nœuds se synchronisent avec leurs h&ocirc;tes ESXi.
2
V&eacute;rifiez que l'intervalle entre les nœuds du cluster ne d&eacute;passe pas 20 secondes.
a
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de
gestion Serengeti en tant qu'utilisateur serengeti.
b
Ex&eacute;cutez le script serengeti-ssh.sh.
serengeti-ssh.sh hbase_cluster_name date
c
148
Si les intervalles d&eacute;passent 20 secondes chacun, r&eacute;p&eacute;tez les &eacute;tapes 1 et 2.
VMware, Inc.
Chapitre 14 D&eacute;pannage
3
Lancez le processus ou les services qui ont &eacute;chou&eacute;.
Si la cr&eacute;ation du cluster d'origine a &eacute;chou&eacute;, essayez de reprendre le processus de cr&eacute;ation du
cluster.
n
n
Si vous avez cr&eacute;&eacute; le cluster avec l'interface de ligne de commande Serengeti, ex&eacute;cutez la
commande cluster create ... --resume.
n
Si vous avez cr&eacute;&eacute; le cluster avec vSphere Web Client, s&eacute;lectionnez le cluster, cliquez avec le
bouton droit de la souris et s&eacute;lectionnez Resume (Reprendre).
n
Si le processus de reprise du cluster a &eacute;chou&eacute;, essayez de nouveau.
n
Si la cr&eacute;ation du cluster a r&eacute;ussi, mais que l'ex&eacute;cution d'une t&acirc;che a &eacute;chou&eacute;, lancez les services qui
ont &eacute;chou&eacute;.
n
Si vous utilisez l'interface de ligne de commande Serengeti, ex&eacute;cutez les commandes suivantes.
cluster export --name cluster_name --specFile /tmp/1
cluster config --name cluster_name --specFile /tmp/1 --yes
n
Si vous utilisez vSphere Web Client, arr&ecirc;tez et red&eacute;marrez le cluster.
La cr&eacute;ation d'un cluster &agrave; grande &eacute;chelle Big Data Extensions aboutit &agrave; une
erreur d'&eacute;chec de lancement
Si vous cr&eacute;ez un cluster &agrave; grande &eacute;chelle, par exemple 300 nœuds ou plus par cluster, dans
Big Data Extensions, une erreur d'&eacute;chec de lancement peut survenir.
Probl&egrave;me
En r&egrave;gle g&eacute;n&eacute;rale, une connexion de base de donn&eacute;es peut servir &agrave; deux nœuds &agrave; la fois. Ainsi, pour un
cluster comptant 300 nœuds ou plus, 150 connexions de base de donn&eacute;es sont n&eacute;cessaires. Pour &eacute;viter de
recevoir une erreur d'&eacute;chec de lancement, augmentez la taille du pool des connexions de base de donn&eacute;es.
Cause
La taille du pool des connexions de base de donn&eacute;es n'&eacute;tait pas suffisante pour g&eacute;rer la cr&eacute;ation d'un cluster
&agrave; grande &eacute;chelle comportant 300 nœuds ou plus.
Solution
1
Une fois l'application virtuelle Big Data Extensions d&eacute;ploy&eacute;e, connectez-vous &agrave;
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Augmentez la taille du pool des connexions de base de donn&eacute;es.
Option
Description
/etc/opscode/chef-server.rb
Indique l'emplacement auquel configurer la taille du pool de connexions
de base de donn&eacute;es sur Serengeti Management Server.
postgresql['max_connections']
Indique le nombre maximal de connexions de la base de donn&eacute;es
postgresql. Cette valeur est g&eacute;n&eacute;ralement erchef['db_pool_size'] +
100.
opscode_erchef['db_pool_size']
Indique la taille du pool des connexions de base de donn&eacute;es.
sudo sed -i -e &quot;s|opscode_erchef\['db_pool_size'\] .*|opscode_erchef['db_pool_size'] = 150|&quot;
/etc/opscode/chef-server.rb
sudo sed -i -e &quot;s|postgresql\['max_connections'\] .*|postgresql['max_connections'] = 250|&quot;
/etc/opscode/chef-server.rb
sudo chef-server-ctl reconfigure
VMware, Inc.
149
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Impossible de cr&eacute;er un cluster pour lequel l'heure n'est pas synchronis&eacute;e.
Lorsque vous ex&eacute;cutez la commande cluster create ou cluster create ... --resume, celle-ci peut
&eacute;chouer s'il existe des diff&eacute;rences d'heure dans l'environnement.
Probl&egrave;me
La commande cluster create ou cluster create ... --resume &eacute;choue, et l'interface de ligne de commande
ou l'interface du plug-in Big Data Extensions affiche le message d'erreur suivant :
You must synchronize the time of the following hosts [$HOST_NAMES] with the Serengeti Management
Server to use them.
Cause
Avant la cr&eacute;ation de nouvelles machines virtuelles sur des h&ocirc;tes, l'heure sur les h&ocirc;tes cibles est compar&eacute;e &agrave;
celle sur le serveur de gestion Serengeti. Si l'heure n'est pas synchronis&eacute;e entre le serveur de gestion
Serengeti et les h&ocirc;tes, la cr&eacute;ation de la machine virtuelle &eacute;chouera.
Solution
u
Dans vSphere Web Client, configurez tous les h&ocirc;tes ESXi de sorte qu'ils synchronisent leurs horloges
avec le m&ecirc;me serveur NTP.
Suivant
Une fois l'heure synchronis&eacute;e entre le serveur de gestion Serengeti et les autres h&ocirc;tes ESXi dans votre
environnement, essayez de cr&eacute;er un cluster.
La mise &agrave; niveau du dispositif virtuel de Big Data Extensions &eacute;choue.
La mise &agrave; niveau du dispositif virtuel Big Data Extensions peut &eacute;chouer. Si le processus de mise &agrave; niveau
&eacute;choue, vous pouvez r&eacute;essayer de mettre &agrave; niveau.
Probl&egrave;me
La mise &agrave; niveau du dispositif virtuel Big Data Extensions ne marche pas.
Solution
1
Revenez &agrave; l'&eacute;tat pr&eacute;c&eacute;dent des deux machines virtuelles pour le dispositif virtuel Big Data Extensions en
fonction des instantan&eacute;s que vSphere Update Manager a pris.
Utilisez le gestionnaire d'instantan&eacute;s de la machine virtuelle et s&eacute;lectionnez l'instantan&eacute; cr&eacute;&eacute; par
vSphere Update Manager.
2
Red&eacute;marrez le dispositif virtuel.
3
R&eacute;solvez le probl&egrave;me de blocage.
4
Red&eacute;marrez la t&acirc;che de correction.
Cliquez sur Correction sur l'interface utilisateur de vSphere Update Manager pour refaire le processus
de mise &agrave; niveau.
150
VMware, Inc.
Chapitre 14 D&eacute;pannage
Erreur de mise &agrave; niveau du cluster lors de l'utilisation du cluster cr&eacute;&eacute;
dans une version ant&eacute;rieure de Big Data Extensions
Pour permettre au serveur de gestion Serengeti de g&eacute;rer les clusters cr&eacute;&eacute;s dans une version ant&eacute;rieure de Big
Data Extensions, vous devez mettre &agrave; niveau les composants dans les machines virtuelles de chaque cluster.
Le serveur de gestion Serengeti utilise ces composants pour contr&ocirc;ler les nœuds de cluster.
Probl&egrave;me
Quand vous effectuez une mise &agrave; niveau &agrave; partir d'une version ant&eacute;rieure de Big Data Extensions, les
clusters que vous avez besoin de mettre &agrave; niveau apparaissent avec une ic&ocirc;ne d'alerte en regard de leur
nom. Quand vous cliquez sur cette ic&ocirc;ne d'alerte, un message d'erreur vous indiquant de mettre &agrave; niveau le
cluster vers la version la plus r&eacute;cente s'affiche sous la forme d'une info-bulle. Reportez-vous &agrave; &laquo; Afficher les
clusters provisionn&eacute;s dans vSphere Web Client &raquo;, page 125.
Vous pouvez &eacute;galement identifier les clusters qui ont besoin d'une mise &agrave; niveau avec la commande cluster
list. Quand vous ex&eacute;cutez la commande cluster list, le message &laquo; Need Upgrade &raquo; (Mise &agrave; niveau
n&eacute;cessaire) s'affiche l&agrave; o&ugrave; se trouve normalement la version du cluster.
Solution
1
Pour chaque cluster que vous avez cr&eacute;&eacute; dans une version ant&eacute;rieure de Big Data Extensions, v&eacute;rifiez
que tous les nœuds du cluster sont sous tension et dot&eacute;s d'une adresse IP valide.
Si un nœud ne poss&egrave;de pas d'adresse IP valide, il n'est pas possible de le mettre &agrave; niveau vers la
nouvelle version des outils de machine virtuelle Big Data Extensions.
a
Connectez-vous au vSphere Web Client qui est connect&eacute; &agrave; vCenter Server et acc&eacute;dez &agrave; H&ocirc;tes et
clusters.
b
S&eacute;lectionnez le pool de ressources du cluster, s&eacute;lectionnez l'onglet Machines virtuelles, puis
mettez sous tension les machines virtuelles du cluster.
IMPORTANT L'affectation des adresses IP valides aux nœuds de cluster Big Data par vCenter Server peut
prendre jusqu'&agrave; cinq minutes. N'effectuez pas les &eacute;tapes de mise &agrave; niveau restantes tant que les nœuds
n'ont pas re&ccedil;u leurs adresses IP.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
3
Ex&eacute;cutez la commande cluster upgrade pour chaque cluster cr&eacute;&eacute; dans une version ant&eacute;rieure de Big
Data Extensions.
cluster upgrade --name cluster-name
4
Si la mise &agrave; niveau &eacute;choue pour un nœud, assurez-vous que le nœud qui a &eacute;chou&eacute; poss&egrave;de une adresse
IP valide, puis r&eacute;ex&eacute;cutez la commande cluster upgrade.
Vous pouvez r&eacute;ex&eacute;cuter la commande autant de fois que n&eacute;cessaire pour mettre &agrave; niveau tous les
nœuds.
5
VMware, Inc.
Arr&ecirc;tez puis red&eacute;marrez vos clusters Hadoop et HBase.
151
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Impossible de connecter le plug-in Big Data Extensions au serveur
Serengeti
Lorsque vous installez Big Data Extensions sur vSphere 5.5 ou version ult&eacute;rieure, l'authentification de la
connexion &agrave; Serengeti Management Server &eacute;choue.
Probl&egrave;me
Le plug-in Big Data Extensions ne parvient pas &agrave; se connecter au serveur Serengeti.
Cause
Lors du d&eacute;ploiement, le lien Single Sign-On (SSO) n'a pas &eacute;t&eacute; saisi. Serengeti Management Server ne
parvient pas &agrave; authentifier la connexion &agrave; partir du plug-in.
Solution
Utilisez le Portail d'administration de Serengeti Management Server pour configurer les param&egrave;tres SSO.
Reportez-vous &agrave; &laquo; Configurer les param&egrave;tres vCenter Single Sign-On du serveur de gestion Serengeti &raquo;,
page 29.
Si vous ne parvenez toujours pas &agrave; connecter le plug-in Big Data Extensions&agrave; Serengeti Management Server,
vous pouvez recourir &agrave; l'utilitaire EnableSSOAuth.
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur root.
2
Configurez les param&egrave;tres SSO.
n
Si vous utilisez vCenter Server 5.x, utilisez la commande EnableSSOAuth.
EnableSSOAuth https://vCenter-serveur-IP-addresse:7444/lookupservice/sdk
n
Si vous utilisez vCenter Server 6.x, utilisez la commande EnableSSOAuth.
https://FQDN_of_SSO_SERVER:443/lookupservice/sdk
.
3
Red&eacute;marrez le service Tomcat.
/sbin/service tomcat restart
4
Connectez le plug-in Big Data Extensions &agrave; Serengeti Management Server.
Les connexions &agrave; vCenter Server &eacute;chouent.
Le serveur de gestion Serengeti tente de se connecter &agrave; vCenter Server, mais n'y arrive pas.
Probl&egrave;me
Le serveur de gestion Serengeti tente de se connecter &agrave; vCenter Server, mais n'y arrive pas.
Cause
vCenter Server est inaccessible, pour une raison quelconque, notamment des probl&egrave;mes de r&eacute;seau ou un
trop grand nombre de t&acirc;ches en cours d'ex&eacute;cution.
Solution
V&eacute;rifiez que vCenter Server est accessible.
n
152
Connectez-vous &agrave; vCenter Server avec vSphere Web Client ou VMware Infrastructure Client (VI
Client).
VMware, Inc.
Chapitre 14 D&eacute;pannage
n
Sondez par ping l'adresse IP de vCenter Server pour v&eacute;rifier que le serveur de gestion Serengeti se
connecte &agrave; la bonne adresse IP.
Le serveur de gestion ne peut pas se connecter &agrave; vCenter Server
Si vous activez une connexion IPv6 avec vCenter Server et que vous modifiez l'adresse IP, le serveur de
gestion ne peut pas se connecter &agrave; vCenter Server. Vous ne pouvez pas r&eacute;soudre ce probl&egrave;me en
red&eacute;marrant le serveur de gestion.
Solution
1
Utilisez vSphere Web Client pour vous connecter &agrave; vCenter Server.
2
&Eacute;teignez le serveur de gestion.
3
Acc&eacute;dez &agrave; la section Management Server Network 2 Settings (Param&egrave;tres du r&eacute;seau 2 du serveur de
gestion).
4
Dans les options vApp, s&eacute;lectionnez Modifier les param&egrave;tres &gt; Options &gt; Properties (Propri&eacute;t&eacute;s).
5
Saisissez la nouvelle adresse IPv6 pour vCenter Server dans l'article de l'adresse IPv6 de vCenter pour
vous connecter &agrave; la zone de texte.
6
Allumez le serveur de gestion.
Erreur de certificat SSL lors de la connexion &agrave; un serveur autre que
Serengeti avec la console vSphere
Dans vSphere Web Client, vous ne pouvez pas vous connecter &agrave; un serveur autre que Serengeti.
Probl&egrave;me
Lorsque vous utilisez le plug-in Big Data Extensions dans vCenter Server et que vous essayez de vous
connecter &agrave; un serveur autre que Serengeti, vous recevez un message d'erreur.
SSL error:
Check certificate failed.
Please select a correct serengeti server.
Cause
Lorsque vous utilisez le plug-in Big Data Extensions, vous ne pouvez vous connecter qu'aux serveurs
Serengeti.
Solution
Connectez-vous uniquement aux serveurs Serengeti. N'ex&eacute;cutez pas d'op&eacute;rations li&eacute;es au certificat.
Impossible de red&eacute;marrer ou de reconfigurer un cluster pour lequel
l'heure n'est pas synchronis&eacute;e
Lorsque l'&eacute;cart entre l'heure des h&ocirc;tes et de Serengeti Management Server se creuse, le cluster ne peut pas
&ecirc;tre red&eacute;marr&eacute; ni reconfigur&eacute;.
Probl&egrave;me
Le cluster ne d&eacute;marre pas et l'interface de ligne de commande ou l'interface du plug-in Big Data Extensions
affiche le message d'erreur suivant :
Nodes in cluster $CLUSTER_NAME start failure: Synchronize the time of the host [$HOST_NAME(S)]
with the Serengeti Management Server running on $HOST_NAME.
VMware, Inc.
153
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Cause
Cette erreur appara&icirc;t si Serengeti Management Server et les horloges de la machine virtuelle qui ont &eacute;chou&eacute;
ne sont pas synchronis&eacute;es. L'heure de tous les h&ocirc;tes d'un cluster est compar&eacute;e &agrave; celle de
Serengeti Management Server. Si l'heure n'est pas synchronis&eacute;e entre Serengeti Management Server et les
h&ocirc;tes, la machine virtuelle ne d&eacute;marre pas.
Solution
u
Dans vSphere Web Client, configurez tous les h&ocirc;tes ESXi de sorte qu'ils synchronisent leurs horloges
avec le m&ecirc;me serveur NTP.
Apr&egrave;s avoir r&eacute;gl&eacute; les horloges, vous pouvez essayer de d&eacute;marrer ou de reconfigurer le cluster.
Impossible de red&eacute;marrer ou de reconfigurer un cluster apr&egrave;s la
modification de sa distribution
Apr&egrave;s avoir modifi&eacute; le fournisseur ou la version de distribution du cluster (mais pas le nom de distribution),
vous ne pouvez plus red&eacute;marrer ni reconfigurer le cluster.
Probl&egrave;me
Lorsque vous essayez de red&eacute;marrer ou de reconfigurer un cluster apr&egrave;s avoir modifi&eacute; son fournisseur ou sa
version de distribution dans le manifeste, vous recevez le message d'erreur suivant :
Bootstrap Failed
Cause
Lorsque vous modifiez manuellement un fournisseur ou une version de distribution dans le fichier
manifeste en r&eacute;utilisant le m&ecirc;me nom de distribution, le serveur Serengeti ne peut pas d&eacute;marrer le nœud.
Solution
1
R&eacute;cup&eacute;rez le fichier manifeste.
2
Utilisez l'outil config-distro.rb pour ajouter une nouvelle distribution, avec un nom unique, pour
d&eacute;signer le fournisseur et la version de distribution que vous souhaitez.
La machine virtuelle ne peut pas obtenir d'adresse IP et la commande
&eacute;choue.
Une commande Serengeti &eacute;choue et la CLI affiche le message d'erreur suivant : Virtual Machine Cannot Get
IP Address.
Cause
Cette erreur appara&icirc;t lorsqu'une erreur de configuration de r&eacute;seau survient.
Pour l'IP statique, la cause est g&eacute;n&eacute;ralement un conflit d'adresse IP.
Pour DHCP, les causes courantes sont :
n
Le nombre de machines virtuelles qui n&eacute;cessitent que les adresses IP d&eacute;passent les adresses DHCP
disponibles.
n
Le serveur DHCP ne parvient pas &agrave; allouer des adresses suffisantes.
n
Le processus de renouvellement de DHCP a &eacute;chou&eacute; apr&egrave;s l'expiration d'une adresse IP.
Solution
n
154
V&eacute;rifiez que le groupe de ports de vSphere dispose de suffisamment de ports pour la nouvelle machine
virtuelle.
VMware, Inc.
Chapitre 14 D&eacute;pannage
n
Si le r&eacute;seau utilise des adresses IP statiques, v&eacute;rifiez que la plage d'adresses IP n'est pas utilis&eacute;e par une
autre machine virtuelle.
n
Si le r&eacute;seau utilise des adresses DHCP, v&eacute;rifiez qu'une adresse IP peut &ecirc;tre allou&eacute;e &agrave; la nouvelle
machine virtuelle.
Impossible de modifier l'adresse IP du serveur Serengeti dans
vSphere Web Client
Lorsque vous essayez de modifier l'adresse IP du serveur Serengeti dans vSphere Web Client, la proc&eacute;dure
&eacute;choue.
Solution
Pr&eacute;requis
Procurez-vous une adresse IP statique.
Proc&eacute;dure
1
Sur Serengeti Management Server, modifiez le fichier de configuration /etc/sysconfig/networkscripts/ifcfg-eth0 en rempla&ccedil;ant le contenu du fichier par le contenu suivant :
DEVICE=eth0
BOOTPROTO=static
ONBOOT=yes
TYPE=Ethernet
IPADDR=your_static_ip
PREFIX=your_prefix
GATEWAY=your_gateway
DNS1=your_dns1
DNS2=your_dns2
2
Red&eacute;marrez Serengeti Management Server.
&Agrave; son d&eacute;marrage, le syst&egrave;me d'exploitation configure l'adresse IP selon le contenu du nouveau
fichier de configuration.
Une nouvelle instance de plug-in avec un num&eacute;ro de version
identique ou ant&eacute;rieure &agrave; une instance de plug-in pr&eacute;c&eacute;dente ne se
charge pas.
Lorsque vous installez une nouvelle instance de plug-in Big Data Extensions dont la version est identique ou
ant&eacute;rieure &agrave; une instance pr&eacute;c&eacute;dente de plug-in Big Data Extensions, la version pr&eacute;c&eacute;dente se charge &agrave; la
place de la nouvelle version.
Probl&egrave;me
Lorsque vous installez un nouveau plug-in Big Data Extensions dont la version est identique ou ant&eacute;rieure &agrave;
un plug-in pr&eacute;c&eacute;dent Big Data Extensions, la version pr&eacute;c&eacute;dente se charge &agrave; la place de la nouvelle version.
Ce cas de figure se produit m&ecirc;me si vous d&eacute;sinstallez le plug-in pr&eacute;c&eacute;dent.
Cause
Lorsque vous d&eacute;sinstallez une instance de plug-in, vSphere Web Client ne supprime pas le package de
l'instance de plug-in de Serengeti Management Server.
VMware, Inc.
155
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
D&egrave;s que vous installez une instance de plug-in ayant un num&eacute;ro de version identique ou ant&eacute;rieur &agrave;
l'instance de plug-in pr&eacute;c&eacute;dente et que vous essayez de charger la nouvelle instance de plug-in,
vSpheretrouve le package pr&eacute;c&eacute;dent d'instance de plug-in dans son r&eacute;pertoire local. vSphere ne t&eacute;l&eacute;charge
pas le nouveau package d'instance de plug-in &agrave; partir du serveur distant Serengeti Management Server.
Solution
1
D&eacute;sinstallez l'ancienne instance de plug-in.
2
Supprimez l'ancienne instance de plug-in.
n
Pour les instances vCenter Server Appliance, supprimez le dossier /var/lib/vmware/vsphereclient/vc-packages/vsphere-client-serenity/vsphere-bigdataextensions-version.
n
Pour les serveurs vSphere Web Client sous Windows, supprimez le dossier %ProgramData
%/vmware/vSphere Web Client/vc-packages/vsphere-client-serenity/vspherebigdataextensions-version.
3
Red&eacute;marrez vSphere Web Client.
n
Pour les instances de vCenter Server Appliance 5.x, red&eacute;marrez le service vSphere Web Client au
niveau de la console vCenter Server Appliance Web console, http://$vCenter-Server-ApplianceIP:5480.
n
Pour les instances de vCenter Server Appliance 6.x, red&eacute;marrez le service vSphere Web Client en
utilisant vSphere Web Client.
n
4
a
Connectez vous &agrave; vSphere Web Client avec un compte administrateur vCenter Single Sign-on.
b
Acc&eacute;dez &agrave; Administration &gt; D&eacute;ploiement &gt; Configuration syst&egrave;me.
c
Cliquez sur Nœuds, s&eacute;lectionnez le nœud vCenter Server Appliance et cliquez sur l'onglet
&Eacute;l&eacute;ments associ&eacute;s.
d
Effectuez un clic droit sur le service que vous souhaitez d&eacute;marrer et s&eacute;lectionnez D&eacute;marrer.
Pour les serveurs vSphere Web Client sous Windows, red&eacute;marrez le service vSphere Web Client &agrave;
partir de la console de services.
Installez la nouvelle instance de plug-in.
Le nom d'h&ocirc;te et le FQDN ne correspondent pas pour le serveur de
gestion Serengeti.
Le nom d'h&ocirc;te et le nom de domaine complet (FQDN) du serveur de gestion Serengeti doivent correspondre
pour pouvoir ex&eacute;cuter certaines op&eacute;rations de Big Data Extensions, telle que la mise &agrave; niveau.
Probl&egrave;me
Le nom d'h&ocirc;te et le FQDN du serveur de gestion Serengeti ne sont pas les m&ecirc;mes.
Cause
&Agrave; cause de certaines s&eacute;quences des &eacute;tapes de d&eacute;ploiement, le nom d'h&ocirc;te et le FQDN du serveur de gestion
Serengeti peuvent &ecirc;tre diff&eacute;rents.
Solution
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
2
Cr&eacute;ez un nouveau fichier pour le script set_hostname.sh.
touch /tmp/set_hostname.sh
156
VMware, Inc.
Chapitre 14 D&eacute;pannage
3
Ouvrez le fichier /tmp/set_hostname.sh pour le modifier et ajouter les lignes suivantes.
ETHIP=`/sbin/ifconfig eth0 | grep &quot;inet addr&quot; | awk '{print $2}' | sed 's/addr://'`
FQDN=$ETHIP
RET=`/bin/ipcalc --silent --hostname $ETHIP`
if [ &quot;$?&quot; = &quot;0&quot; ]; then
FQDN=`echo $RET | awk -F= '{print $2}'`
fi
echo &quot;set hostname to ${FQDN}&quot;
`hostname ${FQDN}`
4
Enregistrez les modifications et fermez le fichier.
5
Ex&eacute;cutez le script set_hostname.sh.
sudo bash /tmp/set_hostname.sh
Les op&eacute;rations de Serengeti &eacute;chouent apr&egrave;s que vous ayez renomm&eacute;
une ressource dans vSphere.
Apr&egrave;s avoir utilis&eacute; vSphere pour renommer une ressource, les commandes Serengeti &eacute;chouent pour tous les
clusters Serengeti qui utilisent cette ressource.
Probl&egrave;me
Si vous utilisez vSphere pour renommer une ressource Serengeti qui est utilis&eacute;e par les clusters Serengeti
provisionn&eacute;s, les op&eacute;rations de Serengeti &eacute;chouent pour les clusters qui utilisent cette ressource. Ce
probl&egrave;me concerne les pools de ressources, les banques donn&eacute;es et les r&eacute;seaux de vCenter Server que vous
ajoutez dans Serengeti, ainsi que leurs h&ocirc;tes respectifs, les clusters vCenter Server, etc. Le message d'erreur
d&eacute;pend du type de ressource, mais indique g&eacute;n&eacute;ralement que la ressource est inaccessible.
Cause
Pour le mappage des ressources Serengeti, les noms de ressource ne doivent pas &ecirc;tre modifi&eacute;s.
Solution
Utilisez vSphere pour redonner &agrave; la ressource son nom d'origine.
Big Data Extensions Le serveur refuse les noms de ressource
comptant au moins deux espaces blancs &agrave; la suite.
Si vous ins&eacute;rez au moins deux espaces blancs &agrave; la suite dans le nom d'un pool de ressources
Big Data Extensions, d'une banque de donn&eacute;es ou d'un r&eacute;seau, le processus d'ajout &eacute;choue.
Solution
Aucune solution ni aucun correctif ne sont disponibles pour ce probl&egrave;me.
Les caract&egrave;res non ASCII ne s'affichent pas correctement.
Lorsque vous travaillez avec CLI sur une plate-forme Windows, si vous ex&eacute;cutez une commande de script
sur un fichier qui contient des caract&egrave;res non ASCII, certains messages ne s'affichent pas correctement.
Cause
On sait que les caract&egrave;res non ASCII ne sont pas reconnus sur les plates-formes Windows.
Solution
Aucune solution ni aucun correctif ne sont disponibles pour ce probl&egrave;me.
VMware, Inc.
157
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
L'ex&eacute;cution de la t&acirc;che MapReduce &eacute;choue et n'appara&icirc;t pas dans
l'historique des t&acirc;ches.
L'ex&eacute;cution de la t&acirc;che MapReduce soumise &eacute;choue et n'appara&icirc;t pas dans l'historique des t&acirc;ches.
Probl&egrave;me
Lorsque vous soumettez une t&acirc;che MapReduce dont la charge de travail est lourde, elle ne s'ex&eacute;cute pas et
n'appara&icirc;t pas dans l'historique des t&acirc;ches MapReduce.
Cause
Pendant les charges de travail lourdes, le service JobTracker ou NameNode risque d'&ecirc;tre trop charg&eacute; pour
r&eacute;agir &agrave; la surveillance HA de vSphere dans le d&eacute;lai configur&eacute;. Lorsqu'un service ne r&eacute;pond pas &agrave; la
demande HA de vSphere, vSphere red&eacute;marre le service concern&eacute;.
Solution
1
Arr&ecirc;tez le service HMonitor.
Lorsque vous arr&ecirc;tez le service HMonitor, la reprise HA de vSphere est d&eacute;sactiv&eacute;e.
a
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au nœud du
cluster concern&eacute;.
b
Arr&ecirc;tez le service HMonitor.
sudo /etc/init.d/hmonitor-*-monitor stop
2
3
4
Augmentez le d&eacute;lai JobTracker de vSphere.
a
Ouvrez le fichier /user/lib/hadoop/monitor/vm-jobtracker.xml pour le modifier.
b
Recherchez la propri&eacute;t&eacute; service.monitor.probe.connect.timeout.
c
Modifiez la valeur de l'&eacute;l&eacute;ment &lt;value&gt;.
d
Enregistrez les modifications et fermez le fichier.
Augmentez le d&eacute;lai NameNode de vSphere.
a
Ouvrez le fichier /user/lib/hadoop/monitor/vm-namenode.xml pour le modifier.
b
Recherchez la propri&eacute;t&eacute; service.monitor.portprobe.connect.timeout.
c
Modifiez la valeur de l'&eacute;l&eacute;ment &lt;value&gt;.
d
Enregistrez les modifications et fermez le fichier.
D&eacute;marrez le service HMonitor.
sudo /etc/init.d/hmonitor-*-monitor start
Impossible d'envoyer des t&acirc;ches MapReduce pour les clusters de
calcul uniquement avec l'HDFS Isilon externe
Vous n'arrivez pas &agrave; envoyer des t&acirc;ches MapReduce pour les clusters de calcul uniquement qui pointent
vers un HDFS Isilon externe.
Probl&egrave;me
Si vous d&eacute;ployez un cluster de calcul uniquement avec un HDFS externe pointant vers Isilon, le
d&eacute;ploiement s'av&egrave;re r&eacute;ussi. Cependant, JobTracker est en mode s&eacute;curit&eacute;, ce qui ne vous permet pas
d'envoyer des t&acirc;ches MapReduce.
158
VMware, Inc.
Chapitre 14 D&eacute;pannage
Cause
JobTracker n&eacute;cessite un utilisateur nomm&eacute; mapred.
Solution
1
SSH dans le cluster Isilon.
2
Ajoutez l'utilisateur mapred au groupe roue du syst&egrave;me Isilon.
pw useradd mapred -G wheel
La t&acirc;che MapReduce ne r&eacute;pond plus sur un cluster PHD ou CDH4
YARN.
Une t&acirc;che MapReduce ne r&eacute;pond plus sur un cluster PHD ou CDH4 YARN avec un DataNode et un agent
NodeManager, chacun disposant d'une m&eacute;moire de 378 Mo.
Probl&egrave;me
Les t&acirc;ches MapReduce ne r&eacute;pondent plus lorsque vous les ex&eacute;cutez sur un cluster PHD ou CDH4 YARN
avec un data node et un agent NodeManager.
Cause
Ressources en m&eacute;moire insuffisantes.
Solution
1
Cr&eacute;ez un cluster PHD ou CDH4 YARN avec deux DataNode et deux NodeManager.
2
Ex&eacute;cutez de nouveau la t&acirc;che MapReduce.
Impossible de t&eacute;l&eacute;charger le paquet &agrave; l'aide du plug-in Downloadonly
Lorsque vous essayez de configurer un r&eacute;f&eacute;rentiel yum local, il se peut que, lorsque vous utilisez le plug-in
downloadonly, vous puissiez trouver le paquet dont vous avez besoin sans pouvoir le t&eacute;l&eacute;charger.
Solution
1
Ex&eacute;cutez la commande suivante pour v&eacute;rifier si le paquet est bien install&eacute; sur la machine :
yum remove &lt;package_name&gt;
2
Si le paquet est install&eacute; sur la machine, supprimez-le et r&eacute;essayez de le t&eacute;l&eacute;charger.
Impossible de trouver des paquets avec la recherche Yum
Lorsque vous essayez de configurer un r&eacute;f&eacute;rentiel yum local, vous devez t&eacute;l&eacute;charger des paquets pour le
gestionnaire d'applications Cloudera Manager ou Ambari. Les paquets ont &eacute;t&eacute; d&eacute;pos&eacute;s sur le serveur http et
peuvent s'afficher dans un navigateur, mais lorsque vous utilisez la recherche yum, vous n'arrivez pas &agrave;
trouver les paquets dont vous avez besoin.
Cause
Si le fichier r&eacute;f&eacute;rentiel n'est pas install&eacute; correctement ou si vous avez des donn&eacute;es dans le cache yum de
votre syst&egrave;me, ce probl&egrave;me risque de se produire.
Solution
1
V&eacute;rifiez que l'URL du serveur du r&eacute;f&eacute;rentiel yum dans le fichier r&eacute;f&eacute;rentiel est correcte en ce qui
concerne l'emplacement et la version.
2
Utilisez l'outil createrepo pour &ecirc;tre s&ucirc;r d'avoir cr&eacute;&eacute; le r&eacute;pertoire repodata.
VMware, Inc.
159
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Utilisez la commande yum clean all pour nettoyer le cache yum.
4
Relancez la recherche yum pour localiser les paquets.
Supprimer HBase Rootdir dans HDFS avant de supprimer le cluster
uniquement HBase
Apr&egrave;s la suppression d'un cluster uniquement HBase, les donn&eacute;es HBase existent toujours sur HDFS
externe. Vous devez d'abord supprimer HBase Rootdir dans HDFS avant de supprimer le cluster
uniquement HBase.
Cause
HBase rootdir n'a pas &eacute;t&eacute; supprim&eacute; avant la suppression du cluster uniquement HBase.
Solution
Vous pouvez conserver ou supprimer les donn&eacute;es.
Proc&eacute;dure
1
Connectez-vous au nœud master HBase dans le cluster uniquement HBase.
2
Ouvrez le fichier hbase-site.xml et trouvez la valeur de la propri&eacute;t&eacute; hbase.rootdir.
/etc/hbase/conf/hbase-site.xml
3
Ex&eacute;cutez la commande suivante :
hadoop fs -rmr &lt;value_of_hbase.rootdir&gt;
4
160
Supprimez le cluster uniquement HBase dans Big Data Extensions.
VMware, Inc.
Index
A
acc&egrave;s
bases de donn&eacute;es HBase 103
donn&eacute;es Hive 131, 133
interface de ligne de commande 31
acc&egrave;s &agrave; la base de donn&eacute;es HBase 103
activation du collecteur de donn&eacute;es 123
Adresse IP du serveur Serengeti,
modification 155
Adresses IP
ajout de segments aux r&eacute;seaux 96
conflit 154
surveillance 126
affichage
clusters provisionn&eacute;s 125
informations de cluster 126
agrandissement d'un cluster 114
ajout
Banques de donn&eacute;es 91
pools de ressources 89
r&eacute;seaux 94
ajout de serveurs de gestion de logiciels, avec
une interface Web 41
ajouter nouveau 90
ajouter un cluster, avec un gestionnaire
d'applications 109
Ambari, r&eacute;f&eacute;rentiel local 60
annulation de l'enregistrement, plug-in Big Data
Extensions 27
architecture 12
arr&ecirc;t
clusters 113
Serengeti, services 75
authentification utilisateur, v&eacute;rifier 82
authentification utilisateur, v&eacute;rifier, v&eacute;rifier 83
B
Banques de donn&eacute;es
ajout 91
suppression 92
besoins de stockage en attachement direct 17
besoins en ressources
cluster Hadoop 17
serveur de gestion vSphere et mod&egrave;les 17
besoins en ressources pour le serveur de
gestion vSphere 17
VMware, Inc.
Big Data Extensions
installation 17
mise &agrave; niveau 35
sp&eacute;cifications syst&egrave;me 17
Big Data Extensions vApp
d&eacute;ployer 23
mise &agrave; niveau 36
C
caract&egrave;res non-ASCII 157
certificat 138
certificats SSL, erreurs 153
certificats, SSO 29
chargement, plug-in Big Data Extensions 155
cl&eacute; publique 138
CLI, acc&egrave;s 31
CLI interface de ligne de commande, mise &agrave;
niveau 39
client d'interface de ligne de commande distant,
installation 31
Cloudera Manager, r&eacute;f&eacute;rentiel local 57
cluster de calcul du travailleur uniquement 110
cluster HDFS externe, pr&eacute;parer 108
cluster uniquement HBase, utiliser OneFS en
tant que cluster HDFS externe 108
cluster uniquement HBase, conditions
pr&eacute;alables 107
clusters
affichage 125, 126
ajouter avec un gestionnaire
d'applications 109
arr&ecirc;t et d&eacute;marrage 113
basculement 117
calcul du travailleur uniquement 110
calcul uniquement 101, 110
cr&eacute;ation, , voir cr&eacute;ation de clusters
d&eacute;ploiement sous des pools de ressources
diff&eacute;rents 90
&eacute;chec de reconfiguration 154
&eacute;chec de red&eacute;marrage 154
&eacute;tat HBase 129
ex&eacute;cution des t&acirc;ches MapReduce sur PHCD
ou CDH4 159
gestion 113
Hadoop de base 101
HBase 101
161
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
HBase uniquement 109
interruptions du provisionnement 147
mise &agrave; l'&eacute;chelle du CPU ou de la RAM 115
mise &agrave; niveau 38
mots de passe utilisateur 117
personnalis&eacute; 101
reconfiguration 118
red&eacute;marrage ou reconfiguration 153
s&eacute;paration donn&eacute;es/calcul 101
services de cr&eacute;ation 14
suppression 114
topologie 102
clusters de calcul uniquement 110
clusters Hadoop
cr&eacute;ation 103
Voir aussi clusters
clusters Hadoop de base 101
clusters HBase
cr&eacute;ation 103
Voir aussi clusters
clusters MapReduce v1 101
clusters MapReduce v2 (YARN) 101
clusters s&eacute;par&eacute;s donn&eacute;es/calcul 101
clusters uniquement HBase
cr&eacute;ation, clusters uniquement
HBase 109
cr&eacute;ation avec le client web 109
collecteur de donn&eacute;es, activation 123
commande 31
commande appmanager add 13
commande cluster config 118
commande cluster export 118
commande cluster fix 121
commande de mise &agrave; niveau de cluster 38
commande de script 157
commande de script de d&eacute;pannage 157
commande resourcepool add 89
commande resourcepool delete 90
commande resourcepool list 90
communication avec vCenter Server 76
comptes d'utilisateurs 139
conditions pr&eacute;alables &agrave; la cr&eacute;ation d'un cluster
uniquement HBase 107
configuration
Hive 131, 133
niveaux de journalisation 142
r&eacute;f&eacute;rentiel yum local 56
r&eacute;f&eacute;rentiel Yum pour la distribution
Cloudera 56
r&eacute;f&eacute;rentiel Yum pour la distribution MapR 56
r&eacute;f&eacute;rentiels Yum 49
Yum et r&eacute;f&eacute;rentiels Yum 48
162
configurer le r&eacute;f&eacute;rentiel Ambari 62
Connectivit&eacute; de base de donn&eacute;es Java, , voir
JDBC
Connectivit&eacute; de base de donn&eacute;es ouverte, , voir
ODBC
connectivit&eacute; r&eacute;seau, v&eacute;rifier 81
connexion
au serveur de gestion Serengeti 30, 71
Serengeti, services 31
connexion IPv6 &agrave; vCenter 153
connexions
&eacute;chec 152
vers vCenter Server 152
console d'interface de ligne de commande 31
contacter les nœuds de clusters 85
Contr&ocirc;leur Paravirtual SCSI 94
conversion de XML Hadoop en JSON
Serengeti 118
correctifs 140
correctifs et mises &agrave; jour de s&eacute;curit&eacute; 140
CPU et RAM, augmentation et diminution 115
cr&eacute;ation
le r&eacute;f&eacute;rentiel Ambari 62
clusters, , voir cr&eacute;ation de clusters
r&eacute;f&eacute;rentiel local pour Cloudera Manager 59
r&eacute;f&eacute;rentiel yum local 52, 54
r&eacute;f&eacute;rentiel Yum pour la distribution
Cloudera 52
r&eacute;f&eacute;rentiel Yum pour la distribution MapR 52
r&eacute;f&eacute;rentiel Yum pour la distribution Pivotal 54
utilisateurs CLI Serengeti 73
cr&eacute;ation d'un cluster, avec un gestionnaire
d'applications 109
cr&eacute;ation de clusters
calcul uniquement 110
d&eacute;pannage 144–148
Hadoop ou HBase 103
cr&eacute;ation du r&eacute;f&eacute;rentiel Yum CentOS,
configuration du r&eacute;f&eacute;rentiel Yum
CentOS 59, 61
cr&eacute;er un r&eacute;f&eacute;rentiel local pour Ambari
configurer le r&eacute;f&eacute;rentiel HDP sur le serveur
Ambari 63
pr&eacute;parer l'environnement du logiciel 60
t&eacute;l&eacute;charger les paquets 62
cr&eacute;er un r&eacute;f&eacute;rentiel local pour Cloudera Manager
pr&eacute;parer l'environnement du logiciel 58
t&eacute;l&eacute;charger les paquets 59
D
d&eacute;connexion, h&ocirc;tes 147
d&eacute;faillance disque, r&eacute;cup&eacute;rer d'une 121
d&eacute;marrage
clusters 113
Serengeti, services 75
VMware, Inc.
Index
D&eacute;marrage 9
d&eacute;pannage
collecter les fichiers journaux 143
collecteur de donn&eacute;es 124
&eacute;checs de cr&eacute;ation de clusters 144–148
fichiers journaux pour 142
pr&eacute;sentation 141
processus de mise &agrave; niveau,
d&eacute;pannage 150
d&eacute;ployer
Big Data Extensions vApp 23
OVA 23
dispositif virtuel, &eacute;chec de la mise &agrave; niveau 150
disque &agrave; provisionnement dynamique 67
disque syst&egrave;me et de permutation 94
disques de donn&eacute;es locaux par groupe de
nœuds 120
disques locaux par groupe de nœuds 120
distribution Apache Hadoop, valeurs de
configuration pour Big Data
Extensions 45
distribution Cloudera
commandes administratives avec l'interface de
ligne de commande Serengeti 31
r&eacute;f&eacute;rentiel yum local 52, 56
r&eacute;f&eacute;rentiel Yum pour le d&eacute;ploiement 48
valeurs de configuration pour Big Data
Extensions 45
Distribution Cloudera, DNS et FQDN pour le
trafic du cluster 103
distribution Greenplum, valeurs de configuration
pour Big Data Extensions 45
distribution Hortonworks, valeurs de
configuration pour Big Data
Extensions 45
distribution MapR
commandes administratives avec l'interface de
ligne de commande Serengeti 31
r&eacute;f&eacute;rentiel yum local 52, 56
r&eacute;f&eacute;rentiel Yum pour le d&eacute;ploiement 48
valeurs de configuration pour Big Data
Extensions 45
distribution Pivotal
commandes administratives avec l'interface de
ligne de commande Serengeti 31
r&eacute;f&eacute;rentiel yum local 54
r&eacute;f&eacute;rentiel Yum pour le d&eacute;ploiement 48
valeurs de configuration pour Big Data
Extensions 45
Distribution Pivotal, DNS et FQDN pour le trafic
du cluster 103
distributions
affichage 42
supported 13
VMware, Inc.
distributions Hadoop
fichiers JAR 118
gestion 45
distributions Hadoop d&eacute;ploy&eacute;es sur tarball 45,
46
distributions Hadoop d&eacute;ploy&eacute;es sur Yum 45
distributions Hadoop prenant en charge les
clusters MapReduce 101
distributions prises en charge 13, 14
donn&eacute;es Hive, acc&egrave;s 131
E
&eacute;chec de connexion &agrave; vCenter 153
&eacute;chec de cr&eacute;ation d'un cluster &agrave; grande
&eacute;chelle 149
&eacute;chec de cr&eacute;ation de clusters
Adresse IP du serveur Serengeti change 147
&Eacute;chec de lancement 144
&eacute;chec de t&eacute;l&eacute;chargement de distribution 146
erreur non autoris&eacute;e 401 144
espace de stockage insuffisant 145
fichier template-cluster-spec.json 145
&eacute;chec de lancement 144, 149
&eacute;chec de t&eacute;l&eacute;chargement de distribution 146
&eacute;chec des op&eacute;rations Serengeti 157
&eacute;chec du processus d'ajout 157
&eacute;chec du processus d'ajout de banque de
donn&eacute;es 157
EMC Isilon OneFS 81
environnement, gestion 71
environnement Big Data Extensions, gestion 71
erreur de mise &agrave; niveau du cluster 151
erreur non autoris&eacute;e 401 144
espace de stockage insuffisant 145
espaces blancs 157
&eacute;tat d'initialisation 78, 124
&eacute;tat HDFS, , voir Hadoop Distributed File System
ex&eacute;cution, v&eacute;rifier 82, 83
extensions de virtualisation Hadoop (HVE,
Hadoop Virtualization Extensions) 45
Extensions de virtualisation Hadoop (HVE,
Hadoop Virtualization Extensions) 102
F
fichier log4j.properties 118, 142
fichier template-cluster-spec.json et &eacute;chec de
cr&eacute;ation du cluster 145
fichiers de configuration, conversion de XML
Hadoop en JSON Serengeti 118
fichiers de journalisation, recueillir 143
fichiers de sp&eacute;cification de cluster
cluster de calcul uniquement 110
&eacute;chantillons 145
163
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
fichiers JAR de distribution Hadoop 118
lien symbolique pool de ressources 89
reconfiguration de clusters 118
fichiers journaux 142
fichiers journaux de d&eacute;ploiement 142
fonctionnalit&eacute;s et op&eacute;rations prises en charge,
gestionnaires d'applications 14
G
gestion
clusters 113
ressources vSphere 89
Gestion de l'environnement Big Data
Extensions 71
gestionnaire d'applications
modifier 42
supprimer 42
gestionnaires d'applications
ajouter un cluster 109
distributions 42
et Big Data 12
gestion 41
services et op&eacute;rations pris en charge 14
glossaire 7
groupes de nœuds, r&ocirc;les, pour &eacute;viter les
conflits 110
H
Hadoop Distributed File System (HDFS),
surveillance 127
HBase rootdir 160
HDFS, &eacute;viter les conflits de r&ocirc;les de nœuds 110
Hive, configuration 131, 133
H&Ocirc;TE_EN_RACK 102
I
informations sur le serveur, ajout 41
inscription, plug-in Big Data Extensions 27
installation
Big Data Extensions 17
client d'interface de ligne de commande
distant 31
plug-in Big Data Extensions 27
interface de ligne de commande &agrave; distance, mise
&agrave; niveau 39
interface de ligne de commande Serengeti
mise &agrave; niveau 36
noms d'utilisateur et mots de passe 73
interfaces externes 135
internationalisation et localisation 20
iornfan.log 138
J
Java Runtime Environment (JRE) 31
164
JBOD, , voir stockage en attachement direct
(DAS, Direct Attached Storage)
JDBC 131
journaux Apache log4j 142
juste un paquet de disques (JBOD, Just A Bunch
Of Disks), , voir stockage en
attachement direct (DAS, Direct
Attached Storage)
K
KeyStore 138
L
LDAP et Active Directory 74
le serveur de gestion ne peut pas se connecter &agrave;
vCenter 153
liste des r&ocirc;les, avec le client Web 43
localisation 20
M
machine virtuelle de serveur de gestion, , voir
serveur de gestion Serengeti
machine virtuelle du mod&egrave;le Hadoop 35
machines virtuelles
classement par ordre de priorit&eacute; 116
impossible d'obtenir l'adresse IP 154
mise &agrave; niveau de composants 38
Mod&egrave;le Hadoop 66
partages de disque 116
machines virtuelles du mod&egrave;le Hadoop
conditions pr&eacute;alables 66
cr&eacute;ation 66
mise &agrave; jour 90
mise &agrave; jour de cluster 90
mise &agrave; l'&eacute;chelle, CPU et RAM 115
mise &agrave; l'&eacute;chelle &eacute;lastique, fichier journal 142
mise &agrave; niveau
panne 150
processus, d&eacute;pannage 150
mise &agrave; niveau de Big Data Extensions
clusters 35
commande de mise &agrave; niveau de cluster 38
composants de machine virtuelle 38
connexion au serveur de gestion Serengeti 36
interface de ligne de commande Serengeti 36
machine virtuelle du mod&egrave;le Hadoop 35
plug-in 36
pr&eacute;paration de la mise &agrave; niveau 35
vApp 36
vSphere Update Manager 35, 36
mises &agrave; jour logicielles 140
mode maintenance 86
mode maintenance, entrer 86
mod&egrave;le RHEL 66
VMware, Inc.
Index
mod&egrave;le RHEL 6.x
machines virtuelles personnalis&eacute;es 65
personnalisation 66
modification, mots de passe sur les nœuds de
cluster 117
modifier le type de DNS 95
modifier un gestionnaire d'applications 42
mots de passe
changement sur le serveur de gestion
Serengeti 72
nœuds de cluster 117
nœuds Hadoop 122
mots de passe utilisateur 73
multiples mod&egrave;les de nœud 70
N
niveaux de journalisation, configuration 142
nœuds, surveillance 126
nœuds clients pour Hadoop 101, 103
nœuds de cluster, mots de passe 117
nœuds Hadoop
connexion 122
mots de passe 122
nœuds master pour Hadoop 101, 103
nœuds worker pour Hadoop 101, 103
noms d'utilisateur 71, 73
noms de ressources 157
num&eacute;ro de port, serveur de gestion 76
num&eacute;ros de port
Hadoop 76
HBase 76
MapReduce 76
O
ODBC 131, 133
op&eacute;rations &eacute;chouent 157
outil de conversion convert-hadoop-conf.rb 118
P
Param&egrave;tres, clusters 17, 99, 114, 153
partages d'E/S 116
partages de disque E/S 116
partitionnement de disque 66
passer d'un seul coup en mode virtuel 110
personnalis&eacute; 70
PhoneHome, collecteur de donn&eacute;es 124
plug-in Big Data Extensions
changement de versions 155
chargement 155
connexion au serveur de gestion Serengeti 30
impossible de se connecter au serveur
Serengeti 152
inscription 27
VMware, Inc.
installation 27
mise &agrave; niveau 36, 37
plug-in downloadonly 159
plug-ins, , voir plug-in Big Data Extensions
pools de ressources
ajout 89
&eacute;chec du processus d'ajout 157
suppression 90
portail d'administration, serveur de gestion
Serengeti 29, 78, 124
ports r&eacute;seau 135
pr&eacute;parer OneFS en tant que cluster HDFS
externe 108
pr&eacute;sentation, gestionnaires d'applications 13
prise en charge de l'h&ocirc;te et de la machine
virtuelle test&eacute;s 17
prise en charge des caract&egrave;res sp&eacute;ciaux 20
Programme d'am&eacute;lioration du produit 22, 123,
124
Project Serengeti 10
provision-hook.log 138
provisionnement, interruptions 147
Public cibl&eacute; 7
R
RACK_EN_RACK 102
recherche DNS, v&eacute;rifier 84
recherche DNS, v&eacute;rifier 84
Recherche yum, impossible de trouver des
paquets 159
reconfiguration, r&eacute;seaux 96
r&eacute;cup&eacute;ration &agrave; partir d'un disque d&eacute;fectueux 121
red&eacute;marrage ou reconfiguration d'un cluster 153
r&eacute;f&eacute;rence de s&eacute;curit&eacute; 135
r&eacute;f&eacute;rentiel local du serveur Ambari 62
r&eacute;f&eacute;rentiel yum, impossible de t&eacute;l&eacute;charger le
paquet 159
r&eacute;f&eacute;rentiel Yum, installation de RPM 26
r&eacute;f&eacute;rentiel Yum CentOS 59, 61
r&eacute;f&eacute;rentiel yum local, d&eacute;pannage 159
r&eacute;f&eacute;rentiel Yum, local
configuration 56
cr&eacute;ation 52, 54
r&eacute;f&eacute;rentiel Yum, v&eacute;rifier 86
r&eacute;f&eacute;rentiels locaux, cr&eacute;ation 57, 60
r&eacute;f&eacute;rentiels Yum, cr&eacute;ation 57, 60
renommage, ressources vSphere 157
r&eacute;seaux
ajout 94
ajout d'adresses IP 96
configuration de param&egrave;tre requise 17
&eacute;chec du processus d'ajout 157
suppression 96
165
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
ressources, renommage dans vSphere 157
ressources vSphere
gestion 89
pools de ressources 89
r&ocirc;les, liste 43
RPM JDK 7 68
RPM JDK 7, installer 68
RPMs, installation 26
S
script de mise &agrave; niveau 36
script serengeti-maintenance.sh 86
script serengeti-start-services.sh 75
script serengeti-stop-services.sh 75
script set_hostname.sh 156
scripts
serengeti-start-services.sh 75
serengeti-stop-services.sh 75
set_hostname.sh 156
se connecter aux nœuds Hadoop 122
s&eacute;curit&eacute; 138
serengeti-boot.log 138
serengeti-maintenance.sh 86
serengeti-snapshot
cr&eacute;ation 66
cr&eacute;&eacute; pendant les mises &agrave; niveau 65
suppression 65, 66
serengeti-upgrade.log 138
Serengeti, services
arr&ecirc;t et d&eacute;marrage 75
connexion 31
serengeti.log 138
serveur Chef 138
serveur de gestion Serengeti
Adresse IP 147
ajouter des noms d'utilisateur 71
changement de mots de passe 72
connexion &agrave; 30, 36
FQDN 156
nom d'h&ocirc;te 156
portail d'administration 29, 78, 124
Single Sign-On (SSO) 29
serveurs de gestion de logiciels, ajout 41
serveurs Serengeti
Adresse IP change 147
&eacute;chec de connexion &agrave; vCenter Server 152
fichier journal de service 142
services 135
services disponibles avec Cloudera Manager ou
Ambari 14
Single Sign-On (SSO) 29, 31, 152
snapshots, , voir serengeti-snapshot
166
soumission, probl&egrave;mes avec les t&acirc;ches
MapReduce 158
sp&eacute;cifications mat&eacute;rielles 17
sp&eacute;cifications syst&egrave;me, Big Data Extensions 17
storage.local.disk_number_per_node = 0 120
storage.shared.disk_number_per_node = 0 120
suppression
Banques de donn&eacute;es 92
clusters 114
pools de ressources 90
r&eacute;seaux 96
serengeti-snapshot 65
Voir aussi suppression
Suppression de HBase rootdir 160
Suppression du cluster uniquement HBase 160
supprimer un gestionnaire d'applications 42
surveillance
allocation des ressources 126
environnement Big Data Extensions 123
&eacute;tat des clusters HBase 129
Hadoop Distributed File System (HDFS) 127
nœuds 126
t&acirc;ches MapReduce 128
synchronisation de l'heure, red&eacute;marrage ou
reconfiguration 153
synchronisation de l'horloge, et &eacute;chec de
cr&eacute;ation du cluster 144
synchroniser l'heure avec le serveur de gestion
Serengeti 80, 150
synchroniser l'heure sur les h&ocirc;tes avec le
serveur de gestion Serengeti 80, 150
syslog distant, mise &agrave; niveau 39
syslog distant, mise &agrave; niveau 39
Syst&egrave;me de noms de domaine 84
T
t&acirc;ches MapReduce
&eacute;chec d'ex&eacute;cution 158
et clusters de calcul uniquement 158
impossible d'envoyer 158
interruption 159
surveillance 128
topologie, cluster 102
type de DNS, modifier 95
Type de DNS 94
types de d&eacute;ploiement de distribution Hadoop 45
U
unicode UTF-8 20
utilisateur racine 139
utilisateur serengeti 139
VMware, Inc.
Index
V
valeurs de configuration de r&eacute;f&eacute;rentiels Yum 49
vCenter Server, communication avec 76
vCenter Server, &eacute;chec de connexion 152
V&eacute;rifier l'adresse IP et la connectivit&eacute; 68
versions, plug-in Big Data Extensions 155
vSphere Fault Tolerance (FT) 117
vSphere High Availability (HA) 117
Y
Yum et r&eacute;f&eacute;rentiels Yum, configuration 48
VMware, Inc.
167
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
168
VMware, Inc.
">
Ciao! Sono un chatbot AI specificamente addestrato per assisterti con il VMware vSphere Big Data Extensions 2.3 Manuel utilisateur. Ho esaminato attentamente il documento e posso aiutarti a individuare le informazioni di cui hai bisogno o spiegare il contenuto in termini chiari e semplici. Che tu stia cercando indicazioni su funzionalità specifiche, passaggi per la risoluzione dei problemi o l'uso generale, non esitare a fare domande. Più dettagli fornisci sulle tue esigenze o dubbi, più accuratamente e efficacemente potrò aiutarti!