Mode d'emploi | VMware vSphere Big Data Extensions 2.3 Manuel utilisateur

Ajouter à Mes manuels
168 Des pages
Mode d'emploi | VMware vSphere Big Data Extensions 2.3 Manuel utilisateur | Fixfr
Guide de l'utilisateur et de
l'administrateur VMware vSphere Big
Data Extensions
vSphere Big Data Extensions 2.3
Ce document prend en charge la version de chacun des produits
répertoriés, ainsi que toutes les versions publiées par la suite
jusqu'au remplacement dudit document par une nouvelle
édition. Pour rechercher des éditions plus récentes de ce
document, rendez-vous sur :
http://www.vmware.com/fr/support/pubs.
FR-TBD-00
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Vous trouverez la documentation technique la plus récente sur le site Web de VMware à l'adresse :
http://www.vmware.com/fr/support/
Le site Web de VMware propose également les dernières mises à jour des produits.
N’hésitez pas à nous transmettre tous vos commentaires concernant cette documentation à l’adresse suivante :
[email protected]
Copyright © 2013 – 2015 VMware, Inc. Tous droits réservés. Copyright et informations sur les marques.
Cet ouvrage est concédé sous la licence Creative Commons Attribution-NoDerivs 3.0 aux États-Unis
(http://creativecommons.org/licenses/by-nd/3.0/us/legalcode).
VMware, Inc.
3401 Hillview Ave.
Palo Alto, CA 94304
www.vmware.com
2
VMware, Inc.
100-101 Quartier Boieldieu
92042 Paris La Défense
France
www.vmware.com/fr
VMware, Inc.
Table des matières
À propos de ce guide 7
1 À propos de VMware vSphere Big Data Extensions 9
Prise en main de Big Data Extensions 9
Big Data Extensions et Project Serengeti 10
À propos de l'architecture de Big Data Extensions
À propos des gestionnaires d'applications 13
12
2 Installation de Big Data Extensions 17
Configuration système requise pour Big Data Extensions 17
Prise en charge d'Unicode UTF-8 et des caractères spéciaux 20
Le programme d'amélioration du produit 22
Déployer le vApp Big Data Extensions dans vSphere Web Client 23
Installer des RPM dans le référentiel Yum du serveur de gestion Serengeti 26
Installer le plug-in Big Data Extensions 27
Configurer les paramètres vCenter Single Sign-On du serveur de gestion Serengeti 29
Se connecter à un serveur de gestion Serengeti 30
Installer le client d'interface de ligne de commande distant Serengeti 31
Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
commande distant 31
3 Mise à niveau de Big Data Extensions 35
Préparer la mise à niveau de Big Data Extensions 35
Mettre à niveau le dispositif virtuel Big Data Extensions 36
Mettre à niveau le plug-in Big Data Extensions 37
Mettre à niveau des clusters Big Data Extensions à l'aide de l'interface de ligne de commande
Serengeti 38
Mettre à niveau l' Serengeti CLI 39
Ajouter un serveur Syslog distant 39
4 Gestion des gestionnaires d'applications 41
Ajouter un gestionnaire d'applications à l'aide de vSphere Web Client 41
Modifier un gestionnaire d'applications à l'aide de vSphere Web Client 42
Supprimer un gestionnaire d'applications à l'aide de vSphere Web Client 42
Afficher les gestionnaires d'applications et les distributions à l'aide de vSphere Web Client 42
Afficher les rôles du gestionnaire d'applications et de la distribution à l'aide de vSphere Web
Client 43
5 Gestion de distributions Hadoop 45
Types de déploiement de distribution Hadoop 45
VMware, Inc.
3
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Configurer une distribution Hadoop déployée sur Tarball à l'aide de l'interface de ligne de
commande Serengeti 46
Configuration de Yum et de référentiels Yum
48
6 Gérer les modèles de nœud 65
Tenir à jour une machine virtuelle de modèle Hadoop personnalisée 65
Créer une machine virtuelle de modèle de nœud à l'aide de RHEL Server 6.7 et VMware Tools 66
Prendre en charge plusieurs modèles de machine virtuelle 70
7 Gérer l'environnement Big Data Extensions 71
Ajouter des noms d'utilisateur spécifiques pour la connexion au serveur de gestion Serengeti 71
Modifier le mot de passe du serveur de gestion Serengeti 72
Créer un nom d'utilisateur et un mot de passe pour l'interface de ligne de commande Serengeti 73
Autoriser et vérifier les commandes exécutées en tant qu'utilisateur racine 74
Spécifier un groupe d'utilisateurs dans Active Directory ou LDAP pour utiliser un cluster Hadoop 74
Arrêter et démarrer les services Serengeti 75
Ports utilisés pour la communication entre Big Data Extensions et vCenter Server 76
Vérifier l'état de fonctionnement de l'environnement Big Data Extensions 77
Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
d'interface de ligne de commande Serengeti 86
Sauvegarder et restaurer l'environnement Big Data Extensions 87
8 Gestion de ressources vSphere pour les clusters 89
Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 89
Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 90
Mettre à jour les pools de ressources à l'aide de l'interface de ligne de commande Serengeti 90
Ajouter une banque de données dans vSphere Web Client 91
Supprimer une banque de données de vSphere Web Client 92
Mettre à jour les banques de données à l'aide de l'interface de ligne de commande Serengeti 93
Ajouter un contrôleur SCSI Paravirtual pour les disques système et de permutation 94
Ajouter un réseau dans vSphere Web Client 94
Modifier le type de DNS dans vSphere Web Client 95
Reconfigurer un réseau IP statique dans vSphere Web Client 96
Supprimer un réseau de vSphere Web Client 96
9 Création de clusters Hadoop et HBase 99
À propos des types de déploiement de clusters Hadoop et HBase 101
Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2 (YARN) 101
À propos de la topologie des clusters 102
À propos de l'accès à la base de données HBase 103
Créer un cluster Big Data dans vSphere Web Client 103
Créer un cluster uniquement HBase dans Big Data Extensions 107
Créer un cluster avec un gestionnaire d'applications à l'aide de vSphere Web Client 109
Créer un cluster de calcul uniquement avec un gestionnaire d'applications tiers en utilisant
vSphere Web Client 110
Créer un cluster de calcul du travailleur uniquement à l'aide de vSphere Web Client 110
4
VMware, Inc.
Table des matières
10 Gestion des clusters Hadoop et HBase 113
Arrêter et démarrer un cluster dans vSphere Web Client 113
Supprimer un cluster dans vSphere Web Client 114
Agrandir ou réduire un cluster à l'aide de vSphere Web Client 114
Mettre à l'échelle le CPU et la RAM dans vSphere Web Client 115
Utiliser des partages de disque E/S pour fixer la priorité des machines virtuelles de cluster dans
vSphere Web Client 116
À propos de vSphere High Availability et de vSphere Fault Tolerance 117
Modifier le mot de passe utilisateur sur tous les nœuds d'un cluster 117
Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 118
Configurer le nombre de disques de données par groupe de nœuds 120
Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti 121
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 122
11 Surveillance de l'environnement Big Data Extensions 123
Activer le collecteur de données Big Data Extensions 123
Désactiver le collecteur de données Big Data Extensions 124
Afficher l'état d'initialisation du serveur de gestion Serengeti 124
Afficher les clusters provisionnés dans vSphere Web Client 125
Afficher les informations des clusters dans vSphere Web Client 126
Surveiller l'état de HDFS dans vSphere Web Client 127
Surveiller le statut MapReduce dans vSphere Web Client 128
Surveiller l'état de HBase dans vSphere Web Client 129
12 Accès aux données Hive avec JDBC ou ODBC 131
Configurer Hive pour travailler avec JDBC 131
Configurer Hive pour travailler avec ODBC 133
13 Référence de sécurité Big Data Extensions 135
Services, ports réseau et interfaces externes 135
Fichiers de configuration de Big Data Extensions 138
Clé publique, certificat et KeyStore Big Data Extensions
Fichiers journaux Big Data Extensions 138
Comptes d'utilisateurs Big Data Extensions 139
Correctifs et mises à jour de sécurité 140
138
14 Dépannage 141
Fichiers journaux pour le dépannage 142
Configurer les niveaux de journalisation Serengeti 142
Collecter les fichiers journaux à des fins de dépannage 143
Résolution des échecs de création d'un cluster 144
La mise à niveau du dispositif virtuel de Big Data Extensions échoue. 150
Erreur de mise à niveau du cluster lors de l'utilisation du cluster créé dans une version antérieure
de Big Data Extensions 151
Impossible de connecter le plug-in Big Data Extensions au serveur Serengeti 152
Les connexions à vCenter Server échouent. 152
Le serveur de gestion ne peut pas se connecter à vCenter Server 153
VMware, Inc.
5
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Erreur de certificat SSL lors de la connexion à un serveur autre que Serengeti avec la console
vSphere 153
Impossible de redémarrer ou de reconfigurer un cluster pour lequel l'heure n'est pas synchronisée 153
Impossible de redémarrer ou de reconfigurer un cluster après la modification de sa distribution 154
La machine virtuelle ne peut pas obtenir d'adresse IP et la commande échoue. 154
Impossible de modifier l'adresse IP du serveur Serengeti dans vSphere Web Client 155
Une nouvelle instance de plug-in avec un numéro de version identique ou antérieure à une
instance de plug-in précédente ne se charge pas. 155
Le nom d'hôte et le FQDN ne correspondent pas pour le serveur de gestion Serengeti. 156
Les opérations de Serengeti échouent après que vous ayez renommé une ressource dans vSphere. 157
Big Data Extensions Le serveur refuse les noms de ressource comptant au moins deux espaces
blancs à la suite. 157
Les caractères non ASCII ne s'affichent pas correctement. 157
L'exécution de la tâche MapReduce échoue et n'apparaît pas dans l'historique des tâches. 158
Impossible d'envoyer des tâches MapReduce pour les clusters de calcul uniquement avec l'HDFS
Isilon externe 158
La tâche MapReduce ne répond plus sur un cluster PHD ou CDH4 YARN. 159
Impossible de télécharger le paquet à l'aide du plug-in Downloadonly 159
Impossible de trouver des paquets avec la recherche Yum 159
Supprimer HBase Rootdir dans HDFS avant de supprimer le cluster uniquement HBase 160
Index
6
161
VMware, Inc.
À propos de ce guide
Guide de l'administrateur et de l'utilisateur de VMware vSphere Big Data Extensions décrit comment installer
VMware vSphere Big Data Extensions™ au sein de votre environnement vSphere, puis comment gérer et
surveiller les clusters Hadoop et HBase à l'aide du plug-in Big Data Extensions pour vSphere Web Client.
Guide de l'administrateur et de l'utilisateur de VMware vSphere Big Data Extensions décrit également comment
effectuer des opérations Hadoop et HBase à l'aide du client d'interface de ligne de commande VMware
Serengeti™, qui permet un contrôle plus important de certaines tâches de gestion système et de création de
clusters Big Data.
Public ciblé
Le guide est destiné aux administrateurs système et aux développeurs qui veulent utiliser
Big Data Extensions pour déployer et gérer des clusters Hadoop. Pour utiliser correctement
®
®
Big Data Extensions, il est préférable de connaître VMware vSphere ainsi que le déploiement et le
fonctionnement de Hadoop et HBase.
Glossaire VMware Technical Publications
VMware Technical Publications fournit un glossaire des termes qui peuvent éventuellement ne pas vous
être familiers. Pour consulter la définition des termes utilisés dans la documentation technique VMware,
visitez le site Web http://www.vmware.com/support/pubs.
VMware, Inc.
7
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
8
VMware, Inc.
À propos de VMware vSphere Big
Data Extensions
1
VMware vSphere Big Data Extensions vous permet de déployer et d'utiliser de manière centralisée des
clusters Big Data exécutés sur VMware vSphere. Big Data Extensions simplifie le processus de déploiement
et de provisionnement Hadoop et HBase. Il vous permet aussi de voir en temps réel les services en cours
d'exécution et l'état de leurs hôtes virtuels. Il offre un point central à partir duquel vous pouvez gérer et
surveiller votre cluster Big Data, et incorpore un ensemble complet d'outils susceptibles de vous aider à
optimiser les performances et l'utilisation du cluster.
Ce chapitre aborde les rubriques suivantes :
n
« Prise en main de Big Data Extensions », page 9
n
« Big Data Extensions et Project Serengeti », page 10
n
« À propos de l'architecture de Big Data Extensions », page 12
n
« À propos des gestionnaires d'applications », page 13
Prise en main de Big Data Extensions
Big Data Extensions vous permet de déployer des clusters Big Data. Les tâches incluses dans cette section
®
décrivent la manière de configurer VMware vSphere pour une utilisation avec Big Data Extensions, de
®
déployer le vApp Big Data Extensions, d'accéder aux consoles d'administration VMware vCenter Server et
d'interface de ligne de commande (CLI), ainsi que de configurer une distribution Hadoop à utiliser avec
Big Data Extensions.
Prérequis
®
n
Une bonne compréhension de ce que sont Project Serengeti et Big Data Extensions vous permet
d'appréhender la manière dont ils s'intègrent dans votre workflow Big Data et votre environnement
vSphere.
n
Vérifiez que les fonctionnalités Big Data Extensions que vous souhaitez utiliser, comme les clusters de
calcul uniquement ou les clusters données-calcul séparés, sont prises en charge par Big Data Extensions
pour la distribution Hadoop que vous souhaitez utiliser.
n
Examinez les fonctionnalités prises en charge par votre distribution Hadoop.
VMware, Inc.
9
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
2
Effectuez l'une des opérations suivantes.
n
Effectuez la première installation de Big Data Extensions. Passez en revue la configuration système
requise, installez vSphere et installez les composants Big Data Extensions : vApp
Big Data Extensions, plug-in Big Data Extensions pour vCenter Server et Serengeti CLI Client.
n
Effectuez une mise à niveau de Big Data Extensions à partir d'une version précédente. Suivez les
étapes de mise à niveau.
(Facultatif) Installez et configurez une distribution autre qu'Apache Bigtop à utiliser avec
Big Data Extensions.
Apache Bigtop est inclus dans le serveur de gestion Serengeti, mais vous pouvez utiliser n'importe
quelle distribution Hadoop prise en charge par Big Data Extensions.
Suivant
Une fois que vous avez correctement installé et configuré votre environnement Big Data Extensions, vous
pouvez effectuer les tâches supplémentaires suivantes.
n
Arrêtez et démarrez les services Serengeti, créez des comptes d'utilisateurs, gérez des mots de passe et
connectez-vous à des nœuds de cluster pour résoudre les problèmes.
n
Gérez les pools de ressources vSphere, les banques de données et les réseaux que vous utilisez pour
créer des clusters Hadoop et HBase.
n
Créez, provisionnez et gérez des clusters Big Data.
n
Surveillez l'état des clusters que vous créez, notamment leurs banques de données, réseaux et pools de
ressources, via vSphere Web Client et l'interface de ligne de commande Serengeti.
n
Sur vos clusters Big Data, exécutez des commandes HDFS, des scripts Hive et Pig, ainsi que des travaux
MapReduce, et accédez aux données Hive.
n
Si vous rencontrez des problèmes en utilisant Big Data Extensions, consultez Chapitre 14,
« Dépannage », page 141.
Big Data Extensions et Project Serengeti
Big Data Extensions s'exécute sur Project Serengeti, projet open source lancé par VMware pour automatiser
le déploiement et la gestion des clusters Hadoop et HBase dans des environnements virtuels comme
vSphere.
Big Data Extensions et Project Serengeti fournissent les composants suivants.
10
Project Serengeti
Projet open source lancé par VMware, Project Serengeti permet aux
utilisateurs de déployer et gérer des clusters Big Data dans un
environnement géré vCenter Server. Les composants majeurs sont ceux de
Serengeti Management Server, qui permettent le provisionnement de cluster,
la configuration logicielle et les services de gestion, ainsi qu'une interface de
ligne de commande. Project Serengeti est disponible sous licence Apache 2.0,
laquelle permet à tout le monde de modifier et de redistribuer Project
Serengeti conformément à ses termes.
Serengeti Management
Server
Fournit l'infrastructure et les services permettant d'exécuter des clusters Big
Data sur vSphere. Serengeti Management Server assure la gestion des
ressources, le placement des machines virtuelles selon la stratégie, le
provisionnement du cluster, la gestion de la configuration logicielle et la
surveillance de l'environnement.
VMware, Inc.
Chapitre 1 À propos de VMware vSphere Big Data Extensions
Client d'interface de
ligne de commande
Serengeti
Le client d'interface de ligne de commande (CLI, Command-Line Interface)
offre un ensemble complet d'outils et d'utilitaires permettant de surveiller et
de gérer votre déploiement Big Data. Si vous utilisez la version open source
de Serengeti sans Big Data Extensions, l'interface de ligne de commande est
la seule interface par l'intermédiaire de laquelle vous pouvez effectuer des
tâches administratives. Pour plus d'informations sur l'interface de ligne de
commande, consultez le Guide de l'interface de ligne de commande VMware
vSphere Big Data Extensions.
Big Data Extensions
La version commerciale de Project Serengeti, projet open source de VMware,
à savoir Big Data Extensions, est fournie en tant que
vCenter Server Appliance. Big Data Extensions inclut toutes les fonctions de
Project Serengeti, ainsi que les fonctionnalités et composants
supplémentaires suivants.
n
Support de niveau entreprise par VMware.
n
Distribution Bigtop par la communauté Apache.
REMARQUE VMware fournit la distribution Hadoop par souci pratique
mais n'en assure pas le support de niveau entreprise. La distribution
Apache Bigtop est prise en charge par la communauté open source.
n
VMware, Inc.
Plug-in Big Data Extensions, interface graphique utilisateur intégrée
dans vSphere Web Client. Ce plug-in vous permet d'effectuer des tâches
administratives courantes de gestion de l'infrastructure et du cluster
Hadoop.
11
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
À propos de l'architecture de Big Data Extensions
Serengeti Management Server et la machine virtuelle du modèle Hadoop fonctionnent ensemble pour
configurer et provisionner des clusters Big Data.
Figure 1‑1. Architecture de Big Data Extensions
CLI
GUI
API Rest
Infrastructure d'approvisionnement
de machines virtuelles et d'applications
Gestion de logiciels SPI
12
Adaptateur
par défaut
Adaptateur
Cloudera
Adaptateur
Ambari
Service Thrift
Gestionde
logiciels
Serveur
Cloudera
Manager
Serveur
Ambari
VMware, Inc.
Chapitre 1 À propos de VMware vSphere Big Data Extensions
Big Data Extensions effectue les étapes suivantes pour déployer un cluster Big Data.
1
Serengeti Management Server recherche les hôtes ESXi dotés de suffisamment de ressources pour faire
fonctionner le cluster avec les paramètres de configuration que vous spécifiez, puis sélectionne les hôtes
ESXi sur lesquels placer des machines virtuelles Hadoop.
2
Serengeti Management Server envoie une demande à vCenter Server pour cloner et configurer les
machines virtuelles à utiliser avec le cluster Big Data.
3
Serengeti Management Server configure le système d'exploitation et les paramètres réseau des
nouvelles machines virtuelles.
4
Chaque machine virtuelle télécharge les modules logiciels Hadoop et les installe conformément aux
informations d'installation et de distribution issues de Serengeti Management Server.
5
Serengeti Management Server configure les paramètres Hadoop pour les nouvelles machines virtuelles
en fonction des paramètres de configuration du cluster que vous spécifiez.
6
Les services Hadoop sont démarrés sur les nouvelles machines virtuelles. À ce stade, vous avez un
cluster en cours d'exécution selon vos paramètres de configuration.
À propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour
provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à
Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
n
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
n
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
n
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
au lieu de l'URL.
n
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
n
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps
que les anciens.
VMware, Inc.
13
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions.
Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Services et opérations pris en charge par les gestionnaires d'applications
Si vous utilisez Cloudera Manager ou Apache Ambari avec Big Data Extensions, il existe plusieurs services
supplémentaires à votre disposition.
Distributions et gestionnaires d'applications pris en charge
Big Data Extensions prend en charge certains gestionnaires d'applications et certaines distributions Hadoop.
Toutes les fonctionnalités et opérations ne sont pas prises en charge par certaines versions des gestionnaires
d'applications. Le tableau ci-dessous indique les fonctionnalités disponibles avec chacun des gestionnaires
d'applications listés.
Tableau 1‑1. Distributions Hadoop et gestionnaires d'applications pris en charge
Fonctionnalités et
opérations prises en
charge
14
Cloudera Manager
Hortonworks
Ambari
Pivotal Ambari
Gestionnaire
d'applications par
défaut
Versions prises en
charge
5.3-5.4
2.0-2.1
1.7
2.3
Distributions prises en
charge
CDH 5.3-5.4, OneFS
7.1-7.2
HDP 2.2-2.3, OneFS*
7.1-7.2
PHD 3.0, OneFS*
7.1-7.2
Bigtop 1.0, CDH
5.3-5.4, HDP 2.1, PHD
2.0-2.1, MapR 4.1-5.0
et OneFS 7.1-7.2
Déploiement
automatique
X
X
X
X
Liste de clusters,
Arrêter, Démarrer,
Exporter et Reprendre
X
X
X
X
vSphere High
Availability
X
X
X
X
vSphere Fault
Tolerance
X
X
X
X
Multiples réseaux
Les multiples
réseaux ne sont pas
pris en charge.
Les multiples
réseaux ne sont pas
pris en charge.
Les multiples
réseaux ne sont pas
pris en charge.
Non pris en charge
avec MapR.
Données-calcul
combinés
X
X
X
X
Séparation de calcul
de données
X
X
X
X
VMware, Inc.
Chapitre 1 À propos de VMware vSphere Big Data Extensions
Tableau 1‑1. Distributions Hadoop et gestionnaires d'applications pris en charge (suite)
Fonctionnalités et
opérations prises en
charge
Cloudera Manager
Calcul uniquement
Cluster HBase
Gestionnaire
d'applications par
défaut
Hortonworks
Ambari
Pivotal Ambari
X
Ambari peut
provisionner des
clusters de calcul
uniquement avec
Isilon OneFS.
Reportez-vous à la
documentation EMC
Isilon Hadoop
Starter Kit for
Hortonworks pour
obtenir des
informations sur la
configuration de
Ambari et de
Isilon OneFS.
Ambari peut
provisionner des
clusters de calcul
uniquement avec
Isilon OneFS.
Reportez-vous à la
documentation EMC
Isilon Hadoop
Starter Kit for
Hortonworks pour
obtenir des
informations sur la
configuration de
Ambari et de
Isilon OneFS.
Non pris en charge
avec MapR.
X
X
X
X
HBase uniquement
Non pris en charge
avec MapR.
Topologie/HVE
Hadoop
X
X
X
La topologie n'est pas
prise en charge avec
MapR.
HVE n'est pris en
charge qu'avec PHD.
Configuration Hadoop
Pris en charge via
l'interface Web du
gestionnaire
d'applications.
Pris en charge via
l'interface Web du
gestionnaire
d'applications.
Pris en charge via
l'interface Web du
gestionnaire
d'applications.
Non pris en charge
avec MapR.
Composants de
l'écosystème Hadoop
Pile pleine via
Cloudera Manager.
Pile pleine via
Ambari.
Pile pleine via
Ambari.
Pig, Hive, Hive Server
et Zookeeper.
Prise en charge des distributions Hadoop dans Isilon OneFS
Si vous souhaitez utiliser Isilon OneFS, vérifiez d'abord si votre distribution Hadoop est compatible avec
OneFS. Reportez-vous à la section Distributions Hadoop prises en charge dans OneFS du site Internet
d'EMC.
REMARQUE Big Data Extensions ne prend pas nativement en charge le provisionnement des clusters de
calcul uniquement avec Ambari Manager. Cependant, Ambari peut provisionner des clusters de calcul
uniquement avec Isilon OneFS. Reportez-vous à la documentation EMC Isilon Hadoop Starter Kit for
Hortonworks pour obtenir des informations sur la configuration de Ambari et de Isilon OneFS.
Services pris en charge sur Cloudera Manager et Ambari
Tableau 1‑2. Services pris en charge sur Cloudera Manager et Ambari
Nom du service
Cloudera Manager 5.3, 5.4
Falcon
Flume
X
X
Ganglia
HBase
HCatalog
VMware, Inc.
Ambari 1.6, 1.7
X
X
X
X
X
15
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 1‑2. Services pris en charge sur Cloudera Manager et Ambari (suite)
Nom du service
Cloudera Manager 5.3, 5.4
Ambari 1.6, 1.7
HDFS
X
X
Hive
X
X
Hue
X
X
Impala
X
MapReduce
X
Nagios
Oozie
X
X
X
Pig
X
X
Sentry
Solr
X
Spark
X
Sqoop
X
X
Storm
X
TEZ
X
WebHCAT
X
YARN
X
X
Zookeeper
X
X
À propos du niveau de service vSphere High Availability pour Ambari
Ambari prend en charge la fonction NameNode HA. Toutefois, vous devez configurer cette fonction de
sorte qu'elle utilise votre déploiement Hadoop. Reportez-vous à la section Haute disponibilité NameNode
pour Hadoop de la documentation Hortonworks.
À propos du niveau de service vSphere High Availability pour Cloudera
Les distributions Cloudera offrent la prise en charge suivante de la haute disponibilité vSphere de niveau de
service.
n
Cloudera avec MapReduce v1 offre une prise en charge de la haute disponibilité vSphere de niveau de
service pour JobTracker.
n
Cloudera offre sa propre prise en charge de la haute disponibilité de niveau de service pour NameNode
via HDFS2.
Pour plus d'informations sur la manière d'utiliser un gestionnaire d'applications avec l'interface de ligne de
commande, consultez le Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions.
16
VMware, Inc.
Installation de Big Data Extensions
2
Pour installer Big Data Extensions afin de pouvoir créer et provisionner des clusters Big Data, vous devez
installer les composants Big Data Extensions dans l'ordre indiqué.
Suivant
Si vous voulez créer des clusters sur une distribution Hadoop autre qu'Apache Bigtop, incluse dans
Serengeti Management Server, installez et configurez la distribution afin de l'utiliser avec
Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
« Configuration système requise pour Big Data Extensions », page 17
n
« Prise en charge d'Unicode UTF-8 et des caractères spéciaux », page 20
n
« Le programme d'amélioration du produit », page 22
n
« Déployer le vApp Big Data Extensions dans vSphere Web Client », page 23
n
« Installer des RPM dans le référentiel Yum du serveur de gestion Serengeti », page 26
n
« Installer le plug-in Big Data Extensions », page 27
n
« Configurer les paramètres vCenter Single Sign-On du serveur de gestion Serengeti », page 29
n
« Se connecter à un serveur de gestion Serengeti », page 30
n
« Installer le client d'interface de ligne de commande distant Serengeti », page 31
n
« Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
commande distant », page 31
Configuration système requise pour Big Data Extensions
Avant de commencer à déployer Big Data Extensions, votre système doit remplir toutes les conditions
préalables liées à vSphere, aux clusters, aux réseaux, au stockage, au matériel et aux licences.
Big Data Extensions requiert que vous installiez et configuriez vSphere et que votre environnement réponde
aux besoins en ressources minimaux. Assurez-vous de posséder des licences pour les composants VMware
de votre déploiement.
Exigences vSphere
Avant d'installer Big Data Extensions, configurez les produits VMware
suivants.
n
VMware, Inc.
Installez vSphere 5.5 (ou version ultérieure) Enterprise ou Enterprise
Plus.
17
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Paramètres cluster
Paramètres réseau
n
Quand vous installez Big Data Extensions sur vSphere 5.5 ou version
®
ultérieure, utilisez VMware vCenter™ Single Sign-On pour fournir
l'authentification utilisateur. Quand vous vous connectez à vSphere 5.5
ou version ultérieure, vous transmettez l'authentification au serveur
vCenter Single Sign-On, que vous pouvez configurer avec plusieurs
sources d'identité comme Active Directory et OpenLDAP. Quand
l'authentification réussit, votre nom d'utilisateur et votre mot de passe
sont échangés contre un jeton de sécurité qui est utilisé pour accéder aux
composants vSphere comme Big Data Extensions.
n
Si votre instance de vCenter Server utilise un FQDN, assurez-vous de le
configurer correctement à l'installation de vCenter Server.
n
Configurez tous les hôtes ESXi de sorte à utiliser le même serveur NTP
(Network Time Protocol).
n
Sur chaque hôte ESXi, ajoutez le serveur NTP à la configuration d'hôte,
puis, dans la liste Stratégie de démarrage de la configuration d'hôte,
sélectionnez Démarrer et arrêter avec l'hôte. Le démon NTP veille à ce
que les processus dépendant de l'heure se produisent de manière
synchronisée sur tous les hôtes.
Configurez votre cluster avec les paramètres suivants.
®
n
Activez la haute disponibilité vSphere et VMware vSphere Distributed
Resource Scheduler™.
n
Activez la surveillance de l'hôte.
n
Activez le contrôle d'admission et définissez la stratégie souhaitée. La
stratégie par défaut consiste à tolérer une seule défaillance de l'hôte.
n
Définissez une priorité élevée pour le redémarrage de la machine
virtuelle.
n
Définissez la surveillance de la machine virtuelle sur une surveillance de
la machine virtuelle et de l'application.
n
Définissez une sensibilité élevée pour la surveillance.
n
Activez vMotion et la journalisation de la tolérance aux pannes.
n
Tous les hôtes du cluster ont le VT matériel activé dans le BIOS.
n
Pour le port VMkernel du réseau de gestion, vMotion et la journalisation
de la tolérance aux pannes sont activés.
Big Data Extensions peut déployer des clusters sur un seul réseau ou utiliser
plusieurs réseaux. L'environnement détermine la manière dont les groupes
de ports attachés aux cartes réseau sont configurés et quel réseau soutient
chaque groupe de ports.
Vous pouvez utiliser soit un vSwitch, soit un vDS (vSphere Distributed
Switch) pour assurer le soutien du groupe de ports par un cluster Serengeti.
Un vDS joue le rôle d'un commutateur virtuel unique sur tous les hôtes
attachés tandis qu'un vSwitch est individuel pour chaque port et requiert la
configuration manuelle du groupe de ports.
18
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Quand vous configurez vos réseaux à utiliser avec Big Data Extensions,
vérifiez que les ports suivants sont ouverts en tant que ports d'écoute.
Stockage en
attachement direct
n
Les ports 8080 et 8443 sont utilisés par l'interface utilisateur du plug-in
Big Data Extensions et le client d'interface de ligne de commande
Serengeti.
n
Le port 5480 est utilisé par vCenter Single Sign-On à des fins de
surveillance et de gestion.
n
Le port 22 est utilisé par les clients SSH.
n
Pour éviter d'avoir à ouvrir un port de pare-feu réseau pour accéder aux
services Hadoop, connectez-vous au nœud client Hadoop. À partir de ce
nœud, vous pouvez en effet accéder à votre cluster.
n
Pour vous connecter à Internet (par exemple, pour créer un référentiel
Yum interne à partir duquel installer des distributions Hadoop), vous
pouvez utiliser un proxy.
n
Pour permettre les communications, assurez-vous que les pare-feu et
filtres Web ne bloquent pas le serveur de gestion Serengeti ni d'autres
nœuds Serengeti.
Attachez et configurez un stockage en attachement direct sur le contrôleur
physique pour présenter chaque disque séparément au système
d'exploitation. Cette configuration est couramment désignée par l'acronyme
JBOD (Just A Bunch Of Disks, juste un paquet de disques). Créez des
banques de données VMFS sur le stockage en attachement direct en
respectant les recommandations suivantes liées aux lecteurs de disque.
n
Entre 8 et 12 lecteurs de disque par hôte. Plus le nombre de lecteurs de
disque par hôte est élevé, meilleures sont les performances.
n
Entre 1 et 1,5 lecteurs de disque par cœur de processeur.
n
Lecteurs de disques Serial ATA 7 200 tr/min.
Ne pas utiliser
Big Data Extensions en
conjonction avec
vSphere Storage DRS
Avant de les créer, Big Data Extensions place les machines virtuelles sur les
hôtes en fonction des ressources disponibles, des meilleures pratiques
Hadoop et des stratégies de placement définies par l'utilisateur. De ce fait,
évitez de déployer Big Data Extensions dans les environnements vSphere en
conjonction avec Storage DRS. Storage DRS équilibre en permanence
l'utilisation de l'espace de stockage et la charge d'E/S de stockage pour
respecter les niveaux de service applicatif dans les environnements
spécifiques. Si Storage DRS est utilisé avec Big Data Extensions, les stratégies
de placement du cluster Big Data de vos machines virtuelles ne seront pas
respectées.
La migration des
machines virtuelles
dans vCenter Server
peut perturber la
stratégie de placement
des machines virtuelles
Big Data Extensions place les machines virtuelles en fonction des ressources
disponibles, des meilleures pratiques Hadoop et des stratégies de placement
définies par l'utilisateur que vous spécifiez. De ce fait, DRS est désactivé sur
toutes les machines virtuelles créées dans l'environnement
Big Data Extensions. Cela empêche la migration automatique des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer
accidentellement les machines virtuelles avec l'interface utilisateur de
vCenter Server. Cela peut enfreindre la stratégie de placement définie dans
Big Data Extensions. Par exemple, le nombre d'instances par hôte et les
associations de groupes peuvent ne pas être respectés.
VMware, Inc.
19
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Besoins en ressources
du serveur de gestion et
des modèles vSphere
Besoins en ressources
du cluster Hadoop
Configuration matérielle
requise pour
l'environnement
vSphere et
Big Data Extensions
n
Pool de ressources doté d'au moins 27,5 Go de RAM.
n
Espace disque de 40 Go ou plus (recommandé) pour les disques virtuels
du serveur de gestion et du modèle Hadoop.
n
L'espace libre de banque de données n'est pas inférieur à la taille totale
requise par le cluster Hadoop, outre les disques d'échange pour chaque
nœud Hadoop égal à la taille de mémoire demandée.
n
Le réseau est configuré sur tous les hôtes ESXi appropriés et une
connectivité existe avec le réseau utilisé par le serveur de gestion.
n
La haute disponibilité vSphere est activée pour le nœud master si la
protection de la haute disponibilité vSphere est nécessaire. Pour utiliser
la haute disponibilité ou la tolérance aux pannes vSphere afin de
protéger le nœud master Hadoop, vous devez utiliser le stockage
partagé.
Le matériel de l'hôte est répertorié dans le Guide de compatibilité VMware.
Pour obtenir des performances optimales à l'exécution, installez votre
environnement vSphere et Big Data Extensions sur le matériel suivant.
n
Double CPU quadricœurs ou plus avec Hyper-Threading activé. Si vous
pouvez estimer votre charge de travail de calcul, envisagez d'utiliser un
CPU plus puissant.
n
Utilisez la haute disponibilité et deux blocs d'alimentation pour la
machine hôte du nœud master.
n
Entre 4 et 8 Go de mémoire pour chaque cœur de processeur, avec 6 %
de traitement pour la virtualisation.
n
Utilisez une interface Ethernet de 1 Go ou plus pour fournir la bande
passante réseau adéquate.
Prise en charge de
l'hôte et de la machine
virtuelle testés
La prise en charge maximale de l'hôte et de la machine virtuelle qui a été
confirmée par une exécution correcte avec Big Data Extensions comprend
256 hôtes physiques exécutant un total de 512 machines virtuelles.
Licences vSphere
Vous devez disposer d'une licence vSphere Enterprise ou supérieure pour
utiliser la haute disponibilité VMware vSphere et vSphere DRS.
Prise en charge d'Unicode UTF-8 et des caractères spéciaux
Big Data Extensions prend en charge le niveau 3 de l'internationalisation (I18N). Cependant, il existe des
ressources que vous spécifiez qui n'offrent pas de prise en charge UTF-8. Vous pouvez uniquement utiliser
des noms d'attribut ASCII composés de caractères alphanumériques et de traits de soulignement (_) pour
ces ressources.
Big Data Extensions prend en charge Unicode UTF-8
Les ressources vCenter Server que vous spécifiez avec l'interface de ligne de commande et vSphere Web
Client peuvent être exprimées avec des traits de soulignement (_), des tirets (-), des espaces et la totalité des
lettres et chiffres de toute langue. Par exemple, vous pouvez spécifier des ressources comme les banques de
données étiquetées à l'aide de caractères étendus.
20
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Quand vous utilisez un système d'exploitation Linux, vous devez configurer le système de manière à utiliser
un codage UTF-8 propre à vos paramètres régionaux. Par exemple, pour utiliser le français de France,
spécifiez le codage de paramètres régionaux suivant : fr_FR.UTF-8. Reportez-vous à la documentation de
votre fournisseur pour plus d'informations sur la configuration du codage UTF-8 pour votre environnement
Linux.
Prise en charge des caractères spéciaux
Les ressources vCenter Server suivantes peuvent comporter un point (.) dans leur nom, ce qui vous permet
de les sélectionner à la fois avec l'interface de ligne de commande et vSphere Web Client.
n
nom de groupe de ports
n
nom de cluster
n
nom de pool de ressources
n
nom de banque de données
L'utilisation d'un point n'est pas autorisée dans le nom de la ressource Serengeti.
Ressources exclues de la prise en charge Unicode UTF-8
Le fichier de spécification de cluster Serengeti, le fichier de manifeste et le fichier de mappage racks-hôtes de
topologie n'offrent pas de prise en charge UTF-8. Quand vous créez ces fichiers pour définir les nœuds et
ressources que le cluster va utiliser, utilisez uniquement des noms d'attributs ASCII composés de caractères
alphanumériques et de traits de soulignement (_).
Les noms de ressources suivants sont exclus de la prise en charge UTF-8 :
n
nom de cluster
n
nom nodeGroup
n
nom de nœud
n
nom de machine virtuelle
Les attributs suivants inclus dans le fichier de spécification de cluster Serengeti sont exclus de la prise en
charge UTF-8 :
n
nom de distribution
n
rôle
n
configuration de cluster
n
type de stockage
n
haFlag
n
instanceType
n
groupAssociationsType
Le nom de rack dans le fichier de mappage racks-hôtes de topologie et le champ placementPolicies du
fichier de spécification de cluster Serengeti sont également exclus de la prise en charge UTF-8.
VMware, Inc.
21
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Le programme d'amélioration du produit
Vous pouvez configurer Big Data Extensions de sorte qu'il collecte des données afin de nous aider à
améliorer votre expérience utilisateur des produits VMware. La section suivante contient des informations
importantes sur le programme d'amélioration du produit VMware.
Le programme d'amélioration du produit vise à identifier et à régler rapidement les problèmes qui peuvent
affecter votre expérience. Si vous choisissez de participer au programme d'amélioration du produit,
Big Data Extensions enverra régulièrement des données anonymes à VMware. Nous utiliserons ces données
à des fins de développement de produits et de résolution des problèmes.
Avant de collecter des données, VMware anonymise tous les champs contenant des informations propres à
votre entreprise. VMware rend ces champs neutres en hachant leur valeur réelle. Lorsqu'une valeur hachée
est collectée, VMware n'est pas en mesure d'identifier la valeur réelle, mais détecte les changements qu'elle
subit lorsque vous modifiez votre environnement.
Catégories d'information dans les données collectées
Lorsque vous choisissez de participer au programme d'amélioration du produit VMware (CEIP), VMware
obtient des données des catégories suivantes :
Données de
configuration
Données sur votre configuration des produits VMware et informations liées
à votre environnement informatique. Exemples de données de
configuration : informations sur la version des produits VMware, sur le
matériel et les logiciels utilisés dans votre environnement, paramètres de
configuration des produits et informations sur votre environnement réseau.
Les données de configuration peuvent inclure des versions hachées des ID et
des adresses MAC et IP de vos périphériques.
Données sur l'utilisation
des fonctions
Données sur votre utilisation des produits et services VMware. Exemples de
données sur l'utilisation des fonctions : informations sur les fonctions
utilisées, indicateurs d'activité dans l'interface utilisateur et informations sur
vos appels API.
Données performances
Données sur les performances des produits et services VMware. Exemples de
données sur les performances : indicateurs de performance et échelle des
produits et services VMware, temps de réponse des interfaces utilisateur et
informations sur vos appels d'API.
Activation et désactivation de la collecte des données
Par défaut, l'inscription au programme d'amélioration du produit est activée pendant l'installation. Vous
avez la possibilité de désactiver ce service à ce moment-là. Vous pouvez également mettre fin à votre
participation au programme à tout moment et ainsi arrêter d'envoyer des données à VMware. Reportezvous à « Désactiver le collecteur de données Big Data Extensions », page 124.
Pour toute question ou inquiétude concernant le programme d'amélioration du produit pour Log Insight,
contactez [email protected].
22
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Déployer le vApp Big Data Extensions dans vSphere Web Client
Le déploiement du vApp Big Data Extensions constitue la première étape pour rendre votre cluster
opérationnel avec Big Data Extensions.
Prérequis
n
Installez et configurez vSphere.
n
Configurez tous les hôtes ESXi pour utiliser le même serveur NTP.
n
Sur chaque hôte ESXi, ajoutez le serveur NTP à la configuration d'hôte, puis, dans la liste Stratégie
de démarrage de la configuration d'hôte, sélectionnez Démarrer et arrêter avec l'hôte. Le démon
NTP veille à ce que les processus dépendant de l'heure se produisent de manière synchronisée sur
tous les hôtes.
n
Lorsque vous installez Big Data Extensions sur vSphere 5.5 ou version ultérieure, utilisez vCenter
Single Sign-On pour fournir l'authentification utilisateur.
n
Vérifiez que vous possédez une licence vSphere Enterprise pour chaque hôte sur lequel vous déployez
des nœuds Hadoop virtuels. Vous gérez vos licences vSphere dans vSphere Web Client ou dans
vCenter Server.
n
Installez le plug-in Client Integration pour vSphere Web Client. Ce plug-in permet le déploiement OVF
sur votre système de fichiers local.
REMARQUE Selon les paramètres de sécurité de votre navigateur, vous devrez peut-être accepter le
plug-in lors de sa première utilisation.
n
Téléchargez Big Data Extensions OVA depuis le site de téléchargement VMware.
n
Vérifiez que vous avez au moins 40 Go d'espace disque disponible pour OVA. Vous avez besoin
d'autres ressources pour le cluster Hadoop.
n
Assurez-vous de connaître l'URL du service de recherche vCenter Single Sign-On pour votre service
vCenter Single Sign-On.
Si vous installez Big Data Extensions sur vSphere 5.5 ou version ultérieure, veillez à ce que votre
environnement inclue vCenter Single Sign-On. Utilisez vCenter Single Sign-On pour fournir
l'authentification utilisateur sur vSphere 5.5 ou version ultérieure.
n
Lisez la description du programme d'amélioration du produit et décidez si vous souhaitez collecter des
données et les envoyer à VMware afin de contribuer à améliorer l'expérience client dans
Big Data Extensions. Reportez-vous à « Le programme d'amélioration du produit », page 22.
Procédure
1
Dans vSphere Web Client, sélectionnez un pool de ressources de niveau supérieur, puis Actions >
Déployer le modèle OVF.
Sélectionnez un pool de ressources de niveau supérieur : Les pools de ressources enfants ne sont pas
pris en charge par Big Data Extensions même si vous pouvez en sélectionner un. Si vous en sélectionnez
un, vous ne pouvez pas créer de clusters Big Data avec Big Data Extensions.
2
VMware, Inc.
Choisissez l'emplacement dans lequel Big Data Extensions OVA réside et cliquez sur Suivant.
Option
Description
Déployez à partir du fichier
Parcourez votre système de fichiers pour un modèle OVF ou OVA.
Déployez à partir d'une URL
Tapez l'URL d'un modèle OVF ou OVA situé sur Internet. Par exemple :
http://vmware.com/VMTN/appliance.ovf.
23
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Consultez la page des détails du modèle OVF et cliquez sur Suivant.
4
Acceptez le contrat de licence, puis cliquez sur Suivant.
5
Spécifiez un nom pour le vApp, sélectionnez un centre de données cible pour OVA, puis cliquez sur
Suivant.
Les seuls caractères valides dans les noms de vApp Big Data Extensions sont les caractères
alphanumériques et les traits de soulignement. Le nom de vApp doit comprendre moins de
60 caractères. Quand vous choisissez le nom de vApp, tenez également compte de la manière dont vous
allez nommer vos clusters. Ensemble, les noms de vApp et de cluster doivent comprendre moins de
80 caractères.
6
Sélectionnez un stockage partagé pour OVA et cliquez sur Suivant.
Si le stockage partagé n'est pas disponible, un stockage local est acceptable.
7
Pour chaque réseau spécifié dans le modèle OVF, sélectionnez un réseau dans la colonne Réseaux de
destination de votre infrastructure pour configurer le mappage réseau.
Le premier réseau permet au serveur de gestion de communiquer avec votre cluster Hadoop. Le second
réseau permet au serveur de gestion de communiquer avec vCenter Server. Si votre déploiement
vCenter Server n'utilise pas IPv6, vous pouvez spécifier le même réseau de destination IPv4 à utiliser
par les deux réseaux sources.
24
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
8
Configurez les paramètres réseau de votre environnement, puis cliquez sur Suivant.
a
Entrez les paramètres réseau qui permettent au serveur de gestion de communiquer avec votre
cluster Hadoop.
Utilisez un réseau IPv4 (IP) statique. Une adresse IPv4 correspond à quatre nombres séparés par
des points comme dans aaa.bbb.ccc.ddd, où chaque plage numérique est comprise entre 0 et 255.
Vous devez entrer un masque de réseau, comme 255.255.255.0, ainsi qu'une adresse de passerelle,
comme 192.168.1.253.
Si vCenter Server, tout hôte ESXi ou un référentiel de distribution Hadoop sont résolus à l'aide
d'un nom de domaine complet (FQDN, Fully Qualified Domain Name), vous devez entrer une
adresse DNS. Entrez l'adresse IP du serveur DNS dans Serveur DNS 1. S'il existe un serveur DNS
secondaire, entrez son adresse IP dans Serveur DNS 2.
REMARQUE Vous ne pouvez pas utiliser un pool IP partagé avec Big Data Extensions.
b
(Facultatif) Si vous utilisez IPv6 entre le serveur de gestion et vCenter Server, cochez la case
Activer la connexion Ipv6.
Entrez l'adresse IPv6 ou le FQDN de vCenter Server. La taille de l'adresse IPv6 s'élève à 128 bits. La
représentation préférée de l'adresse IPv6 est : xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx:xxxx où chaque
x est un chiffre hexadécimal qui représente 4 bits. Les adresses IPv6 vont de
0000:0000:0000:0000:0000:0000:0000:0000 à ffff:ffff:ffff:ffff:ffff:ffff:ffff:ffff. Par commodité, une
adresse IPv6 peut être abrégée sous la forme d'une notation plus courte en appliquant les règles ciaprès.
n
Supprimez le ou les zéros non significatifs de tous les groupes de chiffres hexadécimaux. Cette
suppression est généralement appliquée soit à tous les zéros non significatifs, soit à aucun. Par
exemple, le groupe 0042 est converti en 42.
n
Remplacez les sections consécutives de zéros par un double deux-points (::). Vous pouvez
utiliser le double deux-points une seule fois dans une adresse, car en utiliser plusieurs rendrait
l'adresse imprécise. La norme RFC 5952 recommande de ne pas utiliser de double deux-points
pour représenter une section unique de zéros omise.
L'exemple suivant montre comment ces règles sont appliquées à l'adresse
2001:0db8:0000:0000:0000:ff00:0042:8329.
n
La suppression de tous les zéros non significatifs permet d'obtenir l'adresse
2001:db8:0:0:0:ff00:42:8329.
n
L'omission des sections consécutives de zéros permet d'obtenir l'adresse
2001:db8::ff00:42:8329.
Consultez la norme RFC 4291 pour plus d'informations sur la notation des adresses IPv6.
9
Vérifiez que la case Initialiser les ressources est cochée et cliquez sur Suivant.
Si la case n'est pas cochée, le pool de ressources, la banque de données et la connexion réseau affectés à
vApp ne sont pas ajoutés à Big Data Extensions.
Si vous n'ajoutez pas le pool de ressources, la banque de données et le réseau quand vous déployez
vApp, utilisez vSphere Web Client ou Serengeti CLI Client pour spécifier des informations s'y
rapportant avant de créer un cluster Hadoop.
10
Exécutez l'URL du service de recherche vCenter Single Sign-On pour activer vCenter Single Sign-On.
n
Si vous utilisez vCenter 5.x, utilisez l'URL suivante : https://FQDN_ou_IP_de_SSO_SERVER:
7444/lookupservice/sdk
VMware, Inc.
25
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Si vous utilisez vCenter 6.0, utilisez l'URL suivante : https://FQDN_de_SSO_SERVER:
443/lookupservice/sdk
Si vous ne renseignez pas l'URL, vCenter Single Sign-On est désactivé.
11
Pour désactiver la collecte de données Big Data Extensions, décochez la case Programme d'amélioration
du produit.
12
(Facultatif) Pour désactiver l'enregistrement automatique du plug-in Web Big Data Extensions,
décochez la case d'activation correspondante.
Par défaut, la case d'activation de l'enregistrement automatique du plug-in Web Big Data Extensions est
cochée. Lorsque vous vous connectez au client Web de Big Data Extensions pour la première fois, il se
connecte automatiquement au Serengeti management server.
13
Spécifiez un serveur Syslog distant, tel que VMware vRealize Log Insight, auquel Big Data Extensions
peut envoyer des informations de journalisation à travers le réseau.
Il s'agit du serveur Syslog recevant et gérant les journaux qui contrôle les paramètres de rétention, de
rotation et de division de ceux-ci. Big Data Extensions ne peut pas configurer ni contrôler la gestion des
journaux sur un serveur Syslog distant. Pour en savoir plus sur la gestion des journaux, reportez-vous à
la documentation relative au serveur Syslog.
Quelle que soit la configuration Syslog supplémentaire spécifiée avec cette option, les journaux
continuent d'être placés dans les emplacements par défaut de l'environnement Big Data Extensions.
14
Vérifiez les liaisons vService et cliquez sur Suivant.
15
Vérifiez les informations d'installation, puis cliquez sur Terminer.
vCenter Server déploie Big Data Extensions vApp. Quand le déploiement est terminé, deux machines
virtuelles sont disponibles dans vApp :
n
La machine virtuelle du serveur de gestion, management-server (également appelée
Serengeti Management Server), qui est démarrée dans le cadre du déploiement OVA.
n
La machine virtuelle de modèle de nœud, node-template, n'est pas allumée. Big Data Extensions
clone les nœuds Hadoop à partir de ce modèle lors du provisionnement d'un cluster. Ne démarrez
pas ou n'arrêtez pas cette machine virtuelle sans bonne raison. Le modèle n'inclut pas de
distribution Hadoop.
IMPORTANT Ne supprimez pas de fichiers dans le répertoire /opt/serengeti/.chef. Si vous supprimez
l'un de ces fichiers, comme serengeti.pem, les mises à niveau ultérieures de Big Data Extensions
risquent d'échouer sans afficher de notifications d'erreur.
Suivant
Installez le plug-in Big Data Extensions dans vSphere Web Client. Reportez-vous à « Installer le plug-in Big
Data Extensions », page 27.
Si la case Initialiser les ressources n'est pas cochée, ajoutez des ressources au serveur Big Data Extensions
avant de créer un cluster Hadoop.
Installer des RPM dans le référentiel Yum du serveur de gestion
Serengeti
Installer les packages Red Hat Package Manager (RPM) wsdl4j et mailx dans le référentiel Yum interne de
Serengeti Management Server.
Les packages RPM wsdl4j et mailx ne sont pas intégrés dans Big Data Extensions en raison des contrats de
licence. De ce fait, vous devez les installer dans le référentiel Yum interne de Serengeti Management Server.
26
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Prérequis
Déployez le vApp Big Data Extensions.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Téléchargez et installez les packages RPM wsdl4j et mailx.
n
Si Serengeti Management Server peut se connecter à Internet, exécutez les commandes comme
indiqué dans l'exemple ci-dessous pour télécharger les RPM, copiez les fichiers dans le répertoire
requis, puis créez un référentiel.
umask 022
cd /opt/serengeti/www/yum/repos/centos/6/base/RPMS/
wget http://mirror.centos.org/centos/6/os/x86_64/Packages/mailx-12.4-8.el6_6.x86_64.rpm
wget http://mirror.centos.org/centos/6/os/x86_64/Packages/wsdl4j-1.5.2-7.8.el6.noarch.rpm
createrepo ..
n
Si Serengeti Management Server ne peut pas se connecter à Internet, vous devez exécuter les tâches
suivantes manuellement.
a
Téléchargez les fichiers RPM comme indiqué dans l'exemple ci-dessous.
http://mirror.centos.org/centos/6/os/x86_64/Packages/mailx-12.4-8.el6_6.x86_64.rpm
http://mirror.centos.org/centos/6/os/x86_64/Packages/wsdl4j-1.5.2-7.8.el6.noarch.rpm
b
Copiez les fichiers RPM dans /opt/serengeti/www/yum/repos/centos/6/base/RPMS/.
c
Exécutez la commande createrepo pour créer un référentiel à partir des RPM que vous avez
téléchargés.
umask 022
chmod a+r /opt/serengeti/www/yum/repos/centos/6/base/*.rpm
createrepo /opt/serengeti/www/yum/repos/centos/6/base/
Installer le plug-in Big Data Extensions
Pour permettre à l'interface utilisateur Big Data Extensions d'être utilisée avec vCenter Server Web Client,
enregistrez le plug-in auprès de vSphere Web Client. L'interface utilisateur graphique Big Data Extensions
est uniquement prise en charge lorsque vous utilisez vSphere Web Client 5.5 et version ultérieure.
Le plug-in Big Data Extensions propose une interface graphique utilisateur qui s'intègre à
vSphere Web Client. À l'aide de l'interface du plug-in Big Data Extensions, vous pouvez effectuer des tâches
courantes de gestion de l'infrastructure Hadoop et de clusters.
REMARQUE Utilisez uniquement l'interface du plug-in Big Data Extensions dans vSphere Web Client ou le
client Serengeti CLI pour surveiller et gérer votre environnement Big Data Extensions. L'exécution
d'opérations de gestion dans vCenter Server risque d'entraîner une désynchronisation des outils de gestion
Big Data Extensions et leur incapacité à signaler correctement l'état de fonctionnement de votre
environnement Big Data Extensions.
Prérequis
n
VMware, Inc.
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
27
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Par défaut, le plug-in Web Big Data Extensions s'installe et s'enregistre automatiquement lors du
déploiement du vApp Big Data Extensions. Pour installer le plug-in Web Big Data Extensions après
avoir déployé le vApp Big Data Extensions, vous devez avoir choisi de ne pas activer l'enregistrement
automatique du plug-in Web pendant le déploiement. Reportez-vous à « Déployer le vApp Big Data
Extensions dans vSphere Web Client », page 23.
n
Assurez-vous de disposer d'informations d'identification de connexion avec des privilèges
d'administration pour le système vCenter Server pour lequel vous enregistrez Big Data Extensions.
REMARQUE Le nom d'utilisateur et le mot de passe que vous utilisez pour la connexion ne peuvent pas
contenir de caractères dont le codage UTF-8 est supérieur à 0x8000.
n
Si vous voulez utiliser l'adresse IP de vCenter Server pour accéder à vSphere Web Client et que votre
navigateur utilise un proxy, ajoutez l'adresse IP de vCenter Server à la liste des exceptions de proxy.
Procédure
1
Ouvrez un navigateur Web et accédez à l'URL de vSphere Web Client 5.5 ou version ultérieure.
https://hostname-or-ip-address:port/vsphere-client
La variable hostname-or-ip-address peut être le nom d'hôte DNS ou l'adresse IP de vCenter Server. Par
défaut, le port est 9443, mais il peut avoir changé au cours de l'installation de vSphere Web Client.
2
Entrez le nom d'utilisateur et le mot de passe avec des privilèges d'administration qui possèdent des
autorisations sur vCenter Server, puis cliquez sur Connexion.
3
À l'aide du volet de navigation vSphere Web Client, accédez au fichier ZIP sur
Serengeti Management Server qui contient le plug-in Big Data Extensions à enregistrer auprès de
vCenter Server.
Pour trouver Serengeti Management Server, recherchez sous le centre de données et le pool de
ressources dans lesquels il est déployé.
4
Dans l'arborescence de l'inventaire, sélectionnez management-server pour afficher des informations sur
Serengeti Management Server dans le volet central.
Cliquez sur l'onglet Résumé dans le volet central pour accéder à des informations supplémentaires.
5
Notez l'adresse IP de la machine virtuelle Serengeti Management Server.
6
Ouvrez un navigateur Web et accédez à l'URL de la machine virtuelle management-server.
https://management-server-ip-address:8443/register-plugin
La variable management-server-ip-address correspond à l'adresse IP que vous avez notée à l'étape Étape 5.
7
28
Entrez les informations pour enregistrer le plug-in.
Option
Action
Enregistrer ou annuler
l'enregistrement
Cliquez sur Installer pour installer le plug-in. Sélectionnez Désinstaller
pour désinstaller le plug-in.
Nom d'hôte ou adresse IP de
vCenter Server
Entrez le nom d'hôte ou l'adresse IP de vCenter Server.
Nom utilisateur et Mot de passe
Entrez le nom d'utilisateur et le mot de passe avec des privilèges
d'administration que vous utilisez pour vous connecter à vCenter Server.
Le nom d'utilisateur et le mot de passe ne peuvent pas contenir de
caractères dont le codage UTF-8 est supérieur à 0x8000.
URL du package Big Data
Extensions
Entrez l'URL avec l'adresse IP de la machine virtuelle management-server
où se trouve le package du plug-in Big Data Extensions :
https://management-server-ip-address/vcplugin/serengetiplugin.zip
N'incluez pas http:// ni https:// quand vous entrez le nom d'hôte ou
l'adresse IP.
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
8
Cliquez sur Soumettre.
Le plug-in Big Data Extensions s'enregistre auprès de vCenter Server et de vSphere Web Client.
9
Déconnectez-vous de vSphere Web Client, puis reconnectez-vous à l'aide de vos nom d'utilisateur et
mot de passe vCenter Server.
L'icône Big Data Extensions apparaît dans la liste des objets de l'inventaire.
10
Cliquez sur Big Data Extensions dans le volet Inventaire.
Suivant
Connectez le plug-in Big Data Extensions à l'instance Big Data Extensions que vous voulez gérer en vous
connectant au Serengeti Management Server correspondant. Reportez-vous à « Se connecter à un serveur de
gestion Serengeti », page 30.
Configurer les paramètres vCenter Single Sign-On du serveur de
gestion Serengeti
Si les paramètres d'authentification Single Sign-On (SSO) Big Data Extensions ne sont pas configurés ou s'ils
ont changé suite à l'installation du plug-in Big Data Extensions, vous pouvez utiliser le portail
d'administration du serveur de gestion Serengeti pour activer SSO, mettre à jour le certificat et enregistrer le
plug-in pour pouvoir vous connecter au serveur de gestion Serengeti et continuer à gérer des clusters.
Le certificat SSL du plug-in Big Data Extensions peut changer pour de nombreuses raisons. Par exemple,
vous installez un certificat personnalisé ou remplacez un certificat qui a expiré.
Prérequis
n
Assurez-vous de connaître l'adresse IP du serveur de gestion Serengeti auquel vous voulez vous
connecter.
n
Assurez-vous de disposer des informations d'identification de connexion de l'utilisateur root du
serveur de gestion Serengeti.
Procédure
1
Ouvrez un navigateur Web et accédez à l'URL du portail d'administration du serveur de gestion
Serengeti.
https://management-server-ip-address:5480
2
Tapez root pour le nom d'utilisateur, tapez le mot de passe, puis cliquez sur Connexion.
3
Sélectionnez l'onglet SSO.
4
Effectuez l'une des opérations suivantes.
Option
Description
Mettre à jour le certificat
Cliquez sur Mettre à jour le certificat.
Activer SSO pour la première fois
Tapez l'URL du service de recherche, puis cliquez sur Activer SSO.
Les certificats de serveur SSO Big Data Extensions et vCenter sont synchronisés.
Suivant
Enregistrez de nouveau le plug-in Big Data Extensions auprès du serveur de gestion Serengeti. Reportezvous à « Se connecter à un serveur de gestion Serengeti », page 30.
VMware, Inc.
29
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Se connecter à un serveur de gestion Serengeti
Pour utiliser le plug-in Big Data Extensions pour gérer et surveiller des clusters Big Data et des distributions
Hadoop, vous devez connecter le plug-in Big Data Extensions au Serengeti Management Server dans votre
déploiement Big Data Extensions.
Vous pouvez déployer plusieurs instances du Serengeti Management Server dans votre environnement. En
revanche, vous ne pouvez connecter le plug-in Big Data Extensions qu'à une seule instance du serveur de
gestion Serengeti à la fois. Vous pouvez changer l'instance Serengeti Management Server à laquelle se
connecte le plug-in, puis utiliser l'interface du plug-in Big Data Extensions pour gérer et surveiller plusieurs
distributions Hadoop et HBase déployées dans votre environnement.
IMPORTANT Le Serengeti Management Server auquel vous vous connectez est partagé par tous les
utilisateurs de l'interface du plug-in Big Data Extensions dans vSphere Web Client. Si un utilisateur se
connecte à un autre Serengeti Management Server, tous les autres utilisateurs sont affectés par ce
changement.
Prérequis
n
Vérifiez que le déploiement du vApp Big Data Extensions s'est correctement déroulé et que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
n
Vérifiez que la version du serveur de gestion Serengeti et du plug-in Big Data Extensions est la même.
n
Vérifiez que vCenter Single Sign-On est activé et configuré pour être utilisé par Big Data Extensions
pour vSphere 5.5 et versions ultérieures.
n
Installez le plug-in Big Data Extensions.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Cliquez sur l'onglet Résumé.
4
Dans le volet Serveur connecté, cliquez sur le lien Connecter le serveur.
5
Accédez à la machine virtuelle du Serengeti Management Server dans le vApp Big Data Extensions
auquel se connecter, sélectionnez-la, puis cliquez sur OK.
Le plug-in Big Data Extensions communique via le protocole SSL avec le Serengeti Management Server.
Quand vous vous connectez à une instance du serveur Serengeti, le plug-in vérifie que le certificat SSL
en cours d'utilisation par le serveur est installé, valide et approuvé.
L'instance du serveur Serengeti apparaît en tant que serveur connecté sous l'onglet Résumé de la page
d'accueil Big Data Extensions.
Suivant
Vous pouvez ajouter un pool de ressources, une banque de données et des ressources réseau à votre
déploiement Big Data Extensions, puis créer des clusters Big Data que vous pouvez provisionner à des fins
d'utilisation.
30
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Installer le client d'interface de ligne de commande distant Serengeti
Bien que le plug-in Big Data Extensions pour vSphere Web Client prenne en charge des tâches de gestion de
ressources et de clusters basiques, vous pouvez exécuter bien plus de tâches de gestion à l'aide du client
Serengeti CLI.
Prérequis
n
Vérifiez que le déploiement du vApp Big Data Extensions s'est correctement déroulé et que le serveur
de gestion est en cours d'exécution.
n
Vérifiez que vous disposez du nom d'utilisateur et du mot de passe corrects pour vous connecter au
client Serengeti CLI. Si vous effectuez le déploiement sur vSphere 5.5 ou version ultérieure, le client
Serengeti CLI utilise vos informations d'identification vCenter Single Sign-On.
n
Vérifiez que l'environnement d'exécution Java (JRE, Java Runtime Environment) est installé dans votre
environnement et que son emplacement se trouve dans votre variable d'environnement PATH.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Cliquez sur l'onglet Démarrage, puis sur le lien Télécharger la console d'interface de ligne de
commande Serengeti.
Un fichier ZIP contenant le client Serengeti CLI est téléchargé sur votre ordinateur.
4
Décompressez-le et examinez le téléchargement, qui inclut les composants suivants dans le répertoire
cli.
n
Fichier JAR serengeti-cli-version, qui inclut le client Serengeti CLI.
n
Répertoire samples, qui inclut des exemples de configurations de clusters.
n
Bibliothèques dans le répertoire lib.
5
Ouvrez une interface de commande, puis accédez au répertoire dans lequel vous avez décompressé le
package de téléchargement du client Serengeti CLI.
6
Accédez au répertoire cli, puis exécutez la commande suivante pour ouvrir le client Serengeti CLI :
java -jar serengeti-cli-version.jar
Suivant
Pour en savoir plus sur l'utilisation du client Serengeti CLI, consultez le Guide de l'interface de ligne de
commande VMware vSphere Big Data Extensions.
Accéder à l'interface de ligne de commande Serengeti à l'aide du
client d'interface de ligne de commande distant
Vous pouvez accéder à l'interface de ligne de commande (CLI) Serengeti pour effectuer des tâches
administratives Serengeti à l'aide du client d'interface de ligne de commande distant Serengeti.
Prérequis
®
n
Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server sur
lequel vous avez déployé le vApp Serengeti.
n
Vérifiez que le déploiement de Serengeti vApp s'est correctement déroulé et que le serveur de gestion
est en cours d'exécution.
VMware, Inc.
31
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Vérifiez que le mot de passe dont vous disposez pour vous connecter à la Serengeti CLI est exact.
Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
La Serengeti CLI utilise ses informations d'identification vCenter Server.
n
Vérifiez que l'environnement d'exécution Java (JRE, Java Runtime Environment) est installé dans votre
environnement et que son emplacement se trouve dans votre variable d'environnement path.
Procédure
1
Téléchargez le package Serengeti CLI à partir du Serengeti Management Server.
Ouvrez un navigateur Web et naviguez jusqu'à l'URL suivante :
https://server_ip_address/cli/VMware-Serengeti-CLI.zip
2
Téléchargez le fichier ZIP.
Le nom de fichier est au format VMware-Serengeti-cli-numéro_version-numéro_build.ZIP.
3
Décompressez le fichier téléchargé.
Celui-ci inclut les composants suivants.
n
Le fichier JAR serengeti-cli-version_number, qui inclut le Serengeti Remote CLI Client.
n
Répertoire samples, qui inclut des exemples de configurations de clusters.
n
Bibliothèques dans le répertoire lib.
4
Ouvrez une interface de commande, puis accédez au répertoire dans lequel vous avez décompressé le
package.
5
Accédez au répertoire cli, puis exécutez la commande suivante pour entrer dans l'interface de ligne de
commande Serengeti.
n
Pour les langues autres que le français ou l'allemand, exécutez la commande suivante.
java -jar serengeti-cli-numéro_version.jar
n
Pour le français ou l'allemand, qui utilisent l'encodage linguistique de page de code 850 (CP 850)
exécuter l'interface de ligne de commande Serengeti à partir d'une console de commandes
Windows, exécutez la commande suivante.
java -Dfile.encoding=cp850 -jar serengeti-cli-numéro_version.jar
6
Connectez-vous au service Serengeti.
Vous devez exécuter la commande connect host chaque fois que vous commencez une session
d'interface de ligne de commande, puis une nouvelle fois à l'issue du délai d'expiration de session de
30 minutes. Si vous n'exécutez pas cette commande, vous ne pouvez pas en exécuter d'autres.
a
Exécutez la commande connect.
connect --host xx.xx.xx.xx:8443
b
À l'invite, tapez votre nom d'utilisateur, qui peut être différent des informations d'identification
que vous utilisez pour vous connecter au Serengeti Management Server.
REMARQUE Si vous ne créez pas de nom d'utilisateur et de mot de passe pour le
Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification
d'administrateur vCenter Server par défaut. Le Serengeti Command-Line Interface Client utilise les
informations d'identification de vCenter Server avec les autorisations de lecture sur le
Serengeti Management Server.
c
32
À l'invite, tapez votre mot de passe.
VMware, Inc.
Chapitre 2 Installation de Big Data Extensions
Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI apparaît. Vous pouvez utiliser la
commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe.
n
Pour afficher la liste des commandes disponibles, tapez help.
n
Pour obtenir de l'aide sur une commande particulière, ajoutez son nom après la commande help.
help cluster create
n
VMware, Inc.
Appuyez sur Tab exécuter une commande.
33
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
34
VMware, Inc.
Mise à niveau de Big Data Extensions
3
Vous pouvez mettre à niveau Big Data Extensions à partir de versions antérieures.
Ce chapitre aborde les rubriques suivantes :
n
« Préparer la mise à niveau de Big Data Extensions », page 35
n
« Mettre à niveau le dispositif virtuel Big Data Extensions », page 36
n
« Mettre à niveau le plug-in Big Data Extensions », page 37
n
« Mettre à niveau des clusters Big Data Extensions à l'aide de l'interface de ligne de commande
Serengeti », page 38
n
« Mettre à niveau l'Serengeti CLI », page 39
n
« Ajouter un serveur Syslog distant », page 39
Préparer la mise à niveau de Big Data Extensions
Avant d'effectuer la mise à niveau Big Data Extensions, vous devez préparer votre système pour vous
assurer que tous les logiciels requis sont correctement installés et configurés et que l'état de tous les
composants est correct.
Les données issues de déploiements Big Data Extensions qui ne fonctionnent pas ne sont pas migrées
pendant le processus de mise à niveau. Si Big Data Extensions ne fonctionne pas et que vous ne pouvez pas
effectuer une récupération conformément aux procédures de résolution des problèmes, n'essayez pas
d'effectuer la mise à niveau. Désinstallez plutôt les composants Big Data Extensions précédents et installez
la nouvelle version.
IMPORTANT Ne supprimez pas de fichiers dans le répertoire /opt/serengeti/.chef. Si vous supprimez l'un
de ces fichiers, comme serengeti.pem, les mises à niveau ultérieures de Big Data Extensions risquent
d'échouer sans afficher de notifications d'erreur.
Prérequis
n
Vérifiez que votre déploiement Big Data Extensions précédent fonctionne normalement.
Procédure
1
Connectez-vous à Serengeti Management Server.
2
Exécutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode Maintenance.
serengeti-maintenance.sh on
VMware, Inc.
35
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Vérifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a terminé toutes les tâches qui ont été envoyées, l'état de maintenance
entre en mode sécurisé. Exécutez le script serengeti-maintenance.sh avec le paramètre status de
manière répétée jusqu'à obtenir le message d'état du système sécurisé.
serengeti-maintenance.sh status
safe
Lorsque le système renvoie le message d'état système sécurisé, vous pouvez procédez aux tâches de
mise à niveau du système.
Suivant
Vous pouvez à présent effectuer la mise à niveau vers la nouvelle version de Big Data Extensions. Reportezvous à la section « Mettre à niveau le dispositif virtuel Big Data Extensions », page 36.
Mettre à niveau le dispositif virtuel Big Data Extensions
Vous devez effectuer plusieurs tâches pour accomplir la mise à niveau du dispositif virtuel
Big Data Extensions.
Prérequis
La nouvelle version de Big Data Extensions se déploie avec succès dans le même environnement
vCenter Server que la version à partir de laquelle vous effectuez la mise à niveau.
Procédure
1
Exécutez le script de mise à niveau de Big Data Extensions. page 36
Le script de mise à niveau importe la configuration de la version précédente de Big Data Extensions.
2
Mettre à niveau Serengeti Management Server à l'aide du Portail d'administration de Serengeti
Management Server page 37
Vous pouvez effectuer des mises à niveau de votre version antérieure de Big Data Extensions vers la
dernière version à l'aide du Portail d'administration de Serengeti Management Server.
Exécutez le script de mise à niveau de Big Data Extensions .
Le script de mise à niveau importe la configuration de la version précédente de Big Data Extensions.
Prérequis
n
Déployez la nouvelle version de Big Data Extensions sur la même instance vCenter Server que votre
ancienne version. Cela permet au script de mise à niveau d'importer les paramètres Big Data Extensions
de votre précédent déploiement dans la dernière version.
n
Vous ne pouvez utiliser cette méthode de mise à niveau que pour passer de la version 2.2 à la
version 2.3. Si vous effectuez une mise à niveau depuis une version antérieure de Big Data Extensions,
vous devez d'abord procéder à la mise à niveau vers la version 2.2.
n
Si vous utilisez un modèle Hadoop personnalisé, créez un modèle Hadoop pour votre environnement
avant de procéder à la mise à niveau vers la nouvelle version de Big Data Extensions. Reportez-vous à
la section « Créer une machine virtuelle de modèle de nœud à l'aide de RHEL Server 6.7 et VMware
Tools », page 66.
n
Veillez à avoir à disposition l'adresse IP de la version 2.2 de Serengeti Management Server.
Procédure
1
36
Ouvrez une interface de commande sur la version de Serengeti Management Server vers laquelle vous
effectuez la mise à niveau (version 2.3) et connectez-vous en tant qu'utilisateur serengeti.
VMware, Inc.
Chapitre 3 Mise à niveau de Big Data Extensions
2
Exécutez le script /opt/serengeti/sbin/upgrade.py.
Indiquez l'adresse IP de la version 2.2 de Serengeti Management Server. Le script vous invite à entrer le
mot de passe d'utilisateur serengeti de la version 2.2 de Serengeti Management Server.
/opt/serengeti/sbin/upgrade.py ip_address_2.2
Le processus de mise à niveau prend quelques minutes. Des messages vous informent de la progression
de la mise à niveau au fil de celle-ci.
3
Ouvrez une interface de commande sur Serengeti Management Server pour la version 2.3 et connectezvous en tant qu'utilisateur serengeti.
Si la procédure de mise à niveau renvoie une erreur, consultez le
fichier /opt/serengeti/logs/serengeti-upgrade.log. Ce fichier journal assure le suivi et
l'enregistrement des événements pendant la mise à niveau de Big Data Extensions et peut servir à
diagnostiquer d'éventuels problèmes.
Suivant
Vous pouvez à présent procéder à la mise à niveau de Serengeti Management Server. Reportez-vous à
« Mettre à niveau Serengeti Management Server à l'aide du Portail d'administration de Serengeti
Management Server », page 37.
Mettre à niveau Serengeti Management Server à l'aide du Portail
d'administration de Serengeti Management Server
Vous pouvez effectuer des mises à niveau de votre version antérieure de Big Data Extensions vers la
dernière version à l'aide du Portail d'administration de Serengeti Management Server.
Procédure
1
Ouvrez un navigateur Web et accédez à l'URL du Portail d'administration de
Serengeti Management Server pour Big Data Extensions 2.3.
https://management-server-ip-address:5480
2
Tapez root pour le nom d'utilisateur, tapez le mot de passe, puis cliquez sur Connexion.
3
Sélectionnez l'onglet Mettre à niveau.
4
Saisissez les adresses IP du serveur Big Data Extensions à partir duquel vous souhaitez effectuer la mise
à niveau, puis le mot de passe de l'utilisateur serengeti, et cliquez sur Mettre à niveau.
Mettre à niveau le plug-in Big Data Extensions
Vous devez utiliser la même version pour le Serengeti Management Server et le plug-in Big Data Extensions.
Par défaut, le plug-in Web Big Data Extensions s'installe et s'enregistre auprès du
Serengeti Management Server automatiquement lors du déploiement du vApp Big Data Extensions. Si vous
choisissez de ne pas installer ni enregistrer le plug-in Web Big Data Extensions lors de l'installation du vApp
Big Data Extensions, vous devez procéder comme suit pour mettre à niveau le plug-in.
Procédure
1
Ouvrez un navigateur Web et accédez à l'URL du service de gestion de plug-in
Serengeti Management Server.
https://management-server-ip-address:8443/register-plugin
2
Sélectionnez Désinstaller et cliquez sur Envoyer.
3
Sélectionnez Installer.
VMware, Inc.
37
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
4
Entrez les informations pour enregistrer le nouveau plug-in, puis cliquez sur Envoyer.
Mettre à niveau des clusters Big Data Extensions à l'aide de l'interface
de ligne de commande Serengeti
Pour permettre à Serengeti Management Server de gérer les clusters créés dans une version antérieure de
Big Data Extensions, vous devez mettre à niveau les composants des machines virtuelles de chaque cluster.
Serengeti Management Server utilise ces composants pour contrôler les nœuds de cluster.
Quand vous effectuez une mise à niveau à partir d'une version antérieure de Big Data Extensions, les
clusters que vous avez besoin de mettre à niveau apparaissent avec une icône d'alerte en regard de leur
nom. Lorsque vous cliquez sur l'icône d'alerte, le message d'erreur Mettre à niveau le cluster vers la
version la plus récente s'affiche sous la forme d'une info-bulle. Reportez-vous à « Afficher les clusters
provisionnés dans vSphere Web Client », page 125.
Vous pouvez également identifier les clusters qui ont besoin d'une mise à niveau avec la commande cluster
list. Quand vous exécutez la commande cluster list, une indication d'antériorité s'affiche là où se trouve
normalement la version du cluster.
Prérequis
n
Vous pouvez mettre à niveau tout cluster créé par Big Data Extensions 2.x vers la version 2.3. Vous
n'avez pas à mettre à niveau le cluster vers la version 2.2 avant de le mettre à niveau vers la version 2.3.
Procédure
1
Connectez-vous au vSphere Web Client qui est connecté à vCenter Server et accédez à Hôtes et
clusters.
2
Sélectionnez le pool de ressources du cluster, sélectionnez l'onglet Machines virtuelles, puis mettez
sous tension les machines virtuelles du cluster.
IMPORTANT L'affectation des adresses IP valides aux nœuds de cluster Big Data par vCenter Server peut
prendre jusqu'à cinq minutes. N'effectuez pas les étapes de mise à niveau restantes tant que les nœuds
n'ont pas reçu leurs adresses IP. Si un nœud ne possède pas d'adresse IP valide, il n'est pas possible de
le mettre à niveau vers la nouvelle version des outils de machine virtuelle Big Data Extensions.
3
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous à
Serengeti Management Server en tant qu'utilisateur serengeti.
4
Exécutez la commande cluster upgrade pour chaque cluster qui a été créé avec une version antérieure
de Big Data Extensions.
5
Si la mise à niveau échoue pour un nœud, assurez-vous que le nœud qui a échoué possède une adresse
IP valide, puis réexécutez la commande cluster upgrade.
Vous pouvez réexécuter la commande autant de fois que nécessaire pour mettre à niveau tous les
nœuds.
Suivant
Arrêtez et redémarrez vos clusters Big Data.
38
VMware, Inc.
Chapitre 3 Mise à niveau de Big Data Extensions
Mettre à niveau l' Serengeti CLI
La version de l'Serengeti CLI doit être la même que celle de votre déploiement Big Data Extensions. Si vous
exécutez l'interface de ligne de commande à distance pour vous connecter au serveur de gestion, vous devez
mettre à niveau l'Serengeti CLI.
Procédure
1
Connectez-vous à vSphere Web Client.
2
Sélectionnez Big Data Extensions dans le panneau de navigation.
3
Cliquez sur l'onglet Résumé.
4
Dans le panneau Serveur connecté, cliquez sur Connecter le serveur.
5
Sélectionnez la machine virtuelle Serengeti Management Server dans le vApp Big Data Extensions
auquel se connecter, puis cliquez sur OK.
6
Cliquez sur l'onglet Démarrage, puis sur Télécharger la console d'interface de ligne de commande
Serengeti.
Un fichier ZIP contenant le client Serengeti CLI est téléchargé sur votre ordinateur.
7
Décompressez et examinez le fichier ZIP, qui inclut les composants suivants dans le répertoire CLI :
n
Fichier JAR serengeti-cli-version, qui inclut le client Serengeti CLI.
n
Répertoire samples, qui inclut des exemples de configurations de clusters.
n
Bibliothèques dans le répertoire lib.
8
Ouvrez une interface de commande, puis accédez au répertoire dans lequel vous avez décompressé le
package de téléchargement du client Serengeti CLI.
9
Accédez au répertoire CLI, puis exécutez la commande suivante pour ouvrir le client Serengeti CLI :
java -jar serengeti-cli-version.jar
Suivant
1
Si vos clusters sont déployés avec une machine virtuelle de modèle Hadopp dont la version du système
d'exploitation CentOS 6.x est personnalisée et inclut VMware Tools, vous devez personnaliser un
nouveau modèle CentOS 6.x à utiliser après la mise à niveau de Big Data Extensions.
2
Pour permettre à Serengeti Management Server de gérer les clusters que vous avez créés dans une
version précédente de Big Data Extensions, vous devez mettre à niveau chaque cluster.
Ajouter un serveur Syslog distant
Si vous souhaitez utiliser un serveur Syslog distant après une mise à niveau depuis des versions antérieures
de Big Data Extensions, vous devez spécifier manuellement le serveur Syslog distant que vous souhaitez
utiliser.
C'est le serveur Syslog recevant et gérant les journaux qui contrôle les paramètres de rétention, de rotation et
de division de ceux-ci. Big Data Extensions ne peut pas configurer ni contrôler la gestion des journaux sur
un serveur Syslog distant. Pour en savoir plus sur la gestion des journaux, reportez-vous à la documentation
relative à votre serveur Syslog.
Prérequis
n
VMware, Inc.
Effectuer une mise à niveau vers la version actuelle de Big Data Extensions.
39
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Disposer dans votre environnement d'un serveur Syslog distant auquel Big Data Extensions peut
envoyer des informations de journalisation.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ouvrez le fichier /etc/rsyslog.d/20-base.conf dans un éditeur de texte.
3
Modifiez le fichier pour inclure les informations sur le service Syslog distant.
*.* @syslog_ip_address:port_number
4
Redémarrez le service Syslog.
service rsyslog restart
Votre déploiement Big Data Extensions mis à niveau enverra des ifnormations de journalisation au service
Syslog distant que vous spécifiez.
REMARQUE Quelle que soit la configuration Syslog supplémentaire spécifiée avec cette procédure, les
journaux continuent d'être placés dans les emplacements par défaut de l'environnement
Big Data Extensions. Reportez-vous à « Fichiers journaux pour le dépannage », page 142.
40
VMware, Inc.
Gestion des gestionnaires
d'applications
4
Pour bien gérer vos clusters Hadoop, il est essentiel de comprendre comment gérer les différents
gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
« Ajouter un gestionnaire d'applications à l'aide de vSphere Web Client », page 41
n
« Modifier un gestionnaire d'applications à l'aide de vSphere Web Client », page 42
n
« Supprimer un gestionnaire d'applications à l'aide de vSphere Web Client », page 42
n
« Afficher les gestionnaires d'applications et les distributions à l'aide de vSphere Web Client »,
page 42
n
« Afficher les rôles du gestionnaire d'applications et de la distribution à l'aide de vSphere Web
Client », page 43
Ajouter un gestionnaire d'applications à l'aide de vSphere Web Client
Pour utiliser un gestionnaire d'applications Cloudera Manager ou Ambari visant à gérer des clusters, vous
devez ajouter ce gestionnaire d'applications ainsi que des informations sur le serveur à Big Data Extensions.
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères alphanumériques
([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et espace.
Procédure
1
Dans le volet de navigation Big Data Extensions, cliquez sur Gestionnaires d'applications.
2
Cliquez sur l'icône Ajouter un gestionnaire d'applications (+) en haut de la page pour ouvrir
l'Assistant Nouveau gestionnaire d'applications.
3
Suivez les invites pour terminer l'installation du gestionnaire d'applications.
Vous pouvez utiliser soit http, soit https.
Option
Action
Utiliser http
Entrez l'URL du serveur avec http. La zone de texte Certification SSL est
désactivée.
Utiliser https
Entrez le FQDN au lieu de l'URL. La zone de texte Certification SSL est
activée.
L'interface utilisateur Web vSphere actualise la liste des gestionnaires d'applications et l'affiche en mode
Liste.
VMware, Inc.
41
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Modifier un gestionnaire d'applications à l'aide de vSphere Web Client
Vous pouvez modifier les informations d'un gestionnaire d'applications. Par exemple, vous pouvez modifier
l'adresse IP du serveur de gestion si elle n'est pas statique ou vous pouvez mettre à niveau le compte
d'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre environnement
Big Data Extensions.
Procédure
1
Dans vSphere Web Client, cliquez sur Gestionnaires d'applications dans le menu de navigation.
2
Dans la liste Gestionnaires d'applications, cliquez avec le bouton droit sur le gestionnaire d'applications
à modifier et sélectionnez Modifier les paramètres.
3
Dans la boîte de dialogue Modifier le gestionnaire d'applications, apportez les modifications au
gestionnaire d'applications et cliquez sur OK.
Supprimer un gestionnaire d'applications à l'aide de vSphere Web
Client
Vous pouvez supprimer un gestionnaire d'applications avec vSphere Web Client quand vous n'en avez plus
besoin.
Le processus échoue si le gestionnaire d'applications que vous voulez supprimer contient des clusters.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre environnement
Big Data Extensions.
Procédure
1
Dans vSphere Web Client, cliquez sur Gestionnaires d'applications dans le volet de navigation.
2
Cliquez avec le bouton droit sur le gestionnaire d'applications à supprimer et sélectionnez Supprimer.
Le gestionnaire d'applications est supprimé de la liste Gestionnaires d'applications.
Afficher les gestionnaires d'applications et les distributions à l'aide de
vSphere Web Client
Vous pouvez afficher la liste des gestionnaires d'applications et des distributions en cours d'utilisation dans
votre environnement Big Data Extensions.
Procédure
u
À partir de Big Data Extensions, cliquez sur Gestionnaires d'applications depuis Listes d'inventaire.
La liste qui s'ouvre contient les distributions, les descriptions, les gestionnaires d'applications, ainsi que
le nombre de clusters gérés par votre environnement Big Data Extensions.
42
VMware, Inc.
Chapitre 4 Gestion des gestionnaires d'applications
Afficher les rôles du gestionnaire d'applications et de la distribution à
l'aide de vSphere Web Client
Vous pouvez utiliser le volet Gestionnaires d'applications pour afficher la liste et les détails des rôles
Hadoop pour un gestionnaire d'applications et une distribution spécifiques.
Procédure
1
À partir de Big Data Extensions, cliquez sur Listes d'inventaire > Gestionnaires d'applications.
2
Sélectionnez le gestionnaire d'applications pour lequel vous voulez afficher les détails.
Le volet de détails qui s'ouvre contient la liste des distributions prises en charge avec leur nom, leur
fournisseur, leur version et leurs rôles.
VMware, Inc.
43
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
44
VMware, Inc.
5
Gestion de distributions Hadoop
Le Serengeti Management Server inclut la distribution Apache Bigtop, mais vous pouvez ajouter n'importe
quelle distribution Hadoop prise en charge dans votre environnement Big Data Extensions.
Procédure
1
Types de déploiement de distribution Hadoop page 45
Vous pouvez choisir la distribution Hadoopà utiliser lorsque vous déployez un cluster. Le type de
distribution que vous choisissez détermine la manière de la configurer pour une utilisation avec
Big Data Extensions. Lorsque vous déployez l'application virtuelle Big Data Extensions, la distribution
Bigtop 1.0 est incluse dans le fichier OVA que vous téléchargez et déployez.
2
Configurer une distribution Hadoop déployée sur Tarball à l'aide de l'interface de ligne de commande
Serengeti page 46
Vous pouvez ajouter et configurer des distributions Hadoop différentes de celles incluses avec
l'application virtuelle Big Data Extensions à l'aide de la ligne de commande. Vous pouvez configurer
plusieurs distributions Hadoop de différents fournisseurs.
3
Configuration de Yum et de référentiels Yum page 48
Vous pouvez déployer les distributions Hadoop Cloudera CDH4 et CDH5, Apache Bigtop, MapR et
Pivotal PHD à l'aide de Yellowdog Updater, Modified (Yum). Yum permet la mise à jour automatique
et la gestion des paquets des distributions de logiciel basées sur RPM. Pour déployer une distribution
Hadoop à l'aide de Yum, vous devez créer et configurer un référentiel Yum.
Types de déploiement de distribution Hadoop
Vous pouvez choisir la distribution Hadoopà utiliser lorsque vous déployez un cluster. Le type de
distribution que vous choisissez détermine la manière de la configurer pour une utilisation avec
Big Data Extensions. Lorsque vous déployez l'application virtuelle Big Data Extensions, la distribution
Bigtop 1.0 est incluse dans le fichier OVA que vous téléchargez et déployez.
En fonction de la distribution Hadoopque vous souhaitez configurer pour une utilisation avec
Big Data Extensions, utilisez un référentiel tarball ou yum pour installer votre distribution. Le tableau
répertorie les distributions Hadoop prises en charge, ainsi que le nom, l'abréviation du fournisseur et le
numéro de version de la distribution à utiliser en tant que paramètres d'entrée lors de la configuration de la
distribution pour une utilisation avec Big Data Extensions.
Tableau 5‑1. Types de déploiement Hadoop dans le gestionnaire d'applications par défaut
Distribution Hadoop
Numéro de
version
Abréviation du
fournisseur
Type de
déploiement
Prise en charge
HVE ?
Bigtop
1.0
BIGTOP
Yum
Non
Pivotal HD
2.0, 2.1
PHD
Yum
Oui
VMware, Inc.
45
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 5‑1. Types de déploiement Hadoop dans le gestionnaire d'applications par défaut (suite)
Distribution Hadoop
Numéro de
version
Abréviation du
fournisseur
Type de
déploiement
Prise en charge
HVE ?
Hortonworks Data Platform
1.2, 2.1
HDP
Yum
Non
Cloudera
5.3, 5.4
CDH
Yum
Non
MapR
4.1, 5.0
MAPR
Yum
Non
À propos des
Extensions de
virtualisation Hadoop
Hadoop Virtualization Extensions (HVE), développé par VMware, optimise
les performances Hadoop dans les environnements virtuels en améliorant le
mécanisme de reconnaissance de topologie de Hadoop afin de tenir compte
de la couche de virtualisation.
Configurer des
distributions
Hadoop 2.x et version
ultérieure avec
résolution des noms
DNS
Lorsque vous créez des clusters en utilisant des distributions Hadoopbasées
sur Hadoop 2.0 ou version ultérieure, le serveur DNS de votre réseau doit
assurer une résolution FQDN/IP dans les deux sens. Sans paramètres DNS et
FQDN valides, le processus de création du cluster risque d'échouer ou le
cluster est créé mais il ne fonctionne pas. Les distributions Hadoop basées
sur Hadoop 2.x et version ultérieure incluent Apache Bigtop,
Cloudera CDH4 et CDH5, Hortonworks HDP 2.x, et Pivotal PHD 1.1 et
versions ultérieures.
Configurer une distribution Hadoop déployée sur Tarball à l'aide de
l'interface de ligne de commande Serengeti
Vous pouvez ajouter et configurer des distributions Hadoop différentes de celles incluses avec l'application
virtuelle Big Data Extensions à l'aide de la ligne de commande. Vous pouvez configurer plusieurs
distributions Hadoop de différents fournisseurs.
Reportez-vous au site Web de votre fournisseur de distribution Hadoop pour acquérir les URL de
téléchargement à utiliser pour les composants que vous souhaitez installer. Si vous utilisez un pare-feu,il se
peut que vous ayez à modifier les paramètres de votre proxy pour permettre le téléchargement. Avant
d'installer et de configurer des déploiements basés sur un tarball, vérifiez que vous disposez des URL du
fournisseur pour télécharger les différents composants Hadoop. Utilisez ces URL comme paramètres de
saisie dans l'utilitaire de configuration config-distro.rb.
Si vous possédez une distribution Hadoop locale et que votre serveur ne peut pas accéder à Internet, vous
pouvez télécharger la distribution manuellement.
Prérequis
n
Déployez Big Data Extensions vApp.
n
Vérifiez toutes les distributions Hadoop pour savoir quel nom de distribution, quelle abréviation de
fournisseur et quel numéro de version utiliser en paramètre de saisie et si la distribution prend en
charge Hadoop Virtualization Extension (HVE).
n
(Facultatif) Définissez le mot de passe du serveur de gestion Serengeti.
Procédure
1
46
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
2
Exécutez le script Ruby /opt/serengeti/sbin/config-distro.rb.
config-distro.rb --name distro_name --vendor vendor_name --version version_number
--hadoop hadoop_package_url --pig pig_package_url --hive hive_package_url
--hbase hbase_package_url --zookeeper zookeeper_package_URL --hve {true | false} --yes
Option
Description
--nom
Nommez la distribution Hadoop que vous téléchargez. Par exemple, hdp
pour Hortonworks. Ce nom peut comporte des caractères alphanumérique
([a-z], [A-Z], [0-9]) et des underscores (« _ »).
-- fournisseur
Nom du fournisseur de la distribution Hadoop que vous souhaitez utiliser.
Par exemple, HDP pour Hortonworks.
--version
Version de la distribution Hadoop que vous souhaitez utiliser. Par
exemple, 1.3.
--hadoop
URL à partir de laquelle télécharger le package tarball de distribution
Hadoop sur le site Web du fournisseur d'Hadoop.
--pig
URL à partir de laquelle télécharger le package tarball de distribution Pig
sur le site Web du fournisseur d'Hadoop.
--hive
URL à partir de laquelle télécharger le package tarball de distribution Hive
sur le site Web du fournisseur d'Hadoop.
--hbase
(Facultatif) URL à partir de laquelle télécharger le package tarball de
distribution HBase sur le site Web du fournisseur d'Hadoop.
--zookeeper
(Facultatif) URL à partir de laquelle télécharger le package tarball de
distribution ZooKeeper sur le site Web du fournisseur d'Hadoop.
--hve {true | false}
(Facultatif) Indique si la distribution Hadoop prend en charge HVE.
--oui
(Facultatif) Indique que toutes les invites de confirmation du script
config-distro.rb ont été confirmées.
Dans cet exemple, la version tarball d'Hortonworks Data Platform (HDP) est téléchargée. Elle se
compose des distributions Hortonworks Hadoop, Hive, HBase, Pig et ZooKeeper. Veuillez noter que
vous devez fournir l'URL de téléchargement de chacun des composants logiciels que vous souhaitez
configurer pour les utiliser avec Big Data Extensions.
config-distro.rb --name hdp --vendor HDP --version 1.3.2
--hadoop http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
hadoop-1.2.0.1.3.2.0-111.tar.gz
--pig http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
pig-0.11.1.1.3.2.0-111.tar.gz
--hive http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
hive-0.11.0.1.3.2.0-111.tar.gz
--hbase http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
hbase-0.94.6.1.3.2.0-111-security.tar.gz
--zookeeper http://public-repo-1.hortonworks.com/HDP/centos6/1.x/updates/1.3.2.0/tars/
zookeeper-3.4.5.1.3.2.0-111.tar.gz
--hve true
Le script télécharge les fichiers.
VMware, Inc.
47
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
4
À la fin du téléchargement, explorez le répertoire /opt/serengeti/www/distros, qui inclue les
répertoires et les fichiers suivants.
Élément
Description
nom
Répertoire nommé d'après la distribution. Par exemple, apache.
manifeste
Fichier manifeste généré par config-distro.rb qui est utilisé pour le
téléchargement de la distribution Hadoop.
manifeste.exemple
Fichier manifeste d'exemple. Ce fichier est disponible avant l'exécution
du téléchargement. Le fichier manifeste est un fichier JSON contenant trois
sections : le nom, la version et les packages.
Pour permettre à Big Data Extensions d'utiliser la distribution ajoutée, redémarrez le service Tomcat.
sudo /sbin/service tomcat restart
Serengeti Management Server lit le fichier manifeste modifié et ajoute la distribution à celles à partir
desquelles vous pouvez créer un cluster.
5
Revenez au plug-in Big Data Extensions de vSphere Web Client, puis cliquez sur Distributions Hadoop
afin de vérifier que la distribution Hadoop est disponible pour créer un cluster.
La distribution et le rôle correspondant apparaissent.
La distribution est ajoutée à Serengeti Management Server, mais n'est pas installée dans la machine virtuelle
du modèle Hadoop. L'agent est préinstallé sur chaque machine virtuelle qui copie dans les nœuds les
composants de la distribution que vous spécifiez à partir de Serengeti Management Server au cours du
processus de création d'un cluster Hadoop.
Suivant
Vous pouvez ajouter une banque de données et des ressources de réseau pour les clusters Hadoop que vous
créez.
Vous pouvez créer et déployer des clusters Big Data à l'aide de la distribution Hadoop de votre choix.
Configuration de Yum et de référentiels Yum
Vous pouvez déployer les distributions Hadoop Cloudera CDH4 et CDH5, Apache Bigtop, MapR et Pivotal
PHD à l'aide de Yellowdog Updater, Modified (Yum). Yum permet la mise à jour automatique et la gestion
des paquets des distributions de logiciel basées sur RPM. Pour déployer une distribution Hadoop à l'aide de
Yum, vous devez créer et configurer un référentiel Yum.
n
Valeurs de configuration de référentiels Yum page 49
Pour créer un référentiel Yum local, vous créez un fichier de configuration qui identifie les noms de
fichiers et de packages d'une distribution à télécharger et à déployer. Lorsque vous créez le fichier de
configuration, vous remplacez un ensemble de valeurs d'espaces réservés par des valeurs qui
correspondent à votre distribution Hadoop. Les référentiels Yum sont utilisés pour installer ou mettre
à jour des logiciels Hadoop sur CentOS et d'autres systèmes d'exploitation qui utilisent
Red Hat Package Manager (RPM).
n
Configurer un référentiel Yum local pour des distributions Hadoop Apache Bigtop, Cloudera,
Hortonworks et MapR page 52
Bien que des référentiels Yum publics existent pour les distributions Ambari, Apache Bigtop,
Cloudera, Hortonworks et MapReduce, le fait de créer votre propre référentiel Yum peut vous
permettre des téléchargements plus rapides et un meilleur contrôle du référentiel.
48
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
n
Configurer un référentiel Yum local pour la distribution Hadoop Pivotal page 54
Pivotal ne fournit pas de référentiel Yum public à partir duquel il est possible de déployer et de mettre
à jour la distribution de logiciel Hadoop Pivotal. Il vous est néanmoins possible de télécharger les
tarballs de logiciel Pivotal et de créer votre référentiel Yum pour Pivotal qui vous permettra d'accéder
plus facilement et de mieux contrôler l'installation et la mise à jour de votre logiciel de distribution HD
Pivotal.
n
Configurer une distribution Hadoop déployée sur Yum page 56
Vous pouvez installer les distributions Hadoop qui utilisent des référentiels Yum (contrairement aux
tarballs) à utiliser avec Big Data Extensions. Lorsque vous créez un cluster pour une distribution
Hadoop déployée sur Yum, les nœuds Hadoop téléchargent et installent les paquets Red Hat Package
Manager (RPM) depuis les référentiels Yum officiels pour une distribution donnée ou pour vos
référentiels Yum locaux.
n
Configurer un référentiel Yum local pour le gestionnaire d'applications Cloudera Manager page 57
Lorsque vous créez un nouveau cluster avec un gestionnaire d'applications externe, vous devez
installer les agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation
télécharge les agents et les paquets sur Internet, le processus peut être lent. Si vous ne disposez pas de
connexion Internet, le processus de création du cluster n'est pas possible. Pour éviter ces problèmes,
vous pouvez créer un référentiel Yum local.
n
Configurer un référentiel Yum local pour le gestionnaire d'applications Ambari page 60
Lorsque vous créez un nouveau cluster avec un gestionnaire d'applications externe, vous devez
installer les agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation
télécharge les agents et les paquets sur Internet, le processus peut être lent. Si vous ne disposez pas de
connexion Internet, le processus de création du cluster n'est pas possible. Pour éviter ces problèmes,
vous pouvez créer un référentiel Yum local.
Valeurs de configuration de référentiels Yum
Pour créer un référentiel Yum local, vous créez un fichier de configuration qui identifie les noms de fichiers
et de packages d'une distribution à télécharger et à déployer. Lorsque vous créez le fichier de configuration,
vous remplacez un ensemble de valeurs d'espaces réservés par des valeurs qui correspondent à votre
distribution Hadoop. Les référentiels Yum sont utilisés pour installer ou mettre à jour des logiciels Hadoop
sur CentOS et d'autres systèmes d'exploitation qui utilisent Red Hat Package Manager (RPM).
Les tableaux suivants répertorient les valeurs à utiliser pour les distributions Ambari, Apache Bigtop,
Cloudera, Hortonworks, MapR et Pivotal.
REMARQUE Si vous copiez et collez des valeurs dans ce tableau, veillez à inclure toutes les informations
requises. Certaines valeurs apparaissent sur deux lignes dans le tableau, par exemple, « maprtech
maprecosystem », alors que vous devez les combiner sur une seule ligne quand vous les utilisez.
Valeurs de configuration de référentiels Yum Apache Bigtop
VMware, Inc.
49
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 5‑2. Valeurs d'espaces réservés de référentiels Yum Apache Bigtop
Espace réservé
Valeur
repo_file_name
bigtop.repo
package_info
[bigtop]
name=Bigtop
enabled=1
gpgcheck=1
type=NONE
baseurl=http://bigtop-repos.s3.amazonaws.com/releases/1.0.0/centos/6/x86_64
gpgkey=https://dist.apache.org/repos/dist/release/bigtop/KEYS
REMARQUE Si vous utilisez une version autre que 1.0.0, utilisez le numéro de version exact de
votre distribution Apache Bigtop dans le nom du chemin.
mirror_cmds
reposync -r bigtop
default_rpm_dir
bigtop
target_rpm_dir
bigtop
local_repo_info
[bigtop]
name=Apache Bigtop
baseurl=http://ip_of_yum_repo_webserver/bigtop/
enabled=1
gpgcheck=0
Valeurs de configuration de référentiels Yum Cloudera
Tableau 5‑3. Valeurs d'espaces réservés de référentiels Yum Cloudera
50
Espace réservé
Valeur
repo_file_name
cloudera-cdh.repo
package_info
Si vous utilisez CDH4, utilisez les valeurs ci-dessous.
[cloudera-cdh]
name=Cloudera's Distribution for Hadoop
http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/4/
gpkey=http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
gpgcheck=1
Si vous utilisez CDH5, utilisez les valeurs ci-dessous.
[cloudera-cdh]
name=Cloudera's Distribution for Hadoop
baseurl=http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/5/
gpgkey=http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera
gpgcheck=1
mirror_cmds
reposync -r cloudera-cdh4
default_rpm_dir
cloudera-cdh/RPMS
target_rpm_dir
cdh/version_number
local_repo_info
[cloudera-cdh]
name=Cloudera's Distribution for Hadoop
baseurl=http://ip_of_yum_repo_webserver/cdh/version_number/
enabled=1
gpgcheck=0
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Valeurs de configuration de référentiels Yum Hortonworks
Tableau 5‑4. Valeurs d'espaces réservés de référentiels Yum Hortonworks
Espace réservé
Valeur
repo_file_name
hdp.repo
package_info
[hdp]
name=Hortonworks Data Platform Version - HDP-2.1.1.0
baseurl=http://public-repo-1.hortonworks.com/HDP/centos6/2.x/GA/2.1.1.0
gpgcheck=1
gpgkey=http://public-repo-1.hortonworks.com/HDP/centos6/2.x/GA/2.1.1.0/RPM-GPGKEY/RPM-GPG-KEY-Jenkins
enabled=1
priority=1
REMARQUE Si vous utilisez une version autre que HDP 2.1.1.0, utilisez le numéro de version
exact de votre distribution Hortonworks dans le nom du chemin.
mirror_cmds
reposync -r hdp
default_rpm_dir
hdp
target_rpm_dir
hdp/2
local_repo_info
[hdp]
name=Hortonworks Data Platform Version -HDP-2.1.1.0
baseurl=http://ip_of_yum_repo_webserver/hdp/2/
enabled=1
gpgcheck=0
Valeurs de configuration de référentiels Yum MapR
Tableau 5‑5. Valeurs d'espaces réservés de référentiels Yum MapR
Espace réservé
Valeur
repo_file_name
mapr.repo
package_info
[maprtech]
name=MapR Technologies
baseurl=http://package.mapr.com/releases/3.1.0/redhat/
enabled=1
gpgcheck=0
protect=1
[maprecosystem]
name=MapR Technologies
baseurl=http://package.mapr.com/releases/ecosystem/redhat
enabled=1
gpgcheck=0
protect=1
REMARQUE Si vous utilisez une version autre que 3.1.0, utilisez le numéro de version exact de
votre distribution MapR dans le nom du chemin.
mirror_cmds
reposync -r maprtech
reposync -r maprecosystem
default_rpm_dir
maprtech maprecosystem
VMware, Inc.
51
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 5‑5. Valeurs d'espaces réservés de référentiels Yum MapR (suite)
Espace réservé
Valeur
target_rpm_dir
mapr/3
local_repo_info
[mapr]
name=MapR Version 3
baseurl=http://ip_of_yum_repo_webserver/mapr/3/
enabled=1
gpgcheck=0
protect=1
Valeurs de configuration de référentiels Yum Pivotal
Tableau 5‑6. Valeurs d'espaces réservés de référentiels Yum Pivotal
Espace réservé
Valeur
repo_file_name
phd.repo
package_info
Non applicable
mirror_cmds
Non applicable
default_rpm_dir
pivotal
target_rpm_dir
phd/1
local_repo_info
[pivotalhd]
name=PHD Version 1.0
baseurl=http://ip_of_yum_repo_webserver/phd/1/
enabled=1
gpgcheck=0
Configurer un référentiel Yum local pour des distributions Hadoop Apache
Bigtop, Cloudera , Hortonworks et MapR
Bien que des référentiels Yum publics existent pour les distributions Ambari, Apache Bigtop, Cloudera,
Hortonworks et MapReduce, le fait de créer votre propre référentiel Yum peut vous permettre des
téléchargements plus rapides et un meilleur contrôle du référentiel.
Prérequis
n
Connexion Internet haut débit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du modèle de nœud de l'application virtuelle Serengeti contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du modèle de nœud vers une nouvelle
machine virtuelle et y créer le référentiel Yum.
52
n
Serveur HTTP sur lequel créer le référentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre système est doté d'un pare-feu, vérifiez que celui-ci ne bloque pas le numéro de port du réseau
utilisé par votre serveur proxy HTTP. Il s'agit généralement du port 80.
n
Reportez-vous aux valeurs du signet du référentiel Yum pour alimenter les variables nécessaires dans
les étapes. Reportez-vous à « Valeurs de configuration de référentiels Yum », page 49.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Procédure
1
Si votre serveur de référentiel Yum nécessite un serveur proxy HTTP, ouvrez une interface de
commande, comme Bash ou PuTTY, puis connectez-vous au serveur du référentiel Yum et exécutez les
commandes suivantes pour exporter la variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://hôte:port
2
Option
Description
hôte
Nom d'hôte ou adresse IP du serveur proxy.
port
Numéro de port du réseau à utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser comme serveur Yum.
Dans cet exemple, le serveur HTTP Apache est installé et le serveur httpd est activé pour démarrer dès
que la machine redémarre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Installez yum-utils et les paquets createrepo.
Le paquet yum-utils contient la commande reposync.
yum install -y yum-utils createrepo
4
Synchronisez le serveur Yum avec le référentiel Yum officiel de votre fournisseur Hadoop préféré.
a
À l'aide d'un éditeur de texte, créez le fichier /etc/yum.repos.d/$repo_file_name.
b
Ajoutez le contenu package_info au nouveau fichier.
c
Mettez en miroir le référentiel Yum distant sur la machine locale en exécutant mirror_cmds pour les
paquets de votre distribution.
Le téléchargement des RPM à partir du référentiel distant peut vous prendre plusieurs minutes.
Les RPM sont placés dans les répertoires $default_rpm_dir.
5
Créez le référentiel Yum local.
a
Déplacez les RPM dans un nouveau répertoire sous la racine de document du serveur HTTP
Apache.
La racine de document par défaut est /var/www/html/.
doc_root=/var/www/html
mkdir -p $doc_root/$target_rpm_dir
mv $default_rpm_dir $doc_root/$target_rpm_dir/
Par exemple, la commande mv de la distribution Hadoop MapR est la suivante :
mv maprtech maprecosystem $doc_root/mapr/3/
b
Créez un référentiel Yum pour les RPM.
cd $doc_root/$target_rpm_dir
createrepo .
VMware, Inc.
53
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
c
d
6
Créez un nouveau fichier, $doc_root/$target_rpm_dir/$repo_file_name,et incluez
local_repo_info.
Dans une autre machine, vérifiez que vous pouvez télécharger le fichier de référentiel à partir de
http://ip_of_webserver target_rpm_dir//repo_file_name.
(Facultatif) Configurez le proxy HTTP.
Si les machines virtuelles créées par Serengeti Management Server n'ont pas besoin de proxy HTTP
pour se connecter au référentiel Yum local, passez directement à l'étape suivante.
Sur le serveur de gestion Serengeti, modifiez le fichier /opt/serengeti/conf/serengeti.properties et
ajoutez le contenu suivant n'importe où dans le fichier ou remplacez les éléments existants :
# set http proxy server
serengeti.http_proxy = http://<proxy_server:port>
# set the FQDNs (or IPs if no FQDN) of the Serengeti Management Server and the
local yum repository servers for 'serengeti.no_proxy'.
The wildcard for matching multi IPs doesn't work.
serengeti.no_proxy = serengeti_server_fqdn_or_ip.
yourdomain.com, yum_server_fqdn_or_ip.
yourdomain.com
Suivant
Configurez votre déploiement Apache Bigtop, Cloudera, Hortonworks ou MapR à utiliser avec
Big Data Extensions. Reportez-vous à « Configurer une distribution Hadoop déployée sur Yum », page 56.
Configurer un référentiel Yum local pour la distribution Hadoop Pivotal
Pivotal ne fournit pas de référentiel Yum public à partir duquel il est possible de déployer et de mettre à
jour la distribution de logiciel Hadoop Pivotal. Il vous est néanmoins possible de télécharger les tarballs de
logiciel Pivotal et de créer votre référentiel Yum pour Pivotal qui vous permettra d'accéder plus facilement
et de mieux contrôler l'installation et la mise à jour de votre logiciel de distribution HD Pivotal.
Pivotal ne fournit pas de référentiel Yum public à partir duquel il est possible de déployer et de mettre à
jour la distribution de logiciel Hadoop Pivotal. Il est néanmoins possible de télécharger des tarballs de
logiciel Pivotal et de créer un référentiel Yum à partir duquel déployer et configurer le logiciel Hadoop
Pivotal.
Prérequis
n
Connexion Internet haut débit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du modèle de nœud de l'application virtuelle Big Data Extensions contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du modèle de nœud vers une nouvelle
machine virtuelle et y créer le référentiel Yum.
REMARQUE La distribution Hadoop Pivotal nécessitant la version CentOS 6.2 64-bit ou 6.4 64-bit
(x86_64), le serveur Yum que vous créez pour déployer la distribution doit également utiliser un
système d'exploitation CentOS 6.x 64-bit.
54
n
Serveur HTTP sur lequel créer le référentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre système est doté d'un pare-feu, vérifiez que celui-ci ne bloque pas le numéro de port du réseau
utilisé par votre serveur proxy HTTP. Il s'agit généralement du port 80.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Procédure
1
Si votre serveur de référentiel Yum nécessite un serveur proxy HTTP, ouvrez une interface de
commande, comme Bash ou PuTTY, puis connectez-vous au serveur du référentiel Yum et exécutez les
commandes suivantes pour exporter la variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://hôte:port
2
Option
Description
hôte
Nom d'hôte ou adresse IP du serveur proxy.
port
Numéro de port du réseau à utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser avec un serveur Yum.
Dans cet exemple, le serveur HTTP Apache est installé et le serveur httpd est activé pour démarrer dès
que la machine redémarre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Installez yum-utils et les paquets createrepo.
Le paquet yum-utils contient la commande reposync.
yum install -y yum-utils createrepo
4
Téléchargez le tarball Pivotal HD 1.0 ou 2.0 sur le site Web de Pivotal.
5
Extrayez le tarball que vous avez téléchargé.
Le nom du tarball peut varier si vous téléchargez une autre version de Pivotal HD.
tar -xf phd_1.0.1.0-19_community.tar
6
Extrayez PHD_1.0.1_CE/PHD-1.0.1.0-19.tar dans le répertoire default_rpm_dir.
Pour Hadoop Pivotal, le répertoire default_rpm_dir est pivotal.
Les numéros de version du tar que vous extrayez peuvent être différents de ceux utilisés dans l'exemple
s'il y a eu une mise à jour.
tar -xf PHD_1.0.1_CE/PHD-1.0.1.0-19.tar -C pivotal
7
Créez et configurez le référentiel Yum local.
a
Déplacez les RPM dans un nouveau répertoire sous la racine de document du serveur HTTP
Apache.
La racine de document par défaut est /var/www/html/.
doc_root=/var/www/html
mkdir -p $doc_root/$target_rpm_dir
mv $default_rpm_dir $doc_root/$target_rpm_dir/
Dans cet exemple, les RPM sont déplacés pour la distribution Hadoop Pivotal.
mv pivotal $doc_root/phd/1/
b
Créez un référentiel Yum pour les RPM.
cd $doc_root/$target_rpm_dir
createrepo .
VMware, Inc.
55
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
8
c
Créez un fichier, $doc_root/$target_rpm_dir/$repo_file_name, et incluez local_repo_info.
d
Dans une autre machine, vérifiez que vous pouvez télécharger le fichier de référentiel à partir de
http://ip_of_webserver/$target_rpm_dir/$repo_file_name.
(Facultatif) Configurez un proxy HTTP.
Si les machines virtuelles créées par Serengeti Management Server n'ont pas besoin de proxy HTTP
pour se connecter au référentiel Yum local, passez directement à l'étape suivante.
Sur Serengeti Management Server, modifiez le fichier /opt/serengeti/conf/serengeti.properties et
ajoutez le contenu suivant n'importe où dans le fichier ou remplacez les éléments existants :
# set http proxy server
serengeti.http_proxy = http://<proxy_server:port>
# set the FQDNs (or IPs if no FQDN) of the Serengeti Management Server and the
local yum repository servers for 'serengeti.no_proxy'.
The wildcard for matching multi IPs doesn't work.
serengeti.no_proxy = serengeti_server_fqdn_or_ip.
yourdomain.com, yum_server_fqdn_or_ip.yourdomain.com
Configurer une distribution Hadoop déployée sur Yum
Vous pouvez installer les distributions Hadoop qui utilisent des référentiels Yum (contrairement aux
tarballs) à utiliser avec Big Data Extensions. Lorsque vous créez un cluster pour une distribution Hadoop
déployée sur Yum, les nœuds Hadoop téléchargent et installent les paquets Red Hat Package Manager
(RPM) depuis les référentiels Yum officiels pour une distribution donnée ou pour vos référentiels Yum
locaux.
Prérequis
n
Vérifiez toutes les distributions Hadoop pour savoir quel nom de distribution, quelle abréviation de
fournisseur et quel numéro de version utiliser en paramètre de saisie et si la distribution prend en
charge Hadoop Virtualization Extensions.
n
Créez un référentiel Yum local pour votre distribution Hadoop. La création de votre référentiel peut
contribuer à améliorer l'accès et le contrôle du référentiel.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
2
Exécutez le script Ruby /opt/serengeti/sbin/config-distro.rb.
config-distro.rb --name distro_name --vendor vendor_abbreviation --version ver_number
--repos http://url_to_yum_repo/name.repo
56
Option
Description
--nom
Nommez la distribution Hadoop que vous téléchargez. Par exemple, chd4
pour Cloudera CDH4. Ce nom peut comporte des caractères
alphanumérique ([a-z], [A-Z], [0-9]) et des underscores (« _ »).
-- fournisseur
Abréviation du nom du fournisseur de la distribution Hadoop que vous
souhaitez utiliser. Par exemple, CDH.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Option
Description
--version
Version de la distribution Hadoop que vous souhaitez utiliser. Par
exemple, 4.6.0.
--référentiels
URL à partir de laquelle télécharger le paquet Yum de la distribution
Hadoop. Cette URL peut se trouver sur un référentiel Yum local que vous
créez ou sur un référentiel Yum public hébergé par le fournisseur de
logiciel.
Cet exemple ajoute la distribution Hadoop Apache Bigtop à Big Data Extensions.
config-distro.rb --name bigtop --vendor BIGTOP --version 0.8.0
--repos http://url_to_yum_repo/bigtop.repo
Cet exemple ajoute la distribution Hadoop Cloudera CDH4 à Big Data Extensions.
config-distro.rb --name cdh4 --vendor CDH --version 4.6.0 --repos
http://url_to_yum_repo/cloudera-cdh4.repo
REMARQUE Le script config-distro.rb ne télécharge que les fichiers pour les distributions déployées
sur tarball. Aucun fichier n'est téléchargé pour les distributions déployées sur Yum.
Cet exemple ajoute la distribution Hadoop Hortonworks à Big Data Extensions.
config-distro.rb --name hdp --vendor HDP --version 2.1.1
--repos http://url_to_yum_repo/hdp.repo
Cet exemple ajoute la distribution Hadoop MapR à Big Data Extensions.
config-distro.rb --name mapr --vendor MAPR --version 3.1.0 --repos
http://url_to_yum_repo/mapr.repo
Cet exemple ajoute la distribution Hadoop Pivotal à Big Data Extensions.
config-distro.rb --name phd --vendor PHD --version 2.0
--repos http://url_to_yum_repo/phd.repo
3
Pour permettre à Big Data Extensions d'utiliser la nouvelle distribution, redémarrez le service Tomcat.
sudo /sbin/service tomcat restart
Le serveur de gestion Serengeti lit le fichier manifeste modifié et ajoute la distribution à ceux à partir
desquels vous pouvez créer un cluster.
4
Revenez au plug-in Big Data Extensions de vSphere Web Client, puis cliquez sur Distributions Hadoop
pour vérifier que la distribution Hadoop est disponible.
Suivant
Vous pouvez créer des clusters Hadoop et HBase.
Configurer un référentiel Yum local pour le gestionnaire d'applications
Cloudera Manager
Lorsque vous créez un nouveau cluster avec un gestionnaire d'applications externe, vous devez installer les
agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation télécharge les agents et les
paquets sur Internet, le processus peut être lent. Si vous ne disposez pas de connexion Internet, le processus
de création du cluster n'est pas possible. Pour éviter ces problèmes, vous pouvez créer un référentiel Yum
local.
VMware, Inc.
57
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Préparer l'environnement logiciel pour le référentiel local pour Cloudera Manager
Pour créer un référentiel Yum local pour Cloudera Manager, la première étape consiste à préparer
l'environnement logiciel en configurant les serveurs et les répertoires nécessaires.
Prérequis
Vérifiez que toutes les conditions suivantes sont réunies.
n
Connexion Internet haut débit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du modèle de nœud de l'application virtuelle Serengeti contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du modèle de nœud vers une nouvelle
machine virtuelle et y créer le référentiel Yum.
n
Serveur HTTP sur lequel créer le référentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre système dispose d'un pare-feu, vérifiez que celui-ci ne bloque pas le numéro de port du réseau
que votre proxy de serveur HTTP utilise. Il s'agit généralement du port 80.
n
Pour plus d'informations sur les valeurs du signet du référentiel Yum, reportez-vous à « Valeurs de
configuration de référentiels Yum », page 49.
Procédure
1
Si votre serveur de référentiel Yum nécessite un serveur proxy HTTP, procédez comme suit :
a
Ouvrez une interface de commande, comme Bash ou PuTTY.
b
Connectez-vous au serveur de référentiel Yum.
c
Exportez la variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://hôte:port
2
Option
Description
hôte
Nom d'hôte ou adresse IP du serveur proxy.
port
Numéro de port du réseau à utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser comme serveur Yum.
Dans cet exemple, le serveur HTTP Apache est installé et le serveur httpd est activé pour démarrer dès
que la machine redémarre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Créez le répertoire CentOS.
mkdir -p /var/www/html/yum/centos6
4
Créez le répertoire Cloudera Manager.
mkdir -p /var/www/html/yum/cm
5
Installez le RPM createrepo.
yum install -y createrepo
58
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Configurer le référentiel Yum CentOS local
Vous devez copier tous les packages RPM des images CentOS 6 DVD ISO pour configurer le référentiel Yum
CentOS local.
Prérequis
Vérifiez que vous avez préparé l'environnement logiciel pour la création du référentiel Yum CentOS,
notamment les répertoires pour CentOS et le gestionnaire d'applications. Reportez-vous à la documentation
CentOS.
Procédure
1
Téléchargez les images CentOS 6 DVD ISO CentOS-6.7-x86_64-bin-DVD1.iso et CentOS-6.7-x86_64bin-DVD2.iso sur le site Internet officiel de CentOS.
2
Téléchargez les images ISO sur les serveurs de machine virtuelle.
3
Copiez tous les packages RPM CentOS vers /var/www/html/yum/centos6.
mkdir /mnt/centos6-1
mount -o loop CentOS-6.7-x86_64-bin-DVD1.iso /mnt/centos6-1
cp /mnt/centos6-1/Packages/* /var/www/html/yum/centos6
mkdir /mnt/centos6-2
mount -o loop CentOS-6.7-x86_64-bin-DVD2.iso /mnt/centos6-2
cp /mnt/centos6-2/Packages/* /var/www/html/yum/centos6
4
Créez le référentiel Yum CentOS 6.
createrepo /var/www/html/yum/centos6
Télécharger les packages pour Cloudera Manager
Après avoir configuré le référentiel Yum CentOS local, vous devez télécharger les packages de Cloudera
Manager.
Procédure
1
Téléchargez le fichier cm5.4.8-centos6.tar.gz.
wget http://archive-primary.cloudera.com/cm5/repo-as-tarball/5.4.8/cm5.4.8-centos6.tar.gz
Pour les autres versions de Cloudera Manager, les URL utilisées dans l'exemple peuvent varier.
2
Extrayez le tarball.
tar xzf cm5.4.8-centos6.tar.gz -C /var/www/html/yum/cm/
Pour les autres versions de Cloudera Manager, les URL utilisées dans l'exemple peuvent varier.
Configurer le serveur du référentiel Yum et le référentiel de paquet local
Vous devez configurer le serveur du référentiel Yum et le référentiel de paquet local avant de pouvoir
distribuer le fichier de paquets.
Procédure
1
Créez le référentiel Yum.
Le répertoire repodata est créé sous /var/www/html/yum/cm/5.4.8.
createrepo /var/www/html/yum/cm/5.4.8
2
VMware, Inc.
Vérifiez que vous pouvez accéder à l'URL http://yum_repo_server_ip/yum à partir d'un navigateur.
59
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Créez le répertoire Parcels (Paquets).
mkdir -p /var/www/html/parcels
4
Passez au répertoire Parcels (Paquets).
cd /var/www/html/parcels
5
Téléchargez le fichier Parcels (Paquets).
wget http://archive-primary.cloudera.com/cdh5/parcels/5.4.8/CDH-5.4.8-1.cdh5.4.8.p0.4el6.parcel
6
Téléchargez le fichier manifest.json.
wget http://archive-primary.cloudera.com/cdh5/parcels/5.4.8/manifest.json
7
Dans le fichier manifest.json, supprimez tous les éléments sauf CDH-5.4.8-1.cdh5.4.8.p0.4-
el6.parcel.
8
Ouvrez un navigateur, accédez à http://your_cloudera_manager_server:7180/cmf/parcel/status et cliquez
sur Edit Settings (Modifier les paramètres).
9
Dans la zone de texte Parcel Update Frequency (Fréquence de mise à jour des paquets), sélectionnez
une minute.
10
Supprimez l'URL du répertoire de paquet distant qui était remplacée par l'URL de paquet cible.
11
Ajoutez l'URL http://yum_repo_server_ip/parcels.
Vous pouvez maintenant créer des clusters pour Cloudera Manager à l'aide du référentiel Yum local.
Configurer un référentiel Yum local pour le gestionnaire d'applications Ambari
Lorsque vous créez un nouveau cluster avec un gestionnaire d'applications externe, vous devez installer les
agents et les paquets de distribution sur chaque nœud de cluster. Si l'installation télécharge les agents et les
paquets sur Internet, le processus peut être lent. Si vous ne disposez pas de connexion Internet, le processus
de création du cluster n'est pas possible. Pour éviter ces problèmes, vous pouvez créer un référentiel Yum
local.
Préparer l'environnement logiciel pour le référentiel local pour Ambari
Pour créer un référentiel Yum local pour Ambari, la première étape consiste à préparer l'environnement
logiciel.
Prérequis
Vérifiez que toutes les conditions suivantes sont réunies.
n
Connexion Internet haut débit.
n
CentOS 6.x 64 bits ou Red Hat Enterprise Linux (RHEL) 6.x 64 bits.
La machine virtuelle du modèle de nœud de l'application virtuelle Serengeti contient
CentOS 6.7 64 bits. Vous pouvez cloner la machine virtuelle du modèle Hadoop à une nouvelle machine
virtuelle et y créer le référentiel Yum.
60
n
Serveur HTTP sur lequel créer le référentiel Yum. Par exemple, serveur HTTP Apache.
n
Si votre système dispose d'un pare-feu, vérifiez que celui-ci ne bloque pas le numéro de port du réseau
que votre proxy de serveur HTTP utilise. Il s'agit généralement du port 80.
n
Pour plus d'informations sur les valeurs du signet du référentiel Yum, reportez-vous à « Valeurs de
configuration de référentiels Yum », page 49.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Procédure
1
Si votre serveur de référentiel Yum nécessite un serveur proxy HTTP, ouvrez une interface de
commande, comme Bash ou PuTTY, puis connectez-vous au serveur du référentiel Yum et exportez la
variable de l'environnement http_proxy.
# switch to root user
sudo su
umask 002
export http_proxy=http://hôte:port
2
Option
Description
hôte
Nom d'hôte ou adresse IP du serveur proxy.
port
Numéro de port du réseau à utiliser avec le serveur proxy.
Installez le serveur HTTP que vous souhaitez utiliser comme serveur Yum.
Dans cet exemple, le serveur HTTP Apache est installé et le serveur httpd est activé pour démarrer dès
que la machine redémarre.
yum install -y httpd
/sbin/service httpd start
/sbin/chkconfig httpd on
3
Créez le répertoire CentOS.
mkdir -p /var/www/html/yum/centos6
4
Créez le répertoire Ambari.
mkdir -p /var/www/html/yum/ambari
5
Installez le RPM createrepo.
yum install -y createrepo
Configurer le référentiel Yum CentOS local
Vous devez copier tous les packages RPM des images CentOS 6 DVD ISO pour configurer le référentiel Yum
CentOS local.
Prérequis
Vérifiez que vous avez préparé l'environnement logiciel pour la création du référentiel Yum CentOS,
notamment les répertoires pour CentOS et le gestionnaire d'applications. Reportez-vous à la documentation
CentOS.
Procédure
1
Téléchargez les images CentOS 6 DVD ISO CentOS-6.7-x86_64-bin-DVD1.iso et CentOS-6.7-x86_64bin-DVD2.iso sur le site Internet officiel de CentOS.
2
Téléchargez les images ISO sur les serveurs de machine virtuelle.
3
Copiez tous les packages RPM CentOS vers /var/www/html/yum/centos6.
mkdir /mnt/centos6-1
mount -o loop CentOS-6.7-x86_64-bin-DVD1.iso /mnt/centos6-1
cp /mnt/centos6-1/Packages/* /var/www/html/yum/centos6
mkdir /mnt/centos6-2
mount -o loop CentOS-6.7-x86_64-bin-DVD2.iso /mnt/centos6-2
cp /mnt/centos6-2/Packages/* /var/www/html/yum/centos6
VMware, Inc.
61
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
4
Créez le référentiel Yum CentOS 6.
createrepo /var/www/html/yum/centos6
Télécharger les packages pour Ambari
Après avoir configuré le référentiel Yum CentOS local, téléchargez les paquets du gestionnaire
d'applications Ambari.
Procédure
1
Faites de /var/www/html/yum/ambari votre répertoire de travail.
cd /var/www/html/yum/ambari
2
Téléchargez l'agent Ambari.
wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.1.2/AMBARI-2.1.2-377centos6.tar.gz
Si vous utilisez d'autres versions d'Ambari, par exemple Ambari 2.1.1, l'URL que vous utilisez peut
varier.
3
Téléchargez les paquets HDP.
Si vous utilisez d'autres versions de HDP, par exemple HDP 2.2 ou HDP 2.3, l'URL que vous utilisez
peut varier.
4
Téléchargez les paquets HDP-UTILS.
wget http://public-repo-1.hortonworks.com/HDP-UTILS-1.1.0.20/repos/centos6/HDPUTILS-1.1.0.20-centos6.tar.gz
5
Procédez à l'extraction de tous les fichiers tarball.
tar xzf AMBARI-2.1.2-377-centos6.tar.gz
tar xzf HDP-2.3.2.0-centos6-rpm.tar.gz
tar xzf HDP-UTILS-1.1.0.20-centos6.tar.gz
Configurer le fichier de référentiel Ambari sur le serveur Ambari
Pour configurer le référentiel Yum local, vous devez configurer le fichier de référentiel Ambari.
Procédure
1
Connectez-vous à Ambari via SSH.
ssh nom d'utilisateur@ambari_server_ip_address
2
Arrêtez le serveur Ambari.
ambari-server stop
3
Téléchargez le fichier ambari.repo.
cd /etc/yum.repos.d
wget http://public-repo-1.hortonworks.com/ambari/centos6/2.x/updates/2.1.2/ambari.repo
4
62
Modifiez le fichier ambari.repo.
a
Remplacez les URL par l'adresse du serveur de référentiel Yum.
b
Supprimez la vérification de groupe.
c
Ajoutez une nouvelle section pour CentOS.
VMware, Inc.
Chapitre 5 Gestion de distributions Hadoop
Exemple : Configuration du fichier de référentiel Ambari sur le serveur Ambari
[centos]
name=centos6
baseurl=http://<yum_repo_server_ip>/yum/centos6/
gpgcheck=0
enabled=1
[Updates-ambari-2.1.2]
name=ambari-2.1.2 - Updates
baseurl=http://<yum_repo_server_ip>/yum/ambari/AMBARI-2.1.2/centos6/
gpgcheck=0
enabled=1
priority=1
Configurer le référentiel HDP sur le serveur Ambari
Après avoir configuré le référentiel Ambari sur le serveur Ambari, vous devez configurer le référentiel HDP
sur le serveur Ambari.
Prérequis
Vérifiez que vous avez configuré ambari.repository sur le serveur Ambari.
Procédure
1
Modifiez le fichier suivant :
/var/lib/ambari-server/resources/stacks/HDP/2.3/repos/repoinfo.xml
a
Remplacez le numéro de version 2.3 par le vôtre.
b
Remplacez l'url de base de os type="redhat6" par l'URL de votre référentiel HDP local, comme
indiqué dans l'exemple suivant :
<?xml version="1.0"?>
<!-License section(not displayed here).
-->
<reposinfo>
<os family="redhat6">
<repo>
<baseurl>http://yum_repo_server_ip/yum/ambari/HDP/centos6/2.x/updates/2.3.0.0</baseurl>
<repoid>HDP-2.3</repoid>
<reponame>HDP</reponame>
</repo>
<repo>
<baseurl>http://yum_repo_server_ip/yum/ambari/HDPUTILS-1.1.0.20/repos/centos6</baseurl>
<repoid>HDP-UTILS-1.1.0.20</repoid>
<reponame>HDP-UTILS</reponame>
</repo>
</os>
</reposinfo>
2
Démarrez le serveur Ambari.
ambari-server start
Vous pouvez désormais créer des clusters pour le serveur Ambari à l'aide du référentiel Yum local.
VMware, Inc.
63
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
64
VMware, Inc.
Gérer les modèles de nœud
6
Vous pouvez gérer les modèles.
Prérequis
Procédure
u
Exemple :
Suivant
Ce chapitre aborde les rubriques suivantes :
n
« Tenir à jour une machine virtuelle de modèle Hadoop personnalisée », page 65
n
« Créer une machine virtuelle de modèle de nœud à l'aide de RHEL Server 6.7 et VMware Tools »,
page 66
n
« Prendre en charge plusieurs modèles de machine virtuelle », page 70
Tenir à jour une machine virtuelle de modèle Hadoop personnalisée
Vous pouvez modifier ou mettre à jour le système d'exploitation d'une machine virtuelle du modèle
Hadoop. Si vous procédez à des mises à jour, vous devez supprimer l'instantané qui est créé par la machine
virtuelle.
Si vous créez une machine virtuelle du modèle Hadoop personnalisée qui utilise une version de RHEL 6.x,
ou si vous modifiez le système d'exploitation, vous devez supprimer l'instantané Serengeti que Big Data
Extensions crée. Si vous ne supprimez pas l'instantané Serengeti, les modifications que vous apportez à la
machine virtuelle du modèle Hadoop ne prendront pas effet.
Prérequis
n
Déployez Big Data Extensions vApp. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
n
Créez une machine virtuelle du modèle Hadoop personnalisée à l'aide de RHEL 6.x. Voir « Créer une
machine virtuelle de modèle de nœud à l'aide de RHEL Server 6.7 et VMware Tools », page 66
.
VMware, Inc.
65
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Allumez la machine virtuelle du modèle Hadoop et appliquez les modifications ou les mises à jour.
3
Supprimez le fichier /etc/udev/rules.d/70-persistent-net.rules pour éviter d'augmenter le nombre
eth lors du clonage.
Si vous ne supprimez pas ce fichier, les machines virtuelles clonées à partir du modèle ne peuvent pas
obtenir d'adresses IP. Si vous mettez la machine virtuelle du modèle Hadoop sous tension pour
apporter des modifications, supprimez le fichier avant d'éteindre cette machine virtuelle.
4
Dans vSphere Web Client, éteignez la machine virtuelle du modèle Hadoop.
5
Supprimez l'instantané Serengenti étiqueté de la machine virtuelle du modèle Hadoop personnalisée.
a
Dans vSphere Web Client, cliquez avec le bouton droit de la souris sur la machine virtuelle du
modèle Hadoop et sélectionnez Snapshot > Snapshot Manager (Instantané, Gestionnaire
d'instantanés).
b
Sélectionnez l'instantané Serengeti et cliquez sur Supprimer.
L'instantané généré est supprimé.
6
Synchronisez l'heure sur la machine virtuelle du modèle Hadoop avec vCenter Server.
a
Dans vSphere Web Client, cliquez avec le bouton droit sur la machine virtuelle du modèle Hadoop
et sélectionnez Modifier les paramètres.
b
Dans l'onglet Options VM, cliquez sur VMware Tools > Synchroniser l'heure invité avec l'hôte.
Créer une machine virtuelle de modèle de nœud à l'aide de RHEL
Server 6.7 et VMware Tools
Vous pouvez créer une machine virtuelle de modèle de nœud possédant une version personnalisée du
système d'exploitation Red Hat Enterprise Linux (RHEL) Server 6.x, qui inclut VMware Tools. Bien que peu
de distributions Hadoop nécessitent une version personnalisée de RHEL Server 6.7, vous pouvez le
personnaliser pour toute distribution Hadoop.
Avant de créer une machine virtuelle de modèle de nœud à l'aide de RHEL
Server 6.7 et VMware Tools
Avant de créer une machine virtuelle de modèle de nœud à l'aide de RHEL Server 6.7 et de VMware Tools,
vous devez effectuer quelques tâches préalables et connaître certaines informations importantes sur RHEL
Server 6.1, les noms d'hôte, le partitionnement du disque et la création de machines virtuelles du modèle
Hadoop avec plusieurs cœurs par socket.
Vous pouvez créer une machine virtuelle de modèle de nœud qui utilise RHEL Server 6.7 ou version
ultérieure en tant que système d'exploitation invité sur lequel vous pouvez installer VMware Tools pour
RHEL 6.7 en association avec une distribution Hadoop prise en charge. Cela vous permet de créer une
machine virtuelle du modèle Hadoop qui utilise la configuration du système d'exploitation de votre
entreprise. Lorsque vous provisionnez des clusters Big Data à l'aide du modèle Hadoop personnalisé,
VMware Tools pour RHEL 6.7 sera installé sur les machines virtuelles créées à partir de la machine virtuelle
du modèle Hadoop.
66
VMware, Inc.
Chapitre 6 Gérer les modèles de nœud
Si vous créez des machines virtuelles du modèle Hadoop dotées de plusieurs cœurs par socket, lorsque vous
spécifiez les paramètres de CPU pour la machine virtuelle, vous devez indiquer plusieurs cœurs par socket.
Par exemple, si la machine virtuelle utilise deux cœurs par socket, les paramètres du vCPU doivent être un
nombre pair. Par exemple 4, 8 ou 12. Si vous spécifiez un nombre impair, le provisionnement du cluster ou
le redimensionnement du CPU échouera.
IMPORTANT
n
Vous devez utiliser localhost.localdomain comme nom d'hôte lorsque vous installez le modèle RHEL,
sinon le FQDN de la machine virtuelle clonée à partir du modèle risque de ne pas être défini
correctement.
n
Si vous effectuez un partitionnement de disque, n'utilisez pas Linux Volume Manager (LVM).
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
n
Obtenez l'adresse IP du serveur de gestion Serengeti.
n
Localisez la version de VMware Tools correspondant à la version ESXi de votre centre de données.
Créer un modèle de machine virtuelle avec un disque à provisionnement
dynamique de 20 Go et installer RHEL 6.7
Vous créez un modèle de machine virtuelle et installez Red Hat Enterprise Linux 6.7.
Pour plus d'informations sur cette procédure, consultez le Guide d'installation de Red Hat Enterprise Linux,
disponible sur le site Web de Red Hat.
Procédure
1
Téléchargez l'ISO d'installation de RHEL Server 6.7 sur www.redhat.com dans une banque de données.
2
Dans vSphere Client, créez une nouvelle machine virtuelle avec un disque à provisionnement
dynamique de 20 Go et sélectionnez Red Hat Enterprise Linux 6.7 (64 bits) comme système
d'exploitation invité.
3
Cliquez avec le bouton droit sur la machine virtuelle et cliquez sur Modifier les paramètres.
4
Sélectionnez CD/DVD Device 0 (CD/DVD Appareil 0), puis sélectionnez le fichier ISO de la banque de
données pour le fichier ISO RHEL.
5
Sélectionnez SCSI controller 0 > Change Type > LSI Logic Parallel (Contrôleur SCSI 0, Changer Type,
Parallèle Logique LSI), puis cliquez sur OK.
6
Dans Device Status (État de l'appareil), sélectionnez Connecté et Connecté sous tension, puis cliquez
sur OK.
7
Dans la fenêtre de console de la machine virtuelle, installez le système d'exploitation RHEL Server 6.x à
l'aide des paramètres par défaut pour tous les paramètres, à l'exception des éléments suivants :
VMware, Inc.
n
Vous pouvez sélectionner la langue et le fuseau horaire que vous souhaitez utiliser sur votre
système d'exploitation.
n
Vous pouvez indiquer que la partition de permutation utilise une plus petite taille pour enregistrer
l'espace disque (par exemple, 500 Mo).
n
Vous pouvez réduire la taille de la partition de permutation car elle n'est pas utilisée par
Big Data Extensions.
n
Sélectionnez Minimal dans l'écran Package Installation Defaults (Paramètres par défaut de
l'installation du paquet).
67
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Vérifier que la machine virtuelle possède une adresse IP valide et une
connectivité Internet
La machine virtuelle du modèle Hadoop a besoin d'une adresse IP valide et d'une connexion à Internet.
Prérequis
n
Procédure
u
Exécutez la commande ifconfig pour vérifier que la machine virtuelle possède une adresse IP valide et
une connectivité Internet.
Cette tâche suppose que le protocole DHCP (Dynamic Host Configuration Protocol) est utilisé.
n
Si les informations sur l'adresse IP apparaissent dans la sortie de la commande ifconfig, reportezvous à « Configurer le réseau pour que la machine virtuelle du modèle Hadoop utilise DHCP »,
page 68.
n
Si aucune information sur l'adresse IP n'apparaît, reportez-vous à « Configurer le réseau pour que
la machine virtuelle du modèle Hadoop utilise DHCP », page 68.
Configurer le réseau pour que la machine virtuelle du modèle Hadoop utilise
DHCP
Procédure
1
À l'aide d'un éditeur de texte, ouvrez le fichier /etc/sysconfig/network-scripts/ifcfg-eth0.
2
Localisez les paramètres suivants et spécifiez la configuration suivante.
ONBOOT=yes
DEVICE=eth0
BOOTPROTO=dhcp
3
Enregistrez les modifications et fermez le fichier.
4
Redémarrez le service réseau.
sudo /sbin/service network restart
5
Exécutez la commande ifconfig pour vérifier que la machine virtuelle possède une adresse IP valide et
une connectivité Internet.
Installer le RPM JDK 7
Procédure
®
1
À partir de la page des téléchargements Oracle Java SE 7, téléchargez le dernier RPM JDK 7 Linux x64
et copiez-le dans le dossier racine du modèle de machine virtuelle.
2
Installez le RPM.
rpm -Uvh jdk-7u91-linux-x64.rpm
3
Supprimez le fichier RPM.
rm -f jdk-7u91-linux-x64.rpm
4
68
Modifiez /etc/environment et ajoutez la ligne suivante : JAVA_HOME=/usr/java/default
VMware, Inc.
Chapitre 6 Gérer les modèles de nœud
Personnaliser la machine virtuelle
Exécutez les scripts d'installation pour personnaliser la machine virtuelle.
Procédure
1
Enregistrez le système d'exploitation RHEL pour activer les référentiels Yum RHEL. Cela permet au
script d'installation de télécharger des packages à partir du référentiel Yum. Reportez-vous à la section
« Registering from the Command Line » dans le document Red Hat Enterprise Linux 6 Deployment Guide,
disponible sur le site Web de Red Hat.
2
Téléchargez les scripts à l'adresse https://deployed_serengeti_server_IP/custos/custos.tar.gz.
3
Créez le répertoire /tmp/custos, faites-en votre répertoire de travail, et exécutez tar xf pour
décompresser le fichier .tar.
mkdir /tmp/custos
cd /tmp/custos
tar xf /tmp/custos/custos.tar.gz
4
Exécutez le script installer.sh en spécifiant le chemin du répertoire /usr/java/default.
./installer.sh /usr/java/default
Vous devez utiliser la même version du script installer.sh que votre déploiement
Big Data Extensions.
5
Supprimez le fichier /etc/udev/rules.d/70-persistent-net.rules pour éviter d'augmenter le nombre
eth lors du clonage.
Si vous ne supprimez pas ce fichier, les machines virtuelles clonées à partir du modèle ne peuvent pas
obtenir d'adresses IP. Si vous mettez la machine virtuelle du modèle Hadoop sous tension pour
apporter des modifications, supprimez le fichier avant d'éteindre cette machine virtuelle.
Installer VMware Tools pou RHEL 6.x
Procédure
1
Cliquez avec le bouton droit de la souris sur la machine virtuelle RHEL 6 de vSphere Client, puis
sélectionnez Guest > Install/Upgrade VMware Tools (Invité, Installer/Mettre à niveau VMware Tools).
2
Connectez-vous à la machine virtuelle et installez le CD-ROM pour accéder au paquet d'installation
VMware Tools.
mkdir /mnt/cdrom
mount /dev/cdrom /mnt/cdrom
mkdir /tmp/vmtools
cd /tmp/vmtools
3
Exécutez la commande tar xf pour extraire le fichier tar du paquet VMware Tools.
tar xf /mnt/cdrom/VMwareTools-*.tar.gz
4
Faites de vmware-tools-distrib votre répertoire de travail et exécutez le script vmware-install.pl.
cd vmware-tools-distrib
./vmware-install.pl
Appuyez sur Entrée pour terminer l'installation.
VMware, Inc.
69
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
5
Supprimez le fichier temporaire (temp) vmtools qui est créé en guise d'artéfact du processus
d'installation.
rm -rf /tmp/vmtools
6
Arrêtez la machine virtuelle.
Synchroniser l'heure sur la machine virtuelle de modèle Hadoop
Synchronisez l'heure sur la machine virtuelle de modèle Hadoop avec vCenter Server.
Procédure
1
Dans vSphere Web Client, cliquez avec le bouton droit sur la machine virtuelle du modèle Hadoop et
sélectionnez Modifier les paramètres.
2
Dans l'onglet Options VM, cliquez sur VMware Tools > Synchroniser l'heure invité avec l'hôte.
Terminer le processus de création d'une machine virtuelle de modèle Hadoop
Pour utiliser la machine virtuelle du modèle Hadoop, vous devez remplacer la machine virtuelle du modèle
Hadoop d'origine et redémarrer le service Tomcat pour activer le modèle de machine virtuelle RHEL
personnalisé.
Procédure
1
Dans l'onglet Matériel virtuel de la boîte de dialogue Modifier les paramètres, décochez la case
Connecté. Si le lecteur CD/DVD est connecté au fichier ISO, le processus de clonage de la machine
virtuelle échoue.
2
Remplacez la machine virtuelle du modèle Hadoop d'origine par la machine virtuelle personnalisée que
vous avez créée. Pour ce faire, faites glisser la nouvelle machine virtuelle de modèle que vous avez
créée dans l'application virtuelle.
3
Connectez-vous à Serengeti Management Server en tant qu'utilisateur serengeti et redémarrez le
service Tomcat.
sudo /sbin/service tomcat restart
Le fait de redémarrer le service Tomcat active le modèle de machine virtuelle RHEL personnalisé pour
en faire votre machine virtuelle du modèle Hadoop.
Prendre en charge plusieurs modèles de machine virtuelle
Vous pouvez configurer plusieurs modèles de machines virtuelles et choisir celui que vous souhaitez utiliser
lorsque vous créez un cluster Big Data. Cela vous permet de satisfaire les besoins d'optimisation propres à
différents scénarios d'utilisation.
Big Data Extensions prend en charge l'utilisation de plusieurs modèles de machine virtuelle. Vous pouvez
spécifier le modèle de nœud à partir duquel créer un cluster dans Serengeti CLI ou vSphere Web Client.
Pour créer un modèle de nœud en utilisant un système d'exploitation autre que celui par défaut, reportezvous à la section « Tenir à jour une machine virtuelle de modèle Hadoop personnalisée », page 65.
70
VMware, Inc.
Gérer l'environnement
Big Data Extensions
7
Après avoir installé Big Data Extensions, vous pouvez arrêter et démarrer les services Serengeti, créer des
comptes d'utilisateur, gérer les mots de passe, mettre à jour les certificats SSL et vous connecter aux nœuds
de cluster pour résoudre les problèmes.
Ce chapitre aborde les rubriques suivantes :
n
« Ajouter des noms d'utilisateur spécifiques pour la connexion au serveur de gestion Serengeti »,
page 71
n
« Modifier le mot de passe du serveur de gestion Serengeti », page 72
n
« Créer un nom d'utilisateur et un mot de passe pour l'interface de ligne de commande Serengeti »,
page 73
n
« Autoriser et vérifier les commandes exécutées en tant qu'utilisateur racine », page 74
n
« Spécifier un groupe d'utilisateurs dans Active Directory ou LDAP pour utiliser un cluster Hadoop »,
page 74
n
« Arrêter et démarrer les services Serengeti », page 75
n
« Ports utilisés pour la communication entre Big Data Extensions et vCenter Server », page 76
n
« Vérifier l'état de fonctionnement de l'environnement Big Data Extensions », page 77
n
« Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
d'interface de ligne de commande Serengeti », page 86
n
« Sauvegarder et restaurer l'environnement Big Data Extensions », page 87
Ajouter des noms d'utilisateur spécifiques pour la connexion au
serveur de gestion Serengeti
Vous pouvez ajouter des noms d'utilisateur spécifiques avec lesquels vous pouvez vous connecter au
Serengeti Management Server. Les noms d'utilisateur que vous ajoutez correspondent aux seuls utilisateurs
autorisés à se connecter au Serengeti Management Server à l'aide de la Serengeti CLI ou de l'interface
utilisateur de Big Data Extensions pour une utilisation avec vSphere Web Client.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Prérequis
n
VMware, Inc.
Déployez le vApp Serengeti.
71
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
Procédure
1
Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et sélectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à
l'invite de commande.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
Utilisez l'adresse IP qui figure sur l'onglet Résumé et le mot de passe actuel.
3
Modifiez le fichier /opt/serengeti/conf/Users.xml pour ajouter des noms d'utilisateur.
vi /opt/serengeti/conf/Users.xml
4
Modifiez l'attribut <user name="*" /> en remplaçant le caractère générique astérisque (*) par le nom
d'utilisateur que vous souhaitez utiliser. Vous pouvez ajouter plusieurs noms d'utilisateur en ajoutant
un nouvel attribut <user name="nom" /> sur sa ligne. Le fichier User.xml prend en charge plusieurs
lignes.
<user name="jsmith" />
<user name="sjones" />
<user name="jlydon" />
5
Redémarrez le service Tomcat.
/sbin/service tomcat restart
Seuls les noms d'utilisateur que vous ajoutez au fichier User.xml peuvent être utilisés pour se connecter au
Serengeti Management Server à l'aide de la Serengeti CLI ou de l'interface utilisateur de Big Data Extensions
pour une utilisation avec vSphere Web Client.
Modifier le mot de passe du serveur de gestion Serengeti
Lorsque vous vous connectez pour la première fois sur le serveur de gestion Serengeti, celui-ci génère un
mot de passe aléatoire destiné aux utilisateurs root et serengeti. Si vous souhaitez utiliser un mot de passe
plus facile à retenir, vous pouvez modifier le mot de passe aléatoire destiné aux utilisateurs root et
serengeti à l'aide de la console de la machine virtuelle.
REMARQUE Vous pouvez modifier le mot de passe pour la machine virtuelle de n'importe quel nœud en
procédant comme suit.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Prérequis
72
n
Déployez le vApp Serengeti.
n
Utilisez vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine virtuelle
du serveur de gestion Serengeti est en marche.
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
Procédure
1
Cliquez avec le bouton droit de la souris sur la machine virtuelle du serveur de gestion Serengeti et
sélectionnez Open Console (Ouvrir console).
Le mot de passe du serveur de gestion Serengeti s'affiche.
REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à
l'invite de commande.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
Utilisez l'adresse IP qui figure sur l'onglet Résumé et le mot de passe actuel.
3
Utilisez la commande /opt/serengeti/sbin/set-password pour modifier le mot de passe des
utilisateurs root et serengeti.
sudo /opt/serengeti/sbin/set-password -u
4
Saisissez le nouveau mot de passe deux fois pour le confirmer.
À votre prochaine connexion au serveur de gestion Serengeti, utilisez le nouveau mot de passe.
Suivant
Vous pouvez créer un nouvel identifiant et un nouveau mot de passe pour le client d'interface de ligne de
commande Serengeti.
Créer un nom d'utilisateur et un mot de passe pour l'interface de ligne
de commande Serengeti
Le client d'interface de ligne de commande Serengeti utilise les informations d'identification de connexion
vCenter Server avec des autorisations de lecture sur le serveur de gestion Serengeti. Si vous ne créez pas de
nom d'utilisateur et de mot de passe pour le client d'interface de ligne de commande Serengeti, il utilisera
les informations d'identification d'administrateur vCenter Server. Néanmoins, pour des raisons de sécurité,
il est préférable de créer un compte utilisateur spécifique au client d'interface de ligne de commande
Serengeti.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Prérequis
n
Déployez Big Data Extensions vApp. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
n
Installez le client d'interface de ligne de commande Serengeti. Reportez-vous à « Installer le client
d'interface de ligne de commande distant Serengeti », page 31.
Procédure
1
Ouvrez un navigateur Web et rendez-vous sur : https://vc-hostname:port/vsphere-client.
Le vc-hostname peut être soit le nom d'hôte DNS soit l'adresse IP de vCenter Server. Par défaut, le port
est 9443, mais il est possible de le changer au cours de l'installation de vSphere Web Client.
2
Saisissez le nom d'utilisateur et le mot de passe qui correspondent aux privilèges administratifs de
vCenter Server, puis cliquez sur Login (Connexion).
REMARQUE Les utilisateurs de vCenter Server 5.5 doivent utiliser un domaine local pour exécuter les
opérations relatives au SSO.
VMware, Inc.
73
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Dans le panneau Navigator (Navigateur) de vSphere Web Client, sélectionnez Administration, SSO
Users and Groups (Utilisateurs et groupes SSO).
4
Modifiez les informations de connexion.
Les informations de connexion sont mises à jour. Pour votre prochaine connexion à l'interface de ligne de
commande Serengeti, utilisez les nouvelles informations de connexion.
Suivant
Vous pouvez modifier le mot de passe du serveur de gestion Serengeti. Reportez-vous à « Modifier le mot
de passe du serveur de gestion Serengeti », page 72.
Autoriser et vérifier les commandes exécutées en tant qu'utilisateur
racine
Vous pouvez personnaliser la commande sudo en utilisant pbrun. La commande pbrun vous permet
d'exécuter les commandes avec les privilèges d'un autre utilisateur, généralement l'utilisateur racine.
La commande pbrun utilise PowerBroker, une application de serveur centralisée, pour autoriser et vérifier
les commandes exécutées en tant qu'utilisateur racine. PowerBroker vous permet d'attribuer des privilèges
d'utilisateur racine à des utilisateurs spécifiques, puis d'autoriser et de vérifier leur utilisation de
l'environnement.
Prérequis
Pour utiliser PowerBroker ou des services d'identité similaires, vous devez d'abord configurer votre
environnement pour pouvoir l'utiliser avec eux.
Procédure
1
Connectez-vous à Serengeti Management Server.
2
Exportez la commande sudo personnalisée en utilisant pbrun dans votre environnement.
"export SUDO_CMD=pbrun" >> /opt/serengeti/sbin/env.sh
3
Connectez-vous au nœud de cluster, puis exécutez la séquence de commandes suivante.
sed -i 's|^serengeti.sudo.command.*|serengeti.sudo.command =
pbrun|' /opt/serengeti/conf/serengeti.properties
Spécifier un groupe d'utilisateurs dans Active Directory ou LDAP pour
utiliser un cluster Hadoop
Vous pouvez spécifier un serveur Active Directory ou LDAP pour l'authentification utilisateur. Cela vous
permet de gérer les utilisateurs de manière centralisée.
Par défaut, l'authentification est configurée uniquement pour les comptes d'utilisateurs locaux dans
Big Data Extensions. Si vous voulez utiliser LDAP ou Active Directory pour authentifier les utilisateurs,
vous devez configurer Big Data Extensions pour utiliser votre service LDAP ou Active Directory.
Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux gérés par le serveur LDAP ou
Active Directory, ou une combinaison de ces méthodes d'authentification.
Prérequis
n
74
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
n
Utilisez le portail d'administration du Serengeti Management Server pour activer le SSO et mettre à jour
le certificat. Reportez-vous à « Configurer les paramètres vCenter Single Sign-On du serveur de gestion
Serengeti », page 29.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions et cliquez sur l'onglet Gérer.
3
Sélectionnez Mode utilisateur et cliquez sur Modifier.
La boîte de dialogue Configurer utilisateur apparaît.
4
Choisissez le mode d'authentification utilisateur que vous souhaitez utiliser pour votre environnement
Big Data Extensions.
Tableau 7‑1. Modes d'authentification utilisateur
5
Mode utilisateur
Description
Local
Sélectionnez Local pour créer et gérer les utilisateurs et les groupes stockés localement
dans votre environnement Big Data Extensions. Il s'agit de la solution de gestion des
utilisateurs par défaut.
Utilisateur LDAP
Sélectionnez Utilisateur LDAP pour créer et gérer les utilisateurs et les groupes stockés
dans la source d'identité de votre entreprise telle qu'Active Directory ou LDAP. Si vous
choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il utilise un service
LDAP ou Active Directory.
Mode mixte
Sélectionnez Mode mixte pour utiliser une combinaison des utilisateurs locaux et de ceux
stockés dans une source d'identité externe. Si vous choisissez ce mode, vous devez
configurer Big Data Extensions de sorte à utiliser le mode AD en tant que LDAP.
Si vous choisissez le mode LDAP ou le mode mixte, vous devez configurer Big Data Extensions pour
qu'il utilise un service LDAP ou Active Directory.
Tableau 7‑2. Informations de connexion LDAP
6
DN utilisateur de base
Indiquez le DN utilisateur de base.
DN groupe de base
Indiquez le DN groupe de base.
URL du serveur
principal
Indiquez l'URL du serveur principal de votre serveur Active Directory ou LDAP.
URL secondaire du
serveur
Indiquez l'URL du serveur secondaire de votre serveur Active Directory ou LDAP.
Nom d'utilisateur
Saisissez le nom d'utilisateur du compte d'administrateur Active Directory ou LDAP.
Mot de passe
Saisissez le mot de passe du compte d'administrateur Active Directory ou LDAP.
(Facultatif) Cliquez sur Tester pour vérifier que les comptes d'utilisateurs ne sont pas introuvables.
Arrêter et démarrer les services Serengeti
Vous pouvez arrêter et démarrer les services Serengeti pour appliquer une reconfiguration ou pour
récupérer suite à une anomalie d'opération.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
VMware, Inc.
75
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
2
Exécutez le script serengeti-stop-services.sh pour arrêter les services Serengeti.
serengeti-stop-services.sh
3
Exécutez le script serengeti-start-services.sh pour démarrer les services Serengeti.
serengeti-start-services.sh
Ports utilisés pour la communication entre Big Data Extensions et
vCenter Server
Big Data Extensions demande des informations à vCenter Server et utilise le service Single Sign-On de
vCenter Server.
Serveur de gestion Big Data Extensions
Le tableau ci-dessous indique le port publié pour le serveur de gestion.
VMware
Port
Commentaires
API Rest Serengeti
8080, 8443
Ouvert pour le client Serengeti et pour
l'enregistrement du plug-in BDE appelé par VC
SSHD
22
Ouvert pour la connexion au client Serengeti
Ports Hadoop
Serengeti déploie les clusters Hadoop et Hbase en utilisant tous les ports par défaut. Le tableau suivant
indique tous les ports utilisés par le service Hadoop ou HBase, le réseau de production.
HDFS
MapReduce
Yarn
Hive
Processus
Port défini par défaut
Page Web NameNode
50070
RPC NameNode
8020
DataNode
50075
50010
50020
Page Web JobTracker
50030
RPC JobTracker
8021
TaskTracker
50060
Page Web du gestionnaire de
ressources
8088
RPC du gestionnaire de ressources
8030, 8031, 8032, 8033
Gestionnaire de nœuds
8040, 8042
S/O
1000
Ports HBase
Le tableau ci-dessous indique les ports utilisés par les clusters HBase ainsi que les numéros de port par
défaut.
76
VMware
Nom de propriété
Port
ZooKeeper
hbase.zookeeper.property.clientPort
2181
Maître
hbase.master.port
60000
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
VMware
Nom de propriété
Port
Maître
hbase.master.info.port
60010
Serveur régional
hbase.regionserver.port
60020
Serveur régional
hbase.regionserver.info.port
60030
Serveur REST
hbase.rest.port
8080
Serveur REST
hbase.rest.info.port
8085
Serveur Thrift
hbase.thrift.port
9090
Serveur Thrift
hbase.thrift.info.port
9095
Ports MapR
Le tableau ci-dessous définit les ports utilisés par un cluster MapR ainsi que les numéros de port par défaut.
VMware
Port
CLDB
7222
Port de surveillance JMX CLDB
7220
CLDB web port
7221
HBase Master
60000
HBase Master (pour l'interface graphique utilisateur)
60010
HBase RegionServer
60020
Hive Metastore
9083
Page Web JobTracker
50030
RPC JobTracker
8021
Serveur MFS
5660
MySQL
3306
NFS
2049
Contrôle NFS (pour la HA)
9997
Gestion NFS
9998
Dispositif de mappage des ports
111
TaskTracker
50060
HTTPS de l'UI Web
8443
ZooKeeper
5181
Vérifier l'état de fonctionnement de l'environnement Big Data
Extensions
Pour que vous puissiez provisionner correctement un cluster Hadoop, votre environnement
Big Data Extensions doit remplir certains critères. Vous pouvez vérifier que votre environnement répond
bien à ces critères avant de créer des clusters Hadoop, et résoudre les éventuels problèmes de création de
clusters.
VMware, Inc.
77
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
État de fonctionnement des services Big Data Extensions
Big Data Extensions se compose de plusieurs services dont vous pouvez vérifier l'exécution.
Big Data Extensions se compose des serveurs suivants : serveur Tomcat, serveur Yum, serveur Chef et
serveur PostgreSQL. Vous pouvez vérifier que ces services sont exécutés avant de créer des clusters
Hadoop.
Prérequis
n
Déployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Vérifiez que le service Tomcat est en cours d'exécution.
a
Exécutez la commande pgrep -f org.apache.catalina.startup.Bootstrap -l.
pgrep -f org.apache.catalina.startup.Bootstrap -l
b
Exécutez la commande wget https://bde_server_ip:8443 --no-check-certificate
wget https://bde_server_ip:8443 --no-check-certificate
3
Vérifiez que le serveur Yum est en cours d'exécution.
Exécutez la commande /sbin/service httpd status.
/sbin/service httpd status
Si le serveur Yum fonctionne correctement, il renvoie le message d'état en cours d'exécution.
4
Vérifiez que le serveur Chef est en cours d'exécution.
Exécutez la commande sudo /chef-server-ctl status. La sous-commande status affiche l'état de tous
les services disponibles pour le serveur Chef.
sudo /chef-server-ctl status
5
Vérifiez que le serveur PostgreSQL est en cours d'exécution.
a
Exécutez la commande pgrep -f /opt/opscode/embedded/bin/postgres -l pour vérifier que le
processus postgresest en cours d'exécution. L'option -l indique les bases de données disponibles.
pgrep -f /opt/opscode/embedded/bin/postgres -l
b
Exécutez la commande echo "\dt" | psql -U serengeti pour afficher les tables de bases de
données créées pour Big Data Extensions. L'option -dt indique le nom de la base de données à
laquelle se connecter et désactive l'affichage des noms des colonnes des bases de données dans la
sortie en résultant. L'option -U indique le nom d'utilisateur avec lequel se connecter à la base de
données.
echo "\dt" | psql -U serengeti
Si les bases de données disponibles pour PostgreSQL et les tables appartenant à l'utilisateur serengeti
s'affichent, votre serveur PostgreSQL fonctionne correctement.
78
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
Suivant
Si l'un des services ci-dessus ne s'exécute pas, vous pouvez consulter l'état d'initialisation des services
Serengeti Management Server, les messages d'erreur pour résoudre les problèmes et restaurer les services
qui ont pu rencontrer des problèmes de démarrage à l'aide du portail d'administration du serveur de
gestion Serengeti. Reportez-vous à « Afficher l'état d'initialisation du serveur de gestion Serengeti »,
page 124.
Vérifier la connectivité réseau avec vCenter Server
Vous pouvez vérifier si votre déploiement Big Data Extensions est en mesure de se connecter à
vCenter Server et identifier les causes possibles d'un échec de connexion réseau.
Prérequis
n
Déployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande wget https://vcenter_server_ip:9443 --no-check-certificate.
wget https://vcenter_server_ip:9443 --no-check-certificate
Si cette commande récupère le fichier index.html intitulé vSphere Web Client, vCenter Server est en cours
d'exécution et il existe une connectivité entre Big Data Extensions et vCenter Server.
Si cette commande ne parvient pas à récupérer le fichier index.html, reportez-vous à l'étape 3.
3
Si la commande renvoie le message d'erreur Connecting to
vcenter_server_ip:vcenter_server_port... failed: Connection refused, l'adresse IP de vCenter
Server que vous avez indiquée est joignable, mais le numéro de port réseau de vCenter Server est
incorrect.
4
Si l'adresse IP et le numéro de port de vCenter Server sont corrects, vérifiez la configuration réseau de
votre déploiement Big Data Extensions. Par exemple, vérifiez que Big Data Extensions utilise une
adresse IP et une passerelle valides.
Suivant
Si vous n'êtes pas en mesure de vérifier une connexion réseau entre Big Data Extensions et vCenter Server,
et que vous ne parvenez pas à identifier l'origine du problème, les rubriques de dépannage fournissent des
solutions aux problèmes que vous pourriez rencontrer avec Big Data Extensions. Reportez-vous à Chapitre
14, « Dépannage », page 141
Vérifier l'authentification utilisateur de vCenter Server
Vous pouvez vérifier si l'authentification utilisateur de vCenter Server fonctionne correctement et identifier
les causes possibles des problèmes de création de clusters.
Prérequis
n
Déployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
VMware, Inc.
79
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Saisissez serengeti pour lancer l'interface de ligne de commande Serengeti.
3
Exécutez la commande connect –host localhost:8443 et, lorsque vous y êtes invité, saisissez votre
nom d'utilisateur et votre mot de passe (ils peuvent être différents de ceux de
Serengeti Management Server). Si vous parvenez à vous connecter à Big Data Extensions,
l'authentification utilisateur de vCenter Server fonctionne correctement.
Suivant
Avant la création de nouvelles machines virtuelles sur des hôtes, l'heure sur les hôtes cibles est comparée à
celle sur le Serengeti Management Server. Si l'heure n'est pas synchronisée entre le
Serengeti Management Server et les hôtes, la création de la machine virtuelle échouera. Reportez-vous à
« Vérifier la synchronisation de l'heure entre le serveur de gestion Serengeti et les hôtes », page 80.
Vérifier la synchronisation de l'heure entre le serveur de gestion Serengeti et
les hôtes
Lorsque vous exécutez la commande cluster create ou cluster create ... --resume, celle-ci peut
échouer s'il existe des différences d'heure dans l'environnement. Vous pouvez vérifier que l'heure se trouve
dans les limites de tolérance et synchroniser l'heure entre le Serengeti Management Server et les autres hôtes
de votre environnement.
Avant la création de nouvelles machines virtuelles sur des hôtes, l'heure sur les hôtes cibles est comparée à
celle sur le Serengeti Management Server. Si l'heure n'est pas synchronisée entre le
Serengeti Management Server et les hôtes, la création du cluster peut échouer.
Prérequis
n
Déployez le vApp Serengeti.
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande date +%T pour afficher l'heure sur le Serengeti Management Server.
date +%T
3
Dans vSphere Web Client, notez l'heure de chaque hôte du centre de données.
4
Comparez la date et l'heure entre le Serengeti Management Server et chaque hôte pour voir si la
différence excède le seuil maximal. Si le service HBase est présent dans le cluster, le seuil maximal est
de 20 secondes. Autrement, le seuil maximal est de 4 minutes.
Si l'heure n'est pas synchronisée entre les hôtes, connectez-vous à chaque hôte et affichez le
fichier /etc/ntp.conf pour vérifier si la configuration NTP est correcte.
5
Dans vSphere Web Client, configurez tous les hôtes ESXi de sorte qu'ils synchronisent leurs horloges
avec le même serveur NTP.
Suivant
Une fois l'heure synchronisée entre le Serengeti Management Server et les autres hôtes ESXi dans votre
environnement, essayez de créer un cluster.
80
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
Vérifier la connectivité réseau entre des nœuds de calcul et Isilon HDFS
Si vous utilisez EMC Isilon OneFS pour votre HDFS, vous pouvez vérifier la connectivité réseau des nœuds
de calcul jusqu'au système de fichiers Isilon OneFS.
Procédure
1
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
Pour chaque nœud de calcul (TaskTracker or NodeManager), connectez-vous et exécutez la commande
hadoop dfsadmin -report pour vérifier que le HDFS fonctionne correctement. Si la commande renvoie
la Capacité configurée et la Capacité présente, le nœud worker peut accéder au HDFS.
Si le HDFS ne répond pas, reportez-vous à l'étape 3.
3
Vérifiez que l'adresse IP et le numéro de port réseau du HDFS sont corrects. Connectez-vous au
NameNode Isilon (qui peut demander un nom d'utilisateur et un mot de passe différents) et vérifiez
que le service HDFS écoute le port 8020.
Si le HDFS écoute le bon port réseau, reportez-vous à l'étape 4.
4
Vérifiez l'entrée fs.defaultFS dans le fichier de configuration Hadoop core-site.xml. Assurez-vous
que l'adresse IP, le FQDN et le port réseau sont configurés pour utiliser le service HDFS approprié.
Vérifier les utilisateurs et les groupes d'utilisateurs existant dans Isilon OneFS
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vous devez créer et configurer des
utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS. Vous pouvez
vérifier que vous avez créé les bons utilisateurs et groupes d'utilisateurs, et savoir lesquels existent dans
votre environnement Isilon OneFS.
Prérequis
Préparez Isilon OneFS à être utilisé en tant que cluster HDFS externe. Reportez-vous à « Préparer EMC
Isilon OneFS en tant que cluster HDFS externe », page 108.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au nœud
Isilon OneFS via SSH.
2
Exécutez la commande isi auth users/groups list pour afficher la liste des utilisateurs et groupes
d'utilisateurs Isilon OneFS existants.
3
Exécutez la commande ls -al HDFS_ROOT_DIR pour vérifier les utilisateurs et les groupes d'utilisateurs
du HDFS.
Lorsque vous exécutez la commande ls dans le système de fichiers Isilon, l'option -al doit apparaître
avant le nom du répertoire HDFS_ROOT_DIR. Sinon, l'option -al sera considérée par la commande comme
un nom de répertoire ls.
ls -al HDFS_ROOT_DIR
REMARQUE Dans le sous-répertoire HDFS, les autorisations et droits de propriété de certains fichiers et
répertoires peuvent être attribués à des utilisateurs ou des groupes autres que ceux utilisant
Big Data Extensions.
VMware, Inc.
81
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Vérifier la capacité de stockage
Pour déployer correctement un cluster, vous devez disposer d'une capacité de stockage suffisante dans
votre environnement Big Data Extensions.
Les banques de données que vous ajoutez à votre environnement Big Data Extensions sont disponibles pour
les clusters que vous créez dans Big Data Extensions. Si vous n'ajoutez pas une capacité de stockage
suffisante, la création du cluster échouera.
Outre la capacité de stockage globale, vous devez vous assurer de disposer d'un stockage partagé et local
suffisant. Le stockage partagé est recommandé pour les nœuds master et vous permet d'utiliser vMotion, la
haute disponibilité et la tolérance aux pannes. Le stockage local est recommandé pour les nœuds worker
Prérequis
Vous devez avoir ajouté une banque de données à votre environnement Big Data Extensions. Reportez-vous
à « Ajouter une banque de données dans vSphere Web Client », page 91
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande datastore list --detail pour afficher les banques de données vCenter Server
utilisées par Big Data Extensions.
3
À l'aide des valeurs de configuration indiquées dans le fichier de spécification du cluster, calculez la
capacité de stockage requise par le cluster.
4
Utilisez vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que les banques de
données que vous avez identifiées comme appartenant à Big Data Extensions disposent d'une capacité
de stockage suffisante pour les clusters que vous souhaitez créer. Assurez-vous également que les
banques de données sont à l'état actif.
Suivant
Si votre environnement Big Data Extensions ne dispose pas d'une capacité de stockage adéquate pour créer
des clusters, ajoutez des banques de données. Reportez-vous à « Ajouter une banque de données dans
vSphere Web Client », page 91.
Vérifier l'installation du gestionnaire d'applications the Ambari
Si vous utilisez Apache Ambari pour gérer votre cluster Hadoop, vous pouvez vérifier que le service
Ambari est en cours d'exécution, dispose d'une connexion réseau et d'informations d'identification
utilisateur valides lui permettant de se connecter à votre cluster.
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
n
Ajoutez le gestionnaire d'applications Ambari à votre environnement Big Data Extensions. Reportezvous à « Ajouter un gestionnaire d'applications à l'aide de vSphere Web Client », page 41.
Procédure
1
82
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
2
Exécutez la commande curl avec l'option -u pour indiquer le nom d'utilisateur et le mot de passe utilisé
par le service Ambari, et l'option -G pour indiquer l'URL du service de vérification système Ambari :
http://ambari_server_ip:8080/api/v1/check
curl -u nom d'utilisateur:mot de passe -G http://ambari_server_ip:8080/api/v1/check
n
Si le système renvoie EN COURS D'EXÉCUTION, le serveur Ambari est en cours d'exécution. Si vous
recevez un message système indiquant que votre service Ambari n'est pas en cours d'exécution,
recherchez le problème et vérifiez que vous pouvez démarrer Ambari correctement avant de
continuer.
n
Si le système renvoie Informations d'identification erronées, le nom d'utilisateur et le mot de
passe sont incorrects. Procurez-vous le nom d'utilisateur et le mot de passe appropriés pour votre
installation Ambari.
n
Si la commande curl ne répond pas pendant 30 secondes ou plus et que le système renvoie le
message d'erreur curl: (7) Failed to connect to ambari_server_ip port port_number:
Connection refused, l'adresse IP, le FQDN ou le numéro de port est incorrect. Procurez-vous
l'adresse réseau appropriée pour votre installation Ambari.
Ce message d'erreur peut également indiquer que le serveur virtuel Ambari est hors tension.
Vérifiez que la machine virtuelle Ambari est sous tension et que le serveur Ambari est en cours
d'exécution.
Suivant
Si votre installation Ambari ne répond pas, vérifiez qu'elle est installée et configurée correctement.
Reportez-vous à « Modifier un gestionnaire d'applications à l'aide de vSphere Web Client », page 42.
Vérifier l'installation de Cloudera Manager
Si vous utilisez Cloudera Manager pour gérer votre cluster Hadoop, vous pouvez vérifier que
Cloudera Manager est en cours d'exécution, dispose d'une connexion réseau et d'informations
d'identification utilisateur valides lui permettant de se connecter à votre cluster.
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
n
Ajoutez l'application Cloudera Manager à votre environnement Big Data Extensions. Reportez-vous à
« Ajouter un gestionnaire d'applications à l'aide de vSphere Web Client », page 41.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande curl avec l'option -u pour indiquer le nom d'utilisateur et le mot de passe
utilisés par Cloudera Manager, et l'option -G pour indiquer l'URL du numéro de version de l'API
Cloudera Manager : http://cloudera_manager_server_ip:7180/api/version
curl -u nom d'utilisateur:mot de passe -G http://cloudera_manager_server_ip:7180/api/version
Notez le numéro de version de l'API renvoyé par Cloudera Manager.
VMware, Inc.
83
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Exécutez la commande curl avec l'option -u pour indiquer le nom d'utilisateur et le mot de passe
utilisés par Cloudera Manager, et l'option -G pour indiquer l'URL de la requête
Cloudera Manager /tools/echo : http://cloudera_manager_server_ip:
7180/api/cloudera_manager_api_version/tools/echo
curl -u nom d'utilisateur:mot de passe -G http://cloudera_manager_server_ip:
7180/api/cloudera_manager_api_version/tools/echo
Cet exemple indique une installation Cloudera Manager dont l'adresse réseau est 192.168.1.1 à l'aide
du nom d'utilisateur et du mot de passe cloudera, avec la version v5 de l'API.
curl -u cloudera:cloudera -G http://192.168.1.1:7180/api/v5/tools/echo
n
Si le système renvoie Hello world!, Cloudera Manager est en cours d'exécution. Si vous recevez un
message système indiquant que votre Cloudera Manager n'est pas en cours d'exécution, recherchez
le problème et vérifiez que vous pouvez démarrer Cloudera Manager correctement avant de
continuer.
n
Si le système renvoie Error 401 Bad credentials, le nom d'utilisateur et le mot de passe sont
incorrects. Procurez-vous le nom d'utilisateur et le mot de passe appropriés pour votre installation
Cloudera Manager.
n
Si le système renvoie le message d'erreur curl: (7) Failed to connect to
cloudera_manager_server_ip port 7180: No route to host, l'adresse IP ou le FQDN est incorrect.
Procurez-vous l'adresse réseau appropriée pour votre installation Cloudera Manager.
Ce message d'erreur peut également indiquer que la machine virtuelle Cloudera Manager est hors
tension. Vérifiez que la machine virtuelle Cloudera Manager est sous tension et que
Cloudera Manager est en cours d'exécution.
Suivant
Si votre installation Cloudera Manager ne répond pas, vérifiez qu'elle est installée et configurée
correctement. Reportez-vous à « Modifier un gestionnaire d'applications à l'aide de vSphere Web Client »,
page 42.
Vérifier la recherche DNS normale et inverse
Big Data Extensions nécessite un environnement réseau correctement configuré. Vous pouvez vérifier que
votre recherche DNS normale et inverse est bien configurée.
La recherche DNS inverse détermine le nom d'hôte associé à une adresse IP donnée. La recherche DNS
normale détermine l'adresse IP associée à un nom d'hôte donné.
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande echo pour récupérer les adresses IP utilisées par le cluster.
echo ipv4_address_from_network_interface | psql
Notez les adresses IP de chaque carte d'interface réseau utilisée par le cluster.
84
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
3
Pour chaque adresse IP que vous avez notée à l'étape précédente, exécutez la commande host pour
vérifier que la recherche DNS inverse renvoie le nom de domaine complet (FQDN). Si le système
renvoie un FQDN pour chaque adresse IP, la recherche DNS inverse fonctionne.
host IP_address
Notez le FQDN pour chaque adresse réseau que vous vérifiez.
4
Pour chaque FQDN que vous avez noté à l'étape précédente, exécutez la commande host pour vérifier
que la recherche DNS normale renvoie l'adresse IP associée au FQDN. Si le système renvoie une
adresse IP pour chaque FQDN, la recherche DNS normale fonctionne.
5
(Facultatif) Si vous n'êtes pas en mesure de résoudre les adresses IP et les FQDN, ouvrez le
fichier /etc/resolv.conf et vérifiez qu'un serveur de noms DNS a été configuré pour être utilisé dans
votre environnement.
n
Si aucun serveur de noms n'a été configuré pour être utilisé dans votre environnement, demandez
à votre administrateur le nom du serveur DNS à utiliser.
n
Si un serveur de noms est configuré, mais que votre DNS ne fournit pas de recherche normale ou
inverse, recherchez la cause et configurez votre DNS selon les besoins. Les causes d'un
dysfonctionnement de votre DNS peuvent être les suivantes :
n
Le serveur de nom n'est pas joignable en raison d'une adresse IP incorrecte.
n
Le service DNS sur cette machine virtuelle peut être éteint ou ne pas répondre.
n
La machine virtuelle contenant le service DNS peut être éteinte.
Suivant
Si votre DNS ne fonctionne pas comme prévu, recherchez la cause et apportez les modifications nécessaires
à la configuration ou au fonctionnement jusqu'à ce que vous puissiez vérifier que la recherche d'adresse
normale et inverse de votre DNS est correctement configurée. Reportez-vous à « Modifier le type de DNS
dans vSphere Web Client », page 95.
Vérifier la connexion réseau entre Big Data Extensions et les nœuds de
clusters
Le Serengeti Management Server doit être en mesure de se connecter à chacun des nœuds d'un cluster
Hadoop. Vous pouvez vérifier que le Serengeti Management Server est capable de contacter chaque nœud
du cluster.
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
n
Ajoutez un réseau à utiliser par Big Data Extensions. Reportez-vous à « Ajouter un réseau dans vSphere
Web Client », page 94.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande echo pour récupérer les adresses IP utilisées par le cluster.
echo "select ipv4_address_from_network_interface" | psql
Notez les adresses IP de chaque carte d'interface réseau utilisée par le cluster.
VMware, Inc.
85
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Exécutez la commande ping pour contacter chaque adresse IP et vérifier que le
Serengeti Management Server est en mesure de contacter chacun des nœuds du cluster.
Suivant
Si vous ne parvenez pas à établir une connexion entre le Serengeti Management Server et les nœuds du
cluster Hadoop, recherchez la cause et apportez les modifications nécessaires jusqu'à ce que vous puissiez
vérifier que votre réseau est configuré correctement.
Vérifier le référentiel Yum local
Si vous avez créé un référentiel Yum local à partir duquel vous souhaitez déployer vos distributions
Hadoop, vous pouvez vérifier que le référentiel fonctionne correctement.
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23
n
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine
virtuelle Serengeti Management Server est en cours d'exécution.
n
Vous avez créé un référentiel Yum local à partir duquel vous souhaitez déployer vos distributions
Hadoop. Reportez-vous à « Configuration de Yum et de référentiels Yum », page 48.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Exécutez la commande wget local_repository_url pour télécharger la page Web du référentiel local.
3
Vous pouvez ouvrir et afficher la page Web du référentiel local à l'aide d'un navigateur Web dans votre
réseau pour vérifier son fonctionnement.
Suivant
Vous pouvez créer des clusters Hadoop dans votre environnement Big Data Extensions. Reportez-vous à
Chapitre 9, « Création de clusters Hadoop et HBase », page 99
Passer en mode maintenance pour effectuer la sauvegarde et la
restauration à l'aide du client d'interface de ligne de commande
Serengeti
Avant d'effectuer les opérations de sauvegarde et de restauration, ou d'autres tâches de maintenance, vous
devez placer Big Data Extensions en mode maintenance.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
86
Connectez-vous à Serengeti Management Server.
VMware, Inc.
Chapitre 7 Gérer l'environnement Big Data Extensions
2
Exécutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode maintenance ou vérifier l'état de maintenance.
serengeti-maintenance.sh on | off | status
Option
Description
activé
Active le mode maintenance. Lorsque vous entrez en mode maintenance,
Big Data Extensions continue à exécuter les tâches déjà commencées, mais
ne répond pas aux nouvelles requêtes.
désactivé
Désactive le mode maintenance et remet Big Data Extensions dans son état
de fonctionnement normal.
Statut
Affiche l'état de maintenance de Big Data Extensions.
n
L'état sécurisé indique que les opérations de sauvegarde et les autres
tâches de maintenance peuvent être effectuées en toute sécurité dans
votre déploiement Big Data Extensions.
n
L'état désactivé indique que le mode maintenance a été désactivé et
que les tâches de maintenance telles que la sauvegarde et la
restauration ne peuvent pas être effectuées en toute sécurité.
n
L'état activé signifie que Big Data Extensions est entré en mode
maintenance, mais que les opérations de sauvegarde et de restauration
ne peuvent pas encore être effectuées en toute sécurité. Vous devez
attendre que le système renvoie le message d'état sécurisé.
Pour placer votre déploiement Big Data Extensions en mode maintenance, exécutez le script serengetimaintenance.sh avec l'option on.
serengeti-maintenance.sh on
3
Vérifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a terminé toutes les tâches qui ont été envoyées, l'état de maintenance
entre en mode sécurisé. Exécutez le script serengeti-maintenance.sh avec le paramètre status de
manière répétée jusqu'à obtenir le message d'état du système sécurisé.
serengeti-maintenance.sh status
safe
4
Effectuez les tâches de maintenance système souhaitées.
5
Une fois que vous avez terminé, faites repasser Big Data Extensions à son état de fonctionnement
normal en quittant manuellement le mode maintenance.
serengeti-maintenance.sh off
Sauvegarder et restaurer l'environnement Big Data Extensions
Vous pouvez récupérer Big Data Extensions depuis un état de fonctionnement anormal en effectuant une
opération de sauvegarde et de restauration.
Vous pouvez effectuer une opération de sauvegarde et de restauration sur la même instance
Big Data Extensions, ou sur deux serveurs Big Data Extensions différents déployés dans le même
environnement vCenter Server.
Prérequis
Avant d'effectuer une opération de sauvegarde et de restauration, placez Big Data Extensions en mode de
maintenance. Reportez-vous à « Passer en mode maintenance pour effectuer la sauvegarde et la restauration
à l'aide du client d'interface de ligne de commande Serengeti », page 86.
VMware, Inc.
87
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Sauvegardez vos données dans un fichier du serveur Big Data Extensions source en utilisant le
script /opt/serengeti/sbin/backup.sh.
/opt/serengeti/sbin/backup.sh nom de fichier
2
Copiez le fichier bde-backup-xxxx.tar.gz sur le serveur Big Data Extensions cible.
3
Sur le serveur Big Data Extensions cible, exécutez le fichier /opt/serengeti/sbin/restore.sh bdebackup-xxxx.tar.gz pour restaurer les données du premier serveur Big Data Extensions.
Une fois le processus de restauration terminé, le serveur Big Data Extensions cible est prêt à l'utilisation.
88
VMware, Inc.
Gestion de ressources vSphere pour
les clusters
8
Big Data Extensions vous permet de gérer les pools de ressources, banques de données et réseaux que vous
utilisez dans les clusters que vous créez.
Ce chapitre aborde les rubriques suivantes :
n
« Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti », page 89
n
« Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti », page 90
n
« Mettre à jour les pools de ressources à l'aide de l'interface de ligne de commande Serengeti »,
page 90
n
« Ajouter une banque de données dans vSphere Web Client », page 91
n
« Supprimer une banque de données de vSphere Web Client », page 92
n
« Mettre à jour les banques de données à l'aide de l'interface de ligne de commande Serengeti »,
page 93
n
« Ajouter un contrôleur SCSI Paravirtual pour les disques système et de permutation », page 94
n
« Ajouter un réseau dans vSphere Web Client », page 94
n
« Modifier le type de DNS dans vSphere Web Client », page 95
n
« Reconfigurer un réseau IP statique dans vSphere Web Client », page 96
n
« Supprimer un réseau de vSphere Web Client », page 96
Ajouter un pool de ressources avec l'interface de ligne de commande
Serengeti
Vous pouvez ajouter des pools de ressources pour qu'ils puissent être utilisés par les clusters Hadoop. Les
pools de ressources doivent être situés au niveau supérieur du cluster. Les pools de ressources imbriqués ne
sont pas pris en charge.
Lorsque vous ajoutez un pool de ressources à Big Data Extensions, il représente symboliquement le pool de
ressources vSphere réel tel qu'il est identifié par vCenter Server. Cette représentation symbolique vous
permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'accès complet du
pool de ressources dans vCenter Server, dans les fichiers de spécification de cluster.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les
clusters qui utilisent ce pool de ressources.
VMware, Inc.
89
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Accédez au client d'interface de ligne de commande Serengeti.
2
Exécutez la commande resourcepool add.
Le paramètre --vcrp est facultatif.
Cet exemple ajoute un pool de ressources Serengeti nommé myRP au pool de ressources vSphere rp1
contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP --vccluster cluster1 --vcrp rp1
Supprimer un pool de ressources avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilisés par un cluster Hadoop.
Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les
clusters Hadoop que vous créez dans le serveur de gestion Serengeti soient déployés sous un autre pool de
ressources. La suppression d'un pool de ressources supprime sa référence dans vSphere. Le pool de
ressources n'est pas réellement supprimé.
Procédure
1
Accédez au client d'interface de ligne de commande Serengeti.
2
Exécutez la commande resourcepool delete.
Si la commande échoue parce que le pool de ressources est référencé par un cluster Hadoop, vous
pouvez utiliser la commande resourcepool list pour voir quel cluster référence ce pool de ressources.
Cet exemple supprime le pool de ressources nommé myRP.
resourcepool delete --name myRP
Mettre à jour les pools de ressources à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez mettre à jour un cluster existant pour utiliser de nouveaux pools de ressources. Pour ce faire,
lorsque vous étendez votre environnement, ajoutez un nouveau cluster ESX avec les nouveaux pools de
ressources.
La commande cluster update vous permet d'ajouter de nouveaux pools de ressources à un cluster existant,
ainsi que de mettre à jour les pools de ressources déjà utilisés.
Vous pouvez également ajouter de nouveaux pools de ressources à ceux existants à l'aide du paramètre -append. Cela vous permet d'ajouter de nouveaux pools de ressources sans mettre à jour ceux déjà utilisés par
le cluster. Si votre environnement contient de nombreux pools de ressources, le paramètre --append vous
permet d'ajouter de nouveaux pools de ressource sans avoir à lister explicitement chacun des pools de
ressources déjà utilisés.
Prérequis
n
Vous devez disposer d'un cluster Big Data que vous souhaitez mettre à jour avec des pools de
ressources nouveaux ou différents.
n
Exécutez la commande cluster export pour vérifier et noter quels pools de ressources sont
actuellement utilisés par le cluster que vous souhaitez mettre à jour avec des pools de ressources
nouveaux ou différents.
Procédure
1
90
Connectez-vous à Serengeti CLI.
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
2
Ajoutez un nouveau pool de ressources à partir d'un cluster ESX à l'aide de la commande resourcepool
add.
Dans cet exemple, un pool de ressources étiqueté myRP2 est ajouté à partir du pool de ressources
vSphere rp1 contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP2 --vccluster cluster1 --vcrp rp1
3
Exécutez la commande cluster export pour vérifier et noter quels pools de ressources sont
actuellement utilisés par le cluster.
cluster export --name cluster_name
4
Mettez à jour les pools de ressources du cluster à l'aide de la commande cluster update.
cluster update --name cluster1 –-rpNames myRP,myRP2
Le nouveau pool de ressources, myRP2, est à présent disponible pour une utilisation par le cluster
étiqueté cluster1.
5
Vous pouvez si vous le souhaitez ajouter le nouveau pool de ressources myRP2 à vos pools de ressources
existants à l'aide du paramètre --append. Cela vous permet d'ajouter de nouveaux pools de ressources
sans mettre à jour ceux déjà utilisés par le cluster.
cluster update --name cluster1 --rpNames myPR2 --append
Suivant
Vous pouvez si vous le souhaitez mettre à jour le cluster pour utiliser de nouvelles banques de données.
Reportez-vous à « Mettre à jour les banques de données à l'aide de l'interface de ligne de commande
Serengeti », page 93.
Ajouter une banque de données dans vSphere Web Client
Vous pouvez ajouter des banques de données à Big Data Extensions pour les mettre à la disposition des
clusters Big Data. Big Data Extensions prend en charge les banques de données partagées et les banques de
données locales.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Ressources.
4
Développez les listes d'inventaire, puis sélectionnez Banques de données.
5
Cliquez sur l'icône Ajouter (+).
6
Dans la zone de texte Nom, tapez un nom servant à identifier la banque de données dans Big Data
Extensions.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
VMware, Inc.
91
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
7
Dans la liste Type, sélectionnez le type de banque de données dans vSphere.
Type
Description
Partagée
Recommandé pour les nœuds master. Vous permet d'exploiter vMotion, la
haute disponibilité et la tolérance aux pannes.
REMARQUE Si vous ne spécifiez pas de stockage partagé et que vous
essayez de provisionner un cluster en utilisant vMotion, la haute
disponibilité ou la tolérance aux pannes, le provisionnement échoue.
Local
Recommandé pour les nœuds worker. Le débit est évolutif et le coût de
stockage moindre.
8
Sélectionnez une ou plusieurs banques de données vSphere à mettre à la disposition de la banque de
données Big Data Extensions que vous ajoutez.
9
Cliquez sur OK pour enregistrer vos modifications.
Les banques de données vSphere peuvent être utilisées par les clusters Big Data déployés au sein de
Big Data Extensions.
Supprimer une banque de données de vSphere Web Client
Vous supprimez une banque de données de Big Data Extensions quand vous ne voulez plus que les clusters
Hadoop que vous créez l'utilise.
Prérequis
Supprimez tous les clusters Hadoop associés à la banque de données. Reportez-vous à « Supprimer un
cluster dans vSphere Web Client », page 114.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Ressources.
4
Développez Ressources, sélectionnez Listes d'inventaire, puis Banques de données.
5
Sélectionnez la banque de données à supprimer, cliquez avec le bouton droit, puis sélectionnez
Supprimer.
6
Cliquez sur Oui pour confirmer.
Si vous n'avez pas supprimé le cluster qui utilise la banque de données, vous recevez un message
d'erreur indiquant que la banque de données ne peut pas être supprimée, car elle est actuellement
utilisée.
La banque de données est supprimée de Big Data Extensions.
92
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
Mettre à jour les banques de données à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez mettre à jour un cluster existant pour utiliser de nouvelles banques de données. Pour ce faire,
lorsque vous étendez votre environnement, ajoutez un nouvel hôte ESXi avec les nouvelles banques de
données.
Lorsque vous ajoutez des banques de données à un cluster existant, si les noms des nouvelles banques de
données correspondent à ceux des banques de données déjà utilisées par le cluster, elles seront
automatiquement disponibles pour une utilisation par le cluster. En revanche, si les noms des banques de
données existantes ne correspondent pas à ceux des banques de données des nouveaux hôtes ESXi, vous
devez utiliser les commandes datastore add et cluster update pour mettre à jour les banques de données
disponibles pour le cluster, en spécifiant les noms des banques de données existantes et nouvelles.
Prérequis
Vous devez disposer d'un cluster Big Data que vous souhaitez mettre à jour avec une banque de données
nouvelle ou différente. Par exemple si vous avez ajouté un nouvel hôte ESXi à votre environnement et que
vous souhaitez étendre les ressources disponibles à votre environnement Big Data Extensions.
Procédure
1
Connectez-vous à Serengeti CLI.
2
Ajoutez une nouvelle banque de données à partir d'un hôte ESXi à l'aide de la commande datastore
add ou de vSphere Web Client.
Dans cet exemple, Serengeti CLI est utilisée pour ajouter une nouvelle banque de données de stockage
local nommée newDS. La valeur du paramètre --spec, local*, est un caractère générique spécifiant un
ensemble de banques de données vSphere. Toutes les banques de données vSphere dont le nom
commence par « local » sont ajoutées et gérées comme un tout par Big Data Extensions.
datastore add --name newDS --spec local* --type LOCAL
3
Mettez à jour la liste des banques de données disponibles pour être utilisées par le cluster à l'aide de la
commande cluster update. Lorsque vous ajoutez des banques de données à un cluster existant, vous
devez également spécifier les banques de données actuellement utilisées par le cluster. Dans cette
exemple, les étiquettes currentDS et newDS sont utilisées pour différencier les banques de données en
cours d'ajout au cluster (newDS) et celles déjà utilisées par le cluster (currentDS).
Si vous n'indiquez pas les noms des banques de données déjà utilisées par le cluster avec le paramètre
--dsNames, un message d'avertissement vous prévient que le cluster utilise toutes les banques de
données disponibles, et que les banques de données en cours de mise à jour appartiennent à un sousensemble de ces banques de données. Dans ce cas, il se peut que certaines données ne soient pas
disponibles après la mise à jour, ce qui peut provoquer des erreurs. Serengeti CLI vous invitera à
confirmer que vous souhaitez poursuivre la mise à jour en tapant O (oui) ou à abandonner la mise à jour
en tapant N (non).
cluster update --name cluster1 –-dsNames currentDS,newDS
L'ancienne et la nouvelle banque de données sont à présent toutes deux disponibles pour une utilisation
par le cluster étiqueté cluster1.
4
Si vous souhaitez ajouter de nouvelles banques de données en plus de celles déjà utilisées par le cluster,
utilisez le paramètre --append. La commande --append vous permet d'omettre de lister les banques de
données déjà utilisées par le cluster avec le paramètre --dsNames.
cluster update --name cluster1 –-dsNames newDS --append
La nouvelle banque de données est à présent disponible pour une utilisation par le cluster étiqueté
cluster1. Aucune des banques de données déjà utilisées par le cluster auparavant n'est affectée.
VMware, Inc.
93
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Suivant
Vous pouvez si vous le souhaitez mettre à jour le cluster pour utiliser de nouveaux pools de ressources.
Reportez-vous à « Mettre à jour les pools de ressources à l'aide de l'interface de ligne de commande
Serengeti », page 90.
Ajouter un contrôleur SCSI Paravirtual pour les disques système et de
permutation
Vous pouvez ajouter un contrôleur de stockage haute performance VMware Paravirtual SCSI (PVSCSI) pour
optimiser le débit et minimiser l'utilisation du CPU.
Les contrôleurs PVSCSI sont mieux adaptés aux environnements d'exécution d'opérations intensives en E/S
tels que les disques système et de permutation. Le contrôleur PVSCSI optimise le débit et minimise
l'utilisation du CPU.
REMARQUE Par défaut, le type de contrôleur des disques de données est défini sur PVSCSI. Vous pouvez
faire en sorte que le disque de données utilise le contrôleur LSI Logic SAS en modifiant le paramètre
storage.data.disk.controller.type comme décrit dans cette procédure.
Prérequis
Avant d'ajouter le contrôleur PVSCSI, arrêtez la machine virtuelle du modèle Hadoop.
Procédure
1
À partir de vSphere Web Client, arrêtez la machine virtuelle du modèle Hadoop.
2
Connectez-vous à Serengeti Management Server en tant qu'utilisateur serengeti.
3
Ouvrez le fichier /opt/serengeti/conf/serengeti.properties dans un éditeur de texte.
4
Définissez la valeur de configuration du paramètre storage.system_swap.disk.controller.type= sur
ParaVirtualSCSIController.
storage.system_swap.disk.controller.type=ParaVirtualSCSIController
5
Dans l'arborescence des machines virtuelles et modèles, sélectionnez la machine virtuelle du modèle de
nœud dont vous souhaitez modifier le paramètre de contrôleur de disque.
6
Dans le panneau Matériel de la machine virtuelle, cliquez sur Modifier les paramètres.
7
Cliquez sur Matériel virtuel.
8
Cliquez sur le triangle à côté du périphérique SCSI pour développer les options de périphérique.
9
Dans le menu déroulant Modifier le type, sélectionnez Paravirtuel VMware.
10
Cliquez sur OK pour enregistrer les modifications et quitter la boîte de dialogue.
11
Supprimez tous les instantanés de la machine virtuelle du modèle de nœud.
Ajouter un réseau dans vSphere Web Client
Ajoutez des réseaux à Big Data Extensions pour que les adresses IP qu'ils contiennent soient disponibles
pour les clusters Big Data.
Procédure
94
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Ressources.
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
4
Développez Ressources, cliquez sur Listes d'inventaire > Listes d'inventaire et sélectionnez Réseaux.
5
Cliquez sur l'icône Ajouter (+).
6
Dans la zone de texte Nom, tapez un nom servant à identifier la ressource réseau dans Big Data
Extensions.
7
Dans la liste Nom du groupe de ports, sélectionnez le groupe de ports vSphere à ajouter à Big Data
Extensions.
8
Sélectionnez un type de DNS.
Option
Description
Normale
Le serveur DNS fournit la résolution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il
s'agit de l'inverse du DNS normal qui mappe les noms de domaine aux
adresses IP. Par défaut, le type de DNS est normal.
Dynamique
Dynamic DNS (DDNS ou DynDNS) est une méthode qui permet la mise à
jour automatique d'un nom de serveur du système DNS (Domain Name
System) avec la configuration DNS active de ses noms d'hôte configurés,
adresses ou autres informations. Big Data Extensions s'intègre à un serveur
Dynamic DNS de son réseau, au travers duquel il fournit des noms d'hôte
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement auprès du serveur DNS.
Autres
Il n'y a pas de serveur DNS dans le VLAN ou le serveur DNS n'offre pas
de résolution DNS normale ou de services Dynamic DNS. Dans ce cas,
vous devez ajouter un mappage FQDN/IP pour tous les nœuds du
fichier /etc/hosts de chaque nœud du cluster. Grâce à ce mappage de
noms d'hôte vers des adresses IP, chaque nœud peut contacter un autre
nœud du cluster.
9
Choisissez le type d'adressage à utiliser pour le réseau : Utiliser DHCP pour obtenir les adresses IP ou
Utiliser des adresses IP statiques.
10
(Facultatif) Si vous avez choisi Utiliser des adresses IP statiques dans Étape 9, entrez une ou plusieurs
plages d'adresses IP.
11
Cliquez sur OK pour enregistrer vos modifications.
Les adresses IP du réseau sont disponibles pour les clusters Big Data que vous créez au sein de Big Data
Extensions.
Modifier le type de DNS dans vSphere Web Client
DHCP sélectionne l'adresse IP du pool IP de manière aléatoire. Le FQN et l'adresse IP des nœuds d'un
cluster sont aléatoires. L'utilisateur ou l'application Hadoop ne peut pas localiser les nœuds master à moins
qu'ils n'envoient une requête à Big Data Extensions. Même si l'utilisateur connaît l'adresse d'origine, elle
peut changer lors du redémarrage du cluster. De ce fait, il est difficile pour l'utilisateur ou l'application
Hadoop d'accéder au cluster.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Ressources.
4
Développez l'option Ressources, sélectionnez Listes d'inventaire > Réseaux.
5
Sélectionnez un seul réseau à modifier, cliquez avec le bouton droit et sélectionnez Modifier le type de
DNS.
VMware, Inc.
95
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
6
7
Sélectionnez un type de DNS.
Option
Description
Normale
Le serveur DNS fournit la résolution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il
s'agit de l'inverse du DNS normal qui mappe les noms de domaine aux
adresses IP. Par défaut, le type de DNS est normal.
Dynamique
Dynamic DNS (DDNS ou DynDNS) est une méthode qui permet la mise à
jour automatique d'un nom de serveur du système DNS (Domain Name
System) avec la configuration DNS active de ses noms d'hôte configurés,
adresses ou autres informations. Big Data Extensions s'intègre à un serveur
Dynamic DNS de son réseau, au travers duquel il fournit des noms d'hôte
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement auprès du serveur DNS.
Autres
Il n'y a pas de serveur DNS dans le VLAN ou le serveur DNS n'offre pas
de résolution DNS normale ou de services Dynamic DNS. Dans ce cas,
vous devez ajouter un mappage FQDN/IP pour tous les nœuds du
fichier /etc/hosts de chaque nœud du cluster. Grâce à ce mappage de
noms d'hôte vers des adresses IP, chaque nœud peut contacter un autre
nœud du cluster.
Cliquez sur OK pour enregistrer vos modifications.
Reconfigurer un réseau IP statique dans vSphere Web Client
Vous pouvez reconfigurer un réseau IP statique Big Data Extensions en lui ajoutant des segments d'adresse
IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de
capacité pour le cluster que vous voulez créer.
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant
d'ajouter le réseau.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Ressources.
4
Développez l'option Ressources, sélectionnez Listes d'inventaire > Réseaux.
5
Sélectionnez le réseau IP statique pour le reconfigurer, cliquez sur le bouton droit de la souris et
sélectionnez Ajouter une plage d'adresses IP.
6
Cliquez sur Ajouter une plage d'adresses IP, puis saisissez les informations de l'adresse IP.
7
Cliquez sur OK pour enregistrer vos modifications.
Les segments d'adresse IP sont ajoutés au réseau.
Supprimer un réseau de vSphere Web Client
Vous pouvez supprimer un réseau existant de Big Data Extensions si vous n'en avez plus besoin. La
suppression d'un réseau non utilisé libère les adresses IP pour qu'elles soient utilisées par d'autres services.
Prérequis
Supprimez les clusters attribués au réseau. Reportez-vous à « Supprimer un cluster dans vSphere Web
Client », page 114.
96
VMware, Inc.
Chapitre 8 Gestion de ressources vSphere pour les clusters
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Ressources.
4
Développez l'option Ressources, sélectionnez Listes d'inventaire > Réseaux.
5
Sélectionnez le réseau à supprimer, cliquez sur le bouton droit de la souris, puis cliquez sur Supprimer.
6
Cliquez sur Oui pour confirmer.
Si vous n'avez pas supprimé le cluster qui utilise le réseau, vous recevez un message d'erreur indiquant
que le réseau ne peut pas être supprimé, car il est actuellement utilisé.
Le réseau est supprimé et les adresses IP peuvent être utilisées.
VMware, Inc.
97
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
98
VMware, Inc.
Création de clusters Hadoop et
HBase
9
Dans Big Data Extensions, vous pouvez créer et déployer des clusters Hadoop et HBase. Un cluster Big Data
est un type de cluster de calcul conçu pour stocker et analyser de grandes quantités de données non
structurées dans un environnement informatique distribué.
Restrictions.
n
Lorsque vous créez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par
défaut, car les autres ne prennent pas en charge ce type de cluster.
n
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
La mise hors tension temporaire des hôtes provoque l'échec des clusters Big Data pendant la création
du cluster.
Lorsque vous créez des clusters Big Data, Big Data Extensions calcule le placement des machines
virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des stratégies de
placement définies par l'utilisateur avant la création des machines virtuelles. Lors de ces calculs, si
certains hôtes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power
Management (VMware DPM), ces hôtes ne sont pas considérés comme des ressources disponibles par
Big Data Extensions.
Si un hôte est mis hors tension ou en veille après que Big Data Extensions a calculé le placement des
machines virtuelles, mais avant leur création, la création du cluster échoue tant que vous ne remettez
pas ces hôtes sous tension. Les solutions de contournement suivantes peuvent vous aider à éviter ce
problème et à y remédier.
n
Désactivez VMware DPM sur les clusters vSphere où vous déployez et exécutez
Big Data Extensions.
n
Mettez les hôtes en mode maintenance avant de les mettre hors tension.
n
Si la création d'un cluster Big Data échoue en raison de l'indisponibilité temporaire des hôtes qui
lui sont attribués, reprenez la création du cluster après avoir mis les hôtes sous tension.
Conditions
Les besoins en ressources sont différents pour les clusters créés avec l'interface de ligne de commande de
Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des modèles
par défaut différents. Les clusters par défaut créés à l'aide de la Serengeti CLI sont ciblés sur les utilisateurs
de Project Serengeti et les applications de validation technique. Ils sont plus petits que les modèles de plugin de Big Data Extensions, qui sont ciblés sur des déploiements de plus grande envergure à usage
commercial.
VMware, Inc.
99
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Certaines configurations de déploiement nécessitent plus de ressources que d'autres. Par exemple, si vous
créez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous
créez un cluster MapR ou Greenplum HD par défaut à l'aide de la Serengeti CLI, il est recommandé de
disposer d'au moins 550 Go de stockage et de 55 Go de mémoire. Pour les autres distributions Hadoop, il est
recommandé de disposer d'au moins 350 Go de stockage et de 35 Go de mémoire.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles sur le cluster. Cela empêche la migration automatique des
machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du
cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur
de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de
l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data
Extensions telles que la récupération de défaillances de disque.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Ce chapitre aborde les rubriques suivantes :
100
n
« À propos des types de déploiement de clusters Hadoop et HBase », page 101
n
« Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2 (YARN) », page 101
n
« À propos de la topologie des clusters », page 102
n
« À propos de l'accès à la base de données HBase », page 103
n
« Créer un cluster Big Data dans vSphere Web Client », page 103
n
« Créer un cluster uniquement HBase dans Big Data Extensions », page 107
n
« Créer un cluster avec un gestionnaire d'applications à l'aide de vSphere Web Client », page 109
n
« Créer un cluster de calcul uniquement avec un gestionnaire d'applications tiers en utilisant vSphere
Web Client », page 110
n
« Créer un cluster de calcul du travailleur uniquement à l'aide de vSphere Web Client », page 110
VMware, Inc.
Chapitre 9 Création de clusters Hadoop et HBase
À propos des types de déploiement de clusters Hadoop et HBase
Avec Big Data Extensions, vous pouvez créer et utiliser plusieurs types de clusters Big Data.
Cluster Hadoop de base
Déploiement Hadoop simple pour les projets de validation technique et
d'autres tâches de traitement de données à petite échelle. Le cluster Hadoop
de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure
MapReduce traite les problèmes en parallèle sur d'énormes jeux de données
dans le HDFS.
Cluster HBase
Il s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes
pour stocker de grandes quantités de données éparses.
Cluster de séparation
de données et de calcul
Sépare les nœuds de données et de calcul ou les clusters qui contiennent des
nœuds de calcul uniquement. Dans ce type de cluster, le nœud de données et
le nœud de calcul ne sont pas sur la même machine virtuelle.
Cluster de calcul
uniquement
Vous pouvez créer un cluster qui contient uniquement des nœuds de calcul,
par exemple des nœuds JobTracker, TaskTracker, ResourceManager et
NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de
calcul uniquement sert à exécuter des tâches MapReduce sur un cluster
HDFS externe.
Cluster de calcul de
travailleurs uniquement
Contient uniquement des nœuds worker, par exemple des nœuds
TaskTracker et NodeManager, mais pas des nœuds NameNode ni
DataNode. Un cluster de calcul de travailleurs uniquement sert à ajouter des
nœuds de calcul worker à un cluster Hadoop existant.
Cluster uniquement
HBase
Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais
pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase
uniquement peuvent utiliser le même cluster HDFS externe.
Cluster personnalisé
Utilise un fichier de spécification de cluster pour créer des clusters à l'aide de
la même configuration que celle des clusters précédemment créés. Vous
pouvez modifier le fichier de spécification de cluster pour personnaliser la
configuration du cluster.
Distributions Hadoop prenant en charge MapReduce v1 et
MapReduce v2 (YARN)
Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge à la fois
MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par défaut sont différentes.
La configuration de cluster Hadoop par défaut pour CDH4 est un cluster MapReduce v1. La configuration
de cluster Hadoop par défaut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions
prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux.
VMware, Inc.
101
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
À propos de la topologie des clusters
Vous pouvez améliorer l'équilibrage de la charge de travail entre vos nœuds de cluster et accroître les
performances et le débit en spécifiant comment les machines virtuelles Hadoop sont placées, à l'aide de la
reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de
calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes
physiques.
Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse
la topologie de l'hôte de votre environnement et les informations sur le réseau. Les performances d'Hadoop
sont supérieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est
disponible, plutôt que les transferts hors rack lorsqu'il attribue des tâches MapReduce aux nœuds. HDFS
peut placer des réplicas de manière plus intelligente pour améliorer les performances et la résilience. Par
exemple, si vous avez des nœuds de données et des nœuds de calcul distincts, vous pouvez améliorer les
performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
Vous pouvez spécifier les configurations suivantes de reconnaissance de la topologie.
Extensions de
virtualisation Hadoop
(HVE, Hadoop
Virtualization
Extensions)
Fiabilité et performances des clusters améliorées grâce à un placement des
réplicas, une planification des tâches et des politiques d'équilibrage Hadoop
plus précis. Les clusters Hadoop implémentés dans une infrastructure
virtualisée sont dotés d'une reconnaissance complète de la topologie sur
laquelle ils fonctionnent lorsqu'ils utilisent HVE.
Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et
vous devez créer et télécharger un fichier de mappage rack-hôtes.
RACK_EN_RACK
Topologie standard pour les distributions Apache Hadoop. Seules les
informations sur le rack et l'hôte sont exposées à Hadoop. Pour utiliser
RACK_AS_RACK, créez et téléchargez un fichier de topologie de serveur.
HÔTE_EN_RACK
Topologie simplifiée pour les distributions Apache Hadoop. Pour éviter de
placer tous les réplicas de blocs de données HDFS sur le même hôte
physique, chaque hôte physique est traité comme un rack. Étant donné que
les réplicas des blocs de données ne sont jamais placés sur un rack, cela évite
le pire scénario où une défaillance d'un seul hôte provoque la perte totale
d'un bloc de données.
Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne
disposez pas d'informations sur le rack vous permettant de décider des
options de configuration de la topologie.
Aucune
102
Aucune topologie n'est spécifiée.
VMware, Inc.
Chapitre 9 Création de clusters Hadoop et HBase
À propos de l'accès à la base de données HBase
Serengeti prend en charge plusieurs méthodes d'accès à la base de données HBase.
n
Connectez-vous à la machine virtuelle du nœud client et exécutez les commandes hbase shell.
n
Connectez-vous à la machine virtuelle du nœud client et exécutez les tâches HBase à l'aide de la
commande hbase.
hbase org.apache.hadoop.hbase.PerformanceEvaluation –-nomapred randomWrite 3
Le cluster HBase par défaut déployé par Serengeti ne contient pas de démons Hadoop JobTracker ou
Hadoop TaskTracker. Pour exécuter une tâche HBase MapReduce, vous devez déployer un cluster
personnalisé qui inclut les nœuds JobTracker et TaskTracker.
n
Utilisez les services Rest-ful Web Services du nœud client, qui écoutent sur le port 8080, à l'aide de la
commande curl.
curl –I http://client_node_ip:8080/status/cluster
n
Utilisez la passerelle Thrift du nœud client, qui écoute sur le port 9090.
Créer un cluster Big Data dans vSphere Web Client
Une fois que vous avez terminé le déploiement de la distribution Hadoop, vous pouvez créer des clusters
Big Data pour traiter des données. Vous pouvez créer plusieurs clusters dans votre environnement
Big Data Extensions, mais ce dernier doit remplir toutes les conditions préalables et disposer des ressources
adéquates.
Prérequis
n
Démarrez le vApp Big Data Extensions.
n
Installez le plug-in Big Data Extensions.
n
Connectez-vous à un Serengeti Management Server.
n
Configurez une ou plusieurs distributions Hadoop.
n
Assurez-vous de bien comprendre les options de configuration de la topologie que vous voulez utiliser
avec votre cluster.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions > Clusters Big Data.
3
Dans l'onglet Objets, cliquez sur Nouveau cluster Big Data.
VMware, Inc.
103
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
4
104
Suivez les invites pour créer le cluster. Le tableau décrit les informations à entrer pour le cluster que
vous voulez créer.
Option
Description
Nom du cluster Hadoop
Tapez un nom pour identifier le cluster.
Les seuls caractères valides dans les noms de clusters sont les caractères
alphanumériques et les traits de soulignement. Quand vous choisissez le
nom de cluster, tenez également compte du nom de vApp applicable.
Ensemble, les noms de vApp et du cluster doivent comprendre moins de
80 caractères.
Gestionnaire d'applications
Sélectionnez un gestionnaire d'applications. La liste contient le
gestionnaire d'applications par défaut et les gestionnaires d'applications
que vous avez ajoutés à votre environnement Big Data Extensions. Par
exemple, Cloudera Manager et Ambari.
Modèle de nœud
Sélectionnez un modèle de nœud. La liste contient tous les modèles
disponibles dans l'application virtuelle Big Data Extensions.
Distribution Hadoop
Sélectionnez la distribution Hadoop. La liste contient la distribution
Apache Bigtop par défaut pour Big Data Extensions et les distributions que
vous avez ajoutées à votre environnement Big Data Extensions. Les noms
de distribution correspondent à la valeur du paramètre --name qui a été
transmis au script config-distro.rb lors de la configuration de la
distribution Hadoop. Par exemple, cdh5 et mapr.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et
CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure,
vous devez configurer un DNS et un FQDN valides pour le trafic réseau
HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la
résolution FQDN/IP dans un sens et dans l'autre, le processus de création
du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas.
URL du référentiel local
Tapez l'URL d'un référentiel local. Cet élément est facultatif pour tous les
gestionnaires d'applications. Si vous spécifiez une URL de référentiel local,
le gestionnaire d'applications Cloudera Manager ou Ambari télécharge les
Red Hat Package Manager (RPM) depuis le référentiel local que vous
spécifiez plutôt qu'un référentiel distant, ce qui peut avoir des
répercussions sur les performances de votre système.
Type de déploiement
Sélectionnez le type de cluster à créer.
n Cluster Hadoop de base
n Cluster HBase de base
n Cluster Hadoop de calcul uniquement
n Cluster de calcul de travailleurs uniquement
n Cluster uniquement HBase
n Cluster Hadoop de séparation données/calcul
n Personnalisé
Le type de cluster que vous créez détermine les sélections de groupes de
nœuds disponibles.
Si vous sélectionnez Personnaliser, vous pouvez charger un fichier de
spécification de cluster existant.
Groupe de nœuds DataMaster
Le nœud DataMaster est une machine virtuelle qui exécute le service
Hadoop NameNode. Ce nœud gère les données HDFS et affecte des tâches
aux services Hadoop TaskTracker déployés dans le groupe de nœuds
worker.
Sélectionnez un modèle de ressource dans le menu déroulant, ou
sélectionnez Personnaliser pour personnaliser un modèle de ressource.
Pour le nœud master, utilisez un stockage partagé pour protéger cette
machine virtuelle avec la haute disponibilité vSphere et la tolérance aux
pannes vSphere.
VMware, Inc.
Chapitre 9 Création de clusters Hadoop et HBase
Option
Description
Groupe de nœuds ComputeMaster
Le nœud ComputeMaster est une machine virtuelle qui exécute le service
Hadoop JobTracker. Ce nœud affecte des tâches aux services Hadoop
TaskTracker déployés dans le groupe de nœuds worker.
Sélectionnez un modèle de ressource dans le menu déroulant, ou
sélectionnez Personnaliser pour personnaliser un modèle de ressource.
Pour le nœud master, utilisez un stockage partagé pour protéger cette
machine virtuelle avec la haute disponibilité vSphere et la tolérance aux
pannes vSphere.
Groupe de nœuds HBaseMaster
(cluster HBase uniquement)
Le nœud HBaseMaster est une machine virtuelle qui exécute le service
maître HBase. Ce nœud orchestre un cluster d'un ou plusieurs nœuds
esclaves RegionServer.
Sélectionnez un modèle de ressource dans le menu déroulant ou
sélectionnez Personnaliser pour personnaliser un modèle de ressource.
Pour le nœud master, utilisez un stockage partagé pour protéger cette
machine virtuelle avec la haute disponibilité vSphere et la tolérance aux
pannes vSphere.
Groupe de nœuds worker
Les nœuds worker sont des machines virtuelles qui exécutent les services
Hadoop DataNode, TaskTracker et HBase HRegionServer. Ces nœuds
stockent des données HDFS et exécutent des tâches.
Sélectionnez le nombre de nœuds et le modèle de ressource dans le menu
déroulant ou sélectionnez Personnaliser pour personnaliser un modèle de
ressource.
Pour les nœuds worker, utilisez un stockage local.
REMARQUE Vous pouvez ajouter des nœuds au groupe de nœuds worker
en utilisant la fonction Agrandir le cluster. Vous ne pouvez pas réduire le
nombre de nœuds.
VMware, Inc.
Groupe de nœuds clients
Un nœud client est une machine virtuelle qui contient des composants
clients Hadoop. À partir de cette machine virtuelle, vous pouvez accéder à
HDFS, soumettre des travaux MapReduce, exécuter des scripts Pig,
exécuter des requêtes Hive et des commandes HBase.
Sélectionnez le nombre de nœuds et un modèle de ressource dans le menu
déroulant, ou sélectionnez Personnaliser pour personnaliser un modèle de
ressource.
REMARQUE Vous pouvez ajouter des nœuds au groupe de nœuds clients en
utilisant la fonction Agrandir le cluster. Vous ne pouvez pas réduire le
nombre de nœuds.
Topologie Hadoop
Sélectionnez la configuration de topologie que vous voulez que le cluster
utilise.
n RACK_EN_RACK
n HÔTE_EN_RACK
n HVE
n AUCUNE
Si la configuration de topologie souhaitée n'apparaît pas, définissez-la
dans un fichier de mappage rack-hôtes de topologie, puis utilisez
l'interface de ligne de commande Serengeti pour télécharger le fichier dans
le Serengeti Management Server. Reportez-vous à « À propos de la
topologie des clusters », page 102
(Facultatif) Si vous souhaitez sélectionner des banques de données
spécifiques à utiliser avec le cluster, cochez la case Voulez-vous spécifier
des banques de données à déployer ? Par défaut, le cluster que vous créez
utilise toutes les banques de données disponibles.
105
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Option
Description
Réseau
Sélectionnez un ou plusieurs réseaux pour le cluster.
Pour optimiser les performances, utilisez le même réseau pour le trafic
HDFS et MapReduce dans les clusters Hadoop et Hadoop+HBase. Les
clusters HBase utilisent le réseau HDFS pour le trafic lié aux services
HBase Master et HBase RegionServer.
IMPORTANT Vous ne pouvez pas configurer plusieurs réseaux pour les
clusters qui utilisent la distribution Hadoop MapR, ni pour les clusters
gérés par Cloudera Manager et Ambari. Seul le gestionnaire d'applications
Big Data Extensions par défaut prend en charge plusieurs réseaux.
n Pour utiliser un seul réseau pour tout le trafic, sélectionnez-le dans la
liste Réseau.
n Pour utiliser des réseaux distincts pour la gestion, le trafic HDFS et le
trafic MapReduce, sélectionnez Personnaliser les réseaux HDFS et
MapReduce, puis sélectionnez un réseau dans chaque liste.
Sélectionner les banques de
données
(Facultatif) La possibilité de sélectionner des banques de données
spécifiques à utiliser avec le cluster n'est disponible que si vous
sélectionnez Voulez-vous spécifier des banques de données à déployer ?
dans le volet Sélectionner la topologie et le réseau.
Cochez la case située en regard des banques de données que vous
souhaitez utiliser avec le cluster. Si vous ne sélectionnez aucune banque de
données, le cluster que vous créez utilisera toutes les banques de données
disponibles.
Pools de ressources
Sélectionnez un ou plusieurs pools de ressources que vous voulez que le
cluster utilise.
Mot de passe de machine virtuelle
Choisissez la manière d'affecter les mots de passe administrateur initiaux
aux nœuds de machine virtuelle du cluster.
n Utiliser un mot de passe aléatoire.
n Définir le mot de passe.
Pour affecter un mot de passe administrateur initial personnalisé à tous les
nœuds du cluster, choisissez Définir le mot de passe, puis tapez et
confirmez le mot de passe initial.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement
des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au
moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre
(0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
IMPORTANT Si vous définissez un mot de passe administrateur initial, il est
utilisé pour les nœuds créés par de futures opérations de mise à l'échelle et
de récupération de défaillance de disque. Si vous utilisez le mot de passe
aléatoire, les nœuds créés par de futures opérations de mise à l'échelle et
de récupération de défaillance de disque utilisent de nouveaux mots de
passe aléatoires.
Utilisateur LDAP
Si LDAP/AD est activé, vous pouvez spécifier un groupe de noms
d'administrateurs et un groupe d'utilisateurs standard pour chaque
cluster. Big Data Extensions crée des connexions AD/LDAP sur les
machines virtuelles du nœud afin que les utilisateurs des deux groupes
puissent se connecter aux machines virtuelles du nœud. L'utilisateur du
groupe d'administrateurs dispose du privilège sudo, qui lui permet
d'exécuter des tâches administratives sur les machines virtuelles du nœud.
URL du référentiel local
Tapez l'URL d'un référentiel local.
Cet élément est facultatif pour tous les gestionnaires d'applications. Si vous
spécifiez une URL de référentiel local, le gestionnaire d'applications
Cloudera Manager ou Ambari télécharge les Red Hat Package Manager
(RPM) depuis le référentiel local que vous spécifiez plutôt que depuis un
référentiel distant, ce qui peut avoir des répercussions sur les
performances de votre système.
Le Serengeti Management Server clone la machine virtuelle du modèle pour créer les nœuds dans le cluster.
Quand chaque machine virtuelle démarre, l'agent qui se trouve dessus applique les composants logiciels
Big Data Extensions appropriés sur ce nœud, puis déploie les logiciels.
106
VMware, Inc.
Chapitre 9 Création de clusters Hadoop et HBase
Créer un cluster uniquement HBase dans Big Data Extensions
Big Data Extensions vous permet de créer un cluster uniquement HBase qui contient uniquement des
nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le
cluster uniquement HBase présente l'avantage de permettre à plusieurs clusters HBase d'utiliser le même
HDFS externe.
Procédure
1
Conditions préalables à la création d'un cluster uniquement HBase page 107
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système
remplit toutes les conditions préalables.
2
Préparer EMC Isilon OneFS en tant que cluster HDFS externe page 108
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser
avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes
d'utilisateurs, et préparer votre environnement Isilon OneFS.
3
Créer un cluster uniquement HBase à l'aide de vSphere Web Client page 109
Vous pouvez utiliser vSphere Web Client pour créer un cluster uniquement HBase.
Conditions préalables à la création d'un cluster uniquement HBase
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit
toutes les conditions préalables.
Conditions préalables
n
Vérifiez que vous avez démarré Serengeti vApp.
n
Vérifiez que vous avez plusieurs distributions si vous voulez en utiliser une différente de celle par
défaut.
n
Vérifiez que vous avez un cluster HDFS existant à utiliser en tant que cluster HDFS externe.
Pour éviter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters
doivent utiliser la même distribution Hadoop et la même version.
n
n
Si le cluster HDFS n'a pas été créé à l'aide de Big Data Extensions, vérifiez que le répertoire
HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS
externe :
n
hdfs
n
hbase
n
serengeti
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vérifiez que votre environnement
Isilon est préparé.
Pour plus d'informations sur la manière de préparer votre environnement, consultez « Préparer EMC
Isilon OneFS en tant que cluster HDFS externe », page 108.
VMware, Inc.
107
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Préparer EMC Isilon OneFS en tant que cluster HDFS externe
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et
préparer votre environnement Isilon OneFS.
Procédure
1
Connectez-vous à l'un des nœuds HDFS Isilon en tant que user root
2
Créez les utilisateurs.
n
hdfs
n
hbase
n
serengeti
n
mapred
Les utilisateurs yarn et mapred doivent disposer d'autorisations d'écriture; de lecture et d'exécution pour
tout le répertoire HDFS exporté.
3
Créez le groupe d'utilisateurs hadoop.
4
Créez le répertoire tmp sous le répertoire HDFS racine.
5
Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 777.
6
Créez le répertoire hadoop sous le répertoire HDFS racine.
7
Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 775.
8
Créez le répertoire hbase sous le répertoire hadoop.
9
Définissez le propriétaire en tant que hbase:hadoop et les autorisations de lecture et d'écriture 775.
10
Définissez le propriétaire du répertoire HDFS en tant que hdfs:hadoop.
Exemple : Configuration de l'environnement EMC Isilon OneFS
isi auth users create --name="hdfs"
isi auth users create --name="hbase"
isi auth users create --name="serengeti"
isi auth groups create --name="hadoop"
pw useradd mapred -G wheel
pw useradd yarn -G wheel
chown hdfs:hadoop /ifs
mkdir /ifs/tmp
chmod 777 /ifs/tmp
chown hdfs:hadoop /ifs/tmp
mkdir -p /ifs/hadoop/hbase
chmod -R 775 /ifs/hadoop
chown hdfs:hadoop /ifs/hadoop
chown hbase:hadoop /ifs/hadoop/hbase
Suivant
Vous êtes maintenant prêt à créer le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster
externe.
108
VMware, Inc.
Chapitre 9 Création de clusters Hadoop et HBase
Créer un cluster uniquement HBase à l'aide de vSphere Web Client
Vous pouvez utiliser vSphere Web Client pour créer un cluster uniquement HBase.
Vous devez utiliser le gestionnaire d'applications par défaut, car les autres gestionnaires d'applications ne
prennent pas en charge les clusters uniquement HBase.
Procédure
1
Dans la page Clusters Big Data, cliquez sur Nouveau cluster Big Data.
2
Dans la page Général, entrez un nom pour le cluster.
3
Sélectionnez Par défaut dans le menu déroulant Gestionnaire d'applications.
4
Sélectionnez une distribution dans le menu déroulant Distribution Hadoop.
5
Dans la page Définir les groupes de nœuds, sélectionnez Cluster HBase uniquement dans le menu
déroulant Type de déploiement.
6
Dans la zone de texte URI NameNode, entrez l'URI NameNode du HDFS externe.
L'URI NameNode correspond à l'URI du NameNode, par exemple hdfs://namenode_hostname:8020.
7
Suivez les invites pour terminer le processus de création du cluster HBase.
Créer un cluster avec un gestionnaire d'applications à l'aide de
vSphere Web Client
Pour créer et gérer un cluster avec un gestionnaire d'applications autre que celui par défaut, vous devez
indiquer le gestionnaire d'applications à utiliser avant de créer le cluster.
REMARQUE Si vous souhaitez utiliser un référentiel Yum local après avoir sélectionné Cloudera Manager ou
Ambari pour votre gestionnaire d'applications, une zone de texte s'affiche. Vous pouvez y saisir l'URL du
référentiel local que vous souhaitez utiliser. Vous devez d'abord avoir créé le référentiel avant de créer le
cluster. Pour plus d'informations sur la configuration d'un référentiel Yum, reportez-vous à « Configurer un
référentiel Yum local pour le gestionnaire d'applications Ambari », page 60 ou « Configurer un référentiel
Yum local pour le gestionnaire d'applications Cloudera Manager », page 57.
Prérequis
n
Connectez-vous à un gestionnaire d'applications.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. Pour plus
d'informations sur les ressources requises, consultez la documentation de votre gestionnaire
d'applications.
n
Configurez une ou plusieurs distributions Hadoop.
Procédure
1
Dans la page Clusters Big Data, cliquez sur Nouveau cluster Big Data.
2
Suivez les invites pour créer le cluster.
Suivant
Pour afficher le nouveau cluster, dans leBig Data Extensions panneau de navigation, dans Listes
d'inventaire, cliquez sur Clusters Big Data.
Si vous n'indiquez pas de gestionnaire d'applications, celui par défaut est utilisé.
VMware, Inc.
109
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Créer un cluster de calcul uniquement avec un gestionnaire
d'applications tiers en utilisant vSphere Web Client
Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe pour le cluster uniquement HBase, vous
devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement
Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 108.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Dans Big Data Extensions, sélectionnez Nouveau cluster Big Data.
2
Dans le volet Général, sélectionnez dans la liste déroulante le gestionnaire d'applications que vous
souhaitez utiliser pour gérer le cluster.
3
Pour personnaliser le cluster pour les gestionnaires d'applications Cloudera Manager ou Ambari,
sélectionnez Personnaliser dans la liste déroulante.
4
Cliquez sur Charger pour sélectionner le fichier de spécification.
5
Suivez la procédure indiquée par l'assistant pour terminer la création.
Créer un cluster de calcul du travailleur uniquement à l'aide de
vSphere Web Client
Si vous disposez déjà d'un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant
plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster de
travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et
peut être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode
virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode
virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster
physique existant ou à un cluster Hadoop virtuel.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
Prérequis
n
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
Procédure
110
1
Cliquez sur Créer un cluster Big Data dans le volet Objets.
2
Dans l'assistant de création du cluster Big Data, choisissez la même distribution que le cluster Hadoop.
VMware, Inc.
Chapitre 9 Création de clusters Hadoop et HBase
3
Définissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020.
4
Définissez l'URL ComputeMaster nodeManager ip ou fqdn.
5
Suivez la procédure indiquée dans l'assistant et ajoutez les autres ressources.
Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont
enregistrés auprès du gestionnaire de ressources.
VMware, Inc.
111
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
112
VMware, Inc.
Gestion des clusters Hadoop et
HBase
10
Vous pouvez utiliser vSphere Web Client pour démarrer et arrêter votre cluster Big Data, et pour modifier la
configuration du cluster. Vous pouvez également gérer un cluster à l'aide de l'interface de ligne de
commande Serengeti.
AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de
cluster vers d'autres hôtes pour les clusters créés avec Big Data Extensions. L'utilisation de ces fonctions de
gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines
opérations de Big Data Extensions telles que la récupération de défaillances de disque.
Ce chapitre aborde les rubriques suivantes :
n
« Arrêter et démarrer un cluster dans vSphere Web Client », page 113
n
« Supprimer un cluster dans vSphere Web Client », page 114
n
« Agrandir ou réduire un cluster à l'aide de vSphere Web Client », page 114
n
« Mettre à l'échelle le CPU et la RAM dans vSphere Web Client », page 115
n
« Utiliser des partages de disque E/S pour fixer la priorité des machines virtuelles de cluster dans
vSphere Web Client », page 116
n
« À propos de vSphere High Availability et de vSphere Fault Tolerance », page 117
n
« Modifier le mot de passe utilisateur sur tous les nœuds d'un cluster », page 117
n
« Reconfigurer un cluster avec l'interface de ligne de commande Serengeti », page 118
n
« Configurer le nombre de disques de données par groupe de nœuds », page 120
n
« Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti »,
page 121
n
« Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti »,
page 122
Arrêter et démarrer un cluster dans vSphere Web Client
Vous pouvez arrêter un cluster Hadoop en cours d'exécution et démarrer un cluster Hadoop arrêté dans
vSphere Web Client.
Prérequis
n
Pour être arrêté, le cluster doit être en cours d'exécution.
n
Pour être démarré, le cluster doit être arrêté.
VMware, Inc.
113
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Sélectionnez le cluster à arrêter ou à démarrer dans la colonne Hadoop Cluster Name (Nom du cluster
Hadoop), puis cliquez sur le bouton droit de la souris pour afficher le menu Actions.
5
Sélectionnez Arrêter le cluster Big Data pour arrêter un cluster en cours d'exécution ou sélectionnez
Start Big Data Cluster (Démarrer un cluster Big Data) pour démarrer un cluster.
Supprimer un cluster dans vSphere Web Client
Vous pouvez supprimer un cluster à l'aide de vSphere Web Client. À sa suppression, le cluster est retiré de
l'inventaire et de la banque de données.
Lorsque vous créez un cluster, Big Data Extensions crée un dossier et un pool de ressources pour chaque
cluster, et des pools de ressources pour chacun des groupes de nœuds du cluster. Lorsque vous supprimez
un cluster, tous les dossiers et les pools de ressources sont supprimés.
À sa suppression, le cluster est retiré de l'inventaire et de la banque de données.
Vous pouvez supprimer un cluster en cours de fonctionnement, un cluster interrompu ou un cluster en état
d'erreur.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Dans le navigateur objet, sélectionnez Big Data Extensions.
3
Dans les listes d'inventaire, sélectionnez Clusters Big Data.
4
Dans la colonne Objects Name (Nom Objets), sélectionnez le cluster à supprimer.
5
Cliquez sur l'icône All Actions (Toutes les actions), puis sélectionnez Supprimer le cluster Big Data.
Le cluster et toutes les machines virtuelles qu'il contient sont supprimés de votre Big Data Extensions
environnement.
Agrandir ou réduire un cluster à l'aide de vSphere Web Client
Lorsque vous créez des clusters Hadoop, vous devez spécifier le nombre de nœuds à utiliser. Après la
création du cluster, vous pouvez redimensionner le cluster en changeant le nombre de nœuds worker et de
nœuds client. Vous pouvez augmenter le nombre de nœuds pour agrandir un groupe de nœuds. Vous
pouvez également réduire le nombre de nœuds pour réduire un groupe de nœuds de calcul uniquement.
Un groupe de nœuds est considéré comme un groupe de nœuds de calcul uniquement s'il contient
uniquement des rôles de calcul tels que TaskTracker or NodeManager.
Vous pouvez redimensionner le cluster à l'aide de vSphere Web Client ou du client Serengeti CLI. Toutefois,
l'interface de ligne de commande offre davantage d'options de configuration que vSphere Web Client.
Reportez-vous à Guide de l'interface de ligne de commande de VMware vSphere Big Data Extensions.
114
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
Par défaut, vous pouvez uniquement réduire les nœuds de calcul. Pour réduire des groupes de nœuds
contenant d'autres rôles (par exemple, le rôle A et le rôle B), vous devez vous connecter au serveur Big Data
Extensions et supprimer les rôles A et B dans les fichiers de liste noire liés. Le fichier de liste noire porte le
nom scale_in_roles_blacklist.json et se trouve dans le
répertoire /opt/serengeti/conf/application_manager_type. Le application_manager_type peut être Ambari,
Cloudera Manager ou celui par défaut.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds, le mot de passe modifié
n'est pas utilisé pour les nouveaux nœuds créés par l'opération de redimensionnement du cluster. Si vous
avez défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, ce mot de passe est
utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur lorsque
vous avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds.
Prérequis
n
Vérifiez que le cluster est en cours d'exécution. Reportez-vous à « Arrêter et démarrer un cluster dans
vSphere Web Client », page 113.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Dans la colonne Nom du cluster Hadoop, sélectionnez le cluster à redimensionner.
5
Cliquez sur l'icône Toutes les actions, puis sélectionnez Agrandir/réduire
6
Dans la liste Groupe de nœuds, sélectionnez le groupe de nœuds worker ou client à agrandir ou
réduire.
Si un groupe ne contient aucun nœud, il ne figure pas dans la liste Groupe de nœuds.
7
Dans la zone de texte Nombre d'instances, saisissez le nombre cible d'instances de nœud à ajouter, puis
cliquez sur OK.
Le cluster est adapté au nombre de nœuds spécifié.
Mettre à l'échelle le CPU et la RAM dans vSphere Web Client
Vous pouvez augmenter ou réduire la capacité de calcul d'un cluster afin d'empêcher la contention des
ressources mémoire ou CPU des tâches en cours d'exécution.
Vous pouvez ajuster les ressources de calcul sans augmenter la charge de travail du nœud master. Si
l'augmentation ou la diminution du CPU ou de la RAM d'un cluster n'aboutit pas pour un nœud, ce qui est
généralement dû à l'insuffisance des ressources disponibles, le nœud est rétabli à sa valeur de CPU ou de
RAM originale.
Même si tous les types de nœuds prennent en charge la mise à l'échelle du CPU et de la RAM, ne mettez pas
à l'échelle le CPU ou la RAM du nœud master d'un cluster, car Big Data Extensions arrête la machine
virtuelle lors du processus de mise à l'échelle.
Lorsque vous mettez à l'échelle le CPU ou la RAM d'un cluster, le nombre de CPU peut être un multiple du
nombre de cœurs par point de connexion, et vous devez mettre à l'échelle la quantité de RAM en multiple
de 4, pour un minimum de 3 748 Mo.
Prérequis
n
VMware, Inc.
Vérifiez que le cluster que vous souhaitez mettre à l'échelle est en cours d'exécution. Reportez-vous à
« Arrêter et démarrer un cluster dans vSphere Web Client », page 113.
115
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Dans la colonne Hadoop Cluster Name (Nom du cluster Hadoop), sélectionnez le cluster que vous
souhaitez monter/descendre en puissance.
5
Cliquez sur l'icône Toutes les actions, puis sélectionnez Monter/descendre en puissance.
6
Dans le menu déroulant Groupe de nœuds, sélectionnez le groupe de nœuds ComputeMaster,
DataMaster, Worker, Client ou Customized dont vous souhaitez monter/descendre en puissance le CPU
ou la RAM.
7
Saisissez le nombre de vCPU à utiliser et la quantité de RAM et cliquez sur OK.
Après avoir appliqué les nouvelles valeurs de CPU et de RAM, le cluster est placé en mode Maintenance
pendant qu'il applique les nouvelles valeurs. Vous pouvez surveiller l'état du cluster pendant l'application
des nouvelles valeurs.
Utiliser des partages de disque E/S pour fixer la priorité des machines
virtuelles de cluster dans vSphere Web Client
Vous pouvez établir des partages de disque E/S pour les machines virtuelles exécutant un cluster. Les
partages de disque distinguent les machines virtuelles à haute priorité et à basse priorité.
Les partages de disque sont une valeur qui représente la mesure relative pour la bande passante de contrôle
de disque à toutes les machines virtuelles. Les valeurs sont comparées à la somme de tous les partages de
toutes les machines virtuelles sur le serveur et, sur un hôte ESXi, la console du service. Big Data Extensions
peut ajuster les partages de disque pour toutes les machines virtuelles dans un cluster. Les partages de
disque vous permettent de modifier la bande passante E/S d'un cluster pour améliorer les performances E/S
du cluster.
Pour plus d'informations sur l'utilisation des partages de disque pour fixer la priorité des machines
virtuelles, reportez-vous à la documentation de VMware vSphere ESXi et de vCenter Server.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Dans le navigateur objet, sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Sélectionnez le cluster dont vous souhaitez établir des partages E/S de disque, dans la colonne Hadoop
Cluster Name (Nom du cluster Hadoop).
5
Cliquez sur l'icône Actions et sélectionnez Définir les partages d'E/S disque.
6
Indiquez une valeur pour attribuer un nombre de partages de bande passante de disque à la machine
virtuelle exécutant le cluster.
Les clusters configurés pour les partages E/S ÉLEVÉS bénéficient d'un accès prioritaire par rapport à
ceux présentant des priorités NORMALES et FAIBLES, ce qui permet d'améliorer les performances E/S
de disque. Les partages de disque sont généralement définis sur FAIBLE pour les machines virtuelles
de calcul et NORMAL pour les machines virtuelles de données. La machine virtuelle du nœud master
est généralement définie sur NORMAL.
7
116
Cliquez sur OK pour enregistrer vos modifications.
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
À propos de vSphere High Availability et de vSphere Fault Tolerance
Le serveur de gestion Serengeti tire parti de la haute disponibilité vSphere pour protéger la machine
virtuelle du nœud Hadoop master, qui peut être surveillée par vSphere.
Lorsque un service Hadoop NameNode ou JobTracker s'arrête de manière inattendue, vSphere redémarre la
machine virtuelle Hadoop dans un autre hôte afin de réduire la période d'interruption non planifiée. Si
vSphere Fault Tolerance est configuré et que la machine virtuelle du nœud master s'arrête de manière
inattendue en raison du basculement ou de la perte de connectivité réseau d'un hôte, le nœud secondaire est
utilisé, sans provoquer d'interruption de service.
Modifier le mot de passe utilisateur sur tous les nœuds d'un cluster
Vous pouvez modifier le mot de passe utilisateur sur tous les nœuds d'un cluster. Le mot de passe
utilisateur que vous pouvez modifier concerne les utilisateurs serengeti et root.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
IMPORTANT Si vous agrandissez ou si vous réalisez des opérations de récupération de disque sur un cluster
après avoir modifié le mot de passe utilisateur sur les nœuds d'origine du cluster, le mot de passe modifié
n'est pas utilisé pour les nouveaux nœuds du cluster qui sont créés par les opérations d'agrandissement ou
de récupération de disque. Si vous avez défini le mot de passe initial de l'administrateur du cluster lorsque
vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le
mot de passe initial de l'administrateur du cluster lorsque vous avez créé le cluster, les nouveaux mots de
passe aléatoires sont utilisés pour les nouveaux nœuds.
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
n
Configurez une distribution Hadoop à utiliser avec Big Data Extensions.
n
Créez un cluster. Reportez-vous à Chapitre 9, « Création de clusters Hadoop et HBase », page 99.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
2
Exécutez le script serengeti-ssh.sh .
serengeti-ssh.sh cluster_name 'echo new_password | sudo passwd username --stdin'
Dans cet exemple, le mot de passe est modifié sur tous les nœuds du cluster étiqueté mycluster pour les
utilisateurs serengeti à mypassword.
serengeti-ssh.sh mycluster
'echo mypassword | sudo passwd serengeti --stdin'
Le mot de passe du compte utilisateur que vous indiquez est modifié sur tous les nœuds du cluster.
VMware, Inc.
117
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Reconfigurer un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez reconfigurer tout cluster big data que vous créez avec Big Data Extensions.
La configuration des clusters est spécifiée par des attributs dans des fichiers de configuration XML de
distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh,
yarn-site.sh et hadoop-metrics.properties.
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les
fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphere
Big Data Extensions.
REMARQUE Utilisez toujours la commande cluster config pour modifier les paramètres spécifiés par les
fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effacées si la
machine virtuelle redémarre ou si vous utilisez les commandes cluster config, cluster start, cluster
stop ou cluster resize.
Procédure
1
Utilisez la commande cluster export pour exporter le fichier de spécification pour le cluster que vous
souhaitez reconfigurer.
cluster export --name
2
cluster_name --specFile file_path/cluster_spec_file_name
Option
Description
cluster_name
Nom du cluster que vous souhaitez reconfigurer.
file_path
Le chemin du système de fichiers vers lequel vous voulez exporter le
fichier de spécification.
cluster_spec_file_name
Le nom de l'étiquette à attribuer au fichier de spécification du cluster
exporté.
Modifiez les informations de configuration situées près de la fin du fichier de spécification du cluster
exporté.
Si vous modélisez votre fichier de configuration sur des fichiers de configuration XML Hadoop
existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format
JSON requis.
…
"configuration": {
"hadoop": {
"core-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// "io.file.buffer.size": "4096"
},
"hdfs-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
"mapred-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
118
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
},
"hadoop-env.sh": {
// "HADOOP_HEAPSIZE": "",
// "HADOOP_NAMENODE_OPTS": "",
// "HADOOP_DATANODE_OPTS": "",
// "HADOOP_SECONDARYNAMENODE_OPTS": "",
// "HADOOP_JOBTRACKER_OPTS": "",
// "HADOOP_TASKTRACKER_OPTS": "",
// "HADOOP_CLASSPATH": "",
// "JAVA_HOME": "",
// "PATH": "",
},
"log4j.properties": {
// "hadoop.root.logger": "DEBUG, DRFA ",
// "hadoop.security.logger": "DEBUG, DRFA ",
},
"fair-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// "text": "the full content of fair-scheduler.xml in one line"
},
"capacity-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
}
}
}
…
3
(Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le répertoire
$HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de
spécification de cluster.
Cette opération permet aux démons Hadoop de localiser les fichiers JAR de distribution.
Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent
sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de spécification du cluster
pour permettre à Hadoop d'utiliser les fichiers JAR.
…
"configuration": {
"hadoop": {
"hadoop-env.sh": {
"HADOOP_CLASSPATH": "/usr/lib/hadoop/contrib/fairscheduler/*:$HADOOP_CLASSPATH"
},
"mapred-site.xml": {
"mapred.jobtracker.taskScheduler": "org.apache.hadoop.mapred.FairScheduler"
…
},
"fair-scheduler.xml": {
…
}
}
}
…
4
VMware, Inc.
Accédez à l'Serengeti CLI.
119
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
5
Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile file_path/cluster_spec_file_name
6
(Facultatif) Réinitialisez un attribut de configuration existant à sa valeur par défaut.
a
Supprimez l'attribut de la section de configuration du fichier de configuration ou commentez
l'attribut en utilisant deux barres obliques inversées (//).
b
Exécutez à nouveau la commande cluster config.
Configurer le nombre de disques de données par groupe de nœuds
Vous pouvez spécifier le nombre de disques à utiliser pour chaque groupe de nœuds. Cela vous fournit une
méthode plus granulaire pour placer des disques de machine virtuelle sur les disques d'un cluster.
Vous pouvez spécifier le nombre de disques pour chaque groupe de nœuds dans le fichier de spécification
du cluster ou dans le fichier serengeti.properties. La capacité de stockage du nœud est répartie
uniformément entre les disques que vous spécifiez et tous les nœuds de ce groupe utilisent le même point
de montage pour les disques liés. Cela est particulièrement avantageux lorsque vous utilisez
Ambari Manager, car Big Data Extensions peut réduire le nombre de groupes de configuration quand vous
créez un cluster Ambari.
Si vous ne spécifiez pas le nombre de disques à utiliser dans le fichier de spécification du cluster,
Big Data Extensions utilise la valeur spécifiée dans le fichier serengeti.properties. Vous pouvez modifier
cette valeur en changeant les paramètres storage.local.disk_number_per_node ou
storage.shared.disk_number_per_node = 0 et en spécifiant le nombre de disques à utiliser par nœud. Cela
garantit que chaque cluster que vous créez utilisera le même nombre de disques par groupe de nœuds. Par
défaut, le nombre de disques à utiliser par nœud est défini sur 0, valeur qui correspond à la stratégie de
répartition du stockage par défaut. Pour storage.local.disk_number_per_node, une valeur de 0 définit une
stratégie de disque EVEN_SPLIT. Pour storage.shared.disk_number_per_node, une valeur de 0 définit une
stratégie de disque AGGREGATE.
storage.local.disk_number_per_node = 0
storage.shared.disk_number_per_node = 0
Prérequis
n
Déployez le vApp Big Data Extensions. Reportez-vous à « Déployer le vApp Big Data Extensions dans
vSphere Web Client », page 23.
n
Configurez une distribution Hadoop à utiliser avec Big Data Extensions.
n
Créez un cluster. Reportez-vous à Chapitre 9, « Création de clusters Hadoop et HBase », page 99.
Procédure
120
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Ouvrez le fichier de spécification du cluster dont vous souhaitez configurer les disques de nœuds dans
un éditeur de texte.
VMware, Inc.
Chapitre 10 Gestion des clusters Hadoop et HBase
3
Définissez le paramètre diskNum sur le nombre de disques que vous souhaitez utiliser par groupe de
nœuds.
Dans cet exemple, le groupe de nœuds worker a été configuré pour utiliser trois disques de 40 Go de
stockage au total. Les 40 Go sont répartis comme suit entre trois disques de machine virtuelle : 13 Go,
13 Go et 14 Go. Les points de montage des trois disques sont : /mnt/data0, /mnt/data1 et /mnt/data2.
{
"name": "worker",
"roles": [
"hadoop_datanode",
"hadoop_nodemanager"
],
"instanceNum": 2,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"diskNum": 3,
"sizeGB": 40
},
"haFlag": "off",
"configuration": {
"hadoop": {
}
}
}
4
Exécutez la commande cluster create pour créer un cluster avec la spécification de disques par
groupe de nœuds.
cluster create --name cluster_name --specFile file_path/cluster_spec_file_name
Les nœuds du groupe de travail utiliseront alors le nombre de disques spécifié, avec pour répertoires de
points de montage /mnt/data0, /mnt/data1 et /mnt/data2.
Récupérer d'une défaillance disque avec le client d'interface de ligne
de commande Serengeti
Dans le cas d'une défaillance de disque dans un cluster, si le disque ne joue aucun rôle de gestion tel que
NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez récupérer à l'aide la
commande Serengeti cluster fix.
Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des données (configurés
en tant que JBOD). En cas de défaillance de plusieurs disques, le nœud de données Hadoop peut s'éteindre.
Big Data Extensions vous permet de récupérer des défaillances de disque.
Serengeti prend en charge la récupération après un échange ou une défaillance de disque sur toutes les
distributions Hadoop prises en charge. Les disques sont récupérés et démarrés l'un après l'autre pour éviter
la perte temporaire de plusieurs nœuds à la fois. Les nouveaux disques correspondent au type de stockage
et aux stratégies de placement des disques défaillants qu'ils remplacent.
VMware, Inc.
121
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
La distribution MapR ne prend pas en charge la récupération d'une défaillance de disque à l'aide de la
commande cluster fix.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds du cluster, le mot de passe
modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous
avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce
mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de
l'administrateur pour le cluster lorsque vous avez créé le cluster, de nouveaux mots de passe aléatoires sont
utilisés pour les nouveaux nœuds.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande cluster fix.
Le paramètre nodeGroup est facultatif.
cluster fix --name cluster_name --disk [--nodeGroup nodegroup_name]
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de
commande Serengeti
Pour résoudre les problèmes ou exécuter vos scripts d'automatisation de la gestion, connectez-vous aux
nœuds Hadoop master, worker et client via SSH à partir du Serengeti Management Server à l'aide des outils
des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de
passe.
Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion
authentifiée par un nom d'utilisateur et un mot de passe. Tous les nœuds déployés sont protégés par un mot
de passe soit aléatoire, soit défini par l'utilisateur, qui a été attribué lors de la création du cluster.
Prérequis
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine virtuelle
Serengeti Management Server est en cours d'exécution.
Procédure
1
Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et sélectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à
l'invite de commande.
2
Utilisez vSphere Web Client pour vous connecter au nœud Hadoop.
Le mot de passe de l'utilisateur root apparaît sur la console de la machine virtuelle dans
vSphere Web Client.
3
Modifiez le mot de passe du nœud Hadoop en exécutant la commande set-password -u.
sudo /opt/serengeti/sbin/set-password -u
122
VMware, Inc.
Surveillance de l'environnement Big
Data Extensions
11
Vous pouvez surveiller l'état des clusters déployés sur Serengeti, y compris leurs banques de données, leurs
réseaux et leurs pools de ressources à l'aide de l'interface de ligne de commande Serengeti. Vous pouvez
également afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont
également disponibles dans vSphere Web Client.
Ce chapitre aborde les rubriques suivantes :
n
« Activer le collecteur de données Big Data Extensions », page 123
n
« Désactiver le collecteur de données Big Data Extensions », page 124
n
« Afficher l'état d'initialisation du serveur de gestion Serengeti », page 124
n
« Afficher les clusters provisionnés dans vSphere Web Client », page 125
n
« Afficher les informations des clusters dans vSphere Web Client », page 126
n
« Surveiller l'état de HDFS dans vSphere Web Client », page 127
n
« Surveiller le statut MapReduce dans vSphere Web Client », page 128
n
« Surveiller l'état de HBase dans vSphere Web Client », page 129
Activer le collecteur de données Big Data Extensions
Si vous n'avez pas activé le collecteur de données Big Data Extensions lors de l'installation, vous pouvez le
faire ultérieurement. Le programme d'amélioration du produit collecte des données sur l'utilisation des
produits dans votre environnement Big Data Extensions à des fins d'analyse et de résolution des problèmes.
Le collecteur de données recueille quatre types de données, à savoir l'encombrement de
Big Data Extensions, des informations sur le fonctionnement et l'environnement, et des snapshots de
clusters.
Prérequis
n
Lisez la description du programme d'amélioration du produit et décidez si vous souhaitez collecter des
données et les envoyer à VMware afin de contribuer à améliorer l'expérience client dans
Big Data Extensions. Reportez-vous à « Le programme d'amélioration du produit », page 22.
n
Installez Big Data Extensions. Reportez-vous à Chapitre 2, « Installation de Big Data Extensions »,
page 17
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions et cliquez sur l'onglet Gérer.
VMware, Inc.
123
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Dans le volet Programme d'amélioration du produit, cliquez sur Modifier.
La boîte de dialogue Programme d'amélioration du produit s'affiche.
4
Cochez la case Programme d'amélioration du produit.
Suivant
Vous pourrez désactiver le collecteur de données ultérieurement si vous ne souhaitez plus participer au
Programme d'amélioration du produit. Reportez-vous à « Désactiver le collecteur de données Big Data
Extensions », page 124.
Désactiver le collecteur de données Big Data Extensions
Le Programme d'amélioration du produit collecte des données sur l'utilisation des produits dans votre
environnement Big Data Extensions à des fins d'analyse et de résolution des problèmes si nécessaire. Si vous
ne souhaitez pas participer à ce programme, vous pouvez désactiver le collecteur de données de
Big Data Extensions.
Le collecteur de données recueille quatre types de données, à savoir l'encombrement de
Big Data Extensions, des informations sur le fonctionnement et l'environnement, et des snapshots de
clusters. Si vous désactivez le Programme d'amélioration du produit, ces données ne sont pas disponibles
pour le dépannage et la résolution des problèmes.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à Big Data Extensions.
2
Sélectionnez Big Data Extensions et cliquez sur l'onglet Gérer.
3
Dans le volet Programme d'amélioration du produit, cliquez sur Modifier.
La boîte de dialogue Programme d'amélioration du produit s'affiche.
4
Décochez la case Activer le programme d'amélioration du produit.
Suivant
Vous pourrez activer le collecteur de données ultérieurement si vous souhaitez participer au Programme
d'amélioration du produit. Reportez-vous à « Activer le collecteur de données Big Data Extensions »,
page 123.
Afficher l'état d'initialisation du serveur de gestion Serengeti
Vous pouvez afficher l'état d'initialisation des services du serveur de gestion Serengeti, consulter les
messages d'erreur pour résoudre les problèmes et restaurer les services qui ont pu rencontrer des problèmes
de démarrage.
Big Data Extensions peut rencontrer des problèmes de démarrage pour de nombreuses raisons. Le portail
d'administration du serveur de gestion Serengeti vous permet d'afficher l'état d'initialisation des services
Serengeti, de consulter les messages d'erreur de chaque service pour résoudre les problèmes et de restaurer
les services qui ont pu rencontrer des problèmes de démarrage.
Prérequis
124
n
Assurez-vous de connaître l'adresse IP du serveur de gestion Serengeti auquel vous voulez vous
connecter.
n
Assurez-vous de disposer des informations d'identification de connexion de l'utilisateur root du
serveur de gestion Serengeti.
VMware, Inc.
Chapitre 11 Surveillance de l'environnement Big Data Extensions
Procédure
1
Ouvrez un navigateur Web et accédez à l'URL du portail d'administration du serveur de gestion
Serengeti.
https://management-server-ip-address:5480
2
Tapez root pour le nom d'utilisateur, tapez le mot de passe, puis cliquez sur Connexion.
3
Cliquez sur l'onglet Résumé.
Les services du serveur de gestion Serengeti et leur état de fonctionnement s'affichent sur la page
Résumé.
4
Effectuez l'une des opérations suivantes.
Option
Description
Afficher l'état d'initialisation
Cliquez sur Details (Détails). La boîte de dialogue Serengeti Server Setup
(Configuration du serveur Serengeti) vous permet de consulter l'état
d'initialisation du serveur de gestion Serengeti. En cas d'échec de
l'initialisation du serveur de gestion Serengeti, un message d'erreur
contenant des informations de dépannage s'affiche. Une fois les problèmes
résolus, un bouton Retry (Réessayer) vous permet de redémarrer le service
concerné.
Afficher les services du serveur
Chef
Cliquez sur Chef Server (Serveur Chef) dans l'arborescence pour
développer la liste des services Chef.
Restauration d'un service après un
arrêt ou un échec
Cliquez sur Recover (Restaurer) pour redémarrer un service après un arrêt
ou un échec. Si un service échoue en raison d'une erreur de configuration,
vous devez d'abord résoudre le problème à l'origine de l'échec avant de
pouvoir restaurer le service.
Actualiser
Cliquez sur Refresh (Actualiser) pour mettre à jour les informations
affichées sur la page Résumé.
Suivant
En cas d'erreur, les rubriques de dépannage fournissent des solutions aux problèmes que vous pouvez
rencontrer lors de l'utilisation de Big Data Extensions. Reportez-vous à Chapitre 14, « Dépannage »,
page 141.
Afficher les clusters provisionnés dans vSphere Web Client
Vous pouvez afficher les clusters déployés dans Big Data Extensions, notamment les informations indiquant
si le cluster est en cours d'exécution, le type de distribution Hadoop utilisée par un cluster et le nombre et le
type de nœuds du cluster.
Prérequis
n
Créez un ou plusieurs clusters dont vous pouvez afficher les informations.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Sélectionnez Clusters Big Data.
Les informations sur tous les clusters provisionnés figurent dans le panneau droit.
VMware, Inc.
125
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 11‑1. Informations de cluster
Option
Description
Nom
Nom du cluster.
État
État du cluster.
Distribution
Distribution Hadoop utilisée par le cluster.
Mode élasticité
Mode élasticité utilisé par le cluster.
Partages d'E/S
disque
Partages d'E/S disque utilisés par le cluster.
Ressources
Pool de ressources ou cluster vCenter Server utilisé par le cluster Big Data.
Géré par
Gestionnaire d'applications qui gère le cluster.
Informations
Nombre et type de nœuds du cluster.
Progression
Messages d'état des actions exécutées sur le cluster.
Afficher les informations des clusters dans vSphere Web Client
Utilisez vSphere Web Client pour afficher les machines virtuelles exécutant chaque nœud, l'attribution des
ressources, les adresses IP et les informations de stockage de chaque nœud dans le cluster Hadoop.
Prérequis
n
Créez un ou plusieurs clusters Hadoop.
n
Démarrez le cluster Hadoop.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Cliquez sur un cluster Big Data.
Les informations au sujet du cluster apparaissent dans le panneau droit, dans l'onglet Nœuds.
Tableau 11‑2. Informations de cluster
126
Colonne
Description
Groupe de nœuds
Répertorie par type tous les nœuds du cluster.
Nom de VM
Nom de la machine virtuelle sur laquelle un nœud est en cours d'exécution.
Réseau de gestion
Adresse IP de la machine virtuelle.
Hôte
Nom d'hôte, adresse IP ou nom de domaine complet (FQDN) de l'hôte ESXi sur lequel la
machine virtuelle fonctionne.
VMware, Inc.
Chapitre 11 Surveillance de l'environnement Big Data Extensions
Tableau 11‑2. Informations de cluster (suite)
5
Colonne
Description
État
La machine virtuelle signale les types d'état suivants :
n N'existe pas. État avant la création d'une instance de machine virtuelle dans vSphere.
n Sous tension. La machine virtuelle est sous tension après la configuration des disques
virtuels et du réseau.
n MV Prête. Une machine virtuelle démarre et l'IP est prête.
n Service Prêt. Les services de la machine virtuelle ont été provisionnés.
n Échec de lancement. Les services de la machine virtuelle n'ont pas été provisionnés.
n Hors tension. La machine virtuelle est hors tension.
n Alerte de service. Un problème critique est signalé pour les services de la machine
virtuelle.*
n Service en mauvais état. Un problème d'état est signalé pour les services de la machine
virtuelle.*
* Vérifiez les informations dans le gestionnaire d'applications correspondant.
Tâche
État des opérations Serengeti en cours.
Dans l'onglet Nœuds, sélectionnez un groupe de nœuds.
Les informations sur le groupe de nœuds figurent dans le panneau de détails des nœuds de l'onglet
Nœuds.
Tableau 11‑3. Détail des nœuds du cluster
Champ
Description
Groupe de nœuds
Nom du groupe de nœuds sélectionné.
Nom de VM
Nom de la machine virtuelle du groupe de nœuds.
Réseau de gestion
Réseau utilisé pour le trafic de gestion.
Réseau HDFS
Réseau utilisé pour le trafic de HDFS.
Réseau MapReduce
Réseau utilisé pour le trafic de MapReduce.
Hôte
Nom d'hôte, adresse IP ou nom de domaine complet
(FQDN) de l'hôte ESXi sur lequel la machine virtuelle
fonctionne.
vCPU
Nombre de CPU virtuels attribués au nœud.
RAM
Quantité de RAM utilisée par le nœud.
REMARQUE La taille de la RAM qui apparaît pour chaque
nœud indique la RAM attribuée, et non la RAM utilisée.
Stockage
Quantité de stockage attribuée à la machine virtuelle
exécutant le nœud.
Erreur
Indique un échec de nœud.
Surveiller l'état de HDFS dans vSphere Web Client
Lorsque vous configurez une distribution Hadoop à utiliser avec Big Data Extensions, le logiciel Hadoop
inclut Hadoop Distributed File System (HDFS). Vous pouvez surveiller la santé et l'état de HDFS à partir de
vSphere Web Client. La page HDFS vous permet de parcourir le système de fichier Hadoop, d'afficher les
fichiers journaux NameNode et de consulter les informations des clusters, notamment les informations sur
les nœuds vivants, morts et hors service et sur le stockage NameNode.
HDFS est le principal stockage distribué utilisé par les applications Hadoop. Un cluster HDFS se compose
d'un NameNode qui gère les métadonnées du système de fichier et de DataNodes qui stockent les données
réelles.
VMware, Inc.
127
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Prérequis
n
Créez un ou plusieurs clusters Hadoop.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Sélectionnez le cluster dont vous souhaitez consulter l'état HDFS, dans l'onglet Big Data Cluster List
(Liste des clusters Big Data).
5
Sélectionnez Ouvrir la page d'état HDFS dans le menu Actions.
Les informations sur l'état HDFS apparaissent sur une nouvelle page Web.
REMARQUE Si vous utilisez Big Data Extensions dans un environnement vCenter Server avec IPv6, le
vSphere Web Client ne peut pas accéder à la page d'état HDFS, qui utilise l'adresse IPv4. Pour afficher
la page d'état HDFS, ouvrez un navigateur Web et accédez à l'URL qui s'affiche dans le message
d'erreur lorsque vous essayez d'accéder à la page d'état comme indiqué dans cette procédure.
Surveiller le statut MapReduce dans vSphere Web Client
Le logiciel Hadoop inclut MapReduce, un cadriciel destiné au traitement des données distribuées. Vous
pouvez surveiller le statut MapReduce vSphere Web Client. La page Web de MapReduce contient des
informations au sujet de la programmation et l'exécution de tâches, des tâches terminées et des fichiers
journaux.
Prérequis
n
Créez un ou plusieurs clusters Hadoop dont vous pouvez surveiller le statut MapReduce.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Sélectionnez le cluster dont vous souhaitez consulter le statut MapReduce, dans l'onglet Big Data
Cluster List (Liste des clusters Big Data).
5
Sélectionnez Open MapReduce Status Page (Ouvrir la page du statut MapReduce) dans le menu
Actions.
Les informations sur le statut MapReduce apparaissent sur une nouvelle page Web.
REMARQUE Si vous utilisez Big Data Extensions dans un environnement vCenter Server avec IPv6,
vSphere Web Client ne peut pas accéder à la page du statut MapReduce, qui utilise l'adresse IPv4. Pour
afficher la page du statut MapReduce, ouvrez un navigateur Web et accédez à l'URL qui s'affiche dans
le message d'erreur lorsque vous essayez d'accéder à la page de statut comme indiqué dans cette
procédure.
128
VMware, Inc.
Chapitre 11 Surveillance de l'environnement Big Data Extensions
Surveiller l'état de HBase dans vSphere Web Client
HBase est la base de données Hadoop. Vous pouvez surveiller la santé et l'état de votre cluster HBase ainsi
que les tableaux qu'il héberge, à partir de vSphere Web Client.
Prérequis
Créez un ou plusieurs clusters HBase.
Procédure
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Sélectionnez Big Data Extensions.
3
Dans la liste d'inventaire, sélectionnez Clusters Big Data.
4
Dans l'onglet Big Data Cluster List (Liste des clusters Big Data), sélectionnez le cluster dont vous
souhaitez voir l'état HBase.
5
Dans le menu Actions, sélectionnez Ouvrir la page d'état HBase.
Les informations sur l'état HBase apparaissent sur une nouvelle page Web.
REMARQUE Si vous utilisez Big Data Extensions dans un environnement vCenter Server avec IPv6, le
vSphere Web Client ne peut pas accéder à la page d'état HBase, qui utilise l'adresse IPv4. Pour afficher
la page d'état HBase, ouvrez un navigateur Web et accédez à l'URL qui s'affiche dans le message
d'erreur lorsque vous essayez d'accéder à la page d'état comme indiqué dans cette procédure.
VMware, Inc.
129
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
130
VMware, Inc.
Accès aux données Hive avec JDBC
ou ODBC
12
Vous pouvez exécuter les requêtes Hive à partir de l'application Java Database Connectivity (JDBC) ou
Open Database Connectivity (ODBC) en utilisant les pilotes JDBC et ODBC de Hive.
Vous pouvez accéder aux données depuis Hive à l'aide de JDBC ou d'ODBC.
Pilote JDBC de Hive
Hive fournit un pilote JDBC de Type 4 (pure Java), défini dans la classe
org.apache.hadoop.hive.jdbc.HiveDriver. Lorsqu'elle est configurée avec un JDBC URI de forme
jdbc:hive://host:port/dbname, une application Java peut se connecter à un serveur Hive fonctionnant sur
l'hôte et le port indiqués. Le pilote émet des appels vers une interface intégrée par Hive Thrift Client à l'aide
des liaisons Java Thrift.
Si vous le souhaitez, vous pouvez vous connecter à Hive via JDBC en mode embarqué à l'aide de l'URI
jdbc:hive://. En mode embarqué, Hive exécute dans le même JVM que l'application qu'il appelle. Vous
n'avez pas besoin de le lancer comme serveur autonome, car il n'utilise pas le service Thrift ou Hive Thrift
Client.
Pilote ODBC de Hive
Le pilote ODBC de Hive permet aux applications qui prennent en charge le protocole ODBC de se connecter
à Hive. Tout comme le pilote JDBC, le pilote ODBC utilise Thrift pour communiquer avec le serveur Hive.
Ce chapitre aborde les rubriques suivantes :
n
« Configurer Hive pour travailler avec JDBC », page 131
n
« Configurer Hive pour travailler avec ODBC », page 133
Configurer Hive pour travailler avec JDBC
Le pilote JDBC de Hive vous permet d'accéder à Hive à partir d'un programme Java que vous avez écrit ou
d'une application Business Intelligence ou similaire qui utilise JDBC pour communiquer avec les produits de
base de données.
Le port JDBC 2.0 par défaut est 21050. Hive accepte les connexions JDBC via le port 21050 par défaut.
Vérifiez que le port est disponible pour communiquer avec les autres hôtes de votre réseau. Par exemple,
vérifiez que le port n'est pas bloqué par le logiciel pare-feu.
Prérequis
Vous devez avoir une application capable d'utiliser le pilote JDBC de Hive pour vous connecter à un serveur
Hive.
VMware, Inc.
131
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au nœud du serveur
Hive.
2
Créez le fichier HiveJdbcClient.java avec le code Java pour vous connecter au serveur Hive.
import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;
public class HiveJdbcClient {
private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
/**
* @param args
* @throws SQLException
**/
public static void main(String[] args) throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e){
// TODO Auto-generated catch block
e.printStackTrace();
System.exit(1);
}
Connection con = DriverManager.getConnection("jdbc:hive://localhost:10000/default",
"", "");
Statement stmt = con.createStatement();
String tableName = "testHiveDriverTable";
stmt.executeQuery("drop table " + tableName);
ResultSet res = stmt.executeQuery("create table " + tableName + " (key int, value
string)");
// show tables
String sql = "show tables '" + tableName + "'";
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
if (res.next()) {
System.out.println(res.getString(1));
}
// describe table
sql = "describe " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
// load data into table
// NOTE: filepath has to be local to the hive server
// NOTE: /tmp/test_hive_server.txt is a ctrl-A separated file with two fields per
line
String filepath = "/tmp/test_hive_server.txt";
sql = "load data local inpath '" + filepath + "' into table " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
// select * query
sql = "select * from " + tableName;
132
VMware, Inc.
Chapitre 12 Accès aux données Hive avec JDBC ou ODBC
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()){
System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
}
// regular hive query
sql = "select count(1) from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()){
System.out.println(res.getString(1));
}
}
}
3
Exécutez le code JDBC en utilisant l'une des méthodes suivantes.
u
Exécutez la commande javac en identifiant le code Java contenant le code JDBC.javac
HiveJdbcClient.java
u
Exécutez un script shell pour alimenter le fichier de données, définissez le classpath et appelez le
client JDBC.
L'exemple ci-dessous utilise la distribution Apache Hadoop 1.1.2. Si vous utilisez une autre distribution
Hadoop, vous devez mettre à jour la valeur de la variable HADOOP_CORE pour la faire correspondre à la
version de la distribution que vous utilisez.
#!/bin/bash
HADOOP_HOME=/usr/lib/hadoop
HIVE_HOME=/usr/lib/hive
echo -e '1\x01foo' > /tmp/test_hive_server.txt
echo -e '2\x01bar' >> /tmp/test_hive_server.txt
HADOOP_CORE=`ls /usr/lib/hadoop-1.1.2/hadoop-core-*.jar`
CLASSPATH=.:$HADOOP_CORE:$HIVE_HOME/conf
for jar_file_name in ${HIVE_HOME}/lib/*.jar
do
CLASSPATH=$CLASSPATH:$jar_file_name
done
java -cp $CLASSPATH HiveJdbcClient
Les deux méthodes permettent d'établir une connexion JDBC avec le serveur Hive à l'aide des informations
de l'hôte et du port que vous indiquez dans l'application Java ou le script shell.
Configurer Hive pour travailler avec ODBC
Le pilote ODBC de Hive vous permet d'accéder à Hive à partir d'un programme que vous avez écrit ou
d'une application Business Intelligence ou similaire qui utilise ODBC pour communiquer avec les produits
de base de données.
Pour accéder aux données de Hive à l'aide d'ODBC, utilisez le pilote ODBC recommandé pour l'utilisation
avec votre distribution Hadoop.
Prérequis
n
Vérifiez que le pilote ODBC de Hive prend en charge l'application ou le produit tiers que vous
souhaitez utiliser.
n
Téléchargez un connecteur ODBC approprié et configurez-le pour pouvoir l'utiliser avec votre
environnement.
n
Configurer un nom de source de données (DSN)
VMware, Inc.
133
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Les DSN indiquent comment l'application se connecte à Hive ou à d'autres produits de base de
données. Consultez la documentation de votre application pour savoir comment elle se connecte à Hive
ou à d'autres produits de base de données à l'aide d'ODBC.
Procédure
1
Ouvrez l'administrateur de source de données d'ODBC dans le menu Démarrer de Windows.
2
Cliquez sur l'onglet System DSN (DSN système), puis sur Ajouter.
3
Sélectionnez le pilote ODBC que vous souhaitez utiliser avec votre distribution Hadoop, puis cliquez
sur Finish (Terminer).
4
Saisissez les valeurs dans les champs suivants.
Option
Description
Nom de la source de données
Saisissez un nom qui servira à identifier le DSN.
Hôte
Nom d'hôte complet ou adresse IP du nœud exécutant le service Hive.
Port
Numéro de port du service Hive. Le niveau par défaut est 21000.
Type de serveur Hive
Définissez sur HiveServer1 ou HiveServer2.
Authentification
Si vous utilisez Hiveserver2, indiquez les informations suivantes.
Mécanisme. Définissez sur le nom d'utilisateur.
n Nom d'utilisateur. Nom d'utilisateur servant à exécuter les requêtes
Hive.
n
5
Cliquez sur OK.
6
Cliquez sur Test pour tester la connexion ODBC.
7
Après avoir vérifié que la connexion marche, cliquez sur Finish (Terminer).
Le nouveau connecteur ODBC apparaît dans la liste User Data Sources (Sources de données
d'utilisateur).
Suivant
Configurez l'application pour travailler avec le service Hive de votre distribution Hadoop. Consultez la
documentation de votre application pour savoir comment elle se connecte à Hive ou à d'autres produits de
base de données à l'aide d'ODBC.
134
VMware, Inc.
13
Référence de sécurité Big Data
Extensions
Utilisez la référence de sécurité pour connaître les fonctions de sécurité de votre installation
Big Data Extensions et les mesures que vous pouvez prendre pour protéger votre environnement des
attaques.
n
Services, ports réseau et interfaces externes page 135
Le fonctionnement de Big Data Extensions dépend de certains services, ports et interfaces externes.
n
Fichiers de configuration de Big Data Extensions page 138
Certains fichiers de configuration de Big Data Extensions contiennent des paramètres qui peuvent
affecter la sécurité de votre environnement.
n
Clé publique, certificat et KeyStore Big Data Extensions page 138
La clé publique, le certificat et le Keystore Big Data Extensions se situent sur le
Serengeti Management Server.
n
Fichiers journaux Big Data Extensions page 138
Les fichiers contenant des messages système sont situés sur le Serengeti Management Server
n
Comptes d'utilisateurs Big Data Extensions page 139
Vous devez configurer un compte d'utilisateur administratif et un compte d'utilisateur racine pour
administrer Big Data Extensions.
n
Correctifs et mises à jour de sécurité page 140
Vous pouvez appliquer des correctifs et des mises à jour de sécurité dès qu'ils sont publiés par
VMware ou les fournisseurs de systèmes d'exploitation et de distributions Hadoop.
Services, ports réseau et interfaces externes
Le fonctionnement de Big Data Extensions dépend de certains services, ports et interfaces externes.
Services Big Data Extensions
Le fonctionnement de Big Data Extensions dépend de plusieurs services qui s'exécutent sur le vApp
Big Data Extensions.
Tableau 13‑1. Services Big Data Extensions
Nom des services
Type démarrage
Description
HTTP
Automatique
Accès à distance sécurisé à la console
du serveur Web Apache.
sshd
Automatique
Accès à distance sécurisé à la console.
VMware, Inc.
135
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Tableau 13‑1. Services Big Data Extensions (suite)
Nom des services
Type démarrage
Description
rsyslog
Automatique
Le service rsyslog est un démon
syslog multithread amélioré
Tomcat
Automatique
Tomcat Server qui exécute le service
Web Big Data Extensions
Thrift Service
Automatique
Courtier de communication entre le
service Web Big Data Extensions et le
processus knife du serveur Chef.
Chef Server
Automatique
Chef est un outil et une infrastructure
de gestion des configurations open
source. Le Chef Server est le principal
composant de l'infrastructure Chef.
Nginx
Automatique
Nginx fait partie du Chef Server et
joue le rôle de proxy pour la gestion
de toutes les requêtes envers l'API
Chef Server .
Postgres
Automatique
Le serveur de base de données est
utilisé par le Chef Server et le service
Web Big Data Extensions.
Ports de communication Big Data Extensions
Big Data Extensions utilise plusieurs ports et protocoles de communication.
Le tableau ci-dessous indique les ports à l'écoute du Serengeti Management Server (également appelé
serveur de gestion Big Data Extensions) pour toutes les adresses réseau locales et externes.
Tableau 13‑2. Services et ports réseau Serengeti Management Server
Nom du service
Ports
Protocole
Écouter sur le port local ?
httpd
433/TCP
HTTP
Non
sshd
22/TCP
SSH
Non
Tomcat
8080/TCP, 8443/TCP
HTTP, HTTPS
Non
nginx
9080/TCP, 9443/TCP
HTTP, HTTPS
Non
Service Thrift
9090
TCP
Oui
postgres
5432
Postgres
Oui
Ports de communication de nœuds HBase et Hadoop Big Data Extensions
Big Data Extensions déploie des clusters Hadoop et HBase qui utilisent leurs ports par défaut pour les
nœuds de cluster qu'ils déploient.
Tableau 13‑3. Ports utilisés par les clusters Hadoop créés avec Big Data Extensions
Nom du service
Nom du démon
Ports
Protocole
HDFS
Page Web NameNode
50070/TCP
HTTP
RPC NameNode
8020/TCP
RPC
DataNode
50075/TCP, 50010/TCP,
50020/TCP
RPC
Page Web JobTracker
50030/TCP
HTTP
RPC JobTracker
8021/TCP
RPC
MapReduce
136
VMware, Inc.
Chapitre 13 Référence de sécurité Big Data Extensions
Tableau 13‑3. Ports utilisés par les clusters Hadoop créés avec Big Data Extensions (suite)
Nom du service
Yarn
Hive
Nom du démon
Ports
Protocole
TaskTracker
50060/TCP
RPC
Page Web du gestionnaire
de ressources
8088/TCP
HTTP
RPC du gestionnaire de
ressources
8030/TCP, 8031/TCP,
8032/TCP, 8033/TCP
RPC
NodeManager
8040/TCP, 8042/TCP
RPC
Hive Server
10000/TCP
RPC
Tableau 13‑4. Ports utilisés par les clusters HBase créés avec Big Data Extensions
Nom du service
Ports
Protocole
Zookeeper
2181/TCP
Zookeeper
HBase Master
60000/TCP, 60010/TCP
RPC
HBase RegionServer
60020/TCP, 60030/TCP
RPC
Service Thrift HBase
9090/TCP, 9095/TCP
RPC
Service REST HBase
8080/TCP, 8085/TCP
HTTP
Tableau 13‑5. Ports utilisés par les clusters MapR créés avec Big Data Extensions
Nom du service
Ports
CLDB
7222
Port de surveillance CLDB JMX
7220
Port Web CLDB
7221
HBase Master
60000
HBase Master (pour la GUI)
60010
HBase RegionServer
60020
Hive Metastore
9083
Page Web JobTracker
50030
RPC JobTracker
8021
Serveur MFS
5660
MySQL
3306
NFS
2049
Contrôle NFS (pour la HA)
9997
Gestion NFS
9998
Dispositif de mappage des ports
111
TaskTracker
50060
HTTPS de l'UI Web
8443
Zookeeper
5180
VMware, Inc.
Protocole
RPC
137
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Fichiers de configuration de Big Data Extensions
Certains fichiers de configuration de Big Data Extensions contiennent des paramètres qui peuvent affecter la
sécurité de votre environnement.
Fichiers de configuration de Big Data Extensions contenant des ressources
liées à la sécurité
Toutes les ressources liées à la sécurité sont accessibles à partir des comptes d'utilisateurs serengeti et
racine. Pour la sécurité de Big Data Extensions, il est essentiel de protéger ces comptes d'utilisateurs.
Tableau 13‑6. Fichiers de configuration contenant des ressources liées à la sécurité
Fichier
Description
/opt/serengeti/tomcat/conf/server.xml
Fichier de configuration pour le serveur Tomcat, qui
contient les ports réseau et les emplacements et mots de
passe des fichiers KeyStore SSL.
/opt/serengeti/conf/vc.properties
Fichier de configuration KeyStore pour le service Web
Big Data Extensions.
/var/opt/opscode/nginx/etc/nginx.conf
Fichier de configuration pour le serveur Web Nginx, qui
inclut les ports réseau et les informations sur le certificat.
/etc/httpd/conf.d/ssl.conf
Fichier de configuration pour le serveur Web httpd.
Clé publique, certificat et KeyStore Big Data Extensions
La clé publique, le certificat et le Keystore Big Data Extensions se situent sur le
Serengeti Management Server.
Toutes les ressources liées à la sécurité sont accessibles à partir des comptes d'utilisateurs serengeti et
racine. Pour la sécurité de Big Data Extensions, il est essentiel de protéger ces comptes d'utilisateurs.
Tableau 13‑7. Clé publique, certificat et KeyStore Big Data Extensions
Emplacement du fichier
VMware
/opt/serengeti/.certs/
Tomcat
/var/opt/opscode/nginx/ca/
Nginx
/etc/pki/tls/private/
httpd
/etc/pki/tls/certs/
httpd
Fichiers journaux Big Data Extensions
Les fichiers contenant des messages système sont situés sur le Serengeti Management Server
Big Data Extensions utilise les fichiers journaux suivants pour suivre et enregistrer les messages système et
les événements. Les fichiers journaux sont situés sur le Serengeti Management Server et sur le serveur Chef.
Tableau 13‑8. Fichiers journaux Big Data Extensions
138
Fichier
Description
/opt/serengeti/logs/serengeti.log
Suit et enregistre les événements pour le service Web
Big Data Extensions.
/opt/serengeti/logs/ironfan.log
Suit et enregistre les événements lors du provisionnement
de nouveaux clusters à l'aide du gestionnaire
d'applications par défaut.
VMware, Inc.
Chapitre 13 Référence de sécurité Big Data Extensions
Tableau 13‑8. Fichiers journaux Big Data Extensions (suite)
Fichier
Description
/opt/serengeti/logs/serengeti-boot.log
Suit et enregistre les événements lors du démarrage du
serveur Big Data Extensions.
/opt/serengeti/logs/serengeti-upgrade.log
Suit et enregistre les événements lors de la mise à niveau
de Big Data Extensions et des nœuds de cluster.
/opt/serengeti/logs/provision-hook.log
Suit et enregistre les événements lors de l'exécution de
hooks pendant le provisionnement du cluster.
sudo chef-server-ctl tail
Pour suivre les fichiers journaux du serveur Chef, exécutez
la commande tail sur le service chef-server-ctl .
Messages de journaux liés à la sécurité
Big Data Extensions ne fournit pas de messages journaux liés à la sécurité.
Comptes d'utilisateurs Big Data Extensions
Vous devez configurer un compte d'utilisateur administratif et un compte d'utilisateur racine pour
administrer Big Data Extensions.
Compte d'utilisateur racine Big Data Extensions
Le mot de passe racine du Serengeti Management Server est généré aléatoirement lorsque vous mettez le
vApp Big Data Extensions sous tension pour la première fois. Le mot de passe est visible dans la console de
la machine virtuelle de Big Data Extensions dans vSphere Web Client.
Le mot de passe des nœuds Big Data Extensions dans un cluster est généré aléatoirement lors de la création
du cluster ou spécifié par l'utilisateur avant sa création.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Uniquement les caractères ASCII inférieurs visibles (pas d'espaces)
Compte d'utilisateur administratif Big Data Extensions
L'utilisateur administratif Big Data Extensions est le compte d'utilisateur serengeti, qui dispose de
privilèges sudo. Le mot de passe utilisateur serengeti est identique à celui de l'utilisateur racine. Vous
pouvez modifier le mot de passe en exécutant la commande sudo /opt/serengeti/sbin/set-password -u
sur le Serengeti Management Server.
Vous pouvez spécifier le mot de passe de l'utilisateur serengeti en exécutant la commande passwd
serengeti. Le mot de passe de l'utilisateur serengeti peut être différent de celui attribué à l'utilisateur
racine.
Pour gérer Big Data Extensions, vous devez vous connecter au Serengeti Management Server en tant
qu'utilisateur serengeti. Une fois que vous êtes connecté en tant qu'utilisateur serengeti, vous pouvez
apporter des modifications au compte d'utilisateur racine si nécessaire.
Prise en charge d'Active Directory et d'OpenLDAP
Big Data Extensions prend en charge l'intégration avec Active Directory et OpenLDAP. Lorsqu'ils sont
configurés pour fonctionner avec Active Directory ou OpenLDAP, le Serengeti Management Server et les
nœuds du cluster peuvent authentifier ou autoriser les utilisateurs en fonction de votre répertoire utilisateur
Active Directory ou OpenLDAP.
VMware, Inc.
139
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Correctifs et mises à jour de sécurité
Vous pouvez appliquer des correctifs et des mises à jour de sécurité dès qu'ils sont publiés par VMware ou
les fournisseurs de systèmes d'exploitation et de distributions Hadoop.
Versions du système d'exploitation Big Data Extensions
Big Data Extensions utilise les systèmes d'exploitation et versions suivants.
n
Le dispositif virtuel Big Data Extensions utilise CentOS 6.7 (x86_64) et CentOS 6.7 (x86_64) en tant que
systèmes d'exploitation invités.
n
Serengeti Management Server utilise CentOS 6.7.
n
Les nœuds du cluster Big Data Extensions utilisent CentOS 6.7.
Application des correctifs et des mises à jour de sécurité
Pour appliquer des correctifs et des mises à jour de sécurité, utilisez les procédures de mise à niveau
classiques. Par exemple, utilisez la mise à niveau Yum ou RPM. Reportez-vous à Chapitre 3, « Mise à niveau
de Big Data Extensions », page 35.
140
VMware, Inc.
Dépannage
14
Les rubriques de dépannage apportent des solutions aux problèmes susceptibles de se produire lors de
l'utilisation de Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
« Fichiers journaux pour le dépannage », page 142
n
« Configurer les niveaux de journalisation Serengeti », page 142
n
« Collecter les fichiers journaux à des fins de dépannage », page 143
n
« Résolution des échecs de création d'un cluster », page 144
n
« La mise à niveau du dispositif virtuel de Big Data Extensions échoue. », page 150
n
« Erreur de mise à niveau du cluster lors de l'utilisation du cluster créé dans une version antérieure de
Big Data Extensions », page 151
n
« Impossible de connecter le plug-in Big Data Extensions au serveur Serengeti », page 152
n
« Les connexions à vCenter Server échouent. », page 152
n
« Le serveur de gestion ne peut pas se connecter à vCenter Server », page 153
n
« Erreur de certificat SSL lors de la connexion à un serveur autre que Serengeti avec la console
vSphere », page 153
n
« Impossible de redémarrer ou de reconfigurer un cluster pour lequel l'heure n'est pas synchronisée »,
page 153
n
« Impossible de redémarrer ou de reconfigurer un cluster après la modification de sa distribution »,
page 154
n
« La machine virtuelle ne peut pas obtenir d'adresse IP et la commande échoue. », page 154
n
« Impossible de modifier l'adresse IP du serveur Serengeti dans vSphere Web Client », page 155
n
« Une nouvelle instance de plug-in avec un numéro de version identique ou antérieure à une instance
de plug-in précédente ne se charge pas. », page 155
n
« Le nom d'hôte et le FQDN ne correspondent pas pour le serveur de gestion Serengeti. », page 156
n
« Les opérations de Serengeti échouent après que vous ayez renommé une ressource dans vSphere. »,
page 157
n
« Big Data Extensions Le serveur refuse les noms de ressource comptant au moins deux espaces blancs
à la suite. », page 157
n
« Les caractères non ASCII ne s'affichent pas correctement. », page 157
n
« L'exécution de la tâche MapReduce échoue et n'apparaît pas dans l'historique des tâches. », page 158
VMware, Inc.
141
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
n
« Impossible d'envoyer des tâches MapReduce pour les clusters de calcul uniquement avec l'HDFS
Isilon externe », page 158
n
« La tâche MapReduce ne répond plus sur un cluster PHD ou CDH4 YARN. », page 159
n
« Impossible de télécharger le paquet à l'aide du plug-in Downloadonly », page 159
n
« Impossible de trouver des paquets avec la recherche Yum », page 159
n
« Supprimer HBase Rootdir dans HDFS avant de supprimer le cluster uniquement HBase », page 160
Fichiers journaux pour le dépannage
Big Data Extensions et Serengeti créent des fichiers journaux qui procurent des informations système et des
informations d'état pouvant servir à résoudre les problèmes de déploiement et de fonctionnement.
Tableau 14‑1. Journaux
Catégorie
Nom de fichier
Informations
Emplacement
Journal de démarrage de
l'application virtuelle
Serengeti
n
serengeti-boot.log
Messages de délai de
déploiement, que vous
pouvez utiliser pour
résoudre un problème de
déploiement.
/opt/serengeti/logs
Journal de service du
serveur Serengeti
n
serengeti.log
Fichiers journaux de
composants du service
Web.
/opt/serengeti/logs
Journal d'installation et de
configuration du serveur
Serengeti
n
ironfan.log
Informations d'installation
et de configuration de
logiciel.
/opt/serengeti/logs
Fichiers journaux de VMware vSphere ESXi et vCenter Server
En plus des fichiers journaux Big Data Extensions et Serengeti, vSphere ESXi et vCenter Server créent des
fichiers journaux qui fournissent des informations système et des informations d'état pouvant servir à
résoudre les problèmes de déploiement et de fonctionnement.
Si vous rencontrez des messages d'erreur commençant par la formule Échec d'exécution de la commande
vCenter Server :, vérifiez vos fichiers journaux vSphere ESXi et vCenter Server pour obtenir plus
d'informations utiles au dépannage. Vous pouvez voir les fichiers journaux de plusieurs façons selon qu'ils
sont destinés à vCenter Server ou à un hôte ESXi. Reportez-vous à la documentation de VMware vSphere
ESXi et vCenter Server pour connaître la version de vos produits ESXi et vCenter Server
Configurer les niveaux de journalisation Serengeti
Les tâches système et principales de Serengeti utilisent Apache log4j, avec le niveau de journalisation par
défaut INFO, pour consigner les messages. Vous pouvez configurer le niveau de journalisation pour
personnaliser la quantité et le type d'informations affichés dans les journaux du système et des événements.
Le fait d'activer la journalisation à un niveau donné permet également d'activer la journalisation à tous les
niveaux supérieurs.
Les niveaux sont les suivants (dans l'ordre décroissant) :
142
n
GRAVE (valeur la plus élevée)
n
AVERTISSEMENT
n
INFO
n
CONFIG
VMware, Inc.
Chapitre 14 Dépannage
n
FIN
n
PLUS FIN
n
LE PLUS FIN (valeur la plus faible)
Il existe également un niveau DÉSACTIVÉ qui permet de désactiver la journalisation, et un niveau TOUS
permettant d'activer la journalisation de tous les messages.
Procédure
1
Ouvrez le fichier /opt/serengeti/conf/log4j.properties pour le modifier.
2
Modifier le niveau de journalisation.
3
Enregistrez les modifications et fermez le fichier.
4
Arrêtez et redémarrez les services Serengeti.
Collecter les fichiers journaux à des fins de dépannage
Vous pouvez collecter des fichiers journaux sur le Serengeti Management Server ou sur les nœuds d'un
cluster pour vous aider, ainsi que l'équipe de support VMware, à résoudre les problèmes.
Si vous indiquez le nom d'un cluster dans la commande, les fichiers journaux suivants sont collectés sur
chaque nœud du cluster spécifié.
n
/var/log/hadoop
n
/var/log/hbase
n
/var/log/zookeeper
n
/var/log/gphd
n
/opt/mapr/logs
n
/opt/mapr/hadoop/hadoop/logs
n
/var/chef/cache/chef-stacktrace.out
Si vous n'indiquez aucun nom de cluster dans la commande, les fichiers journaux suivants sont collectés sur
le Serengeti Management Server.
n
/opt/serengeti/logs
n
/opt/serengeti/conf
n
/var/log/messages
REMARQUE Les fichiers journaux qui sont collectés sur chaque nœud ou sur le Serengeti Management Server
sont configurés dans les fichiers /opt/serengeti/etc/support/cluster.files
et /opt/serengeti/etc/support/serengeti.files, respectivement. Pour changer les fichiers journaux à
collecter, modifiez le fichier FILES applicable.
Procédure
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Remplacez le répertoire par celui dans lequel vous souhaitez stocker les fichiers journaux.
3
Exécutez le script serengeti-support.sh.
serengeti-support.sh cluster_name
Big Data Extensions collecte les fichiers journaux et les enregistre dans un fichier .tar unique dans le
répertoire Serengeti Management Server à partir duquel la commande a été exécutée.
VMware, Inc.
143
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Résolution des échecs de création d'un cluster
Le processus de création d'un cluster peut échouer pour de nombreuses raisons. Si la création d'un cluster
échoue, essayez de reprendre le processus.
Vous pouvez utiliser l'une de ces méthodes pour reprendre le processus de création d'un cluster.
n
Si vous avez créé le cluster avec l'interface de ligne de commande Serengeti, exécutez la commande
cluster create ... --resume.
n
Si vous avez créé le cluster avec vSphere Web Client, sélectionnez le cluster, cliquez avec le bouton
droit de la souris et sélectionnez Resume (Reprendre).
Si vous ne pouvez pas reprendre le processus et créer le cluster, reportez-vous aux rubriques de dépannage
de cette section.
Erreur non autorisée 401 d'échec du lancement
Lorsque vous exécutez la commande cluster create ou cluster create ... --resume, celle-ci peut
échouer. Les raisons de cet échec sont répertoriées dans le fichier journal correspondant d'installation et de
configuration du serveur Serengeti, /opt/serengeti/logs/ironfan.log.
Problème
La commande cluster create ou cluster create ... --resume échoue.
n
Sur l'interface de ligne de commande, un message d'erreur apparaît :
Bootstrap Failed
n
Dans le fichier journal d'installation et de configuration du serveur
Serengeti, /opt/seregeti/logs/ironfan.log, un message d'erreur apparaît :
[Fri, 09 Aug 2013 01:24:01 +0000] INFO: *** Chef 11.X.X *** [Fri, 09 Aug 2013 01:24:01
+0000] INFO: Client key /home/ubuntu/chef-repo/client.pem is not present - registering [Fri,
09 Aug 2013 01:24:01 +0000] INFO: HTTP Request Returned 401 Unauthorized: Failed to
authenticate. Please synchronize the clock on your client [Fri, 09 Aug 2013 01:24:01 +0000]
FATAL: Stacktrace dumped to /var/chef/cache/chef-stacktrace.out [Fri, 09 Aug 2013 01:24:01
+0000] FATAL: Net::HTTPServerException: 401 "Unauthorized"
Cause
Cette erreur apparaît si le serveur de gestion Serengeti et les horloges de la machine virtuelle qui ont échoué
ne sont pas synchronisés.
Solution
Dans vSphere Client, configurez tous les hôtes ESXi de sorte qu'ils synchronisent leurs horloges avec le
même serveur NTP.
Après avoir réglé les horloges, vous pouvez exécuter la commande cluster create ... --resume pour
terminer le processus de provisionnement du cluster.
144
VMware, Inc.
Chapitre 14 Dépannage
Impossible de créer un cluster avec le fichier hdfs-hbase-template-spec.json
Si vous utilisez le fichier /opt/serengeti/conf/hdfs-hbase-template-spec.json sur la machine virtuelle du
serveur Serengeti pour créer un cluster, la création du cluster échoue.
Problème
La commande cluster create ou cluster create ... --resume échoue, et l'interface de ligne de commande
affiche le message d'erreur suivant :
cluster cluster_name create failed: Unrecognized field "groups" (Class
com.vmware.bdd.apitypes.ClusterCreate), not marked as ignorable at [Source:
java.io.StringReader@7563a320; line: 3, column: 13] (through reference chain:
com.vmware.bdd.apitypes.ClusterCreate["groups"])
Cause
Le fichier /opt/serengeti/conf/hdfs-hbase-template-spec.json est uniquement destiné à l'utilisation
interne du serveur de gestion Serengeti. Il ne s'agit pas d'un fichier de spécification de cluster valide.
Solution
Créez votre propre fichier de spécification de cluster.
Vous trouverez des exemples d fichiers de spécification de cluster dans le
répertoire /opt/serengeti/samples.
Espace de stockage insuffisant
Si les ressources de stockage ne sont pas suffisantes lorsque vous exécutez la commande cluster create ou
cluster create ... --resume, la création du cluster échoue.
Problème
La commande cluster create ou cluster create ... --resume échoue, et l'interface de ligne de commande
ou l'interface du plug-in Big Data Extensions affiche le message d'erreur suivant :
cluster $CLUSTER_NAME create failed: Cannot find a host with enough storage to place base nodes
[$NODE_NAME].
Node $NODE_NAME placed on host $HOST_NAME. Node $NODE_NAME placed on host $HOST_NAME. You must
add datastores on these hosts [$HOST_NAMES] to use them with the node group [$GROUP_NAME].
Cause
Cette erreur apparaît si l'espace de banque de données n'est pas suffisant.
Solution
1
Examinez le fichier /opt/serengeti/logs/serengeti.log et recherchez la formule cannot find host
with enough.
Cette information montre l'instantané du serveur Serengeti pour l'environnement du cluster vCenter
Server juste après l'échec de la mise en place.
Vous pouvez également trouver des informations sur le nom de la banque de données et sa capacité.
Vous pouvez par ailleurs trouver le fichier de spécification du cluster que vous avez utilisé et les
informations sur les nœuds qui ont bien été mis en place.
VMware, Inc.
145
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
2
Examinez le fichier de spécification du cluster.
Il définit les critères de la banque de données du cluster et détermine l'espace disponible sur la banque
de donnée que vous avez ajoutée à Serengeti. Servez-vous de ces informations pour savoir quel
stockage a un espace insuffisant.
Par exemple, si la capacité de la banque de données LOCALE est insuffisante pour les nœuds worker,
vous devez ajouter d'autres banques de données LOCALES au serveur Serengeti et les attribuer au
cluster.
Échec de téléchargement de distribution
Si le serveur de la distribution Hadoop est en panne lorsque vous exécutez la commande cluster create ou
cluster create ... --resume, la création du cluster échoue.
Problème
La raison de l'échec de la commande est consignée dans un journal.
n
Pour les distributions déployées sur tarball, le message d'erreur suivant apparaît sur l'interface de ligne
de commande ou l'interface de plug-in Big Data Extensions :
Unable to run command 'execute[install hadoop-1.2.1 from tarball]' on node xftest-client-0.
SSH to this node and run the command 'sudo chef-client' to view error messages.
n
Pour les distributions déployées sur Yum, le message d'erreur suivant apparaît sur l'interface de ligne
de commande ou l'interface de plug-in Big Data Extensions :
Cannot bootstrap node xfbigtop-master-0.
remote_file[/etc/yum.repos.d/bigtop2.repo] (hadoop_common::add_repo line 85) had an error:
Net::HTTPServerException: 404 "Not Found"
SSH to this node and view the log file /var/chef/cache/chef-stacktrace.out, or run the
command 'sudo chef-client' to view error messages.
Cause
Le serveur de paquet est en panne.
n
Pour les distributions déployées sur tarball, le serveur de paquet est le serveur de gestion Serengeti.
n
Pour les distributions déployées sur Yum, le serveur de paquet est la source de la distribution déployée
sur Yum : soi le référentiel Yum officiel soit votre serveur Yum local.
Solution
1
2
146
Vérifiez que le paquet est accessible.
Type de distribution
Server
déployée sur tarball
Vérifiez que le service httpd du serveur de gestion Serengeti est en cours
d'exécution.
déployée sur Yum
Vérifiez que les URL du fichier de référentiel Yum sont correctement
configurées dans le fichier manifeste.
Vérifiez que vous pouvez télécharger le fichier nécessaire à partir du nœud qui a échoué.
Type de distribution
Fichier nécessaire
déployée sur tarball
tarball
déployée sur Yum
fichier de référentiel Yum
VMware, Inc.
Chapitre 14 Dépannage
L'adresse IP du serveur de gestion Serengeti change de manière imprévue.
L'adresse IP du serveur de gestion Serengeti change de manière imprévue.
Problème
Lorsque vous créez un cluster après que l'adresse IP du serveur de gestion Seregenti est changée, le
processus de création du cluster échoue avec un échec de lancement.
Cause
Le paramètre du réseau est DHCP.
Solution
Redémarrez la machine virtuelle du serveur de gestion Serengeti.
Après avoir déconnecté un hôte de vCenter Server, le processus de reprise du
cluster échoue.
Si vous déconnectez un hôte de vCenter Server après un échec de tentative de création d'un cluster, vous ne
pouvez pas reprendre la création du cluster.
Problème
Si, après l'échec de création d'un cluster, vous déconnectez l'hôte concerné de vCenter Server et essayez de
reprendre le processus de création, celui-ci échoue et vous recevez le message d'erreur suivant : cluster
nom-cluster échec de reprise : Échec de la création du cluster cluster-name de la machine
virtuelle.
Cause
Lorsque vous déconnectez l'hôte de vCenter Server, les machines virtuelles de l'hôte ne sont plus
disponibles. Lorsque vous essayez de reprendre la création du cluster, le serveur de gestion Serengeti ne
peut pas supprimer les machines virtuelles indisponibles de l'hôte déconnecté.
Solution
1
Supprimez manuellement les hôtes concernés de vCenter Server.
2
Répétez le processus de reprise de création de cluster.
Le provisionnement de cluster ne répond plus si les machines virtuelles sont
mises hors tension ou réinitialisées au cours du lancement.
Lorsque vous créez, configurez ou reprenez la création ou la configuration d'un cluster, le processus ne
répond plus.
Problème
Si vous créez, configurez ou reprenez la création ou la configuration d'un cluster en mettant hors tension ou
en réinitialisant une machine virtuelle en cours de lancement, le processus de provisionnement du cluster ne
répond plus.
Cause
Lorsqu'une machine virtuelle est mise hors tension ou réinitialisée au cours du lancement, sa connexion SSH
ne répond plus.
VMware, Inc.
147
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Solution
1
Effectuez l'une des opérations suivantes :
n
Si vous utilisez l'interface de ligne de commande Serengeti, appuyez sur Ctrl+C.
n
Si vous utilisez vSphere Web Client, vous n'avez rien à faire.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
3
Annulez le processus de provisionnement du cluster qui a échoué.
ps ax | grep knife | grep cluster-name | head -1 | awk '{print $1}' | xargs kill -9
4
Forcez le cluster à passer à l'état PROVISION_ERROR.
set-cluster-status.sh cluster-name PROVISION_ERROR
5
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
6
Allumez toutes les machines virtuelles du cluster qui sont hors tension.
7
Reprenez le processus de création du cluster.
Si vous avez créé le cluster avec l'interface de ligne de commande Serengeti, exécutez la commande
n
cluster create ... --resume.
n
Si vous avez créé le cluster avec vSphere Web Client, sélectionnez le cluster, cliquez avec le bouton
droit de la souris et sélectionnez Resume (Reprendre).
La tâche de création du cluster HBase échoue lorsque l'intervalle de temps
entre les nœuds dépasse 20 secondes.
Si l'intervalle de temps entre les nœuds dépasse 20 secondes, vous devez synchroniser les intervalles avant
de créer un cluster HBase ou d'exécuter des tâches.
Problème
Si vous tentez de créer un cluster HBase avec des nœuds dont les intervalles dépassent 20 secondes chacun,
la création du cluster risque d'échouer. Si elle réussit, les tâches HBase que vous exécutez échoueront.
Cause
Pour HBase, l'intervalle entre ses nœuds de serveur maître et de serveur région ne doit pas dépasser
20 secondes.
Solution
1
Vérifiez que le serveur NTP est en cours d'exécution sur tous les hôtes ESXi et que l'intervalle entre tous
les hôtes ESXi ne dépasse pas 20 secondes.
Attendez quelques minutes que les nœuds se synchronisent avec leurs hôtes ESXi.
2
Vérifiez que l'intervalle entre les nœuds du cluster ne dépasse pas 20 secondes.
a
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de
gestion Serengeti en tant qu'utilisateur serengeti.
b
Exécutez le script serengeti-ssh.sh.
serengeti-ssh.sh hbase_cluster_name date
c
148
Si les intervalles dépassent 20 secondes chacun, répétez les étapes 1 et 2.
VMware, Inc.
Chapitre 14 Dépannage
3
Lancez le processus ou les services qui ont échoué.
Si la création du cluster d'origine a échoué, essayez de reprendre le processus de création du
cluster.
n
n
Si vous avez créé le cluster avec l'interface de ligne de commande Serengeti, exécutez la
commande cluster create ... --resume.
n
Si vous avez créé le cluster avec vSphere Web Client, sélectionnez le cluster, cliquez avec le
bouton droit de la souris et sélectionnez Resume (Reprendre).
n
Si le processus de reprise du cluster a échoué, essayez de nouveau.
n
Si la création du cluster a réussi, mais que l'exécution d'une tâche a échoué, lancez les services qui
ont échoué.
n
Si vous utilisez l'interface de ligne de commande Serengeti, exécutez les commandes suivantes.
cluster export --name cluster_name --specFile /tmp/1
cluster config --name cluster_name --specFile /tmp/1 --yes
n
Si vous utilisez vSphere Web Client, arrêtez et redémarrez le cluster.
La création d'un cluster à grande échelle Big Data Extensions aboutit à une
erreur d'échec de lancement
Si vous créez un cluster à grande échelle, par exemple 300 nœuds ou plus par cluster, dans
Big Data Extensions, une erreur d'échec de lancement peut survenir.
Problème
En règle générale, une connexion de base de données peut servir à deux nœuds à la fois. Ainsi, pour un
cluster comptant 300 nœuds ou plus, 150 connexions de base de données sont nécessaires. Pour éviter de
recevoir une erreur d'échec de lancement, augmentez la taille du pool des connexions de base de données.
Cause
La taille du pool des connexions de base de données n'était pas suffisante pour gérer la création d'un cluster
à grande échelle comportant 300 nœuds ou plus.
Solution
1
Une fois l'application virtuelle Big Data Extensions déployée, connectez-vous à
Serengeti Management Server en tant qu'utilisateur serengeti.
2
Augmentez la taille du pool des connexions de base de données.
Option
Description
/etc/opscode/chef-server.rb
Indique l'emplacement auquel configurer la taille du pool de connexions
de base de données sur Serengeti Management Server.
postgresql['max_connections']
Indique le nombre maximal de connexions de la base de données
postgresql. Cette valeur est généralement erchef['db_pool_size'] +
100.
opscode_erchef['db_pool_size']
Indique la taille du pool des connexions de base de données.
sudo sed -i -e "s|opscode_erchef\['db_pool_size'\] .*|opscode_erchef['db_pool_size'] = 150|"
/etc/opscode/chef-server.rb
sudo sed -i -e "s|postgresql\['max_connections'\] .*|postgresql['max_connections'] = 250|"
/etc/opscode/chef-server.rb
sudo chef-server-ctl reconfigure
VMware, Inc.
149
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Impossible de créer un cluster pour lequel l'heure n'est pas synchronisée.
Lorsque vous exécutez la commande cluster create ou cluster create ... --resume, celle-ci peut
échouer s'il existe des différences d'heure dans l'environnement.
Problème
La commande cluster create ou cluster create ... --resume échoue, et l'interface de ligne de commande
ou l'interface du plug-in Big Data Extensions affiche le message d'erreur suivant :
You must synchronize the time of the following hosts [$HOST_NAMES] with the Serengeti Management
Server to use them.
Cause
Avant la création de nouvelles machines virtuelles sur des hôtes, l'heure sur les hôtes cibles est comparée à
celle sur le serveur de gestion Serengeti. Si l'heure n'est pas synchronisée entre le serveur de gestion
Serengeti et les hôtes, la création de la machine virtuelle échouera.
Solution
u
Dans vSphere Web Client, configurez tous les hôtes ESXi de sorte qu'ils synchronisent leurs horloges
avec le même serveur NTP.
Suivant
Une fois l'heure synchronisée entre le serveur de gestion Serengeti et les autres hôtes ESXi dans votre
environnement, essayez de créer un cluster.
La mise à niveau du dispositif virtuel de Big Data Extensions échoue.
La mise à niveau du dispositif virtuel Big Data Extensions peut échouer. Si le processus de mise à niveau
échoue, vous pouvez réessayer de mettre à niveau.
Problème
La mise à niveau du dispositif virtuel Big Data Extensions ne marche pas.
Solution
1
Revenez à l'état précédent des deux machines virtuelles pour le dispositif virtuel Big Data Extensions en
fonction des instantanés que vSphere Update Manager a pris.
Utilisez le gestionnaire d'instantanés de la machine virtuelle et sélectionnez l'instantané créé par
vSphere Update Manager.
2
Redémarrez le dispositif virtuel.
3
Résolvez le problème de blocage.
4
Redémarrez la tâche de correction.
Cliquez sur Correction sur l'interface utilisateur de vSphere Update Manager pour refaire le processus
de mise à niveau.
150
VMware, Inc.
Chapitre 14 Dépannage
Erreur de mise à niveau du cluster lors de l'utilisation du cluster créé
dans une version antérieure de Big Data Extensions
Pour permettre au serveur de gestion Serengeti de gérer les clusters créés dans une version antérieure de Big
Data Extensions, vous devez mettre à niveau les composants dans les machines virtuelles de chaque cluster.
Le serveur de gestion Serengeti utilise ces composants pour contrôler les nœuds de cluster.
Problème
Quand vous effectuez une mise à niveau à partir d'une version antérieure de Big Data Extensions, les
clusters que vous avez besoin de mettre à niveau apparaissent avec une icône d'alerte en regard de leur
nom. Quand vous cliquez sur cette icône d'alerte, un message d'erreur vous indiquant de mettre à niveau le
cluster vers la version la plus récente s'affiche sous la forme d'une info-bulle. Reportez-vous à « Afficher les
clusters provisionnés dans vSphere Web Client », page 125.
Vous pouvez également identifier les clusters qui ont besoin d'une mise à niveau avec la commande cluster
list. Quand vous exécutez la commande cluster list, le message « Need Upgrade » (Mise à niveau
nécessaire) s'affiche là où se trouve normalement la version du cluster.
Solution
1
Pour chaque cluster que vous avez créé dans une version antérieure de Big Data Extensions, vérifiez
que tous les nœuds du cluster sont sous tension et dotés d'une adresse IP valide.
Si un nœud ne possède pas d'adresse IP valide, il n'est pas possible de le mettre à niveau vers la
nouvelle version des outils de machine virtuelle Big Data Extensions.
a
Connectez-vous au vSphere Web Client qui est connecté à vCenter Server et accédez à Hôtes et
clusters.
b
Sélectionnez le pool de ressources du cluster, sélectionnez l'onglet Machines virtuelles, puis
mettez sous tension les machines virtuelles du cluster.
IMPORTANT L'affectation des adresses IP valides aux nœuds de cluster Big Data par vCenter Server peut
prendre jusqu'à cinq minutes. N'effectuez pas les étapes de mise à niveau restantes tant que les nœuds
n'ont pas reçu leurs adresses IP.
2
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
3
Exécutez la commande cluster upgrade pour chaque cluster créé dans une version antérieure de Big
Data Extensions.
cluster upgrade --name cluster-name
4
Si la mise à niveau échoue pour un nœud, assurez-vous que le nœud qui a échoué possède une adresse
IP valide, puis réexécutez la commande cluster upgrade.
Vous pouvez réexécuter la commande autant de fois que nécessaire pour mettre à niveau tous les
nœuds.
5
VMware, Inc.
Arrêtez puis redémarrez vos clusters Hadoop et HBase.
151
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Impossible de connecter le plug-in Big Data Extensions au serveur
Serengeti
Lorsque vous installez Big Data Extensions sur vSphere 5.5 ou version ultérieure, l'authentification de la
connexion à Serengeti Management Server échoue.
Problème
Le plug-in Big Data Extensions ne parvient pas à se connecter au serveur Serengeti.
Cause
Lors du déploiement, le lien Single Sign-On (SSO) n'a pas été saisi. Serengeti Management Server ne
parvient pas à authentifier la connexion à partir du plug-in.
Solution
Utilisez le Portail d'administration de Serengeti Management Server pour configurer les paramètres SSO.
Reportez-vous à « Configurer les paramètres vCenter Single Sign-On du serveur de gestion Serengeti »,
page 29.
Si vous ne parvenez toujours pas à connecter le plug-in Big Data Extensionsà Serengeti Management Server,
vous pouvez recourir à l'utilitaire EnableSSOAuth.
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur root.
2
Configurez les paramètres SSO.
n
Si vous utilisez vCenter Server 5.x, utilisez la commande EnableSSOAuth.
EnableSSOAuth https://vCenter-serveur-IP-addresse:7444/lookupservice/sdk
n
Si vous utilisez vCenter Server 6.x, utilisez la commande EnableSSOAuth.
https://FQDN_of_SSO_SERVER:443/lookupservice/sdk
.
3
Redémarrez le service Tomcat.
/sbin/service tomcat restart
4
Connectez le plug-in Big Data Extensions à Serengeti Management Server.
Les connexions à vCenter Server échouent.
Le serveur de gestion Serengeti tente de se connecter à vCenter Server, mais n'y arrive pas.
Problème
Le serveur de gestion Serengeti tente de se connecter à vCenter Server, mais n'y arrive pas.
Cause
vCenter Server est inaccessible, pour une raison quelconque, notamment des problèmes de réseau ou un
trop grand nombre de tâches en cours d'exécution.
Solution
Vérifiez que vCenter Server est accessible.
n
152
Connectez-vous à vCenter Server avec vSphere Web Client ou VMware Infrastructure Client (VI
Client).
VMware, Inc.
Chapitre 14 Dépannage
n
Sondez par ping l'adresse IP de vCenter Server pour vérifier que le serveur de gestion Serengeti se
connecte à la bonne adresse IP.
Le serveur de gestion ne peut pas se connecter à vCenter Server
Si vous activez une connexion IPv6 avec vCenter Server et que vous modifiez l'adresse IP, le serveur de
gestion ne peut pas se connecter à vCenter Server. Vous ne pouvez pas résoudre ce problème en
redémarrant le serveur de gestion.
Solution
1
Utilisez vSphere Web Client pour vous connecter à vCenter Server.
2
Éteignez le serveur de gestion.
3
Accédez à la section Management Server Network 2 Settings (Paramètres du réseau 2 du serveur de
gestion).
4
Dans les options vApp, sélectionnez Modifier les paramètres > Options > Properties (Propriétés).
5
Saisissez la nouvelle adresse IPv6 pour vCenter Server dans l'article de l'adresse IPv6 de vCenter pour
vous connecter à la zone de texte.
6
Allumez le serveur de gestion.
Erreur de certificat SSL lors de la connexion à un serveur autre que
Serengeti avec la console vSphere
Dans vSphere Web Client, vous ne pouvez pas vous connecter à un serveur autre que Serengeti.
Problème
Lorsque vous utilisez le plug-in Big Data Extensions dans vCenter Server et que vous essayez de vous
connecter à un serveur autre que Serengeti, vous recevez un message d'erreur.
SSL error:
Check certificate failed.
Please select a correct serengeti server.
Cause
Lorsque vous utilisez le plug-in Big Data Extensions, vous ne pouvez vous connecter qu'aux serveurs
Serengeti.
Solution
Connectez-vous uniquement aux serveurs Serengeti. N'exécutez pas d'opérations liées au certificat.
Impossible de redémarrer ou de reconfigurer un cluster pour lequel
l'heure n'est pas synchronisée
Lorsque l'écart entre l'heure des hôtes et de Serengeti Management Server se creuse, le cluster ne peut pas
être redémarré ni reconfiguré.
Problème
Le cluster ne démarre pas et l'interface de ligne de commande ou l'interface du plug-in Big Data Extensions
affiche le message d'erreur suivant :
Nodes in cluster $CLUSTER_NAME start failure: Synchronize the time of the host [$HOST_NAME(S)]
with the Serengeti Management Server running on $HOST_NAME.
VMware, Inc.
153
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Cause
Cette erreur apparaît si Serengeti Management Server et les horloges de la machine virtuelle qui ont échoué
ne sont pas synchronisées. L'heure de tous les hôtes d'un cluster est comparée à celle de
Serengeti Management Server. Si l'heure n'est pas synchronisée entre Serengeti Management Server et les
hôtes, la machine virtuelle ne démarre pas.
Solution
u
Dans vSphere Web Client, configurez tous les hôtes ESXi de sorte qu'ils synchronisent leurs horloges
avec le même serveur NTP.
Après avoir réglé les horloges, vous pouvez essayer de démarrer ou de reconfigurer le cluster.
Impossible de redémarrer ou de reconfigurer un cluster après la
modification de sa distribution
Après avoir modifié le fournisseur ou la version de distribution du cluster (mais pas le nom de distribution),
vous ne pouvez plus redémarrer ni reconfigurer le cluster.
Problème
Lorsque vous essayez de redémarrer ou de reconfigurer un cluster après avoir modifié son fournisseur ou sa
version de distribution dans le manifeste, vous recevez le message d'erreur suivant :
Bootstrap Failed
Cause
Lorsque vous modifiez manuellement un fournisseur ou une version de distribution dans le fichier
manifeste en réutilisant le même nom de distribution, le serveur Serengeti ne peut pas démarrer le nœud.
Solution
1
Récupérez le fichier manifeste.
2
Utilisez l'outil config-distro.rb pour ajouter une nouvelle distribution, avec un nom unique, pour
désigner le fournisseur et la version de distribution que vous souhaitez.
La machine virtuelle ne peut pas obtenir d'adresse IP et la commande
échoue.
Une commande Serengeti échoue et la CLI affiche le message d'erreur suivant : Virtual Machine Cannot Get
IP Address.
Cause
Cette erreur apparaît lorsqu'une erreur de configuration de réseau survient.
Pour l'IP statique, la cause est généralement un conflit d'adresse IP.
Pour DHCP, les causes courantes sont :
n
Le nombre de machines virtuelles qui nécessitent que les adresses IP dépassent les adresses DHCP
disponibles.
n
Le serveur DHCP ne parvient pas à allouer des adresses suffisantes.
n
Le processus de renouvellement de DHCP a échoué après l'expiration d'une adresse IP.
Solution
n
154
Vérifiez que le groupe de ports de vSphere dispose de suffisamment de ports pour la nouvelle machine
virtuelle.
VMware, Inc.
Chapitre 14 Dépannage
n
Si le réseau utilise des adresses IP statiques, vérifiez que la plage d'adresses IP n'est pas utilisée par une
autre machine virtuelle.
n
Si le réseau utilise des adresses DHCP, vérifiez qu'une adresse IP peut être allouée à la nouvelle
machine virtuelle.
Impossible de modifier l'adresse IP du serveur Serengeti dans
vSphere Web Client
Lorsque vous essayez de modifier l'adresse IP du serveur Serengeti dans vSphere Web Client, la procédure
échoue.
Solution
Prérequis
Procurez-vous une adresse IP statique.
Procédure
1
Sur Serengeti Management Server, modifiez le fichier de configuration /etc/sysconfig/networkscripts/ifcfg-eth0 en remplaçant le contenu du fichier par le contenu suivant :
DEVICE=eth0
BOOTPROTO=static
ONBOOT=yes
TYPE=Ethernet
IPADDR=your_static_ip
PREFIX=your_prefix
GATEWAY=your_gateway
DNS1=your_dns1
DNS2=your_dns2
2
Redémarrez Serengeti Management Server.
À son démarrage, le système d'exploitation configure l'adresse IP selon le contenu du nouveau
fichier de configuration.
Une nouvelle instance de plug-in avec un numéro de version
identique ou antérieure à une instance de plug-in précédente ne se
charge pas.
Lorsque vous installez une nouvelle instance de plug-in Big Data Extensions dont la version est identique ou
antérieure à une instance précédente de plug-in Big Data Extensions, la version précédente se charge à la
place de la nouvelle version.
Problème
Lorsque vous installez un nouveau plug-in Big Data Extensions dont la version est identique ou antérieure à
un plug-in précédent Big Data Extensions, la version précédente se charge à la place de la nouvelle version.
Ce cas de figure se produit même si vous désinstallez le plug-in précédent.
Cause
Lorsque vous désinstallez une instance de plug-in, vSphere Web Client ne supprime pas le package de
l'instance de plug-in de Serengeti Management Server.
VMware, Inc.
155
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
Dès que vous installez une instance de plug-in ayant un numéro de version identique ou antérieur à
l'instance de plug-in précédente et que vous essayez de charger la nouvelle instance de plug-in,
vSpheretrouve le package précédent d'instance de plug-in dans son répertoire local. vSphere ne télécharge
pas le nouveau package d'instance de plug-in à partir du serveur distant Serengeti Management Server.
Solution
1
Désinstallez l'ancienne instance de plug-in.
2
Supprimez l'ancienne instance de plug-in.
n
Pour les instances vCenter Server Appliance, supprimez le dossier /var/lib/vmware/vsphereclient/vc-packages/vsphere-client-serenity/vsphere-bigdataextensions-version.
n
Pour les serveurs vSphere Web Client sous Windows, supprimez le dossier %ProgramData
%/vmware/vSphere Web Client/vc-packages/vsphere-client-serenity/vspherebigdataextensions-version.
3
Redémarrez vSphere Web Client.
n
Pour les instances de vCenter Server Appliance 5.x, redémarrez le service vSphere Web Client au
niveau de la console vCenter Server Appliance Web console, http://$vCenter-Server-ApplianceIP:5480.
n
Pour les instances de vCenter Server Appliance 6.x, redémarrez le service vSphere Web Client en
utilisant vSphere Web Client.
n
4
a
Connectez vous à vSphere Web Client avec un compte administrateur vCenter Single Sign-on.
b
Accédez à Administration > Déploiement > Configuration système.
c
Cliquez sur Nœuds, sélectionnez le nœud vCenter Server Appliance et cliquez sur l'onglet
Éléments associés.
d
Effectuez un clic droit sur le service que vous souhaitez démarrer et sélectionnez Démarrer.
Pour les serveurs vSphere Web Client sous Windows, redémarrez le service vSphere Web Client à
partir de la console de services.
Installez la nouvelle instance de plug-in.
Le nom d'hôte et le FQDN ne correspondent pas pour le serveur de
gestion Serengeti.
Le nom d'hôte et le nom de domaine complet (FQDN) du serveur de gestion Serengeti doivent correspondre
pour pouvoir exécuter certaines opérations de Big Data Extensions, telle que la mise à niveau.
Problème
Le nom d'hôte et le FQDN du serveur de gestion Serengeti ne sont pas les mêmes.
Cause
À cause de certaines séquences des étapes de déploiement, le nom d'hôte et le FQDN du serveur de gestion
Serengeti peuvent être différents.
Solution
1
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au serveur de gestion
Serengeti en tant qu'utilisateur serengeti.
2
Créez un nouveau fichier pour le script set_hostname.sh.
touch /tmp/set_hostname.sh
156
VMware, Inc.
Chapitre 14 Dépannage
3
Ouvrez le fichier /tmp/set_hostname.sh pour le modifier et ajouter les lignes suivantes.
ETHIP=`/sbin/ifconfig eth0 | grep "inet addr" | awk '{print $2}' | sed 's/addr://'`
FQDN=$ETHIP
RET=`/bin/ipcalc --silent --hostname $ETHIP`
if [ "$?" = "0" ]; then
FQDN=`echo $RET | awk -F= '{print $2}'`
fi
echo "set hostname to ${FQDN}"
`hostname ${FQDN}`
4
Enregistrez les modifications et fermez le fichier.
5
Exécutez le script set_hostname.sh.
sudo bash /tmp/set_hostname.sh
Les opérations de Serengeti échouent après que vous ayez renommé
une ressource dans vSphere.
Après avoir utilisé vSphere pour renommer une ressource, les commandes Serengeti échouent pour tous les
clusters Serengeti qui utilisent cette ressource.
Problème
Si vous utilisez vSphere pour renommer une ressource Serengeti qui est utilisée par les clusters Serengeti
provisionnés, les opérations de Serengeti échouent pour les clusters qui utilisent cette ressource. Ce
problème concerne les pools de ressources, les banques données et les réseaux de vCenter Server que vous
ajoutez dans Serengeti, ainsi que leurs hôtes respectifs, les clusters vCenter Server, etc. Le message d'erreur
dépend du type de ressource, mais indique généralement que la ressource est inaccessible.
Cause
Pour le mappage des ressources Serengeti, les noms de ressource ne doivent pas être modifiés.
Solution
Utilisez vSphere pour redonner à la ressource son nom d'origine.
Big Data Extensions Le serveur refuse les noms de ressource
comptant au moins deux espaces blancs à la suite.
Si vous insérez au moins deux espaces blancs à la suite dans le nom d'un pool de ressources
Big Data Extensions, d'une banque de données ou d'un réseau, le processus d'ajout échoue.
Solution
Aucune solution ni aucun correctif ne sont disponibles pour ce problème.
Les caractères non ASCII ne s'affichent pas correctement.
Lorsque vous travaillez avec CLI sur une plate-forme Windows, si vous exécutez une commande de script
sur un fichier qui contient des caractères non ASCII, certains messages ne s'affichent pas correctement.
Cause
On sait que les caractères non ASCII ne sont pas reconnus sur les plates-formes Windows.
Solution
Aucune solution ni aucun correctif ne sont disponibles pour ce problème.
VMware, Inc.
157
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
L'exécution de la tâche MapReduce échoue et n'apparaît pas dans
l'historique des tâches.
L'exécution de la tâche MapReduce soumise échoue et n'apparaît pas dans l'historique des tâches.
Problème
Lorsque vous soumettez une tâche MapReduce dont la charge de travail est lourde, elle ne s'exécute pas et
n'apparaît pas dans l'historique des tâches MapReduce.
Cause
Pendant les charges de travail lourdes, le service JobTracker ou NameNode risque d'être trop chargé pour
réagir à la surveillance HA de vSphere dans le délai configuré. Lorsqu'un service ne répond pas à la
demande HA de vSphere, vSphere redémarre le service concerné.
Solution
1
Arrêtez le service HMonitor.
Lorsque vous arrêtez le service HMonitor, la reprise HA de vSphere est désactivée.
a
Ouvrez une interface de commande, comme Bash ou PuTTY, puis connectez-vous au nœud du
cluster concerné.
b
Arrêtez le service HMonitor.
sudo /etc/init.d/hmonitor-*-monitor stop
2
3
4
Augmentez le délai JobTracker de vSphere.
a
Ouvrez le fichier /user/lib/hadoop/monitor/vm-jobtracker.xml pour le modifier.
b
Recherchez la propriété service.monitor.probe.connect.timeout.
c
Modifiez la valeur de l'élément <value>.
d
Enregistrez les modifications et fermez le fichier.
Augmentez le délai NameNode de vSphere.
a
Ouvrez le fichier /user/lib/hadoop/monitor/vm-namenode.xml pour le modifier.
b
Recherchez la propriété service.monitor.portprobe.connect.timeout.
c
Modifiez la valeur de l'élément <value>.
d
Enregistrez les modifications et fermez le fichier.
Démarrez le service HMonitor.
sudo /etc/init.d/hmonitor-*-monitor start
Impossible d'envoyer des tâches MapReduce pour les clusters de
calcul uniquement avec l'HDFS Isilon externe
Vous n'arrivez pas à envoyer des tâches MapReduce pour les clusters de calcul uniquement qui pointent
vers un HDFS Isilon externe.
Problème
Si vous déployez un cluster de calcul uniquement avec un HDFS externe pointant vers Isilon, le
déploiement s'avère réussi. Cependant, JobTracker est en mode sécurité, ce qui ne vous permet pas
d'envoyer des tâches MapReduce.
158
VMware, Inc.
Chapitre 14 Dépannage
Cause
JobTracker nécessite un utilisateur nommé mapred.
Solution
1
SSH dans le cluster Isilon.
2
Ajoutez l'utilisateur mapred au groupe roue du système Isilon.
pw useradd mapred -G wheel
La tâche MapReduce ne répond plus sur un cluster PHD ou CDH4
YARN.
Une tâche MapReduce ne répond plus sur un cluster PHD ou CDH4 YARN avec un DataNode et un agent
NodeManager, chacun disposant d'une mémoire de 378 Mo.
Problème
Les tâches MapReduce ne répondent plus lorsque vous les exécutez sur un cluster PHD ou CDH4 YARN
avec un data node et un agent NodeManager.
Cause
Ressources en mémoire insuffisantes.
Solution
1
Créez un cluster PHD ou CDH4 YARN avec deux DataNode et deux NodeManager.
2
Exécutez de nouveau la tâche MapReduce.
Impossible de télécharger le paquet à l'aide du plug-in Downloadonly
Lorsque vous essayez de configurer un référentiel yum local, il se peut que, lorsque vous utilisez le plug-in
downloadonly, vous puissiez trouver le paquet dont vous avez besoin sans pouvoir le télécharger.
Solution
1
Exécutez la commande suivante pour vérifier si le paquet est bien installé sur la machine :
yum remove <package_name>
2
Si le paquet est installé sur la machine, supprimez-le et réessayez de le télécharger.
Impossible de trouver des paquets avec la recherche Yum
Lorsque vous essayez de configurer un référentiel yum local, vous devez télécharger des paquets pour le
gestionnaire d'applications Cloudera Manager ou Ambari. Les paquets ont été déposés sur le serveur http et
peuvent s'afficher dans un navigateur, mais lorsque vous utilisez la recherche yum, vous n'arrivez pas à
trouver les paquets dont vous avez besoin.
Cause
Si le fichier référentiel n'est pas installé correctement ou si vous avez des données dans le cache yum de
votre système, ce problème risque de se produire.
Solution
1
Vérifiez que l'URL du serveur du référentiel yum dans le fichier référentiel est correcte en ce qui
concerne l'emplacement et la version.
2
Utilisez l'outil createrepo pour être sûr d'avoir créé le répertoire repodata.
VMware, Inc.
159
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
3
Utilisez la commande yum clean all pour nettoyer le cache yum.
4
Relancez la recherche yum pour localiser les paquets.
Supprimer HBase Rootdir dans HDFS avant de supprimer le cluster
uniquement HBase
Après la suppression d'un cluster uniquement HBase, les données HBase existent toujours sur HDFS
externe. Vous devez d'abord supprimer HBase Rootdir dans HDFS avant de supprimer le cluster
uniquement HBase.
Cause
HBase rootdir n'a pas été supprimé avant la suppression du cluster uniquement HBase.
Solution
Vous pouvez conserver ou supprimer les données.
Procédure
1
Connectez-vous au nœud master HBase dans le cluster uniquement HBase.
2
Ouvrez le fichier hbase-site.xml et trouvez la valeur de la propriété hbase.rootdir.
/etc/hbase/conf/hbase-site.xml
3
Exécutez la commande suivante :
hadoop fs -rmr <value_of_hbase.rootdir>
4
160
Supprimez le cluster uniquement HBase dans Big Data Extensions.
VMware, Inc.
Index
A
accès
bases de données HBase 103
données Hive 131, 133
interface de ligne de commande 31
accès à la base de données HBase 103
activation du collecteur de données 123
Adresse IP du serveur Serengeti,
modification 155
Adresses IP
ajout de segments aux réseaux 96
conflit 154
surveillance 126
affichage
clusters provisionnés 125
informations de cluster 126
agrandissement d'un cluster 114
ajout
Banques de données 91
pools de ressources 89
réseaux 94
ajout de serveurs de gestion de logiciels, avec
une interface Web 41
ajouter nouveau 90
ajouter un cluster, avec un gestionnaire
d'applications 109
Ambari, référentiel local 60
annulation de l'enregistrement, plug-in Big Data
Extensions 27
architecture 12
arrêt
clusters 113
Serengeti, services 75
authentification utilisateur, vérifier 82
authentification utilisateur, vérifier, vérifier 83
B
Banques de données
ajout 91
suppression 92
besoins de stockage en attachement direct 17
besoins en ressources
cluster Hadoop 17
serveur de gestion vSphere et modèles 17
besoins en ressources pour le serveur de
gestion vSphere 17
VMware, Inc.
Big Data Extensions
installation 17
mise à niveau 35
spécifications système 17
Big Data Extensions vApp
déployer 23
mise à niveau 36
C
caractères non-ASCII 157
certificat 138
certificats SSL, erreurs 153
certificats, SSO 29
chargement, plug-in Big Data Extensions 155
clé publique 138
CLI, accès 31
CLI interface de ligne de commande, mise à
niveau 39
client d'interface de ligne de commande distant,
installation 31
Cloudera Manager, référentiel local 57
cluster de calcul du travailleur uniquement 110
cluster HDFS externe, préparer 108
cluster uniquement HBase, utiliser OneFS en
tant que cluster HDFS externe 108
cluster uniquement HBase, conditions
préalables 107
clusters
affichage 125, 126
ajouter avec un gestionnaire
d'applications 109
arrêt et démarrage 113
basculement 117
calcul du travailleur uniquement 110
calcul uniquement 101, 110
création, , voir création de clusters
déploiement sous des pools de ressources
différents 90
échec de reconfiguration 154
échec de redémarrage 154
état HBase 129
exécution des tâches MapReduce sur PHCD
ou CDH4 159
gestion 113
Hadoop de base 101
HBase 101
161
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
HBase uniquement 109
interruptions du provisionnement 147
mise à l'échelle du CPU ou de la RAM 115
mise à niveau 38
mots de passe utilisateur 117
personnalisé 101
reconfiguration 118
redémarrage ou reconfiguration 153
séparation données/calcul 101
services de création 14
suppression 114
topologie 102
clusters de calcul uniquement 110
clusters Hadoop
création 103
Voir aussi clusters
clusters Hadoop de base 101
clusters HBase
création 103
Voir aussi clusters
clusters MapReduce v1 101
clusters MapReduce v2 (YARN) 101
clusters séparés données/calcul 101
clusters uniquement HBase
création, clusters uniquement
HBase 109
création avec le client web 109
collecteur de données, activation 123
commande 31
commande appmanager add 13
commande cluster config 118
commande cluster export 118
commande cluster fix 121
commande de mise à niveau de cluster 38
commande de script 157
commande de script de dépannage 157
commande resourcepool add 89
commande resourcepool delete 90
commande resourcepool list 90
communication avec vCenter Server 76
comptes d'utilisateurs 139
conditions préalables à la création d'un cluster
uniquement HBase 107
configuration
Hive 131, 133
niveaux de journalisation 142
référentiel yum local 56
référentiel Yum pour la distribution
Cloudera 56
référentiel Yum pour la distribution MapR 56
référentiels Yum 49
Yum et référentiels Yum 48
162
configurer le référentiel Ambari 62
Connectivité de base de données Java, , voir
JDBC
Connectivité de base de données ouverte, , voir
ODBC
connectivité réseau, vérifier 81
connexion
au serveur de gestion Serengeti 30, 71
Serengeti, services 31
connexion IPv6 à vCenter 153
connexions
échec 152
vers vCenter Server 152
console d'interface de ligne de commande 31
contacter les nœuds de clusters 85
Contrôleur Paravirtual SCSI 94
conversion de XML Hadoop en JSON
Serengeti 118
correctifs 140
correctifs et mises à jour de sécurité 140
CPU et RAM, augmentation et diminution 115
création
le référentiel Ambari 62
clusters, , voir création de clusters
référentiel local pour Cloudera Manager 59
référentiel yum local 52, 54
référentiel Yum pour la distribution
Cloudera 52
référentiel Yum pour la distribution MapR 52
référentiel Yum pour la distribution Pivotal 54
utilisateurs CLI Serengeti 73
création d'un cluster, avec un gestionnaire
d'applications 109
création de clusters
calcul uniquement 110
dépannage 144–148
Hadoop ou HBase 103
création du référentiel Yum CentOS,
configuration du référentiel Yum
CentOS 59, 61
créer un référentiel local pour Ambari
configurer le référentiel HDP sur le serveur
Ambari 63
préparer l'environnement du logiciel 60
télécharger les paquets 62
créer un référentiel local pour Cloudera Manager
préparer l'environnement du logiciel 58
télécharger les paquets 59
D
déconnexion, hôtes 147
défaillance disque, récupérer d'une 121
démarrage
clusters 113
Serengeti, services 75
VMware, Inc.
Index
Démarrage 9
dépannage
collecter les fichiers journaux 143
collecteur de données 124
échecs de création de clusters 144–148
fichiers journaux pour 142
présentation 141
processus de mise à niveau,
dépannage 150
déployer
Big Data Extensions vApp 23
OVA 23
dispositif virtuel, échec de la mise à niveau 150
disque à provisionnement dynamique 67
disque système et de permutation 94
disques de données locaux par groupe de
nœuds 120
disques locaux par groupe de nœuds 120
distribution Apache Hadoop, valeurs de
configuration pour Big Data
Extensions 45
distribution Cloudera
commandes administratives avec l'interface de
ligne de commande Serengeti 31
référentiel yum local 52, 56
référentiel Yum pour le déploiement 48
valeurs de configuration pour Big Data
Extensions 45
Distribution Cloudera, DNS et FQDN pour le
trafic du cluster 103
distribution Greenplum, valeurs de configuration
pour Big Data Extensions 45
distribution Hortonworks, valeurs de
configuration pour Big Data
Extensions 45
distribution MapR
commandes administratives avec l'interface de
ligne de commande Serengeti 31
référentiel yum local 52, 56
référentiel Yum pour le déploiement 48
valeurs de configuration pour Big Data
Extensions 45
distribution Pivotal
commandes administratives avec l'interface de
ligne de commande Serengeti 31
référentiel yum local 54
référentiel Yum pour le déploiement 48
valeurs de configuration pour Big Data
Extensions 45
Distribution Pivotal, DNS et FQDN pour le trafic
du cluster 103
distributions
affichage 42
supported 13
VMware, Inc.
distributions Hadoop
fichiers JAR 118
gestion 45
distributions Hadoop déployées sur tarball 45,
46
distributions Hadoop déployées sur Yum 45
distributions Hadoop prenant en charge les
clusters MapReduce 101
distributions prises en charge 13, 14
données Hive, accès 131
E
échec de connexion à vCenter 153
échec de création d'un cluster à grande
échelle 149
échec de création de clusters
Adresse IP du serveur Serengeti change 147
Échec de lancement 144
échec de téléchargement de distribution 146
erreur non autorisée 401 144
espace de stockage insuffisant 145
fichier template-cluster-spec.json 145
échec de lancement 144, 149
échec de téléchargement de distribution 146
échec des opérations Serengeti 157
échec du processus d'ajout 157
échec du processus d'ajout de banque de
données 157
EMC Isilon OneFS 81
environnement, gestion 71
environnement Big Data Extensions, gestion 71
erreur de mise à niveau du cluster 151
erreur non autorisée 401 144
espace de stockage insuffisant 145
espaces blancs 157
état d'initialisation 78, 124
état HDFS, , voir Hadoop Distributed File System
exécution, vérifier 82, 83
extensions de virtualisation Hadoop (HVE,
Hadoop Virtualization Extensions) 45
Extensions de virtualisation Hadoop (HVE,
Hadoop Virtualization Extensions) 102
F
fichier log4j.properties 118, 142
fichier template-cluster-spec.json et échec de
création du cluster 145
fichiers de configuration, conversion de XML
Hadoop en JSON Serengeti 118
fichiers de journalisation, recueillir 143
fichiers de spécification de cluster
cluster de calcul uniquement 110
échantillons 145
163
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
fichiers JAR de distribution Hadoop 118
lien symbolique pool de ressources 89
reconfiguration de clusters 118
fichiers journaux 142
fichiers journaux de déploiement 142
fonctionnalités et opérations prises en charge,
gestionnaires d'applications 14
G
gestion
clusters 113
ressources vSphere 89
Gestion de l'environnement Big Data
Extensions 71
gestionnaire d'applications
modifier 42
supprimer 42
gestionnaires d'applications
ajouter un cluster 109
distributions 42
et Big Data 12
gestion 41
services et opérations pris en charge 14
glossaire 7
groupes de nœuds, rôles, pour éviter les
conflits 110
H
Hadoop Distributed File System (HDFS),
surveillance 127
HBase rootdir 160
HDFS, éviter les conflits de rôles de nœuds 110
Hive, configuration 131, 133
HÔTE_EN_RACK 102
I
informations sur le serveur, ajout 41
inscription, plug-in Big Data Extensions 27
installation
Big Data Extensions 17
client d'interface de ligne de commande
distant 31
plug-in Big Data Extensions 27
interface de ligne de commande à distance, mise
à niveau 39
interface de ligne de commande Serengeti
mise à niveau 36
noms d'utilisateur et mots de passe 73
interfaces externes 135
internationalisation et localisation 20
iornfan.log 138
J
Java Runtime Environment (JRE) 31
164
JBOD, , voir stockage en attachement direct
(DAS, Direct Attached Storage)
JDBC 131
journaux Apache log4j 142
juste un paquet de disques (JBOD, Just A Bunch
Of Disks), , voir stockage en
attachement direct (DAS, Direct
Attached Storage)
K
KeyStore 138
L
LDAP et Active Directory 74
le serveur de gestion ne peut pas se connecter à
vCenter 153
liste des rôles, avec le client Web 43
localisation 20
M
machine virtuelle de serveur de gestion, , voir
serveur de gestion Serengeti
machine virtuelle du modèle Hadoop 35
machines virtuelles
classement par ordre de priorité 116
impossible d'obtenir l'adresse IP 154
mise à niveau de composants 38
Modèle Hadoop 66
partages de disque 116
machines virtuelles du modèle Hadoop
conditions préalables 66
création 66
mise à jour 90
mise à jour de cluster 90
mise à l'échelle, CPU et RAM 115
mise à l'échelle élastique, fichier journal 142
mise à niveau
panne 150
processus, dépannage 150
mise à niveau de Big Data Extensions
clusters 35
commande de mise à niveau de cluster 38
composants de machine virtuelle 38
connexion au serveur de gestion Serengeti 36
interface de ligne de commande Serengeti 36
machine virtuelle du modèle Hadoop 35
plug-in 36
préparation de la mise à niveau 35
vApp 36
vSphere Update Manager 35, 36
mises à jour logicielles 140
mode maintenance 86
mode maintenance, entrer 86
modèle RHEL 66
VMware, Inc.
Index
modèle RHEL 6.x
machines virtuelles personnalisées 65
personnalisation 66
modification, mots de passe sur les nœuds de
cluster 117
modifier le type de DNS 95
modifier un gestionnaire d'applications 42
mots de passe
changement sur le serveur de gestion
Serengeti 72
nœuds de cluster 117
nœuds Hadoop 122
mots de passe utilisateur 73
multiples modèles de nœud 70
N
niveaux de journalisation, configuration 142
nœuds, surveillance 126
nœuds clients pour Hadoop 101, 103
nœuds de cluster, mots de passe 117
nœuds Hadoop
connexion 122
mots de passe 122
nœuds master pour Hadoop 101, 103
nœuds worker pour Hadoop 101, 103
noms d'utilisateur 71, 73
noms de ressources 157
numéro de port, serveur de gestion 76
numéros de port
Hadoop 76
HBase 76
MapReduce 76
O
ODBC 131, 133
opérations échouent 157
outil de conversion convert-hadoop-conf.rb 118
P
Paramètres, clusters 17, 99, 114, 153
partages d'E/S 116
partages de disque E/S 116
partitionnement de disque 66
passer d'un seul coup en mode virtuel 110
personnalisé 70
PhoneHome, collecteur de données 124
plug-in Big Data Extensions
changement de versions 155
chargement 155
connexion au serveur de gestion Serengeti 30
impossible de se connecter au serveur
Serengeti 152
inscription 27
VMware, Inc.
installation 27
mise à niveau 36, 37
plug-in downloadonly 159
plug-ins, , voir plug-in Big Data Extensions
pools de ressources
ajout 89
échec du processus d'ajout 157
suppression 90
portail d'administration, serveur de gestion
Serengeti 29, 78, 124
ports réseau 135
préparer OneFS en tant que cluster HDFS
externe 108
présentation, gestionnaires d'applications 13
prise en charge de l'hôte et de la machine
virtuelle testés 17
prise en charge des caractères spéciaux 20
Programme d'amélioration du produit 22, 123,
124
Project Serengeti 10
provision-hook.log 138
provisionnement, interruptions 147
Public ciblé 7
R
RACK_EN_RACK 102
recherche DNS, vérifier 84
recherche DNS, vérifier 84
Recherche yum, impossible de trouver des
paquets 159
reconfiguration, réseaux 96
récupération à partir d'un disque défectueux 121
redémarrage ou reconfiguration d'un cluster 153
référence de sécurité 135
référentiel local du serveur Ambari 62
référentiel yum, impossible de télécharger le
paquet 159
référentiel Yum, installation de RPM 26
référentiel Yum CentOS 59, 61
référentiel yum local, dépannage 159
référentiel Yum, local
configuration 56
création 52, 54
référentiel Yum, vérifier 86
référentiels locaux, création 57, 60
référentiels Yum, création 57, 60
renommage, ressources vSphere 157
réseaux
ajout 94
ajout d'adresses IP 96
configuration de paramètre requise 17
échec du processus d'ajout 157
suppression 96
165
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
ressources, renommage dans vSphere 157
ressources vSphere
gestion 89
pools de ressources 89
rôles, liste 43
RPM JDK 7 68
RPM JDK 7, installer 68
RPMs, installation 26
S
script de mise à niveau 36
script serengeti-maintenance.sh 86
script serengeti-start-services.sh 75
script serengeti-stop-services.sh 75
script set_hostname.sh 156
scripts
serengeti-start-services.sh 75
serengeti-stop-services.sh 75
set_hostname.sh 156
se connecter aux nœuds Hadoop 122
sécurité 138
serengeti-boot.log 138
serengeti-maintenance.sh 86
serengeti-snapshot
création 66
créé pendant les mises à niveau 65
suppression 65, 66
serengeti-upgrade.log 138
Serengeti, services
arrêt et démarrage 75
connexion 31
serengeti.log 138
serveur Chef 138
serveur de gestion Serengeti
Adresse IP 147
ajouter des noms d'utilisateur 71
changement de mots de passe 72
connexion à 30, 36
FQDN 156
nom d'hôte 156
portail d'administration 29, 78, 124
Single Sign-On (SSO) 29
serveurs de gestion de logiciels, ajout 41
serveurs Serengeti
Adresse IP change 147
échec de connexion à vCenter Server 152
fichier journal de service 142
services 135
services disponibles avec Cloudera Manager ou
Ambari 14
Single Sign-On (SSO) 29, 31, 152
snapshots, , voir serengeti-snapshot
166
soumission, problèmes avec les tâches
MapReduce 158
spécifications matérielles 17
spécifications système, Big Data Extensions 17
storage.local.disk_number_per_node = 0 120
storage.shared.disk_number_per_node = 0 120
suppression
Banques de données 92
clusters 114
pools de ressources 90
réseaux 96
serengeti-snapshot 65
Voir aussi suppression
Suppression de HBase rootdir 160
Suppression du cluster uniquement HBase 160
supprimer un gestionnaire d'applications 42
surveillance
allocation des ressources 126
environnement Big Data Extensions 123
état des clusters HBase 129
Hadoop Distributed File System (HDFS) 127
nœuds 126
tâches MapReduce 128
synchronisation de l'heure, redémarrage ou
reconfiguration 153
synchronisation de l'horloge, et échec de
création du cluster 144
synchroniser l'heure avec le serveur de gestion
Serengeti 80, 150
synchroniser l'heure sur les hôtes avec le
serveur de gestion Serengeti 80, 150
syslog distant, mise à niveau 39
syslog distant, mise à niveau 39
Système de noms de domaine 84
T
tâches MapReduce
échec d'exécution 158
et clusters de calcul uniquement 158
impossible d'envoyer 158
interruption 159
surveillance 128
topologie, cluster 102
type de DNS, modifier 95
Type de DNS 94
types de déploiement de distribution Hadoop 45
U
unicode UTF-8 20
utilisateur racine 139
utilisateur serengeti 139
VMware, Inc.
Index
V
valeurs de configuration de référentiels Yum 49
vCenter Server, communication avec 76
vCenter Server, échec de connexion 152
Vérifier l'adresse IP et la connectivité 68
versions, plug-in Big Data Extensions 155
vSphere Fault Tolerance (FT) 117
vSphere High Availability (HA) 117
Y
Yum et référentiels Yum, configuration 48
VMware, Inc.
167
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions
168
VMware, Inc.

Manuels associés