Mode d'emploi | VMware vSphere Big Data Extensions 2.3 Manuel utilisateur

Ajouter à Mes manuels
120 Des pages
Mode d'emploi | VMware vSphere Big Data Extensions 2.3 Manuel utilisateur | Fixfr
Guide de l'interface de ligne de
commande VMware vSphere Big Data
Extensions
vSphere Big Data Extensions 2.3
Ce document prend en charge la version de chacun des produits
répertoriés, ainsi que toutes les versions publiées par la suite
jusqu'au remplacement dudit document par une nouvelle
édition. Pour rechercher des éditions plus récentes de ce
document, rendez-vous sur :
http://www.vmware.com/fr/support/pubs.
FR-001702-00
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Vous trouverez la documentation technique la plus récente sur le site Web de VMware à l'adresse :
http://www.vmware.com/fr/support/
Le site Web de VMware propose également les dernières mises à jour des produits.
N’hésitez pas à nous transmettre tous vos commentaires concernant cette documentation à l’adresse suivante :
[email protected]
Copyright © 2013 – 2015 VMware, Inc. Tous droits réservés. Copyright et informations sur les marques.
Ce guide est sous licence Creative Commons Attribution-NoDerivs 3.0 United States License
(http://creativecommons.org/licenses/by-nd/3.0/us/legalcode).
VMware, Inc.
3401 Hillview Ave.
Palo Alto, CA 94304
www.vmware.com
2
VMware, Inc.
100-101 Quartier Boieldieu
92042 Paris La Défense
France
www.vmware.com/fr
VMware, Inc.
Table des matières
À propos de ce guide 7
1 Utilisation du client d'interface de ligne de commande distant Serengeti 9
Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
commande distant 9
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 11
2 Gestion des gestionnaires d'applications 13
À propos des gestionnaires d'applications 13
Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 14
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti 15
Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 15
Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti 15
Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti 16
Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 16
3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne
de commande Serengeti 19
À propos des gestionnaires d'applications 19
Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 23
Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 23
Ajouter une banque de données avec l'interface de ligne de commande Serengeti 24
Supprimer une banque de données avec l'interface de ligne de commande Serengeti 24
Ajouter un réseau avec l'interface de ligne de commande Serengeti 24
Supprimer un réseau avec l'interface de ligne de commande Serengeti 25
Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti 25
Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti 26
Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. 27
4 Gérer les utilisateurs et les comptes d'utilisateurs 29
Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande
Serengeti 29
Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti 31
Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de
commande Serengeti 31
Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti 32
Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti 33
VMware, Inc.
3
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
5 Création de clusters Hadoop et HBase 35
À propos des types de déploiement de clusters Hadoop et HBase 37
Configurations des clusters Hadoop par défaut pour Serengeti 37
Configurations des clusters HBase par défaut pour Serengeti 38
À propos de la topologie des clusters 38
À propos des clusters HBase 41
À propos des clusters MapReduce 49
À propos des clusters de calcul de données 52
À propos des clusters personnalisés 64
6 Gestion des clusters Hadoop et HBase 73
Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti 74
Agrandir un cluster avec l'interface de ligne de commande Serengeti 74
Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti 75
Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 75
Supprimer un cluster avec l'interface de ligne de commande Serengeti 78
À propos de vSphere High Availability et de vSphere Fault Tolerance 78
Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti 78
Développer un cluster à l'aide de l'interface de ligne de commande 78
Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti
Effectuer la récupération d'une machine virtuelle de nœud de cluster 80
Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
d'interface de ligne de commande Serengeti 81
80
7 Surveillance de l'environnement Big Data Extensions 83
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti 83
Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti 84
Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti 84
Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti 84
Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti 85
Afficher les banques de données avec l'interface de ligne de commande Serengeti 85
Afficher les réseaux avec l'interface de ligne de commande Serengeti 86
Afficher les pools de ressources avec l'interface de ligne de commande Serengeti 86
8 Référence de spécification de cluster 87
Conditions requises de fichier de spécification de cluster 87
Conditions requises de la définition de cluster 88
Fichier de spécification de cluster annoté 88
Définitions des attributs de spécification de cluster 91
Attributs Hadoop de la liste blanche et de la liste noire 94
Convertir les fichiers XML Hadoop en Serengeti fichiers JSON 96
9 Référence des commandes de l'interface de ligne de commande Serengeti 97
Commandes appmanager 97
4
VMware, Inc.
Table des matières
Commandes cluster 99
Commande connect 106
Commandes datastore 107
Commande disconnect 107
Commande distro list 108
Commandes mgmtvmcfg 108
Commandes network 109
Commandes resourcepool 110
Commandes template 111
Commandes topology 111
Commandes usermgmt 112
Index
VMware, Inc.
115
5
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
6
VMware, Inc.
À propos de ce guide
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit comment utiliser
l'interface de ligne de commande Serengeti pour gérer les ressources vSphere utilisées pour créer les clusters
Hadoop et HBase. Il explique aussi comment créer, gérer et surveiller les clusters Hadoop et HBase à partir
de l'interface de ligne de commande VMware Serengeti™.
Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit aussi comment
exécuter les opérations Hadoop et HBase avec l'Serengeti CLI, et fournit la spécification de cluster et les
références des commandes de l'Serengeti CLI.
Public ciblé
Le guide est destiné aux administrateurs système et aux développeurs qui veulent utiliser Serengeti pour
déployer et gérer des clusters Hadoop. Pour bien utiliser Serengeti, vous devez connaître Hadoop et
®
®
VMware vSphere .
Glossaire VMware Technical Publications
VMware Technical Publications fournit un glossaire des termes qui peuvent éventuellement ne pas vous
être familiers. Pour consulter la définition des termes utilisés dans la documentation technique VMware,
visitez le site Web http://www.vmware.com/support/pubs.
VMware, Inc.
7
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
8
VMware, Inc.
1
Utilisation du client d'interface de
ligne de commande distant Serengeti
Le client d'interface de ligne de commande distant Serengeti vous permet d'accéder à
Serengeti Management Server pour déployer, gérer et utiliser Hadoop.
Ce chapitre aborde les rubriques suivantes :
n
« Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de
commande distant », page 9
n
« Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti »,
page 11
Accéder à l'interface de ligne de commande Serengeti à l'aide du
client d'interface de ligne de commande distant
Vous pouvez accéder à l'interface de ligne de commande (CLI) Serengeti pour effectuer des tâches
administratives Serengeti à l'aide du client d'interface de ligne de commande distant Serengeti.
Prérequis
®
n
Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server sur
lequel vous avez déployé le vApp Serengeti.
n
Vérifiez que le déploiement de Serengeti vApp s'est correctement déroulé et que le serveur de gestion
est en cours d'exécution.
n
Vérifiez que le mot de passe dont vous disposez pour vous connecter à la Serengeti CLI est exact.
Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
La Serengeti CLI utilise ses informations d'identification vCenter Server.
n
Vérifiez que l'environnement d'exécution Java (JRE, Java Runtime Environment) est installé dans votre
environnement et que son emplacement se trouve dans votre variable d'environnement path.
Procédure
1
Téléchargez le package Serengeti CLI à partir du Serengeti Management Server.
Ouvrez un navigateur Web et naviguez jusqu'à l'URL suivante :
https://server_ip_address/cli/VMware-Serengeti-CLI.zip
2
Téléchargez le fichier ZIP.
Le nom de fichier est au format VMware-Serengeti-cli-numéro_version-numéro_build.ZIP.
VMware, Inc.
9
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
Décompressez le fichier téléchargé.
Celui-ci inclut les composants suivants.
n
Le fichier JAR serengeti-cli-version_number, qui inclut le Serengeti Remote CLI Client.
n
Répertoire samples, qui inclut des exemples de configurations de clusters.
n
Bibliothèques dans le répertoire lib.
4
Ouvrez une interface de commande, puis accédez au répertoire dans lequel vous avez décompressé le
package.
5
Accédez au répertoire cli, puis exécutez la commande suivante pour entrer dans l'interface de ligne de
commande Serengeti.
n
Pour les langues autres que le français ou l'allemand, exécutez la commande suivante.
java -jar serengeti-cli-numéro_version.jar
n
Pour le français ou l'allemand, qui utilisent l'encodage linguistique de page de code 850 (CP 850)
exécuter l'interface de ligne de commande Serengeti à partir d'une console de commandes
Windows, exécutez la commande suivante.
java -Dfile.encoding=cp850 -jar serengeti-cli-numéro_version.jar
6
Connectez-vous au service Serengeti.
Vous devez exécuter la commande connect host chaque fois que vous commencez une session
d'interface de ligne de commande, puis une nouvelle fois à l'issue du délai d'expiration de session de
30 minutes. Si vous n'exécutez pas cette commande, vous ne pouvez pas en exécuter d'autres.
a
Exécutez la commande connect.
connect --host xx.xx.xx.xx:8443
b
À l'invite, tapez votre nom d'utilisateur, qui peut être différent des informations d'identification
que vous utilisez pour vous connecter au Serengeti Management Server.
REMARQUE Si vous ne créez pas de nom d'utilisateur et de mot de passe pour le
Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification
d'administrateur vCenter Server par défaut. Le Serengeti Command-Line Interface Client utilise les
informations d'identification de vCenter Server avec les autorisations de lecture sur le
Serengeti Management Server.
c
À l'invite, tapez votre mot de passe.
Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI apparaît. Vous pouvez utiliser la
commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe.
n
Pour afficher la liste des commandes disponibles, tapez help.
n
Pour obtenir de l'aide sur une commande particulière, ajoutez son nom après la commande help.
help cluster create
n
10
Appuyez sur Tab exécuter une commande.
VMware, Inc.
Chapitre 1 Utilisation du client d'interface de ligne de commande distant Serengeti
Se connecter aux nœuds Hadoop avec le client d'interface de ligne de
commande Serengeti
Pour résoudre les problèmes ou exécuter vos scripts d'automatisation de la gestion, connectez-vous aux
nœuds Hadoop master, worker et client via SSH à partir du Serengeti Management Server à l'aide des outils
des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de
passe.
Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion
authentifiée par un nom d'utilisateur et un mot de passe. Tous les nœuds déployés sont protégés par un mot
de passe soit aléatoire, soit défini par l'utilisateur, qui a été attribué lors de la création du cluster.
Prérequis
Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine virtuelle
Serengeti Management Server est en cours d'exécution.
Procédure
1
Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et sélectionnez
Ouvrir la console.
Le mot de passe du Serengeti Management Server s'affiche.
REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à
l'invite de commande.
2
Utilisez vSphere Web Client pour vous connecter au nœud Hadoop.
Le mot de passe de l'utilisateur root apparaît sur la console de la machine virtuelle dans
vSphere Web Client.
3
Modifiez le mot de passe du nœud Hadoop en exécutant la commande set-password -u.
sudo /opt/serengeti/sbin/set-password -u
VMware, Inc.
11
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
12
VMware, Inc.
Gestion des gestionnaires
d'applications
2
Pour bien gérer vos clusters Hadoop, il est essentiel de comprendre comment gérer les différents
gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions.
Ce chapitre aborde les rubriques suivantes :
n
« À propos des gestionnaires d'applications », page 13
n
« Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
page 14
n
« Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti », page 15
n
« Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
page 15
n
« Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti », page 15
n
« Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti », page 16
n
« Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti »,
page 16
À propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour
provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à
Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
n
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
n
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
VMware, Inc.
13
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
n
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
au lieu de l'URL.
n
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
n
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps
que les anciens.
n
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions.
Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne
de commande Serengeti
Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le
gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez
le nom de domaine complet (FQDN) au lieu de l'URL.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager add.
appmanager add --name application_manager_name --type [ClouderaManager|Ambari]
--url http[s]://server:port
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères
alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et
espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du
gestionnaire d'applications.
3
Entrez à l'invite votre nom d'utilisateur et votre mot de passe.
4
Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL.
Suivant
Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager
list.
14
VMware, Inc.
Chapitre 2 Gestion des gestionnaires d'applications
Afficher la liste des gestionnaires d'applications à l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement
Big Data Extensions.
Modifier un gestionnaire d'applications à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI :
par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP
statique ou vous pouvez mettre à niveau le compte de l'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement
Big Data Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url <http[s]://server:port>
Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur
cette commande, consultez « Commande appmanager modify », page 98.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications à l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire
d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
VMware, Inc.
15
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous spécifiez.
Afficher les configurations ou les rôles pour le gestionnaire
d'applications et la distribution à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les spécifications de cluster.
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser
de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications spécifique.
Supprimer un gestionnaire d'applications à l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Prérequis
n
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre
environnement Big Data Extensions.
n
Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
Sinon, le processus de suppression échouera.
Procédure
1
16
Accédez à l'interface de ligne de commande Serengeti.
VMware, Inc.
Chapitre 2 Gestion des gestionnaires d'applications
2
Exécutez la commande appmanager delete.
appmanager delete
VMware, Inc.
--name application_manager_name
17
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
18
VMware, Inc.
Gestion de l'environnement Big Data
Extensions à l'aide de l'interface de
ligne de commande Serengeti
3
Vous devez gérer votre Big Data Extensions, ce qui inclut de s'assurer que si vous n'avez pas choisi d'ajouter
le pool de ressources, la banque de données et le réseau lorsque vous déployez le vApp Serengeti, vous
ajoutez les ressources vSphere avant de créer un cluster Hadoop ou HBase. Vous devez aussi ajouter des
gestionnaires d'applications supplémentaires, si vous voulez utiliser Ambari ou Cloudera Manager pour
gérer vos clusters Hadoop. Vous pouvez supprimer les ressources dont vous n'avez plus besoin.
Ce chapitre aborde les rubriques suivantes :
n
« À propos des gestionnaires d'applications », page 19
n
« Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti », page 23
n
« Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti », page 23
n
« Ajouter une banque de données avec l'interface de ligne de commande Serengeti », page 24
n
« Supprimer une banque de données avec l'interface de ligne de commande Serengeti », page 24
n
« Ajouter un réseau avec l'interface de ligne de commande Serengeti », page 24
n
« Supprimer un réseau avec l'interface de ligne de commande Serengeti », page 25
n
« Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti », page 25
n
« Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti », page 26
n
« Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. »,
page 27
À propos des gestionnaires d'applications
Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour
provisionner et gérer des clusters avec VMware vSphere Big Data Extensions.
Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à
Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et
la gestion des clusters.
Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes :
n
Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et
des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques.
n
Créer des clusters.
n
Surveiller et gérer des services à partir de la console du gestionnaire d'applications.
Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux
outils.
VMware, Inc.
19
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Restrictions
Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari :
n
Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN)
au lieu de l'URL.
n
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le
cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager.
n
Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire
d'applications sur les nœuds.
Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps
que les anciens.
n
Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de
clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions.
Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les
nouvelles configurations.
Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de
commande Serengeti
Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le
gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions.
REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez
le nom de domaine complet (FQDN) au lieu de l'URL.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager add.
appmanager add --name application_manager_name --type [ClouderaManager|Ambari]
--url http[s]://server:port
Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères
alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et
espace.
Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du
gestionnaire d'applications.
3
Entrez à l'invite votre nom d'utilisateur et votre mot de passe.
4
Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL.
Suivant
Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager
list.
20
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI :
par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP
statique ou vous pouvez mettre à niveau le compte de l'administrateur.
Prérequis
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement
Big Data Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande appmanager modify.
appmanager modify --name application_manager_name
--url <http[s]://server:port>
Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur
cette commande, consultez « Commande appmanager modify », page 98.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications à l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire
d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous spécifiez.
Afficher les configurations ou les rôles pour le gestionnaire d'applications et la
distribution à l'aide de l'interface de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les spécifications de cluster.
VMware, Inc.
21
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser
de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications spécifique.
Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement
Big Data Extensions.
Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Prérequis
n
Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre
environnement Big Data Extensions.
n
Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster.
Sinon, le processus de suppression échouera.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager delete.
appmanager delete
22
--name application_manager_name
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Ajouter un pool de ressources avec l'interface de ligne de commande
Serengeti
Vous pouvez ajouter des pools de ressources pour qu'ils puissent être utilisés par les clusters Hadoop. Les
pools de ressources doivent être situés au niveau supérieur du cluster. Les pools de ressources imbriqués ne
sont pas pris en charge.
Lorsque vous ajoutez un pool de ressources à Big Data Extensions, il représente symboliquement le pool de
ressources vSphere réel tel qu'il est identifié par vCenter Server. Cette représentation symbolique vous
permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'accès complet du
pool de ressources dans vCenter Server, dans les fichiers de spécification de cluster.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les
clusters qui utilisent ce pool de ressources.
Procédure
1
Accédez au client d'interface de ligne de commande Serengeti.
2
Exécutez la commande resourcepool add.
Le paramètre --vcrp est facultatif.
Cet exemple ajoute un pool de ressources Serengeti nommé myRP au pool de ressources vSphere rp1
contenu dans le cluster vSphere cluster1.
resourcepool add --name myRP --vccluster cluster1 --vcrp rp1
Supprimer un pool de ressources avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilisés par un cluster Hadoop.
Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les
clusters Hadoop que vous créez dans le serveur de gestion Serengeti soient déployés sous un autre pool de
ressources. La suppression d'un pool de ressources supprime sa référence dans vSphere. Le pool de
ressources n'est pas réellement supprimé.
Procédure
1
Accédez au client d'interface de ligne de commande Serengeti.
2
Exécutez la commande resourcepool delete.
Si la commande échoue parce que le pool de ressources est référencé par un cluster Hadoop, vous
pouvez utiliser la commande resourcepool list pour voir quel cluster référence ce pool de ressources.
Cet exemple supprime le pool de ressources nommé myRP.
resourcepool delete --name myRP
VMware, Inc.
23
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Ajouter une banque de données avec l'interface de ligne de
commande Serengeti
Vous pouvez ajouter des banques de données locales ou partagées au serveur Serengeti pour que les clusters
Hadoop puissent y accéder.
REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de
ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les
clusters qui utilisent ce pool de ressources.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande datastore add.
L'exemple ajoute une nouvelle banque de données de stockage local, nommée myLocalDS. La valeur du
paramètre --spec, local*, est un caractère générique spécifiant un ensemble de banques de données
vSphere. Toutes les banques de données vSphere dont le nom commence par « local » sont ajoutées et
gérées comme un tout par Serengeti.
datastore add --name myLocalDS --spec local* --type LOCAL
Suivant
Après avoir ajouté une banque de données à Big Data Extensions, ne la renommez pas dans vSphere. Si
vous la renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
Supprimer une banque de données avec l'interface de ligne de
commande Serengeti
Vous pouvez supprimer une banque de données de Serengeti qui n'est référencée par aucun cluster
Hadoop. La suppression d'une banque de données supprime uniquement la référence à la banque de
données vCenter Server. La banque de données elle-même n'est pas supprimée.
Vous supprimez les banques de données si vous n'en avez plus besoin ou si vous voulez déployer les
clusters Hadoop que vous créez sur le serveur de gestion Serengeti sous une autre banque de données.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande datastore delete.
Si la commande échoue parce que la banque de données est référencée par un cluster Hadoop, vous
pouvez utiliser la commande datastore list pour savoir quel cluster fait référence à la banque de
données.
Cet exemple supprime la banque de données myDS.
datastore delete --name myDS
Ajouter un réseau avec l'interface de ligne de commande Serengeti
Ajouter des réseaux à Big Data Extensions permet aux clusters Hadoop d'accéder à leurs adresses IP. Un
réseau est à la fois un groupe de ports et un moyen d'accéder à ce groupe via une adresse IP.
Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le
renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
24
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant
d'ajouter le réseau.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande network add.
Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les machines
virtuelles utilisant ce réseau recourent au protocole DHCP pour obtenir les adresses IP.
network add --name myNetwork --portGroup 10PG --dhcp
Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les nœuds Hadoop
utilisent les adresses de la plage d'adresses IP 192.168.1.2-100 ; l'adresse IP du serveur DNS est
10.111.90.2, l'adresse de la passerelle est 192.168.1.1 et le masque de sous-réseau est 255.255.255.0.
network add --name myNetwork --portGroup 10PG --ip 192.168.1.2-100 --dns 10.111.90.2
--gateway 192.168.1.1 --mask 255.255.255.0
Pour spécifier plusieurs segments d'adresse IP, utilisez différentes chaînes afin d'exprimer la plage
d'adresses IP au format xx.xx.xx.xx-xx[,xx]*.
xx.xx.xx.xx-xx, xx.xx.xx.xx-xx, single_ip, single_ip
Cet exemple ajoute un réseau dynamique avec des adresses IP attribuées par DHCP et un nom d'hôte
significatif.
network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC
Supprimer un réseau avec l'interface de ligne de commande Serengeti
Vous pouvez supprimer un réseau de Serengeti qui n'est référencé par aucun cluster Hadoop. La
suppression d'un réseau non utilisé libère les adresses IP en vue d'une réutilisation.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande network delete.
network delete --name network_name
Si la commande échoue parce que le réseau est référencé par un cluster Hadoop, vous pouvez utiliser la
commande network list --detail pour savoir quel cluster fait référence au réseau.
Reconfigurer un réseau IP statique avec l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer un réseau IP statique Serengeti en lui ajoutant des segments d'adresse IP. Il se
peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de capacité pour
le cluster que vous voulez créer.
Si la plage d'adresses IP que vous spécifiez inclut les adresses IP qui sont déjà dans le réseau, Serengeti
ignore les adresses dupliquées. Les adresses restantes de la plage spécifiée sont ajoutées au réseau. Si le
réseau est déjà utilisé par un cluster, celui-ci peut utiliser les nouvelles adresses IP après que vous les avez
ajoutées au réseau. Si seule une partie de la plage d'adresses IP est utilisée par un cluster, les adresses IP non
employées peuvent être utilisées lorsque vous créez un nouveau cluster.
VMware, Inc.
25
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Prérequis
Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant
d'ajouter le réseau.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande network modify.
Cet exemple ajoute les adresses IP comprises entre 192.168.1.2 et 192.168.1.100 à un réseau nommé
myNetwork.
network modify --name myNetwork --addIP 192.168.1.2-100
Reconfigurer le type de DNS à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer le type de système de noms de domaine (DNS) d'un réseau, et spécifier que
Big Data Extensions génère des noms d'hôte significatifs pour les nœuds d'un cluster Hadoop.
Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le
renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent.
Vous pouvez spécifier trois options DNS :
Normale
Le serveur DNS fournit la résolution FQDN/IP dans les deux sens. Le DNS
inverse correspond au mappage de l'adresse IP au nom de domaine. Il s'agit
du contraire du DNS normal qui mappe les noms de domaine aux
adresses IP. Par défaut, le type de DNS est normal.
Dynamique
Dynamic DNS (DDNS ou DynDNS) est une méthode qui permet la mise à
jour automatique d'un nom de serveur du système DNS (Domain Name
System) avec la configuration DNS active de ses noms d'hôte configurés,
adresses ou autres informations. Big Data Extensions s'intègre à un serveur
Dynamic DNS de son réseau, au travers duquel il fournit des noms d'hôte
significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite
automatiquement auprès du serveur DNS.
Autres
Il n'y a pas de serveur DNS ou le serveur DNS n'offre pas de résolution DNS
normale ou de services Dynamic DNS. Dans ce cas, vous devez ajouter un
mappage FQDN/IP pour tous les nœuds du fichier /etc/hosts de chaque
nœud du cluster. Grâce à ce mappage de noms d'hôte vers des adresses IP,
chaque nœud peut contacter un autre nœud du cluster.
Les noms d'hôte vous permettent d'identifier les éléments plus facilement et d'utiliser des services tels que
l'authentification unique, ce qui nécessite l'utilisation d'un DNS correctement configuré.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande network modify.
Vous pouvez spécifier trois types de DNS : NORMAL, DYNAMIC et OTHERS. La valeur par défaut est NORMAL.
Dans cet exemple, un réseau nommé myNetwork est modifié de sorte qu'il utilise un type Dynamic DNS.
Les machines virtuelles utilisant ce réseau recourront au protocole DHCP pour obtenir les adresses IP.
network modify --name myNetwork --dnsType DYNAMIC
26
VMware, Inc.
Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti
Augmenter les performances de clonage et l'utilisation des
ressources des machines virtuelles.
Vous pouvez rapidement cloner et déployer des machines virtuelles à l'aide de Instant Clone, une
fonctionnalité de vSphere 6.0.
À l'aide de Instant Clone, une machine virtuelle parent est dupliquée, puis une machine virtuelle enfant (ou
un clone instantané) est créée. La machine virtuelle enfant tire profit du stockage et de la mémoire de la
machine virtuelle parent, ce qui permet de réduire l'utilisation des ressources.
Lorsque vous provisionnez un cluster, Big Data Extensions crée une machine virtuelle parent pour chaque
hôte sur lequel un nœud de cluster a été placé. Après le provisionnement, un nouveau pool de ressources
étiqueté BDE-ParentVMs-$serengeti.uuid-$template.name apparaît dans vCenter Server. Ce pool de
ressources contient plusieurs machines virtuelles parent. Les nœuds de cluster normaux sont clonés
instantanément à partir de ces machines virtuelles parent. Une fois qu'elles sont créées sur les hôtes du
cluster, le temps nécessaire au provisionnement et à la mise à l'échelle d'un cluster est considérablement
réduit.
Lorsque vous mettez un clone à l'échelle, le type de clone que vous avez spécifié lors de la création du
cluster continue d'être utilisé, quel que soit le type actuel du clone. Par exemple, si vous avez créé un cluster
à l'aide de la fonction Instant Clone, puis que vous passez au type Fast Clone dans Big Data Extensions, le
cluster que vous avez provisionné à l'aide d'Instant Clone continuera d'utiliser Instant Clone pour agrandir
le cluster.
Si vous créez des clusters et que vous souhaitez ultérieurement apporter des changements à la machine
virtuelle de modèle utilisée pour provisionner ces clusters, vous devez d'abord supprimer toutes les
machines virtuelles parent existantes avant d'utiliser la nouvelle machine virtuelle de modèle. Lorsque vous
créez des clusters à l'aide du nouveau modèle, Big Data Extensions crée de nouvelles machines virtuelles
parent basées sur le nouveau modèle.
Prérequis
Votre déploiement Big Data Extensions doit utiliser vSphere 6.0 pour bénéficier d'Instant Clone.
Procédure
1
Connectez-vous à Serengeti Management Server.
2
Modifiez le fichier /opt/serengeti/conf/serengeti.properties et changez la valeur de
cluster.clone.service=fast.
Le type de clone par défaut lorsque vous exécutez vSphere 6.0 est Instant Clone.
cluster.clone.service = instant
3
Pour activer le type Instant Clone, redémarrez Serengeti Management Server.
sudo /sbin/service tomcat restart
Serengeti Management Server lit le fichier serengeti.properties révisé et applique la fonction Fast
Clone à tous les nouveaux clusters que vous créez.
Suivant
Tous les clusters que vous créez ensuite utiliseront Instant Clone pour déployer les machines virtuelles.
Reportez-vous à Chapitre 5, « Création de clusters Hadoop et HBase », page 35.
VMware, Inc.
27
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
28
VMware, Inc.
Gérer les utilisateurs et les comptes
d'utilisateurs
4
Par défaut, l'authentification est configurée uniquement pour les comptes d'utilisateurs locaux dans
Big Data Extensions. Si vous voulez utiliser LDAP (soit Active Directory soit un répertoire compatible
OpenLDAP) pour authentifier les utilisateurs, vous devez configurer Big Data Extensions pour utiliser votre
service LDAP ou Active Directory.
Ce chapitre aborde les rubriques suivantes :
n
« Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande
Serengeti », page 29
n
« Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti »,
page 31
n
« Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande
Serengeti », page 31
n
« Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 32
n
« Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti », page 33
Créer un fichier de configuration du service LDAP avec l'interface de
ligne de commande Serengeti
Créez un fichier de configuration qui identifie votre environnement de serveur LDAP ou Active Directory.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Accédez au répertoire de Serengeti Management Server dans lequel vous souhaitez créer et stocker le
fichier de configuration.
Vous pouvez utiliser le répertoire /opt/serengeti/etc pour stocker votre fichier de configuration.
VMware, Inc.
29
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
À l'aide d'un éditeur de texte, créez un fichier JavaScript Object Notation (JSON) contenant les
paramètres de configuration de votre service LDAP ou Active Directory.
Le format du fichier de configuration est représenté ci-dessous.
{
"type": "user_mode_type",
"primaryUrl": "ldap://AD_LDAP_server_IP_address:network_port",
"baseUserDn": "DN_information",
"baseGroupDn": "DN_information",
"userName": "username",
"password": "password",
"mgmtVMUserGroupDn":"DN_information"
}
Tableau 4‑1. Informations de connexion LDAP
4
type
Le service d'authentification utilisateur externe à utiliser (soit AD_AS_LDAP, soit LDAP).
baseUserDn
Indiquez le DN utilisateur de base.
baseGroupDn
Indiquez le DN groupe de base.
primaryUrl
Indiquez l'URL du serveur principal de votre serveur Active Directory ou LDAP.
mgmtVMUserGroupDn
(Facultatif) Spécifiez le DN de base pour rechercher les groupes afin d'accéder au
Serengeti Management Server.
userName
Saisissez le nom d'utilisateur du compte d'administrateur Active Directory ou LDAP.
password
Saisissez le mot de passe du compte d'administrateur Active Directory ou LDAP.
Lorsque le fichier est terminé, enregistrez votre travail.
Exemple : Exemple de fichier de configuration LDAP
L'exemple suivant illustre le fichier de configuration d'un serveur LDAP dans le domaine acme.com.
{
"type": "LDAP",
"primaryUrl": "ldap://acme.com:8888",
"baseUserDn": "ou=users,dc=dev,dc=acme,dc=com",
"baseGroupDn": "ou=users,dc=dev,dc=acme,dc=com",
"userName": "jsmith",
"password": "MyPassword",
"mgmtVMUserGroupDn":"cn=Administrators,cn=Builtin,dc=dev,dc=acme,dc=com"
}
Suivant
Une fois que vous avez créé un fichier de configuration LDAP, vous pouvez activer la gestion centralisée
des utilisateurs pour votre environnement Big Data Extensions. Reportez-vous à « Activer la gestion
centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31.
30
VMware, Inc.
Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs
Activer la gestion centralisée des utilisateurs à l'aide de l'interface de
ligne de commande Serengeti
Vous devez configurer Big Data Extensions de sorte qu'il utilise une source d'identité utilisateur externe
avant de pouvoir gérer les utilisateurs via votre service LDAP ou Active Directory.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Créez un fichier de configuration identifiant votre environnement LDAP ou Active Directory à utiliser
avec Big Data Extensions. Reportez-vous à « Créer un fichier de configuration du service LDAP avec
l'interface de ligne de commande Serengeti », page 29
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande usermgmtserver add --cfgfile config_file_path
Cet exemple active la gestion centralisée des utilisateurs, en indiquant que les paramètres de
configuration LDAP se trouvent dans le fichier /opt/serengeti/LDAPConfigFile.cfg.
usermgmtserver add --cfgfile /opt/serengeti/LDAPConfigFile.cfg
3
Exécutez la commande mgmtvmcfg get pour vérifier la configuration correcte de votre environnement en
affichant les informations de configuration du service LDAP ou Active Directory.
Le contenu du fichier de la configuration active utilisé par votre environnement Big Data Extensions
s'affiche sur le terminal.
Suivant
Lorsque vous activez la gestion centralisée des utilisateurs, vous pouvez créer des clusters et attribuer des
rôles de gestion des utilisateurs à l'aide des utilisateurs et des groupes d'utilisateurs définis par votre service
LDAP ou Active Directory. Reportez-vous à « Créer un cluster avec l'authentification utilisateur LDAP à
l'aide de l'interface de ligne de commande Serengeti », page 31.
Créer un cluster avec l'authentification utilisateur LDAP à l'aide de
l'interface de ligne de commande Serengeti
Lorsque la gestion centralisée des utilisateurs est configurée et activée, vous pouvez accorder des privilèges
aux utilisateurs et aux groupes d'utilisateurs dans votre service LDAP ou Active Directory pour chaque
cluster Hadoop que vous créez.
Pour illustrer l'utilisation de la gestion centralisée des utilisateurs dans votre environnement
Big Data Extensions, vous pouvez attribuer aux groupes dotés de privilèges administratifs dans votre
service LDAP ou Active Directory un accès au Serengeti Management Server. Cela permet aux utilisateurs
d'administrer Big Data Extensions et le Serengeti Management Server. Vous pouvez ensuite octroyer à un
autre groupe d'utilisateurs un accès à des nœuds de cluster Hadoop pour leur permettre d'exécuter des
tâches Hadoop.
VMware, Inc.
31
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour accéder aux commandes de l'Serengeti CLI et de Serengeti, les utilisateurs doivent prendre l'identité
d'utilisateur serengeti après leur connexion. Par exemple, vous pouvez utiliser la commande su pour
prendre l'identité d'utilisateur serengeti. Vous pourrez ensuite accéder à l'Serengeti CLI.
su serengeti
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportezvous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 31.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez le cluster create command et spécifiez la valeur des paramètres --adminGroupName et -userGroupName à l'aide des noms des groupes d'administrateurs et des groupes d'utilisateurs auxquels
vous souhaitez accorder des privilèges relatifs au cluster que vous créez.
cluster create --name cluster_name --type hbase --adminGroupName AdminGroupName -userGroupName UserGroupName
Suivant
Après avoir déployé le cluster Hadoop, vous pouvez y accéder à l'aide de plusieurs méthodes. Consultez le
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Changer les modes de gestion des utilisateurs à l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez modifier le mode de gestion des utilisateurs de votre environnement Big Data Extensions.
Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux.
Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux gérés par LDAP ou Active
Directory, ou une combinaison de ces méthodes d'authentification.
Tableau 4‑2. Modes d'authentification utilisateur
32
Mode utilisateur
Description
Local
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre
environnement Big Data Extensions. Il s'agit de la solution de gestion des utilisateurs par
défaut.
Utilisateur LDAP
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source
d'identité de votre entreprise telle qu'Active Directory ou LDAP. Si vous choisissez le mode
utilisateur LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service
LDAP ou Active Directory (Active Directory en tant que LDAP).
Mode mixte
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans
une source d'identité externe. Si vous choisissez le mode mixte, vous devez configurer
Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory
en tant que LDAP).
VMware, Inc.
Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande mgmtvmcfg modify pour spécifier le mode d'authentification utilisateur que vous
souhaitez utiliser.
n
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre
environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par défaut
lorsqu'aucun service Active Directory ou LDAP n'est disponible.
mgmtvmcfg modify LOCAL
n
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une
source d'identité externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions
pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify MIXED
n
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de
votre entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP,
vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify LDAP
Big Data Extensions utilise le mode d'authentification utilisateur que vous avez spécifié.
Modifier la configuration LDAP à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez modifier vos paramètres LDAP et rendre ces modifications disponibles dans votre
environnement Big Data Extensions.
Vous pouvez appliquer à Big Data Extensions les modifications que vous apportez à vos paramètres de
configuration LDAP. Cela vous permet de mettre à jour vos informations du service LDAP.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions
Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportezvous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande
Serengeti », page 31.
n
Modifiez le fichier de configuration LDAP pour refléter tous les changements que vous souhaitez
apporter à vos paramètres de gestion des utilisateurs. Reportez-vous à « Créer un fichier de
configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29
VMware, Inc.
33
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande usermgmtserver modify --cfgfile config_file_path
usermgmtserver modify --cfgfile config_file_path
Tous les changements que vous avez apportés au fichier de configuration LDAP sont appliqués à votre
environnement Big Data Extensions. Les clusters que vous créez utiliseront les nouveaux paramètres LDAP.
Suivant
Vous pouvez créer des clusters et attribuer des rôles de gestion des utilisateurs à l'aide des utilisateurs et des
groupes d'utilisateurs définis par votre service LDAP ou Active Directory. Reportez-vous à « Créer un
cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti »,
page 31.
34
VMware, Inc.
Création de clusters Hadoop et
HBase
5
Dans Big Data Extensions, vous pouvez créer et déployer des clusters Hadoop et HBase. Un cluster Big Data
est un type de cluster de calcul conçu pour stocker et analyser de grandes quantités de données non
structurées dans un environnement informatique distribué.
Restrictions.
n
Lorsque vous créez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par
défaut, car les autres ne prennent pas en charge ce type de cluster.
n
Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou
Ambari.
n
La mise hors tension temporaire des hôtes provoque l'échec des clusters Big Data pendant la création
du cluster.
Lorsque vous créez des clusters Big Data, Big Data Extensions calcule le placement des machines
virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des stratégies de
placement définies par l'utilisateur avant la création des machines virtuelles. Lors de ces calculs, si
certains hôtes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power
Management (VMware DPM), ces hôtes ne sont pas considérés comme des ressources disponibles par
Big Data Extensions.
Si un hôte est mis hors tension ou en veille après que Big Data Extensions a calculé le placement des
machines virtuelles, mais avant leur création, la création du cluster échoue tant que vous ne remettez
pas ces hôtes sous tension. Les solutions de contournement suivantes peuvent vous aider à éviter ce
problème et à y remédier.
n
Désactivez VMware DPM sur les clusters vSphere où vous déployez et exécutez
Big Data Extensions.
n
Mettez les hôtes en mode maintenance avant de les mettre hors tension.
n
Si la création d'un cluster Big Data échoue en raison de l'indisponibilité temporaire des hôtes qui
lui sont attribués, reprenez la création du cluster après avoir mis les hôtes sous tension.
Conditions
Les besoins en ressources sont différents pour les clusters créés avec l'interface de ligne de commande de
Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des modèles
par défaut différents. Les clusters par défaut créés à l'aide de la Serengeti CLI sont ciblés sur les utilisateurs
de Project Serengeti et les applications de validation technique. Ils sont plus petits que les modèles de plugin de Big Data Extensions, qui sont ciblés sur des déploiements de plus grande envergure à usage
commercial.
VMware, Inc.
35
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Certaines configurations de déploiement nécessitent plus de ressources que d'autres. Par exemple, si vous
créez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous
créez un cluster MapR ou Greenplum HD par défaut à l'aide de la Serengeti CLI, il est recommandé de
disposer d'au moins 550 Go de stockage et de 55 Go de mémoire. Pour les autres distributions Hadoop, il est
recommandé de disposer d'au moins 350 Go de stockage et de 35 Go de mémoire.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles sur le cluster. Cela empêche la migration automatique des
machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du
cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur
de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de
l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data
Extensions telles que la récupération de défaillances de disque.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un
chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Ce chapitre aborde les rubriques suivantes :
36
n
« À propos des types de déploiement de clusters Hadoop et HBase », page 37
n
« Configurations des clusters Hadoop par défaut pour Serengeti », page 37
n
« Configurations des clusters HBase par défaut pour Serengeti », page 38
n
« À propos de la topologie des clusters », page 38
n
« À propos des clusters HBase », page 41
n
« À propos des clusters MapReduce », page 49
n
« À propos des clusters de calcul de données », page 52
n
« À propos des clusters personnalisés », page 64
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
À propos des types de déploiement de clusters Hadoop et HBase
Avec Big Data Extensions, vous pouvez créer et utiliser plusieurs types de clusters Big Data.
Cluster Hadoop de base
Déploiement Hadoop simple pour les projets de validation technique et
d'autres tâches de traitement de données à petite échelle. Le cluster Hadoop
de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure
MapReduce traite les problèmes en parallèle sur d'énormes jeux de données
dans le HDFS.
Cluster HBase
Il s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes
pour stocker de grandes quantités de données éparses.
Cluster de séparation
de données et de calcul
Sépare les nœuds de données et de calcul ou les clusters qui contiennent des
nœuds de calcul uniquement. Dans ce type de cluster, le nœud de données et
le nœud de calcul ne sont pas sur la même machine virtuelle.
Cluster de calcul
uniquement
Vous pouvez créer un cluster qui contient uniquement des nœuds de calcul,
par exemple des nœuds JobTracker, TaskTracker, ResourceManager et
NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de
calcul uniquement sert à exécuter des tâches MapReduce sur un cluster
HDFS externe.
Cluster de calcul de
travailleurs uniquement
Contient uniquement des nœuds worker, par exemple des nœuds
TaskTracker et NodeManager, mais pas des nœuds NameNode ni
DataNode. Un cluster de calcul de travailleurs uniquement sert à ajouter des
nœuds de calcul worker à un cluster Hadoop existant.
Cluster uniquement
HBase
Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais
pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase
uniquement peuvent utiliser le même cluster HDFS externe.
Cluster personnalisé
Utilise un fichier de spécification de cluster pour créer des clusters à l'aide de
la même configuration que celle des clusters précédemment créés. Vous
pouvez modifier le fichier de spécification de cluster pour personnaliser la
configuration du cluster.
Configurations des clusters Hadoop par défaut pour Serengeti
Pour les déploiements Hadoop de base, tels que les projets de validation technique, vous pouvez utiliser la
configuration de cluster Hadoop par défaut pour Serengeti dans le cas des clusters créés avec l'interface de
ligne de commande.
Le déploiement du cluster obtenu se compose des machines virtuelles et nœuds suivants :
n
Une machine virtuelle de nœud master avec les services NameNode et JobTracker.
n
Trois machines virtuelles de nœud worker, chacune avec les services DataNode et TaskTracker.
n
Une machine virtuelle de nœud client contenant l'environnement client Hadoop : le shell client
Hadoop, Pig et Hive.
VMware, Inc.
37
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2
(YARN)
Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge à la fois
MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par défaut sont différentes.
La configuration de cluster Hadoop par défaut pour CDH4 est un cluster MapReduce v1. La configuration
de cluster Hadoop par défaut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions
prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux.
Configurations des clusters HBase par défaut pour Serengeti
HBase est une base de données distribuée en colonnes open source qui utilise MapReduce et HDFS pour
gérer les données. Vous pouvez utiliser HBase pour créer des applications de table volumineuses.
Pour exécuter les tâches HBase MapReduce, configurez le cluster HBase de façon à inclure les nœuds
JobTracker ou TaskTracker. Lorsque vous créez un cluster HBase avec l'interface de ligne de commande,
conformément au modèle Serengeti HBase par défaut, le cluster obtenu se compose des nœuds suivants :
n
Un nœud master, qui exécute les services NameNode et HBaseMaster.
n
Trois nœuds zookeeper, chacun exécutant le service ZooKeeper.
n
Trois nœuds de données, chacun exécutant les services DataNode et HBase Regionserver.
n
Un nœud client, à partir duquel vous pouvez exécuter les tâches Hadoop ou HBase.
Le cluster HBase par défaut déployé par Serengeti ne contient pas de démons Hadoop JobTracker ou
Hadoop TaskTracker. Pour exécuter une tâche HBase MapReduce, déployez un cluster HBase personnalisé
non par défaut.
À propos de la topologie des clusters
Vous pouvez améliorer l'équilibrage de la charge de travail entre vos nœuds de cluster et accroître les
performances et le débit en spécifiant comment les machines virtuelles Hadoop sont placées, à l'aide de la
reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de
calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes
physiques.
Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse
la topologie de l'hôte de votre environnement et les informations sur le réseau. Les performances d'Hadoop
sont supérieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est
disponible, plutôt que les transferts hors rack lorsqu'il attribue des tâches MapReduce aux nœuds. HDFS
peut placer des réplicas de manière plus intelligente pour améliorer les performances et la résilience. Par
exemple, si vous avez des nœuds de données et des nœuds de calcul distincts, vous pouvez améliorer les
performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
38
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Vous pouvez spécifier les configurations suivantes de reconnaissance de la topologie.
Extensions de
virtualisation Hadoop
(HVE, Hadoop
Virtualization
Extensions)
Fiabilité et performances des clusters améliorées grâce à un placement des
réplicas, une planification des tâches et des politiques d'équilibrage Hadoop
plus précis. Les clusters Hadoop implémentés dans une infrastructure
virtualisée sont dotés d'une reconnaissance complète de la topologie sur
laquelle ils fonctionnent lorsqu'ils utilisent HVE.
Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et
vous devez créer et télécharger un fichier de mappage rack-hôtes.
RACK_EN_RACK
Topologie standard pour les distributions Apache Hadoop. Seules les
informations sur le rack et l'hôte sont exposées à Hadoop. Pour utiliser
RACK_AS_RACK, créez et téléchargez un fichier de topologie de serveur.
HÔTE_EN_RACK
Topologie simplifiée pour les distributions Apache Hadoop. Pour éviter de
placer tous les réplicas de blocs de données HDFS sur le même hôte
physique, chaque hôte physique est traité comme un rack. Étant donné que
les réplicas des blocs de données ne sont jamais placés sur un rack, cela évite
le pire scénario où une défaillance d'un seul hôte provoque la perte totale
d'un bloc de données.
Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne
disposez pas d'informations sur le rack vous permettant de décider des
options de configuration de la topologie.
Aucune
Aucune topologie n'est spécifiée.
Fichier de mappage rack/hôtes de la topologie
Les fichiers de mappage rack/hôtes de la topologie sont des fichiers texte brut qui associent les racks
logiques aux hôtes physiques. Ces fichiers sont obligatoires pour créer des clusters avec une topologie HVE
ou RACK_AS_RACK.
Le format de chaque ligne d'un fichier de mappage rack/hôtes de la topologie est :
rackname: hostname1, hostname2 ...
Par exemple, pour affecter les hôtes physiques a.b.foo.com et a.c.foo.com à rack1, et l'hôte physique
c.a.foo.com à rack2, incluez les lignes suivantes dans votre fichier de mappage rack/hôtes de la topologie.
rack1: a.b.foo.com, a.c.foo.com
rack2: c.a.foo.com
Fichiers de définition de la stratégie de placement de la topologie
Le champ placementPolicies du fichier de spécification de cluster contrôle la façon dont les nœuds sont
placés dans le cluster.
Si vous spécifiez des valeurs pour instancePerHost et pour groupRacks, il doit y avoir un nombre suffisant
d'hôtes disponibles. Pour afficher les informations sur les racks hôtes, utilisez la commande topology list.
Le code illustre un exemple du champ placementPolicies dans un fichier de spécification de cluster.
{
"nodeGroups":[
…
{
"name": "group_name",
…
"placementPolicies": {
VMware, Inc.
39
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"instancePerHost": 2,
"groupRacks": {
"type": "ROUNDROBIN",
"racks": ["rack1", "rack2", "rack3"]
},
"groupAssociations": [{
"reference": "another_group_name",
"type": "STRICT"
// or "WEAK"
}]
}
},
…
}
Tableau 5‑1. Définition de l'objet placementPolicies
Champ JSON
Type
Description
instancePerHost
Facultatif
Nombre de nœuds de machine
virtuelle à placer pour chaque hôte
ESXi physique. Cette contrainte est
destinée à équilibrer la charge de
travail.
groupRacks
Facultatif
Méthode de répartition des nœuds de
machine virtuelle entre les racks
physiques du cluster. Spécifiez les
chaînes JSON suivantes :
groupAssociations
Facultatif
n
type. Spécifiez ROUNDROBIN
pour sélectionner les candidats
équitablement et sans priorité.
n
racks. Racks de la carte de
topologie à utiliser.
Un ou plusieurs groupes de nœuds
cibles auquel ou auxquels ce groupe de
nœuds est associé. Spécifiez les chaînes
JSON suivantes :
n
reference. Nom du groupe de
nœuds cible
n
type:
STRICT. Placez le groupe de
nœuds sur l'ensemble ou le sousensemble d'hôtes ESXi du groupe
cible. Si le placement STRICT n'est
pas possible, l'opération échoue.
FAIBLE. Essayez de placer le
groupe de nœuds sur l'ensemble
ou le sous-ensemble d'hôtes ESXi
du groupe cible, mais si ce n'est
pas possible, utilisez un hôte ESXi
supplémentaire.
n
n
40
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster avec prise en charge de la topologie à l'aide de l'interface de
ligne de commande Serengeti
Pour obtenir une charge de travail équilibrée ou améliorer les performances et le débit, vous pouvez
contrôler la façon dont les machines virtuelles Hadoop sont placées en ajoutant la prise en charge de la
topologie aux clusters Hadoop. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de
calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes
physiques.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
(Facultatif) Exécutez la commande topology list pour afficher la liste des topologies disponibles.
topology list
3
(Facultatif) Si vous voulez que le cluster utilise les topologies HVE ou RACK_AS_RACK, créez un
fichier de mappage rack/hôtes de topologie, puis téléchargez le fichier sur le serveur de gestion
Serengeti.
topology upload --fileName name_of_rack_hosts_mapping_file
4
Exécutez la commande cluster create pour créer le cluster.
cluster create --name cluster-name ... --topology {HVE|RACK_AS_RACK|HOST_AS_RACK}
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
L'exemple crée une topologie HVE.
cluster create --name cluster-name --topology HVE --distro name_of_HVE-supported_distro
5
Affichez les nœuds alloués sur chaque rack.
cluster list --name cluster-name –-detail
À propos des clusters HBase
HBase s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes pour stocker de grandes
quantités de données éparses.
VMware, Inc.
41
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Créer un cluster HBase par défaut avec l'interface de ligne de commande
Serengeti
Vous pouvez utiliser l'Serengeti CLI pour déployer les clusters HBase sur HDFS.
Cette tâche crée un cluster HBase par défaut qui ne contient pas l'infrastructure MapReduce. Exécuter les
tâches MapReduce HBase, ajoutez les nœuds Jobtracker et TaskTracker ou ResourceManager et
NodeManager à l'exemple de fichier de spécification de cluster HBase par
défaut /opt/serengeti/samples/default_hbase_cluster.json, puis créez un cluster à l'aide de ce fichier de
spécification.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez le cluster create command et spécifiez la valeur du paramètre --type comme hbase.
cluster create --name cluster_name --type hbase
Suivant
Après avoir déployé le cluster, vous pouvez accéder à une base de données HBase à l'aide de plusieurs
méthodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
Créer un cluster uniquement HBase dans Big Data Extensions
Big Data Extensions vous permet de créer un cluster uniquement HBase qui contient uniquement des
nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le
cluster uniquement HBase présente l'avantage de permettre à plusieurs clusters HBase d'utiliser le même
HDFS externe.
Procédure
1
Conditions préalables à la création d'un cluster uniquement HBase page 43
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système
remplit toutes les conditions préalables.
2
Préparer EMC Isilon OneFS en tant que cluster HDFS externe page 43
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser
avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes
d'utilisateurs, et préparer votre environnement Isilon OneFS.
3
Créer un cluster uniquement HBase avec l'interface de ligne de commande Serengeti page 44
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement
HBase.
42
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Conditions préalables à la création d'un cluster uniquement HBase
Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit
toutes les conditions préalables.
Conditions préalables
n
Vérifiez que vous avez démarré Serengeti vApp.
n
Vérifiez que vous avez plusieurs distributions si vous voulez en utiliser une différente de celle par
défaut.
n
Vérifiez que vous avez un cluster HDFS existant à utiliser en tant que cluster HDFS externe.
Pour éviter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters
doivent utiliser la même distribution Hadoop et la même version.
n
n
Si le cluster HDFS n'a pas été créé à l'aide de Big Data Extensions, vérifiez que le répertoire
HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS
externe :
n
hdfs
n
hbase
n
serengeti
Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vérifiez que votre environnement
Isilon est préparé.
Pour plus d'informations sur la manière de préparer votre environnement, consultez « Préparer EMC
Isilon OneFS en tant que cluster HDFS externe », page 43.
Préparer EMC Isilon OneFS en tant que cluster HDFS externe
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et
préparer votre environnement Isilon OneFS.
Procédure
1
Connectez-vous à l'un des nœuds HDFS Isilon en tant que user root
2
Créez les utilisateurs.
n
hdfs
n
hbase
n
serengeti
n
mapred
Les utilisateurs yarn et mapred doivent disposer d'autorisations d'écriture; de lecture et d'exécution pour
tout le répertoire HDFS exporté.
3
Créez le groupe d'utilisateurs hadoop.
4
Créez le répertoire tmp sous le répertoire HDFS racine.
5
Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 777.
6
Créez le répertoire hadoop sous le répertoire HDFS racine.
7
Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 775.
8
Créez le répertoire hbase sous le répertoire hadoop.
VMware, Inc.
43
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
9
Définissez le propriétaire en tant que hbase:hadoop et les autorisations de lecture et d'écriture 775.
10
Définissez le propriétaire du répertoire HDFS en tant que hdfs:hadoop.
Exemple : Configuration de l'environnement EMC Isilon OneFS
isi auth users create --name="hdfs"
isi auth users create --name="hbase"
isi auth users create --name="serengeti"
isi auth groups create --name="hadoop"
pw useradd mapred -G wheel
pw useradd yarn -G wheel
chown
mkdir
chmod
chown
mkdir
chmod
chown
chown
hdfs:hadoop /ifs
/ifs/tmp
777 /ifs/tmp
hdfs:hadoop /ifs/tmp
-p /ifs/hadoop/hbase
-R 775 /ifs/hadoop
hdfs:hadoop /ifs/hadoop
hbase:hadoop /ifs/hadoop/hbase
Suivant
Vous êtes maintenant prêt à créer le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster
externe.
Créer un cluster uniquement HBase avec l'interface de ligne de commande
Serengeti
Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement HBase.
Vous devez utiliser le gestionnaire d'applications par défaut, car les autres gestionnaires d'applications ne
prennent pas en charge les clusters uniquement HBase.
Procédure
1
Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de
nœud du cluster HDFS externe.
3
Accédez à l'interface de ligne de commande Serengeti.
4
Exécutez la commande cluster create.
cluster create --name clustername --distro distroname
--specfile specfile_location
Le fichier /opt/serengeti/samples/hbase_only_cluster.json est un exemple de fichier de spécification
pour les clusters uniquement HBase. Il contient les rôles zookeeper, hbase_master et
hbase_regionserver, mais pas le rôle hadoop_namenode/hadoop_datanode.
5
Pour vérifier que le cluster a été créé, exécutez la commande cluster list .
cluster list --name name
Lorsque le cluster est créé, le système retourne Cluster clustername créé.
44
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster HBase avec protection HA vSphere à l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez créer des clusters HBase avec des rôles maîtres Hadoop NameNode et HBase distincts. Vous
pouvez configurer la protection HA vSphere HA pour les rôles maîtres.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
rôles des groupes de nœuds et la protection vSphere HA.
Dans cet exemple, le cluster possède les nœuds JobTracker et TaskTracker, qui vous permettent
d'exécuter les tâches HBase MapReduce. Les rôles maîtres Hadoop NameNode et HBase sont distincts,
et les deux sont protégés par vSphere HA.
{
"nodeGroups" : [
{
"name" : "zookeeper",
"roles" : [
"zookeeper"
],
"instanceNum" : 3,
"instanceType" : "SMALL",
"storage" : {
"type" : "shared",
"sizeGB" : 20
},
"cpuNum" : 1,
"memCapacityMB" : 3748,
"haFlag" : "on",
"configuration" : {
}
},
{
"name" : "hadoopmaster",
"roles" : [
"hadoop_namenode",
"hadoop_jobtracker"
],
"instanceNum" : 1,
"instanceType" : "MEDIUM",
"storage" : {
"type" : "shared",
"sizeGB" : 50
},
"cpuNum" : 2,
"memCapacityMB" : 7500,
VMware, Inc.
45
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"haFlag" : "on",
"configuration" : {
}
},
{
"name" : "hbasemaster",
"roles" : [
"hbase_master"
],
"instanceNum" : 1,
"instanceType" : "MEDIUM",
"storage" : {
"type" : "shared",
"sizeGB" : 50
},
"cpuNum" : 2,
"memCapacityMB" : 7500,
"haFlag" : "on",
"configuration" : {
}
},
{
"name" : "worker",
"roles" : [
"hadoop_datanode",
"hadoop_tasktracker",
"hbase_regionserver"
],
"instanceNum" : 3,
"instanceType" : "SMALL",
"storage" : {
"type" : "local",
"sizeGB" : 50
},
"cpuNum" : 1,
"memCapacityMB" : 3748,
"haFlag" : "off",
"configuration" : {
}
},
{
"name" : "client",
"roles" : [
"hadoop_client",
"hbase_client"
],
"instanceNum" : 1,
"instanceType" : "SMALL",
"storage" : {
"type" : "shared",
"sizeGB" : 50
},
"cpuNum" : 1,
"memCapacityMB" : 3748,
46
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"haFlag" : "off",
"configuration" : {
}
}
],
// we suggest running convert-hadoop-conf.rb to generate "configuration" section and paste
the output here
"configuration" : {
"hadoop": {
"core-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// "io.file.buffer.size": "4096"
},
"hdfs-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
"mapred-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
},
"hadoop-env.sh": {
// "HADOOP_HEAPSIZE": "",
// "HADOOP_NAMENODE_OPTS": "",
// "HADOOP_DATANODE_OPTS": "",
// "HADOOP_SECONDARYNAMENODE_OPTS": "",
// "HADOOP_JOBTRACKER_OPTS": "",
// "HADOOP_TASKTRACKER_OPTS": "",
// "HADOOP_CLASSPATH": "",
// "JAVA_HOME": "",
// "PATH": ""
},
"log4j.properties": {
// "hadoop.root.logger": "DEBUG,DRFA",
// "hadoop.security.logger": "DEBUG,DRFA"
},
"fair-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// "text": "the full content of fair-scheduler.xml in one line"
},
"capacity-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
},
"mapred-queue-acls.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/cluster_setup.html#Configuring+the+Hadoop+Daemons
// "mapred.queue.queue-name.acl-submit-job": "",
// "mapred.queue.queue-name.acl-administer-jobs", ""
}
},
VMware, Inc.
47
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"hbase": {
"hbase-site.xml": {
// check for all settings at http://hbase.apache.org/configuration.html#hbase.site
},
"hbase-env.sh": {
// "JAVA_HOME": "",
// "PATH": "",
// "HBASE_CLASSPATH": "",
// "HBASE_HEAPSIZE": "",
// "HBASE_OPTS": "",
// "HBASE_USE_GC_LOGFILE": "",
// "HBASE_JMX_BASE": "",
// "HBASE_MASTER_OPTS": "",
// "HBASE_REGIONSERVER_OPTS": "",
// "HBASE_THRIFT_OPTS": "",
// "HBASE_ZOOKEEPER_OPTS": "",
// "HBASE_REGIONSERVERS": "",
// "HBASE_SSH_OPTS": "",
// "HBASE_NICENESS": "",
// "HBASE_SLAVE_SLEEP": ""
},
"log4j.properties": {
// "hbase.root.logger": "DEBUG,DRFA"
}
},
"zookeeper": {
"java.env": {
// "JVMFLAGS": "-Xmx2g"
},
"log4j.properties": {
// "zookeeper.root.logger": "DEBUG,DRFA"
}
}
}
}
2
Accédez à l'interface de ligne de commande Serengeti.
3
Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
Créer un cluster du travailleur uniquement HBase avec un cluster HA HDFS
namenode externe
Vous pouvez créer un cluster du travailleur uniquement HBase avec deux namenodes dans une
configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas
de défaillance, peut exécuter le rôle du namenode actif sans interruption.
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
n
Les clusters du travailleur uniquement MapReduce v1 et les clusters uniquement HBase créés à l'aide
de la distribution MapR ne sont pas pris en charge.
Prérequis
n
48
Déployez le vApp Serengeti.
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
3
Modifiez la section de configuration du fichier de spécification de cluster uniquement HBase comme
illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster
externe.
"configuration" : {
"hadoop": {
"hdfs-site.xml": {
"dfs.nameservices": "dataMaster",
"dfs.ha.namenodes.dataMaster": "namenode0,namenode1",
"dfs.client.failover.proxy.provider.dataMaster":
"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider",
"dfs.namenode.rpc-address.dataMaster.namenode0": "10.555.xx.xxx:xxx1",
"dfs.namenode.http-address.dataMaster.namenode0": "10.555.xx.xxx:xxx2",
"dfs.namenode.rpc-address.dataMaster.namenode1": "10.555.xx.xxx:xxx3",
"dfs.namenode.http-address.dataMaster.namenode1": "10.555.xx.xxx:xxx4"
}
}
}
À propos des clusters MapReduce
MapReduce est une infrastructure qui permet de traiter les problèmes en parallèle à travers des jeux de
données volumineux. L'infrastructure MapReduce distribue à chaque nœud du réseau un certain nombre
d'opérations sur le jeu de données.
Créer un cluster MapReduce v2 (YARN) avec l'interface de ligne de commande
Serengeti
Vous pouvez créer des clusters MapReduce v2 (YARN) si vous voulez créer un cluster qui sépare les
composants de traitement et de gestion des ressources.
Pour créer un cluster MapReduce v2 (YARN), créez un fichier de spécification de cluster inspiré du
fichier /opt/serengeti/samples/default_hadoop_yarn_cluster.json, puis spécifiez le paramètre --specFile
et votre fichier de spécification de cluster dans la commande cluster create ....
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
VMware, Inc.
49
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande cluster create ....
Cet exemple crée un cluster MapReduce v2 personnalisé à l'aide de la distribution CDH4 selon
l'exemple de fichier de spécification de cluster default_hadoop_yarn_cluster.json.
cluster create --name cluster_name --distro cdh4 --specFile
/opt/serengeti/samples/default_hadoop_yarn_cluster.json
Créer un cluster du travailleur uniquement MapReduce v1 avec un cluster HA
HDFS namenode externe
Vous pouvez créer un cluster du travailleur uniquement MapReduce v1 avec deux namenodes dans une
configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas
de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les restrictions suivantes s'appliquent à cette tâche :
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
n
Vous ne pouvez pas utiliser la distribution MapR pour créer des clusters du travailleur uniquement
MapReduce v1 et des clusters uniquement HBase.
Prérequis
n
Démarrez le vApp Big Data Extensions.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant
à modifier : /opt/serengeti/samples/compute_workers_only_mr1.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
3
Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
4
Modifiez la section de configuration du fichier de spécification de cluster du travailleur MapReduce
comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du
cluster externe.
{
"externalHDFS": "hdfs://dataMaster",
"externalMapReduce": "xx.xxx.xxx.xxx:8021",
"nodeGroups":[
{
"name": "worker",
"roles": [
"hadoop_tasktracker"
],
50
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"instanceNum": 3,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"sizeGB": 20
}
}
],
"configuration" : {
"hadoop": {
"hdfs-site.xml": {
"dfs.nameservices": "dataMaster",
"dfs.ha.namenodes.dataMaster": "namenode0,namenode1",
"dfs.client.failover.proxy.provider.dataMaster":
"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider",
"dfs.namenode.rpc-address.dataMaster.namenode0": "10.111.xx.xxx:xxx2",
"dfs.namenode.http-address.dataMaster.namenode0": "10.111.xx.xxx:xxx3",
"dfs.namenode.rpc-address.dataMaster.namenode1": "10.111.xx.xxx:xxx4",
"dfs.namenode.http-address.dataMaster.namenode1": "10.111.xx.xxx:xxx5"
}
}
}
}
Créer un cluster du travailleur uniquement MapReduce v2 avec un cluster HA
HDFS namenode externe
Vous pouvez créer un cluster du travailleur uniquement MapReduce v2 (Yarn) avec deux namenodes dans
une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en
cas de défaillance, peut exécuter le rôle du namenode actif sans interruption.
Les restrictions suivantes s'appliquent à cette tâche :
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
n
Vous ne pouvez pas utiliser une distribution MapR pour déployer des clusters du travailleur
uniquement MapReduce v1 et des clusters uniquement HBase.
Prérequis
n
Démarrez le vApp Big Data Extensions.
n
Assurez-vous que vous avez un cluster HA HDFS namenode externe.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant
à modifier : /opt/serengeti/samples/compute_workers_only_yarn.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du
cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du
core-site.xml du cluster externe.
VMware, Inc.
51
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
Remplacez le hostname-of-resourcemanager du fichier de spécification par le FQDN ou l'adresse IP du
ResourceManager du cluster externe.
4
Modifiez la section de configuration du fichier de spécification de cluster du travailleur uniquement
Yarn comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml
du cluster externe.
{
"externalHDFS": "hdfs://dataMaster",
"externalMapReduce": "xx.xxx.xxx.xxx:8021",
"nodeGroups":[
{
"name": "worker",
"roles": [
"hadoop_nodemanager"
],
"instanceNum": 3,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"sizeGB": 20
}
}
],
"configuration" : {
"hadoop": {
"hdfs-site.xml": {
"dfs.nameservices": "dataMaster",
"dfs.ha.namenodes.dataMaster": "namenode0,namenode1",
"dfs.client.failover.proxy.provider.dataMaster":
"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider",
"dfs.namenode.rpc-address.dataMaster.namenode0": "10.555.xx.xxx:xxx1",
"dfs.namenode.http-address.dataMaster.namenode0": "10.555.xx.xxx:xxx2",
"dfs.namenode.rpc-address.dataMaster.namenode1": "10.555.xx.xxx:xxx3",
"dfs.namenode.http-address.dataMaster.namenode1": "10.555.xx.xxx:xxx4"
}
}
}
}
À propos des clusters de calcul de données
Vous pouvez séparer les nœuds de données et de calcul d'un cluster Hadoop. Vous pouvez aussi contrôler
la façon dont les nœuds sont placés sur les hôtes vSphere ESXi de votre environnement.
Vous pouvez créer un cluster de calcul uniquement pour exécuter les tâches MapReduce. Les clusters de
calcul uniquement n'exécutent que les services MapReduce qui lisent les données à partir de clusters HDFS
externes et qui n'ont pas besoin de stocker les données.
Les gestionnaires d'applications Ambari et Cloudera Manager ne prennent en charge ni la séparation
calcul/données, ni les clusters de calcul uniquement.
52
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster distinct données-calcul avec prise en charge de la topologie et
contraintes de placement
Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de
topologie et de stratégie de placement afin de répartir les nœuds entre les racks physiques et les machines
virtuelles.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
Prérequis
n
Démarrez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
n
Créez un fichier d'informations de mappage rack/hôte.
n
Téléchargez le fichier rack/hôte sur le serveur Serengeti avec la commande topology upload.
Procédure
1
Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
groupes de nœuds, la topologie et les contraintes de stratégie de placement.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster a des contraintes groupAssociations et instancePerHost pour le groupe de
nœuds de calcul et une contrainte groupRacks pour le groupe de nœuds de données.
Quatre nœuds de données et huit nœuds de calcul sont placés sur les quatre mêmes hôtes ESXi, qui
sont équitablement sélectionnés depuis rack1, rack2 et rack3. Chaque hôte ESXi possède un nœud de
données et deux nœuds de calcul. Comme défini pour le groupe de nœuds de calcul, les nœuds de
calcul sont placés uniquement sur les hôtes ESXi ayant des nœuds de données.
Cette définition de cluster nécessite que vous configuriez les banques de données et les pools de
ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti
exécute les placements nécessaires pendant le déploiement.
{
"nodeGroups":[
{
"name": "master",
"roles": [
VMware, Inc.
53
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"hadoop_namenode",
"hadoop_jobtracker"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 7500,
},
{
"name": "data",
"roles": [
"hadoop_datanode"
],
"instanceNum": 4,
"cpuNum": 1,
"memCapacityMB": 3748,
"storage": {
"type": "LOCAL",
"sizeGB": 50
},
"placementPolicies": {
"instancePerHost": 1,
"groupRacks": {
"type": "ROUNDROBIN",
"racks": ["rack1", "rack2", "rack3"]
},
}
},
{
"name": "compute",
"roles": [
"hadoop_tasktracker"
],
"instanceNum": 8,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"sizeGB": 20
},
"placementPolicies": {
"instancePerHost": 2,
"groupAssociations": [
{
"reference": "data",
"type": "STRICT"
}
}
},
{
"name": "client",
"roles": [
"hadoop_client",
"hive",
"pig"
],
54
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"instanceNum": 1,
"cpuNum": 1,
"storage": {
"type": "LOCAL",
"sizeGB": 50
}
}
],
"configuration": {
}
}
2
Accédez à l'interface de ligne de commande Serengeti.
3
Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
Créer un cluster distinct données-calcul sans contraintes de stratégie de
placement
Vous pouvez créer un cluster avec des nœuds données et calcul distincts sans contraintes de placement de
nœud.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster possède des nœuds données et calcul distincts, sans contraintes de stratégie
de placement. Quatre nœuds de données et huit nœuds de calcul sont créés et placés sur des machines
virtuelles individuelles. Le nombre de nœuds est configuré par l'attribut instanceNum.
{
"nodeGroups":[
{
"name": "master",
"roles": [
"hadoop_namenode",
"hadoop_jobtracker"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 7500,
},
VMware, Inc.
55
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
{
"name": "data",
"roles": [
"hadoop_datanode"
],
"instanceNum": 4,
"cpuNum": 1,
"memCapacityMB": 3748,
"storage": {
"type": "LOCAL",
"sizeGB": 50
}
},
{
"name": "compute",
"roles": [
"hadoop_tasktracker"
],
"instanceNum": 8,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"sizeGB": 20
}
},
{
"name": "client",
"roles": [
"hadoop_client",
"hive",
"pig"
],
"instanceNum": 1,
"cpuNum": 1,
"storage": {
"type": "LOCAL",
"sizeGB": 50
}
}
],
"configuration": {
}
}
2
Accédez à l'interface de ligne de commande Serengeti.
3
Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
56
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster distinct données-calcul avec contraintes de stratégie de
placement
Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de
stratégie de placement afin de répartir les nœuds entre les machines virtuelles à votre guise.
AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la
migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines
virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers
d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter
Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big
Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par
hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de
vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement
ROUNDROBIN par défaut.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les
groupes de nœuds et les contraintes de stratégie de placement.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster possède des nœuds données et calcul distincts, et chaque groupe de nœuds
a une contrainte placementPolicy. Après un provisionnement réussi, quatre nœuds de données et huit
nœuds de calcul sont créés et placés sur des machines virtuelles individuelles. Avec la contrainte
instancePerHost=1, les quatre nœuds de données sont placés sur quatre hôtes ESXi. Les huit nœuds de
calcul sont placé sur quatre hôtes ESXi : deux nœuds sur chaque hôte ESXi.
Cette spécification de cluster nécessite que vous configuriez les banques de données et les pools de
ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti
exécute les placements nécessaires pendant le déploiement.
{
"nodeGroups":[
{
"name": "master",
"roles": [
"hadoop_namenode",
"hadoop_jobtracker"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 7500,
VMware, Inc.
57
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
},
{
"name": "data",
"roles": [
"hadoop_datanode"
],
"instanceNum": 4,
"cpuNum": 1,
"memCapacityMB": 3748,
"storage": {
"type": "LOCAL",
"sizeGB": 50
},
"placementPolicies": {
"instancePerHost": 1
}
},
{
"name": "compute",
"roles": [
"hadoop_tasktracker"
],
"instanceNum": 8,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"sizeGB": 20
},
"placementPolicies": {
"instancePerHost": 2
}
},
{
"name": "client",
"roles": [
"hadoop_client",
"hive",
"pig"
],
"instanceNum": 1,
"cpuNum": 1,
"storage": {
"type": "LOCAL",
"sizeGB": 50
}
}
],
"configuration": {
}
}
2
Accédez à l'interface de ligne de commande Serengeti.
3
Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile full_path/spec_filename
58
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster de calcul uniquement avec le gestionnaire d'applications par
défaut
Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans
un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne
fonctionne pas.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster
Serengeti compute_only_cluster.json disponible dans le répertoire Serengeti cli/samples.
2
Ajoutez le contenu suivant à un nouveau fichier de spécification de cluster.
Dans cet exemple, le fichier externalHDFS pointe vers un HDFS. Attribuez le rôle hadoop_jobtracker au
groupe de nœuds master et le rôle hadoop_tasktracker au groupe de nœuds worker.
Le champ externalHDFS est en conflit avec les groupes de nœuds ayant les rôles hadoop_namenode et
hadoop_datanode. Ce conflit peut entraîner l'échec de la création du cluster ou, si la création réussit, il se
peut que le cluster ne fonctionne pas correctement. Pour éviter ce problème, définissez uniquement un
seul HDFS.
{
"externalHDFS": "hdfs://hostname-of-namenode:8020",
"nodeGroups": [
{
"name": "master",
"roles": [
"hadoop_jobtracker"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 7500,
},
{
"name": "worker",
"roles": [
"hadoop_tasktracker",
],
"instanceNum": 4,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
VMware, Inc.
59
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"type": "LOCAL",
"sizeGB": 20
},
},
{
"name": "client",
"roles": [
"hadoop_client",
"hive",
"pig"
],
"instanceNum": 1,
"cpuNum": 1,
"storage": {
"type": "LOCAL",
"sizeGB": 50
},
}
],
“configuration” : {
}
}
3
Accédez à l'interface de ligne de commande Serengeti.
4
Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le
nom de fichier associé.
cluster create --name cluster_name --distro distro_name --specFile path/spec_file_name
Créer un cluster de calcul uniquement avec le gestionnaire d'applications
Cloudera Manager
Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS
existants, y compris les solutions de stockage faisant office de HDFS externe.
Vous pouvez utiliser un gestionnaire d'applications Cloudera Manager avec un système HDFS externe.
Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un
cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et
préparer votre environnement Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que
cluster HDFS externe », page 43
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
60
Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster
yarn_compute_only_cluster.json disponible dans le répertoire /opt/serengeti/samples/clouderamanager/ du serveur Serengeti.
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
2
Ajoutez le code suivant à votre nouveau fichier de spécification de cluster.
Dans ce fichier de spécification de cluster, le champ default_fs_name pointe vers un URI HDFS
Namenode et le champ webhdfs_url pointe vers une URL Web HDFS.
{
"nodeGroups": [
{
"name": "master",
"roles": [
"YARN_RESOURCE_MANAGER",
"YARN_JOB_HISTORY"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "SHARED",
"sizeGB": 50
},
"haFlag": "on",
"configuration": {
}
},
{
"name": "worker",
"roles": [
"YARN_NODE_MANAGER",
"GATEWAY"
],
"instanceNum": 3,
"cpuNum": 2,
"memCapacityMB": 7500,
"storage": {
"type": "LOCAL",
"sizeGB": 50
},
"haFlag": "off",
"configuration": {
}
}
],
"configuration": {
"ISILON": {
// service level configurations
// check for all settings by running "appmanager list --name <name> --configurations"
"default_fs_name": "hdfs://FQDN:8020",
"webhdfs_url": "hdfs://FQDN:8020/webhdfs/v1"
},
"YARN": {
// service level configurations
},
"YARN_RESOURCE_MANAGER": {
},
"YARN_NODE_MANAGER": {
VMware, Inc.
61
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"yarn_nodemanager_local_dirs": "/yarn/nm"
}
}
}
3
Accédez à l'Serengeti CLI.
4
Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le
nom de fichier associé.
cluster create --name computeOnlyCluster_name -- appManager appManager_name
--distro distro_name --specFile path/spec_file_name
Créer un cluster de calcul uniquement avec Ambari Application Manager et
Isilon
Vous pouvez créer un cluster de calcul uniquement avec le gestionnaire d'applications Ambari à l'aide de
Isilon OneFS. Pour créer un cluster de calcul uniquement à l'aide de Isilon OneFS, vous devez activer
Isilon SmartConnect (équilibrage de la charge réseau).
Pour utiliser EMC Isilon OneFS comme cluster HDFS externe du cluster HBase uniquement, vous devez
créer et configurer des utilisateurs et des groupes d'utilisateurs et préparer votre environnement
Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 43
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop par défaut, ajoutez une
ou plusieurs distributions de fournisseurs à votre environnementBig Data Extensions. Consultez le
Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions.
n
Vérifiez que la distribution Hadoop que vous souhaitez utiliser est compatible avec Isilon OneFS.
Rendez-vous sur le site Internet EMC et consultez la section Distributions Hadoop prises en charge
dans OneFS.
Procédure
1
Créez un fichier de spécification de cluster modélisé sur l'un des fichiers exemples de spécification de
cluster suivants : hdp_v2_1_yarn_compute_only_cluster.json ou
hdp_v2_2_yarn_compute_only_cluster.json. Vous trouverez ces fichiers exemples dans le
répertoire /opt/serengeti/samples/ambari/ du serveur Serengeti.
2
Activez Isilon SmartConnect.
isi networks modify subnet --sc-service-addr=SmartConnect_IP --name=subnet_name
isi networks modify pool --name=subnet_name:pool_name --sc-subnet=subnet_name -zone=zone_name
3
Spécifiez le serveur Ambari et nommez le nœud FQDN dans votre environnement Islion.
isi zone zones modify System --hdfs-ambari-namenode=smart_connect_FQDN
isi zone zones modify System --hdfs-ambari-server=ambari_server_FQDN
62
4
Modifiez le fichier de spécification du
cluster, /opt/serengeti/samples/ambari/hdp_v2_*_yarn_compute_only_cluster.json et définissez
externalNamenode sur Isilon SmartConnect FQDN. Si l'attribut externalSecondaryNamenode du fichier de
spécification du cluster est défini sur la même valeur que externalNamenode, supprimez l'entrée pour
externalSecondaryNamenode.
5
Accédez à l'Serengeti CLI.
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
6
Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le
nom de fichier associé.
cluster create --name computeOnlyCluster_name -- appManager appManager_name
--distro distro_name --specFile path/spec_file_name
Suivant
Vérifiez que votre cluster géré de calcul uniquement Ambari est créé correctement, avec la configuration
nécessaire pour votre environnement et votre utilisation.
Créer un cluster de calcul du travailleur uniquement avec un cluster HDFS HA
sans Namenode
Si vous avez déjà un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant plus
de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster du
travailleur uniquement. Le cluster du travailleur uniquement fait partie du cluster Hadoop physique et peut
être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode
virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode
virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster
physique existant ou à un cluster Hadoop virtuel.
Restrictions.
n
Les clusters du travailleur uniquement ne sont pas pris en charge sur les
gestionnaires d'applications Ambari et Cloudera Manager.
n
Ces options ne sont pas prises en charge sur les clusters de calcul du
travailleur uniquement.
n
--appmanager appmanager_name
n
--type cluster_type
n
--hdfsNetworkName hdfs_network_name
n
--mapredNetworkName mapred_network_name
Prérequis
n
Démarrez le vApp Big Data Extensions.
n
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de
cluster suivant :/opt/serengeti/samples/compute_workers_only_mr1.json
2
Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de nœud
du cluster HDFS externe.
3
Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du
JobTracker du cluster externe.
VMware, Inc.
63
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
4
Modifiez la section de configuration du fichier de spécification du cluster MapReduce du travailleur
uniquement. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe.
À propos des clusters personnalisés
Vous pouvez utiliser un fichier de spécification de cluster existant pour créer des clusters à l'aide de la
même configuration que celle des clusters précédemment créés. Vous pouvez aussi modifier le fichier de
spécification de cluster pour personnaliser la configuration du cluster.
Créer un cluster Hadoop Serengeti par défaut avec l'interface de ligne de
commande Serengeti
Vous pouvez créer autant de clusters que vous le voulez dans votre environnement Serengeti, mais votre
environnement doit satisfaire toutes les conditions préalables.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Déployez un cluster Hadoop Serengeti par défaut sur vSphere.
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop fournie, ajoutez une
ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware
vSphere Big Data Extensions.
cluster create --name cluster_name
Les seuls caractères valides dans les noms de clusters sont les caractères alphanumériques et les traits
de soulignement. Quand vous choisissez le nom de cluster, tenez également compte du nom de vApp
applicable. Ensemble, les noms de vApp et du cluster doivent comprendre moins de 80 caractères.
Pendant le processus de déploiement, les mises à jour en progression en temps réel apparaissent sur la ligne
de commande.
Suivant
Lorsque le déploiement est terminé, vous pouvez exécuter les commandes Hadoop et afficher les adresses IP
des machines virtuelles des nœuds Hadoop à partir de l'Serengeti CLI.
64
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster de base avec l'interface de ligne de commande Serengeti
Vous pouvez créer un cluster de base dans votre environnement Serengeti. Un cluster de base est un groupe
de machines virtuelles provisionnées et gérées par Serengeti. Serengeti vous permet de planifier et de
provisionner les machines virtuelles selon vos spécifications et d'utiliser les machines virtuelles pour
installer les applications Big Data.
Le cluster de base n'installe pas les packages d'application Big Data utilisés lors de la création d'un cluster.
Vous pouvez à la place installer et gérer des applications Big Data avec des outils de gestion d'application
tiers, tels qu'Ambari ou Cloudera Manager, au sein de votre environnement Big Data Extensions, et
l'intégrer à votre logiciel Hadoop. Le cluster de base ne déploie pas de cluster. Vous devez déployer les
logiciels sur les machines virtuelles à l'aide d'un outil de gestion d'application tiers externe.
Le package Serengeti inclut un exemple annoté de fichier de spécification de cluster que vous pouvez
utiliser comme exemple lorsque vous créez votre fichier de spécification de cluster de base. Dans le serveur
de gestion Serengeti, l'exemple de fichier de spécification se trouve
sur /opt/serengeti/samples/basic_cluster.json. Vous pouvez modifier les valeurs de configuration de
l'exemple de fichier de spécification de cluster pour répondre à vos impératifs. La seule valeur que vous ne
pouvez pas modifier est celle attribuée au rôle de chaque groupe de nœuds, qui doit toujours être basic.
Vous pouvez déployer un cluster de base avec le plug-in Big Data Extension à l'aide d'un fichier de
spécification de cluster personnalisé.
Pour déployer les logiciels au sein des machines virtuelles du cluster de base, utilisez la commande cluster
list --detail ou exécutez serengeti-ssh.sh cluster_name pour obtenir l'adresse IP de la machine
virtuelle. Vous pouvez alors utiliser l'adresse IP avec des applications de gestion telles qu'Ambari ou
Cloudera Manager pour provisionner la machine virtuelle avec les logiciels de votre choix. Vous pouvez
configurer l'application de gestion pour qu'elle utilise le nom d'utilisateur Serengeti et le mot de passe que
vous avez spécifiés lors de la création du cluster de base au sein de Big Data Extensions lorsque l'outil de
gestion a besoin d'un nom d'utilisateur et d'un mot de passe pour se connecter aux machines virtuelles.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster, ainsi que le logiciel Big
Data que vous prévoyez de déployer.
Procédure
1
Créez un fichier de spécification pour définir les caractéristiques du cluster de base.
Vous devez utiliser le rôle basic pour chaque groupe de nœuds que vous définissez pour le cluster de
base.
{
"nodeGroups":[
{
"name": "master",
"roles": [
"basic"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 3768,
"storage": {
"type": "LOCAL",
"sizeGB": 250
},
VMware, Inc.
65
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
"haFlag": "on"
},
{
"name": "worker",
"roles": [
"basic"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 3768,
"storage": {
"type": "LOCAL",
"sizeGB": 250
},
"haFlag": "off"
}
]
}
2
Accédez à l'interface de ligne de commande Serengeti.
3
Exécutez la commande cluster create et spécifiez le fichier de spécification du cluster de base.
cluster create --name cluster_name --specFile /opt/serengeti/samples/basic_cluster.json -password
REMARQUE Lors de la création d'un cluster de base, vous n'avez pas besoin de spécifier un type de
distribution Hadoop à l'aide de l'option --distro. La raison en est qu'il n'y a aucune distribution
Hadoop en cours d'installation au sein du cluster de base à gérer par Serengeti.
Créer un cluster avec un gestionnaire d'applications à l'aide de l'interface de
ligne de commande Serengeti
Vous pouvez utiliser l'Serengeti CLI pour ajouter un cluster avec un gestionnaire d'applications autre que le
gestionnaire d'applications par défaut. Vous pouvez ensuite gérer votre cluster avec le nouveau gestionnaire
d'applications.
REMARQUE Si vous souhaitez créer un référentiel Yum local, vous devez créer le référentiel avant de créer le
cluster.
Prérequis
n
Connectez-vous à un gestionnaire d'applications.
n
Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster. Pour plus
d'informations sur les ressources requises, consultez la documentation de votre gestionnaire
d'applications.
n
Vérifiez que vous avez plusieurs distributions si vous voulez utiliser une distribution autre que la
distribution par défaut. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
66
Accédez à l'Serengeti CLI.
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
2
Exécutez la commande cluster.
cluster create --name cluster_name --appManager appmanager_name
--[localrepoURL local_repository_url]
Si vous n'utilisez pas le paramètre appManager, c'est le gestionnaire d'applications par défaut qui est
utilisé.
Créer un cluster de calcul du travailleur uniquement à l'aide de vSphere Web
Client
Si vous disposez déjà d'un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant
plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster de
travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et
peut être augmenté de façon élastique.
Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode
virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez
besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode
virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster
physique existant ou à un cluster Hadoop virtuel.
Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications
Ambari et Cloudera Manager.
Prérequis
n
Vérifiez que vous avez un cluster Hadoop existant.
n
Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager.
Procédure
1
Cliquez sur Créer un cluster Big Data dans le volet Objets.
2
Dans l'assistant de création du cluster Big Data, choisissez la même distribution que le cluster Hadoop.
3
Définissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020.
4
Définissez l'URL ComputeMaster nodeManager ip ou fqdn.
5
Suivez la procédure indiquée dans l'assistant et ajoutez les autres ressources.
Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont
enregistrés auprès du gestionnaire de ressources.
Créer un cluster avec un mot de passe administrateur à l'aide de l'interface de
ligne de commande Serengeti
Lorsque vous créez un cluster, vous pouvez attribuer un mot de passe administrateur personnalisé à tous les
nœuds du cluster. Les mots de passe d'administrateur personnalisés vous permettent de vous connecter
directement aux nœuds au lieu d'avoir à vous connecter d'abord au serveur de gestion Serengeti.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
VMware, Inc.
67
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande cluster create et incluez le paramètre --password.
cluster create --name cluster_name --password
3
Entrez votre mot de passe personnalisé, puis entrez-le à nouveau.
Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, *
Votre mot de passe personnalisé est attribué à tous les nœuds du cluster.
Créer un cluster avec une distribution disponible à l'aide de l'interface de ligne
de commande Serengeti
Vous pouvez sélectionner la distribution Hadoop à utiliser lorsque vous déployez un cluster. Si vous ne
spécifiez pas de distribution Hadoop, le cluster obtenu est créé à l'aide de la distribution par défaut, Apache
Bigtop.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande cluster create et incluez le paramètre --distro.
La valeur du paramètre --distro doit correspondre à un nom de distribution affiché par la commande
distro list.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
L'exemple déploie un cluster avec la distribution Cloudera CDH :
cluster create --name clusterName --distro cdh
L'exemple crée un cluster personnalisé nommé mycdh qui utilise la distribution Hadoop CDH5 et qui est
configuré selon l'exemple de fichier de spécification de
cluster /opt/serengeti/samples/default_cdh4_ha_and_federation_hadoop_cluster.json. Dans cet
exemple de fichier, nameservice0 et nameservice1 sont fédérés. Autrement dit, nameservice0 et
nameservice1 sont indépendants et ne nécessitent pas d'être coordonnés entre eux. Les nœuds
NameNode du groupe de nœuds nameservice0 prennent en charge HDFS2 HA. Dans Serengeti, les
noms de groupes de nœuds de noms sont utilisés comme noms de service pour HDFS2.
cluster create --name mycdh --distro cdh5 --specFile
/opt/serengeti/samples/default_cdh5_ha_hadoop_cluster.json
68
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
Créer un cluster à plusieurs réseaux à l'aide de l'interface de ligne de
commande Serengeti
Lorsque vous créez un cluster, vous pouvez distribuer la gestion, le système de fichiers HDFS et le trafic
MapReduce pour séparer les réseaux. Vous pouvez souhaiter utiliser des réseaux distincts pour améliorer
les performances ou isoler le trafic à des fins de sécurité.
Pour optimiser les performances, utilisez le même réseau pour le trafic HDFS et MapReduce dans les
clusters Hadoop et Hadoop+HBase. Les clusters HBase utilisent le réseau HDFS pour le trafic lié aux
services HBase Master et HBase RegionServer.
IMPORTANT Vous ne pouvez pas configurer plusieurs réseaux pour les clusters qui utilisent la distribution
Hadoop MapR.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande cluster create et incluez les paramètres --networkName, --hdfsNetworkName et
--mapredNetworkName.
cluster create --name cluster_name --networkName management_network
[--hdfsNetworkName hdfs_network] [--mapredNetworkName mapred_network]
Si vous omettez l'un des paramètres réseau facultatifs, le trafic associé à ce paramètre réseau est
acheminé sur le réseau de gestion spécifié par le paramètre --networkName.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
La gestion du cluster, le système de fichiers HDFS et le trafic MapReduce sont répartis entre les réseaux
spécifiés.
Créer un cluster avec ressources assignées à l'aide de l'interface de ligne de
commande Serengeti
Par défaut, lorsque vous utilisez Serengeti pour déployer un cluster Hadoop, le cluster peut contenir tout ou
partie des ressources disponibles : le pool de ressources vCenter Server pour le CPU et la mémoire des
machines virtuelles, les banques de données pour le stockage de la machine virtuelle et un réseau. Vous
pouvez affecter les ressources que le cluster utilise en spécifiant des pools de ressources spécifiques, des
banques de données et/ou un réseau lorsque vous créez le cluster Hadoop.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
VMware, Inc.
69
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande cluster create et spécifiez tout ou partie des paramètres de ressource de la
commande.
Cet exemple déploie un cluster nommé myHadoop sur la banque de données myDS, sous le pool de
ressources myRP, et utilise le réseau myNW pour les communications des machines virtuelles.
cluster create --name myHadoop --rpNames myRP --dsNames myDS --networkName myNW
Créer un cluster avec un nombre quelconque de nœuds master, worker et
client
Vous pouvez créer un cluster Hadoop avec un nombre quelconque de nœuds master, worker et client.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les
groupes de nœuds.
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
Dans cet exemple, le cluster a une machine virtuelle maître de taille MOYENNE, cinq machines
virtuelles du travailleur de taille PETITE et une machine virtuelle cliente de taille PETITE. L'attribut
instanceNum configure le nombre de machines virtuelles d'un nœud.
{
"nodeGroups" : [
{
"name": "master",
"roles": [
"hadoop_namenode",
"hadoop_jobtracker"
],
"instanceNum": 1,
"instanceType": "MEDIUM"
},
{
"name": "worker",
"roles": [
70
VMware, Inc.
Chapitre 5 Création de clusters Hadoop et HBase
"hadoop_datanode",
"hadoop_tasktracker"
],
"instanceNum": 5,
"instanceType": "SMALL"
},
{
"name": "client",
"roles": [
"hadoop_client",
"hive",
"hive_server",
"pig"
],
"instanceNum": 1,
"instanceType": "SMALL"
}
]
}
2
Accédez à l'Serengeti CLI.
3
Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
cluster create --name cluster_name --specFile directory_path/spec_filename
Créer un cluster Hadoop ou HBase personnalisé avec l'interface de ligne de
commande Serengeti
Vous pouvez créer des clusters personnalisés en fonction de vos exigences, y compris le nombre de nœuds,
la taille du disque et de la RAM de la machine virtuelle, le nombre de CPU, etc.
Le package Serengeti inclut plusieurs exemples annotés de fichier de spécification de cluster que vous
pouvez utiliser comme modèles lorsque vous créez vos fichiers de spécification personnalisés.
n
Dans le serveur de gestion Serengeti, les exemples de fichiers de spécification de cluster se trouvent
dans /opt/serengeti/samples.
n
Si vous utilisez le client d'interface de ligne de commande distant Serengeti, les exemples de fichiers de
spécification sont dans le répertoire client.
La modification d'un rôle de groupe de nœuds peut entraîner l'échec du processus de création de cluster.
Par exemple, comme les clusters faisant l'objet de travaux requièrent un NameNode, s'il n'existe aucun
nœud NameNode après que vous avez modifié les rôles des groupes de nœuds, vous ne pouvez pas créer
de cluster.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les
groupes de nœuds.
2
Accédez à l'interface de ligne de commande Serengeti.
VMware, Inc.
71
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster.
Utilisez le chemin d'accès complet pour spécifier le fichier.
cluster create --name cluster_name --specFile full_path/spec_filename
REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou
Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic
réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP
dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé
mais il ne fonctionne pas.
72
VMware, Inc.
Gestion des clusters Hadoop et
HBase
6
Vous pouvez utiliser vSphere Web Client pour démarrer et arrêter votre cluster Big Data, et pour modifier la
configuration du cluster. Vous pouvez également gérer un cluster à l'aide de l'interface de ligne de
commande Serengeti.
AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de
cluster vers d'autres hôtes pour les clusters créés avec Big Data Extensions. L'utilisation de ces fonctions de
gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines
opérations de Big Data Extensions telles que la récupération de défaillances de disque.
Ce chapitre aborde les rubriques suivantes :
n
« Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti », page 74
n
« Agrandir un cluster avec l'interface de ligne de commande Serengeti », page 74
n
« Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti », page 75
n
« Reconfigurer un cluster avec l'interface de ligne de commande Serengeti », page 75
n
« Supprimer un cluster avec l'interface de ligne de commande Serengeti », page 78
n
« À propos de vSphere High Availability et de vSphere Fault Tolerance », page 78
n
« Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti », page 78
n
« Développer un cluster à l'aide de l'interface de ligne de commande », page 78
n
« Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti »,
page 80
n
« Effectuer la récupération d'une machine virtuelle de nœud de cluster », page 80
n
« Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client
d'interface de ligne de commande Serengeti », page 81
VMware, Inc.
73
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Démarrer et arrêter un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez arrêter un cluster en cours d'exécution et démarrer un cluster arrêté à partir de l'interface de
ligne de commande Serengeti. Lorsque vous démarrez ou arrêtez un cluster via Cloudera Manager ou
Ambari, seuls les services sont démarrés ou arrêtés. Cependant, lorsque vous démarrez ou arrêtez un cluster
via Big Data Extensions, non seulement les services, mais également les machines virtuelles sont démarrés
ou arrêtés.
Prérequis
n
Vérifiez que le cluster est provisionné.
n
Vérifiez que suffisamment de ressources, notamment en termes de CPU et de mémoire, sont
disponibles pour démarrer les machines virtuelles du cluster Hadoop.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande cluster stop.
cluster stop –-name name_of_cluster_to_stop
3
Exécutez la commande cluster start.
cluster start –-name name_of_cluster_to_start
Agrandir un cluster avec l'interface de ligne de commande Serengeti
Vous spécifiez le nombre de nœuds du cluster lorsque vous créez des clusters Hadoop et HBase. Par la suite,
vous pouvez agrandir le cluster en augmentant le nombre de nœuds worker et le nombre de nœuds client.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds d'un cluster, le mot de
passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération d'agrandissement du cluster.
Si vous avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le
cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial
de l'administrateur pour le cluster lorsque vous avez créé le cluster, les nouveaux mots de passe aléatoires
sont utilisés pour les nouveaux nœuds.
Prérequis
Vérifiez que le cluster a démarré.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande cluster resize.
Pour node_type, spécifiez worker ou client. Pour la valeur num_nodes du paramètreinstanceNum, utilisez
tout nombre supérieur au nombre actuel d'instances node_type.
cluster resize --name name_of_cluster_to_resize --nodeGroup node_type --instanceNum num_nodes
74
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de
commande Serengeti
Vous pouvez augmenter ou réduire la capacité de calcul et la RAM d'un cluster afin d'empêcher la
contention des ressources mémoire des tâches en cours d'exécution.
Serengeti vous permet d'ajuster les ressources de calcul et de la mémoire, sans augmenter la charge de
travail sur le nœud master. Si l'augmentation ou la diminution du CPU d'un cluster n'aboutit pas pour un
nœud, ce qui est généralement dû à l'insuffisance des ressources disponibles, le nœud est rétabli à sa valeur
de CPU originale. Si l'augmentation ou la diminution de la RAM d'un cluster n'aboutit pas pour un nœud,
ce qui est généralement dû à l'insuffisance des ressources, le disque d'échange conserve sa nouvelle valeur.
Le disque n'est pas rétabli à la valeur d'origine de la mémoire.
Même si tous les types de nœuds prennent en charge la mise à l'échelle du CPU et de la RAM, ne mettez pas
à l'échelle le nœud master d'un cluster, carSerengeti arrête la machine virtuelle lors du processus de mise à
l'échelle.
Les valeurs maximales pour le CPU et la RAM dépendent de la version de la machine virtuelle.
Tableau 6‑1. Valeurs maximales pour le CPU et la RAM
Version de machine virtuelle
Nombre maximal de CPU
RAM maximale, en Go
7
8
255
8
32
1 011
9
64
1 011
10
64
1 011
Prérequis
Démarrez le cluster s'il n'est pas en cours d'exécution.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande cluster resize pour modifier le nombre de CPU ou la quantité de RAM d'un
cluster.
n
n
Les types de nœud sont travailleur ou client.
Spécifiez l'un et/ou l'autre des paramètres de mise à l'échelle : --cpuNumPerNode ou--
memCapacityMbPerNode.
cluster resize --name cluster_name --nodeGroup node_type [--cpuNumPerNode vCPUs_per_node]
[--memCapacityMbPerNode memory_per_node]
Reconfigurer un cluster avec l'interface de ligne de commande
Serengeti
Vous pouvez reconfigurer tout cluster big data que vous créez avec Big Data Extensions.
La configuration des clusters est spécifiée par des attributs dans des fichiers de configuration XML de
distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh,
yarn-site.sh et hadoop-metrics.properties.
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les
fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphere
Big Data Extensions.
VMware, Inc.
75
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les
fichiers de distribution Hadoop, reportez-vous à Chapitre 8, « Référence de spécification de cluster »,
page 87.
REMARQUE Utilisez toujours la commande cluster config pour modifier les paramètres spécifiés par les
fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effacées si la
machine virtuelle redémarre ou si vous utilisez les commandes cluster config, cluster start, cluster
stop ou cluster resize.
Procédure
1
Utilisez la commande cluster export pour exporter le fichier de spécification pour le cluster que vous
souhaitez reconfigurer.
cluster export --name
2
cluster_name --specFile file_path/cluster_spec_file_name
Option
Description
cluster_name
Nom du cluster que vous souhaitez reconfigurer.
file_path
Le chemin du système de fichiers vers lequel vous voulez exporter le
fichier de spécification.
cluster_spec_file_name
Le nom de l'étiquette à attribuer au fichier de spécification du cluster
exporté.
Modifiez les informations de configuration situées près de la fin du fichier de spécification du cluster
exporté.
Si vous modélisez votre fichier de configuration sur des fichiers de configuration XML Hadoop
existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format
JSON requis.
…
"configuration": {
"hadoop": {
"core-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html
// note: any value (int, float, boolean, string) must be enclosed in double quotes
and here is a sample:
// "io.file.buffer.size": "4096"
},
"hdfs-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html
},
"mapred-site.xml": {
// check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html
},
"hadoop-env.sh": {
// "HADOOP_HEAPSIZE": "",
// "HADOOP_NAMENODE_OPTS": "",
// "HADOOP_DATANODE_OPTS": "",
// "HADOOP_SECONDARYNAMENODE_OPTS": "",
// "HADOOP_JOBTRACKER_OPTS": "",
// "HADOOP_TASKTRACKER_OPTS": "",
// "HADOOP_CLASSPATH": "",
// "JAVA_HOME": "",
76
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
// "PATH": "",
},
"log4j.properties": {
// "hadoop.root.logger": "DEBUG, DRFA ",
// "hadoop.security.logger": "DEBUG, DRFA ",
},
"fair-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/fair_scheduler.html
// "text": "the full content of fair-scheduler.xml in one line"
},
"capacity-scheduler.xml": {
// check for all settings at
http://hadoop.apache.org/docs/stable/capacity_scheduler.html
}
}
}
…
3
(Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le répertoire
$HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de
spécification de cluster.
Cette opération permet aux démons Hadoop de localiser les fichiers JAR de distribution.
Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent
sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de spécification du cluster
pour permettre à Hadoop d'utiliser les fichiers JAR.
…
"configuration": {
"hadoop": {
"hadoop-env.sh": {
"HADOOP_CLASSPATH": "/usr/lib/hadoop/contrib/fairscheduler/*:$HADOOP_CLASSPATH"
},
"mapred-site.xml": {
"mapred.jobtracker.taskScheduler": "org.apache.hadoop.mapred.FairScheduler"
…
},
"fair-scheduler.xml": {
…
}
}
}
…
4
Accédez à l'Serengeti CLI.
5
Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile file_path/cluster_spec_file_name
6
VMware, Inc.
(Facultatif) Réinitialisez un attribut de configuration existant à sa valeur par défaut.
a
Supprimez l'attribut de la section de configuration du fichier de configuration ou commentez
l'attribut en utilisant deux barres obliques inversées (//).
b
Exécutez à nouveau la commande cluster config.
77
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Supprimer un cluster avec l'interface de ligne de commande Serengeti
Vous pouvez supprimer un cluster dont vous n'avez plus besoin, qu'il soit en cours d'exécution ou pas.
Quand un cluster est supprimé, l'ensemble de ses machines virtuelles et pools de ressources l'est également.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande cluster delete.
cluster delete --name cluster_name
À propos de vSphere High Availability et de vSphere Fault Tolerance
Le serveur de gestion Serengeti tire parti de la haute disponibilité vSphere pour protéger la machine
virtuelle du nœud Hadoop master, qui peut être surveillée par vSphere.
Lorsque un service Hadoop NameNode ou JobTracker s'arrête de manière inattendue, vSphere redémarre la
machine virtuelle Hadoop dans un autre hôte afin de réduire la période d'interruption non planifiée. Si
vSphere Fault Tolerance est configuré et que la machine virtuelle du nœud master s'arrête de manière
inattendue en raison du basculement ou de la perte de connectivité réseau d'un hôte, le nœud secondaire est
utilisé, sans provoquer d'interruption de service.
Reconfigurer un groupe de nœuds avec l'interface de ligne de
commande Serengeti
Vous pouvez reconfigurer les groupes de nœuds en modifiant les données de configuration des groupes de
nœuds du fichier de spécification de cluster associé. Lorsque vous configurez un groupe de nœuds, sa
configuration remplace toute configuration de niveau cluster du même nom.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commandecluster export pour exporter le fichier de spécification de cluster du cluster.
cluster export --name cluster_name --specFile path_name/spec_file_name
3
Dans le fichier de spécification, modifiez la section de configuration du groupe de nœuds avec le même
contenu que la configuration de niveau cluster.
4
Ajoutez la configuration Hadoop personnalisée au groupe de nœuds que vous voulez reconfigurer.
5
Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop.
cluster config --name cluster_name --specFile path_name/spec_file_name
Développer un cluster à l'aide de l'interface de ligne de commande
Vous pouvez développer un cluster Big Data existant en ajoutant des groupes de nœuds supplémentaires.
Procédure
1
78
Accédez à l'Serengeti CLI.
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2
Modifiez le fichier de spécification du cluster afin qu'il inclue les nouveaux groupes de nœuds que vous
souhaitez ajouter au cluster.
Lors de la modification du fichier de spécification du cluster pour développer le cluster, gardez les
éléments suivants en tête.
n
Les nouveaux groupes de nœuds développés ne doivent pas avoir les mêmes noms que les groupes
de nœuds existants dans le cluster.
n
Veillez à utiliser une syntaxe correcte lors de la modification du fichier de spécification du cluster.
Chaque élément et sa valeur de configuration doivent être corrects, sans quoi l'opération de
développement échouera.
Cet exemple illustre une configuration nodeGroups mise à jour à partir du fichier de spécification de
cluster plus large.
{
"nodeGroups":[
{
"name": "master1",
"roles": [
"basic"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 3768,
"storage": {
"type": "SHARED",
"sizeGB": 10
},
"haFlag": "on"
},
{
"name": "worker1",
"roles": [
"basic"
],
"instanceNum": 1,
"cpuNum": 2,
"memCapacityMB": 3768,
"storage": {
"type": "LOCAL",
"sizeGB": 10
},
"haFlag": "off"
}
]
}
3
Exécutez la commande cluster expand pour appliquer la nouvelle configuration de cluster avec les
groupes de nœuds développés.
cluster expand --name cluster_name --specFile path_name/spec_file_name
Si l'opération cluster expand échoue, l'état du cluster change et devient PROVISION_ERROR. Pour
effectuer une récupération à partir de cette condition, vérifiez que la syntaxe utilisée dans le fichier de
spécification du cluster est correcte, puis exécutez de nouveau la commande cluster expand pour
résoudre cette défaillance.
VMware, Inc.
79
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Suivant
Vous pouvez vérifier que les groupes de nœuds ont bien été ajoutés au cluster à l'aide de la commande
cluster list. Reportez-vous à « Afficher les clusters provisionnés avec l'interface de ligne de commande
Serengeti », page 85.
Récupérer d'une défaillance disque avec le client d'interface de ligne
de commande Serengeti
Dans le cas d'une défaillance de disque dans un cluster, si le disque ne joue aucun rôle de gestion tel que
NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez récupérer à l'aide la
commande Serengeti cluster fix.
Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des données (configurés
en tant que JBOD). En cas de défaillance de plusieurs disques, le nœud de données Hadoop peut s'éteindre.
Big Data Extensions vous permet de récupérer des défaillances de disque.
Serengeti prend en charge la récupération après un échange ou une défaillance de disque sur toutes les
distributions Hadoop prises en charge. Les disques sont récupérés et démarrés l'un après l'autre pour éviter
la perte temporaire de plusieurs nœuds à la fois. Les nouveaux disques correspondent au type de stockage
et aux stratégies de placement des disques défaillants qu'ils remplacent.
La distribution MapR ne prend pas en charge la récupération d'une défaillance de disque à l'aide de la
commande cluster fix.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds du cluster, le mot de passe
modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous
avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce
mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de
l'administrateur pour le cluster lorsque vous avez créé le cluster, de nouveaux mots de passe aléatoires sont
utilisés pour les nouveaux nœuds.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande cluster fix.
Le paramètre nodeGroup est facultatif.
cluster fix --name cluster_name --disk [--nodeGroup nodegroup_name]
Effectuer la récupération d'une machine virtuelle de nœud de cluster
Vous pouvez récupérer des machines virtuelles de nœud de cluster qui ont été dissociées de leur identifiant
d'objet géré (MOID) ou de leur pool de ressources et de leur nom de machine virtuelle.
Dans de rares situations, l'identifiant d'objet géré (MOID) d'une machine virtuelle de nœud de cluster peut
changer. Cela peut se produire lorsqu'un hôte plante et se réenregistre sur vCenter Server. Lorsque BDE ne
parvient pas à localiser une machine virtuelle de nœud dans vCenter Server par son MOID, l'application
essaie d'abord de localiser le nœud par son pool de ressources et son nom de machine virtuelle. Si cela
s'avère impossible, vous pouvez récupérer la machine virtuelle de nœud de cluster à l'aide de la commande
cluster recover.
Procédure
1
80
Accédez à l'Serengeti CLI.
VMware, Inc.
Chapitre 6 Gestion des clusters Hadoop et HBase
2
Exécutez la commande cluster recover pour mettre à jour le cluster et récupérer la machine virtuelle
de nœud de cluster.
cluster recover
Suivant
Vous pouvez vérifier que la machine virtuelle de nœud de cluster a été récupérée avec succès.
Passer en mode maintenance pour effectuer la sauvegarde et la
restauration à l'aide du client d'interface de ligne de commande
Serengeti
Avant d'effectuer les opérations de sauvegarde et de restauration, ou d'autres tâches de maintenance, vous
devez placer Big Data Extensions en mode maintenance.
Prérequis
n
Déployez le vApp Serengeti.
n
Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop.
n
Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs
distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data
Extensions.
Procédure
1
Connectez-vous à Serengeti Management Server.
2
Exécutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en
mode maintenance ou vérifier l'état de maintenance.
serengeti-maintenance.sh on | off | status
Option
Description
activé
Active le mode maintenance. Lorsque vous entrez en mode maintenance,
Big Data Extensions continue à exécuter les tâches déjà commencées, mais
ne répond pas aux nouvelles requêtes.
désactivé
Désactive le mode maintenance et remet Big Data Extensions dans son état
de fonctionnement normal.
Statut
Affiche l'état de maintenance de Big Data Extensions.
n
L'état sécurisé indique que les opérations de sauvegarde et les autres
tâches de maintenance peuvent être effectuées en toute sécurité dans
votre déploiement Big Data Extensions.
n
L'état désactivé indique que le mode maintenance a été désactivé et
que les tâches de maintenance telles que la sauvegarde et la
restauration ne peuvent pas être effectuées en toute sécurité.
n
L'état activé signifie que Big Data Extensions est entré en mode
maintenance, mais que les opérations de sauvegarde et de restauration
ne peuvent pas encore être effectuées en toute sécurité. Vous devez
attendre que le système renvoie le message d'état sécurisé.
Pour placer votre déploiement Big Data Extensions en mode maintenance, exécutez le script serengetimaintenance.sh avec l'option on.
serengeti-maintenance.sh on
VMware, Inc.
81
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
3
Vérifiez que Big Data Extensions est en mode maintenance.
Lorsque Big Data Extensions a terminé toutes les tâches qui ont été envoyées, l'état de maintenance
entre en mode sécurisé. Exécutez le script serengeti-maintenance.sh avec le paramètre status de
manière répétée jusqu'à obtenir le message d'état du système sécurisé.
serengeti-maintenance.sh status
safe
4
Effectuez les tâches de maintenance système souhaitées.
5
Une fois que vous avez terminé, faites repasser Big Data Extensions à son état de fonctionnement
normal en quittant manuellement le mode maintenance.
serengeti-maintenance.sh off
82
VMware, Inc.
Surveillance de l'environnement Big
Data Extensions
7
Vous pouvez surveiller l'état des clusters déployés sur Serengeti, y compris leurs banques de données, leurs
réseaux et leurs pools de ressources à l'aide de l'interface de ligne de commande Serengeti. Vous pouvez
également afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont
également disponibles dans vSphere Web Client.
Ce chapitre aborde les rubriques suivantes :
n
« Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande
Serengeti », page 83
n
« Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti »,
page 84
n
« Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de
l'interface de ligne de commande Serengeti », page 84
n
« Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide
de l'interface de ligne de commande Serengeti », page 84
n
« Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti », page 85
n
« Afficher les banques de données avec l'interface de ligne de commande Serengeti », page 85
n
« Afficher les réseaux avec l'interface de ligne de commande Serengeti », page 86
n
« Afficher les pools de ressources avec l'interface de ligne de commandeSerengeti », page 86
Afficher la liste des gestionnaires d'applications à l'aide de l'interface
de ligne de commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont
installés sur l'environnement Big Data Extensions.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list
La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement
Big Data Extensions.
VMware, Inc.
83
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Afficher les distributions Hadoop disponibles avec l'interface de ligne
de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous utilisez la
commande distro list pour afficher la liste des distributions Hadoop disponibles dans votre déploiement
Serengeti. Lorsque vous créez des clusters, vous pouvez utiliser toute distribution Hadoop disponible.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande distro list.
Les distributions Hadoop disponibles sont affichées, ainsi que leurs packages.
Suivant
Avant d'utiliser une distribution, vérifiez qu'elle inclut les services que vous voulez déployer. S'il manque
des services, ajoutez les packages appropriés à la distribution.
Afficher les distributions prises en charge pour tous les gestionnaires
d'applications à l'aide de l'interface de ligne de commande Serengeti
Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions
disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez
afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement
Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire
d'applications particulier.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distros]
Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions
Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement
Big Data Extensions.
La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire
d'applications du nom que vous spécifiez.
Afficher les configurations ou les rôles pour le gestionnaire
d'applications et la distribution à l'aide de l'interface de ligne de
commande Serengeti
Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop
d'une distribution et d'un gestionnaire d'applications spécifiques.
La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans
les spécifications de cluster.
84
VMware, Inc.
Chapitre 7 Surveillance de l'environnement Big Data Extensions
La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser
de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications.
Prérequis
Vérifiez que vous êtes connecté à un gestionnaire d'applications.
Procédure
1
Accédez à l'interface de ligne de commande Serengeti.
2
Exécutez la commande appmanager list.
appmanager list --name application_manager_name [--distro distro_name
(--configurations | --roles) ]
La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire
d'applications spécifique.
Afficher les clusters provisionnés avec l'interface de ligne de
commande Serengeti
À partir de l'Serengeti CLI, vous pouvez afficher les clusters provisionnés qui sont dans le déploiement
Serengeti.
Procédure
1
Accédez à l'Serengeti CLI.
2
Exécutez la commande cluster list.
cluster list
Cet exemple affiche un cluster spécifique en incluant le paramètre --name.
cluster list --name cluster_name
Cet exemple affiche des informations détaillées sur un cluster spécifique en incluant les paramètres -name et --detail.
cluster list --name cluster_name –-detail
Afficher les banques de données avec l'interface de ligne de
commande Serengeti
À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les banques de données qui
sont dans le déploiement Serengeti.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande datastore list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
datastore list --detail
Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les
paramètres --name et --detail.
datastore list --name datastore_name --detail
VMware, Inc.
85
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Afficher les réseaux avec l'interface de ligne de commande Serengeti
À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les réseaux qui sont dans le
déploiement Serengeti.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande network list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
network list --detail
Cet exemple affiche des informations détaillées sur un réseau spécifique en incluant les paramètres -name et --detail.
network list --name network_name --detail
Afficher les pools de ressources avec l'interface de ligne de
commande Serengeti
À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les pools de ressources qui
sont dans le déploiement Serengeti.
Procédure
1
Accédez à l'interface de ligne de commandeSerengeti.
2
Exécutez la commande resourcepool list.
Cet exemple affiche les informations détaillées en incluant le paramètre --detail.
resourcepool list --detail
Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les
paramètres --name et --detail.
resourcepool list --name resourcepool_name –-detail
86
VMware, Inc.
Référence de spécification de cluster
8
Pour personnaliser vos clusters, vous devez savoir utiliser les fichiers de spécification de cluster Serengeti et
définir les prérequis de cluster avec les différents attributs et objets. Après avoir créé vos fichiers de
configuration, vous pouvez les convertir au format de fichier JSON.
Ce chapitre aborde les rubriques suivantes :
n
« Conditions requises de fichier de spécification de cluster », page 87
n
« Conditions requises de la définition de cluster », page 88
n
« Fichier de spécification de cluster annoté », page 88
n
« Définitions des attributs de spécification de cluster », page 91
n
« Attributs Hadoop de la liste blanche et de la liste noire », page 94
n
« Convertir les fichiers XML Hadoop en Serengetifichiers JSON », page 96
Conditions requises de fichier de spécification de cluster
Un fichier de spécification de cluster est un fichier texte avec les attributs de configuration fournis dans une
structure au format JSON. Les fichiers de spécification de cluster doivent respecter les prérequis relatifs à la
syntaxe, à l'utilisation des guillemets et aux commentaires.
n
Pour analyser les fichiers de spécification de cluster, Serengeti utilise le processeur JSON Jackson. Pour
les obligations syntaxiques, telles que la stratégie de troncation des types « float », consultez la page
wiki « Jackson JSON Processor ».
n
Encadrez toujours les valeurs numériques par des guillemets. Par exemple :
"mapred.tasktracker.reduce.tasks.maximum" : "2"
Les guillemets garantissent que les entiers sont correctement interprétés au lieu d'être convertis en
nombres à virgule flottante double précision, ce qui peut entraîner des conséquences inattendues.
n
VMware, Inc.
Vous ne pouvez inclure que des commentaires d'une seule ligne en utilisant le symbole dièse (#) pour
identifier le commentaire.
87
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Conditions requises de la définition de cluster
Les fichiers de spécification de cluster contiennent les définitions de configuration des clusters, telles que
leurs rôles et groupes de nœuds. Les définitions de cluster doivent adhérer aux conditions requises relatives
aux rôles de groupe de nœuds, aux rôles de cluster et aux nombres d'instance.
Une définition de cluster obéit aux conditions requises suivantes :
n
Les rôles de groupe de nœuds ne peuvent pas être vides. Vous pouvez déterminer les noms de rôle
valides pour votre distribution Hadoop à l'aide de la commande distro list.
n
Les rôles hadoop_namenode et hadoop_jobtracker doivent être configurés dans un seul groupe de
nœuds.
Dans les clusters Hadoop 2.0, tels que CDH4 ou Pivotal HD, le nombre d'instances peut être
n
supérieur à 1 pour créer un cluster HDFS HA ou Federation.
n
n
Sinon, le nombre total d'instances doit être égal à 1.
Les nombres d'instances de groupe de nœuds doivent être des nombres positifs.
Fichier de spécification de cluster annoté
Le fichier de spécification de cluster Serengeti définit les différents nœuds Hadoop et HBase ainsi que leurs
ressources à utiliser par le cluster Big Data. Vous pouvez utiliser ce fichier de spécification de cluster annoté
ainsi que les fichiers exemples du dossier /opt/serengeti/samples comme modèles à émuler lorsque vous
créez vos clusters Big Data.
Le code suivant est celui d'un fichier de spécification de cluster classique. Pour les annotations du code,
consultez Tableau 8-1.
1 {
2
"nodeGroups" : [
3
{
4
"name": "master",
5
"roles": [
6
"hadoop_namenode",
7
"hadoop_resourcemanager"
8
],
9
"instanceNum": 1,
10
"instanceType": "LARGE",
11
"cpuNum": 2,
12
"memCapacityMB":4096,
13
"storage": {
14
"type": "SHARED",
15
"sizeGB": 20
16
17
18
19
20
21
22
23
24
25
26
27
28
88
},
"haFlag":"on",
"rpNames": [
"rp1"
]
},
{
"name": "data",
"roles": [
"hadoop_datanode"
],
"instanceNum": 3,
"instanceType": "MEDIUM",
VMware, Inc.
Chapitre 8 Référence de spécification de cluster
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
VMware, Inc.
"cpuNum": 2,
"memCapacityMB":2048,
"storage": {
"type": "LOCAL",
"sizeGB": 50,
"dsNames4Data": ["DSLOCALSSD"],
"dsNames4System": ["DSNDFS"]
}
"placementPolicies": {
"instancePerHost": 1,
"groupRacks": {
"type": "ROUNDROBIN",
"racks": ["rack1", "rack2", "rack3"]
}
}
},
{
"name": "compute",
"roles": [
"hadoop_nodemanger"
],
"instanceNum": 6,
"instanceType": "SMALL",
"cpuNum": 2,
"memCapacityMB":2048,
"storage": {
"type": "LOCAL",
"sizeGB": 10
}
"placementPolicies": {
"instancePerHost": 2,
"groupAssociations": [{
"reference": "data",
"type": "STRICT"
}]
}
},
{
"name": "client",
"roles": [
"hadoop_client",
"hive",
"hive_server",
"pig"
],
"instanceNum": 1,
"instanceType": "SMALL",
"memCapacityMB": 2048,
"storage": {
"type": "LOCAL",
"sizeGB": 10,
"dsNames": [“ds1”, “ds2”]
}
}
89
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
83 ],
84 "configuration": {
85 }
86 }
Les éléments de définition de cluster sont spécifiés dans la table.
Tableau 8‑1. Exemple d'annotation de spécification de cluster
90
Ligne(s)
Attribut
Valeur d'exemple
Description
4
nom
maître
Nom du groupe de nœuds.
5-8
rôle
hadoop_namenode,
hadoop_jobtracker
Rôle du groupe de nœuds.
hadoop_namenode et hadoop_jobtracker sont
déployés sur la machine virtuelle du groupe de
nœuds.
9
instanceNum
1
Nombre d'instances du groupe de nœuds.
Une seule machine virtuelle est créée pour le
groupe.
n Il est possible d'avoir plusieurs instances de
hadoop_tasktracker, hadoop_datanode,
hadoop_client, pig et hive.
n Pour les clusters HDFS1, vous ne pouvez
avoir qu'une seule instance de
hadoop_namenode et hadoop_jobtracker.
n Pour les clusters HDFS2, vous pouvez avoir
deux instances hadoop_namenode.
n Avec une distribution MapR, vous pouvez
configurer plusieurs instances de
hadoop_jobtracker.
10
instanceType
GRANDE
Type d'instance de groupe de nœuds.
Les types d'instance sont des spécifications de
machine virtuelle prédéfinies : elles
correspondent à une combinaison du nombre de
CPU, de la taille de la RAM et de la taille du
stockage. Les valeurs prédéfinies peuvent être
remplacées par le cpuNum, la memCapacityMB et
les attributs de stockage du fichier de
spécification du serveur Serengeti.
11
cpuNum
2
Nombre de CPU par machine virtuelle.
Cet attribut remplace le nombre de CPU virtuels
de la spécification de machine virtuelle
prédéfinie.
12
memCapacityMB
4096
Taille de la RAM, en Mo, par machine virtuelle.
Cet attribut remplace la taille de la RAM de la
spécification de machine virtuelle prédéfinie.
13-16
stockage
Voir les lignes 14-15 des
attributs de stockage
d'un groupe
Configuration requise pour le stockage d'un
nœud de groupes.
14
type
PARTAGÉ
Type de stockage.
Le groupe de nœuds est déployé à l'aide d'un
stockage partagé uniquement.
15
sizeGB
20
Taille du stockage.
Chaque nœud du groupe de nœuds est déployé
avec 20 Go d'espace disque disponible.
17
haFlag
activé
Protection HA du groupe de nœuds.
Le groupe de nœuds est déployé avec la
protection HA vSphere.
VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 8‑1. Exemple d'annotation de spécification de cluster (suite)
Ligne(s)
Attribut
Valeur d'exemple
Description
18-20
rpNames
rp1
Pools de ressources sous lesquels les machines
virtuelles du groupe de nœuds sont déployées.
Ces pools peuvent être un tableau de valeurs.
22-36
Définition du
groupe de nœuds
pour le nœud de
données
37-44
placementPolicies
45-57
Définition du
groupe de nœuds
pour le nœud de
calcul
58-65
placementPolicies
66-82
Définition du
groupe de nœuds
pour le nœud client
83-86
configuration
Voir les lignes 3-21, qui définissent les mêmes
attributs pour le nœud master.
Sur les lignes 34-35, les disques de données sont
placés sur les banques de données
dsNames4Data et les disques système sur les
banques de données dsNames4System.
Voir l'exemple de code
Contraintes de la stratégie d'emplacement du
groupe de nœuds de données.
Vous avez besoin d'au moins trois hôtes ESXi,
car il y a trois instances et chaque instance doit
impérativement se trouver sur son propre hôte.
Le groupe est provisionné sur les hôtes sur les
racks 1, 2 et 3 à l'aide d'un algorithme
ROUNDROBIN.
Voir les lignes 4-16, qui définissent les mêmes
attributs pour le nœud master.
Voir l'exemple de code
Contraintes de la stratégie d'emplacement du
groupe de nœuds de calcul.
Vous avez besoin d'au moins trois hôtes ESXi
pour satisfaire aux exigences de l'instance. Le
groupe de nœuds de calcul fait référence à un
groupe de nœuds de données via un type
STRICT. Les deux instances de calcul utilisent
une instance de données sur l'hôte ESXi.
L'association STRICT offre les meilleures
performances.
Voir les définitions de groupe de nœuds
précédentes.
Vide dans l'exemple de
code
Personnalisation de la configuration Hadoop.
Définitions des attributs de spécification de cluster
Les définitions des clusters incluent les attributs pour le cluster lui-même et pour chacun des groupes de
nœuds.
Attributs extérieurs de spécification de cluster
Les attributs extérieurs de spécification de cluster s'appliquent au cluster comme un tout.
Tableau 8‑2. Attributs extérieurs de spécification de cluster
Attribut
Type
Obligatoire/facultatif
Description
nodeGroups
objet
Obligatoire
Une ou plusieurs spécifications de groupe. Voir Tableau 8-3.
configuration
objet
Facultatif
Paires clé/valeur de la configuration Hadoop personnalisable.
externalHDFS
string
Facultatif
Valide seulement pour les clusters de calcul uniquement. URI de HDFS
externe.
VMware, Inc.
91
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Attributs et objets de groupes de nœuds de spécification de cluster.
Les attributs et objets de groupes de nœuds s'appliquent à un seul groupe de nœuds d'un cluster.
Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster
Attribut
Type
Obligatoire/facultatif
Description
nom
string
Obligatoire
Nom du groupe de nœuds défini par
l'utilisateur.
rôles
liste de chaînes
Obligatoire
Liste des services ou packages logiciels à
installer sur la machine virtuelle. Les
valeurs doivent correspondre aux rôles
affichés par la commande distro list.
instanceNum
integer
Obligatoire
Nombre de machines virtuelles du
groupe de nœuds :
n Entier positif.
n Généralement, vous pouvez avoir
plusieurs instances pour
hadoop_tasktracker,
hadoop_datanode, hadoop_client,
pig, et hive.
n Pour les clusters HDFS1, vous ne
pouvez avoir qu'une seule instance
de hadoop_namenode et
hadoop_jobtracker.
n
n
instanceType
string
Facultatif
Pour les clusters HDFS2, vous
pouvez avoir deux instances
hadoop_namenode.
Avec une distribution MapR, vous
pouvez configurer plusieurs
instances de hadoop_jobtracker.
Taille des machines virtuelles du groupe
de nœuds, exprimée sous le nom d'un
modèle de machine virtuelle prédéfini.
Reportez-vous à la section Tableau 8-4.
n PETITE
n MOYENNNE
n GRANDE
n EXTRA_LARGE
Si vous spécifiez les attributs cpuNum,
memCapacityMB ou sizeGB, ils
remplacent la valeur correspondante de
votre modèle de machine virtuelle
sélectionnée pour le groupe de nœuds
applicable.
92
cpuNum
integer
Facultatif
Nombre de CPU par machine virtuelle. Si
la valeur de haFlag est FT, la valeur de
cpuNum doit être égale à 1.
memCapacityMB
integer
Facultatif
Taille de la RAM, en Mo, par machine
virtuelle.
REMARQUE Lors de l'utilisation de
MapR 3.1, vous devez spécifier un
minimum de 5 120 Mo de capacité
mémoire pour les nœuds zookeeper,
worker et client.
VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster (suite)
Attribut
Type
Obligatoire/facultatif
Description
swapRatio
flottant
Facultatif
Définit le rapport entre la taille du disque
de permutation du système
d'exploitation et la taille de la mémoire.
Par exemple, pour une mémoire de 4 Go
(4 096 Mo) et une valeur swapRatio de 1;
la taille du disque de permutation sera
de 4 Go. En spécifiant une valeur
swapRatio de 2, la taille du disque de
permutation sera de 8 Go.
Vous pouvez également spécifier une
valeur flottante pour l'attribut
swapRatio. En spécifiant une valeur de
0,5 avec une mémoire de 4 Go, la taille du
disque de permutation sera de 2 Go.
latencySensitivity
string
Facultatif
Vous pouvez spécifier une valeur
FAIBLE, NORMAL, MOYEN ou ÉLEVÉ
pour le paramètre de sensibilité de
latence de la machine virtuelle dans
vCenter Server afin d'optimiser les
performances du cluster.
Lorsque vous déployez un cluster HBase,
vous pouvez optimiser les performances
HBase en définissant le paramètre
latencySensitivity sur ÉLEVÉ. Vous
devez alors définir le paramètre
reservedMemRatio (voir ci-dessous)
sur 1.
reservedMemRatio
integer
Facultatif
Vous pouvez spécifier 0 ou 1 pour définir
la proportion de mémoire réservée.
Lorsque vous déployez un cluster HBase,
vous pouvez optimiser les performances
HBase en définissant le paramètre sur 1.
Vous devez alors définir le paramètre
latencySensitivity (voir ci-dessus)
sur ÉLEVÉ.
reservedCpuRatio
integer
Facultatif
Vous pouvez spécifier 0 ou 1 pour définir
la proportion de CPU réservé.
Stockage
objet
Facultatif
Paramètres de stockage.
type
string
Facultatif
Type de stockage :
n LOCAL. Pour le stockage local
n PARTAGÉ. Pour le stockage partagé.
sizeGB
integer
Facultatif
Taille du stockage des données. Doit être
un nombre entier positif
diskNum
integer
Facultatif
Spécifie le nombre de disques à utiliser
pour chaque groupe de nœuds.
dsNames
liste de chaînes
Facultatif
Tableau de banques de données que le
groupe de nœuds peut utiliser.
dnNames4Data
liste de chaînes
Facultatif
Tableau de banques de données que le
groupe de nœuds de données peut
utiliser.
dsNames4System
liste de chaînes
Facultatif
Tableau de banques de données que le
système peut utiliser.
rpNames
liste de chaînes
Facultatif
Tableau de pools de ressources que le
groupe de nœuds peut utiliser.
VMware, Inc.
93
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster (suite)
Attribut
Type
Obligatoire/facultatif
Description
haFlag
string
Facultatif
Par défaut, les nœuds NameNode et
JobTracker sont protégés par vSphere
HA.
n activé. Protégez le nœud avec
vSphere HA.
n pieds. Protégez le nœud avec
vSphere FT.
n désactivée. N'utilisez pas vSphere
HA ou vSphere FT.
placementPolicies
objet
Facultatif
Jusqu'à trois contraintes facultatives :
instancePerHost
n groupRacks
n groupAssociations
n
Tailles des machines virtuelles prédéfinies Serengeti
Serengeti fournit des tailles de machines virtuelles prédéfinies à utiliser pour définir la taille de machines
virtuelles dans un groupe de nœuds de cluster.
Tableau 8‑4. Tailles des machines virtuelles prédéfinies Serengeti
PETITE
MOYENNNE
GRANDE
EXTRA_LARGE
Nombre de CPU par
machine virtuelle
1
2
4
8
RAM, en Go
3,75
7,5
15
30
Taille du disque de
données master
Hadoop, en Go
25
50
100
200
Taille du disque de
données worker
Hadoop, en Go
50
100
200
400
Taille du disque de
données client
Hadoop, en Go
50
100
200
400
Taille du disque de
données zookeeper, en
Go
20
40
80
120
Attributs Hadoop de la liste blanche et de la liste noire
Les attributs de la liste blanche sont les attributs Apache Hadoop que vous pouvez configurer
depuisSerengeti avec la commande cluster config. La majorité des attributs Apache Hadoop sont sur la
liste blanche. Cependant, il existe quelques attributs Apache Hadoop de la liste noire, que vous ne pouvez
pas configurer depuis Serengeti.
Si vous utilisez un attribut du fichier de spécification de cluster qui n'est ni un attribut sur liste blanche ni un
attribut sur liste noire, et que vous exécutez la commande cluster config, un avertissement s'affiche et
vous devez répondre oui pour continuer ou non pour annuler.
Si votre cluster inclut un NameNode or JobTracker, Serengeti configure les attributs fs.default.name et
dfs.http.address. Vous pouvez remplacer ces attributs en les définissant dans votre spécification de cluster.
94
VMware, Inc.
Chapitre 8 Référence de spécification de cluster
Tableau 8‑5. Liste blanche des attributs de configuration
Fichier
Attributs
core-site.xml
Tous les attributs de configuration core-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/coredefault.html.
Excluez les attributs définis dans la liste noire.
hdfs-site.xml
Tous les attributs de configuration hdfs-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/hdfsdefault.html.
Excluez les attributs définis dans la liste noire.
mapred-site.xml
Tous les attributs de configuration mapred-default listés sur la page Web de la documentation
Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/mapreddefault.html.
Excluez les attributs définis dans la liste noire.
hadoop-env.sh
JAVA_HOME
PATH
HADOOP_CLASSPATH
HADOOP_HEAPSIZE
HADOOP_NAMENODE_OPTS
HADOOP_DATANODE_OPTS
HADOOP_SECONDARYNAMENODE_OPTS
HADOOP_JOBTRACKER_OPTS
HADOOP_TASKTRACKER_OPTS
HADOOP_LOG_DIR
log4j.properties
hadoop.root.logger
hadoop.security.logger
log4j.appender.DRFA.MaxBackupIndex
log4j.appender.RFA.MaxBackupIndex
log4j.appender.RFA.MaxFileSize
fairscheduler.xml
texte
Tous les attributs de configuration fair_scheduler listés sur la page Web de la documentation
Apache Hadoop 2.x qui peuvent être utilisés à l'intérieur du champ de texte. Par exemple,
http://hadoop.apache.org/docs/branch_name/fair_scheduler.html.
Excluez les attributs définis dans la liste noire.
capacityscheduler.xml
Tous les attributs de configuration capacity_scheduler listés sur la page Web de la
documentation Apache Hadoop 2.x. Par exemple,
http://hadoop.apache.org/docs/branch_name/capacity_scheduler.html.
Excluez les attributs définis dans la liste noire.
mapred-queueacls.xml
Tous les attributs de configuration mapred-queue-acls listés sur la page Web Apache
Hadoop 2.x. Par exemple,
http://hadoop.apache.org/docs/branch_name/cluster_setup.html#Configuring+the
+Hadoop+Daemons.
Excluez les attributs définis dans la liste noire.
VMware, Inc.
95
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Tableau 8‑6. Liste noire des attributs de configuration
Fichier
Attributs
core-site.xml
net.topology.impl
net.topology.nodegroup.aware
dfs.block.replicator.classname
topology.script.file.name
hdfs-site.xml
dfs.http.address
dfs.name.dir
dfs.data.dir
mapred-site.xml
mapred.job.tracker
mapred.local.dir
mapred.task.cache.levels
mapred.jobtracker.jobSchedulable
mapred.jobtracker.nodegroup.aware
hadoop-env.sh
HADOOP_HOME
HADOOP_COMMON_HOME
HADOOP_MAPRED_HOME
HADOOP_HDFS_HOME
HADOOP_CONF_DIR
HADOOP_PID_DIR
log4j.properties
Aucune
fair-scheduler.xml
Aucune
capacity-scheduler.xml
Aucune
mapred-queue-acls.xml
Aucune
Convertir les fichiers XML Hadoop en Serengeti fichiers JSON
Si vous avez défini un grand nombre d'attributs dans vos fichiers de configuration Hadoop, vous pouvez
convertir ces informations de configuration au format JSON que Serengeti peut utiliser.
Procédure
1
Copiez le répertoire $HADOOP_HOME/conf/ de votre cluster Hadoop vers le serveur de gestion Serengeti.
2
Ouvrez un shell de commande, tel que Bash ou PuTTY, connectez-vous au serveur de gestion Serengeti
et exécutez le script de conversion Ruby convert-hadoop-conf.rb.
convert-hadoop-conf.rb path_to_hadoop_conf
Les attributs de configuration Hadoop convertis, au format JSON, s'affichent.
3
Ouvrez le fichier de spécification de cluster pour le modifier.
4
Remplacez la configuration de niveau cluster ou les éléments de configuration de niveau groupe par la
sortie générée par le script de conversion Ruby convert-hadoop-conf.rb.
Suivant
Accédez à l'interface de ligne de commande Serengeti et utilisez le nouveau fichier de spécification.
96
n
Pour appliquer la nouvelle configuration à un cluster, exécutez la commande cluster config. Incluez le
paramètre --specFile et sa valeur : le nouveau fichier de spécification.
n
Pour créer un cluster avec la nouvelle configuration, exécutez la commande cluster create. Incluez le
paramètre --specFile et sa valeur : le nouveau fichier de spécification.
VMware, Inc.
Référence des commandes de
l'interface de ligne de commande
Serengeti
9
Cette section fournit la description et la syntaxe requise de chaque commande de l'interface de ligne de
commande Serengeti.
Ce chapitre aborde les rubriques suivantes :
n
« Commandes appmanager », page 97
n
« Commandes cluster », page 99
n
« Commande connect », page 106
n
« Commandes datastore », page 107
n
« Commande disconnect », page 107
n
« Commande distro list », page 108
n
« Commandes mgmtvmcfg », page 108
n
« Commandes network », page 109
n
« Commandes resourcepool », page 110
n
« Commandes template », page 111
n
« Commandes topology », page 111
n
« Commandes usermgmt », page 112
Commandes appmanager
Les commandes appmanager {*} vous permettent d'ajouter des gestionnaires d'applications, de les
supprimer et de les gérer.
Commande appmanager add
La commande appmanager add vous permet d'ajouter un gestionnaire d'applications autre que celui par
défaut à votre environnement. Vous pouvez spécifier un gestionnaire d'applications Cloudera Manager ou
Ambari. La commande appmanager add lit le nom d'utilisateur et le mot de passe en mode interactif. Si vous
spécifiez https, la commande vous invite à saisir le chemin d'accès du certificat.
Paramètre
Obligatoire/facultatif
Description
--name
application_manager_name
Obligatoire
Nom du gestionnaire d'applications
--description description
Facultatif
VMware, Inc.
97
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Paramètre
Obligatoire/facultatif
Description
--type
[ClouderaManager/Ambari]
Obligatoire
Nom du type de gestionnaire d'applications à utiliser, Cloudera
Manager ou Ambari
--url <http[s]://server:port>
Obligatoire
URL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ;
invite à la saisie d'une connexion, d'un nom d'utilisateur et d'un
mot de passe.
Commande appmanager delete
Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez
plus besoin.
Le gestionnaire d'applications à supprimer ne doit pas contenir de clusters, sans quoi le processus échoue.
appmanager delete --name application_manager_name
Paramètre
Obligatoire ou facultatif
Description
--name application_manager_name
Obligatoire
Nom du gestionnaire d'applications
Commande appmanager modify
Avec la commandeappmanager modify, vous pouvez modifier les informations d'un gestionnaire
d'applications : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas
d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur.
IMPORTANT Commettre une erreur lorsque vous modifiez un gestionnaire d'applications peut avoir de
graves conséquences. Par exemple, vous modifiez l'URL de Cloudera Manager en l'URL d'un nouveau
gestionnaire d'applications. Si vous créez des clusters Big Data Extensionsavec l'instance de l'ancien
Cloudera Manager, il devient impossible de gérer le cluster Cloudera Manager précédent. De plus, le cluster
Cloudera Manager n'est pas accessible à l'instance du nouveau gestionnaire d'applications.
appmanager modify --name application_manager_name
Obligatoire
ou facultatif
Description
--name
application_manager_name
Obligatoire
Nom du gestionnaire d'applications
--url http[s]://server:port
Facultatif
URL du service du gestionnaire d'applications, sous la forme
http[s]://application_manager_server_ip_or_hostname:port ; invite à la
saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe. Vous
pouvez utiliser http ou https.
--changeAccount
Facultatif
Modifie le compte de connexion et le mot de passe du gestionnaire
d'applications.
--changeCertificate
Facultatif
Modifie le certificat SSL du gestionnaire d'applications. Ce paramètre ne
s'applique qu'aux gestionnaires d'applications dont l'URL commence par
https.
Paramètre
98
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Commande appmanager list
La commande appmanager list retourne une liste de tous les gestionnaires d'applications disponibles, y
compris le gestionnaire d'applications par défaut.
Paramètre
Obligatoire/facultatif
Description
--name application_manager_name
Facultatif
Nom du gestionnaire d'applications.
--distro distribution_name
Facultatif
Nom d'une distribution spécifique. Si vous n'incluez pas la
variable distribution_name, la commande retourne toutes les
distributions Hadoop prises en charge par le gestionnaire
d'applications.
--configurations | --roles
Facultatif
Rôles ou configurations Hadoop d'un gestionnaire
d'applications et d'une distribution spécifiques. N'utilisez
pas de rôles non pris en charge pour créer un cluster.
Commandes cluster
Les commandes cluster {*} vous permettent de vous connecter aux clusters, de créer et de supprimer des
clusters, d'arrêter et de démarrer des clusters, et d'exécuter des opérations de gestion des clusters.
Commande cluster config
La commande cluster config vous permet de modifier la configuration d'un cluster Hadoop ou HBase
existant, que le cluster soit configuré selon les valeurs Serengeti par défaut ou que vous ayez personnalisé le
cluster.
REMARQUE La commande cluster config ne peut être utilisée qu'avec les clusters créés à l'aide du
gestionnaire d'applications par défaut. Pour ces clusters créés avec Ambari ou Cloudera Manager, toute
modification de la configuration d'un cluster doit s'effectuer à partir du gestionnaire d'applications. De
même, les nouveaux services et les nouvelles configurations modifiés dans le gestionnaire d'applications
externe ne peuvent pas être synchronisés à partir de Big Data Extensions.
Vous pouvez utiliser la commande cluster config avec la commande cluster export pour rétablir en
mode normal les services de cluster et la configuration Hadoop originale dans les cas suivants :
n
Un service tel que NameNode, JobTracker, DataNode ou TaskTracker s'arrête.
n
Vous avez modifié manuellement la configuration Hadoop d'un ou de plusieurs nœuds d'un cluster.
Exécutez la commande cluster export, puis la commande cluster config. Incluez le nouveau fichier de
spécification de cluster que vous venez d'exporter.
Si le cluster HDFS externe a été créé par Big Data Extensions, l'utilisateur doit se servir de la commande
clusterconfig pour ajouter la topologie du cluster HBase au cluster HDFS.
L'exemple suivant décrit le fichier de spécification à ajouter à la topologie :
"configuration" : { "hadoop" : {
"topology.data": { "text": "10.1.1.1 /rack4,10.2.2.2 /rack4" } } }
Paramètre
Obligatoire/facultatif
Description
--name cluster_name_in_Serengeti
Obligatoire
Nom du cluster Hadoop à configurer.
--specFile spec_file_path
Facultatif
Nom de fichier de la spécification du cluster Hadoop
VMware, Inc.
99
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Paramètre
Obligatoire/facultatif
Description
--yes
Facultatif
Répondez O à la confirmation O/N. En cas de nonspécification, entrez manuellement o ou n.
--skipConfigValidation
Facultatif
Ignorez la validation de la configuration du cluster.
Commande cluster create
Vous utilisez la commande cluster create pour créer un cluster Hadoop ou HBase.
Si la spécification du cluster n'inclut pas les nœuds requis, par exemple un nœud master, le
Serengeti Management Server crée le cluster conformément à la configuration de cluster par défaut que
déploie le Serengeti Management Server.
Paramètre
Obligatoire ou
facultatif
Description
--name cluster_name_in_Serengeti
Obligatoire.
Nom de cluster.
--networkName management_network_name
Obligatoire.
Réseau à utiliser pour la gestion du trafic dans les
clusters Hadoop.
Si vous omettez l'un des paramètres réseau facultatifs,
le trafic associé à ce paramètre est acheminé sur le
réseau de gestion spécifié à l'aide du paramètre-networkName.
--adminGroupName admin_group_name
Facultatif
Groupe administratif à utiliser pour ce cluster comme
défini dans Active Directory ou LDAP.
--userGroupNameuser_group_name
Facultatif
Groupe d'utilisateurs à utiliser pour ce cluster comme
défini dans Active Directory ou LDAP.
--appmanagerappmanager_name
Facultatif.
Nom d'un gestionnaire d'applications autre que le
gestionnaire par défaut pour gérer vos clusters.
--type cluster_type
Facultatif.
Type de cluster :
n Hadoop (par défaut)
n HBase
--password
Facultatif.
Ne pas utiliser
si vous utilisez
le paramètre -resume.
Mot de passe personnalisé pour tous les nœuds du
cluster.
Les mots de passe doivent contenir 8 à 20 caractères,
utiliser uniquement des caractères ASCII inférieurs
visibles (pas d'espaces) et comporter au moins une
lettre majuscule (A - Z), une lettre minuscule (a - z),
un chiffre (0 - 9) et l'un des caractères spéciaux
suivants : _, @, #, $, %, ^, &, *
--specFile spec_file_path
Facultatif.
Nom de fichier de la spécification du cluster. Pour les
clusters de calcul uniquement, vous devez réviser le
fichier de spécification pour qu'il pointe sur un HDFS
externe.
--distro Hadoop_distro_name
Facultatif.
Distribution Hadoop pour le cluster.
--dsNames datastore_names
Facultatif.
Banque de données à utiliser pour déployer le cluster
Hadoop dans Serengeti. Plusieurs banques de
données peuvent être utilisées, séparées par une
virgule.
Par défaut, toutes les banques de données disponibles
sont utilisées.
Lorsque vous spécifiez le paramètre --dsNames, le
cluster peut uniquement utiliser les banques de
données que vous fournissez dans cette commande.
100
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Paramètre
Obligatoire ou
facultatif
--hdfsNetworkName hdfs_network_name
Facultatif.
Réseau à utiliser pour le trafic HDFS dans les clusters
Hadoop.
--mapredNetworkName mapred_network_name
Facultatif.
Réseau à utiliser pour le trafic MapReduce dans les
clusters Hadoop.
--rpNames resource_pool_name
Facultatif.
Pool de ressources à utiliser pour les clusters Hadoop.
Plusieurs pools de ressources peuvent être utilisés,
séparés par une virgule.
--resume
Facultatif.
Ne pas utiliser
si vous utilisez
le paramètre -password.
Effectuez une récupération à partir d'un processus de
déploiement ayant échoué.
--topology topology_type
Facultatif.
Type de topologie pour la prise en charge des racks :
HVE, RACK_AS_RACK ou HOST_AS_RACK.
--yes
Facultatif.
Confirmation de poursuivre ou pas après un message
d'erreur. Si les réponses ne sont pas spécifiées, vous
pouvez taper o ou n.
Description
Si vous spécifiez o, la création du cluster se poursuit.
Si vous ne spécifiez pas o, l'interface de ligne de
commande présente l'invite suivante après avoir
affiché ce message d'avertissement :
Voulez-vous vraiment continuer (O/N) ?
--skipConfigValidation
Facultatif.
Validation selon que la configuration du cluster est
ignorée ou pas.
--skipVcRefresh true
Facultatif
Lorsque vous effectuez des opérations de cluster dans
un grand environnement vCenter Server,
l'actualisation de l'arborescence peut prendre
beaucoup de temps. Vous pouvez optimiser les
performances de création ou de reprise de cluster à
l'aide de ce paramètre.
REMARQUE Si Serengeti Management Server partage
l'environnement vCenter Server avec d'autres charges
de travail, n'utilisez pas ce paramètre.
Serengeti Management Server ne peut pas assurer de
suivi de l'utilisation des ressources des charges de
travail des autres produits, et doit dans ces
circonstances actualiser l'arborescence.
--localRepoURL
Facultatif.
Option pour créer un référentiel Yum local.
--externalMapReduce
FQDN_of_Jobtracker/ResourceManager:port
Facultatif.
Le numéro de port est facultatif.
Commande cluster delete
La commande cluster delete vous permet de supprimer un cluster dans Serengeti. Quand un cluster est
supprimé, l'ensemble de ses machines virtuelles et pools de ressources l'est également.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster à supprimer
--templatetemplate_name
Facultatif
Modèle à utiliser pour les clusters. S'il existe plus d'une machine
virtuelle de modèle, vous devez spécifier ce paramètre.
VMware, Inc.
101
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande cluster expand
La commande cluster expand vous permet de développer et de mettre à jour les nœuds du cluster Big Data.
Vous pouvez développer un cluster Big Data existant à l'aide de la commande cluster expand. Modifiez le
fichier de spécification du cluster pour inclure les nœuds supplémentaires et les autres ressources
disponibles, puis utilisez la commande cluster expand pour appliquer la configuration au cluster existant.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster à développer.
--specFile spec_file_path
Obligatoire
Nom de fichier de la spécification du cluster.
Commande cluster
export
La commande cluster export vous permet d'exporter les données de cluster. Selon les options et les
paramètres que vous spécifiez, vous pouvez exporter les données de cluster vers un emplacement
spécifique, mettre en forme le séparateur du fichier d'exportation, spécifier le type de données à exporter ou
indiquer la valeur de la topologie.
Vous pouvez utiliser l'une des commandes suivantes pour exporter le fichier de spécification de cluster.
n
cluster export --name cluster_name --specFile path_to_file
L'utilisation du paramètre specfile avec la commande cluster export est obsolète dans
Big Data Extensions 2.1.
n
cluster export --name cluster_name --type SPEC --output path_to_file
Vous pouvez utiliser la commande cluster export pour afficher l'adresse IP sur la table de mappage
RACK. Le format de la commande est ip rack. Le cluster HDFS externe peut utiliser la commande cluster
export pour implémenter l'emplacement des données de cluster HBase et MapReduce.
Vous pouvez utiliser la commande cluster export pour afficher l'adresse IP du réseau de gestion de tous
les nœuds d'un cluster.
Vous pouvez utiliser la commande cluster export pour afficher la table de mappage IP vers FQDN pour tous
les nœuds d'un cluster. Vous pouvez choisir d'afficher la table de mappage sur le terminal ou de l'exporter
dans un fichier.
cluster export --name cluster_name --type IP2FQDN
cluster export --name cluster_name --type IP2FQDN --output path_to_file
102
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Paramètre
Obligatoire
ou facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster à exporter
--type SPEC|RACK|IP|FQDN|IP2FQDN
Facultatif
Type des données à exporter. La valeur peut être
l'un des éléments suivants :
n
SPEC, valeur par défaut, pour exporter un
fichier de spécification.
n
RACK pour exporter la topologie rack de tous
les nœuds
n
IP pour exporter l'adresse IP de tous les
nœuds
n
FQDN pour exporter un mappage des adresses
IP du nom de domaine complet du cluster de
tous les nœuds
n
IP2FQDN pour exporter la table de mappage IP
vers FQDN pour tous les nœuds d'un cluster
--output path_to_output_file
Facultatif
Fichier de sortie dans lequel enregistrer les
données exportées
--specfile path_to_spec_file
Facultatif
Fichier de sortie dans lequel enregistrer la
spécification de cluster.
--topology
[HOST_AS_RACK|RACK_AS_RACK|HVE|NONE]
Facultatif
Valeur de la topologie. La valeur par défaut est la
topologie que vous avez spécifiée lorsque vous
avez créé le cluster.
--delimiter
Facultatif
Symbole ou chaîne pour séparer chaque ligne du
résultat. La valeur par défaut est \n, ligne après
ligne.
Commande cluster fix
La commande cluster fix permet d'effectuer une récupération à partir d'un disque défectueux.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds, le mot de passe modifié
n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous avez
défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, ce mot de passe est utilisé
pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur lorsque vous
avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds.
Tableau 9‑1.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster ayant un disque défectueux.
--disk
Requis
Récupérer les disques des nœuds.
--nodeGroup nodegroup_name
Facultatif
Exécutez l'analyse et la récupération uniquement sur le groupe
de nœuds spécifié, et non sur tous les nœuds de gestion du
cluster.
VMware, Inc.
103
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande cluster list
La commande cluster list vous permet d'afficher une liste des clusters provisionnés dans Serengeti. Vous
pouvez voir les informations suivantes : nom, distribution, état et informations sur chaque groupe de
nœuds. Les informations sur le groupe de nœuds se composent du nombre d'instances, du CPU, de la
mémoire, du type et de la taille.
Les gestionnaires d'applications surveillent les services et les fonctions de votre environnement
Big Data Extensions. Big Data Extensions synchronise l'état des gestionnaires d'applications régulièrement.
Vous pouvez utiliser la commande cluster list pour obtenir le dernier état de votre environnement. Si
des avertissements sont affichés, vous pouvez contrôler les détails à partir de la console du gestionnaire
d'applications.
Tableau 9‑2.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name_in_Serengeti
Facultatif
Nom du cluster à lister.
--detail
Facultatif
Listez les détails du cluster, y compris le nom dans Serengeti,
la distribution, l'état du déploiement, les informations de
chaque nœud des différents rôles.
Si vous spécifiez cette option, Serengeti interroge le vCenter
Server pour obtenir le dernier état du nœud.
Commande cluster resetParam
La commande cluster resetParam vous permet de réinitialiser le niveau ioShares d'un cluster en restaurant
ses valeurs par défaut.
Tableau 9‑3.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster pour lequel réinitialiser les paramètres de mise à l'échelle.
--ioShares
Facultatif
Réinitialisez sur NORMAL.
Commande cluster resize
La commande cluster resize vous permet de modifier le nombre de nœuds d'un groupe de nœuds ou de
mettre à l'échelle la taille du CPU ou de la RAM de la machine virtuelle de montée en puissance ou de
réduction de puissance d'un groupe de nœuds. Lors de la création de nouveaux nœuds, ceux-ci ont les
mêmes services et configurations que les nœuds originaux. Lors de la suppression des nœuds,
Serengeti Management Server autorise uniquement la suppression des rôles tasktracker et nodemanager.
Vous devez spécifier au moins un paramètre facultatif.
Si vous spécifiez le paramètre --instanceNum, vous ne pourrez spécifier ni le paramètre --cpuNumPerNode ni
le paramètre --memCapacityMbPerNode.
Vous pouvez spécifier en même temps les paramètres--cpuNumPerNode et --memCapacityMbPerNode pour
mettre à l'échelle le CPU et la RAM à l'aide d'une seule commande.
IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds, le mot de passe modifié
n'est pas utilisé pour les nouveaux nœuds créés par l'opération de redimensionnement du cluster. Si vous
avez défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, ce mot de passe est
utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur lorsque
vous avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds.
104
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Cible le cluster Hadoop déployé par
Serengeti Management Server.
--nodeGroup
name_of_the_node_group
Obligatoire
Cible le groupe de nœuds pour réduire/agrandir le cluster
déployé par Serengeti Management Server.
--instanceNum
instance_number
Facultatif
Nouveau nombre d'instances vers lequel mettre à l'échelle. S'il
est supérieur au nombre original, Serengeti Management Server
crée des nœuds dans le groupe de nœuds cible. S'il est inférieur
au nombre original, Serengeti Management Server supprime des
nœuds dans le groupe de nœuds cible. Si l'opération de
redimensionnement du cluster échoue, vous pouvez utiliser à
nouveau le nombre d'instances cibles pour réessayer l'opération
de redimensionnement du cluster.
--cpuNumPerNode
num_of_vCPUs
Facultatif
Nombre de CPU virtuels d'une machine virtuelle d'un groupe
de nœuds cible.
--force
Facultatif
Lorsque vous réduisez/agrandissez un cluster, vous pouvez
régler les défaillances matérielles ou logicielles à l'aide du
paramètre --force. L'application de ce paramètre permet la
poursuite de l'opération de redimensionnement du cluster sans
blocage dû à des défaillances limitées de la machine virtuelle.
--memCapacityMbPerNode
size_in_MB
Facultatif
Taille mémoire, en Mo, de chaque machine virtuelle d'un
groupe de nœuds cible.
--skipVcRefresh true
Facultatif
Lorsque vous effectuez des opérations de cluster dans un grand
environnement vCenter Server, l'actualisation de l'arborescence
peut prendre beaucoup de temps. Vous pouvez optimiser les
performances de redimensionnement de cluster à l'aide de ce
paramètre.
REMARQUE Si Serengeti Management Server partage
l'environnement vCenter Server avec d'autres charges de travail,
n'utilisez pas ce paramètre. Serengeti Management Server ne
peut pas assurer de suivi de l'utilisation des ressources des
charges de travail des autres produits, et doit dans ces
circonstances actualiser l'arborescence.
Commande cluster setParam
La commande cluster setParam command vous permet de définir la priorité ioShares d'un cluster Hadoop
dans Serengeti. Vous devez spécifier au moins un paramètre facultatif.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster pour lequel définir les paramètres d'élasticité.
--ioShares level
Facultatif
Niveau d'accès prioritaire : FAIBLE, NORMAL ou ÉLEVÉ.
Commande cluster start
La commande cluster start vous permet de démarrer un cluster dans Serengeti.
Tableau 9‑4.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster à démarrer.
--force
Facultatif
Lorsque vous démarrez un cluster, vous pouvez régler les défaillances
matérielles ou logicielles à l'aide du paramètre --force. L'application de
ce paramètre permet la poursuite de l'opération de démarrage du cluster
sans blocage dû à des défaillances limitées de la machine virtuelle.
VMware, Inc.
105
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande cluster stop
La commande cluster stop vous permet d'arrêter un cluster dans Serengeti.
Tableau 9‑5.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster à arrêter.
Commande cluster update
La commande cluster update vous permet de développer et de mettre à jour les pools de ressources et les
banques de données disponibles pour votre environnement Big Data Extensions.
Tableau 9‑6.
Paramètre
Obligatoire/facultatif
Description
--name cluster_name
Obligatoire
Nom du cluster à mettre à jour.
--rpNamesresource_pool_nameOptional
Facultatif
Pools de ressources à utiliser avec les clusters Hadoop.
Vous pouvez spécifier plusieurs pools de ressources en
séparant le nom de chacun par une virgule.
Les pools de ressources que vous spécifiez peuvent
inclure des pools de ressources déjà utilisés par le
cluster.
--dsName datastore_names
Facultatif
Banques de données à utiliser avec les clusters Hadoop.
Vous pouvez spécifier plusieurs banques de données en
séparant le nom de chacune par une virgule.
Les banques de données que vous spécifiez peuvent
inclure des banques de données déjà utilisées par le
cluster.
--append
Facultatif
Ce paramètre permet d'ajouter les nouveaux pools de
ressources et les nouvelles banques de données que
vous souhaitez ajouter à votre environnement aux
ressources déjà existantes. Cela ne remplace pas vos
ressources existantes.
--yes
Facultatif
Vous pouvez confirmer ou non la poursuite de l'action
spécifiée suite à un message d'erreur. Si les réponses ne
sont pas spécifiées, vous pouvez saisir O ou N. Si vous
spécifiez O, la création du cluster se poursuit. Si vous ne
spécifiez pas O, l'interface de ligne de commande
présente l'invite de commande suivante après avoir
affiché le message d'avertissement : Are you sure you
want to continue (Y/N)?
Commande connect
La commande connect vous permet de vous connecter à un serveur Serengeti distant.
La commande connect lit le nom d'utilisateur et le mot de passe en mode interactif. Vous devez exécuter la
commande connect chaque fois que vous commencez une session d'interface de ligne de commande
Serengeti, puis de nouveau après le délai d'expiration de 30 minutes. Si vous n'exécutez pas cette
commande, vous ne pourrez pas exécuter d'autres commandes.
106
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Tableau 9‑7.
Paramètre
Obligatoire/facultatif
Description
--host
Obligatoire
URL du service Web Serengeti, sous la forme
serengeti_management_server_ip_or_host :port. Par défaut, le service Web Serengeti
est démarré sur le port 8443.
Commandes datastore
La commande datastore {*} vous permet d'ajouter et de supprimer des banques de données, ainsi que
d'afficher la liste des banques de données d'un déploiement Serengeti.
Commande datastore add
La commande datastore add vous permet d'ajouter une banque de données à Serengeti.
Tableau 9‑8.
Paramètre
Obligatoire/facultatif
Description
--name datastore_name_in_Serengeti
Obligatoire
Nom de la banque de données dans Serengeti.
--spec datastore_name_in_vCenter_Server
Obligatoire
Nom de la banque de données dans vSphere. Vous
pouvez utiliser un caractère générique pour spécifier
plusieurs banques vmfs. Les caractères génériques pris
en charge sont * et ?.
--type {LOCAL|PARTAGÉ}
Facultatif
(Par défaut = PARTAGÉ) Type de la banque de
données : LOCAL ou PARTAGÉ.
Commande datastore delete
La commande datastore delete vous permet de supprimer une banque de données de Serengeti.
Tableau 9‑9.
Paramètre
Obligatoire/facultatif
Description
--name datastore_name_in_Serengeti
Obligatoire
Nom de la banque de données à supprimer.
Commande datastore list
La commande datastore list vous permet d'afficher une liste des banques de données dans Serengeti. Si
vous ne spécifiez pas un nom de banque de données, toutes les banques de données sont affichées.
Tableau 9‑10.
Paramètre
Obligatoire/facultatif
Description
--name Name_of_datastore_name_in_Serengeti
Facultatif
Nom de la banque de données à afficher.
--detail
Facultatif
Affichez les détails de la banque de données, y
compris le chemin d'accès de la banque de
données dans vSphere.
Commande disconnect
La commande disconnect vous permet de vous déconnecter d'un serveur Serengeti distant. Après vous être
déconnecté du serveur, vous ne pouvez pas exécuter de commandes Serengeti tant que vous ne vous
reconnectez pas avec la commande connect.
Il n'y a aucun paramètre de commande.
VMware, Inc.
107
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande distro list
La commande distro list vous permet d'afficher la liste des rôles d'une distribution Hadoop.
Tableau 9‑11.
Paramètre
Obligatoire/facultatif
Description
--name distro_name
Facultatif
Nom de la distribution à afficher.
Commandes mgmtvmcfg
Les commandes mgmtvmcfg vous permettent d'afficher vos paramètres de configuration LDAP actuels et de
modifier le mode de gestion des comptes d'utilisateur.
Commande mgmtvmcfg get
Vous pouvez afficher la configuration LDAP actuelle à l'aide de la commande mgmtvmcfg get.
La commande mgmtvmcfg get permet d'afficher les paramètres de configuration LDAP actuels utilisés dans
votre environnement Big Data Extensions.
mgmtvmcfg get
Tableau 9‑12. Informations de connexion LDAP
type
Le service d'authentification utilisateur externe à utiliser (soit AD_AS_LDAP soit LDAP).
baseUserDn
Le DN utilisateur de base.
baseGroupDn
Le DN groupe de base.
primaryUrl
L'URL du serveur principal de votre serveur Active Directory ou LDAP.
mgmtVMUserGroupDn
(Facultatif) Le DN de base pour rechercher les groupes afin d'accéder au
Serengeti Management Server.
userName
Le nom d'utilisateur du compte d'administrateur du serveur Active Directory ou LDAP.
password
Le mot de passe du compte d'administrateur du serveur Active Directory ou LDAP.
Commande mgmtvmcfg modify
La commande mgmtvmcfg modify vous permet de spécifier différents modes de gestion des comptes
d'utilisateurs. Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux.
Vous pouvez utiliser l'un des trois modes d'authentification utilisateur suivants : LOCAL, LDAP ou MIXED.
n
Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une source
d'identité externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il
utilise un service LDAP ou Active Directory.
mgmtvmcfg modify --usermgmtmode MIXED
n
Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de votre
entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP, vous devez
configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory.
mgmtvmcfg modify --usermgmtmode LDAP
108
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
n
Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre
environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par défaut
lorsqu'aucun service Active Directory ou LDAP n'est disponible.
mgmtvmcfg modify --usermgmtmode LOCAL
Paramètre
Obligatoire ou facultatif
Description
--usermgmtmode LOCAL | LDAP |
MIXED
Facultatif
Spécifiez l'un des modes de gestion
des utilisateurs : LOCAL, MIXED ou
LDAP.
Commandes network
Les commandes network {*} vous permettent de gérer vos réseaux.
Commande network add
La commande network add vous permet d'ajouter un réseau à Serengetide sorte que les adresses IP du
réseau soient accessibles aux clusters que vous créez.
REMARQUE Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas
occupées avant d'ajouter le réseau.
Cet exemple ajoute un réseau avec des adresses IP assignées de façon statique.
network add --name ipNetwork --ip 192.168.1.1-100,192.168.1.120-180 --portGroup pg1
--dns 202.112.0.1 --gateway 192.168.1.255 --mask 255.255.255.1
Cet exemple ajoute un réseau avec des adresses IP assignées par DHCP.
network add --name dhcpNetwork --dhcp --portGroup pg1
Cet exemple ajoute un réseau dynamique avec des adresses IP attribuées par DHCP et génère des noms
d'hôte significatifs pour les nœuds d'un cluster Hadoop.
network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC
Spécifiez le paramètre --dhcp pour les adresses dynamiques ou la combinaisons des paramètres requis pour
les adresses statiques, mais pas les paramètres des adresses dynamiques et statiques.
Tableau 9‑13.
Paramètre
Obligatoire/facultatif
Description
--name network_name_in_Serengeti
Obligatoire
Nom de la ressource réseau à ajouter.
--portGroup
port_group_name_in_vSphere
Obligatoire
Nom du groupe de ports de vSphere à
ajouter.
--dhcp
Obligatoire pour les adresses
dynamiques. Ne pas utiliser pour
les adresses statiques.
Attribuez les adresses IP DHCP
dynamiques.
--ip IP_range
Obligatoire pour les adresses
statiques. Ne pas utiliser pour les
adresses dynamiques.
Attribuez les adresses IP statiques.
Exprimez IP_range dans le format
xx.xx.xx.xx-xx[,xx]*.
Exprimez les adresses IP dans le format
xx.xx.xx.xx.
Facultatif
Les valeurs possibles incluent NORMAL,
DYNAMIC et OTHERS. La valeur par
défaut est NORMAL..
--dns dns_server_ip_addr
--secondDNS dns_server_ip_addr
--gateway gateway_IP_addr
--mask network_IP_addr_mask
--dnsType
VMware, Inc.
109
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande network delete
La commande network delete vous permet de supprimer un réseau de Serengeti. La suppression d'un
réseau non utilisé libère les adresses IP du réseau pour qu'elles soient utilisées par d'autres services.
Paramètre
Obligatoire/facultatif
Description
--namenetwork_name_in_Serengeti
Obligatoire
Supprimez le réseau spécifié dans Serengeti.
Commande network list
La commande network list vous permet d'afficher la liste des réseaux disponibles dans Serengeti. Les nom,
groupe de ports dans vSphere, type d'attribution d'adresse IP, adresse IP attribuée, etc., apparaissent.
Paramètre
Obligatoire/facultatif
Description
--name network_name_in_Serengeti
Facultatif
Nom du réseau à afficher.
--detail
Facultatif
Affichez les détails du réseau.
Commande network modify
La commande network modify vous permet de reconfigurer un réseau IP statique Serengeti en lui ajoutant
des segments d'adresse IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte
qu'il y ait assez de capacité pour le cluster que vous voulez créer.
REMARQUE Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas
occupées avant d'ajouter le réseau.
Paramètre
Obligatoire/facultatif
Description
--namenetwork_name_in_Serengeti
Obligatoire
Modifiez le réseau IP statique spécifié
dans Serengeti.
--addIP IP_range
Facultatif
Segments d'adresse IP, au format
xx.xx.xx.xx-xx[,xx]*.
--dnsType
Facultatif
Les valeurs possibles incluent Normal,
Dynamic et Other. La valeur par
défaut est Normal.
--generateHostname
Facultatif
La valeur par défaut est False.
Commandes resourcepool
Les commandes resourcepool {*} vous permettent de gérer vos pools de ressources.
Commande resourcepool add
La commande resourcepool add vous permet d'ajouter un pool de ressources vSphere à Serengeti.
Lorsque vous ajoutez un pool de ressources à Serengeti, il représente le pool de ressources vSphere réel tel
qu'il est identifié par vCenter Server. Cette représentation symbolique vous permet d'utiliser le nom du pool
de ressources Serengeti au lieu du chemin d'accès complet du pool de ressources dans vCenter Server, dans
les fichiers de spécification de cluster.
110
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Tableau 9‑14.
Paramètre
Obligatoire/facultatif
Description
--name resource_pool_name_in_Serengeti
Obligatoire
Nom du pool de ressources à ajouter.
--vccluster vSphere_cluster_of_the_resource_pool
Facultatif
Nom du cluster vSphere qui contient le pool
de ressources.
--vcrp vSphere_resource_pool_name
Obligatoire
Pool de ressources vSphere.
Commande resourcepool delete
La commande resourcepool delete vous permet de supprimer un pool de ressources de Serengeti.
Tableau 9‑15.
Paramètre
Obligatoire/facultatif
Description
--name resource_pool_name_in_Serengeti
Obligatoire
Pool de ressources à supprimer.
Commande resourcepool list
La commande resourcepool list vous permet d'afficher une liste de pools de ressources Serengeti. Si vous
ne spécifiez pas de nom, tous les pools de ressources Serengeti sont affichés.
Tableau 9‑16.
Paramètre
Obligatoire/facultatif
Description
--name resource_pool_name_in_Serengeti
Facultatif
Nom et chemin d'accès du pool de ressources à
afficher.
--detail
Facultatif
Incluez les détails des pools de ressources.
Commandes template
Les commandes template vous permettent de gérer les modèles de nœud dans votre environnement
Serengeti.
Commande template list
La commande template list vous permet d'obtenir une liste des modèles de nœud disponibles dans votre
environnement Serengeti.
Il n'y a aucun paramètre de commande.
Commandes topology
Les commandes topology {*} vous permettent de gérer la topologie des clusters.
Commande topology list
La commande topology list vous permet d'afficher la topologie des mappages RACK/HÔTES dans
Serengeti.
Il n'y a aucun paramètre de commande.
VMware, Inc.
111
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
Commande topology upload
La commande topology upload vous permet de télécharger un fichier de la topologie des mappages
rack/hôtes dans Serengeti. Le fichier téléchargé remplace tout autre fichier antérieur.
Le format du fichier pour chaque ligne est : rackname: hostname1, hostname2…
Tableau 9‑17.
Paramètre
Obligatoire/facultatif
Description
--fileName topology_file_name
Obligatoire
Nom du fichier de topologie.
--yes
Facultatif
Répondez O à la confirmation O/N. En cas de nonspécification, entrez manuellement o ou n.
Commandes usermgmt
Les commandes usermgmtserver vous permettent de gérer des utilisateurs et des groupes sur un serveur
Active Directory ou LDAP à des fins d'authentification utilisateur. Vous pouvez ainsi gérer les utilisateurs à
partir d'un point central.
Commande usermgmtserver add
La commande usermgmtserver add permet d'activer la gestion centralisée des comptes afin de l'utiliser avec
l'authentification utilisateur LDAP.
Pour activer la gestion centralisée des comptes afin de l'utiliser avec Big Data Extensions à l'aide de LDAP,
(soit avec Active Directory en tant que LDAP soit avec OpenLDAP), exécutez la commande usermgmtserver
add. Dans cet exemple, la gestion centralisée des comptes est activée avec les paramètres de configuration
LDAP contenus dans le fichier /opt/serengeti/sbin/LDAPConfigFile.cfg
usermgmtserver add --cfgfile /opt/serengeti/sbin/LDAPConfigFile.cfg
Paramètre
Obligatoire ou facultatif
Description
add --cfgfile config_file_path
Facultatif
Active la gestion centralisée des
comptes. Le fichier de configuration
que vous spécifiez contient les
paramètres de configuration du
serveur LDAP. Vous devez créer ce
fichier manuellement. Reportez-vous à
« Créer un fichier de configuration du
service LDAP avec l'interface de ligne
de commande Serengeti », page 29
Commande usermgmtserver modify
Vous pouvez modifier votre configuration LDAP et rendre ces modifications disponibles dans votre
environnement Big Data Extensions.
Vous pouvez appliquer à Big Data Extensions les modifications que vous apportez à vos paramètres de
configuration LDAP. Cela vous permet de mettre à jour vos informations du service LDAP.
Pour modifier les paramètres LDAP pour l'environnement Big Data Extensions, mettez à jour le fichier de
configuration LDAP selon vos besoins, puis exécutez la commande usermgmtserver modify. Dans cet
exemple, la configuration de l'environnement LDAP est mise à jour à l'aide des paramètres contenus dans le
fichier /opt/serengeti/sbin/LDAPConfigFile.cfg
usermgmtserver modify --cfgfile /opt/serengeti/sbin/LDAPConfigFile.cfg
112
VMware, Inc.
Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti
Paramètre
Obligatoire ou facultatif
Description
modify --cfgfile config_file
Facultatif
Si vous mettez à jour le fichier de
configuration LDAP de sorte à utiliser
les nouveaux paramètres, vous devez
exécuter le paramètre modify pour
mettre à jour les paramètres dans
Big Data Extensions.
Vous devez mettre à jour
manuellement le fichier de
configuration. Reportez-vous à « Créer
un fichier de configuration du service
LDAP avec l'interface de ligne de
commande Serengeti », page 29
VMware, Inc.
113
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
114
VMware, Inc.
Index
A
accès, interface de ligne de commande 9
Active Directory
fichier de configuration 29
gérer les utilisateurs 29
activer 31
Adresses IP 25
affichage
Banques de données 85, 107
clusters 104
clusters provisionnés 85
distributions Hadoop, disponibles 84, 108
pools de ressources 86
réseaux 86
affichage des configurations ou des rôles, avec
l'interface de ligne de commande
Serengeti 16, 21, 84
affichage des distributions, avec l'interface de
ligne de commande Serengeti 15, 21,
84
affichage des distributions prises en charge,
avec l'interface de ligne de commande
Serengeti 15, 21, 84
ajout
Banques de données 24, 107
pools de ressources 23
réseaux 24
topologie 41
ajout d'un serveur de gestion de logiciels, avec
l'interface de ligne de commande
Serengeti 14, 20
ajout de clusters, avec un gestionnaire
d'applications 66
Ambari 13, 14, 19, 20
appmanager, commandes 97, 98
appmanager add, commande 9, 97, 99
appmanager list, commande 9, 97, 99
arrêt, clusters 106
arrêt des clusters 74
attributs Hadoop
sur liste blanche 94
sur liste noire 94
attributs Hadoop sur liste blanche 94
attributs Hadoop sur liste noire 94
authentification utilisateur
Active Directory 108
changer de mode 108
LDAP 108
VMware, Inc.
local 108
mixte 108
Voir aussi gestion d'utilisateurs
avec l'interface de ligne de commande 66
B
Banques de données
affichage 85, 107
ajout 24, 107
suppression 24, 107
C
capacité de calcul, mise à l'échelle 75
chargement, topologie 41
charges de travail, équilibrage 41
CLI, accès 9
Cloudera Manager 13, 14, 19, 20
cluster avec HA HDFS namenode externe 48,
50, 51
cluster de base 65
cluster de calcul du travailleur uniquement 63,
67
cluster du travailleur uniquement
MapReduce v1 50
cluster du travailleur uniquement
MapReduce v2 51
cluster du travailleur uniquement Yarn 51
cluster expand 102
cluster HA HDFS namenode externe 48, 50, 51
cluster HDFS externe, préparer 43
cluster uniquement HBase, utiliser OneFS en
tant que cluster HDFS externe 43
cluster uniquement HBase, conditions
préalables 43
cluster Yarn 51
clusters
affectation des ressources 69
affichage provisionné 85, 104
agrandissement 74
ajout avec un gestionnaire d'applications 66
arrêt 74, 106
attribution des réseaux 69
attributs dans les définitions 91
basculement 78
calcul du travailleur uniquement 63, 67
calcul uniquement 37, 59, 60, 62
115
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
conditions requises de définition dans les
fichiers de spécification de cluster 88
configuration 70, 99
configuration Hadoop par défaut 37
configuration HBase par défaut 38
création, , voir création de clusters
définition des nœuds 91
définitions, exportation 102
démarrage 74, 105
déploiement sous des pools de ressources
différents 23
gestion 73
Hadoop de base 37
Hadoop par défaut 37
HBase 37, 45
mise à l'échelle 104
mise à l'échelle élastique 104
mise à l'échelle manuelle 104
mots de passe d'administrateur de nœuds 67
mots de passe d'administrateur
personnalisés 67
nommer 64
personnalisé 37
reconfiguration 75, 78
rôles des groupes de nœuds 71
séparation données/calcul 37, 55, 57
suppression 78, 101
topologie 38, 41, 53
uniquement HBase 44
clusters de calcul de données 52
clusters de calcul uniquement 52, 59, 60, 62
clusters Hadoop
configuration par défaut 37
Voir aussi clusters
clusters Hadoop de base 37
clusters HBase
configuration 45
configuration par défaut 38
création par défaut 42
Voir aussi clusters
Clusters HBase 41
clusters MapReduce, création 49
Clusters MapReduce 49
clusters MapReduce v1 38
clusters MapReduce v2 (YARN) 38
clusters personnalisés, création 71
clusters séparés données/calcul 37, 55, 57
clusters uniquement HBase, création avec
l'interface de ligne de commande 44
commande 9, 97, 99
commande appmanager add 13, 19, 97
116
commande appmanager delete, appmanager
delete 98
commande appmanager list 15, 22, 83, 99
commande appmanager modify 98
commande cluster config 75, 78, 99
commande cluster create 64, 100
commande cluster delete 78, 101
Commande cluster expand 78, 102
commande cluster export 75, 102
commande cluster fix 80, 103
commande cluster list 85, 104
commande cluster resetParam 104
commande cluster resize 74, 75, 104
commande cluster setParam 105
commande cluster start 74, 105
commande cluster stop 74, 106
commande connect 106
commande create cluster 48, 50, 51
commande datastore add 24, 107
commande datastore delete 24, 107
commande datastore list 24, 85, 107
commande disconnect 107
commande distro list 84, 108
Commande mgmtvmcfg get 108
commande mgmtvmcfg modify 108
commande network add 24, 109
commande network delete 25, 110
commande network list 25, 86, 110
commande network modify 110
commande resourcepool add 23, 110
commande resourcepool delete 23, 111
commande resourcepool list 23, 86, 111
commande template list 111
commande topology list 39, 41, 111
commande topology upload 41, 112
Commande usermgmtserver 112
Commande usermgmtserver modify 112
commandes, appmanager 97
commandes appmanager 97
commandes cluster 99
commandes datastore 107
Commandes mgmtvmcfg 108
commandes network 109
commandes resourcepool 110
conditions préalables à la création d'un cluster
uniquement HBase 43
configuration, clusters 70, 99
configuration Hadoop, conversion XML en
JSON 96
configuration Hadoop XML, conversion en
JSON 96
configurations ou rôles, liste 16, 21, 84
VMware, Inc.
Index
connexion
aux serveurs Serengeti 106
Serengeti, services 9
contention des ressources, adressage 75
conversion de XML Hadoop en JSON
Serengeti 75
création de clusters
avec les distributions disponibles 68
avec les réseaux attribués 69
avec les ressources attribuées 69
avec prise en charge de la topologie 41, 53
avec un gestionnaire d'applications 66
calcul uniquement 59, 60, 62
contraintes de stratégie de placement 57
Hadoop par défaut 64
HBase par défaut 42
MapReduce v2 49
mot de passe d'administrateur
personnalisé 67
personnalisé 71
protection vSphere HA 45
séparation données/calcul 53, 55, 57
spécification des nœuds master, worker et
client 70
stratégies de placement 53
création de clusters HBase uniquement, avec
l'interface de ligne de commande 44
créer un cluster HA HDFS namenode
externe 48, 50, 51
D
déconnexion des serveurs Serengeti 107
défaillance disque, récupérer d'une 80
définition, attributs de nœud 91
démarrage des clusters 74, 105
développer les nœuds du cluster 102
développer un cluster 78
disque défectueux, récupérer 103
Distribution Ambari, DNS et FQDN pour le trafic
du cluster 62
distribution Cloudera
commandes administratives avec l'interface de
ligne de commande Serengeti 9
DNS et FQDN pour le trafic de cluster 41, 53,
55, 57, 60, 68–71
distribution MapR, commandes administratives
avec l'interface de ligne de commande
Serengeti 9
distribution Pivotal
commandes administratives avec l'interface de
ligne de commande Serengeti 9
DNS et FQDN pour le trafic de cluster 41, 53,
55, 57, 68–71
distributions
liste 15, 21, 84
VMware, Inc.
supported 13, 19
Voir aussi distributions Hadoop
distributions Hadoop
affichage de la liste 108
affichage disponible 84
fichiers de configuration 94
fichiers JAR 75
distributions Hadoop prenant en charge les
clusters MapReduce 38
distributions prises en charge, liste 15, 21, 84
E
équilibrage des charges de travail 41
exportation, définitions de cluster 102
Extensions de virtualisation Hadoop (HVE,
Hadoop Virtualization Extensions) 38
F
fédération 68
fichier de configuration 29
fichier log4j.properties 75
fichiers de configuration, conversion de XML
Hadoop en JSON Serengeti 75
fichiers de mappage rack/hôtes 39
fichiers de mappage rack/hôtes de la
topologie 39
fichiers de spécification de cluster
cluster de calcul uniquement 59, 60, 62
clusters séparés données/calcul 55
conditions requises de la définition de
cluster 88
conditions requises des fichiers 87
configuration 87
contraintes de topologie 53
définition des attributs 91
exemple annoté 88
fichiers JAR de distribution Hadoop 75
lien symbolique pool de ressources 23
nœuds 70
placement de nœuds 57
reconfiguration de clusters 75
stratégies de placement 39
substitutions de groupes de nœuds 78
topologie 39
G
gérer les utilisateurs et les comptes
d'utilisateurs 29
gestion, clusters 73
gestion des ressources 19
gestionnaire d'applications, modifier 15, 21
gestionnaires d'applications
ajout 97
117
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
ajout de clusters 66
gestion 13
liste 99
suppression 16, 22
surveillance 15, 22, 83
groupes de nœuds
dans les définitions de cluster 88
reconfiguration 78
rôles, modification 71
rôles, pour éviter les conflits 59, 60, 62
stockées 39
groupes de ports, , voir réseaux
H
Hadoop Virtualization Extensions (HVE) 41
HDFS, éviter les conflits de rôles de nœuds 59,
60
HÔTE_EN_RACK 38
I
N
nœuds
agrandissement d'un cluster 74
configuration des fichiers de spécification de
cluster 70
définition des attributs 91
distribution 57
nœuds clients pour Hadoop 37
nœuds Hadoop
connexion 11
mots de passe 11
nœuds master pour Hadoop 37
nœuds worker pour Hadoop 37
nom d'hôte, générer pour les nœuds de
clusters 26
noms de cluster 64
informations sur le serveur, ajout 14, 20
Interface de ligne de commande, accès 9
O
J
outil de conversion convert-hadoop-conf.rb 75,
96
Java Runtime Environment (JRE) 9
L
LDAP, gérer les utilisateurs 29
LDAP, fichier de configuration 29
liste de, gestionnaires d'applications 15, 22, 83
liste des gestionnaires d'applications 15, 22, 83
M
machine virtuelle de nœud de cluster 80
machines virtuelles, tailles prédéfinies pour
Serengeti 91
mappage des fichiers, rack/hôtes 39
mémoire, mise à l'échelle 75
mgmtvmcfg get 108
mgmtvmcfg modify 108
mise à l'échelle
clusters 74, 104
CPU 75
paramètres, configuration 105
paramètres, réinitialisation 104
RAM 75
mise à l'échelle élastique, configuration de
cluster 104
mise à l'échelle manuelle, configuration de
cluster 104
mode maintenance 81
mode maintenance, entrer 81
modes utilisateur, changer 32
modifier un gestionnaire d'applications 15, 21
118
mots de passe, nœuds Hadoop 11
mots de passe d'administrateur de nœuds 67
mots de passe pour nœuds de clusters 67
P
paramètre description 14, 20
paramètres LDAP, modifier 33, 112
paramètres LDAP, modifier 33
partages d'E/S 104, 105
passer d'un seul coup en mode virtuel 63, 67
performances de clonage 27
pools de ressources
affichage 86
ajout 23
suppression 23
préparer OneFS en tant que cluster HDFS
externe 43
présentation, gestionnaires d'applications 13, 19
R
RACK_EN_RACK 38
reconfiguration
groupes de nœuds 78
réseaux 25
récupération à partir d'un disque défectueux 80,
103
récupérer 80
redimensionner 27
redimensionner des clusters Hadoop 27
Référence des commandes de l'interface de
ligne de commande 97
VMware, Inc.
Index
réseaux
affichage du statut 86
ajout 24
ajout d'adresses IP 25
attribution aux clusters 69
suppression 25
ressources vSphere
attribution aux clusters 69
pools de ressources 23
rôles, liste 16, 21, 84
V
vSphere Fault Tolerance (FT) 78
vSphere High Availability (HA) 45, 78
S
script serengeti-maintenance.sh 81
se connecter aux nœuds Hadoop 11
segments d'adresse IP 25
serengeti-maintenance.sh 81
Serengeti, services, connexion 9
serveur de gestion de logiciels, ajout 14, 20
serveurs Serengeti
connexion à 106
déconnexion de 107
Single Sign-On (SSO) 9
stratégies de placement 39, 57
suppression
Banques de données 24, 107
clusters 78, 101
pools de ressources 23
réseaux 25
Voir aussi suppression
suppression de gestionnaires d'applications 16,
22
surveillance, environnement Big Data
Extensions 83
surveillance des gestionnaires d'applications 15,
22, 83
T
tâches MapReduce, clusters HBase 45
tailles des machines virtuelles prédéfinies 91
topologie
ajout 41
cluster 38
commandes 111
contraintes 53
stratégies de placement 39
topologies des racks 41
type de DNS 26
U
usermgmtserver 112
usermgmtserver modify 112
utilisateurs et comptes d'utilisateurs, gestion 29
VMware, Inc.
119
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions
120
VMware, Inc.

Manuels associés