- Ordinateurs et électronique
- Logiciel
- Services informatiques
- Logiciel de gestion du système
- VMware
- vSphere Big Data Extensions 2.3
- Mode d'emploi
Mode d'emploi | VMware vSphere Big Data Extensions 2.3 Manuel utilisateur
Ajouter à Mes manuels120 Des pages
▼
Scroll to page 2
of
120
Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions vSphere Big Data Extensions 2.3 Ce document prend en charge la version de chacun des produits répertoriés, ainsi que toutes les versions publiées par la suite jusqu'au remplacement dudit document par une nouvelle édition. Pour rechercher des éditions plus récentes de ce document, rendez-vous sur : http://www.vmware.com/fr/support/pubs. FR-001702-00 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Vous trouverez la documentation technique la plus récente sur le site Web de VMware à l'adresse : http://www.vmware.com/fr/support/ Le site Web de VMware propose également les dernières mises à jour des produits. N’hésitez pas à nous transmettre tous vos commentaires concernant cette documentation à l’adresse suivante : [email protected] Copyright © 2013 – 2015 VMware, Inc. Tous droits réservés. Copyright et informations sur les marques. Ce guide est sous licence Creative Commons Attribution-NoDerivs 3.0 United States License (http://creativecommons.org/licenses/by-nd/3.0/us/legalcode). VMware, Inc. 3401 Hillview Ave. Palo Alto, CA 94304 www.vmware.com 2 VMware, Inc. 100-101 Quartier Boieldieu 92042 Paris La Défense France www.vmware.com/fr VMware, Inc. Table des matières À propos de ce guide 7 1 Utilisation du client d'interface de ligne de commande distant Serengeti 9 Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de commande distant 9 Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti 11 2 Gestion des gestionnaires d'applications 13 À propos des gestionnaires d'applications 13 Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 14 Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti 15 Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 15 Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti 15 Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti 16 Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti 16 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti 19 À propos des gestionnaires d'applications 19 Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti 23 Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti 23 Ajouter une banque de données avec l'interface de ligne de commande Serengeti 24 Supprimer une banque de données avec l'interface de ligne de commande Serengeti 24 Ajouter un réseau avec l'interface de ligne de commande Serengeti 24 Supprimer un réseau avec l'interface de ligne de commande Serengeti 25 Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti 25 Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti 26 Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. 27 4 Gérer les utilisateurs et les comptes d'utilisateurs 29 Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti 29 Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti 31 Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti 31 Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande Serengeti 32 Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti 33 VMware, Inc. 3 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 5 Création de clusters Hadoop et HBase 35 À propos des types de déploiement de clusters Hadoop et HBase 37 Configurations des clusters Hadoop par défaut pour Serengeti 37 Configurations des clusters HBase par défaut pour Serengeti 38 À propos de la topologie des clusters 38 À propos des clusters HBase 41 À propos des clusters MapReduce 49 À propos des clusters de calcul de données 52 À propos des clusters personnalisés 64 6 Gestion des clusters Hadoop et HBase 73 Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti 74 Agrandir un cluster avec l'interface de ligne de commande Serengeti 74 Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti 75 Reconfigurer un cluster avec l'interface de ligne de commande Serengeti 75 Supprimer un cluster avec l'interface de ligne de commande Serengeti 78 À propos de vSphere High Availability et de vSphere Fault Tolerance 78 Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti 78 Développer un cluster à l'aide de l'interface de ligne de commande 78 Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti Effectuer la récupération d'une machine virtuelle de nœud de cluster 80 Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client d'interface de ligne de commande Serengeti 81 80 7 Surveillance de l'environnement Big Data Extensions 83 Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti 83 Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti 84 Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti 84 Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti 84 Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti 85 Afficher les banques de données avec l'interface de ligne de commande Serengeti 85 Afficher les réseaux avec l'interface de ligne de commande Serengeti 86 Afficher les pools de ressources avec l'interface de ligne de commande Serengeti 86 8 Référence de spécification de cluster 87 Conditions requises de fichier de spécification de cluster 87 Conditions requises de la définition de cluster 88 Fichier de spécification de cluster annoté 88 Définitions des attributs de spécification de cluster 91 Attributs Hadoop de la liste blanche et de la liste noire 94 Convertir les fichiers XML Hadoop en Serengeti fichiers JSON 96 9 Référence des commandes de l'interface de ligne de commande Serengeti 97 Commandes appmanager 97 4 VMware, Inc. Table des matières Commandes cluster 99 Commande connect 106 Commandes datastore 107 Commande disconnect 107 Commande distro list 108 Commandes mgmtvmcfg 108 Commandes network 109 Commandes resourcepool 110 Commandes template 111 Commandes topology 111 Commandes usermgmt 112 Index VMware, Inc. 115 5 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 6 VMware, Inc. À propos de ce guide Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit comment utiliser l'interface de ligne de commande Serengeti pour gérer les ressources vSphere utilisées pour créer les clusters Hadoop et HBase. Il explique aussi comment créer, gérer et surveiller les clusters Hadoop et HBase à partir de l'interface de ligne de commande VMware Serengeti™. Le Guide de l'interface de ligne de commande vSphere Big Data Extensions de VMware décrit aussi comment exécuter les opérations Hadoop et HBase avec l'Serengeti CLI, et fournit la spécification de cluster et les références des commandes de l'Serengeti CLI. Public ciblé Le guide est destiné aux administrateurs système et aux développeurs qui veulent utiliser Serengeti pour déployer et gérer des clusters Hadoop. Pour bien utiliser Serengeti, vous devez connaître Hadoop et ® ® VMware vSphere . Glossaire VMware Technical Publications VMware Technical Publications fournit un glossaire des termes qui peuvent éventuellement ne pas vous être familiers. Pour consulter la définition des termes utilisés dans la documentation technique VMware, visitez le site Web http://www.vmware.com/support/pubs. VMware, Inc. 7 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 8 VMware, Inc. 1 Utilisation du client d'interface de ligne de commande distant Serengeti Le client d'interface de ligne de commande distant Serengeti vous permet d'accéder à Serengeti Management Server pour déployer, gérer et utiliser Hadoop. Ce chapitre aborde les rubriques suivantes : n « Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de commande distant », page 9 n « Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti », page 11 Accéder à l'interface de ligne de commande Serengeti à l'aide du client d'interface de ligne de commande distant Vous pouvez accéder à l'interface de ligne de commande (CLI) Serengeti pour effectuer des tâches administratives Serengeti à l'aide du client d'interface de ligne de commande distant Serengeti. Prérequis ® n Utilisez VMware vSphere Web Client pour vous connecter au serveur VMware vCenter Server sur lequel vous avez déployé le vApp Serengeti. n Vérifiez que le déploiement de Serengeti vApp s'est correctement déroulé et que le serveur de gestion est en cours d'exécution. n Vérifiez que le mot de passe dont vous disposez pour vous connecter à la Serengeti CLI est exact. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. La Serengeti CLI utilise ses informations d'identification vCenter Server. n Vérifiez que l'environnement d'exécution Java (JRE, Java Runtime Environment) est installé dans votre environnement et que son emplacement se trouve dans votre variable d'environnement path. Procédure 1 Téléchargez le package Serengeti CLI à partir du Serengeti Management Server. Ouvrez un navigateur Web et naviguez jusqu'à l'URL suivante : https://server_ip_address/cli/VMware-Serengeti-CLI.zip 2 Téléchargez le fichier ZIP. Le nom de fichier est au format VMware-Serengeti-cli-numéro_version-numéro_build.ZIP. VMware, Inc. 9 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 3 Décompressez le fichier téléchargé. Celui-ci inclut les composants suivants. n Le fichier JAR serengeti-cli-version_number, qui inclut le Serengeti Remote CLI Client. n Répertoire samples, qui inclut des exemples de configurations de clusters. n Bibliothèques dans le répertoire lib. 4 Ouvrez une interface de commande, puis accédez au répertoire dans lequel vous avez décompressé le package. 5 Accédez au répertoire cli, puis exécutez la commande suivante pour entrer dans l'interface de ligne de commande Serengeti. n Pour les langues autres que le français ou l'allemand, exécutez la commande suivante. java -jar serengeti-cli-numéro_version.jar n Pour le français ou l'allemand, qui utilisent l'encodage linguistique de page de code 850 (CP 850) exécuter l'interface de ligne de commande Serengeti à partir d'une console de commandes Windows, exécutez la commande suivante. java -Dfile.encoding=cp850 -jar serengeti-cli-numéro_version.jar 6 Connectez-vous au service Serengeti. Vous devez exécuter la commande connect host chaque fois que vous commencez une session d'interface de ligne de commande, puis une nouvelle fois à l'issue du délai d'expiration de session de 30 minutes. Si vous n'exécutez pas cette commande, vous ne pouvez pas en exécuter d'autres. a Exécutez la commande connect. connect --host xx.xx.xx.xx:8443 b À l'invite, tapez votre nom d'utilisateur, qui peut être différent des informations d'identification que vous utilisez pour vous connecter au Serengeti Management Server. REMARQUE Si vous ne créez pas de nom d'utilisateur et de mot de passe pour le Serengeti Command-Line Interface Client, vous pouvez utiliser les informations d'identification d'administrateur vCenter Server par défaut. Le Serengeti Command-Line Interface Client utilise les informations d'identification de vCenter Server avec les autorisations de lecture sur le Serengeti Management Server. c À l'invite, tapez votre mot de passe. Une interface de commande s'ouvre, puis l'invite de la Serengeti CLI apparaît. Vous pouvez utiliser la commande help pour obtenir de l'aide sur les commandes Serengeti et leur syntaxe. n Pour afficher la liste des commandes disponibles, tapez help. n Pour obtenir de l'aide sur une commande particulière, ajoutez son nom après la commande help. help cluster create n 10 Appuyez sur Tab exécuter une commande. VMware, Inc. Chapitre 1 Utilisation du client d'interface de ligne de commande distant Serengeti Se connecter aux nœuds Hadoop avec le client d'interface de ligne de commande Serengeti Pour résoudre les problèmes ou exécuter vos scripts d'automatisation de la gestion, connectez-vous aux nœuds Hadoop master, worker et client via SSH à partir du Serengeti Management Server à l'aide des outils des clients SSH tels que SSH, PDSH, ClusterSSH et Mussh, qui n'exigent pas d'authentification par mot de passe. Pour vous connecter aux nœuds de cluster Hadoop via SSH, vous pouvez utiliser une connexion authentifiée par un nom d'utilisateur et un mot de passe. Tous les nœuds déployés sont protégés par un mot de passe soit aléatoire, soit défini par l'utilisateur, qui a été attribué lors de la création du cluster. Prérequis Utilisez le vSphere Web Client pour vous connecter à vCenter Server, et vérifiez que la machine virtuelle Serengeti Management Server est en cours d'exécution. Procédure 1 Cliquez avec le bouton droit sur la machine virtuelle du Serengeti Management Server et sélectionnez Ouvrir la console. Le mot de passe du Serengeti Management Server s'affiche. REMARQUE Si le mot de passe disparaît de l'écran de la console, appuyez sur Ctrl+D pour revenir à l'invite de commande. 2 Utilisez vSphere Web Client pour vous connecter au nœud Hadoop. Le mot de passe de l'utilisateur root apparaît sur la console de la machine virtuelle dans vSphere Web Client. 3 Modifiez le mot de passe du nœud Hadoop en exécutant la commande set-password -u. sudo /opt/serengeti/sbin/set-password -u VMware, Inc. 11 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 12 VMware, Inc. Gestion des gestionnaires d'applications 2 Pour bien gérer vos clusters Hadoop, il est essentiel de comprendre comment gérer les différents gestionnaires d'applications que vous utilisez dans votre environnement Big Data Extensions. Ce chapitre aborde les rubriques suivantes : n « À propos des gestionnaires d'applications », page 13 n « Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti », page 14 n « Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti », page 15 n « Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti », page 15 n « Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti », page 15 n « Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti », page 16 n « Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti », page 16 À propos des gestionnaires d'applications Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour provisionner et gérer des clusters avec VMware vSphere Big Data Extensions. Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et la gestion des clusters. Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes : n Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques. n Créer des clusters. n Surveiller et gérer des services à partir de la console du gestionnaire d'applications. Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux outils. VMware, Inc. 13 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Restrictions Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari : n Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN) au lieu de l'URL. n Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou Ambari. n Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager. n Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire d'applications sur les nœuds. Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps que les anciens. n Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions. Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les nouvelles configurations. Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions. REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez le nom de domaine complet (FQDN) au lieu de l'URL. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager add. appmanager add --name application_manager_name --type [ClouderaManager|Ambari] --url http[s]://server:port Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et espace. Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du gestionnaire d'applications. 3 Entrez à l'invite votre nom d'utilisateur et votre mot de passe. 4 Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL. Suivant Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager list. 14 VMware, Inc. Chapitre 2 Gestion des gestionnaires d'applications Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont installés sur l'environnement Big Data Extensions. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement Big Data Extensions. Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur. Prérequis Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande appmanager modify. appmanager modify --name application_manager_name --url <http[s]://server:port> Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur cette commande, consultez « Commande appmanager modify », page 98. Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire d'applications particulier. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. VMware, Inc. 15 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list --name application_manager_name [--distros] Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement Big Data Extensions. La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire d'applications du nom que vous spécifiez. Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifiques. La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans les spécifications de cluster. La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list --name application_manager_name [--distro distro_name (--configurations | --roles) ] La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifique. Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez plus besoin. Prérequis n Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre environnement Big Data Extensions. n Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster. Sinon, le processus de suppression échouera. Procédure 1 16 Accédez à l'interface de ligne de commande Serengeti. VMware, Inc. Chapitre 2 Gestion des gestionnaires d'applications 2 Exécutez la commande appmanager delete. appmanager delete VMware, Inc. --name application_manager_name 17 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 18 VMware, Inc. Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti 3 Vous devez gérer votre Big Data Extensions, ce qui inclut de s'assurer que si vous n'avez pas choisi d'ajouter le pool de ressources, la banque de données et le réseau lorsque vous déployez le vApp Serengeti, vous ajoutez les ressources vSphere avant de créer un cluster Hadoop ou HBase. Vous devez aussi ajouter des gestionnaires d'applications supplémentaires, si vous voulez utiliser Ambari ou Cloudera Manager pour gérer vos clusters Hadoop. Vous pouvez supprimer les ressources dont vous n'avez plus besoin. Ce chapitre aborde les rubriques suivantes : n « À propos des gestionnaires d'applications », page 19 n « Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti », page 23 n « Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti », page 23 n « Ajouter une banque de données avec l'interface de ligne de commande Serengeti », page 24 n « Supprimer une banque de données avec l'interface de ligne de commande Serengeti », page 24 n « Ajouter un réseau avec l'interface de ligne de commande Serengeti », page 24 n « Supprimer un réseau avec l'interface de ligne de commande Serengeti », page 25 n « Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti », page 25 n « Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti », page 26 n « Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. », page 27 À propos des gestionnaires d'applications Vous pouvez utiliser Cloudera Manager, Apache Ambari et le gestionnaire d'applications par défaut pour provisionner et gérer des clusters avec VMware vSphere Big Data Extensions. Après avoir ajouté un nouveau gestionnaire d'applications Cloudera Manager ou Ambari à Big Data Extensions, vous pouvez y rediriger vos tâches de gestion logicielle, notamment la surveillance et la gestion des clusters. Vous pouvez utiliser un gestionnaire d'applications pour effectuer les tâches suivantes : n Dresser la liste de toutes les instances de fournisseurs disponibles, des distributions prises en charge et des configurations ou des rôles pour un gestionnaire d'applications et une distribution spécifiques. n Créer des clusters. n Surveiller et gérer des services à partir de la console du gestionnaire d'applications. Consultez la documentation de votre gestionnaire d'applications pour identifier les exigences propres aux outils. VMware, Inc. 19 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Restrictions Les restrictions suivantes s'appliquent aux gestionnaires d'applications Cloudera Manager et Ambari : n Pour ajouter un gestionnaire d'applications avec HTTPS, utilisez le nom de domaine complet (FQDN) au lieu de l'URL. n Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou Ambari. n Vous ne pouvez pas changer les services d'un cluster Big Data à partir de Big Data Extensions si le cluster a été créé avec le gestionnaire d'applications Ambari ou Cloudera Manager. n Pour modifier les services, les configurations ou les deux, vous devez le faire à partir du gestionnaire d'applications sur les nœuds. Si vous installez de nouveaux services, Big Data Extensions les démarre et les arrête en même temps que les anciens. n Si vous utilisez un gestionnaire d'applications pour modifier les services et les configurations de clusters Big Data, ces modifications ne peuvent pas être synchronisées à partir de Big Data Extensions. Les nœuds que vous créez avec Big Data Extensions ne contiennent pas les nouveaux services ni les nouvelles configurations. Ajouter un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Pour utiliser les gestionnaires d'application Cloudera Manager ou Ambari, vous devez ajouter le gestionnaire d'applications et ajouter les informations sur le serveur à Big Data Extensions. REMARQUE Pour ajouter un gestionnaire d'applications Cloudera Manager ou Ambari avec HTTPS, utilisez le nom de domaine complet (FQDN) au lieu de l'URL. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager add. appmanager add --name application_manager_name --type [ClouderaManager|Ambari] --url http[s]://server:port Les noms des gestionnaires d'applications peuvent comporter uniquement des caractères alphanumériques ([0-9, a-z, A-Z]) et les caractères spéciaux suivants : trait de soulignement, tiret et espace. Vous pouvez utiliser la variable description facultative pour inclure une description de l'instance du gestionnaire d'applications. 3 Entrez à l'invite votre nom d'utilisateur et votre mot de passe. 4 Si vous avez spécifié SSL, entrez à l'invite le chemin d'accès du certificat SSL. Suivant Pour vérifier que le gestionnaire d'applications a été ajouté avec succès, exécutez la commande appmanager list. 20 VMware, Inc. Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti Modifier un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez modifier les informations d'un gestionnaire d'applications avec la commandeSerengeti CLI : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur. Prérequis Vérifiez que vous avez au moins un gestionnaire d'applications externe installé sur votre environnement Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande appmanager modify. appmanager modify --name application_manager_name --url <http[s]://server:port> Des paramètres supplémentaires sont disponibles pour cette commande. Pour plus d'informations sur cette commande, consultez « Commande appmanager modify », page 98. Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire d'applications particulier. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list --name application_manager_name [--distros] Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement Big Data Extensions. La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire d'applications du nom que vous spécifiez. Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifiques. La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans les spécifications de cluster. VMware, Inc. 21 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list --name application_manager_name [--distro distro_name (--configurations | --roles) ] La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifique. Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont installés sur l'environnement Big Data Extensions. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement Big Data Extensions. Supprimer un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez plus besoin. Prérequis n Vérifiez que vous avez au moins un gestionnaire d'applications externe installé dans votre environnement Big Data Extensions. n Vérifiez que le gestionnaire d'applications que vous souhaitez supprimer ne contient aucun cluster. Sinon, le processus de suppression échouera. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager delete. appmanager delete 22 --name application_manager_name VMware, Inc. Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti Ajouter un pool de ressources avec l'interface de ligne de commande Serengeti Vous pouvez ajouter des pools de ressources pour qu'ils puissent être utilisés par les clusters Hadoop. Les pools de ressources doivent être situés au niveau supérieur du cluster. Les pools de ressources imbriqués ne sont pas pris en charge. Lorsque vous ajoutez un pool de ressources à Big Data Extensions, il représente symboliquement le pool de ressources vSphere réel tel qu'il est identifié par vCenter Server. Cette représentation symbolique vous permet d'utiliser le nom du pool de ressources Big Data Extensions au lieu du chemin d'accès complet du pool de ressources dans vCenter Server, dans les fichiers de spécification de cluster. REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui utilisent ce pool de ressources. Procédure 1 Accédez au client d'interface de ligne de commande Serengeti. 2 Exécutez la commande resourcepool add. Le paramètre --vcrp est facultatif. Cet exemple ajoute un pool de ressources Serengeti nommé myRP au pool de ressources vSphere rp1 contenu dans le cluster vSphere cluster1. resourcepool add --name myRP --vccluster cluster1 --vcrp rp1 Supprimer un pool de ressources avec l'interface de ligne de commande Serengeti Vous pouvez supprimer de Serengeti les pools de ressources qui ne sont pas utilisés par un cluster Hadoop. Vous supprimez des pools de ressources quand vous n'en avez plus besoin ou si vous voulez que les clusters Hadoop que vous créez dans le serveur de gestion Serengeti soient déployés sous un autre pool de ressources. La suppression d'un pool de ressources supprime sa référence dans vSphere. Le pool de ressources n'est pas réellement supprimé. Procédure 1 Accédez au client d'interface de ligne de commande Serengeti. 2 Exécutez la commande resourcepool delete. Si la commande échoue parce que le pool de ressources est référencé par un cluster Hadoop, vous pouvez utiliser la commande resourcepool list pour voir quel cluster référence ce pool de ressources. Cet exemple supprime le pool de ressources nommé myRP. resourcepool delete --name myRP VMware, Inc. 23 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Ajouter une banque de données avec l'interface de ligne de commande Serengeti Vous pouvez ajouter des banques de données locales ou partagées au serveur Serengeti pour que les clusters Hadoop puissent y accéder. REMARQUE Après avoir ajouté un pool de ressources à Big Data Extensions, ne renommez pas le pool de ressources dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui utilisent ce pool de ressources. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande datastore add. L'exemple ajoute une nouvelle banque de données de stockage local, nommée myLocalDS. La valeur du paramètre --spec, local*, est un caractère générique spécifiant un ensemble de banques de données vSphere. Toutes les banques de données vSphere dont le nom commence par « local » sont ajoutées et gérées comme un tout par Serengeti. datastore add --name myLocalDS --spec local* --type LOCAL Suivant Après avoir ajouté une banque de données à Big Data Extensions, ne la renommez pas dans vSphere. Si vous la renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent. Supprimer une banque de données avec l'interface de ligne de commande Serengeti Vous pouvez supprimer une banque de données de Serengeti qui n'est référencée par aucun cluster Hadoop. La suppression d'une banque de données supprime uniquement la référence à la banque de données vCenter Server. La banque de données elle-même n'est pas supprimée. Vous supprimez les banques de données si vous n'en avez plus besoin ou si vous voulez déployer les clusters Hadoop que vous créez sur le serveur de gestion Serengeti sous une autre banque de données. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande datastore delete. Si la commande échoue parce que la banque de données est référencée par un cluster Hadoop, vous pouvez utiliser la commande datastore list pour savoir quel cluster fait référence à la banque de données. Cet exemple supprime la banque de données myDS. datastore delete --name myDS Ajouter un réseau avec l'interface de ligne de commande Serengeti Ajouter des réseaux à Big Data Extensions permet aux clusters Hadoop d'accéder à leurs adresses IP. Un réseau est à la fois un groupe de ports et un moyen d'accéder à ce groupe via une adresse IP. Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent. 24 VMware, Inc. Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti Prérequis Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant d'ajouter le réseau. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande network add. Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les machines virtuelles utilisant ce réseau recourent au protocole DHCP pour obtenir les adresses IP. network add --name myNetwork --portGroup 10PG --dhcp Cet exemple ajoute un réseau appelé myNetwork au groupe de ports 10PG vSphere. Les nœuds Hadoop utilisent les adresses de la plage d'adresses IP 192.168.1.2-100 ; l'adresse IP du serveur DNS est 10.111.90.2, l'adresse de la passerelle est 192.168.1.1 et le masque de sous-réseau est 255.255.255.0. network add --name myNetwork --portGroup 10PG --ip 192.168.1.2-100 --dns 10.111.90.2 --gateway 192.168.1.1 --mask 255.255.255.0 Pour spécifier plusieurs segments d'adresse IP, utilisez différentes chaînes afin d'exprimer la plage d'adresses IP au format xx.xx.xx.xx-xx[,xx]*. xx.xx.xx.xx-xx, xx.xx.xx.xx-xx, single_ip, single_ip Cet exemple ajoute un réseau dynamique avec des adresses IP attribuées par DHCP et un nom d'hôte significatif. network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC Supprimer un réseau avec l'interface de ligne de commande Serengeti Vous pouvez supprimer un réseau de Serengeti qui n'est référencé par aucun cluster Hadoop. La suppression d'un réseau non utilisé libère les adresses IP en vue d'une réutilisation. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande network delete. network delete --name network_name Si la commande échoue parce que le réseau est référencé par un cluster Hadoop, vous pouvez utiliser la commande network list --detail pour savoir quel cluster fait référence au réseau. Reconfigurer un réseau IP statique avec l'interface de ligne de commande Serengeti Vous pouvez reconfigurer un réseau IP statique Serengeti en lui ajoutant des segments d'adresse IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de capacité pour le cluster que vous voulez créer. Si la plage d'adresses IP que vous spécifiez inclut les adresses IP qui sont déjà dans le réseau, Serengeti ignore les adresses dupliquées. Les adresses restantes de la plage spécifiée sont ajoutées au réseau. Si le réseau est déjà utilisé par un cluster, celui-ci peut utiliser les nouvelles adresses IP après que vous les avez ajoutées au réseau. Si seule une partie de la plage d'adresses IP est utilisée par un cluster, les adresses IP non employées peuvent être utilisées lorsque vous créez un nouveau cluster. VMware, Inc. 25 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Prérequis Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant d'ajouter le réseau. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande network modify. Cet exemple ajoute les adresses IP comprises entre 192.168.1.2 et 192.168.1.100 à un réseau nommé myNetwork. network modify --name myNetwork --addIP 192.168.1.2-100 Reconfigurer le type de DNS à l'aide de l'interface de ligne de commande Serengeti Vous pouvez reconfigurer le type de système de noms de domaine (DNS) d'un réseau, et spécifier que Big Data Extensions génère des noms d'hôte significatifs pour les nœuds d'un cluster Hadoop. Après avoir ajouté un réseau à Big Data Extensions, ne le renommez pas dans vSphere. Si vous le renommez, vous ne pourrez pas exécuter d'opérations Serengeti sur les clusters qui l'utilisent. Vous pouvez spécifier trois options DNS : Normale Le serveur DNS fournit la résolution FQDN/IP dans les deux sens. Le DNS inverse correspond au mappage de l'adresse IP au nom de domaine. Il s'agit du contraire du DNS normal qui mappe les noms de domaine aux adresses IP. Par défaut, le type de DNS est normal. Dynamique Dynamic DNS (DDNS ou DynDNS) est une méthode qui permet la mise à jour automatique d'un nom de serveur du système DNS (Domain Name System) avec la configuration DNS active de ses noms d'hôte configurés, adresses ou autres informations. Big Data Extensions s'intègre à un serveur Dynamic DNS de son réseau, au travers duquel il fournit des noms d'hôte significatifs aux nœuds d'un cluster Hadoop. Le cluster s'enregistre ensuite automatiquement auprès du serveur DNS. Autres Il n'y a pas de serveur DNS ou le serveur DNS n'offre pas de résolution DNS normale ou de services Dynamic DNS. Dans ce cas, vous devez ajouter un mappage FQDN/IP pour tous les nœuds du fichier /etc/hosts de chaque nœud du cluster. Grâce à ce mappage de noms d'hôte vers des adresses IP, chaque nœud peut contacter un autre nœud du cluster. Les noms d'hôte vous permettent d'identifier les éléments plus facilement et d'utiliser des services tels que l'authentification unique, ce qui nécessite l'utilisation d'un DNS correctement configuré. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande network modify. Vous pouvez spécifier trois types de DNS : NORMAL, DYNAMIC et OTHERS. La valeur par défaut est NORMAL. Dans cet exemple, un réseau nommé myNetwork est modifié de sorte qu'il utilise un type Dynamic DNS. Les machines virtuelles utilisant ce réseau recourront au protocole DHCP pour obtenir les adresses IP. network modify --name myNetwork --dnsType DYNAMIC 26 VMware, Inc. Chapitre 3 Gestion de l'environnement Big Data Extensions à l'aide de l'interface de ligne de commande Serengeti Augmenter les performances de clonage et l'utilisation des ressources des machines virtuelles. Vous pouvez rapidement cloner et déployer des machines virtuelles à l'aide de Instant Clone, une fonctionnalité de vSphere 6.0. À l'aide de Instant Clone, une machine virtuelle parent est dupliquée, puis une machine virtuelle enfant (ou un clone instantané) est créée. La machine virtuelle enfant tire profit du stockage et de la mémoire de la machine virtuelle parent, ce qui permet de réduire l'utilisation des ressources. Lorsque vous provisionnez un cluster, Big Data Extensions crée une machine virtuelle parent pour chaque hôte sur lequel un nœud de cluster a été placé. Après le provisionnement, un nouveau pool de ressources étiqueté BDE-ParentVMs-$serengeti.uuid-$template.name apparaît dans vCenter Server. Ce pool de ressources contient plusieurs machines virtuelles parent. Les nœuds de cluster normaux sont clonés instantanément à partir de ces machines virtuelles parent. Une fois qu'elles sont créées sur les hôtes du cluster, le temps nécessaire au provisionnement et à la mise à l'échelle d'un cluster est considérablement réduit. Lorsque vous mettez un clone à l'échelle, le type de clone que vous avez spécifié lors de la création du cluster continue d'être utilisé, quel que soit le type actuel du clone. Par exemple, si vous avez créé un cluster à l'aide de la fonction Instant Clone, puis que vous passez au type Fast Clone dans Big Data Extensions, le cluster que vous avez provisionné à l'aide d'Instant Clone continuera d'utiliser Instant Clone pour agrandir le cluster. Si vous créez des clusters et que vous souhaitez ultérieurement apporter des changements à la machine virtuelle de modèle utilisée pour provisionner ces clusters, vous devez d'abord supprimer toutes les machines virtuelles parent existantes avant d'utiliser la nouvelle machine virtuelle de modèle. Lorsque vous créez des clusters à l'aide du nouveau modèle, Big Data Extensions crée de nouvelles machines virtuelles parent basées sur le nouveau modèle. Prérequis Votre déploiement Big Data Extensions doit utiliser vSphere 6.0 pour bénéficier d'Instant Clone. Procédure 1 Connectez-vous à Serengeti Management Server. 2 Modifiez le fichier /opt/serengeti/conf/serengeti.properties et changez la valeur de cluster.clone.service=fast. Le type de clone par défaut lorsque vous exécutez vSphere 6.0 est Instant Clone. cluster.clone.service = instant 3 Pour activer le type Instant Clone, redémarrez Serengeti Management Server. sudo /sbin/service tomcat restart Serengeti Management Server lit le fichier serengeti.properties révisé et applique la fonction Fast Clone à tous les nouveaux clusters que vous créez. Suivant Tous les clusters que vous créez ensuite utiliseront Instant Clone pour déployer les machines virtuelles. Reportez-vous à Chapitre 5, « Création de clusters Hadoop et HBase », page 35. VMware, Inc. 27 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 28 VMware, Inc. Gérer les utilisateurs et les comptes d'utilisateurs 4 Par défaut, l'authentification est configurée uniquement pour les comptes d'utilisateurs locaux dans Big Data Extensions. Si vous voulez utiliser LDAP (soit Active Directory soit un répertoire compatible OpenLDAP) pour authentifier les utilisateurs, vous devez configurer Big Data Extensions pour utiliser votre service LDAP ou Active Directory. Ce chapitre aborde les rubriques suivantes : n « Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29 n « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31 n « Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti », page 31 n « Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 32 n « Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti », page 33 Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti Créez un fichier de configuration qui identifie votre environnement de serveur LDAP ou Active Directory. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Accédez au répertoire de Serengeti Management Server dans lequel vous souhaitez créer et stocker le fichier de configuration. Vous pouvez utiliser le répertoire /opt/serengeti/etc pour stocker votre fichier de configuration. VMware, Inc. 29 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 3 À l'aide d'un éditeur de texte, créez un fichier JavaScript Object Notation (JSON) contenant les paramètres de configuration de votre service LDAP ou Active Directory. Le format du fichier de configuration est représenté ci-dessous. { "type": "user_mode_type", "primaryUrl": "ldap://AD_LDAP_server_IP_address:network_port", "baseUserDn": "DN_information", "baseGroupDn": "DN_information", "userName": "username", "password": "password", "mgmtVMUserGroupDn":"DN_information" } Tableau 4‑1. Informations de connexion LDAP 4 type Le service d'authentification utilisateur externe à utiliser (soit AD_AS_LDAP, soit LDAP). baseUserDn Indiquez le DN utilisateur de base. baseGroupDn Indiquez le DN groupe de base. primaryUrl Indiquez l'URL du serveur principal de votre serveur Active Directory ou LDAP. mgmtVMUserGroupDn (Facultatif) Spécifiez le DN de base pour rechercher les groupes afin d'accéder au Serengeti Management Server. userName Saisissez le nom d'utilisateur du compte d'administrateur Active Directory ou LDAP. password Saisissez le mot de passe du compte d'administrateur Active Directory ou LDAP. Lorsque le fichier est terminé, enregistrez votre travail. Exemple : Exemple de fichier de configuration LDAP L'exemple suivant illustre le fichier de configuration d'un serveur LDAP dans le domaine acme.com. { "type": "LDAP", "primaryUrl": "ldap://acme.com:8888", "baseUserDn": "ou=users,dc=dev,dc=acme,dc=com", "baseGroupDn": "ou=users,dc=dev,dc=acme,dc=com", "userName": "jsmith", "password": "MyPassword", "mgmtVMUserGroupDn":"cn=Administrators,cn=Builtin,dc=dev,dc=acme,dc=com" } Suivant Une fois que vous avez créé un fichier de configuration LDAP, vous pouvez activer la gestion centralisée des utilisateurs pour votre environnement Big Data Extensions. Reportez-vous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31. 30 VMware, Inc. Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti Vous devez configurer Big Data Extensions de sorte qu'il utilise une source d'identité utilisateur externe avant de pouvoir gérer les utilisateurs via votre service LDAP ou Active Directory. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. n Créez un fichier de configuration identifiant votre environnement LDAP ou Active Directory à utiliser avec Big Data Extensions. Reportez-vous à « Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29 Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande usermgmtserver add --cfgfile config_file_path Cet exemple active la gestion centralisée des utilisateurs, en indiquant que les paramètres de configuration LDAP se trouvent dans le fichier /opt/serengeti/LDAPConfigFile.cfg. usermgmtserver add --cfgfile /opt/serengeti/LDAPConfigFile.cfg 3 Exécutez la commande mgmtvmcfg get pour vérifier la configuration correcte de votre environnement en affichant les informations de configuration du service LDAP ou Active Directory. Le contenu du fichier de la configuration active utilisé par votre environnement Big Data Extensions s'affiche sur le terminal. Suivant Lorsque vous activez la gestion centralisée des utilisateurs, vous pouvez créer des clusters et attribuer des rôles de gestion des utilisateurs à l'aide des utilisateurs et des groupes d'utilisateurs définis par votre service LDAP ou Active Directory. Reportez-vous à « Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti », page 31. Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti Lorsque la gestion centralisée des utilisateurs est configurée et activée, vous pouvez accorder des privilèges aux utilisateurs et aux groupes d'utilisateurs dans votre service LDAP ou Active Directory pour chaque cluster Hadoop que vous créez. Pour illustrer l'utilisation de la gestion centralisée des utilisateurs dans votre environnement Big Data Extensions, vous pouvez attribuer aux groupes dotés de privilèges administratifs dans votre service LDAP ou Active Directory un accès au Serengeti Management Server. Cela permet aux utilisateurs d'administrer Big Data Extensions et le Serengeti Management Server. Vous pouvez ensuite octroyer à un autre groupe d'utilisateurs un accès à des nœuds de cluster Hadoop pour leur permettre d'exécuter des tâches Hadoop. VMware, Inc. 31 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Pour accéder aux commandes de l'Serengeti CLI et de Serengeti, les utilisateurs doivent prendre l'identité d'utilisateur serengeti après leur connexion. Par exemple, vous pouvez utiliser la commande su pour prendre l'identité d'utilisateur serengeti. Vous pourrez ensuite accéder à l'Serengeti CLI. su serengeti Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. n Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportezvous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez le cluster create command et spécifiez la valeur des paramètres --adminGroupName et -userGroupName à l'aide des noms des groupes d'administrateurs et des groupes d'utilisateurs auxquels vous souhaitez accorder des privilèges relatifs au cluster que vous créez. cluster create --name cluster_name --type hbase --adminGroupName AdminGroupName -userGroupName UserGroupName Suivant Après avoir déployé le cluster Hadoop, vous pouvez y accéder à l'aide de plusieurs méthodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Changer les modes de gestion des utilisateurs à l'aide de l'interface de ligne de commande Serengeti Vous pouvez modifier le mode de gestion des utilisateurs de votre environnement Big Data Extensions. Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux. Big Data Extensions vous permet d'authentifier les utilisateurs locaux, ceux gérés par LDAP ou Active Directory, ou une combinaison de ces méthodes d'authentification. Tableau 4‑2. Modes d'authentification utilisateur 32 Mode utilisateur Description Local Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre environnement Big Data Extensions. Il s'agit de la solution de gestion des utilisateurs par défaut. Utilisateur LDAP Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de votre entreprise telle qu'Active Directory ou LDAP. Si vous choisissez le mode utilisateur LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory en tant que LDAP). Mode mixte Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une source d'identité externe. Si vous choisissez le mode mixte, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory (Active Directory en tant que LDAP). VMware, Inc. Chapitre 4 Gérer les utilisateurs et les comptes d'utilisateurs Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande mgmtvmcfg modify pour spécifier le mode d'authentification utilisateur que vous souhaitez utiliser. n Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par défaut lorsqu'aucun service Active Directory ou LDAP n'est disponible. mgmtvmcfg modify LOCAL n Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une source d'identité externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory. mgmtvmcfg modify MIXED n Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de votre entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory. mgmtvmcfg modify LDAP Big Data Extensions utilise le mode d'authentification utilisateur que vous avez spécifié. Modifier la configuration LDAP à l'aide de l'interface de ligne de commande Serengeti Vous pouvez modifier vos paramètres LDAP et rendre ces modifications disponibles dans votre environnement Big Data Extensions. Vous pouvez appliquer à Big Data Extensions les modifications que vous apportez à vos paramètres de configuration LDAP. Cela vous permet de mettre à jour vos informations du service LDAP. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. n Activez la gestion centralisée des utilisateurs pour votre déploiement Big Data Extensions. Reportezvous à « Activer la gestion centralisée des utilisateurs à l'aide de l'interface de ligne de commande Serengeti », page 31. n Modifiez le fichier de configuration LDAP pour refléter tous les changements que vous souhaitez apporter à vos paramètres de gestion des utilisateurs. Reportez-vous à « Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29 VMware, Inc. 33 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande usermgmtserver modify --cfgfile config_file_path usermgmtserver modify --cfgfile config_file_path Tous les changements que vous avez apportés au fichier de configuration LDAP sont appliqués à votre environnement Big Data Extensions. Les clusters que vous créez utiliseront les nouveaux paramètres LDAP. Suivant Vous pouvez créer des clusters et attribuer des rôles de gestion des utilisateurs à l'aide des utilisateurs et des groupes d'utilisateurs définis par votre service LDAP ou Active Directory. Reportez-vous à « Créer un cluster avec l'authentification utilisateur LDAP à l'aide de l'interface de ligne de commande Serengeti », page 31. 34 VMware, Inc. Création de clusters Hadoop et HBase 5 Dans Big Data Extensions, vous pouvez créer et déployer des clusters Hadoop et HBase. Un cluster Big Data est un type de cluster de calcul conçu pour stocker et analyser de grandes quantités de données non structurées dans un environnement informatique distribué. Restrictions. n Lorsque vous créez un cluster uniquement HBase, vous devez utiliser le gestionnaire d'applications par défaut, car les autres ne prennent pas en charge ce type de cluster. n Vous ne pouvez pas renommer un cluster créé avec le gestionnaire d'applications Cloudera Manager ou Ambari. n La mise hors tension temporaire des hôtes provoque l'échec des clusters Big Data pendant la création du cluster. Lorsque vous créez des clusters Big Data, Big Data Extensions calcule le placement des machines virtuelles en fonction des ressources disponibles, des meilleures pratiques Hadoop et des stratégies de placement définies par l'utilisateur avant la création des machines virtuelles. Lors de ces calculs, si certains hôtes sont mis hors tension ou en veille soit manuellement soit par VMware Distributed Power Management (VMware DPM), ces hôtes ne sont pas considérés comme des ressources disponibles par Big Data Extensions. Si un hôte est mis hors tension ou en veille après que Big Data Extensions a calculé le placement des machines virtuelles, mais avant leur création, la création du cluster échoue tant que vous ne remettez pas ces hôtes sous tension. Les solutions de contournement suivantes peuvent vous aider à éviter ce problème et à y remédier. n Désactivez VMware DPM sur les clusters vSphere où vous déployez et exécutez Big Data Extensions. n Mettez les hôtes en mode maintenance avant de les mettre hors tension. n Si la création d'un cluster Big Data échoue en raison de l'indisponibilité temporaire des hôtes qui lui sont attribués, reprenez la création du cluster après avoir mis les hôtes sous tension. Conditions Les besoins en ressources sont différents pour les clusters créés avec l'interface de ligne de commande de Serengeti et le plug-in Big Data Extensions pour vSphere Web Client, car les clusters utilisent des modèles par défaut différents. Les clusters par défaut créés à l'aide de la Serengeti CLI sont ciblés sur les utilisateurs de Project Serengeti et les applications de validation technique. Ils sont plus petits que les modèles de plugin de Big Data Extensions, qui sont ciblés sur des déploiements de plus grande envergure à usage commercial. VMware, Inc. 35 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Certaines configurations de déploiement nécessitent plus de ressources que d'autres. Par exemple, si vous créez un cluster Greenplum HD 1.2, vous ne pouvez pas utiliser la machine virtuelle de petite taille. Si vous créez un cluster MapR ou Greenplum HD par défaut à l'aide de la Serengeti CLI, il est recommandé de disposer d'au moins 550 Go de stockage et de 55 Go de mémoire. Pour les autres distributions Hadoop, il est recommandé de disposer d'au moins 350 Go de stockage et de 35 Go de mémoire. AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles sur le cluster. Cela empêche la migration automatique des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data Extensions telles que la récupération de défaillances de disque. Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, * Ce chapitre aborde les rubriques suivantes : 36 n « À propos des types de déploiement de clusters Hadoop et HBase », page 37 n « Configurations des clusters Hadoop par défaut pour Serengeti », page 37 n « Configurations des clusters HBase par défaut pour Serengeti », page 38 n « À propos de la topologie des clusters », page 38 n « À propos des clusters HBase », page 41 n « À propos des clusters MapReduce », page 49 n « À propos des clusters de calcul de données », page 52 n « À propos des clusters personnalisés », page 64 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase À propos des types de déploiement de clusters Hadoop et HBase Avec Big Data Extensions, vous pouvez créer et utiliser plusieurs types de clusters Big Data. Cluster Hadoop de base Déploiement Hadoop simple pour les projets de validation technique et d'autres tâches de traitement de données à petite échelle. Le cluster Hadoop de base contient le HDFS et l'infrastructure MapReduce. L'infrastructure MapReduce traite les problèmes en parallèle sur d'énormes jeux de données dans le HDFS. Cluster HBase Il s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes pour stocker de grandes quantités de données éparses. Cluster de séparation de données et de calcul Sépare les nœuds de données et de calcul ou les clusters qui contiennent des nœuds de calcul uniquement. Dans ce type de cluster, le nœud de données et le nœud de calcul ne sont pas sur la même machine virtuelle. Cluster de calcul uniquement Vous pouvez créer un cluster qui contient uniquement des nœuds de calcul, par exemple des nœuds JobTracker, TaskTracker, ResourceManager et NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de calcul uniquement sert à exécuter des tâches MapReduce sur un cluster HDFS externe. Cluster de calcul de travailleurs uniquement Contient uniquement des nœuds worker, par exemple des nœuds TaskTracker et NodeManager, mais pas des nœuds NameNode ni DataNode. Un cluster de calcul de travailleurs uniquement sert à ajouter des nœuds de calcul worker à un cluster Hadoop existant. Cluster uniquement HBase Contient des nœuds HBase Master, HBase RegionServer et Zookeeper, mais pas des nœuds NameNodes ni DataNodes. Plusieurs clusters HBase uniquement peuvent utiliser le même cluster HDFS externe. Cluster personnalisé Utilise un fichier de spécification de cluster pour créer des clusters à l'aide de la même configuration que celle des clusters précédemment créés. Vous pouvez modifier le fichier de spécification de cluster pour personnaliser la configuration du cluster. Configurations des clusters Hadoop par défaut pour Serengeti Pour les déploiements Hadoop de base, tels que les projets de validation technique, vous pouvez utiliser la configuration de cluster Hadoop par défaut pour Serengeti dans le cas des clusters créés avec l'interface de ligne de commande. Le déploiement du cluster obtenu se compose des machines virtuelles et nœuds suivants : n Une machine virtuelle de nœud master avec les services NameNode et JobTracker. n Trois machines virtuelles de nœud worker, chacune avec les services DataNode et TaskTracker. n Une machine virtuelle de nœud client contenant l'environnement client Hadoop : le shell client Hadoop, Pig et Hive. VMware, Inc. 37 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Distributions Hadoop prenant en charge MapReduce v1 et MapReduce v2 (YARN) Si vous utilisez les distributions Hadoop Cloudera CDH4 ou CDH5, qui prennent en charge à la fois MapReduce v1 et MapReduce v2 (YARN), les configurations de cluster Hadoop par défaut sont différentes. La configuration de cluster Hadoop par défaut pour CDH4 est un cluster MapReduce v1. La configuration de cluster Hadoop par défaut pour CDH5 est un cluster MapReduce v2. Toutes les autres distributions prennent en charge soit MapReduce v1 soit MapReduce v2 (YARN), mais pas les deux. Configurations des clusters HBase par défaut pour Serengeti HBase est une base de données distribuée en colonnes open source qui utilise MapReduce et HDFS pour gérer les données. Vous pouvez utiliser HBase pour créer des applications de table volumineuses. Pour exécuter les tâches HBase MapReduce, configurez le cluster HBase de façon à inclure les nœuds JobTracker ou TaskTracker. Lorsque vous créez un cluster HBase avec l'interface de ligne de commande, conformément au modèle Serengeti HBase par défaut, le cluster obtenu se compose des nœuds suivants : n Un nœud master, qui exécute les services NameNode et HBaseMaster. n Trois nœuds zookeeper, chacun exécutant le service ZooKeeper. n Trois nœuds de données, chacun exécutant les services DataNode et HBase Regionserver. n Un nœud client, à partir duquel vous pouvez exécuter les tâches Hadoop ou HBase. Le cluster HBase par défaut déployé par Serengeti ne contient pas de démons Hadoop JobTracker ou Hadoop TaskTracker. Pour exécuter une tâche HBase MapReduce, déployez un cluster HBase personnalisé non par défaut. À propos de la topologie des clusters Vous pouvez améliorer l'équilibrage de la charge de travail entre vos nœuds de cluster et accroître les performances et le débit en spécifiant comment les machines virtuelles Hadoop sont placées, à l'aide de la reconnaissance de la topologie. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques. Pour optimiser les performances de votre cluster Big Data, configurez votre cluster de sorte qu'il reconnaisse la topologie de l'hôte de votre environnement et les informations sur le réseau. Les performances d'Hadoop sont supérieures s'il utilise les transferts au sein du rack, lorsqu'une plus grande bande passante est disponible, plutôt que les transferts hors rack lorsqu'il attribue des tâches MapReduce aux nœuds. HDFS peut placer des réplicas de manière plus intelligente pour améliorer les performances et la résilience. Par exemple, si vous avez des nœuds de données et des nœuds de calcul distincts, vous pouvez améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques. AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement ROUNDROBIN par défaut. 38 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Vous pouvez spécifier les configurations suivantes de reconnaissance de la topologie. Extensions de virtualisation Hadoop (HVE, Hadoop Virtualization Extensions) Fiabilité et performances des clusters améliorées grâce à un placement des réplicas, une planification des tâches et des politiques d'équilibrage Hadoop plus précis. Les clusters Hadoop implémentés dans une infrastructure virtualisée sont dotés d'une reconnaissance complète de la topologie sur laquelle ils fonctionnent lorsqu'ils utilisent HVE. Pour utiliser HVE, votre distribution Hadoop doit prendre en charge HVE et vous devez créer et télécharger un fichier de mappage rack-hôtes. RACK_EN_RACK Topologie standard pour les distributions Apache Hadoop. Seules les informations sur le rack et l'hôte sont exposées à Hadoop. Pour utiliser RACK_AS_RACK, créez et téléchargez un fichier de topologie de serveur. HÔTE_EN_RACK Topologie simplifiée pour les distributions Apache Hadoop. Pour éviter de placer tous les réplicas de blocs de données HDFS sur le même hôte physique, chaque hôte physique est traité comme un rack. Étant donné que les réplicas des blocs de données ne sont jamais placés sur un rack, cela évite le pire scénario où une défaillance d'un seul hôte provoque la perte totale d'un bloc de données. Utilisez HOST_AS_RACK si votre cluster utilise un seul rack ou si vous ne disposez pas d'informations sur le rack vous permettant de décider des options de configuration de la topologie. Aucune Aucune topologie n'est spécifiée. Fichier de mappage rack/hôtes de la topologie Les fichiers de mappage rack/hôtes de la topologie sont des fichiers texte brut qui associent les racks logiques aux hôtes physiques. Ces fichiers sont obligatoires pour créer des clusters avec une topologie HVE ou RACK_AS_RACK. Le format de chaque ligne d'un fichier de mappage rack/hôtes de la topologie est : rackname: hostname1, hostname2 ... Par exemple, pour affecter les hôtes physiques a.b.foo.com et a.c.foo.com à rack1, et l'hôte physique c.a.foo.com à rack2, incluez les lignes suivantes dans votre fichier de mappage rack/hôtes de la topologie. rack1: a.b.foo.com, a.c.foo.com rack2: c.a.foo.com Fichiers de définition de la stratégie de placement de la topologie Le champ placementPolicies du fichier de spécification de cluster contrôle la façon dont les nœuds sont placés dans le cluster. Si vous spécifiez des valeurs pour instancePerHost et pour groupRacks, il doit y avoir un nombre suffisant d'hôtes disponibles. Pour afficher les informations sur les racks hôtes, utilisez la commande topology list. Le code illustre un exemple du champ placementPolicies dans un fichier de spécification de cluster. { "nodeGroups":[ … { "name": "group_name", … "placementPolicies": { VMware, Inc. 39 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "instancePerHost": 2, "groupRacks": { "type": "ROUNDROBIN", "racks": ["rack1", "rack2", "rack3"] }, "groupAssociations": [{ "reference": "another_group_name", "type": "STRICT" // or "WEAK" }] } }, … } Tableau 5‑1. Définition de l'objet placementPolicies Champ JSON Type Description instancePerHost Facultatif Nombre de nœuds de machine virtuelle à placer pour chaque hôte ESXi physique. Cette contrainte est destinée à équilibrer la charge de travail. groupRacks Facultatif Méthode de répartition des nœuds de machine virtuelle entre les racks physiques du cluster. Spécifiez les chaînes JSON suivantes : groupAssociations Facultatif n type. Spécifiez ROUNDROBIN pour sélectionner les candidats équitablement et sans priorité. n racks. Racks de la carte de topologie à utiliser. Un ou plusieurs groupes de nœuds cibles auquel ou auxquels ce groupe de nœuds est associé. Spécifiez les chaînes JSON suivantes : n reference. Nom du groupe de nœuds cible n type: STRICT. Placez le groupe de nœuds sur l'ensemble ou le sousensemble d'hôtes ESXi du groupe cible. Si le placement STRICT n'est pas possible, l'opération échoue. FAIBLE. Essayez de placer le groupe de nœuds sur l'ensemble ou le sous-ensemble d'hôtes ESXi du groupe cible, mais si ce n'est pas possible, utilisez un hôte ESXi supplémentaire. n n 40 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster avec prise en charge de la topologie à l'aide de l'interface de ligne de commande Serengeti Pour obtenir une charge de travail équilibrée ou améliorer les performances et le débit, vous pouvez contrôler la façon dont les machines virtuelles Hadoop sont placées en ajoutant la prise en charge de la topologie aux clusters Hadoop. Par exemple, vous pouvez avoir des nœuds de données et des nœuds de calcul distincts, et améliorer les performances et le débit en plaçant les nœuds sur le même ensemble d'hôtes physiques. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 (Facultatif) Exécutez la commande topology list pour afficher la liste des topologies disponibles. topology list 3 (Facultatif) Si vous voulez que le cluster utilise les topologies HVE ou RACK_AS_RACK, créez un fichier de mappage rack/hôtes de topologie, puis téléchargez le fichier sur le serveur de gestion Serengeti. topology upload --fileName name_of_rack_hosts_mapping_file 4 Exécutez la commande cluster create pour créer le cluster. cluster create --name cluster-name ... --topology {HVE|RACK_AS_RACK|HOST_AS_RACK} REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. L'exemple crée une topologie HVE. cluster create --name cluster-name --topology HVE --distro name_of_HVE-supported_distro 5 Affichez les nœuds alloués sur chaque rack. cluster list --name cluster-name –-detail À propos des clusters HBase HBase s'exécute par-dessus HDFS et offre une solution de tolérance aux pannes pour stocker de grandes quantités de données éparses. VMware, Inc. 41 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Créer un cluster HBase par défaut avec l'interface de ligne de commande Serengeti Vous pouvez utiliser l'Serengeti CLI pour déployer les clusters HBase sur HDFS. Cette tâche crée un cluster HBase par défaut qui ne contient pas l'infrastructure MapReduce. Exécuter les tâches MapReduce HBase, ajoutez les nœuds Jobtracker et TaskTracker ou ResourceManager et NodeManager à l'exemple de fichier de spécification de cluster HBase par défaut /opt/serengeti/samples/default_hbase_cluster.json, puis créez un cluster à l'aide de ce fichier de spécification. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez le cluster create command et spécifiez la valeur du paramètre --type comme hbase. cluster create --name cluster_name --type hbase Suivant Après avoir déployé le cluster, vous pouvez accéder à une base de données HBase à l'aide de plusieurs méthodes. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Créer un cluster uniquement HBase dans Big Data Extensions Big Data Extensions vous permet de créer un cluster uniquement HBase qui contient uniquement des nœuds HBase Master, HBase RegionServer et Zookeeper, mais aucun nœud NameNode ni DataNode. Le cluster uniquement HBase présente l'avantage de permettre à plusieurs clusters HBase d'utiliser le même HDFS externe. Procédure 1 Conditions préalables à la création d'un cluster uniquement HBase page 43 Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit toutes les conditions préalables. 2 Préparer EMC Isilon OneFS en tant que cluster HDFS externe page 43 Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS. 3 Créer un cluster uniquement HBase avec l'interface de ligne de commande Serengeti page 44 Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement HBase. 42 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Conditions préalables à la création d'un cluster uniquement HBase Pour pouvoir créer un cluster uniquement HBase, vous devez d'abord vérifier que votre système remplit toutes les conditions préalables. Conditions préalables n Vérifiez que vous avez démarré Serengeti vApp. n Vérifiez que vous avez plusieurs distributions si vous voulez en utiliser une différente de celle par défaut. n Vérifiez que vous avez un cluster HDFS existant à utiliser en tant que cluster HDFS externe. Pour éviter les conflits entre le cluster uniquement HBase et le cluster HDFS externe, les clusters doivent utiliser la même distribution Hadoop et la même version. n n Si le cluster HDFS n'a pas été créé à l'aide de Big Data Extensions, vérifiez que le répertoire HDFS /hadoop/hbase, le groupe hadoop et les utilisateurs suivants existent dans le cluster HDFS externe : n hdfs n hbase n serengeti Si vous utilisez EMC Isilon OneFS en tant que cluster HDFS externe, vérifiez que votre environnement Isilon est préparé. Pour plus d'informations sur la manière de préparer votre environnement, consultez « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 43. Préparer EMC Isilon OneFS en tant que cluster HDFS externe Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS. Procédure 1 Connectez-vous à l'un des nœuds HDFS Isilon en tant que user root 2 Créez les utilisateurs. n hdfs n hbase n serengeti n mapred Les utilisateurs yarn et mapred doivent disposer d'autorisations d'écriture; de lecture et d'exécution pour tout le répertoire HDFS exporté. 3 Créez le groupe d'utilisateurs hadoop. 4 Créez le répertoire tmp sous le répertoire HDFS racine. 5 Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 777. 6 Créez le répertoire hadoop sous le répertoire HDFS racine. 7 Définissez le propriétaire en tant que hdfs:hadoop et les autorisations de lecture et d'écriture 775. 8 Créez le répertoire hbase sous le répertoire hadoop. VMware, Inc. 43 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 9 Définissez le propriétaire en tant que hbase:hadoop et les autorisations de lecture et d'écriture 775. 10 Définissez le propriétaire du répertoire HDFS en tant que hdfs:hadoop. Exemple : Configuration de l'environnement EMC Isilon OneFS isi auth users create --name="hdfs" isi auth users create --name="hbase" isi auth users create --name="serengeti" isi auth groups create --name="hadoop" pw useradd mapred -G wheel pw useradd yarn -G wheel chown mkdir chmod chown mkdir chmod chown chown hdfs:hadoop /ifs /ifs/tmp 777 /ifs/tmp hdfs:hadoop /ifs/tmp -p /ifs/hadoop/hbase -R 775 /ifs/hadoop hdfs:hadoop /ifs/hadoop hbase:hadoop /ifs/hadoop/hbase Suivant Vous êtes maintenant prêt à créer le cluster uniquement HBase avec EMC Isilon OneFS en tant que cluster externe. Créer un cluster uniquement HBase avec l'interface de ligne de commande Serengeti Vous pouvez utiliser l'interface de ligne de commande Serengeti pour créer un cluster uniquement HBase. Vous devez utiliser le gestionnaire d'applications par défaut, car les autres gestionnaires d'applications ne prennent pas en charge les clusters uniquement HBase. Procédure 1 Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json 2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de nœud du cluster HDFS externe. 3 Accédez à l'interface de ligne de commande Serengeti. 4 Exécutez la commande cluster create. cluster create --name clustername --distro distroname --specfile specfile_location Le fichier /opt/serengeti/samples/hbase_only_cluster.json est un exemple de fichier de spécification pour les clusters uniquement HBase. Il contient les rôles zookeeper, hbase_master et hbase_regionserver, mais pas le rôle hadoop_namenode/hadoop_datanode. 5 Pour vérifier que le cluster a été créé, exécutez la commande cluster list . cluster list --name name Lorsque le cluster est créé, le système retourne Cluster clustername créé. 44 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster HBase avec protection HA vSphere à l'aide de l'interface de ligne de commande Serengeti Vous pouvez créer des clusters HBase avec des rôles maîtres Hadoop NameNode et HBase distincts. Vous pouvez configurer la protection HA vSphere HA pour les rôles maîtres. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les rôles des groupes de nœuds et la protection vSphere HA. Dans cet exemple, le cluster possède les nœuds JobTracker et TaskTracker, qui vous permettent d'exécuter les tâches HBase MapReduce. Les rôles maîtres Hadoop NameNode et HBase sont distincts, et les deux sont protégés par vSphere HA. { "nodeGroups" : [ { "name" : "zookeeper", "roles" : [ "zookeeper" ], "instanceNum" : 3, "instanceType" : "SMALL", "storage" : { "type" : "shared", "sizeGB" : 20 }, "cpuNum" : 1, "memCapacityMB" : 3748, "haFlag" : "on", "configuration" : { } }, { "name" : "hadoopmaster", "roles" : [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum" : 1, "instanceType" : "MEDIUM", "storage" : { "type" : "shared", "sizeGB" : 50 }, "cpuNum" : 2, "memCapacityMB" : 7500, VMware, Inc. 45 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "haFlag" : "on", "configuration" : { } }, { "name" : "hbasemaster", "roles" : [ "hbase_master" ], "instanceNum" : 1, "instanceType" : "MEDIUM", "storage" : { "type" : "shared", "sizeGB" : 50 }, "cpuNum" : 2, "memCapacityMB" : 7500, "haFlag" : "on", "configuration" : { } }, { "name" : "worker", "roles" : [ "hadoop_datanode", "hadoop_tasktracker", "hbase_regionserver" ], "instanceNum" : 3, "instanceType" : "SMALL", "storage" : { "type" : "local", "sizeGB" : 50 }, "cpuNum" : 1, "memCapacityMB" : 3748, "haFlag" : "off", "configuration" : { } }, { "name" : "client", "roles" : [ "hadoop_client", "hbase_client" ], "instanceNum" : 1, "instanceType" : "SMALL", "storage" : { "type" : "shared", "sizeGB" : 50 }, "cpuNum" : 1, "memCapacityMB" : 3748, 46 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase "haFlag" : "off", "configuration" : { } } ], // we suggest running convert-hadoop-conf.rb to generate "configuration" section and paste the output here "configuration" : { "hadoop": { "core-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html // note: any value (int, float, boolean, string) must be enclosed in double quotes and here is a sample: // "io.file.buffer.size": "4096" }, "hdfs-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html }, "mapred-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html }, "hadoop-env.sh": { // "HADOOP_HEAPSIZE": "", // "HADOOP_NAMENODE_OPTS": "", // "HADOOP_DATANODE_OPTS": "", // "HADOOP_SECONDARYNAMENODE_OPTS": "", // "HADOOP_JOBTRACKER_OPTS": "", // "HADOOP_TASKTRACKER_OPTS": "", // "HADOOP_CLASSPATH": "", // "JAVA_HOME": "", // "PATH": "" }, "log4j.properties": { // "hadoop.root.logger": "DEBUG,DRFA", // "hadoop.security.logger": "DEBUG,DRFA" }, "fair-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/fair_scheduler.html // "text": "the full content of fair-scheduler.xml in one line" }, "capacity-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/capacity_scheduler.html }, "mapred-queue-acls.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/cluster_setup.html#Configuring+the+Hadoop+Daemons // "mapred.queue.queue-name.acl-submit-job": "", // "mapred.queue.queue-name.acl-administer-jobs", "" } }, VMware, Inc. 47 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "hbase": { "hbase-site.xml": { // check for all settings at http://hbase.apache.org/configuration.html#hbase.site }, "hbase-env.sh": { // "JAVA_HOME": "", // "PATH": "", // "HBASE_CLASSPATH": "", // "HBASE_HEAPSIZE": "", // "HBASE_OPTS": "", // "HBASE_USE_GC_LOGFILE": "", // "HBASE_JMX_BASE": "", // "HBASE_MASTER_OPTS": "", // "HBASE_REGIONSERVER_OPTS": "", // "HBASE_THRIFT_OPTS": "", // "HBASE_ZOOKEEPER_OPTS": "", // "HBASE_REGIONSERVERS": "", // "HBASE_SSH_OPTS": "", // "HBASE_NICENESS": "", // "HBASE_SLAVE_SLEEP": "" }, "log4j.properties": { // "hbase.root.logger": "DEBUG,DRFA" } }, "zookeeper": { "java.env": { // "JVMFLAGS": "-Xmx2g" }, "log4j.properties": { // "zookeeper.root.logger": "DEBUG,DRFA" } } } } 2 Accédez à l'interface de ligne de commande Serengeti. 3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster. cluster create --name cluster_name --specFile full_path/spec_filename Créer un cluster du travailleur uniquement HBase avec un cluster HA HDFS namenode externe Vous pouvez créer un cluster du travailleur uniquement HBase avec deux namenodes dans une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas de défaillance, peut exécuter le rôle du namenode actif sans interruption. n Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications Ambari et Cloudera Manager. n Les clusters du travailleur uniquement MapReduce v1 et les clusters uniquement HBase créés à l'aide de la distribution MapR ne sont pas pris en charge. Prérequis n 48 Déployez le vApp Serengeti. VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de cluster suivant :/opt/serengeti/samples/hbase_only_cluster.json 2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du core-site.xml du cluster externe. 3 Modifiez la section de configuration du fichier de spécification de cluster uniquement HBase comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe. "configuration" : { "hadoop": { "hdfs-site.xml": { "dfs.nameservices": "dataMaster", "dfs.ha.namenodes.dataMaster": "namenode0,namenode1", "dfs.client.failover.proxy.provider.dataMaster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "dfs.namenode.rpc-address.dataMaster.namenode0": "10.555.xx.xxx:xxx1", "dfs.namenode.http-address.dataMaster.namenode0": "10.555.xx.xxx:xxx2", "dfs.namenode.rpc-address.dataMaster.namenode1": "10.555.xx.xxx:xxx3", "dfs.namenode.http-address.dataMaster.namenode1": "10.555.xx.xxx:xxx4" } } } À propos des clusters MapReduce MapReduce est une infrastructure qui permet de traiter les problèmes en parallèle à travers des jeux de données volumineux. L'infrastructure MapReduce distribue à chaque nœud du réseau un certain nombre d'opérations sur le jeu de données. Créer un cluster MapReduce v2 (YARN) avec l'interface de ligne de commande Serengeti Vous pouvez créer des clusters MapReduce v2 (YARN) si vous voulez créer un cluster qui sépare les composants de traitement et de gestion des ressources. Pour créer un cluster MapReduce v2 (YARN), créez un fichier de spécification de cluster inspiré du fichier /opt/serengeti/samples/default_hadoop_yarn_cluster.json, puis spécifiez le paramètre --specFile et votre fichier de spécification de cluster dans la commande cluster create .... Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. VMware, Inc. 49 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande cluster create .... Cet exemple crée un cluster MapReduce v2 personnalisé à l'aide de la distribution CDH4 selon l'exemple de fichier de spécification de cluster default_hadoop_yarn_cluster.json. cluster create --name cluster_name --distro cdh4 --specFile /opt/serengeti/samples/default_hadoop_yarn_cluster.json Créer un cluster du travailleur uniquement MapReduce v1 avec un cluster HA HDFS namenode externe Vous pouvez créer un cluster du travailleur uniquement MapReduce v1 avec deux namenodes dans une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas de défaillance, peut exécuter le rôle du namenode actif sans interruption. Les restrictions suivantes s'appliquent à cette tâche : n Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications Ambari et Cloudera Manager. n Vous ne pouvez pas utiliser la distribution MapR pour créer des clusters du travailleur uniquement MapReduce v1 et des clusters uniquement HBase. Prérequis n Démarrez le vApp Big Data Extensions. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Assurez-vous que vous avez un cluster HA HDFS namenode externe. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant à modifier : /opt/serengeti/samples/compute_workers_only_mr1.json 2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du core-site.xml du cluster externe. 3 Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du JobTracker du cluster externe. 4 Modifiez la section de configuration du fichier de spécification de cluster du travailleur MapReduce comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe. { "externalHDFS": "hdfs://dataMaster", "externalMapReduce": "xx.xxx.xxx.xxx:8021", "nodeGroups":[ { "name": "worker", "roles": [ "hadoop_tasktracker" ], 50 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase "instanceNum": 3, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 } } ], "configuration" : { "hadoop": { "hdfs-site.xml": { "dfs.nameservices": "dataMaster", "dfs.ha.namenodes.dataMaster": "namenode0,namenode1", "dfs.client.failover.proxy.provider.dataMaster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "dfs.namenode.rpc-address.dataMaster.namenode0": "10.111.xx.xxx:xxx2", "dfs.namenode.http-address.dataMaster.namenode0": "10.111.xx.xxx:xxx3", "dfs.namenode.rpc-address.dataMaster.namenode1": "10.111.xx.xxx:xxx4", "dfs.namenode.http-address.dataMaster.namenode1": "10.111.xx.xxx:xxx5" } } } } Créer un cluster du travailleur uniquement MapReduce v2 avec un cluster HA HDFS namenode externe Vous pouvez créer un cluster du travailleur uniquement MapReduce v2 (Yarn) avec deux namenodes dans une configuration HA active-passive. Le namenode HA fournit un namenode de serveur de secours qui, en cas de défaillance, peut exécuter le rôle du namenode actif sans interruption. Les restrictions suivantes s'appliquent à cette tâche : n Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications Ambari et Cloudera Manager. n Vous ne pouvez pas utiliser une distribution MapR pour déployer des clusters du travailleur uniquement MapReduce v1 et des clusters uniquement HBase. Prérequis n Démarrez le vApp Big Data Extensions. n Assurez-vous que vous avez un cluster HA HDFS namenode externe. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Pour définir les caractéristiques du nouveau cluster, ouvrez le fichier de spécification de cluster suivant à modifier : /opt/serengeti/samples/compute_workers_only_yarn.json 2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du namenode du cluster HA HDFS namenode externe. L'URI du namenode est la valeur du paramètre fs.defaultFS du core-site.xml du cluster externe. VMware, Inc. 51 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 3 Remplacez le hostname-of-resourcemanager du fichier de spécification par le FQDN ou l'adresse IP du ResourceManager du cluster externe. 4 Modifiez la section de configuration du fichier de spécification de cluster du travailleur uniquement Yarn comme illustré dans l'exemple suivant. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe. { "externalHDFS": "hdfs://dataMaster", "externalMapReduce": "xx.xxx.xxx.xxx:8021", "nodeGroups":[ { "name": "worker", "roles": [ "hadoop_nodemanager" ], "instanceNum": 3, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 } } ], "configuration" : { "hadoop": { "hdfs-site.xml": { "dfs.nameservices": "dataMaster", "dfs.ha.namenodes.dataMaster": "namenode0,namenode1", "dfs.client.failover.proxy.provider.dataMaster": "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider", "dfs.namenode.rpc-address.dataMaster.namenode0": "10.555.xx.xxx:xxx1", "dfs.namenode.http-address.dataMaster.namenode0": "10.555.xx.xxx:xxx2", "dfs.namenode.rpc-address.dataMaster.namenode1": "10.555.xx.xxx:xxx3", "dfs.namenode.http-address.dataMaster.namenode1": "10.555.xx.xxx:xxx4" } } } } À propos des clusters de calcul de données Vous pouvez séparer les nœuds de données et de calcul d'un cluster Hadoop. Vous pouvez aussi contrôler la façon dont les nœuds sont placés sur les hôtes vSphere ESXi de votre environnement. Vous pouvez créer un cluster de calcul uniquement pour exécuter les tâches MapReduce. Les clusters de calcul uniquement n'exécutent que les services MapReduce qui lisent les données à partir de clusters HDFS externes et qui n'ont pas besoin de stocker les données. Les gestionnaires d'applications Ambari et Cloudera Manager ne prennent en charge ni la séparation calcul/données, ni les clusters de calcul uniquement. 52 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster distinct données-calcul avec prise en charge de la topologie et contraintes de placement Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de topologie et de stratégie de placement afin de répartir les nœuds entre les racks physiques et les machines virtuelles. AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement ROUNDROBIN par défaut. Prérequis n Démarrez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. n Créez un fichier d'informations de mappage rack/hôte. n Téléchargez le fichier rack/hôte sur le serveur Serengeti avec la commande topology upload. Procédure 1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les groupes de nœuds, la topologie et les contraintes de stratégie de placement. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. Dans cet exemple, le cluster a des contraintes groupAssociations et instancePerHost pour le groupe de nœuds de calcul et une contrainte groupRacks pour le groupe de nœuds de données. Quatre nœuds de données et huit nœuds de calcul sont placés sur les quatre mêmes hôtes ESXi, qui sont équitablement sélectionnés depuis rack1, rack2 et rack3. Chaque hôte ESXi possède un nœud de données et deux nœuds de calcul. Comme défini pour le groupe de nœuds de calcul, les nœuds de calcul sont placés uniquement sur les hôtes ESXi ayant des nœuds de données. Cette définition de cluster nécessite que vous configuriez les banques de données et les pools de ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti exécute les placements nécessaires pendant le déploiement. { "nodeGroups":[ { "name": "master", "roles": [ VMware, Inc. 53 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, { "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 4, "cpuNum": 1, "memCapacityMB": 3748, "storage": { "type": "LOCAL", "sizeGB": 50 }, "placementPolicies": { "instancePerHost": 1, "groupRacks": { "type": "ROUNDROBIN", "racks": ["rack1", "rack2", "rack3"] }, } }, { "name": "compute", "roles": [ "hadoop_tasktracker" ], "instanceNum": 8, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 }, "placementPolicies": { "instancePerHost": 2, "groupAssociations": [ { "reference": "data", "type": "STRICT" } } }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], 54 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 } } ], "configuration": { } } 2 Accédez à l'interface de ligne de commande Serengeti. 3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster. cluster create --name cluster_name --specFile full_path/spec_filename Créer un cluster distinct données-calcul sans contraintes de stratégie de placement Vous pouvez créer un cluster avec des nœuds données et calcul distincts sans contraintes de placement de nœud. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. Dans cet exemple, le cluster possède des nœuds données et calcul distincts, sans contraintes de stratégie de placement. Quatre nœuds de données et huit nœuds de calcul sont créés et placés sur des machines virtuelles individuelles. Le nombre de nœuds est configuré par l'attribut instanceNum. { "nodeGroups":[ { "name": "master", "roles": [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, VMware, Inc. 55 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions { "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 4, "cpuNum": 1, "memCapacityMB": 3748, "storage": { "type": "LOCAL", "sizeGB": 50 } }, { "name": "compute", "roles": [ "hadoop_tasktracker" ], "instanceNum": 8, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 } }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 } } ], "configuration": { } } 2 Accédez à l'interface de ligne de commande Serengeti. 3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster. cluster create --name cluster_name --specFile full_path/spec_filename 56 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster distinct données-calcul avec contraintes de stratégie de placement Vous pouvez créer un cluster avec des nœuds de données et de calcul distincts, et définir les contraintes de stratégie de placement afin de répartir les nœuds entre les machines virtuelles à votre guise. AVERTISSEMENT Lorsque vous créez un cluster avec Big Data Extensions, Big Data Extensions désactive la migration automatique des machines virtuelles du cluster. Cela empêche la migration des machines virtuelles par vSphere, mais ne vous empêche pas de déplacer accidentellement les nœuds du cluster vers d'autres hôtes avec l'interface utilisateur de vCenter Server. N'utilisez pas l'interface utilisateur de vCenter Server pour migrer des clusters. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut enfreindre la stratégie de placement du cluster, notamment le nombre d'instances par hôte et les associations de groupe. Même si vous ne spécifiez aucune stratégie de placement, l'utilisation de vCenter Server pour migrer des clusters peut transgresser les contraintes de la stratégie de placement ROUNDROBIN par défaut. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, y compris les groupes de nœuds et les contraintes de stratégie de placement. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. Dans cet exemple, le cluster possède des nœuds données et calcul distincts, et chaque groupe de nœuds a une contrainte placementPolicy. Après un provisionnement réussi, quatre nœuds de données et huit nœuds de calcul sont créés et placés sur des machines virtuelles individuelles. Avec la contrainte instancePerHost=1, les quatre nœuds de données sont placés sur quatre hôtes ESXi. Les huit nœuds de calcul sont placé sur quatre hôtes ESXi : deux nœuds sur chaque hôte ESXi. Cette spécification de cluster nécessite que vous configuriez les banques de données et les pools de ressources pour au moins quatre hôtes, et qu'il existe un espace disque suffisant pour que Serengeti exécute les placements nécessaires pendant le déploiement. { "nodeGroups":[ { "name": "master", "roles": [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, VMware, Inc. 57 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions }, { "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 4, "cpuNum": 1, "memCapacityMB": 3748, "storage": { "type": "LOCAL", "sizeGB": 50 }, "placementPolicies": { "instancePerHost": 1 } }, { "name": "compute", "roles": [ "hadoop_tasktracker" ], "instanceNum": 8, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 20 }, "placementPolicies": { "instancePerHost": 2 } }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 } } ], "configuration": { } } 2 Accédez à l'interface de ligne de commande Serengeti. 3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster. cluster create --name cluster_name --specFile full_path/spec_filename 58 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster de calcul uniquement avec le gestionnaire d'applications par défaut Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS existants, y compris les solutions de stockage faisant office de HDFS externe. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster Serengeti compute_only_cluster.json disponible dans le répertoire Serengeti cli/samples. 2 Ajoutez le contenu suivant à un nouveau fichier de spécification de cluster. Dans cet exemple, le fichier externalHDFS pointe vers un HDFS. Attribuez le rôle hadoop_jobtracker au groupe de nœuds master et le rôle hadoop_tasktracker au groupe de nœuds worker. Le champ externalHDFS est en conflit avec les groupes de nœuds ayant les rôles hadoop_namenode et hadoop_datanode. Ce conflit peut entraîner l'échec de la création du cluster ou, si la création réussit, il se peut que le cluster ne fonctionne pas correctement. Pour éviter ce problème, définissez uniquement un seul HDFS. { "externalHDFS": "hdfs://hostname-of-namenode:8020", "nodeGroups": [ { "name": "master", "roles": [ "hadoop_jobtracker" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, }, { "name": "worker", "roles": [ "hadoop_tasktracker", ], "instanceNum": 4, "cpuNum": 2, "memCapacityMB": 7500, "storage": { VMware, Inc. 59 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "type": "LOCAL", "sizeGB": 20 }, }, { "name": "client", "roles": [ "hadoop_client", "hive", "pig" ], "instanceNum": 1, "cpuNum": 1, "storage": { "type": "LOCAL", "sizeGB": 50 }, } ], “configuration” : { } } 3 Accédez à l'interface de ligne de commande Serengeti. 4 Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le nom de fichier associé. cluster create --name cluster_name --distro distro_name --specFile path/spec_file_name Créer un cluster de calcul uniquement avec le gestionnaire d'applications Cloudera Manager Vous pouvez créer des clusters de calcul uniquement exécuter les tâches MapReduce sur les clusters HDFS existants, y compris les solutions de stockage faisant office de HDFS externe. Vous pouvez utiliser un gestionnaire d'applications Cloudera Manager avec un système HDFS externe. Si vous utilisez EMC Isilon OneFS pour prendre en charge un cluster HDFS externe afin de l'utiliser avec un cluster uniquement HBase, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs, et préparer votre environnement Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 43 Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 60 Créez un fichier de spécification de cluster inspiré de l'exemple de fichier de spécification de cluster yarn_compute_only_cluster.json disponible dans le répertoire /opt/serengeti/samples/clouderamanager/ du serveur Serengeti. VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase 2 Ajoutez le code suivant à votre nouveau fichier de spécification de cluster. Dans ce fichier de spécification de cluster, le champ default_fs_name pointe vers un URI HDFS Namenode et le champ webhdfs_url pointe vers une URL Web HDFS. { "nodeGroups": [ { "name": "master", "roles": [ "YARN_RESOURCE_MANAGER", "YARN_JOB_HISTORY" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "SHARED", "sizeGB": 50 }, "haFlag": "on", "configuration": { } }, { "name": "worker", "roles": [ "YARN_NODE_MANAGER", "GATEWAY" ], "instanceNum": 3, "cpuNum": 2, "memCapacityMB": 7500, "storage": { "type": "LOCAL", "sizeGB": 50 }, "haFlag": "off", "configuration": { } } ], "configuration": { "ISILON": { // service level configurations // check for all settings by running "appmanager list --name <name> --configurations" "default_fs_name": "hdfs://FQDN:8020", "webhdfs_url": "hdfs://FQDN:8020/webhdfs/v1" }, "YARN": { // service level configurations }, "YARN_RESOURCE_MANAGER": { }, "YARN_NODE_MANAGER": { VMware, Inc. 61 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "yarn_nodemanager_local_dirs": "/yarn/nm" } } } 3 Accédez à l'Serengeti CLI. 4 Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le nom de fichier associé. cluster create --name computeOnlyCluster_name -- appManager appManager_name --distro distro_name --specFile path/spec_file_name Créer un cluster de calcul uniquement avec Ambari Application Manager et Isilon Vous pouvez créer un cluster de calcul uniquement avec le gestionnaire d'applications Ambari à l'aide de Isilon OneFS. Pour créer un cluster de calcul uniquement à l'aide de Isilon OneFS, vous devez activer Isilon SmartConnect (équilibrage de la charge réseau). Pour utiliser EMC Isilon OneFS comme cluster HDFS externe du cluster HBase uniquement, vous devez créer et configurer des utilisateurs et des groupes d'utilisateurs et préparer votre environnement Isilon OneFS. Reportez-vous à « Préparer EMC Isilon OneFS en tant que cluster HDFS externe », page 43 Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop par défaut, ajoutez une ou plusieurs distributions de fournisseurs à votre environnementBig Data Extensions. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. n Vérifiez que la distribution Hadoop que vous souhaitez utiliser est compatible avec Isilon OneFS. Rendez-vous sur le site Internet EMC et consultez la section Distributions Hadoop prises en charge dans OneFS. Procédure 1 Créez un fichier de spécification de cluster modélisé sur l'un des fichiers exemples de spécification de cluster suivants : hdp_v2_1_yarn_compute_only_cluster.json ou hdp_v2_2_yarn_compute_only_cluster.json. Vous trouverez ces fichiers exemples dans le répertoire /opt/serengeti/samples/ambari/ du serveur Serengeti. 2 Activez Isilon SmartConnect. isi networks modify subnet --sc-service-addr=SmartConnect_IP --name=subnet_name isi networks modify pool --name=subnet_name:pool_name --sc-subnet=subnet_name -zone=zone_name 3 Spécifiez le serveur Ambari et nommez le nœud FQDN dans votre environnement Islion. isi zone zones modify System --hdfs-ambari-namenode=smart_connect_FQDN isi zone zones modify System --hdfs-ambari-server=ambari_server_FQDN 62 4 Modifiez le fichier de spécification du cluster, /opt/serengeti/samples/ambari/hdp_v2_*_yarn_compute_only_cluster.json et définissez externalNamenode sur Isilon SmartConnect FQDN. Si l'attribut externalSecondaryNamenode du fichier de spécification du cluster est défini sur la même valeur que externalNamenode, supprimez l'entrée pour externalSecondaryNamenode. 5 Accédez à l'Serengeti CLI. VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase 6 Exécutez la commande cluster create et incluez le paramètre du fichier de spécification de cluster et le nom de fichier associé. cluster create --name computeOnlyCluster_name -- appManager appManager_name --distro distro_name --specFile path/spec_file_name Suivant Vérifiez que votre cluster géré de calcul uniquement Ambari est créé correctement, avec la configuration nécessaire pour votre environnement et votre utilisation. Créer un cluster de calcul du travailleur uniquement avec un cluster HDFS HA sans Namenode Si vous avez déjà un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster du travailleur uniquement. Le cluster du travailleur uniquement fait partie du cluster Hadoop physique et peut être augmenté de façon élastique. Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster physique existant ou à un cluster Hadoop virtuel. Restrictions. n Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications Ambari et Cloudera Manager. n Ces options ne sont pas prises en charge sur les clusters de calcul du travailleur uniquement. n --appmanager appmanager_name n --type cluster_type n --hdfsNetworkName hdfs_network_name n --mapredNetworkName mapred_network_name Prérequis n Démarrez le vApp Big Data Extensions. n Vérifiez que vous avez un cluster Hadoop existant. n Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Pour définir les caractéristiques du nouveau cluster, effectuez une copie du fichier de spécification de cluster suivant :/opt/serengeti/samples/compute_workers_only_mr1.json 2 Remplacez hdfs://hostname-of-namenode:8020 dans le fichier de spécification par l'URI du nom de nœud du cluster HDFS externe. 3 Remplacez le hostname-of-jobtracker du fichier de spécification par le FQDN ou l'adresse IP du JobTracker du cluster externe. VMware, Inc. 63 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 4 Modifiez la section de configuration du fichier de spécification du cluster MapReduce du travailleur uniquement. Toutes les valeurs sont disponibles dans le hdfs-site.xml du cluster externe. À propos des clusters personnalisés Vous pouvez utiliser un fichier de spécification de cluster existant pour créer des clusters à l'aide de la même configuration que celle des clusters précédemment créés. Vous pouvez aussi modifier le fichier de spécification de cluster pour personnaliser la configuration du cluster. Créer un cluster Hadoop Serengeti par défaut avec l'interface de ligne de commande Serengeti Vous pouvez créer autant de clusters que vous le voulez dans votre environnement Serengeti, mais votre environnement doit satisfaire toutes les conditions préalables. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Déployez un cluster Hadoop Serengeti par défaut sur vSphere. n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution Apache Bigtop fournie, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. cluster create --name cluster_name Les seuls caractères valides dans les noms de clusters sont les caractères alphanumériques et les traits de soulignement. Quand vous choisissez le nom de cluster, tenez également compte du nom de vApp applicable. Ensemble, les noms de vApp et du cluster doivent comprendre moins de 80 caractères. Pendant le processus de déploiement, les mises à jour en progression en temps réel apparaissent sur la ligne de commande. Suivant Lorsque le déploiement est terminé, vous pouvez exécuter les commandes Hadoop et afficher les adresses IP des machines virtuelles des nœuds Hadoop à partir de l'Serengeti CLI. 64 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster de base avec l'interface de ligne de commande Serengeti Vous pouvez créer un cluster de base dans votre environnement Serengeti. Un cluster de base est un groupe de machines virtuelles provisionnées et gérées par Serengeti. Serengeti vous permet de planifier et de provisionner les machines virtuelles selon vos spécifications et d'utiliser les machines virtuelles pour installer les applications Big Data. Le cluster de base n'installe pas les packages d'application Big Data utilisés lors de la création d'un cluster. Vous pouvez à la place installer et gérer des applications Big Data avec des outils de gestion d'application tiers, tels qu'Ambari ou Cloudera Manager, au sein de votre environnement Big Data Extensions, et l'intégrer à votre logiciel Hadoop. Le cluster de base ne déploie pas de cluster. Vous devez déployer les logiciels sur les machines virtuelles à l'aide d'un outil de gestion d'application tiers externe. Le package Serengeti inclut un exemple annoté de fichier de spécification de cluster que vous pouvez utiliser comme exemple lorsque vous créez votre fichier de spécification de cluster de base. Dans le serveur de gestion Serengeti, l'exemple de fichier de spécification se trouve sur /opt/serengeti/samples/basic_cluster.json. Vous pouvez modifier les valeurs de configuration de l'exemple de fichier de spécification de cluster pour répondre à vos impératifs. La seule valeur que vous ne pouvez pas modifier est celle attribuée au rôle de chaque groupe de nœuds, qui doit toujours être basic. Vous pouvez déployer un cluster de base avec le plug-in Big Data Extension à l'aide d'un fichier de spécification de cluster personnalisé. Pour déployer les logiciels au sein des machines virtuelles du cluster de base, utilisez la commande cluster list --detail ou exécutez serengeti-ssh.sh cluster_name pour obtenir l'adresse IP de la machine virtuelle. Vous pouvez alors utiliser l'adresse IP avec des applications de gestion telles qu'Ambari ou Cloudera Manager pour provisionner la machine virtuelle avec les logiciels de votre choix. Vous pouvez configurer l'application de gestion pour qu'elle utilise le nom d'utilisateur Serengeti et le mot de passe que vous avez spécifiés lors de la création du cluster de base au sein de Big Data Extensions lorsque l'outil de gestion a besoin d'un nom d'utilisateur et d'un mot de passe pour se connecter aux machines virtuelles. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster, ainsi que le logiciel Big Data que vous prévoyez de déployer. Procédure 1 Créez un fichier de spécification pour définir les caractéristiques du cluster de base. Vous devez utiliser le rôle basic pour chaque groupe de nœuds que vous définissez pour le cluster de base. { "nodeGroups":[ { "name": "master", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "LOCAL", "sizeGB": 250 }, VMware, Inc. 65 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions "haFlag": "on" }, { "name": "worker", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "LOCAL", "sizeGB": 250 }, "haFlag": "off" } ] } 2 Accédez à l'interface de ligne de commande Serengeti. 3 Exécutez la commande cluster create et spécifiez le fichier de spécification du cluster de base. cluster create --name cluster_name --specFile /opt/serengeti/samples/basic_cluster.json -password REMARQUE Lors de la création d'un cluster de base, vous n'avez pas besoin de spécifier un type de distribution Hadoop à l'aide de l'option --distro. La raison en est qu'il n'y a aucune distribution Hadoop en cours d'installation au sein du cluster de base à gérer par Serengeti. Créer un cluster avec un gestionnaire d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser l'Serengeti CLI pour ajouter un cluster avec un gestionnaire d'applications autre que le gestionnaire d'applications par défaut. Vous pouvez ensuite gérer votre cluster avec le nouveau gestionnaire d'applications. REMARQUE Si vous souhaitez créer un référentiel Yum local, vous devez créer le référentiel avant de créer le cluster. Prérequis n Connectez-vous à un gestionnaire d'applications. n Assurez-vous d'avoir les ressources adéquates allouées pour exécuter le cluster. Pour plus d'informations sur les ressources requises, consultez la documentation de votre gestionnaire d'applications. n Vérifiez que vous avez plusieurs distributions si vous voulez utiliser une distribution autre que la distribution par défaut. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 66 Accédez à l'Serengeti CLI. VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase 2 Exécutez la commande cluster. cluster create --name cluster_name --appManager appmanager_name --[localrepoURL local_repository_url] Si vous n'utilisez pas le paramètre appManager, c'est le gestionnaire d'applications par défaut qui est utilisé. Créer un cluster de calcul du travailleur uniquement à l'aide de vSphere Web Client Si vous disposez déjà d'un cluster Hadoop physique et que vous voulez effectuer des opérations nécessitant plus de CPU ou de mémoire, vous pouvez augmenter la capacité de calcul en provisionnant un cluster de travailleurs uniquement. Le cluster de travailleurs uniquement fait partie du cluster Hadoop physique et peut être augmenté de façon élastique. Avec les clusters de calcul du travailleur uniquement, vous pouvez « passer d'un seul coup en mode virtuel ». Il s'agit d'une opération temporaire qui implique l'emprunt de ressources lorsque vous en avez besoin, et leur restitution lorsque vous n'en avez plus besoin. Avec « passer d'un seul coup en mode virtuel », vous faites tourner les nœuds de calcul du travailleur uniquement et vous les ajoutez à un cluster physique existant ou à un cluster Hadoop virtuel. Les clusters du travailleur uniquement ne sont pas pris en charge sur les gestionnaires d'applications Ambari et Cloudera Manager. Prérequis n Vérifiez que vous avez un cluster Hadoop existant. n Vérifiez que vous avez les adresses IP des nœuds NameNode et ResourceManager. Procédure 1 Cliquez sur Créer un cluster Big Data dans le volet Objets. 2 Dans l'assistant de création du cluster Big Data, choisissez la même distribution que le cluster Hadoop. 3 Définissez l'URL DataMaster : HDFS:namenode ip ou fqdn:8020. 4 Définissez l'URL ComputeMaster nodeManager ip ou fqdn. 5 Suivez la procédure indiquée dans l'assistant et ajoutez les autres ressources. Il y aura trois gestionnaires de nœuds dans le cluster. Les trois nouveaux gestionnaires de nœuds sont enregistrés auprès du gestionnaire de ressources. Créer un cluster avec un mot de passe administrateur à l'aide de l'interface de ligne de commande Serengeti Lorsque vous créez un cluster, vous pouvez attribuer un mot de passe administrateur personnalisé à tous les nœuds du cluster. Les mots de passe d'administrateur personnalisés vous permettent de vous connecter directement aux nœuds au lieu d'avoir à vous connecter d'abord au serveur de gestion Serengeti. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. VMware, Inc. 67 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande cluster create et incluez le paramètre --password. cluster create --name cluster_name --password 3 Entrez votre mot de passe personnalisé, puis entrez-le à nouveau. Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, * Votre mot de passe personnalisé est attribué à tous les nœuds du cluster. Créer un cluster avec une distribution disponible à l'aide de l'interface de ligne de commande Serengeti Vous pouvez sélectionner la distribution Hadoop à utiliser lorsque vous déployez un cluster. Si vous ne spécifiez pas de distribution Hadoop, le cluster obtenu est créé à l'aide de la distribution par défaut, Apache Bigtop. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande cluster create et incluez le paramètre --distro. La valeur du paramètre --distro doit correspondre à un nom de distribution affiché par la commande distro list. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. L'exemple déploie un cluster avec la distribution Cloudera CDH : cluster create --name clusterName --distro cdh L'exemple crée un cluster personnalisé nommé mycdh qui utilise la distribution Hadoop CDH5 et qui est configuré selon l'exemple de fichier de spécification de cluster /opt/serengeti/samples/default_cdh4_ha_and_federation_hadoop_cluster.json. Dans cet exemple de fichier, nameservice0 et nameservice1 sont fédérés. Autrement dit, nameservice0 et nameservice1 sont indépendants et ne nécessitent pas d'être coordonnés entre eux. Les nœuds NameNode du groupe de nœuds nameservice0 prennent en charge HDFS2 HA. Dans Serengeti, les noms de groupes de nœuds de noms sont utilisés comme noms de service pour HDFS2. cluster create --name mycdh --distro cdh5 --specFile /opt/serengeti/samples/default_cdh5_ha_hadoop_cluster.json 68 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase Créer un cluster à plusieurs réseaux à l'aide de l'interface de ligne de commande Serengeti Lorsque vous créez un cluster, vous pouvez distribuer la gestion, le système de fichiers HDFS et le trafic MapReduce pour séparer les réseaux. Vous pouvez souhaiter utiliser des réseaux distincts pour améliorer les performances ou isoler le trafic à des fins de sécurité. Pour optimiser les performances, utilisez le même réseau pour le trafic HDFS et MapReduce dans les clusters Hadoop et Hadoop+HBase. Les clusters HBase utilisent le réseau HDFS pour le trafic lié aux services HBase Master et HBase RegionServer. IMPORTANT Vous ne pouvez pas configurer plusieurs réseaux pour les clusters qui utilisent la distribution Hadoop MapR. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande cluster create et incluez les paramètres --networkName, --hdfsNetworkName et --mapredNetworkName. cluster create --name cluster_name --networkName management_network [--hdfsNetworkName hdfs_network] [--mapredNetworkName mapred_network] Si vous omettez l'un des paramètres réseau facultatifs, le trafic associé à ce paramètre réseau est acheminé sur le réseau de gestion spécifié par le paramètre --networkName. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. La gestion du cluster, le système de fichiers HDFS et le trafic MapReduce sont répartis entre les réseaux spécifiés. Créer un cluster avec ressources assignées à l'aide de l'interface de ligne de commande Serengeti Par défaut, lorsque vous utilisez Serengeti pour déployer un cluster Hadoop, le cluster peut contenir tout ou partie des ressources disponibles : le pool de ressources vCenter Server pour le CPU et la mémoire des machines virtuelles, les banques de données pour le stockage de la machine virtuelle et un réseau. Vous pouvez affecter les ressources que le cluster utilise en spécifiant des pools de ressources spécifiques, des banques de données et/ou un réseau lorsque vous créez le cluster Hadoop. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. VMware, Inc. 69 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande cluster create et spécifiez tout ou partie des paramètres de ressource de la commande. Cet exemple déploie un cluster nommé myHadoop sur la banque de données myDS, sous le pool de ressources myRP, et utilise le réseau myNW pour les communications des machines virtuelles. cluster create --name myHadoop --rpNames myRP --dsNames myDS --networkName myNW Créer un cluster avec un nombre quelconque de nœuds master, worker et client Vous pouvez créer un cluster Hadoop avec un nombre quelconque de nœuds master, worker et client. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les groupes de nœuds. REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. Dans cet exemple, le cluster a une machine virtuelle maître de taille MOYENNE, cinq machines virtuelles du travailleur de taille PETITE et une machine virtuelle cliente de taille PETITE. L'attribut instanceNum configure le nombre de machines virtuelles d'un nœud. { "nodeGroups" : [ { "name": "master", "roles": [ "hadoop_namenode", "hadoop_jobtracker" ], "instanceNum": 1, "instanceType": "MEDIUM" }, { "name": "worker", "roles": [ 70 VMware, Inc. Chapitre 5 Création de clusters Hadoop et HBase "hadoop_datanode", "hadoop_tasktracker" ], "instanceNum": 5, "instanceType": "SMALL" }, { "name": "client", "roles": [ "hadoop_client", "hive", "hive_server", "pig" ], "instanceNum": 1, "instanceType": "SMALL" } ] } 2 Accédez à l'Serengeti CLI. 3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster. cluster create --name cluster_name --specFile directory_path/spec_filename Créer un cluster Hadoop ou HBase personnalisé avec l'interface de ligne de commande Serengeti Vous pouvez créer des clusters personnalisés en fonction de vos exigences, y compris le nombre de nœuds, la taille du disque et de la RAM de la machine virtuelle, le nombre de CPU, etc. Le package Serengeti inclut plusieurs exemples annotés de fichier de spécification de cluster que vous pouvez utiliser comme modèles lorsque vous créez vos fichiers de spécification personnalisés. n Dans le serveur de gestion Serengeti, les exemples de fichiers de spécification de cluster se trouvent dans /opt/serengeti/samples. n Si vous utilisez le client d'interface de ligne de commande distant Serengeti, les exemples de fichiers de spécification sont dans le répertoire client. La modification d'un rôle de groupe de nœuds peut entraîner l'échec du processus de création de cluster. Par exemple, comme les clusters faisant l'objet de travaux requièrent un NameNode, s'il n'existe aucun nœud NameNode après que vous avez modifié les rôles des groupes de nœuds, vous ne pouvez pas créer de cluster. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Créez un fichier de spécification de cluster pour définir les caractéristiques du cluster, telles que les groupes de nœuds. 2 Accédez à l'interface de ligne de commande Serengeti. VMware, Inc. 71 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 3 Exécutez la commande cluster create et spécifiez le fichier de spécification de cluster. Utilisez le chemin d'accès complet pour spécifier le fichier. cluster create --name cluster_name --specFile full_path/spec_filename REMARQUE Pour créer un cluster Apache Bigtop, Cloudera CDH4 et CDH5, Hortonworks HDP 2.x ou Pivotal PHD 1.1 ou version ultérieure, vous devez configurer un DNS et un FQDN valides pour le trafic réseau HDFS et MapReduce du cluster. Si le serveur DNS ne peut pas assurer la résolution FQDN/IP dans un sens et dans l'autre, le processus de création du cluster risque d'échouer ou le cluster est créé mais il ne fonctionne pas. 72 VMware, Inc. Gestion des clusters Hadoop et HBase 6 Vous pouvez utiliser vSphere Web Client pour démarrer et arrêter votre cluster Big Data, et pour modifier la configuration du cluster. Vous pouvez également gérer un cluster à l'aide de l'interface de ligne de commande Serengeti. AVERTISSEMENT N'utilisez pas les fonctions de gestion de vSphere telles que la migration de nœuds de cluster vers d'autres hôtes pour les clusters créés avec Big Data Extensions. L'utilisation de ces fonctions de gestion en dehors de l'environnement Big Data Extensions peut vous empêcher d'effectuer certaines opérations de Big Data Extensions telles que la récupération de défaillances de disque. Ce chapitre aborde les rubriques suivantes : n « Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti », page 74 n « Agrandir un cluster avec l'interface de ligne de commande Serengeti », page 74 n « Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti », page 75 n « Reconfigurer un cluster avec l'interface de ligne de commande Serengeti », page 75 n « Supprimer un cluster avec l'interface de ligne de commande Serengeti », page 78 n « À propos de vSphere High Availability et de vSphere Fault Tolerance », page 78 n « Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti », page 78 n « Développer un cluster à l'aide de l'interface de ligne de commande », page 78 n « Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti », page 80 n « Effectuer la récupération d'une machine virtuelle de nœud de cluster », page 80 n « Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client d'interface de ligne de commande Serengeti », page 81 VMware, Inc. 73 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Démarrer et arrêter un cluster avec l'interface de ligne de commande Serengeti Vous pouvez arrêter un cluster en cours d'exécution et démarrer un cluster arrêté à partir de l'interface de ligne de commande Serengeti. Lorsque vous démarrez ou arrêtez un cluster via Cloudera Manager ou Ambari, seuls les services sont démarrés ou arrêtés. Cependant, lorsque vous démarrez ou arrêtez un cluster via Big Data Extensions, non seulement les services, mais également les machines virtuelles sont démarrés ou arrêtés. Prérequis n Vérifiez que le cluster est provisionné. n Vérifiez que suffisamment de ressources, notamment en termes de CPU et de mémoire, sont disponibles pour démarrer les machines virtuelles du cluster Hadoop. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande cluster stop. cluster stop –-name name_of_cluster_to_stop 3 Exécutez la commande cluster start. cluster start –-name name_of_cluster_to_start Agrandir un cluster avec l'interface de ligne de commande Serengeti Vous spécifiez le nombre de nœuds du cluster lorsque vous créez des clusters Hadoop et HBase. Par la suite, vous pouvez agrandir le cluster en augmentant le nombre de nœuds worker et le nombre de nœuds client. IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds d'un cluster, le mot de passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération d'agrandissement du cluster. Si vous avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds. Prérequis Vérifiez que le cluster a démarré. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commande cluster resize. Pour node_type, spécifiez worker ou client. Pour la valeur num_nodes du paramètreinstanceNum, utilisez tout nombre supérieur au nombre actuel d'instances node_type. cluster resize --name name_of_cluster_to_resize --nodeGroup node_type --instanceNum num_nodes 74 VMware, Inc. Chapitre 6 Gestion des clusters Hadoop et HBase Mettre à l'échelle le CPU et la RAM avec l'interface de ligne de commande Serengeti Vous pouvez augmenter ou réduire la capacité de calcul et la RAM d'un cluster afin d'empêcher la contention des ressources mémoire des tâches en cours d'exécution. Serengeti vous permet d'ajuster les ressources de calcul et de la mémoire, sans augmenter la charge de travail sur le nœud master. Si l'augmentation ou la diminution du CPU d'un cluster n'aboutit pas pour un nœud, ce qui est généralement dû à l'insuffisance des ressources disponibles, le nœud est rétabli à sa valeur de CPU originale. Si l'augmentation ou la diminution de la RAM d'un cluster n'aboutit pas pour un nœud, ce qui est généralement dû à l'insuffisance des ressources, le disque d'échange conserve sa nouvelle valeur. Le disque n'est pas rétabli à la valeur d'origine de la mémoire. Même si tous les types de nœuds prennent en charge la mise à l'échelle du CPU et de la RAM, ne mettez pas à l'échelle le nœud master d'un cluster, carSerengeti arrête la machine virtuelle lors du processus de mise à l'échelle. Les valeurs maximales pour le CPU et la RAM dépendent de la version de la machine virtuelle. Tableau 6‑1. Valeurs maximales pour le CPU et la RAM Version de machine virtuelle Nombre maximal de CPU RAM maximale, en Go 7 8 255 8 32 1 011 9 64 1 011 10 64 1 011 Prérequis Démarrez le cluster s'il n'est pas en cours d'exécution. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande cluster resize pour modifier le nombre de CPU ou la quantité de RAM d'un cluster. n n Les types de nœud sont travailleur ou client. Spécifiez l'un et/ou l'autre des paramètres de mise à l'échelle : --cpuNumPerNode ou-- memCapacityMbPerNode. cluster resize --name cluster_name --nodeGroup node_type [--cpuNumPerNode vCPUs_per_node] [--memCapacityMbPerNode memory_per_node] Reconfigurer un cluster avec l'interface de ligne de commande Serengeti Vous pouvez reconfigurer tout cluster big data que vous créez avec Big Data Extensions. La configuration des clusters est spécifiée par des attributs dans des fichiers de configuration XML de distribution Hadoop tels que : core-site.xml, hdfs-site.xml, mapred-site.xml, hadoop-env.sh, yarn-env.sh, yarn-site.sh et hadoop-metrics.properties. Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les fichiers de distribution Hadoop, reportez-vous au Guide de l'interface de ligne de commande de VMware vSphere Big Data Extensions. VMware, Inc. 75 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Pour en savoir plus sur le fichier de configuration de format JSON Serengeti et les attributs associés dans les fichiers de distribution Hadoop, reportez-vous à Chapitre 8, « Référence de spécification de cluster », page 87. REMARQUE Utilisez toujours la commande cluster config pour modifier les paramètres spécifiés par les fichiers de configuration. Si vous modifiez ces fichiers manuellement, vos modifications seront effacées si la machine virtuelle redémarre ou si vous utilisez les commandes cluster config, cluster start, cluster stop ou cluster resize. Procédure 1 Utilisez la commande cluster export pour exporter le fichier de spécification pour le cluster que vous souhaitez reconfigurer. cluster export --name 2 cluster_name --specFile file_path/cluster_spec_file_name Option Description cluster_name Nom du cluster que vous souhaitez reconfigurer. file_path Le chemin du système de fichiers vers lequel vous voulez exporter le fichier de spécification. cluster_spec_file_name Le nom de l'étiquette à attribuer au fichier de spécification du cluster exporté. Modifiez les informations de configuration situées près de la fin du fichier de spécification du cluster exporté. Si vous modélisez votre fichier de configuration sur des fichiers de configuration XML Hadoop existants, utilisez l'outil de conversion convert-hadoop-conf.rb pour convertir ces fichiers au format JSON requis. … "configuration": { "hadoop": { "core-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/coredefault.html // note: any value (int, float, boolean, string) must be enclosed in double quotes and here is a sample: // "io.file.buffer.size": "4096" }, "hdfs-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/hdfsdefault.html }, "mapred-site.xml": { // check for all settings at http://hadoop.apache.org/common/docs/stable/mapreddefault.html }, "hadoop-env.sh": { // "HADOOP_HEAPSIZE": "", // "HADOOP_NAMENODE_OPTS": "", // "HADOOP_DATANODE_OPTS": "", // "HADOOP_SECONDARYNAMENODE_OPTS": "", // "HADOOP_JOBTRACKER_OPTS": "", // "HADOOP_TASKTRACKER_OPTS": "", // "HADOOP_CLASSPATH": "", // "JAVA_HOME": "", 76 VMware, Inc. Chapitre 6 Gestion des clusters Hadoop et HBase // "PATH": "", }, "log4j.properties": { // "hadoop.root.logger": "DEBUG, DRFA ", // "hadoop.security.logger": "DEBUG, DRFA ", }, "fair-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/fair_scheduler.html // "text": "the full content of fair-scheduler.xml in one line" }, "capacity-scheduler.xml": { // check for all settings at http://hadoop.apache.org/docs/stable/capacity_scheduler.html } } } … 3 (Facultatif) Si les fichiers JAR de votre distribution Hadoop ne se trouvent pas dans le répertoire $HADOOP_HOME/lib, ajoutez le chemin complet du fichier JAR dans $HADOOP_CLASSPATH au fichier de spécification de cluster. Cette opération permet aux démons Hadoop de localiser les fichiers JAR de distribution. Par exemple, les fichiers JAR Cloudera CDH3 Hadoop Fair Scheduler se trouvent sous /usr/lib/hadoop/contrib/fairscheduler/. Ajoutez ce qui suit au fichier de spécification du cluster pour permettre à Hadoop d'utiliser les fichiers JAR. … "configuration": { "hadoop": { "hadoop-env.sh": { "HADOOP_CLASSPATH": "/usr/lib/hadoop/contrib/fairscheduler/*:$HADOOP_CLASSPATH" }, "mapred-site.xml": { "mapred.jobtracker.taskScheduler": "org.apache.hadoop.mapred.FairScheduler" … }, "fair-scheduler.xml": { … } } } … 4 Accédez à l'Serengeti CLI. 5 Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop. cluster config --name cluster_name --specFile file_path/cluster_spec_file_name 6 VMware, Inc. (Facultatif) Réinitialisez un attribut de configuration existant à sa valeur par défaut. a Supprimez l'attribut de la section de configuration du fichier de configuration ou commentez l'attribut en utilisant deux barres obliques inversées (//). b Exécutez à nouveau la commande cluster config. 77 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Supprimer un cluster avec l'interface de ligne de commande Serengeti Vous pouvez supprimer un cluster dont vous n'avez plus besoin, qu'il soit en cours d'exécution ou pas. Quand un cluster est supprimé, l'ensemble de ses machines virtuelles et pools de ressources l'est également. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commande cluster delete. cluster delete --name cluster_name À propos de vSphere High Availability et de vSphere Fault Tolerance Le serveur de gestion Serengeti tire parti de la haute disponibilité vSphere pour protéger la machine virtuelle du nœud Hadoop master, qui peut être surveillée par vSphere. Lorsque un service Hadoop NameNode ou JobTracker s'arrête de manière inattendue, vSphere redémarre la machine virtuelle Hadoop dans un autre hôte afin de réduire la période d'interruption non planifiée. Si vSphere Fault Tolerance est configuré et que la machine virtuelle du nœud master s'arrête de manière inattendue en raison du basculement ou de la perte de connectivité réseau d'un hôte, le nœud secondaire est utilisé, sans provoquer d'interruption de service. Reconfigurer un groupe de nœuds avec l'interface de ligne de commande Serengeti Vous pouvez reconfigurer les groupes de nœuds en modifiant les données de configuration des groupes de nœuds du fichier de spécification de cluster associé. Lorsque vous configurez un groupe de nœuds, sa configuration remplace toute configuration de niveau cluster du même nom. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commandecluster export pour exporter le fichier de spécification de cluster du cluster. cluster export --name cluster_name --specFile path_name/spec_file_name 3 Dans le fichier de spécification, modifiez la section de configuration du groupe de nœuds avec le même contenu que la configuration de niveau cluster. 4 Ajoutez la configuration Hadoop personnalisée au groupe de nœuds que vous voulez reconfigurer. 5 Exécutez la commande cluster config pour appliquer la nouvelle configuration Hadoop. cluster config --name cluster_name --specFile path_name/spec_file_name Développer un cluster à l'aide de l'interface de ligne de commande Vous pouvez développer un cluster Big Data existant en ajoutant des groupes de nœuds supplémentaires. Procédure 1 78 Accédez à l'Serengeti CLI. VMware, Inc. Chapitre 6 Gestion des clusters Hadoop et HBase 2 Modifiez le fichier de spécification du cluster afin qu'il inclue les nouveaux groupes de nœuds que vous souhaitez ajouter au cluster. Lors de la modification du fichier de spécification du cluster pour développer le cluster, gardez les éléments suivants en tête. n Les nouveaux groupes de nœuds développés ne doivent pas avoir les mêmes noms que les groupes de nœuds existants dans le cluster. n Veillez à utiliser une syntaxe correcte lors de la modification du fichier de spécification du cluster. Chaque élément et sa valeur de configuration doivent être corrects, sans quoi l'opération de développement échouera. Cet exemple illustre une configuration nodeGroups mise à jour à partir du fichier de spécification de cluster plus large. { "nodeGroups":[ { "name": "master1", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "SHARED", "sizeGB": 10 }, "haFlag": "on" }, { "name": "worker1", "roles": [ "basic" ], "instanceNum": 1, "cpuNum": 2, "memCapacityMB": 3768, "storage": { "type": "LOCAL", "sizeGB": 10 }, "haFlag": "off" } ] } 3 Exécutez la commande cluster expand pour appliquer la nouvelle configuration de cluster avec les groupes de nœuds développés. cluster expand --name cluster_name --specFile path_name/spec_file_name Si l'opération cluster expand échoue, l'état du cluster change et devient PROVISION_ERROR. Pour effectuer une récupération à partir de cette condition, vérifiez que la syntaxe utilisée dans le fichier de spécification du cluster est correcte, puis exécutez de nouveau la commande cluster expand pour résoudre cette défaillance. VMware, Inc. 79 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Suivant Vous pouvez vérifier que les groupes de nœuds ont bien été ajoutés au cluster à l'aide de la commande cluster list. Reportez-vous à « Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti », page 85. Récupérer d'une défaillance disque avec le client d'interface de ligne de commande Serengeti Dans le cas d'une défaillance de disque dans un cluster, si le disque ne joue aucun rôle de gestion tel que NameNode, JobTracker, ResourceManager, HMaster ou ZooKeeper, vous pouvez récupérer à l'aide la commande Serengeti cluster fix. Big Data Extensions utilise un grand nombre de lecteurs de disque pour le stockage des données (configurés en tant que JBOD). En cas de défaillance de plusieurs disques, le nœud de données Hadoop peut s'éteindre. Big Data Extensions vous permet de récupérer des défaillances de disque. Serengeti prend en charge la récupération après un échange ou une défaillance de disque sur toutes les distributions Hadoop prises en charge. Les disques sont récupérés et démarrés l'un après l'autre pour éviter la perte temporaire de plusieurs nœuds à la fois. Les nouveaux disques correspondent au type de stockage et aux stratégies de placement des disques défaillants qu'ils remplacent. La distribution MapR ne prend pas en charge la récupération d'une défaillance de disque à l'aide de la commande cluster fix. IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds du cluster, le mot de passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous avez défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur pour le cluster lorsque vous avez créé le cluster, de nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commande cluster fix. Le paramètre nodeGroup est facultatif. cluster fix --name cluster_name --disk [--nodeGroup nodegroup_name] Effectuer la récupération d'une machine virtuelle de nœud de cluster Vous pouvez récupérer des machines virtuelles de nœud de cluster qui ont été dissociées de leur identifiant d'objet géré (MOID) ou de leur pool de ressources et de leur nom de machine virtuelle. Dans de rares situations, l'identifiant d'objet géré (MOID) d'une machine virtuelle de nœud de cluster peut changer. Cela peut se produire lorsqu'un hôte plante et se réenregistre sur vCenter Server. Lorsque BDE ne parvient pas à localiser une machine virtuelle de nœud dans vCenter Server par son MOID, l'application essaie d'abord de localiser le nœud par son pool de ressources et son nom de machine virtuelle. Si cela s'avère impossible, vous pouvez récupérer la machine virtuelle de nœud de cluster à l'aide de la commande cluster recover. Procédure 1 80 Accédez à l'Serengeti CLI. VMware, Inc. Chapitre 6 Gestion des clusters Hadoop et HBase 2 Exécutez la commande cluster recover pour mettre à jour le cluster et récupérer la machine virtuelle de nœud de cluster. cluster recover Suivant Vous pouvez vérifier que la machine virtuelle de nœud de cluster a été récupérée avec succès. Passer en mode maintenance pour effectuer la sauvegarde et la restauration à l'aide du client d'interface de ligne de commande Serengeti Avant d'effectuer les opérations de sauvegarde et de restauration, ou d'autres tâches de maintenance, vous devez placer Big Data Extensions en mode maintenance. Prérequis n Déployez le vApp Serengeti. n Assurez-vous d'avoir les ressources adéquates allouées exécuter le cluster Hadoop. n Pour utiliser une distribution Hadoop autre que la distribution par défaut, ajoutez une ou plusieurs distributions Hadoop. Consultez le Guide de l'utilisateur et de l'administrateur VMware vSphere Big Data Extensions. Procédure 1 Connectez-vous à Serengeti Management Server. 2 Exécutez le script /opt/serengeti/sbin/serengeti-maintenance.sh pour placer Big Data Extensions en mode maintenance ou vérifier l'état de maintenance. serengeti-maintenance.sh on | off | status Option Description activé Active le mode maintenance. Lorsque vous entrez en mode maintenance, Big Data Extensions continue à exécuter les tâches déjà commencées, mais ne répond pas aux nouvelles requêtes. désactivé Désactive le mode maintenance et remet Big Data Extensions dans son état de fonctionnement normal. Statut Affiche l'état de maintenance de Big Data Extensions. n L'état sécurisé indique que les opérations de sauvegarde et les autres tâches de maintenance peuvent être effectuées en toute sécurité dans votre déploiement Big Data Extensions. n L'état désactivé indique que le mode maintenance a été désactivé et que les tâches de maintenance telles que la sauvegarde et la restauration ne peuvent pas être effectuées en toute sécurité. n L'état activé signifie que Big Data Extensions est entré en mode maintenance, mais que les opérations de sauvegarde et de restauration ne peuvent pas encore être effectuées en toute sécurité. Vous devez attendre que le système renvoie le message d'état sécurisé. Pour placer votre déploiement Big Data Extensions en mode maintenance, exécutez le script serengetimaintenance.sh avec l'option on. serengeti-maintenance.sh on VMware, Inc. 81 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 3 Vérifiez que Big Data Extensions est en mode maintenance. Lorsque Big Data Extensions a terminé toutes les tâches qui ont été envoyées, l'état de maintenance entre en mode sécurisé. Exécutez le script serengeti-maintenance.sh avec le paramètre status de manière répétée jusqu'à obtenir le message d'état du système sécurisé. serengeti-maintenance.sh status safe 4 Effectuez les tâches de maintenance système souhaitées. 5 Une fois que vous avez terminé, faites repasser Big Data Extensions à son état de fonctionnement normal en quittant manuellement le mode maintenance. serengeti-maintenance.sh off 82 VMware, Inc. Surveillance de l'environnement Big Data Extensions 7 Vous pouvez surveiller l'état des clusters déployés sur Serengeti, y compris leurs banques de données, leurs réseaux et leurs pools de ressources à l'aide de l'interface de ligne de commande Serengeti. Vous pouvez également afficher la liste des distributions Hadoop disponibles. Des fonctions de surveillance sont également disponibles dans vSphere Web Client. Ce chapitre aborde les rubriques suivantes : n « Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti », page 83 n « Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti », page 84 n « Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti », page 84 n « Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti », page 84 n « Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti », page 85 n « Afficher les banques de données avec l'interface de ligne de commande Serengeti », page 85 n « Afficher les réseaux avec l'interface de ligne de commande Serengeti », page 86 n « Afficher les pools de ressources avec l'interface de ligne de commandeSerengeti », page 86 Afficher la liste des gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser la commande appManager list pour afficher les gestionnaires d'applications qui sont installés sur l'environnement Big Data Extensions. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list La commande retourne la liste de tous les gestionnaires d'applications installés sur l'environnement Big Data Extensions. VMware, Inc. 83 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Afficher les distributions Hadoop disponibles avec l'interface de ligne de commande Serengeti Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous utilisez la commande distro list pour afficher la liste des distributions Hadoop disponibles dans votre déploiement Serengeti. Lorsque vous créez des clusters, vous pouvez utiliser toute distribution Hadoop disponible. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande distro list. Les distributions Hadoop disponibles sont affichées, ainsi que leurs packages. Suivant Avant d'utiliser une distribution, vérifiez qu'elle inclut les services que vous voulez déployer. S'il manque des services, ajoutez les packages appropriés à la distribution. Afficher les distributions prises en charge pour tous les gestionnaires d'applications à l'aide de l'interface de ligne de commande Serengeti Les distributions prises en charge sont celles qui le sont par Big Data Extensions. Les distributions disponibles sont celles qui ont été ajoutées à votre environnement Big Data Extensions. Vous pouvez afficher la liste des distributions Hadoop qui sont prises en charge dans l'environnement Big Data Extensions pour déterminer si une distribution particulière est disponible pour un gestionnaire d'applications particulier. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list --name application_manager_name [--distros] Si vous n'incluez pas le paramètre --name, la commande retourne la liste de toutes les distributions Hadoop qui sont prises en charge sur chacun des gestionnaires d'applications de l'environnement Big Data Extensions. La commande retourne la liste de toutes les distributions qui sont prises en charge pour le gestionnaire d'applications du nom que vous spécifiez. Afficher les configurations ou les rôles pour le gestionnaire d'applications et la distribution à l'aide de l'interface de ligne de commande Serengeti Vous pouvez utiliser la commande appManager list pour afficher les rôles ou les configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifiques. La liste des configurations inclut ces configurations que vous pouvez utiliser pour configurer le cluster dans les spécifications de cluster. 84 VMware, Inc. Chapitre 7 Surveillance de l'environnement Big Data Extensions La liste des rôles contient les rôles que vous pouvez utiliser pour créer un cluster. Vous ne devez pas utiliser de rôles non pris en charge pour créer des clusters dans le gestionnaire d'applications. Prérequis Vérifiez que vous êtes connecté à un gestionnaire d'applications. Procédure 1 Accédez à l'interface de ligne de commande Serengeti. 2 Exécutez la commande appmanager list. appmanager list --name application_manager_name [--distro distro_name (--configurations | --roles) ] La commande retourne une liste des rôles ou configurations Hadoop d'une distribution et d'un gestionnaire d'applications spécifique. Afficher les clusters provisionnés avec l'interface de ligne de commande Serengeti À partir de l'Serengeti CLI, vous pouvez afficher les clusters provisionnés qui sont dans le déploiement Serengeti. Procédure 1 Accédez à l'Serengeti CLI. 2 Exécutez la commande cluster list. cluster list Cet exemple affiche un cluster spécifique en incluant le paramètre --name. cluster list --name cluster_name Cet exemple affiche des informations détaillées sur un cluster spécifique en incluant les paramètres -name et --detail. cluster list --name cluster_name –-detail Afficher les banques de données avec l'interface de ligne de commande Serengeti À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les banques de données qui sont dans le déploiement Serengeti. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commande datastore list. Cet exemple affiche les informations détaillées en incluant le paramètre --detail. datastore list --detail Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les paramètres --name et --detail. datastore list --name datastore_name --detail VMware, Inc. 85 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Afficher les réseaux avec l'interface de ligne de commande Serengeti À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les réseaux qui sont dans le déploiement Serengeti. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commande network list. Cet exemple affiche les informations détaillées en incluant le paramètre --detail. network list --detail Cet exemple affiche des informations détaillées sur un réseau spécifique en incluant les paramètres -name et --detail. network list --name network_name --detail Afficher les pools de ressources avec l'interface de ligne de commande Serengeti À partir de l'interface de ligne de commande Serengeti, vous pouvez afficher les pools de ressources qui sont dans le déploiement Serengeti. Procédure 1 Accédez à l'interface de ligne de commandeSerengeti. 2 Exécutez la commande resourcepool list. Cet exemple affiche les informations détaillées en incluant le paramètre --detail. resourcepool list --detail Cet exemple affiche des informations détaillées sur une banque de données spécifique en incluant les paramètres --name et --detail. resourcepool list --name resourcepool_name –-detail 86 VMware, Inc. Référence de spécification de cluster 8 Pour personnaliser vos clusters, vous devez savoir utiliser les fichiers de spécification de cluster Serengeti et définir les prérequis de cluster avec les différents attributs et objets. Après avoir créé vos fichiers de configuration, vous pouvez les convertir au format de fichier JSON. Ce chapitre aborde les rubriques suivantes : n « Conditions requises de fichier de spécification de cluster », page 87 n « Conditions requises de la définition de cluster », page 88 n « Fichier de spécification de cluster annoté », page 88 n « Définitions des attributs de spécification de cluster », page 91 n « Attributs Hadoop de la liste blanche et de la liste noire », page 94 n « Convertir les fichiers XML Hadoop en Serengetifichiers JSON », page 96 Conditions requises de fichier de spécification de cluster Un fichier de spécification de cluster est un fichier texte avec les attributs de configuration fournis dans une structure au format JSON. Les fichiers de spécification de cluster doivent respecter les prérequis relatifs à la syntaxe, à l'utilisation des guillemets et aux commentaires. n Pour analyser les fichiers de spécification de cluster, Serengeti utilise le processeur JSON Jackson. Pour les obligations syntaxiques, telles que la stratégie de troncation des types « float », consultez la page wiki « Jackson JSON Processor ». n Encadrez toujours les valeurs numériques par des guillemets. Par exemple : "mapred.tasktracker.reduce.tasks.maximum" : "2" Les guillemets garantissent que les entiers sont correctement interprétés au lieu d'être convertis en nombres à virgule flottante double précision, ce qui peut entraîner des conséquences inattendues. n VMware, Inc. Vous ne pouvez inclure que des commentaires d'une seule ligne en utilisant le symbole dièse (#) pour identifier le commentaire. 87 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Conditions requises de la définition de cluster Les fichiers de spécification de cluster contiennent les définitions de configuration des clusters, telles que leurs rôles et groupes de nœuds. Les définitions de cluster doivent adhérer aux conditions requises relatives aux rôles de groupe de nœuds, aux rôles de cluster et aux nombres d'instance. Une définition de cluster obéit aux conditions requises suivantes : n Les rôles de groupe de nœuds ne peuvent pas être vides. Vous pouvez déterminer les noms de rôle valides pour votre distribution Hadoop à l'aide de la commande distro list. n Les rôles hadoop_namenode et hadoop_jobtracker doivent être configurés dans un seul groupe de nœuds. Dans les clusters Hadoop 2.0, tels que CDH4 ou Pivotal HD, le nombre d'instances peut être n supérieur à 1 pour créer un cluster HDFS HA ou Federation. n n Sinon, le nombre total d'instances doit être égal à 1. Les nombres d'instances de groupe de nœuds doivent être des nombres positifs. Fichier de spécification de cluster annoté Le fichier de spécification de cluster Serengeti définit les différents nœuds Hadoop et HBase ainsi que leurs ressources à utiliser par le cluster Big Data. Vous pouvez utiliser ce fichier de spécification de cluster annoté ainsi que les fichiers exemples du dossier /opt/serengeti/samples comme modèles à émuler lorsque vous créez vos clusters Big Data. Le code suivant est celui d'un fichier de spécification de cluster classique. Pour les annotations du code, consultez Tableau 8-1. 1 { 2 "nodeGroups" : [ 3 { 4 "name": "master", 5 "roles": [ 6 "hadoop_namenode", 7 "hadoop_resourcemanager" 8 ], 9 "instanceNum": 1, 10 "instanceType": "LARGE", 11 "cpuNum": 2, 12 "memCapacityMB":4096, 13 "storage": { 14 "type": "SHARED", 15 "sizeGB": 20 16 17 18 19 20 21 22 23 24 25 26 27 28 88 }, "haFlag":"on", "rpNames": [ "rp1" ] }, { "name": "data", "roles": [ "hadoop_datanode" ], "instanceNum": 3, "instanceType": "MEDIUM", VMware, Inc. Chapitre 8 Référence de spécification de cluster 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 VMware, Inc. "cpuNum": 2, "memCapacityMB":2048, "storage": { "type": "LOCAL", "sizeGB": 50, "dsNames4Data": ["DSLOCALSSD"], "dsNames4System": ["DSNDFS"] } "placementPolicies": { "instancePerHost": 1, "groupRacks": { "type": "ROUNDROBIN", "racks": ["rack1", "rack2", "rack3"] } } }, { "name": "compute", "roles": [ "hadoop_nodemanger" ], "instanceNum": 6, "instanceType": "SMALL", "cpuNum": 2, "memCapacityMB":2048, "storage": { "type": "LOCAL", "sizeGB": 10 } "placementPolicies": { "instancePerHost": 2, "groupAssociations": [{ "reference": "data", "type": "STRICT" }] } }, { "name": "client", "roles": [ "hadoop_client", "hive", "hive_server", "pig" ], "instanceNum": 1, "instanceType": "SMALL", "memCapacityMB": 2048, "storage": { "type": "LOCAL", "sizeGB": 10, "dsNames": [“ds1”, “ds2”] } } 89 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 83 ], 84 "configuration": { 85 } 86 } Les éléments de définition de cluster sont spécifiés dans la table. Tableau 8‑1. Exemple d'annotation de spécification de cluster 90 Ligne(s) Attribut Valeur d'exemple Description 4 nom maître Nom du groupe de nœuds. 5-8 rôle hadoop_namenode, hadoop_jobtracker Rôle du groupe de nœuds. hadoop_namenode et hadoop_jobtracker sont déployés sur la machine virtuelle du groupe de nœuds. 9 instanceNum 1 Nombre d'instances du groupe de nœuds. Une seule machine virtuelle est créée pour le groupe. n Il est possible d'avoir plusieurs instances de hadoop_tasktracker, hadoop_datanode, hadoop_client, pig et hive. n Pour les clusters HDFS1, vous ne pouvez avoir qu'une seule instance de hadoop_namenode et hadoop_jobtracker. n Pour les clusters HDFS2, vous pouvez avoir deux instances hadoop_namenode. n Avec une distribution MapR, vous pouvez configurer plusieurs instances de hadoop_jobtracker. 10 instanceType GRANDE Type d'instance de groupe de nœuds. Les types d'instance sont des spécifications de machine virtuelle prédéfinies : elles correspondent à une combinaison du nombre de CPU, de la taille de la RAM et de la taille du stockage. Les valeurs prédéfinies peuvent être remplacées par le cpuNum, la memCapacityMB et les attributs de stockage du fichier de spécification du serveur Serengeti. 11 cpuNum 2 Nombre de CPU par machine virtuelle. Cet attribut remplace le nombre de CPU virtuels de la spécification de machine virtuelle prédéfinie. 12 memCapacityMB 4096 Taille de la RAM, en Mo, par machine virtuelle. Cet attribut remplace la taille de la RAM de la spécification de machine virtuelle prédéfinie. 13-16 stockage Voir les lignes 14-15 des attributs de stockage d'un groupe Configuration requise pour le stockage d'un nœud de groupes. 14 type PARTAGÉ Type de stockage. Le groupe de nœuds est déployé à l'aide d'un stockage partagé uniquement. 15 sizeGB 20 Taille du stockage. Chaque nœud du groupe de nœuds est déployé avec 20 Go d'espace disque disponible. 17 haFlag activé Protection HA du groupe de nœuds. Le groupe de nœuds est déployé avec la protection HA vSphere. VMware, Inc. Chapitre 8 Référence de spécification de cluster Tableau 8‑1. Exemple d'annotation de spécification de cluster (suite) Ligne(s) Attribut Valeur d'exemple Description 18-20 rpNames rp1 Pools de ressources sous lesquels les machines virtuelles du groupe de nœuds sont déployées. Ces pools peuvent être un tableau de valeurs. 22-36 Définition du groupe de nœuds pour le nœud de données 37-44 placementPolicies 45-57 Définition du groupe de nœuds pour le nœud de calcul 58-65 placementPolicies 66-82 Définition du groupe de nœuds pour le nœud client 83-86 configuration Voir les lignes 3-21, qui définissent les mêmes attributs pour le nœud master. Sur les lignes 34-35, les disques de données sont placés sur les banques de données dsNames4Data et les disques système sur les banques de données dsNames4System. Voir l'exemple de code Contraintes de la stratégie d'emplacement du groupe de nœuds de données. Vous avez besoin d'au moins trois hôtes ESXi, car il y a trois instances et chaque instance doit impérativement se trouver sur son propre hôte. Le groupe est provisionné sur les hôtes sur les racks 1, 2 et 3 à l'aide d'un algorithme ROUNDROBIN. Voir les lignes 4-16, qui définissent les mêmes attributs pour le nœud master. Voir l'exemple de code Contraintes de la stratégie d'emplacement du groupe de nœuds de calcul. Vous avez besoin d'au moins trois hôtes ESXi pour satisfaire aux exigences de l'instance. Le groupe de nœuds de calcul fait référence à un groupe de nœuds de données via un type STRICT. Les deux instances de calcul utilisent une instance de données sur l'hôte ESXi. L'association STRICT offre les meilleures performances. Voir les définitions de groupe de nœuds précédentes. Vide dans l'exemple de code Personnalisation de la configuration Hadoop. Définitions des attributs de spécification de cluster Les définitions des clusters incluent les attributs pour le cluster lui-même et pour chacun des groupes de nœuds. Attributs extérieurs de spécification de cluster Les attributs extérieurs de spécification de cluster s'appliquent au cluster comme un tout. Tableau 8‑2. Attributs extérieurs de spécification de cluster Attribut Type Obligatoire/facultatif Description nodeGroups objet Obligatoire Une ou plusieurs spécifications de groupe. Voir Tableau 8-3. configuration objet Facultatif Paires clé/valeur de la configuration Hadoop personnalisable. externalHDFS string Facultatif Valide seulement pour les clusters de calcul uniquement. URI de HDFS externe. VMware, Inc. 91 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Attributs et objets de groupes de nœuds de spécification de cluster. Les attributs et objets de groupes de nœuds s'appliquent à un seul groupe de nœuds d'un cluster. Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster Attribut Type Obligatoire/facultatif Description nom string Obligatoire Nom du groupe de nœuds défini par l'utilisateur. rôles liste de chaînes Obligatoire Liste des services ou packages logiciels à installer sur la machine virtuelle. Les valeurs doivent correspondre aux rôles affichés par la commande distro list. instanceNum integer Obligatoire Nombre de machines virtuelles du groupe de nœuds : n Entier positif. n Généralement, vous pouvez avoir plusieurs instances pour hadoop_tasktracker, hadoop_datanode, hadoop_client, pig, et hive. n Pour les clusters HDFS1, vous ne pouvez avoir qu'une seule instance de hadoop_namenode et hadoop_jobtracker. n n instanceType string Facultatif Pour les clusters HDFS2, vous pouvez avoir deux instances hadoop_namenode. Avec une distribution MapR, vous pouvez configurer plusieurs instances de hadoop_jobtracker. Taille des machines virtuelles du groupe de nœuds, exprimée sous le nom d'un modèle de machine virtuelle prédéfini. Reportez-vous à la section Tableau 8-4. n PETITE n MOYENNNE n GRANDE n EXTRA_LARGE Si vous spécifiez les attributs cpuNum, memCapacityMB ou sizeGB, ils remplacent la valeur correspondante de votre modèle de machine virtuelle sélectionnée pour le groupe de nœuds applicable. 92 cpuNum integer Facultatif Nombre de CPU par machine virtuelle. Si la valeur de haFlag est FT, la valeur de cpuNum doit être égale à 1. memCapacityMB integer Facultatif Taille de la RAM, en Mo, par machine virtuelle. REMARQUE Lors de l'utilisation de MapR 3.1, vous devez spécifier un minimum de 5 120 Mo de capacité mémoire pour les nœuds zookeeper, worker et client. VMware, Inc. Chapitre 8 Référence de spécification de cluster Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster (suite) Attribut Type Obligatoire/facultatif Description swapRatio flottant Facultatif Définit le rapport entre la taille du disque de permutation du système d'exploitation et la taille de la mémoire. Par exemple, pour une mémoire de 4 Go (4 096 Mo) et une valeur swapRatio de 1; la taille du disque de permutation sera de 4 Go. En spécifiant une valeur swapRatio de 2, la taille du disque de permutation sera de 8 Go. Vous pouvez également spécifier une valeur flottante pour l'attribut swapRatio. En spécifiant une valeur de 0,5 avec une mémoire de 4 Go, la taille du disque de permutation sera de 2 Go. latencySensitivity string Facultatif Vous pouvez spécifier une valeur FAIBLE, NORMAL, MOYEN ou ÉLEVÉ pour le paramètre de sensibilité de latence de la machine virtuelle dans vCenter Server afin d'optimiser les performances du cluster. Lorsque vous déployez un cluster HBase, vous pouvez optimiser les performances HBase en définissant le paramètre latencySensitivity sur ÉLEVÉ. Vous devez alors définir le paramètre reservedMemRatio (voir ci-dessous) sur 1. reservedMemRatio integer Facultatif Vous pouvez spécifier 0 ou 1 pour définir la proportion de mémoire réservée. Lorsque vous déployez un cluster HBase, vous pouvez optimiser les performances HBase en définissant le paramètre sur 1. Vous devez alors définir le paramètre latencySensitivity (voir ci-dessus) sur ÉLEVÉ. reservedCpuRatio integer Facultatif Vous pouvez spécifier 0 ou 1 pour définir la proportion de CPU réservé. Stockage objet Facultatif Paramètres de stockage. type string Facultatif Type de stockage : n LOCAL. Pour le stockage local n PARTAGÉ. Pour le stockage partagé. sizeGB integer Facultatif Taille du stockage des données. Doit être un nombre entier positif diskNum integer Facultatif Spécifie le nombre de disques à utiliser pour chaque groupe de nœuds. dsNames liste de chaînes Facultatif Tableau de banques de données que le groupe de nœuds peut utiliser. dnNames4Data liste de chaînes Facultatif Tableau de banques de données que le groupe de nœuds de données peut utiliser. dsNames4System liste de chaînes Facultatif Tableau de banques de données que le système peut utiliser. rpNames liste de chaînes Facultatif Tableau de pools de ressources que le groupe de nœuds peut utiliser. VMware, Inc. 93 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Tableau 8‑3. Attributs et objets de groupes de nœuds de spécification de cluster (suite) Attribut Type Obligatoire/facultatif Description haFlag string Facultatif Par défaut, les nœuds NameNode et JobTracker sont protégés par vSphere HA. n activé. Protégez le nœud avec vSphere HA. n pieds. Protégez le nœud avec vSphere FT. n désactivée. N'utilisez pas vSphere HA ou vSphere FT. placementPolicies objet Facultatif Jusqu'à trois contraintes facultatives : instancePerHost n groupRacks n groupAssociations n Tailles des machines virtuelles prédéfinies Serengeti Serengeti fournit des tailles de machines virtuelles prédéfinies à utiliser pour définir la taille de machines virtuelles dans un groupe de nœuds de cluster. Tableau 8‑4. Tailles des machines virtuelles prédéfinies Serengeti PETITE MOYENNNE GRANDE EXTRA_LARGE Nombre de CPU par machine virtuelle 1 2 4 8 RAM, en Go 3,75 7,5 15 30 Taille du disque de données master Hadoop, en Go 25 50 100 200 Taille du disque de données worker Hadoop, en Go 50 100 200 400 Taille du disque de données client Hadoop, en Go 50 100 200 400 Taille du disque de données zookeeper, en Go 20 40 80 120 Attributs Hadoop de la liste blanche et de la liste noire Les attributs de la liste blanche sont les attributs Apache Hadoop que vous pouvez configurer depuisSerengeti avec la commande cluster config. La majorité des attributs Apache Hadoop sont sur la liste blanche. Cependant, il existe quelques attributs Apache Hadoop de la liste noire, que vous ne pouvez pas configurer depuis Serengeti. Si vous utilisez un attribut du fichier de spécification de cluster qui n'est ni un attribut sur liste blanche ni un attribut sur liste noire, et que vous exécutez la commande cluster config, un avertissement s'affiche et vous devez répondre oui pour continuer ou non pour annuler. Si votre cluster inclut un NameNode or JobTracker, Serengeti configure les attributs fs.default.name et dfs.http.address. Vous pouvez remplacer ces attributs en les définissant dans votre spécification de cluster. 94 VMware, Inc. Chapitre 8 Référence de spécification de cluster Tableau 8‑5. Liste blanche des attributs de configuration Fichier Attributs core-site.xml Tous les attributs de configuration core-default listés sur la page Web de la documentation Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/coredefault.html. Excluez les attributs définis dans la liste noire. hdfs-site.xml Tous les attributs de configuration hdfs-default listés sur la page Web de la documentation Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/hdfsdefault.html. Excluez les attributs définis dans la liste noire. mapred-site.xml Tous les attributs de configuration mapred-default listés sur la page Web de la documentation Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/mapreddefault.html. Excluez les attributs définis dans la liste noire. hadoop-env.sh JAVA_HOME PATH HADOOP_CLASSPATH HADOOP_HEAPSIZE HADOOP_NAMENODE_OPTS HADOOP_DATANODE_OPTS HADOOP_SECONDARYNAMENODE_OPTS HADOOP_JOBTRACKER_OPTS HADOOP_TASKTRACKER_OPTS HADOOP_LOG_DIR log4j.properties hadoop.root.logger hadoop.security.logger log4j.appender.DRFA.MaxBackupIndex log4j.appender.RFA.MaxBackupIndex log4j.appender.RFA.MaxFileSize fairscheduler.xml texte Tous les attributs de configuration fair_scheduler listés sur la page Web de la documentation Apache Hadoop 2.x qui peuvent être utilisés à l'intérieur du champ de texte. Par exemple, http://hadoop.apache.org/docs/branch_name/fair_scheduler.html. Excluez les attributs définis dans la liste noire. capacityscheduler.xml Tous les attributs de configuration capacity_scheduler listés sur la page Web de la documentation Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/capacity_scheduler.html. Excluez les attributs définis dans la liste noire. mapred-queueacls.xml Tous les attributs de configuration mapred-queue-acls listés sur la page Web Apache Hadoop 2.x. Par exemple, http://hadoop.apache.org/docs/branch_name/cluster_setup.html#Configuring+the +Hadoop+Daemons. Excluez les attributs définis dans la liste noire. VMware, Inc. 95 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Tableau 8‑6. Liste noire des attributs de configuration Fichier Attributs core-site.xml net.topology.impl net.topology.nodegroup.aware dfs.block.replicator.classname topology.script.file.name hdfs-site.xml dfs.http.address dfs.name.dir dfs.data.dir mapred-site.xml mapred.job.tracker mapred.local.dir mapred.task.cache.levels mapred.jobtracker.jobSchedulable mapred.jobtracker.nodegroup.aware hadoop-env.sh HADOOP_HOME HADOOP_COMMON_HOME HADOOP_MAPRED_HOME HADOOP_HDFS_HOME HADOOP_CONF_DIR HADOOP_PID_DIR log4j.properties Aucune fair-scheduler.xml Aucune capacity-scheduler.xml Aucune mapred-queue-acls.xml Aucune Convertir les fichiers XML Hadoop en Serengeti fichiers JSON Si vous avez défini un grand nombre d'attributs dans vos fichiers de configuration Hadoop, vous pouvez convertir ces informations de configuration au format JSON que Serengeti peut utiliser. Procédure 1 Copiez le répertoire $HADOOP_HOME/conf/ de votre cluster Hadoop vers le serveur de gestion Serengeti. 2 Ouvrez un shell de commande, tel que Bash ou PuTTY, connectez-vous au serveur de gestion Serengeti et exécutez le script de conversion Ruby convert-hadoop-conf.rb. convert-hadoop-conf.rb path_to_hadoop_conf Les attributs de configuration Hadoop convertis, au format JSON, s'affichent. 3 Ouvrez le fichier de spécification de cluster pour le modifier. 4 Remplacez la configuration de niveau cluster ou les éléments de configuration de niveau groupe par la sortie générée par le script de conversion Ruby convert-hadoop-conf.rb. Suivant Accédez à l'interface de ligne de commande Serengeti et utilisez le nouveau fichier de spécification. 96 n Pour appliquer la nouvelle configuration à un cluster, exécutez la commande cluster config. Incluez le paramètre --specFile et sa valeur : le nouveau fichier de spécification. n Pour créer un cluster avec la nouvelle configuration, exécutez la commande cluster create. Incluez le paramètre --specFile et sa valeur : le nouveau fichier de spécification. VMware, Inc. Référence des commandes de l'interface de ligne de commande Serengeti 9 Cette section fournit la description et la syntaxe requise de chaque commande de l'interface de ligne de commande Serengeti. Ce chapitre aborde les rubriques suivantes : n « Commandes appmanager », page 97 n « Commandes cluster », page 99 n « Commande connect », page 106 n « Commandes datastore », page 107 n « Commande disconnect », page 107 n « Commande distro list », page 108 n « Commandes mgmtvmcfg », page 108 n « Commandes network », page 109 n « Commandes resourcepool », page 110 n « Commandes template », page 111 n « Commandes topology », page 111 n « Commandes usermgmt », page 112 Commandes appmanager Les commandes appmanager {*} vous permettent d'ajouter des gestionnaires d'applications, de les supprimer et de les gérer. Commande appmanager add La commande appmanager add vous permet d'ajouter un gestionnaire d'applications autre que celui par défaut à votre environnement. Vous pouvez spécifier un gestionnaire d'applications Cloudera Manager ou Ambari. La commande appmanager add lit le nom d'utilisateur et le mot de passe en mode interactif. Si vous spécifiez https, la commande vous invite à saisir le chemin d'accès du certificat. Paramètre Obligatoire/facultatif Description --name application_manager_name Obligatoire Nom du gestionnaire d'applications --description description Facultatif VMware, Inc. 97 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Paramètre Obligatoire/facultatif Description --type [ClouderaManager/Ambari] Obligatoire Nom du type de gestionnaire d'applications à utiliser, Cloudera Manager ou Ambari --url <http[s]://server:port> Obligatoire URL du service du gestionnaire d'applications, sous la forme http[s]://application_manager_server_ip_or_hostname:port ; invite à la saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe. Commande appmanager delete Vous pouvez utiliser l'Serengeti CLI pour supprimer un gestionnaire d'applications lorsque vous n'en avez plus besoin. Le gestionnaire d'applications à supprimer ne doit pas contenir de clusters, sans quoi le processus échoue. appmanager delete --name application_manager_name Paramètre Obligatoire ou facultatif Description --name application_manager_name Obligatoire Nom du gestionnaire d'applications Commande appmanager modify Avec la commandeappmanager modify, vous pouvez modifier les informations d'un gestionnaire d'applications : par exemple, vous pouvez modifier l'adresse IP du serveur du gestionnaire s'il ne s'agit pas d'une adresse IP statique ou vous pouvez mettre à niveau le compte de l'administrateur. IMPORTANT Commettre une erreur lorsque vous modifiez un gestionnaire d'applications peut avoir de graves conséquences. Par exemple, vous modifiez l'URL de Cloudera Manager en l'URL d'un nouveau gestionnaire d'applications. Si vous créez des clusters Big Data Extensionsavec l'instance de l'ancien Cloudera Manager, il devient impossible de gérer le cluster Cloudera Manager précédent. De plus, le cluster Cloudera Manager n'est pas accessible à l'instance du nouveau gestionnaire d'applications. appmanager modify --name application_manager_name Obligatoire ou facultatif Description --name application_manager_name Obligatoire Nom du gestionnaire d'applications --url http[s]://server:port Facultatif URL du service du gestionnaire d'applications, sous la forme http[s]://application_manager_server_ip_or_hostname:port ; invite à la saisie d'une connexion, d'un nom d'utilisateur et d'un mot de passe. Vous pouvez utiliser http ou https. --changeAccount Facultatif Modifie le compte de connexion et le mot de passe du gestionnaire d'applications. --changeCertificate Facultatif Modifie le certificat SSL du gestionnaire d'applications. Ce paramètre ne s'applique qu'aux gestionnaires d'applications dont l'URL commence par https. Paramètre 98 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Commande appmanager list La commande appmanager list retourne une liste de tous les gestionnaires d'applications disponibles, y compris le gestionnaire d'applications par défaut. Paramètre Obligatoire/facultatif Description --name application_manager_name Facultatif Nom du gestionnaire d'applications. --distro distribution_name Facultatif Nom d'une distribution spécifique. Si vous n'incluez pas la variable distribution_name, la commande retourne toutes les distributions Hadoop prises en charge par le gestionnaire d'applications. --configurations | --roles Facultatif Rôles ou configurations Hadoop d'un gestionnaire d'applications et d'une distribution spécifiques. N'utilisez pas de rôles non pris en charge pour créer un cluster. Commandes cluster Les commandes cluster {*} vous permettent de vous connecter aux clusters, de créer et de supprimer des clusters, d'arrêter et de démarrer des clusters, et d'exécuter des opérations de gestion des clusters. Commande cluster config La commande cluster config vous permet de modifier la configuration d'un cluster Hadoop ou HBase existant, que le cluster soit configuré selon les valeurs Serengeti par défaut ou que vous ayez personnalisé le cluster. REMARQUE La commande cluster config ne peut être utilisée qu'avec les clusters créés à l'aide du gestionnaire d'applications par défaut. Pour ces clusters créés avec Ambari ou Cloudera Manager, toute modification de la configuration d'un cluster doit s'effectuer à partir du gestionnaire d'applications. De même, les nouveaux services et les nouvelles configurations modifiés dans le gestionnaire d'applications externe ne peuvent pas être synchronisés à partir de Big Data Extensions. Vous pouvez utiliser la commande cluster config avec la commande cluster export pour rétablir en mode normal les services de cluster et la configuration Hadoop originale dans les cas suivants : n Un service tel que NameNode, JobTracker, DataNode ou TaskTracker s'arrête. n Vous avez modifié manuellement la configuration Hadoop d'un ou de plusieurs nœuds d'un cluster. Exécutez la commande cluster export, puis la commande cluster config. Incluez le nouveau fichier de spécification de cluster que vous venez d'exporter. Si le cluster HDFS externe a été créé par Big Data Extensions, l'utilisateur doit se servir de la commande clusterconfig pour ajouter la topologie du cluster HBase au cluster HDFS. L'exemple suivant décrit le fichier de spécification à ajouter à la topologie : "configuration" : { "hadoop" : { "topology.data": { "text": "10.1.1.1 /rack4,10.2.2.2 /rack4" } } } Paramètre Obligatoire/facultatif Description --name cluster_name_in_Serengeti Obligatoire Nom du cluster Hadoop à configurer. --specFile spec_file_path Facultatif Nom de fichier de la spécification du cluster Hadoop VMware, Inc. 99 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Paramètre Obligatoire/facultatif Description --yes Facultatif Répondez O à la confirmation O/N. En cas de nonspécification, entrez manuellement o ou n. --skipConfigValidation Facultatif Ignorez la validation de la configuration du cluster. Commande cluster create Vous utilisez la commande cluster create pour créer un cluster Hadoop ou HBase. Si la spécification du cluster n'inclut pas les nœuds requis, par exemple un nœud master, le Serengeti Management Server crée le cluster conformément à la configuration de cluster par défaut que déploie le Serengeti Management Server. Paramètre Obligatoire ou facultatif Description --name cluster_name_in_Serengeti Obligatoire. Nom de cluster. --networkName management_network_name Obligatoire. Réseau à utiliser pour la gestion du trafic dans les clusters Hadoop. Si vous omettez l'un des paramètres réseau facultatifs, le trafic associé à ce paramètre est acheminé sur le réseau de gestion spécifié à l'aide du paramètre-networkName. --adminGroupName admin_group_name Facultatif Groupe administratif à utiliser pour ce cluster comme défini dans Active Directory ou LDAP. --userGroupNameuser_group_name Facultatif Groupe d'utilisateurs à utiliser pour ce cluster comme défini dans Active Directory ou LDAP. --appmanagerappmanager_name Facultatif. Nom d'un gestionnaire d'applications autre que le gestionnaire par défaut pour gérer vos clusters. --type cluster_type Facultatif. Type de cluster : n Hadoop (par défaut) n HBase --password Facultatif. Ne pas utiliser si vous utilisez le paramètre -resume. Mot de passe personnalisé pour tous les nœuds du cluster. Les mots de passe doivent contenir 8 à 20 caractères, utiliser uniquement des caractères ASCII inférieurs visibles (pas d'espaces) et comporter au moins une lettre majuscule (A - Z), une lettre minuscule (a - z), un chiffre (0 - 9) et l'un des caractères spéciaux suivants : _, @, #, $, %, ^, &, * --specFile spec_file_path Facultatif. Nom de fichier de la spécification du cluster. Pour les clusters de calcul uniquement, vous devez réviser le fichier de spécification pour qu'il pointe sur un HDFS externe. --distro Hadoop_distro_name Facultatif. Distribution Hadoop pour le cluster. --dsNames datastore_names Facultatif. Banque de données à utiliser pour déployer le cluster Hadoop dans Serengeti. Plusieurs banques de données peuvent être utilisées, séparées par une virgule. Par défaut, toutes les banques de données disponibles sont utilisées. Lorsque vous spécifiez le paramètre --dsNames, le cluster peut uniquement utiliser les banques de données que vous fournissez dans cette commande. 100 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Paramètre Obligatoire ou facultatif --hdfsNetworkName hdfs_network_name Facultatif. Réseau à utiliser pour le trafic HDFS dans les clusters Hadoop. --mapredNetworkName mapred_network_name Facultatif. Réseau à utiliser pour le trafic MapReduce dans les clusters Hadoop. --rpNames resource_pool_name Facultatif. Pool de ressources à utiliser pour les clusters Hadoop. Plusieurs pools de ressources peuvent être utilisés, séparés par une virgule. --resume Facultatif. Ne pas utiliser si vous utilisez le paramètre -password. Effectuez une récupération à partir d'un processus de déploiement ayant échoué. --topology topology_type Facultatif. Type de topologie pour la prise en charge des racks : HVE, RACK_AS_RACK ou HOST_AS_RACK. --yes Facultatif. Confirmation de poursuivre ou pas après un message d'erreur. Si les réponses ne sont pas spécifiées, vous pouvez taper o ou n. Description Si vous spécifiez o, la création du cluster se poursuit. Si vous ne spécifiez pas o, l'interface de ligne de commande présente l'invite suivante après avoir affiché ce message d'avertissement : Voulez-vous vraiment continuer (O/N) ? --skipConfigValidation Facultatif. Validation selon que la configuration du cluster est ignorée ou pas. --skipVcRefresh true Facultatif Lorsque vous effectuez des opérations de cluster dans un grand environnement vCenter Server, l'actualisation de l'arborescence peut prendre beaucoup de temps. Vous pouvez optimiser les performances de création ou de reprise de cluster à l'aide de ce paramètre. REMARQUE Si Serengeti Management Server partage l'environnement vCenter Server avec d'autres charges de travail, n'utilisez pas ce paramètre. Serengeti Management Server ne peut pas assurer de suivi de l'utilisation des ressources des charges de travail des autres produits, et doit dans ces circonstances actualiser l'arborescence. --localRepoURL Facultatif. Option pour créer un référentiel Yum local. --externalMapReduce FQDN_of_Jobtracker/ResourceManager:port Facultatif. Le numéro de port est facultatif. Commande cluster delete La commande cluster delete vous permet de supprimer un cluster dans Serengeti. Quand un cluster est supprimé, l'ensemble de ses machines virtuelles et pools de ressources l'est également. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster à supprimer --templatetemplate_name Facultatif Modèle à utiliser pour les clusters. S'il existe plus d'une machine virtuelle de modèle, vous devez spécifier ce paramètre. VMware, Inc. 101 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Commande cluster expand La commande cluster expand vous permet de développer et de mettre à jour les nœuds du cluster Big Data. Vous pouvez développer un cluster Big Data existant à l'aide de la commande cluster expand. Modifiez le fichier de spécification du cluster pour inclure les nœuds supplémentaires et les autres ressources disponibles, puis utilisez la commande cluster expand pour appliquer la configuration au cluster existant. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster à développer. --specFile spec_file_path Obligatoire Nom de fichier de la spécification du cluster. Commande cluster export La commande cluster export vous permet d'exporter les données de cluster. Selon les options et les paramètres que vous spécifiez, vous pouvez exporter les données de cluster vers un emplacement spécifique, mettre en forme le séparateur du fichier d'exportation, spécifier le type de données à exporter ou indiquer la valeur de la topologie. Vous pouvez utiliser l'une des commandes suivantes pour exporter le fichier de spécification de cluster. n cluster export --name cluster_name --specFile path_to_file L'utilisation du paramètre specfile avec la commande cluster export est obsolète dans Big Data Extensions 2.1. n cluster export --name cluster_name --type SPEC --output path_to_file Vous pouvez utiliser la commande cluster export pour afficher l'adresse IP sur la table de mappage RACK. Le format de la commande est ip rack. Le cluster HDFS externe peut utiliser la commande cluster export pour implémenter l'emplacement des données de cluster HBase et MapReduce. Vous pouvez utiliser la commande cluster export pour afficher l'adresse IP du réseau de gestion de tous les nœuds d'un cluster. Vous pouvez utiliser la commande cluster export pour afficher la table de mappage IP vers FQDN pour tous les nœuds d'un cluster. Vous pouvez choisir d'afficher la table de mappage sur le terminal ou de l'exporter dans un fichier. cluster export --name cluster_name --type IP2FQDN cluster export --name cluster_name --type IP2FQDN --output path_to_file 102 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Paramètre Obligatoire ou facultatif Description --name cluster_name Obligatoire Nom du cluster à exporter --type SPEC|RACK|IP|FQDN|IP2FQDN Facultatif Type des données à exporter. La valeur peut être l'un des éléments suivants : n SPEC, valeur par défaut, pour exporter un fichier de spécification. n RACK pour exporter la topologie rack de tous les nœuds n IP pour exporter l'adresse IP de tous les nœuds n FQDN pour exporter un mappage des adresses IP du nom de domaine complet du cluster de tous les nœuds n IP2FQDN pour exporter la table de mappage IP vers FQDN pour tous les nœuds d'un cluster --output path_to_output_file Facultatif Fichier de sortie dans lequel enregistrer les données exportées --specfile path_to_spec_file Facultatif Fichier de sortie dans lequel enregistrer la spécification de cluster. --topology [HOST_AS_RACK|RACK_AS_RACK|HVE|NONE] Facultatif Valeur de la topologie. La valeur par défaut est la topologie que vous avez spécifiée lorsque vous avez créé le cluster. --delimiter Facultatif Symbole ou chaîne pour séparer chaque ligne du résultat. La valeur par défaut est \n, ligne après ligne. Commande cluster fix La commande cluster fix permet d'effectuer une récupération à partir d'un disque défectueux. IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds, le mot de passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de récupération de disque. Si vous avez défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds. Tableau 9‑1. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster ayant un disque défectueux. --disk Requis Récupérer les disques des nœuds. --nodeGroup nodegroup_name Facultatif Exécutez l'analyse et la récupération uniquement sur le groupe de nœuds spécifié, et non sur tous les nœuds de gestion du cluster. VMware, Inc. 103 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Commande cluster list La commande cluster list vous permet d'afficher une liste des clusters provisionnés dans Serengeti. Vous pouvez voir les informations suivantes : nom, distribution, état et informations sur chaque groupe de nœuds. Les informations sur le groupe de nœuds se composent du nombre d'instances, du CPU, de la mémoire, du type et de la taille. Les gestionnaires d'applications surveillent les services et les fonctions de votre environnement Big Data Extensions. Big Data Extensions synchronise l'état des gestionnaires d'applications régulièrement. Vous pouvez utiliser la commande cluster list pour obtenir le dernier état de votre environnement. Si des avertissements sont affichés, vous pouvez contrôler les détails à partir de la console du gestionnaire d'applications. Tableau 9‑2. Paramètre Obligatoire/facultatif Description --name cluster_name_in_Serengeti Facultatif Nom du cluster à lister. --detail Facultatif Listez les détails du cluster, y compris le nom dans Serengeti, la distribution, l'état du déploiement, les informations de chaque nœud des différents rôles. Si vous spécifiez cette option, Serengeti interroge le vCenter Server pour obtenir le dernier état du nœud. Commande cluster resetParam La commande cluster resetParam vous permet de réinitialiser le niveau ioShares d'un cluster en restaurant ses valeurs par défaut. Tableau 9‑3. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster pour lequel réinitialiser les paramètres de mise à l'échelle. --ioShares Facultatif Réinitialisez sur NORMAL. Commande cluster resize La commande cluster resize vous permet de modifier le nombre de nœuds d'un groupe de nœuds ou de mettre à l'échelle la taille du CPU ou de la RAM de la machine virtuelle de montée en puissance ou de réduction de puissance d'un groupe de nœuds. Lors de la création de nouveaux nœuds, ceux-ci ont les mêmes services et configurations que les nœuds originaux. Lors de la suppression des nœuds, Serengeti Management Server autorise uniquement la suppression des rôles tasktracker et nodemanager. Vous devez spécifier au moins un paramètre facultatif. Si vous spécifiez le paramètre --instanceNum, vous ne pourrez spécifier ni le paramètre --cpuNumPerNode ni le paramètre --memCapacityMbPerNode. Vous pouvez spécifier en même temps les paramètres--cpuNumPerNode et --memCapacityMbPerNode pour mettre à l'échelle le CPU et la RAM à l'aide d'une seule commande. IMPORTANT Même si vous avez modifié le mot de passe utilisateur sur les nœuds, le mot de passe modifié n'est pas utilisé pour les nouveaux nœuds créés par l'opération de redimensionnement du cluster. Si vous avez défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, ce mot de passe est utilisé pour les nouveaux nœuds. Si vous n'avez pas défini le mot de passe initial de l'administrateur lorsque vous avez créé le cluster, les nouveaux mots de passe aléatoires sont utilisés pour les nouveaux nœuds. 104 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Cible le cluster Hadoop déployé par Serengeti Management Server. --nodeGroup name_of_the_node_group Obligatoire Cible le groupe de nœuds pour réduire/agrandir le cluster déployé par Serengeti Management Server. --instanceNum instance_number Facultatif Nouveau nombre d'instances vers lequel mettre à l'échelle. S'il est supérieur au nombre original, Serengeti Management Server crée des nœuds dans le groupe de nœuds cible. S'il est inférieur au nombre original, Serengeti Management Server supprime des nœuds dans le groupe de nœuds cible. Si l'opération de redimensionnement du cluster échoue, vous pouvez utiliser à nouveau le nombre d'instances cibles pour réessayer l'opération de redimensionnement du cluster. --cpuNumPerNode num_of_vCPUs Facultatif Nombre de CPU virtuels d'une machine virtuelle d'un groupe de nœuds cible. --force Facultatif Lorsque vous réduisez/agrandissez un cluster, vous pouvez régler les défaillances matérielles ou logicielles à l'aide du paramètre --force. L'application de ce paramètre permet la poursuite de l'opération de redimensionnement du cluster sans blocage dû à des défaillances limitées de la machine virtuelle. --memCapacityMbPerNode size_in_MB Facultatif Taille mémoire, en Mo, de chaque machine virtuelle d'un groupe de nœuds cible. --skipVcRefresh true Facultatif Lorsque vous effectuez des opérations de cluster dans un grand environnement vCenter Server, l'actualisation de l'arborescence peut prendre beaucoup de temps. Vous pouvez optimiser les performances de redimensionnement de cluster à l'aide de ce paramètre. REMARQUE Si Serengeti Management Server partage l'environnement vCenter Server avec d'autres charges de travail, n'utilisez pas ce paramètre. Serengeti Management Server ne peut pas assurer de suivi de l'utilisation des ressources des charges de travail des autres produits, et doit dans ces circonstances actualiser l'arborescence. Commande cluster setParam La commande cluster setParam command vous permet de définir la priorité ioShares d'un cluster Hadoop dans Serengeti. Vous devez spécifier au moins un paramètre facultatif. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster pour lequel définir les paramètres d'élasticité. --ioShares level Facultatif Niveau d'accès prioritaire : FAIBLE, NORMAL ou ÉLEVÉ. Commande cluster start La commande cluster start vous permet de démarrer un cluster dans Serengeti. Tableau 9‑4. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster à démarrer. --force Facultatif Lorsque vous démarrez un cluster, vous pouvez régler les défaillances matérielles ou logicielles à l'aide du paramètre --force. L'application de ce paramètre permet la poursuite de l'opération de démarrage du cluster sans blocage dû à des défaillances limitées de la machine virtuelle. VMware, Inc. 105 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Commande cluster stop La commande cluster stop vous permet d'arrêter un cluster dans Serengeti. Tableau 9‑5. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster à arrêter. Commande cluster update La commande cluster update vous permet de développer et de mettre à jour les pools de ressources et les banques de données disponibles pour votre environnement Big Data Extensions. Tableau 9‑6. Paramètre Obligatoire/facultatif Description --name cluster_name Obligatoire Nom du cluster à mettre à jour. --rpNamesresource_pool_nameOptional Facultatif Pools de ressources à utiliser avec les clusters Hadoop. Vous pouvez spécifier plusieurs pools de ressources en séparant le nom de chacun par une virgule. Les pools de ressources que vous spécifiez peuvent inclure des pools de ressources déjà utilisés par le cluster. --dsName datastore_names Facultatif Banques de données à utiliser avec les clusters Hadoop. Vous pouvez spécifier plusieurs banques de données en séparant le nom de chacune par une virgule. Les banques de données que vous spécifiez peuvent inclure des banques de données déjà utilisées par le cluster. --append Facultatif Ce paramètre permet d'ajouter les nouveaux pools de ressources et les nouvelles banques de données que vous souhaitez ajouter à votre environnement aux ressources déjà existantes. Cela ne remplace pas vos ressources existantes. --yes Facultatif Vous pouvez confirmer ou non la poursuite de l'action spécifiée suite à un message d'erreur. Si les réponses ne sont pas spécifiées, vous pouvez saisir O ou N. Si vous spécifiez O, la création du cluster se poursuit. Si vous ne spécifiez pas O, l'interface de ligne de commande présente l'invite de commande suivante après avoir affiché le message d'avertissement : Are you sure you want to continue (Y/N)? Commande connect La commande connect vous permet de vous connecter à un serveur Serengeti distant. La commande connect lit le nom d'utilisateur et le mot de passe en mode interactif. Vous devez exécuter la commande connect chaque fois que vous commencez une session d'interface de ligne de commande Serengeti, puis de nouveau après le délai d'expiration de 30 minutes. Si vous n'exécutez pas cette commande, vous ne pourrez pas exécuter d'autres commandes. 106 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Tableau 9‑7. Paramètre Obligatoire/facultatif Description --host Obligatoire URL du service Web Serengeti, sous la forme serengeti_management_server_ip_or_host :port. Par défaut, le service Web Serengeti est démarré sur le port 8443. Commandes datastore La commande datastore {*} vous permet d'ajouter et de supprimer des banques de données, ainsi que d'afficher la liste des banques de données d'un déploiement Serengeti. Commande datastore add La commande datastore add vous permet d'ajouter une banque de données à Serengeti. Tableau 9‑8. Paramètre Obligatoire/facultatif Description --name datastore_name_in_Serengeti Obligatoire Nom de la banque de données dans Serengeti. --spec datastore_name_in_vCenter_Server Obligatoire Nom de la banque de données dans vSphere. Vous pouvez utiliser un caractère générique pour spécifier plusieurs banques vmfs. Les caractères génériques pris en charge sont * et ?. --type {LOCAL|PARTAGÉ} Facultatif (Par défaut = PARTAGÉ) Type de la banque de données : LOCAL ou PARTAGÉ. Commande datastore delete La commande datastore delete vous permet de supprimer une banque de données de Serengeti. Tableau 9‑9. Paramètre Obligatoire/facultatif Description --name datastore_name_in_Serengeti Obligatoire Nom de la banque de données à supprimer. Commande datastore list La commande datastore list vous permet d'afficher une liste des banques de données dans Serengeti. Si vous ne spécifiez pas un nom de banque de données, toutes les banques de données sont affichées. Tableau 9‑10. Paramètre Obligatoire/facultatif Description --name Name_of_datastore_name_in_Serengeti Facultatif Nom de la banque de données à afficher. --detail Facultatif Affichez les détails de la banque de données, y compris le chemin d'accès de la banque de données dans vSphere. Commande disconnect La commande disconnect vous permet de vous déconnecter d'un serveur Serengeti distant. Après vous être déconnecté du serveur, vous ne pouvez pas exécuter de commandes Serengeti tant que vous ne vous reconnectez pas avec la commande connect. Il n'y a aucun paramètre de commande. VMware, Inc. 107 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Commande distro list La commande distro list vous permet d'afficher la liste des rôles d'une distribution Hadoop. Tableau 9‑11. Paramètre Obligatoire/facultatif Description --name distro_name Facultatif Nom de la distribution à afficher. Commandes mgmtvmcfg Les commandes mgmtvmcfg vous permettent d'afficher vos paramètres de configuration LDAP actuels et de modifier le mode de gestion des comptes d'utilisateur. Commande mgmtvmcfg get Vous pouvez afficher la configuration LDAP actuelle à l'aide de la commande mgmtvmcfg get. La commande mgmtvmcfg get permet d'afficher les paramètres de configuration LDAP actuels utilisés dans votre environnement Big Data Extensions. mgmtvmcfg get Tableau 9‑12. Informations de connexion LDAP type Le service d'authentification utilisateur externe à utiliser (soit AD_AS_LDAP soit LDAP). baseUserDn Le DN utilisateur de base. baseGroupDn Le DN groupe de base. primaryUrl L'URL du serveur principal de votre serveur Active Directory ou LDAP. mgmtVMUserGroupDn (Facultatif) Le DN de base pour rechercher les groupes afin d'accéder au Serengeti Management Server. userName Le nom d'utilisateur du compte d'administrateur du serveur Active Directory ou LDAP. password Le mot de passe du compte d'administrateur du serveur Active Directory ou LDAP. Commande mgmtvmcfg modify La commande mgmtvmcfg modify vous permet de spécifier différents modes de gestion des comptes d'utilisateurs. Vous pouvez choisir d'utiliser la gestion des utilisateurs locaux, LDAP ou les deux. Vous pouvez utiliser l'un des trois modes d'authentification utilisateur suivants : LOCAL, LDAP ou MIXED. n Spécifiez MIXED pour utiliser une combinaison des utilisateurs locaux et de ceux stockés dans une source d'identité externe. Si vous choisissez ce mode, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory. mgmtvmcfg modify --usermgmtmode MIXED n Spécifiez LDAP pour créer et gérer les utilisateurs et les groupes stockés dans la source d'identité de votre entreprise telle qu'Active Directory en tant que LDAP ou LDAP. Si vous choisissez LDAP, vous devez configurer Big Data Extensions pour qu'il utilise un service LDAP ou Active Directory. mgmtvmcfg modify --usermgmtmode LDAP 108 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti n Spécifiez LOCAL pour créer et gérer les utilisateurs et les groupes stockés localement dans votre environnement Big Data Extensions. LOCAL est la solution de gestion des utilisateurs par défaut lorsqu'aucun service Active Directory ou LDAP n'est disponible. mgmtvmcfg modify --usermgmtmode LOCAL Paramètre Obligatoire ou facultatif Description --usermgmtmode LOCAL | LDAP | MIXED Facultatif Spécifiez l'un des modes de gestion des utilisateurs : LOCAL, MIXED ou LDAP. Commandes network Les commandes network {*} vous permettent de gérer vos réseaux. Commande network add La commande network add vous permet d'ajouter un réseau à Serengetide sorte que les adresses IP du réseau soient accessibles aux clusters que vous créez. REMARQUE Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant d'ajouter le réseau. Cet exemple ajoute un réseau avec des adresses IP assignées de façon statique. network add --name ipNetwork --ip 192.168.1.1-100,192.168.1.120-180 --portGroup pg1 --dns 202.112.0.1 --gateway 192.168.1.255 --mask 255.255.255.1 Cet exemple ajoute un réseau avec des adresses IP assignées par DHCP. network add --name dhcpNetwork --dhcp --portGroup pg1 Cet exemple ajoute un réseau dynamique avec des adresses IP attribuées par DHCP et génère des noms d'hôte significatifs pour les nœuds d'un cluster Hadoop. network add --name ddnsNetwork --dhcp --portGroup pg1 --dnsType DYNAMIC Spécifiez le paramètre --dhcp pour les adresses dynamiques ou la combinaisons des paramètres requis pour les adresses statiques, mais pas les paramètres des adresses dynamiques et statiques. Tableau 9‑13. Paramètre Obligatoire/facultatif Description --name network_name_in_Serengeti Obligatoire Nom de la ressource réseau à ajouter. --portGroup port_group_name_in_vSphere Obligatoire Nom du groupe de ports de vSphere à ajouter. --dhcp Obligatoire pour les adresses dynamiques. Ne pas utiliser pour les adresses statiques. Attribuez les adresses IP DHCP dynamiques. --ip IP_range Obligatoire pour les adresses statiques. Ne pas utiliser pour les adresses dynamiques. Attribuez les adresses IP statiques. Exprimez IP_range dans le format xx.xx.xx.xx-xx[,xx]*. Exprimez les adresses IP dans le format xx.xx.xx.xx. Facultatif Les valeurs possibles incluent NORMAL, DYNAMIC et OTHERS. La valeur par défaut est NORMAL.. --dns dns_server_ip_addr --secondDNS dns_server_ip_addr --gateway gateway_IP_addr --mask network_IP_addr_mask --dnsType VMware, Inc. 109 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Commande network delete La commande network delete vous permet de supprimer un réseau de Serengeti. La suppression d'un réseau non utilisé libère les adresses IP du réseau pour qu'elles soient utilisées par d'autres services. Paramètre Obligatoire/facultatif Description --namenetwork_name_in_Serengeti Obligatoire Supprimez le réseau spécifié dans Serengeti. Commande network list La commande network list vous permet d'afficher la liste des réseaux disponibles dans Serengeti. Les nom, groupe de ports dans vSphere, type d'attribution d'adresse IP, adresse IP attribuée, etc., apparaissent. Paramètre Obligatoire/facultatif Description --name network_name_in_Serengeti Facultatif Nom du réseau à afficher. --detail Facultatif Affichez les détails du réseau. Commande network modify La commande network modify vous permet de reconfigurer un réseau IP statique Serengeti en lui ajoutant des segments d'adresse IP. Il se peut que vous ayez besoin d'ajouter des segments d'adresse IP de telle sorte qu'il y ait assez de capacité pour le cluster que vous voulez créer. REMARQUE Si votre réseau utilise des adresses IP statiques, assurez-vous que les adresses ne sont pas occupées avant d'ajouter le réseau. Paramètre Obligatoire/facultatif Description --namenetwork_name_in_Serengeti Obligatoire Modifiez le réseau IP statique spécifié dans Serengeti. --addIP IP_range Facultatif Segments d'adresse IP, au format xx.xx.xx.xx-xx[,xx]*. --dnsType Facultatif Les valeurs possibles incluent Normal, Dynamic et Other. La valeur par défaut est Normal. --generateHostname Facultatif La valeur par défaut est False. Commandes resourcepool Les commandes resourcepool {*} vous permettent de gérer vos pools de ressources. Commande resourcepool add La commande resourcepool add vous permet d'ajouter un pool de ressources vSphere à Serengeti. Lorsque vous ajoutez un pool de ressources à Serengeti, il représente le pool de ressources vSphere réel tel qu'il est identifié par vCenter Server. Cette représentation symbolique vous permet d'utiliser le nom du pool de ressources Serengeti au lieu du chemin d'accès complet du pool de ressources dans vCenter Server, dans les fichiers de spécification de cluster. 110 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Tableau 9‑14. Paramètre Obligatoire/facultatif Description --name resource_pool_name_in_Serengeti Obligatoire Nom du pool de ressources à ajouter. --vccluster vSphere_cluster_of_the_resource_pool Facultatif Nom du cluster vSphere qui contient le pool de ressources. --vcrp vSphere_resource_pool_name Obligatoire Pool de ressources vSphere. Commande resourcepool delete La commande resourcepool delete vous permet de supprimer un pool de ressources de Serengeti. Tableau 9‑15. Paramètre Obligatoire/facultatif Description --name resource_pool_name_in_Serengeti Obligatoire Pool de ressources à supprimer. Commande resourcepool list La commande resourcepool list vous permet d'afficher une liste de pools de ressources Serengeti. Si vous ne spécifiez pas de nom, tous les pools de ressources Serengeti sont affichés. Tableau 9‑16. Paramètre Obligatoire/facultatif Description --name resource_pool_name_in_Serengeti Facultatif Nom et chemin d'accès du pool de ressources à afficher. --detail Facultatif Incluez les détails des pools de ressources. Commandes template Les commandes template vous permettent de gérer les modèles de nœud dans votre environnement Serengeti. Commande template list La commande template list vous permet d'obtenir une liste des modèles de nœud disponibles dans votre environnement Serengeti. Il n'y a aucun paramètre de commande. Commandes topology Les commandes topology {*} vous permettent de gérer la topologie des clusters. Commande topology list La commande topology list vous permet d'afficher la topologie des mappages RACK/HÔTES dans Serengeti. Il n'y a aucun paramètre de commande. VMware, Inc. 111 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions Commande topology upload La commande topology upload vous permet de télécharger un fichier de la topologie des mappages rack/hôtes dans Serengeti. Le fichier téléchargé remplace tout autre fichier antérieur. Le format du fichier pour chaque ligne est : rackname: hostname1, hostname2… Tableau 9‑17. Paramètre Obligatoire/facultatif Description --fileName topology_file_name Obligatoire Nom du fichier de topologie. --yes Facultatif Répondez O à la confirmation O/N. En cas de nonspécification, entrez manuellement o ou n. Commandes usermgmt Les commandes usermgmtserver vous permettent de gérer des utilisateurs et des groupes sur un serveur Active Directory ou LDAP à des fins d'authentification utilisateur. Vous pouvez ainsi gérer les utilisateurs à partir d'un point central. Commande usermgmtserver add La commande usermgmtserver add permet d'activer la gestion centralisée des comptes afin de l'utiliser avec l'authentification utilisateur LDAP. Pour activer la gestion centralisée des comptes afin de l'utiliser avec Big Data Extensions à l'aide de LDAP, (soit avec Active Directory en tant que LDAP soit avec OpenLDAP), exécutez la commande usermgmtserver add. Dans cet exemple, la gestion centralisée des comptes est activée avec les paramètres de configuration LDAP contenus dans le fichier /opt/serengeti/sbin/LDAPConfigFile.cfg usermgmtserver add --cfgfile /opt/serengeti/sbin/LDAPConfigFile.cfg Paramètre Obligatoire ou facultatif Description add --cfgfile config_file_path Facultatif Active la gestion centralisée des comptes. Le fichier de configuration que vous spécifiez contient les paramètres de configuration du serveur LDAP. Vous devez créer ce fichier manuellement. Reportez-vous à « Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29 Commande usermgmtserver modify Vous pouvez modifier votre configuration LDAP et rendre ces modifications disponibles dans votre environnement Big Data Extensions. Vous pouvez appliquer à Big Data Extensions les modifications que vous apportez à vos paramètres de configuration LDAP. Cela vous permet de mettre à jour vos informations du service LDAP. Pour modifier les paramètres LDAP pour l'environnement Big Data Extensions, mettez à jour le fichier de configuration LDAP selon vos besoins, puis exécutez la commande usermgmtserver modify. Dans cet exemple, la configuration de l'environnement LDAP est mise à jour à l'aide des paramètres contenus dans le fichier /opt/serengeti/sbin/LDAPConfigFile.cfg usermgmtserver modify --cfgfile /opt/serengeti/sbin/LDAPConfigFile.cfg 112 VMware, Inc. Chapitre 9 Référence des commandes de l'interface de ligne de commande Serengeti Paramètre Obligatoire ou facultatif Description modify --cfgfile config_file Facultatif Si vous mettez à jour le fichier de configuration LDAP de sorte à utiliser les nouveaux paramètres, vous devez exécuter le paramètre modify pour mettre à jour les paramètres dans Big Data Extensions. Vous devez mettre à jour manuellement le fichier de configuration. Reportez-vous à « Créer un fichier de configuration du service LDAP avec l'interface de ligne de commande Serengeti », page 29 VMware, Inc. 113 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 114 VMware, Inc. Index A accès, interface de ligne de commande 9 Active Directory fichier de configuration 29 gérer les utilisateurs 29 activer 31 Adresses IP 25 affichage Banques de données 85, 107 clusters 104 clusters provisionnés 85 distributions Hadoop, disponibles 84, 108 pools de ressources 86 réseaux 86 affichage des configurations ou des rôles, avec l'interface de ligne de commande Serengeti 16, 21, 84 affichage des distributions, avec l'interface de ligne de commande Serengeti 15, 21, 84 affichage des distributions prises en charge, avec l'interface de ligne de commande Serengeti 15, 21, 84 ajout Banques de données 24, 107 pools de ressources 23 réseaux 24 topologie 41 ajout d'un serveur de gestion de logiciels, avec l'interface de ligne de commande Serengeti 14, 20 ajout de clusters, avec un gestionnaire d'applications 66 Ambari 13, 14, 19, 20 appmanager, commandes 97, 98 appmanager add, commande 9, 97, 99 appmanager list, commande 9, 97, 99 arrêt, clusters 106 arrêt des clusters 74 attributs Hadoop sur liste blanche 94 sur liste noire 94 attributs Hadoop sur liste blanche 94 attributs Hadoop sur liste noire 94 authentification utilisateur Active Directory 108 changer de mode 108 LDAP 108 VMware, Inc. local 108 mixte 108 Voir aussi gestion d'utilisateurs avec l'interface de ligne de commande 66 B Banques de données affichage 85, 107 ajout 24, 107 suppression 24, 107 C capacité de calcul, mise à l'échelle 75 chargement, topologie 41 charges de travail, équilibrage 41 CLI, accès 9 Cloudera Manager 13, 14, 19, 20 cluster avec HA HDFS namenode externe 48, 50, 51 cluster de base 65 cluster de calcul du travailleur uniquement 63, 67 cluster du travailleur uniquement MapReduce v1 50 cluster du travailleur uniquement MapReduce v2 51 cluster du travailleur uniquement Yarn 51 cluster expand 102 cluster HA HDFS namenode externe 48, 50, 51 cluster HDFS externe, préparer 43 cluster uniquement HBase, utiliser OneFS en tant que cluster HDFS externe 43 cluster uniquement HBase, conditions préalables 43 cluster Yarn 51 clusters affectation des ressources 69 affichage provisionné 85, 104 agrandissement 74 ajout avec un gestionnaire d'applications 66 arrêt 74, 106 attribution des réseaux 69 attributs dans les définitions 91 basculement 78 calcul du travailleur uniquement 63, 67 calcul uniquement 37, 59, 60, 62 115 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions conditions requises de définition dans les fichiers de spécification de cluster 88 configuration 70, 99 configuration Hadoop par défaut 37 configuration HBase par défaut 38 création, , voir création de clusters définition des nœuds 91 définitions, exportation 102 démarrage 74, 105 déploiement sous des pools de ressources différents 23 gestion 73 Hadoop de base 37 Hadoop par défaut 37 HBase 37, 45 mise à l'échelle 104 mise à l'échelle élastique 104 mise à l'échelle manuelle 104 mots de passe d'administrateur de nœuds 67 mots de passe d'administrateur personnalisés 67 nommer 64 personnalisé 37 reconfiguration 75, 78 rôles des groupes de nœuds 71 séparation données/calcul 37, 55, 57 suppression 78, 101 topologie 38, 41, 53 uniquement HBase 44 clusters de calcul de données 52 clusters de calcul uniquement 52, 59, 60, 62 clusters Hadoop configuration par défaut 37 Voir aussi clusters clusters Hadoop de base 37 clusters HBase configuration 45 configuration par défaut 38 création par défaut 42 Voir aussi clusters Clusters HBase 41 clusters MapReduce, création 49 Clusters MapReduce 49 clusters MapReduce v1 38 clusters MapReduce v2 (YARN) 38 clusters personnalisés, création 71 clusters séparés données/calcul 37, 55, 57 clusters uniquement HBase, création avec l'interface de ligne de commande 44 commande 9, 97, 99 commande appmanager add 13, 19, 97 116 commande appmanager delete, appmanager delete 98 commande appmanager list 15, 22, 83, 99 commande appmanager modify 98 commande cluster config 75, 78, 99 commande cluster create 64, 100 commande cluster delete 78, 101 Commande cluster expand 78, 102 commande cluster export 75, 102 commande cluster fix 80, 103 commande cluster list 85, 104 commande cluster resetParam 104 commande cluster resize 74, 75, 104 commande cluster setParam 105 commande cluster start 74, 105 commande cluster stop 74, 106 commande connect 106 commande create cluster 48, 50, 51 commande datastore add 24, 107 commande datastore delete 24, 107 commande datastore list 24, 85, 107 commande disconnect 107 commande distro list 84, 108 Commande mgmtvmcfg get 108 commande mgmtvmcfg modify 108 commande network add 24, 109 commande network delete 25, 110 commande network list 25, 86, 110 commande network modify 110 commande resourcepool add 23, 110 commande resourcepool delete 23, 111 commande resourcepool list 23, 86, 111 commande template list 111 commande topology list 39, 41, 111 commande topology upload 41, 112 Commande usermgmtserver 112 Commande usermgmtserver modify 112 commandes, appmanager 97 commandes appmanager 97 commandes cluster 99 commandes datastore 107 Commandes mgmtvmcfg 108 commandes network 109 commandes resourcepool 110 conditions préalables à la création d'un cluster uniquement HBase 43 configuration, clusters 70, 99 configuration Hadoop, conversion XML en JSON 96 configuration Hadoop XML, conversion en JSON 96 configurations ou rôles, liste 16, 21, 84 VMware, Inc. Index connexion aux serveurs Serengeti 106 Serengeti, services 9 contention des ressources, adressage 75 conversion de XML Hadoop en JSON Serengeti 75 création de clusters avec les distributions disponibles 68 avec les réseaux attribués 69 avec les ressources attribuées 69 avec prise en charge de la topologie 41, 53 avec un gestionnaire d'applications 66 calcul uniquement 59, 60, 62 contraintes de stratégie de placement 57 Hadoop par défaut 64 HBase par défaut 42 MapReduce v2 49 mot de passe d'administrateur personnalisé 67 personnalisé 71 protection vSphere HA 45 séparation données/calcul 53, 55, 57 spécification des nœuds master, worker et client 70 stratégies de placement 53 création de clusters HBase uniquement, avec l'interface de ligne de commande 44 créer un cluster HA HDFS namenode externe 48, 50, 51 D déconnexion des serveurs Serengeti 107 défaillance disque, récupérer d'une 80 définition, attributs de nœud 91 démarrage des clusters 74, 105 développer les nœuds du cluster 102 développer un cluster 78 disque défectueux, récupérer 103 Distribution Ambari, DNS et FQDN pour le trafic du cluster 62 distribution Cloudera commandes administratives avec l'interface de ligne de commande Serengeti 9 DNS et FQDN pour le trafic de cluster 41, 53, 55, 57, 60, 68–71 distribution MapR, commandes administratives avec l'interface de ligne de commande Serengeti 9 distribution Pivotal commandes administratives avec l'interface de ligne de commande Serengeti 9 DNS et FQDN pour le trafic de cluster 41, 53, 55, 57, 68–71 distributions liste 15, 21, 84 VMware, Inc. supported 13, 19 Voir aussi distributions Hadoop distributions Hadoop affichage de la liste 108 affichage disponible 84 fichiers de configuration 94 fichiers JAR 75 distributions Hadoop prenant en charge les clusters MapReduce 38 distributions prises en charge, liste 15, 21, 84 E équilibrage des charges de travail 41 exportation, définitions de cluster 102 Extensions de virtualisation Hadoop (HVE, Hadoop Virtualization Extensions) 38 F fédération 68 fichier de configuration 29 fichier log4j.properties 75 fichiers de configuration, conversion de XML Hadoop en JSON Serengeti 75 fichiers de mappage rack/hôtes 39 fichiers de mappage rack/hôtes de la topologie 39 fichiers de spécification de cluster cluster de calcul uniquement 59, 60, 62 clusters séparés données/calcul 55 conditions requises de la définition de cluster 88 conditions requises des fichiers 87 configuration 87 contraintes de topologie 53 définition des attributs 91 exemple annoté 88 fichiers JAR de distribution Hadoop 75 lien symbolique pool de ressources 23 nœuds 70 placement de nœuds 57 reconfiguration de clusters 75 stratégies de placement 39 substitutions de groupes de nœuds 78 topologie 39 G gérer les utilisateurs et les comptes d'utilisateurs 29 gestion, clusters 73 gestion des ressources 19 gestionnaire d'applications, modifier 15, 21 gestionnaires d'applications ajout 97 117 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions ajout de clusters 66 gestion 13 liste 99 suppression 16, 22 surveillance 15, 22, 83 groupes de nœuds dans les définitions de cluster 88 reconfiguration 78 rôles, modification 71 rôles, pour éviter les conflits 59, 60, 62 stockées 39 groupes de ports, , voir réseaux H Hadoop Virtualization Extensions (HVE) 41 HDFS, éviter les conflits de rôles de nœuds 59, 60 HÔTE_EN_RACK 38 I N nœuds agrandissement d'un cluster 74 configuration des fichiers de spécification de cluster 70 définition des attributs 91 distribution 57 nœuds clients pour Hadoop 37 nœuds Hadoop connexion 11 mots de passe 11 nœuds master pour Hadoop 37 nœuds worker pour Hadoop 37 nom d'hôte, générer pour les nœuds de clusters 26 noms de cluster 64 informations sur le serveur, ajout 14, 20 Interface de ligne de commande, accès 9 O J outil de conversion convert-hadoop-conf.rb 75, 96 Java Runtime Environment (JRE) 9 L LDAP, gérer les utilisateurs 29 LDAP, fichier de configuration 29 liste de, gestionnaires d'applications 15, 22, 83 liste des gestionnaires d'applications 15, 22, 83 M machine virtuelle de nœud de cluster 80 machines virtuelles, tailles prédéfinies pour Serengeti 91 mappage des fichiers, rack/hôtes 39 mémoire, mise à l'échelle 75 mgmtvmcfg get 108 mgmtvmcfg modify 108 mise à l'échelle clusters 74, 104 CPU 75 paramètres, configuration 105 paramètres, réinitialisation 104 RAM 75 mise à l'échelle élastique, configuration de cluster 104 mise à l'échelle manuelle, configuration de cluster 104 mode maintenance 81 mode maintenance, entrer 81 modes utilisateur, changer 32 modifier un gestionnaire d'applications 15, 21 118 mots de passe, nœuds Hadoop 11 mots de passe d'administrateur de nœuds 67 mots de passe pour nœuds de clusters 67 P paramètre description 14, 20 paramètres LDAP, modifier 33, 112 paramètres LDAP, modifier 33 partages d'E/S 104, 105 passer d'un seul coup en mode virtuel 63, 67 performances de clonage 27 pools de ressources affichage 86 ajout 23 suppression 23 préparer OneFS en tant que cluster HDFS externe 43 présentation, gestionnaires d'applications 13, 19 R RACK_EN_RACK 38 reconfiguration groupes de nœuds 78 réseaux 25 récupération à partir d'un disque défectueux 80, 103 récupérer 80 redimensionner 27 redimensionner des clusters Hadoop 27 Référence des commandes de l'interface de ligne de commande 97 VMware, Inc. Index réseaux affichage du statut 86 ajout 24 ajout d'adresses IP 25 attribution aux clusters 69 suppression 25 ressources vSphere attribution aux clusters 69 pools de ressources 23 rôles, liste 16, 21, 84 V vSphere Fault Tolerance (FT) 78 vSphere High Availability (HA) 45, 78 S script serengeti-maintenance.sh 81 se connecter aux nœuds Hadoop 11 segments d'adresse IP 25 serengeti-maintenance.sh 81 Serengeti, services, connexion 9 serveur de gestion de logiciels, ajout 14, 20 serveurs Serengeti connexion à 106 déconnexion de 107 Single Sign-On (SSO) 9 stratégies de placement 39, 57 suppression Banques de données 24, 107 clusters 78, 101 pools de ressources 23 réseaux 25 Voir aussi suppression suppression de gestionnaires d'applications 16, 22 surveillance, environnement Big Data Extensions 83 surveillance des gestionnaires d'applications 15, 22, 83 T tâches MapReduce, clusters HBase 45 tailles des machines virtuelles prédéfinies 91 topologie ajout 41 cluster 38 commandes 111 contraintes 53 stratégies de placement 39 topologies des racks 41 type de DNS 26 U usermgmtserver 112 usermgmtserver modify 112 utilisateurs et comptes d'utilisateurs, gestion 29 VMware, Inc. 119 Guide de l'interface de ligne de commande VMware vSphere Big Data Extensions 120 VMware, Inc.