Exécution d'un flux de données distribué. SAP BusinessObjects Data Services 4.1 Support Package 1

PDF

Document

Flux de données

A partir des informations contenues dans la spécification du flux de données, le logiciel produit une sortie tout en optimisant la performance. Par exemple, pour les sources et les cibles SQL, le logiciel crée des instructions SQL spécifiques à la base de données en fonction des diagrammes du flux de données du job. Pour optimiser la performance, le logiciel pousse vers le bas autant d'opérations de transformation que possibles vers la base de donnée source ou cible, et combine autant d'opérations que possible dans une requête vers la base de données. Par exemple, le logiciel essaye de pousser vers le bas les jointures et les évaluations de fonction. En poussant les opérations vers la base de données, le logiciel réduit le nombre de lignes et d'opérations que le moteur doit traiter.

La conception du flux de données influence le nombre d'opérations que le logiciel peut pousser vers la base de données sources ou cibles. Avant d'exécuter un job, il est possible d'examiner le SQL généré par le logiciel et de modifier la conception pour aboutir aux résultats les plus efficaces.

Il est possible d'utiliser la transformation Data_Transfer pour pousser vers le bas des opérations consommatrices de ressources n'importe où dans un flux de données vers une base de données. Les opérations consommatrices de ressources incluent les jointures, GROUP BY, ORDER BY et DISTINCT.

Rubriques associées

• Guide d'optimisation de la performance : maximisation des opérations poussées vers le bas

• Guide de référence : Data_Transfer

7.6.2 Exécution d'un flux de données distribué

Le logiciel offre la possibilité de distribuer les travaux de traitement des données consommatrices de mémoire et de processeurs (tels que les jointures, les regroupements, les comparaisons de table et les recherches) dans les multiples processus et ordinateurs. Ce travail de distribution offre les bénéfices potentiels suivants :

• Une meilleure gestion de la mémoire en tirant profit de plus de ressources processeurs et de mémoire physique

• Une meilleure performance et extensibilité de job en utilisant une exécution de flux de données secondaire simultanée pour tirer profit du grid computing

Il est possible de créer un flux de données secondaire pour que le logiciel n'ait pas besoin de traiter l'ensemble du flux de données en mémoire en une seule fois. Il est également possible de distribuer les flux de données secondaires aux différents job servers d'un groupe de serveurs pour utiliser plus de mémoire et des ressources processeurs supplémentaires.

Utilisez les fonctionnalités suivantes pour diviser un flux de données en plusieurs flux de données secondaires

• L'option Exécuter en tant que processus séparé sur les opérations consommatrices de ressources qui incluent :

• La transformation Hierarchy_Flattening

• Transformation Associate

184 2012-11-22