Stratégie de réplication de données prenant en compte la consommation énergétique et la dépense dans les systèmes à grandes échelles - Optimisation Dynamique de Requêtes Réparties à grande échelle
Thèse Année : 2022

Energy and expenditure aware data replication strategy in large scale systems

Stratégie de réplication de données prenant en compte la consommation énergétique et la dépense dans les systèmes à grandes échelles

Résumé

Nowadays, applications need access to data across the world. And the volume growth of these data leads to availability and performance issues, especially when these data are heavily requested. A way to answer issues is data replication, a commonly used technique in distributed systems, but also in large scale ones. Many data replication strategies have been proposed for these kinds of systems. They seek to choose which data to replicate, how many replicas, when and where to replicate them. In this thesis, we propose a data replication strategy for the Cloud systems. Nowadays, environmental issues are becoming more and more important in our society. Several companies seek to have positive impacts on these issues. For IT companies and Cloud providers, these issues are being answered reducing carbon footprint by reducing their energy consumption and the use of greener energy resources. In the context of this thesis, we propose a data replication strategy that considers both energetic and economic issues. It starts with an initial placement to answer availability and fault tolerance issues while taking into account energy consumption and expenditure. This placement uses heterogeneity between data centers and the use of technologies that puts server into sleep mode to reduce energy consumption of unused servers. This placement permits to let the administrator choose the policy they want to apply according to the provider's interest. Un dynamic replica management, supported by the initial placement, is then studied which permits to adapt to workload variations. These workload variations are detected through Control Charts, which uses probabilities to rise warnings. When the workload increases, the proposed data replication will create new replicas while taking into account energy consumption. Then, when the workload decreases, the strategy will delete replicas to reduce storage energy consumption and expenditure. Performance evaluations, through simulation, permits to validate the proposed data replication strategy while comparing its performances with other strategies proposed in the literature. For the initial placement, these evaluations permits to highlight the impact of different suggested choices, and also show the positive impact of an "intelligent" initial placement on availability and performance, while reducing energy consumption and expenditure. Then we added the dynamic data management to the evaluations. Results show that we achieve to have better performance compared to the initial placement, while keeping reducing energy consumption and expenditure. It also highlights the importance of choices and methods used when creating or deleting replicas.
Les applications d'aujourd'hui nécessitent l'accès à des données réparties à travers le monde. De plus, l'augmentation du volume de ces données conduit à des problématiques de disponibilité et de performance, surtout lorsque ces données sont fréquemment requêtées. Une manière de répondre à ces problèmes est la réplication de données, une technique très utilisée dans les systèmes distribués classiques, mais également dans les systèmes à grande échelle. De nombreuses stratégies de réplication de données ont été proposées dans de tels systèmes. Elles visent à déterminer les données à répliquer, combien de répliques créer, quand créer les répliques et où les placer. Dans ce manuscrit, nous proposons une stratégie de réplication de données dans les systèmes Cloud. De nos jours, les enjeux environnementaux deviennent des problématiques majeures dans notre société. Certaines entreprises cherchent à avoir un impact positif sur ces enjeux. Pour les fournisseurs de services numériques et de Cloud, cela se traduit par une réduction de l'émission de gaz à effet de serre en réduisant la consommation énergétique et en utilisant des ressources énergétique plus vertes. Dans le cadre de cette thèse, nous proposons une stratégie de réplication de données qui prend en compte ces problématiques économiques et énergétiques. Un placement initial, statique, est mis en place pour répondre aux objectifs de disponibilité et de tolérance aux fautes tout en tenant compte de la consommation énergétique et de la dépense. Ce placement s'appuie sur l'hétérogénéité entre les centres de données et sur l'utilisation de technique de veille permettant de réduire la consommation énergétique de serveurs inutilisés. Un tel placement permet de choisir la politique à mettre en place selon l'intérêt du fournisseur. Une gestion dynamique des répliques, s'appuyant sur le placement initial, est ensuite proposée. Elle permet de s'adapter aux variations de la charge de travail, détectée à l'aide de Cartes de contrôle qui s'appuient sur des probabilités pour lever des alertes. Ainsi, de nouvelles répliques sont créées lorsque la charge augmente, tout en tenant compte de la consommation énergétique. D'un autre côté, des répliques sont supprimées lorsque cette charge diminue. Cela permet de réduire les coûts et la consommation énergétique liés au stockage. Une évaluation de performances, via une simulation, a permis de valider la stratégie proposée tout en comparant ses performances à celles d'autres stratégies proposées dans la littérature. Pour le placement initial, ces évaluations ont permis de mettre en avant l'impact des différents choix proposés, mais aussi de montrer qu'un placement initial des répliques plus "intelligent" peut avoir un impact positif sur les performances et la disponibilité, tout en réduisant la consommation énergétique et les dépenses. Puis, nous l'avons évalué en intégrant la gestion dynamique des répliques. Les résultats de la partie dynamique montrent qui nous arrivons à améliorer les performances par rapport au placement initial, tout en réduisant à la fois les dépenses et la consommation énergétique. De plus, cela permet de mettre en avant l'importance des choix et des méthodes mises en place lors de l'ajout ou de la suppression des répliques.
Fichier principal
Vignette du fichier
2022TOU30126.pdf (6 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-03924082 , version 1 (05-01-2023)

Identifiants

  • HAL Id : tel-03924082 , version 1

Citer

Morgan Séguéla. Stratégie de réplication de données prenant en compte la consommation énergétique et la dépense dans les systèmes à grandes échelles. Sciences de l'information et de la communication. Université Paul Sabatier - Toulouse III, 2022. Français. ⟨NNT : 2022TOU30126⟩. ⟨tel-03924082⟩
223 Consultations
94 Téléchargements

Partager

More