Author | Seybold, Daniel | dc.contributor.author |
Date of accession | 2021-05-14T08:14:53Z | dc.date.accessioned |
Available in OPARU since | 2021-05-14T08:14:53Z | dc.date.available |
Year of creation | 2020 | dc.date.created |
Date of first publication | 2021-05-14 | dc.date.issued |
Abstract | Angetrieben durch die datenintensiven Anwendungen des Web, Big Data und Internet der Dinge, haben sich die Datenbankmanagementsysteme (DBMS) und ihr Betrieb in den letzten zehn Jahren erheblich verändert. Neben relationalen DBMS haben sich vielfältige NoSQL- und NewSQL-DBMS entwickelt, welche die Kernanforderungen von datenintensiven Anwendungen versprechen: Performanz, horizontale Skalierbarkeit, Elastizität und Hochverfügbarkeit. Um diese nicht-funktionalen Eigenschaften voll auszunutzen, werden elastische Infrastrukturen wie Cloud Computing für den Betrieb von DBMS herangezogen, um Skalierbarkeit und Elastizität auch auf der Ressourcenebene zu ermöglichen. Daher werden moderne Speicherdienste datenintensiver Anwendungen durch verteilte DBMS implementiert, die auf Cloud-Ressourcen betrieben werden. Doch die bloße Anzahl heterogener DBMS, Cloud-Ressourcenangebote und die daraus resultierenden Kombinationen machen die Auswahl und den Betrieb von DBMS zu einer komplexen Herausforderung. Daher sind unterstützende Analysen der nicht-funktionalen DBMS-Eigenschaften unerlässlich. Jedoch sind Design und Ausführung solcher Analysen komplexe Prozesse, die mehrschichtiges Domänenwissen erfordern. Zunächst müssen die DBMS mit ihren Laufzeitparametern betrachtet werden. Weiter muss die enorme Anzahl von Ressourcenangeboten
mit ihren flüchtigen Eigenschaften berücksichtigt werden. Abschließend muss die Anwendungslast
durch geeignete DBMS-Benchmarks erzeugt werden. Bestehende DBMS-Benchmarks unterstützen
hierbei nur die Erzeugung der Anwendungslast. Zudem zielen sie primär auf die DBMS-Performanz ab, während die Analyse von Skalierbarkeit, Elastizität und Verfügbarkeit außen vor bleibt. Diese Thesis ermöglicht die ganzheitliche Analyse von DBMS auf elastischen Infrastrukturen durch die Definition
einer unterstützenden Methodik. Diese bestimmt die domänenspezifischen Einflussfaktoren für das
Design umfassender DBMS-Analysen und definiert Evaluationsprinzipien um signifikante Ergebnisse zu gewährleisten. Zudem werden reproduzierbare Analyseprozesse für die nicht-funktionalen Eigenschaften Performanz, Skalierbarkeit, Elastizität und Verfügbarkeit definiert. Basierend auf dieser Methodik, wird das neuartige DBMS-Evaluations-Framework Mowgli bereitgestellt, das den Evaluationsprozess für Performanz und Skalierbarkeit automatisiert. Mowgli verwaltet Cloud-Ressourcen, DBMS-Bereitstellung, Lasterzeugung und die Ergebnisverarbeitung auf Basis von konfigurierbaren Evaluationsszenarien. Mowgli folgt den Evaluationsprinzipien mit Fokus auf automatisierte und reproduzierbare Evaluationen. Mowgli wird durch das Kaa Framework erweitert, das den Elastizitätsbewertungsprozess automatisiert, indem es DBMS- und Lastanpassungen automatisiert. Das King Louie Framework baut auf diesen Merkmalen auf und ermöglicht die DBMS Verfügbarkeitsbewertung, indem es ein umfangreiches Fehlerinjektions-Framework bereitstellt Mowglis umfangreiche Automatisierungskonzepte sowie die Erweiterungen Kaa und King Louie gewährleisten reproduzierbare DBMS-Evaluationen auf elastischen Infrastrukturen, die neuartige und vergleichbare Ergebnisse der nicht-funktionalen DBMS-Eigenschaften ermöglichen. Darüber hinaus erleichtern sie die Bestimmung des Einflusses elastischer Ressourcen auf die nicht-funktionalen DBMS-Eigenschaften. Zusammenfassend stellt diese Thesis ein neuartiges DBMS-Evaluations-Framework vor, das ganzheitliche DBMS-Evaluationen auf elastischen Infrastrukturen ermöglicht, mit einem speziellen Fokus auf fortgeschrittene nicht-funktionale Merkmale sowie automatisierte und reproduzierbare Evaluationsprozesse. | dc.description.abstract |
Abstract | Driven by the data-intensive applications of the Web, Big Data and Internet of Things, Database Management
Systems (DBMSs) and their operation have significantly changed over the last decade. Besides relational
DBMSs, manifold NoSQL and NewSQL DBMSs evolved, promising a set of non-functional features that are
key requirements for each data-intensive application: high performance, horizontal scalability, elasticity and
high-availability. In order to take full advantage of these non-functional features, the operation of DBMSs is
moving towards elastic infrastructures such as the cloud. Cloud computing enables scalability and elasticity
on the resource level. Therefore, the storage backend of data-intensive applications is commonly implemented
by distributed DBMSs operated on cloud resources.
But the sheer number of heterogeneous DBMSs, cloud resource offers and the resulting number of combinations
make the selection and operation of DBMSs a very challenging task. Therefore, supportive analyses
of the non-functional DBMS features are essential. But the analyses design and execution is a complex process
that involves detailed domain knowledge of multiple domains. First, the multitude of DBMSs technologies
with their respective runtime parameters need to be considered. Secondly, the tremendous number of
resource offers including their volatile characteristics need to be taken into account. Thirdly, the applicationspecific
workload has to be created by suitable DBMS benchmarks. While supportive DBMS benchmarks only
focus on DBMS performance, the evaluation design and execution for advanced non-functional features such
as scalability, elasticity and availability becomes even more challenging.
This thesis enables the holistic evaluation of distributed DBMS on elastic infrastructures by defining a
supportive methodology that determines the domain-specific impact factors for designing comprehensive
DBMS evaluations and establishes a set of evaluation principles to ensure significant results. Moreover, reproducible
evaluation processes for the non-functional features performance, scalability, elasticity and availability
are established. Based on these concepts results the novel DBMS evaluation framework Mowgli. It
supports the design and automated execution of performance and scalability evaluation processes. Therefore,
Mowgli manages cloud resources, DBMS deployment, workload execution and result processing based
on evaluation scenarios, which expose configurable domain-specific parameters. Mowgli follows the established
evaluation principles with a dedicated focus on the automated and reproducible evaluation execution.
Mowgli is extended with the Kaa framework that automates the DBMS elasticity evaluation process by enabling
DBMS and workload adaptations. The King Louie framework builds upon these features and enables
availability evaluations by providing an extensive failure injection framework.
The extensive automation capabilities of Mowgli, Kaa and King Louie ensure reproducible DBMSs evaluations
on elastic infrastructures. This enables comparable and novel insights in the non-functional features
of distributed DBMSs. Moreover, the automation capabilities facilitate the determination of the the elastic
resource impact on the non-functional DBMS features.
In conclusion, this thesis provides a novel DBMS evaluation framework based on the Mowgli, Kaa and King
Louie frameworks, enabling comprehensive DBMS evaluations on elastic infrastructures with a dedicated
focus on advanced non-functional features as well as automated and reproducible evaluation processes. | dc.description.abstract |
Abstract | In reference to IEEE copyrighted material which is used with permission in this thesis, the IEEE does not
endorse any of Ulm University’s products or services. Internal or personal use of this material is permitted.
If interested in reprinting/republishing IEEE copyrighted material for advertising or promotional purposes
or for creating new collective works for resale or redistribution, please go to http://www.ieee.org/
publications standards/publications/rights/rights_link.html to learn how to obtain a License
from RightsLink. | dc.description.abstract |
Language | en | dc.language.iso |
Publisher | Universität Ulm | dc.publisher |
Has part | Somnath Mazumdar, Daniel Seybold, Kyriakos Kritikos, and Yiannis Verginadis. “A survey on data
storage and placement methodologies for Cloud-Big Data ecosystem”. In: Journal of Big Data 6.1
(Feb. 2019), p. 15. issn: 2196-1115. doi: 10.1186/s40537-019-0178-3 | dc.relation.haspart |
Has part | Daniel Baur, Daniel Seybold, Frank Griesinger, Athanasios Tsitsipas, Christopher B Hauser, and Jörg
Domaschka. “Cloud orchestration features: Are tools fit for purpose?” In: Utility and Cloud Computing
(UCC), 2015 IEEE/ACM 8th International Conference on. IEEE. 2015, pp. 95–101. doi: 10.1109/
UCC.2015.25 | dc.relation.haspart |
Has part | Daniel Seybold and Jörg Domaschka. “Is Distributed Database Evaluation Cloud-Ready?” In: European
Conference on Advances in Databases and Information Systems (ADBIS) - New Trends in
Databases and Information Systems (Short Papers). Cham: Springer International Publishing, 2017,
pp. 100–108. isbn: 978-3-319-67162-8. doi: 10.1007/978-3-319-67162-8_12 | dc.relation.haspart |
Has part | Daniel Seybold, Christopher B. Hauser, Simon Volpert, and Jörg Domaschka. “Gibbon: An Availability
Evaluation Framework for Distributed Databases”. In: On the Move to Meaningful Internet
Systems. OTM 2017 Conferences. Cham: Springer International Publishing, 2017, pp. 31–49. isbn:
978-3-319-69459-7. doi: 10.1007/978-3-319-69459-7_3 | dc.relation.haspart |
Has part | Daniel Seybold, Moritz Keppler, Daniel Gründler, and Jörg Domaschka. “Mowgli: Finding Your Way
in the DBMS Jungle”. In: Proceedings of the 2019 ACM/SPEC International Conference on Performance
Engineering. ICPE ’19. Mumbai, India: ACM, 2019, pp. 321–332. isbn: 978-1-4503-6239-9.
doi: 10.1145/3297663.3310303 | dc.relation.haspart |
Has part | Daniel Seybold, Simon Volpert, Stefan Wesner, André Bauer, Nikolas Herbst, and Jörg Domaschka.
“Kaa: Evaluating Elasticity of Cloud-Hosted DBMS”. In: 2019 IEEE International Conference on Cloud
Computing Technology and Science (CloudCom). Dec. 2019, pp. 54–61. doi: 10.1109/CloudCom.
2019.00020 | dc.relation.haspart |
Has part | Daniel Seybold, Stefan Wesner, and Jörg Domaschka. “King Louie: Reproducible Availability Benchmarking
of Cloud-hosted DBMS”. In: 35th ACM/SIGAPP Symposium on Applied Computing (SAC
’20), March 30-April 3, 2020, Brno, Czech Republic. Apr. 2020, pp. 144–153. doi: 10.1145/3341105.
3373968 | dc.relation.haspart |
Has part | Daniel Seybold. “Towards a Framework for Orchestrated Distributed Database Evaluation in the
Cloud”. In: Proceedings of the 18th Doctoral Symposium of the 18th International Middleware Conference.
Middleware ’17. Las Vegas, Nevada: ACM, 2017, pp. 13–14. isbn: 978-1-4503-5199-7. doi:
10.1145/3152688.3152693 | dc.relation.haspart |
Has part | Daniel Seybold, Christopher B. Hauser, Georg Eisenhart, Simon Volpert, and Jörg Domaschka. “The
Impact of the Storage Tier: A Baseline Performance Analysis of Containerized DBMS”. In: Euro-Par
2018: Parallel Processing Workshops. Cham: Springer International Publishing, 2018, pp. 93–105.
isbn: 978-3-030-10549-5. doi: 10.1007/978-3-030-10549-5_8 | dc.relation.haspart |
Has part | Jörg Domaschka and Daniel Seybold. “Towards Understanding the Performance of Distributed Database Management Systems in Volatile Environments”. In: Symposium on Software Performance. Vol. 39. Gesellschaft für Informatik. 2019, pp. 11–13. url: https://pi.informatik.uni-siegen.de/stt/39_4/01_Fachgruppenberichte/SSP2019/SSP2019_Domaschka.pdf | dc.relation.haspart |
License | Standard | dc.rights |
Link to license text | https://oparu.uni-ulm.de/xmlui/license_v3 | dc.rights.uri |
Keyword | DBMS | dc.subject |
Keyword | Performance Engineering | dc.subject |
Keyword | NoSQL | dc.subject |
Keyword | Scalability | dc.subject |
Dewey Decimal Group | DDC 004 / Data processing & computer science | dc.subject.ddc |
LCSH | Cloud computing | dc.subject.lcsh |
LCSH | Database management | dc.subject.lcsh |
LCSH | Non-relational databases | dc.subject.lcsh |
LCSH | Distributed systems | dc.subject.lcsh |
LCSH | Elasticity | dc.subject.lcsh |
LCSH | Performance | dc.subject.lcsh |
MeSH | Database | dc.subject.mesh |
MeSH | Benchmarking | dc.subject.mesh |
Title | An automation-based approach for reproducible evaluations of distributed DBMS on elastic infrastructures | dc.title |
Resource type | Dissertation | dc.type |
Date of acceptance | 2021-03-08 | dcterms.dateAccepted |
Referee | Wesner, Stefan | dc.contributor.referee |
Referee | Kounev, Samuel | dc.contributor.referee |
DOI | http://dx.doi.org/10.18725/OPARU-37368 | dc.identifier.doi |
PPN | 1757899952 | dc.identifier.ppn |
URN | http://nbn-resolving.de/urn:nbn:de:bsz:289-oparu-37430-2 | dc.identifier.urn |
GND | Datenbank | dc.subject.gnd |
GND | Relationales Datenbanksystem | dc.subject.gnd |
GND | NoSQL-Datenbanksystem | dc.subject.gnd |
GND | Skalierbarkeit | dc.subject.gnd |
GND | Elastizität | dc.subject.gnd |
Faculty | Fakultät für Ingenieurwissenschaften, Informatik und Psychologie | uulm.affiliationGeneral |
Institution | Institut für Organisation und Management von Informationssystemen | uulm.affiliationSpecific |
Grantor of degree | Fakultät für Ingenieurwissenschaften, Informatik und Psychologie | uulm.thesisGrantor |
DCMI Type | Text | uulm.typeDCMI |
Category | Publikationen | uulm.category |
EU project uulm | MELODIC / Multi-cloud Execution-ware for Large-scale Optimized Data-Intensive Computing / EC / H2020 / 731664 | uulm.projectEU |
EU project uulm | CloudSocket / Business and IT-Cloud Alignment using a Smart Socket / EC / H2020 / 644690 | uulm.projectEU |
Bibliography | uulm | uulm.bibliographie |