[dbis logo]

.Lehre.Semesterübersicht
[Institut fuer Informatik] [Leerraum] [Humboldt-Universitaet zu Berlin]

Forschungsseminar: Neue Entwicklungen im Datenbankbereich

Dieses Seminar wird von Mitgliedern der Lehr- und Forschungseinheit als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

 

Das Seminar findet Mittwochs von 11-13 Uhr in RUD25, Raum 3.113 statt. Wer per Email Einladungen zum Forschungsseminar erhalten möchte, sendet bitte eine Email an Thomas Morgenstern um sich in die Mailingliste ein- bzw. austragen zu lassen.

Termine

Datum Beginn Raum Vortragende(r) Titel
27.08.2014 11:00 Uhr c.t. RUD 25, 3.113 Steffen Zeuch "QTM: Modelling Query Execution with Tasks"
18.06.2014 11:00 Uhr c.t. RUD 25, 3.113 Florian Hönicke "Scalable Parallel Set-Similarity Joins Using Stratosphere"
11.06.2014 11:00 Uhr c.t. RUD 25, 3.113 Magdalena Soyka "Distributed Systems for Processing Large Scale Data Streams"
28.05.2014 11:00 Uhr c.t. RUD 25, 3.113 Marten Richert "Ausfallsicherheit für datenstromverarbeitende Operatoren in Stratosphere"
22.05.2014 13:00 Uhr c.t. RUD 25, 3.112 Holger Pirk "Database Cracking: Fancy Scan, not Poor Man’s Sort!"
21.05.2014 11:00 Uhr c.t. RUD 25, 3.113 Jochen Taeschner "Verifizieren nutzerdefinierter Datenschutzpräferenzen in service-orientierten Architekturen"
16.04.2014 11:00 Uhr c.t. RUD 25, 3.113 Alexander Springer "Visualisierung eines vierdimensionalen Raumes am Beispiel des Stratosphere Statistikspeichers"

Zusammenfassungen

"QTM: Modelling Query Execution with Tasks" (Steffen Zeuch)

Over the last decade, several approaches for parallel query execution have emerged. The performance of these approaches is mainly affected by the non-manageable cache hierarchy. However, each approach exploits the capabilities of modern processors differently. Furthermore, the comparison is difficult due to different operator-to-resource assignments during run-time (scheduling strategy) and the number of tuples each operator processes (chunk size). In this paper, we first classify common DBMS by their scheduling strategies and chunk sizes. Then, we propose a task model called Query Task Model (QTM) that opens a design space for database schedules. With QTM, we generalize the modeling of parallel query execution such that different approaches become comparable. Using QTM, we model an arbitrary QEP as a set of tasks. Each task represents a particular piece of work on a subset of data. Our evaluation of different schedules modeled in QTM shows, that a tuple-at-a-time schedule cannot exploit modern hardware efficiently. In contrast, an operator-at-time schedule increases the performance due to increased cache utilization. However, a buffer-at-a-time schedule that takes the cache hierarchy into account outperforms schedules that do not. Furthermore, we show that a schedule that is optimized for data cache locality does not necessarily outperform a schedule optimized for instruction cache locality. We identify a sweet spot where the ratio of data locality and instruction locality produces the fastest schedules.

"Scalable Parallel Set-Similarity Joins Using Stratosphere" (Florian Hönicke)

The algorithm V-SMART-Join is a scalable, MapReduce based, distributed algorithm for determining set similarities in a set of multisets like text documents where each word represents an element. It can be used in both self-join and R-S join. Given a set of records it computes all record pairs which satisfy a specified set-similarity condition. The aim of this seminar paper is to examine whether the use of Stratosphere instead of Hadoop leads to a shorter running time of V-SMART under the same test conditions. For comparing V-SMART on Hadoop with the Stratosphere adapted V-SMASH (V-SMArt on StratospHere), they will be evaluated in running time for self-joining on different cluster sizes and relative running time for self-joining a data set increased proportionally with the cluster size.

"Distributed Systems for Processing Large Scale Data Streams" (Magdalena Soyka)

Das Programmiermodell MapReduce und seine Open-Source-Implementierung Hadoop hat sich als De-facto-Standardlösung für die parallele und verteilte Verarbeitung großer Datenmengen etabliert. MapReduce ist jedoch von Natur aus für die Batch-Verarbeitung ausgelegt. Diese eignet sich nicht für das Management großer Datenströme, die eine kontinuierliche und zeitnahe Prozessierung verlangen. Neuere Systeme dagegen, wie beispielsweise Apache Storm und Apache S4, setzen MapReduce-ähnliche Konzepte um, und erlauben so eine zuverlässigere parallele und verteilte skalierbare Verarbeitung von Datenströmen. In der in diesem Vortrag vorgestellten Diplomarbeit werden diese beiden Systeme im Detail in Hinblick auf ihre Skalierbarkeit und Fehlertoleranz vergleichend analysiert. Zudem ist eine empirische Evaluierung des Systems mit dem Linear Road Benchmark geplant und in einigen Teilen implementiert worden. Diese wird ebenfalls vorgestellt. Die hierbei aufgetretenen Probleme werden systematisiert dargestellt und Empfehlungen für die Durchführung des Benchmarks abgeleitet.

"Ausfallsicherheit für datenstromverarbeitende Operatoren in Stratosphere" (Marten Richert)

Im Vortrag werden das Thema und Ziele der Diplomarbeit vorgestellt. Zur Verarbeitung von großen, kontinuierlich erzeugten Datenmengen kommen datenstromverarbeitende, verteilte Systeme (SPS, /stream processing systems/) zum Einsatz. SPS können aus hunderten von physischen Rechenknoten bestehen. Unerwartete Fehler, wie beispielsweise der Totalausfall eines Rechenknotens, sind durch Algorithmen zur Fehlererholung handhabbar. Ziel solcher Algorithmen ist es, das SPS nach einem Fehler wieder in einen konsistenten Gesamtzustand zu überführen. Da das SPS Daten in Echzeit verarbeitet, muss die Dauer der Wiederherstellung möglichst kurz sein. Was ein konsistenter Zustand ist, hängt von der jeweiligen Fragestellung ab, die durch das SPS bearbeitet wird. Bei vielen Fragestellungen ist es nötig, den Zustand von Operatoren des ausgefallenen Rechenknotens vor Auftreten des Fehlers wiederherzustellen. In dieser Arbeit wird im besonderen die Anwendung eines Checkpointingverfahrens auf Ebene des Datenverarbeitungssystems Nephele innerhalb von Stratosphere untersucht. Der Operatorzustand eines jeden Knotens im Ausführungsgraphen wird dazu regelmäßig auf vorgelagerte Knoten gesichert. Es wird zunächst modelliert, wie Nephele Datenströme verarbeitet, welche Datenstrukturen und Puffer von Nephele-Operatoren zu sichern sind und wie der Algorithmus zur Fehlerbehandlung für Nephele anzupassen ist. Ein weiteres Ziel der Arbeit besteht in der Untersuchung von Modifikationen zur Performanzverbesserung des Verfahrens und deren Evaluation mit Hilfe von Nephele.

"Database Cracking: Fancy Scan, not Poor Man’s Sort!" (Holger Pirk)

Database Cracking is an appealingly simple approach to adaptive indexing: on every range-selection query, the data is partitioned using the supplied predicates as pivots. The core of database cracking is, thus, pivoted partitioning. While pivoted partitioning, like scanning, requires a single pass through the data it tends to have much higher costs due to lower CPU efficiency. In this paper, we conduct an in-depth study of the reasons for the low CPU efficiency of pivoted partitioning. Based on the findings, we develop an optimized version with significantly higher (single-threaded) CPU efficiency. We also develop a number of multi-threaded implementations that are effectively bound by memory bandwidth. Combining all of these optimizations we achieve an implementation that has costs close to or better than an ordinary scan on a variety of systems ranging from low-end (cheaper than $300) desktop machines to high-end (above $10,000) servers.

"Verifizieren nutzerdefinierter Datenschutzpräferenzen in service-orientierten Architekturen" (Jochen Taeschner)

Für eine Diagnose greifen Ärzte häufig auf die Untersuchungsdaten anderer medizinischer Einrichtungen zurück. Für die Verarbeitung der Untersuchungsdaten werden in unserem Szenario Services im Sinne service-orientierter Architekturen verwendet. Diese bilden ein System, welches einem Arzt beispielsweise Diagnosefunktionen zur Verfügung stellt. In Fus Arbeit "Conformance Verification of Privacy Policies" wird ein System in ein Modell überführt, um Aussagen einer Privacy Policy für dieses Modell verifizieren zu können. Die Daten im System sind jedoch nicht mit Datenschutzpräferenzen versehen. Unser Ziel ist es, nutzerdefinierte Datenschutzpräferenzen mit den Daten zu verknüpfen, z.B. in Form von Sticky Policies. Anschließend untersuchen wir, ob Systemfunktionen durch bestimmte Datenschutzpräferenzen beeinträchtigt bzw. Datenschutzpräferenzen bei der Ausführung von Systemfunktionen verletzt werden.

"Visualisierung eines vierdimensionalen Raumes am Beispiel des Stratosphere Statistikspeichers" (Alexander Springer)

In diesem Vortrag geht es um die Entwicklung einer Visualisierung des Stratosphere Statistikspeichers. Der Stratosphere Statistikspeicher ist ein Key-Value-Store und dient als Aufenthaltsort gesammelter Anfragestatistiken. Als Key werden Query Signatures verwendet und als Value die zugehörigen Statistiken. Zur Untersuchung einzelner Query Signatures und Statistiken als auch der Erkundung des Ganzen soll die Visualisierung den Statistikspeicher einem Nutzer zugänglich machen. Das Kernelement der Visualisierung ist die Relation von Key auf Value. Die Datenmenge des Statistikspeichers ist aber zu groß um sie einfach tabellarisch zu listen, daher werden in dem Vortrag einige Techniken vorgestellt diese nutzerfreundlich zu visualisieren. Dafür wird die Menge der Query Signatures geometrisch dargestellt und Statistiken werden bis zu einem bestimmten Punkt aggregiert. Für die geometrische Darstellung werden die Attributmengen der Query Signature auf einzelne Achsen projiziert wodurch man einen vierdimensionalen Raum erhält. Einige experimentelle Anfragen werden zeigen, wie mit Hilfe der realisierten Visualisierung ein Durchsuchen und Erkunden helfen kann den Statistikspeicher auszuwerten.



[Punkt]  Wintersemester 2018/19

[Punkt]  Sommersemester 2018

[Punkt]  Wintersemester 2017/18

[Punkt]  Sommersemester 2017

[Punkt]  Sommersemester 2016

[Punkt]  Wintersemester 2015/16

[Punkt]  Sommersemester 2015

[Punkt]  Wintersemester 2014/15

[aktiver Punkt]  Sommersemester 2014

[Punkt]  Wintersemester 2013/14

[Punkt]  Sommersemester 2013

[Punkt]  Wintersemester 2012/13

[Punkt]  Sommersemester 2012

[Punkt]  Wintersemester 2011/12

[Punkt]  Sommersemester 2011

[Punkt]  Wintersemester 2010/11

[Punkt]  Sommersemester 2010

[Punkt]  Wintersemester 2009/10

[Punkt]  Sommersemester 2009

[Punkt]  Wintersemester 2008/09

[Punkt]  Sommersemester 2008

[Punkt]  Wintersemester 2007/08

[Punkt]  Sommersemester 2007

[Punkt]  Wintersemester 2006/07

[Punkt]  Sommersemester 2006

[Punkt]  Wintersemester 2005/06

[Punkt]  Sommersemester 2005

[Punkt]  Wintersemester 2004/05



Ansprechpartner

+49 30 2093-5466