[dbis logo]

.Lehre.Semesterübersicht
[Institut fuer Informatik] [Leerraum] [Humboldt-Universitaet zu Berlin]

Forschungsseminar: Neue Entwicklungen im Datenbankbereich

Dieses Seminar wird von Mitgliedern der Lehr- und Forschungseinheit als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

 

Das Seminar findet Donnerstags, von 11-13 Uhr in RUD25, Raum 3.113 statt. Ab KW47 gibt es einen neuen Raum und Termin: Mittwoch 11-13 Uhr in RUD25, Raum 4.112.

Termine

Datum Beginn Vortragende(r) Titel
15.11.2012 11:00 Uhr Martin Kost "Vorbereitungsvortrag für den METRIK-Evaluierungsworkshop"
29.11.2012 11:00 Uhr Daniel Janusz "Vorbereitungsvortrag für die SOAMED-Klausurtagung"
29.11.2012 11:00 Uhr Steffen Zeuch "Vorbereitungsvortrag für die SOAMED-Klausurtagung"
19.12.2012 11:00 Uhr Tino Schernickau "Geeignete Lastverteilungsalgorithmen und Statistiken für Stratosphere"
19.12.2012 11:45 Uhr Mathias Peters "Lokale Optimierung durch Nutzung alternativer Teilpläne in Stratosphere"
20.03.2013 11:45 Uhr Matthias Sax "Performance Optimization for Distributed Intra-Node-Parallel Streaming Systems"
(Probevortrag SMDB WS und Demo bei ICDE Brisbane)
27.03.2013 11:45 Uhr Dennis Schneider "Ansatz für einen Kostenschätzer"
27.03.2013 11:45 Uhr Robert Przewozny "Integrierte Statistiksammlung für Sopremo-Pläne"
03.04.2013 11:45 Uhr Alexander Pospiech "QuerySignatures"
03.04.2013 11:45 Uhr Tino Schernikau "Indexstrukur für verteilte Statistiken in Stratosphere"

Zusammenfassungen

"Probevortrag" (Martin Kost)

tba.

"Probevortrag" (Daniel Janusz)

tba.

"Probevortrag" (Steffen Zeuch)

tba.

Vorstellung der Studienarbeit "Geeignete Lastverteilungsalgorithmen und Statistiken für Stratosphere" (Tino Schernickau)

Stratosphere ist ein System zur massiv parallelen Datenverarbeitung auf Rechenclustern oder Cloud-Infrastrukturen. Als Programmiermodell für dieses System wurde das PACT-Modell entwickelt, das eine Erweiterung des MapReduce-Modells darstellt. In dieser Arbeit werden Lastverteilungsalgorithmen, die für MapReduce-Systeme entwickelt wurden, vorgestellt und auf den größten möglichen Nutzen für das Stratosphere-System untersucht. Dabei werden zwei Verfahren hinsichtlich Skalierbarkeit, Güte der Lastverteilung und der Anwendungsmöglichkeit auf das Stratosphere-System verglichen. Auf Grund des großen Nutzens der vom TopCluster-Algorithmus erzeugten Statisken für weitere Optimierungen des Stratosphere-Systems, wurde dieser Ansatz im Zuge dieser Arbeit implementiert und evaluiert.

"Lokale Optimierung durch Nutzung alternativer Teilpläne in Stratosphere" (Mathias Peters)

tba.

"Performance Optimization for Distributed Intra-Node-Parallel Streaming Systems" (Matthias Sax)

"Big Data" was recently characterized by Stronebraker by the 3 Vs: Volume, Velocity, and Variety. One requirement of velocity is low latency processing. MapReduce systems which are very popular in the big data domain are a good solution to tackle high data volumes. However, being batch oriented they do not provide low latency. Inspired by the MapReduce programming model—which provides valuable properties for exploiting data parallel computation—, new distributed streaming systems supporting intra-node parallelism have been developed. Examples of intra-node parallel streaming systems are Twitter's Storm, Yahoo!'s S4, and Walmart's Muppet.
The performance of these systems depends mainly on two parameters: the degree of parallelism for each node of the dataflow program as well as the batching size for each node. In the state-of-the-art systems the user has to specify those values manually. Manual tuning of both parameters is necessary in order to get good performance. However, this process is difficult and time consuming—even for experts. In this talk we introduce and optimization algorithm that optimizes both parameters automatically. We define a novel cost model for intra-node parallel dataflow programs with user-defined functions. Furthermore, we introduce different batching schemes to reduce the number of output buffers, i.e., main memory consumption. We implemented our approach on top of the open source system Storm and ran experiments with different workloads. Our results show a throughput improvement of more than one order of magnitude while the optimization time is less than a second.

"Ansatz für einen Kostenschätzer" (Dennis Schneider)

Im Vortrag wird ein Kostenschätzer für verteilte Datenverarbeitungssysteme beschrieben. Er bewertet als DAG vorliegende Ausführungspläne mit einem Kostenmodell. Für jeden Teilplan werden verschiedene Kostenkomponenten und statistische Eigenschaften des Ergebnisses berechnet. Die Eigenschaften und Kosten sind mit einer Unsicherheit behaftet, welche angibt, wie sicher sich der Schätzer ist, dass diese Werte zutreffen. Stammen die statistischen Daten aus Messungen während der Ausführungen, sind sie akkurat. Werden sie jedoch aus gemessenen oder gar abgeleiteten Eigenschaften berechnet, steigt die Unsicherheit. Der Umgang mit dieser Unsicherheit wird im Vortrag ausgeführt. Der Kostenschätzer wird innerhalb von Stratosphere entwickelt, ist aber plattformunabhängig.

"Integrierte Statistiksammlung für Sopremo-Pläne" (Robert Przewozny)

Das Ziel dieser Diplomarbeit im Forschungsprojekt Stratosphere ist die Implementierung einer integrierten Statistiksammlung, um eine Kostenschätzung von Sopremo-Plänen zu ermöglichen. Sopremo, das algebraische Operatormodell von Stratosphere, unterstützt die Einbettung von benutzerdefinierten Funktionen in eine Anfrage. Die Eigenschaften der Ausgabe einer benutzerdefinierten Funktion können ohne zusätzliches Wissen nur unzureichend geschätzt werden und können erst durch das Sammeln von Statistiken oder Stichproben zur Laufzeit ermittelt werden. Neben den Statistiken über den Eingabedaten eines Sopremo-Plans sollen daher auch Statistiken über den Zwischenergebnissen von ausgewählten Teilplänen gesammelt werden. Hierbei ergibt sich eine große Menge möglicher Teilpläne und Statistiken, deren vollständige Berechnung in der Regel unverhältnismäßig ist. Bei der Auswahl der zu berechnenden Statistiken kommen Metriken zum Einsatz, um die Kandidaten basierend auf der aktuellen Workload zu bewerten. Dies hat zum Ziel, Statistiken nur über den Ergebnissen häufig wiederkehrender Teilpläne zu sammeln. Die Ausführung der Statistiksammlung soll nicht in einem separaten Prozess erfolgen, sondern transparent in die Ausführung von Benutzeranfragen integriert werden. Für eine integrierte Statistiksammlung wird ein Anfrageplan vor seiner Ausführung erweitert, sodass dieser zusätzlich eine Menge von statistischen Werten berechnet. Für die Integration kommen jedoch nur solche Statistiken in Betracht, deren Berechnung einen benutzerdefinierten Mehraufwand nicht überschreitet. Ein Schwerpunkt dieser Arbeit ist die Entwicklung von Algorithmen zur Suche nach geeigneten Kandidaten sowie zur Integration der Statistiksammlung in einen gegebenen Sopremo-Plan.

"QuerySignatures" (Alexander Pospiech)

Es besteht ein Trend in neueren, massiv parallelen Datenverarbeitungsumgebungen, immer komplexere Anfragen zu stellen. Einerseits vereinfacht der Einsatz von DAG-strukturierten Anfragen die Definition komplexer Aufgaben. Andererseits wird eine Unterstützung bekannter, neuer und benutzerdefinierter Operatorklassen erwartet. Anfrage-DAGs, die teilweise aus semantisch unbekannten Operatoren zusammengesetzt sind, haben einen Nachteil. Es sind Informationen über die physikalische Anordnung der Operatoren enthalten, die jedoch für die Anfragesemantik unerheblich sind. Als Lösung wird der Mechanismus QuerySignatures vorgestellt. Eine QuerySignature ist eine Abbildung einer DAG-strukturierten Anfrage auf eine komprimierte Darstellung der Anfragesemantik. Als Erweiterung der Sopremoebene des Projekts Stratosphere wird eine anfragebasierte Statistikarchitektur die QuerySignatures nutzen. In dieser neuartigen Statistikarchitektur sind QuerySignatures Identifizierer für anfragebasierte Statistiken.

"Indexstrukur für verteilte Statistiken in Stratosphere" (Tino Schernikau)

Zur Optimierung der Verarbeitung von Rechenaufträgen in Stratosphere, werden alternative Ausführungspläne der Rechenaufträge erzeugt und anhand von Statistiken bewertet. Ein Rechenauftrag besteht in Stratosphere aus beliebig vielen Datenverarbeitungsoperationen, für deren Ein- und Ausgabedaten jeweils mehrere Statistiken erzeugt werden können. Diese Statistiken werden auf einer potentiell sehr großen Anzahl von Rechenknoten erzeugt und gespeichert. Ziel der Arbeit ist der Entwurf einer kompakten Indexstruktur zum schnellen Zugriff auf die Statistiken. Dazu werden insbesondere Indizierungsmethoden aus dem Bereich des Information Retrieval auf ihre Anwendbarkeit untersucht.



[Punkt]  Sommersemester 2019

[Punkt]  Wintersemester 2018/19

[Punkt]  Sommersemester 2018

[Punkt]  Wintersemester 2017/18

[Punkt]  Sommersemester 2017

[Punkt]  Sommersemester 2016

[Punkt]  Wintersemester 2015/16

[Punkt]  Sommersemester 2015

[Punkt]  Wintersemester 2014/15

[Punkt]  Sommersemester 2014

[Punkt]  Wintersemester 2013/14

[Punkt]  Sommersemester 2013

[aktiver Punkt]  Wintersemester 2012/13

[Punkt]  Sommersemester 2012

[Punkt]  Wintersemester 2011/12

[Punkt]  Sommersemester 2011

[Punkt]  Wintersemester 2010/11

[Punkt]  Sommersemester 2010

[Punkt]  Wintersemester 2009/10

[Punkt]  Sommersemester 2009

[Punkt]  Wintersemester 2008/09

[Punkt]  Sommersemester 2008

[Punkt]  Wintersemester 2007/08

[Punkt]  Sommersemester 2007

[Punkt]  Wintersemester 2006/07

[Punkt]  Sommersemester 2006

[Punkt]  Wintersemester 2005/06

[Punkt]  Sommersemester 2005

[Punkt]  Wintersemester 2004/05



Ansprechpartner

+49 30 2093-5466