[dbis logo]

.Lehre.Semesterübersicht
[Institut fuer Informatik] [Leerraum] [Humboldt-Universitaet zu Berlin]

Forschungsseminar: Neue Entwicklungen im Datenbankbereich

Dieses Seminar wird von Mitgliedern der Lehr- und Forschungseinheit als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

 

Termine

Datum Beginn Raum Vortragende(r) Titel
10.07.2013 11:00 Uhr c.t. RUD 25, 3.113 Christian Fiebrig "Generierung und Vergleich von Charakteristika von Umweltsystemen in Zeitmessreihen"
12.06.2013 11:00 Uhr c.t. RUD 25, 3.113 Periklis Andritsos "Finding and extracting structure in large datasets"
12.06.2013 10:00 Uhr s.t. RUD 25, 4.110 Jan Hendrik Nielsen "Verteilte Anonymisierung von vertikal partitionierten Daten"
05.06.2013 11:00 Uhr RUD 25, 3.113 Robert, Alexander, Dennis und Tino "Introduction to and Demo of the Statistics Framework in Stratosphere"
29.05.2013 11:00 Uhr c.t. RUD 25, 3.113 Bruno Cadonna "Sequenced Event Set Pattern Matching"
08.05.2013 12:00 Uhr RUD 25, 3.113 Daniel Will "Splitting Dataflows for Alternative Subplan Execution in Stratosphere"
08.05.2013 11:15 Uhr RUD 25, 3.113 Max Schultze "Erweiterung des Algorithmus zur Aufzählung äquivalenter PACT-Pläne in Stratosphere"

Zusammenfassungen

"Generierung und Vergleich von Charakteristika von Umweltsystemen in Zeitmessreihen mittels Stratosphere" (Christian Fiebrig)

Im Rahmen der Diplomarbeit wurde ein Multi-Resolution-Verfahren untersucht, um Ähnlichkeiten von geowissenschaftlichen Zeitmessreihen zu ermitteln. Solche Zeitmessreihen, bestehend aus üblicherweise mehreren hunderten oder tausenden räumlichen Zuständen, werden auf ihre Ähnlichkeit zueinander hin analysiert, um das Verhalten und Wechselwirkungen des untersuchten Umweltsystems in zeitlicher und räumlicher Hinsicht herauszufinden. Mit dem hier vorgestellten Verfahren ist es möglich, Eigenschaften nach ihrem räumlichen Auftreten zu bewerten, indem eine räumliche Pyramide über die Zustände erstellt wird und Eigenschaften, die in dieser Pyramide liegen, miteinander verglichen werden. Der Ansatz wurde in Stratosphere implementiert und mit verschiedenen Konfigurationen gegen eine andere Vergleichsmethode (SSE) bezüglich Laufzeit und Güte untersucht.

"Finding and extracting structure in large datasets" (Periklis Andritsos)

Data design has been characterized as a process of arriving at a design that maximizes the information content of each piece of data (or equivalently, one that minimizes redundancy). Information content (or redundancy) is measured with respect to a prescribed model for the data, a model that is often expressed as a set of constraints. In this talk, I consider the problem of doing data redesign in an environment where the prescribed model is unknown or incomplete or is the result of integrated information. Specifically, I consider the problem of finding structural clues in a relational instance of data, missing values, and duplicate records. We propose a set of clustering-based information-theoretic tools for finding structural summaries that are useful in characterizing the information content of the data, and ultimately useful in the design of new relational storage spaces. We study the use of summaries in one specific physical design task. I also show how these information-theoretic tools can assist in information extraction tasks and the building of attribute dictionaries in unstructured repositories of product data.

"Verteilte Anonymisierung von vertikal partitionierten Daten" (Jan Hendrik Nielsen)

Das Erheben und Verarbeiten von sensiblen, personenbezogenen Informationen zur statistischen Auswertung ist im medizinischen Umfeld unerlässlich. Aufgrund der Vertraulichkeit der Daten kann eine Veröffentlichung ausschließlich anonymisiert erfolgen. Die De-Identifikation der Daten durch das Entfernen direkt identifizierender Attribute wie dem Namen reicht jedoch nicht aus um die Privatsphäre eines Individuums zu schützen. Moderne Konzepte zum Schutz der Privatsphäre schaffen die Voraussetzung zur Veröffentlichung der Daten unter Einhaltung strenger Datenschutzrichtlinien. Das Konzept der k-Anonymisierung ermöglicht eine Veröffentlichung der Daten ohne deren Semantik zu verändern. Zu diesem Zweck folgt das Prinzip der k-Anonymisierung syntaktischen Vorgaben bezüglich der Form der Veröffentlichung. Die t-Closeness stellt eine vielbeachtete Weiterentwicklung der k-Anonymisierung dar. Sie bezieht die Semantik der Daten in die Anonymisierung ein. Diese Konzepte wurden jedoch nicht für die Anonymisierung räumlich getrennter Daten entwickelt. Dieses Problem entsteht durch die zunehmende Dezentralisierung von Daten. Vielfach erheben verschiedene Institutionen Daten unterschiedlicher Semantik über die gleiche Person. Diese vertikale Partitionierung der Daten stellt neue Anforderungen an Verfahren zum Schutz der Privatsphäre. Während Methoden der dezentralen Anonymisierung mithilfe der k-Anonymisierung existieren, ist dies für das Konzept der t-Closeness nicht der Fall. Die Diplomarbeit analysierte Anforderungen, unter denen eine verteilte Datenanonymisierung über vertikal partitionierten Daten mittels des Konzepts der t-Closeness möglich ist. Auf dieser Grundlage wurde ein kryptografisches Protokoll zur verteilten Datenanonymisierung mithilfe der t-Closeness konzeptionell entwickelt.

"Sequenced Event Set Pattern Matching" (Bruno Cadonna)

Event pattern matching is a query technique where an input stream of events is matched against a pattern. The output consists of matches of the pattern in the input events. Event pattern matching is widely applicable in different domains and is regarded as one of the most important building blocks for the construction of event processing applications. Current solutions for event pattern matching allow to formulate patterns that match a sequence of single events imposing one specific order. The support for matching all permutations of events is limited. In this talk, I introduce and formally define the sequenced event set (SES) pattern matching problem, which is the problem of matching a stream of input events against a complex pattern that specifies a sequence of sets of events rather than a sequence of single events. Events that match a set specified in the pattern can occur in any permutation, whereas events that match different sets have to follow the order of the sets in the pattern. I am going to present SES automata for the evaluation of SES pattern matching and a two-phase evaluation strategy that improves the performance of event pattern matching algorithms in general.

"Introduction to and Demo of the Statistics Framework in Stratosphere"

Currently different optimizers for Sopremo are under development. Statistical information about the data that is queried may help the optimizer to make better decisions on which plan to choose over another. Therefore we developed a framework and infrastructure inside Stratopshere that enables Statistics Collection.
Key design ideas for the Statistics Framework where to (1) make it extensible, (2) enable statistics on subexpressions (Sopremo-Plans) (3) enable online and offline statistics collection within the same infrastructure, and (4) exploit properties of relational algebra theory.
Now the main infrastructure and interfaces of the Statistics Framework are implemented. In this talk we want to introduce the framework briefly and to demo the system "on air" with a few examples.

"Splitting Dataflows for Alternative Subplan Execution in Stratosphere" (Daniel Will)

When considering a sequence of interchangeable Match operators that join multiple input data sets, a monolithic execution plan is not always the best choice. This work discusses the possibility of using multiple possible join orders in parallel. It introduces a Split operator that decides which plan should be used for each record. The operator uses top cluster histograms in order get information on how many possible join partners exist for each record. It effectively chooses the best possible join order for each record of the largest data set. This potentially enhances the computation time for heavily skewed data sets by reducing the size of the intermediate join results.

"Erweiterung des Algorithmus zur Aufzählung äquivalenter PACT-Pläne in Stratosphere" (Max Schultze)

Stratosphere ist ein System zur parallelen Verarbeitung großer Datenmengen. Für das dem zugrunde liegende PACT-Programmiermodell existiert ein Algorithmus zur Aufzählung äquivalenter Datenflussgraphen auf Basis der Vertauschbarkeit von Operatoren. Der Algorithmus ist jedoch nur auf linearen Datenflussgraphen definiert, was nicht ausreicht, um alle möglichen Datenflüsse zu betrachten. In dieser theoretischen Arbeit wird der Algorithmus schrittweise auf beliebige DAGs erweitert. Zuerst werden PACT-Operatoren mit zwei Eingängen hinzugefügt und nachfolgend die Option ausgehende Datenflüsse zu duplizieren. Dadurch werden die betrachteten Datenflussgraphen zuerst auf Bäume und anschließend auf DAGs erweitert. Im Vortrag werden die schrittweisen Erweiterungen der Arbeit vorgestellt, sowie eine Abschätzung der Effizienz des entwickelten Algorithmus.



[Punkt]  Sommersemester 2019

[Punkt]  Wintersemester 2018/19

[Punkt]  Sommersemester 2018

[Punkt]  Wintersemester 2017/18

[Punkt]  Sommersemester 2017

[Punkt]  Sommersemester 2016

[Punkt]  Wintersemester 2015/16

[Punkt]  Sommersemester 2015

[Punkt]  Wintersemester 2014/15

[Punkt]  Sommersemester 2014

[Punkt]  Wintersemester 2013/14

[aktiver Punkt]  Sommersemester 2013

[Punkt]  Wintersemester 2012/13

[Punkt]  Sommersemester 2012

[Punkt]  Wintersemester 2011/12

[Punkt]  Sommersemester 2011

[Punkt]  Wintersemester 2010/11

[Punkt]  Sommersemester 2010

[Punkt]  Wintersemester 2009/10

[Punkt]  Sommersemester 2009

[Punkt]  Wintersemester 2008/09

[Punkt]  Sommersemester 2008

[Punkt]  Wintersemester 2007/08

[Punkt]  Sommersemester 2007

[Punkt]  Wintersemester 2006/07

[Punkt]  Sommersemester 2006

[Punkt]  Wintersemester 2005/06

[Punkt]  Sommersemester 2005

[Punkt]  Wintersemester 2004/05



Ansprechpartner

+49 30 2093-3927