[dbis logo]

.Lehre.Semesterübersicht
[Institut fuer Informatik] [Leerraum] [Humboldt-Universitaet zu Berlin]

Forschungsseminar: Neue Entwicklungen im Datenbankbereich

Dieses Seminar wird von Mitgliedern der Lehr- und Forschungseinheit als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

 

Das Seminar findet Mittwochs von 13-15 Uhr in RUD25, Raum 4.113 statt. Wer per Email Einladungen zum Forschungsseminar erhalten möchte, sendet bitte eine Email an Thomas Morgenstern um sich in die Mailingliste ein- bzw. austragen zu lassen.

Termine

Datum Beginn Raum Vortragende(r) Titel
30.07.2015 11:30 Uhr s.t. RUD25 3.113 Dimitar Dimitrov "Implementierung von Algorithmen zur Datenanonymisierung in DB2"
10.06.2015 14 Uhr c.t. RUD25 4.113 Schahin Tofangchi "Estimation of Multimodal Probability Distributions in Distributed Database Management Systems"
10.06.2015 13 Uhr c.t. RUD25 4.113 Robin Ellerkmann "Vergleich dreier Implementationsvarianten für eine Analyse von Satellitenbildern"
20.05.2015 13 Uhr c.t. RUD25 4.113 Tim Kiefer "Allocation Strategies for Data-Oriented Architectures"
13.05.2015 14 Uhr s.t. RUD25 4.113 Marten Richert "Ausfallsicherheit für datenstromverarbeitende Operatoren in Stratosphere"
22.04.2015 13 Uhr c.t. RUD25 4.113 Alexander Pospiech "Klassifikatoren für Anfrageausführungspläne"
15.04.2015 13 Uhr c.t. RUD25 4.113 Fabian Schulz "Konzept und Implementation eines Experimentiersystems für Event Pattern Matching Algorithmen"

Zusammenfassungen

"Implementierung von Algorithmen zur Datenanonymisierung in DB2" (Dimitar Dimitrov)

Zahlreiche Organisationen und Firmen erfassen personenbezogene Informationen über Individuen, wie z.B. Einkommen, verschriebene Medikamente oder Krankheiten. In vielen Fällen ist es wünschenswert, dass diese Daten anonymisiert an Dritte weitergegeben werden, z.B. für medizinische Studien. Die Weitergabe erfolgt in der Form von Mikrodaten. Mikrodaten bezeichnen nicht aggregierte Information. Aus Datenschutzgründen werden dabei in vielen Fällen personenbezogene Daten, wie z.B. der Name, die Kontonummer oder Matrikelnummer, entfernt. Dieser Vorgang wird De-Identifikation genannt. Da die De-Identifikation von Mikrodaten nicht ausreichend für eine Anonymisierung ist, wurden erweiterte Konzepte zum Anonymisieren von Mikrodaten entwickelt. Samarati und Sweeney haben das Konzept der k-Anonymity vorgestellt. Durch Veränderung der Werte in den Mikrodaten, wird sichergestellt, dass die Identifikation von Individuen nicht eindeutig möglich ist. Machanavajjhala et al. haben gezeigt, dass Angriffe auf k-anonymisierte Tabellen existieren. Um dem entgegenzuwirken, entwickelten sie das Konzept l-Diversity. Dabei werden weitere Anforderungen an die anonymisierten Mikrodaten gestellt. Anhand dieser Konzepte sind mehrere Anonymisierungslagorithmen entstanden. Zur Implementierung von Algorithmen zur Datenanonymisierung bieten sich Datenbanksysteme an. Viele Datenbankmanagementsysteme (DBMS) erlauben es, ihre Funktionalität auf verschiedenen Wegen zu erweitern. Routinen in DBMS ermöglichen die Ausführung von komplexer Logik auf Daten. Nach bestem Wissen existieren bislang keine Veröffentlichungen, welche die Implementierung der Anonymisierungsalgorithmen als DBMS-Routinen thematisieren. Die Implementierung von Konzepten zur Datenanonymisierung in einem Datenbanksystem bietet ein lohnendes Forschungsfeld, da für die Anonymisierung von Mikrodaten nur wenige Werkzeuge frei verfügbar sind. Routinen werden auf dem Datenbankserver durch das DBMS ausgeführt. Wird die entsprechende Routine aufgerufen, bekommt der Benutzer als Ergebnis eine anonymisierte Tabelle in der Datenbank. Routinen sind eng mit der Datenbank verknüpft, was eine schnelle Ausführung erlaubt.

"Estimation of Multimodal Probability Distributions in Distributed Database Management Systems" (Schahin Tofangchi)

Cardinality estimation is one of the tasks a database management system’s query optimiser deals with to evaluate different join orders. In order to perform this cardinality estimation, equal-width and equal-depth histograms are often used to provide statistical information about the data. However, the former often suffer from inaccuracies and the latter from a high space consumption that linearly depends on the amount of data. This work will describe and evaluate two alternative methods for describing data distributions in a more compact and accurate way, while taking possible multimodality into account. One of these methods relies on kernel density estimators. The second method attempts at fitting functions at intervals, using a predefined set of parameterised probability distribution functions, where distinctive properties of the intervals are used to determine the most suitable function. Furthermore, since the topic of Big Data is becoming increasingly important, we will focus on distributed ways of computing the required representations and use Apache Flink’s Parallelization Contracts for this purpose.

"Vergleich dreier Implementationsvarianten für eine Analyse von Satellitenbildern" (Robin Ellerkmann)

Um Informationen über die globale Entwicklungen von Wäldern zu erhalten, werden fortlaufend geographische Regionen durch Fernerkundungssatelliten kartiert. Um die entstehenden Satellitenaufnahmen und die dazugehörigen Metadaten in akzeptabler Zeit analysieren zu können, muss eine große Menge an Daten verarbeitet werden. Die bislang genutzten, sequentiell arbeitenden Algorithmen skalieren jedoch nicht gut genug, um sie auch zukünftig zu nutzen. Ziel dieser Bachelorarbeit ist die Evaluierung eines massiv parallelisierten Verarbeitungsansatzes mithilfe des Datenverarbeitungssystems Flink. Dabei soll untersucht werden, ob dieser eine schnellere Laufzeit und eine bessere Skalierbarkeit aufweist als der aktuell eingesetzte Python-Algorithmus.

"Allocation Strategies for Data-Oriented Architectures" (Tim Kiefer, TU Dresden)

The principle of data-orientation, i.e., tight coupling of data and the processing of them, has been adopted by various systems across the database-management system stack. Advisors and automatic optimization mechanisms are mandatory to make data-oriented architectures successful in large systems and to keep them manageable in the presence of scale-out as well as scale-in scenarios and dynamic workloads. The goal of this work is to investigate and experimentally evaluate allocation strategies that automatically assign work items to resource nodes in data-oriented architectures.

Ausfallsicherheit für datenstromverarbeitende Operatoren in Stratosphere (Marten Richert)

Zur Verarbeitung großer, kontinuierlich erzeugter Datenmengen kommen parallel-verteilte datenstromverarbeitende Systeme (PV-DSVS) zum Einsatz. PV-DSVS erlauben die Verteilung einer einzelnen Anwendung auf hunderte unabhängige Rechenknoten eines Clusters. Eine Datenstromanwendung wird dazu als Anfragegraph bestehend aus Operatoren und Datenströmen zwischen Operatoren beschrieben. Außerdem kann ein Operator durch Partitionierung seiner Eingangsdatenströme parallel auf mehreren Rechenknoten ausgeführt werden. Die Rechenknoten eines PV-DSVS können einzeln ausfallen und müssen während der Ausführung einer Datenstromanwendung automatisiert wiederhergestellt werden. Dabei ist die exakte Wiederherstellung zustandsbehafteter Operatoren nötig, damit das kontinuierlich ausgegebene Verarbeitungsergebnis das gleiche ist, wie bei einer Verarbeitung ohne Auftreten des Ausfalls. Es existieren verschiedene Fehlertoleranzverfahren, die sich bei der Wiederherstellungszeit, in puncto Mehraufwand während des fehlerfreien Betriebs und beim Ressourcenbedarf unterscheiden. Für das PV-DSVS Stratosphere werden drei Fehlertoleranzverfahren mit geringem zusätzlichen Ressourcenbedarf betrachtet und angepasst. Das sind zwei Verfahren, bei denen Teildatenströme ausschließlich wiederholt werden, sowie ein Verfahren, welches die Datenstruktur des Operatorzustands regelmäßig auf Vorgängerknoten sichert. Die exakte Wiederherstellung des Verarbeitungszustands einer Anwendung erfordert deterministische Operatorinstanzen. Die Arbeit beschreibt ein Modell der parallel-verteilten Datenstromverarbeitung, welches es erlaubt, die Komponenten einer Operatorinstanz zu bestimmen, an denen Nicht-Determinismus entsteht. Darauf aufbauend wurde ein Verfahren zur Vergabe expliziter Zeitstempel entworfen, welches die deterministische Verarbeitung erzwingt. Die Implementation der drei Fehlertoleranzverfahren in Stratosphere sowie die Untersuchung der Wiederherstellungszeit und des Mehraufwands anhand einer Beispielanwendung führten zu wesentlichen Erkenntnissen über die Einsatzmöglichkeiten der Verfahren, welche ebenfalls erörtert werden.

"Klassifikatoren für Anfrageausführungspläne " (Alexander Pospiech)

In der modernen Datenverarbeitung sind durch technologische Neuerungen neue Dimensionen in Bezug auf die Größe der Daten und Anfragen nutzbar. Deswegen werden in allen Teilbereichen der Datenbankforschung alte Technologien adaptiert oder innovative Ansätze entworfen. Die Optimierung von Anfragen bleibt eine der Kernkomponenten für die effiziente Datenverarbeitung. Für die Optimierung von Anfragen sind unter anderem aussagekräftige Statistiken über die Daten und die verwendeten Operationen sehr hilfreich. Mit der Veränderung des Kontextes, durch größere Datenmengen, soll und muss die Herangehensweise an die Sammlung, Verwaltung und Verwendung von Statistiken über vorhandene und erzeugte Daten angepasst werden. Als Identifikator für anfragebasierte Statistiken eignet sich jedoch weder die Repräsentation einer rein logischen Anfrage, noch ein physischer QEP. Es soll ein alternativer, effizienter Mechanismus zur Klassifikation von Anfrageausführungsplänen gefunden werden.

Konzept und Implementation eines Experimentiersystems für Event Pattern Matching Algorithmen (Fabian Schultz)

Beim Event Pattern Matching (EPM) wird ein zeitlich geordneter Eingabestrom von Ereignissen (Event) mit einem Muster (Pattern) verglichen. Die Ausgabe ist eine Menge von Treffern (Matches) für das Muster im Eingabestrom. Anwendung findet EPM in vielen Bereichen, wie zum Beispiel in der RFID-Lagerverwaltung, bei der Clickstream-Analyse, in Gesundheitsinformationssystemen und im Finanzsektor. Verschiedene Algorithmen wurden bereits vorgeschlagen, um das EPM-Problem zu lösen. Allerdings gibt es aktuell keine einheitliche Methode, um die Stärken und Schwächen von EPM-Algorithmen zu untersuchen und um EPM-Algorithmen objektiv zu vergleichen. Ziel dieser Studienarbeit ist ein Experimentiersystem für EPM-Algorithmen zu konzipieren und zu implementieren. Damit sollen sowohl Stärken und Schwächen einzelner Algorithmen untersucht als auch Algorithmen miteinander verglichen werden können.



[Punkt]  Sommersemester 2019

[Punkt]  Wintersemester 2018/19

[Punkt]  Sommersemester 2018

[Punkt]  Wintersemester 2017/18

[Punkt]  Sommersemester 2017

[Punkt]  Sommersemester 2016

[Punkt]  Wintersemester 2015/16

[aktiver Punkt]  Sommersemester 2015

[Punkt]  Wintersemester 2014/15

[Punkt]  Sommersemester 2014

[Punkt]  Wintersemester 2013/14

[Punkt]  Sommersemester 2013

[Punkt]  Wintersemester 2012/13

[Punkt]  Sommersemester 2012

[Punkt]  Wintersemester 2011/12

[Punkt]  Sommersemester 2011

[Punkt]  Wintersemester 2010/11

[Punkt]  Sommersemester 2010

[Punkt]  Wintersemester 2009/10

[Punkt]  Sommersemester 2009

[Punkt]  Wintersemester 2008/09

[Punkt]  Sommersemester 2008

[Punkt]  Wintersemester 2007/08

[Punkt]  Sommersemester 2007

[Punkt]  Wintersemester 2006/07

[Punkt]  Sommersemester 2006

[Punkt]  Wintersemester 2005/06

[Punkt]  Sommersemester 2005

[Punkt]  Wintersemester 2004/05



Ansprechpartner

+49 30 2093-5466