[dbis logo]

.Lehre.Semesterübersicht
[Institut fuer Informatik] [Leerraum] [Humboldt-Universitaet zu Berlin]

Forschungsseminar: Neue Entwicklungen im Datenbankbereich

Dieses Seminar wird von Mitgliedern der Lehr- und Forschungseinheit als Forum der Diskussion und des Austauschs genutzt. Studierende und Gäste sind herzlich eingeladen.

 

Das Seminar findet Mittwochs von 11-13 Uhr c.t. in RUD25, Raum 3.113 statt. Wer per Email Einladungen zum Forschungsseminar erhalten möchte, sendet bitte eine Email an Thomas Morgenstern um sich in die Mailingliste ein- bzw. austragen zu lassen.

Termine

Datum Beginn Raum Vortragende(r) Titel
14.10.2015 11:00 Uhr c.t. RUD25 3.113 Oleg Geger Kaskadierungseffekt beim Skalieren von Operatoren in Datenstromverarbeitungssystemen
11.11.2015 11:00 Uhr c.t. RUD25 4.410 Moritz Borgmann Vergleich von SciDB und Stratosphere zur Verarbeitung von Satellitenbildern
25.11.2015 11:00 Uhr c.t. RUD25 4.410 Alexander Konrad Searching in Indexed Time Series by Cascading Lower Bounds of Distance Measures
20.01.2016 11:00 Uhr c.t. RUD25 3.113 Daniel Lunow The Effect of Prefetching in Modern CPUs
Benjamin Hauskeller Indexed Subsequence Search
10.02.2016 11:00 Uhr c.t. RUD25 3.113 Mihail Vieru Graph Distance and Textual Similarity Joins on Big Data using Apache Flink

Zusammenfassungen

"Kaskadierungseffekt beim Skalieren von Operatoren in Datenstromverarbeitungssystemen" (Oleg Geger)

Heutzutage müssen große, oft unendliche Datenströme annähernd in Echtzeit verarbeitet werden. Ein Datenstromverarbeitungssystem koordiniert dabei mehrere Operatoren, die jeweils eine Teilaufgabe parallel zu den anderen Operatoren bearbeiten. Jeder Operator wird in der Regel mehrfach instanziiert. Die erreichte Parallelität soll bei der Datenverarbeitung einen Mindestdurchsatz bzw. eine Höchstlatenz sicherstellen. Da der Datenstrom plötzlich wachsen kann, ist es notwendig Operatoren zu skalieren. Dabei werden neue Instanzen des Operators erstellt. In diesem Vortrag geht es um einen bisher unbehandelten Effekt, der bei der Skalierung auftreten und negative Auswirkungen auf Latenz und Durchsatz haben kann.

"Vergleich von SciDB und Stratosphere zur Verarbeitung von Satellitenbildern" (Moritz Borgmann)

Wissenschaftliche Datensätze aus der Klimatologie, Physik, Astronomie oder Geofernerkundung sind häufig sehr groß und als Arrays strukturiert. Im Rahmen dieses Vortrag werden zwei Systeme vorgestellt, die geeignet scheinen Queries an einen solchen Datensatz zu verarbeiten: SciDB und Flink. Anhand reeller Daten aus den Landsat-Archiven werden zunächst Struktur und besondere Eigenheiten solcher Daten erläutert, bevor für beide System die Implementation eines Histograms präsentiert wird. Abschließend werden die Systeme unter den gegebenen Umständen gegenübergestellt.

"Searching in Indexed Time Series by Cascading Lower Bounds of Distance Measures" (Alexander Konrad)

In recent years, many applications have been developed to query relational data structures. Relational databases are based on the concept of exact searching with exact keys. In contrast, databases containing new data types like images, free text, or audio usually are queried using similarity search. Some of these data types can be interpreted as time series and are very common in our environment. Examples include stock markets, traces of moving objects like taxi routes, and electrocardiograms. To compare time series, similarity measures have been developed. The computation of similarity measures like Dynamic Time Warping (DTW) is expensive. To speed up the computation time, the quantity of executions of the distance measure needs to be reduced. Index structures help to prune unpromising candidates. This thesis examines whether lower bounds of distance measures can be used to prune a reasonable number of candidates stored in an index structure.

"The Effect of Prefetching in Modern CPUs" (Daniel Lunow)

Over the last decades the gap between CPU and memory speeds has increased by several orders of magnitude. Chip designers have invented many sophisticated features to hide the latency of main memory operations for general-purpose applications like DBMSs. One of the most effective strategies to overcome this gap was the introduction of CPU cache memory. In order to improve the cache hit ratio, modern CPUs use hardware prefetching to load data into the cache just before it is needed. This thesis explores the performance effects of hardware prefetching during query execution by benchmarking select queries in a column-oriented in-memory database using different hardware prefetcher settings disclosed by Intel® in 2014.

"Indexed Subsequence Search" (Benjamin Hauskeller)

Time series have become a popular data structure to model data in various domains. They are used to model stock data as well as DNA, proteins, or even multimedia data such as videos and audio streams. Problems, such as video copy detection, can be solved via Subsequence Search. Here, we compare a query object with all suitable subsequences of a data set. The problem with Subsequence Search is, that the amount of comparisons grows quadratically with the data set’s size. Thus, techniques were developed to reduce the amount of comparisons. In our thesis we want to optimize one of those techniques, namely the TwinTree, which is an index structure.

"Graph Distance and Textual Similarity Joins on Big Data using Apache Flink" (Mihail Vieru)

A common operation for big data analysis platforms such as Apache Flink is the joining of data sets with both graph and textual dimensions. Graph data may be a representation of a social network like Facebook or of a collection of linked documents like the World Wide Web. In the latter case, the text contained in a web site can be represented as a set of words. Web sites are interconnected through hyperlinks that represent the graph edges. A frequent operation on this data is finding all vertex pairs containing similar textual information in the graph, e.g. users with similar interests or web sites with similar content. A usual condition posed is that the vertices must be within a specified distance from each other, i.e., the number of connecting edges must not exceed a specified threshold value. In this thesis we have designed, implemented and evaluated joins that combine both textual similarity and graph distance at the same time using Apache Flink. We have focused our work on the efficient combination of parallel and distributed approaches for the all-pairs-shortest-path and set similarity join problems.



[Punkt]  Sommersemester 2019

[Punkt]  Wintersemester 2018/19

[Punkt]  Sommersemester 2018

[Punkt]  Wintersemester 2017/18

[Punkt]  Sommersemester 2017

[Punkt]  Sommersemester 2016

[aktiver Punkt]  Wintersemester 2015/16

[Punkt]  Sommersemester 2015

[Punkt]  Wintersemester 2014/15

[Punkt]  Sommersemester 2014

[Punkt]  Wintersemester 2013/14

[Punkt]  Sommersemester 2013

[Punkt]  Wintersemester 2012/13

[Punkt]  Sommersemester 2012

[Punkt]  Wintersemester 2011/12

[Punkt]  Sommersemester 2011

[Punkt]  Wintersemester 2010/11

[Punkt]  Sommersemester 2010

[Punkt]  Wintersemester 2009/10

[Punkt]  Sommersemester 2009

[Punkt]  Wintersemester 2008/09

[Punkt]  Sommersemester 2008

[Punkt]  Wintersemester 2007/08

[Punkt]  Sommersemester 2007

[Punkt]  Wintersemester 2006/07

[Punkt]  Sommersemester 2006

[Punkt]  Wintersemester 2005/06

[Punkt]  Sommersemester 2005

[Punkt]  Wintersemester 2004/05



Ansprechpartner

+49 30 2093-3016