Navigation: Teaching / Summer Semester 2017
Sunday, 2017-04-23

Softwarepraktikum: Data Mining

Algemeines

Der Lehrstuhl für Datenbanksysteme bietet im Wintersemester 2013/14 eine Reihe von Anfänger- und Fortgeschrittenenpraktika an. Zur genauen Erläuterung der Themen wird es in der ersten Vorlesungswoche eine Vorbesprechung geben. Die Praktika sind darauf angelegt im Wintersemester (inkl. Semesterferien) bearbeitet zu werden.

Vorbesprechung

  • (vorbei) Mittwoch 16. Oktober 2013 14:00 Uhr (INF 368, R248)

Empfohlene Vorkenntnisse: Je nach Projekt Kenntnisse in Java, Python und grundlegende Statistik und Data Mining Kenntnisse.

Leistungsnachweis:
 Voraussetzung für die Vergabe von Leistungspunkten (Anfänger: 3 ECTS, Fortgeschrittenen: 6 ECTS) sind Bearbeitung und der Abschluss des Projekts sowie ein kurzer Bericht.

Teilnehmer: Das Praktikum wendet sich an Informatik-Studierende im Haupt- oder Nebenfach.

Allgemeine Informationen: Christian Sengstock, sengstock@informatik.uni-heidelberg.de, INF 348, Raum 12d.

Themen

Die Praktika (AP: Anfänger, FP: Fortgeschritten) werden von unterschiedlichen Mitarbeitern betreut. Bitte wenden Sie sich bei Interesse direkt an den jeweiligen Mitarbeiter:

  • JS: Jannik Strötgen, stroetgen@informatik.uni-heidelberg.de
  • TB: Thoman Bögel, thomas.boegel@informatik.uni-heidelberg.de
  • CS: Christian Sengstock, sengstock@informatik.uni-heidelberg.de

AP/FP

Integration of additional languages in HeidelTime

JS

Given data: training/evaluation data for French, Korean, and some more

Algorithm: HeidelTime

Programming: Java, regular expressions

Goal: Additional language for HeidelTime

Remark: languages of interest are, e.g., Latin, Romanian, Portuguese, Korean. Student should be familiar with the specific language and have basic knowledge of linguistics

FP

Spatio-temporal Search Engine

JS

Given data: temporally and geographically annotated data (e.g.,Wikipedia)

Algorithm: Spatio-temporal Search

Programming: Java, Lucene, + Web UI

Goal: Creating a Web UI for spatio-temporal querying, applying our approach for spatio-temporal-textual search using Lucene

 

 

FP

Georeferenzierung (Karten-basiert) von mittelalterlichen Straßen

CS

Gegeben: Rasterbild (Karte) mit mittelalterlichen Straßen.

Problem: Automatisierte Extraktion der Vektoren (Straßenlinien) und Georeferenzierung. Abgleich der Straßen mit OpenStreetMap Daten.

FP

Webservice Schnittstelle für Datenbank mit historischen Ortsnamen

CS

Gegeben: Existierende Datenbank inkl. WebGUI mit historischen Ortsnamen.

Problem: Erstellung einer Webservice Schnittstelle

AP/FP

Event extraction from Twitter data

TB

Given data: Twitter data set

Algorithm: Extract events from Twitter

Programming: Java, Machine Learning.

Goal: Event extraction system.

Remark: NLP components used for Open Domain Event Extraction from Twitter (http://dl.acm.org/citation.cfm?id=2339704), ClearTK, graph-based Tweet clustering.

AP/FP

Supervised learning of event timelines

TB

Given data: Annotated data set with story timelines: McIntyre & Lapata, 2009

Algorithm: ML-based extraction of event relations + consistency checks.

Programming: Java, Machine Learning

Goal: Classifier for event relations.

Remark: Data set contains annotations of events and relations between events.

AP/FP

Large-scale extraction of German event chains

TB

Given data: deWac corpus

Algorithm: Extraction of narrative event chains.

Programming: Java, Statistics (possibly: MapReduce)

Goal: German narrative event chains.

Remark: Apply the algorithm in Chambers and Jurafsky, 2008 to a German data set. Parallelize extraction using Hadoop/MapReduce.

  

AP

Extracting a parallel (German) news corpus

TB

Given data: WikiNews

Algorithm: Crawling, (near) duplicate detection, content extraction strategies.

Programming: Java, Python.

Goal: Extract a corpus of parallel news texts based on source links.

Remark: WikiNews contains summaries of news that are freely available. Each news item links to various sources the summary is composed of.

AP/FP

QMap Plugin: Visualization of Matplotlib Plots (Images)

CS

Given: Routine to create maps using Matplotlib

Problem: Create a QMap plugin to plot the results.

Programming: Python, PyQT.

FP

Geodesic Grid

CS

Given: Geodesic Grid Library

Problem: Routine to map lng/lat points onto cells of a geodesic grid. Visualization of the grid (e.g., using OpenGL).

Programming: Python, C/C++

 

Letzte Änderung: 16.10.2013