Text Mining

Aktuelles:

Das Seminar findet ab sofort in INF 328 Seminarraum 16 statt.

Allgemeines:

Die Menge an Informationen, die digital in textueller Form zur Verfügung stehen, nimmt immer weiter zu, so dass Verfahren zur automatischen Extraktion von Wissen und zur Wissensgenerierung aus Texten immer mehr an Bedeutung gewinnen.

In diesem Seminar sollen verschiedene solcher Text Mining Verfahren behandelt werden. Der Unterschied zum Data Mining besteht darin, dass beim Text Mining die Daten, aus denen Informationen extrahiert oder gewonnen werden sollen, in unstrukturierter Form vorliegen, es handelt sich also um textuelle Daten.

Die Modulbeschreibung der Lehrveranstaltung befindet sich hier.

Themen:

In dem Seminar werden zunächst einführende Themen behandelt, deren Bearbeitung sich zur Anrechnung als Proseminar eignet. Dazu gehören voraussichtlich:

  • Verfahren zum Vorverarbeiten von Texten
  • Ontologien

Weitere Themen des Seminars sind voraussichtlich:

  • Named Entity Recognition 
  • Relationsextraktion
  • Text Mining auf wissenschaftlichen Daten (z.B. Biomedizin) 
  • Extraktion räumlicher und zeitlicher Informationen

Zeit und Ort: 

Donnerstags, 14 Uhr - 16 Uhr. INF 328 Seminarraum 16.

Das erste Treffen (die Vorbesprechung mit Themenvorstellung usw.) findet am Donnerstag, den 15. April 2010 um 14 Uhr (c.t.) in INF 348 HS 13 statt.

Literatur:

R. Feldman, J. Sanger: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructued Data, Cambridge University Press, 2007.

Die Literatur zu den einzelnen Themen wird beim ersten Treffen bekannt gegeben und auf der Kursseite in Moodle zur Verfügung stehen.

Schein und Leistungsnachweis:

 Für die "Erfolgreiche Teilnahme am Seminar / Proseminar Text Mining" sind folgende Teilleistungen zu erbringen:

  1. Regelmäßige Teilnahme: max 1x unentschuldigtes Fehlen.
  2. Referat: Vor dem Referat ist eine Vorbesprechung obligatorisch (zur Klärung von offenen Fragen und zum Vorstellen des Plans für das Referat). Die endgültigen Folien müssen spätestens drei Tage vor dem Referat eingereicht werden (als pdf). Die Dauer eines Referats beträgt voraussichtlich 30 Minuten + 10 Minuten Diskussion.
  3. Hausarbeit: Die Hausarbeit soll mehr sein als eine reine schriftliche Ausarbeitung des Referats. Sie muss formalen, wissenschaftlichen Standards entsprechen (bzgl. Strukturierung, Referenzen usw.) und die Länge soll 10 - 15 Seiten betragen. Empfohlen wird außerdem eine Vorbesprechung anhand eines Inhaltsverzeichnisses oder Exposés.

Sowohl für das Referat als auch für die Hausarbeit sind folgende Punkte zu beachten:

  • Kein reines Nacherzählen des bearbeiteten Papiers.
  • sondern:
    • Darstellung relevanter Ansätze
    • Gegenüberstellung verschiedener Ansätze
    • Darstellung von Problemen und offenen Fragen
    • eigene Bewertung und Diskussion

Weitere Informationen:

Jannik Strötgen, jannik.stroetgen(at)informatik.uni-heidelberg(dot)de, INF 348, Raum 12d; Prof. Dr. Michael Gertz, gertz(at)informatik.uni-heidelberg(dot)de, INF 348, Raum 12b. Sprechstunden von Herrn Prof. Gertz und Jannik Strötgen siehe hier.

Alle Materialien zur Vorlesung werden über Moodle zur Verfügung gestellt; siehe auch http://elearning.uni-heidelberg.de/course/view.php?id=2902.