Overview

Class Central Tips

AKTUELL: Am 20.05.2019 startet die vorläufig letzte Runde des MOOCs "Sprachtechnologie in den Digital Humanities". Anschliessend wird der Kurs auf der Plattform Coursera pausiert, d.h. Einschreibungen in den Kurs werden ab diesem Datum nicht mehr möglich sein. Die Videos bleiben aber nach wie vor über unseren YouTube-Kanal (https://www.youtube.com/channel/UChb3Rd5vo3WEgMSy99VInaw) bzw. den SwitchTube-Kanal der Uni Zürich (https://tube.switch.ch/channels/bb3adc02) sichtbar. Die Pausierung dient primär zur Aktualisierung und Erweiterung der Kursinhalte und Lernmaterialien. KURS-BESCHREIBUNG: Sie möchten wissen, was genau die Digitalisierung von Texten beinhaltet? Sie haben sich schon immer gefragt, wie Texte in einem Korpus optimal durchsuchbar gemacht werden? Sie wundern sich, wie Texte mit linguistischen Informationen angereichert werden können? Dann sind Sie in diesem Kurs genau richtig!! Er bietet einen Überblick über die wichtigsten Konzepte und Probleme bei der Digitalisierung und Annotation von geschriebenen Texten. In sechs thematischen Modulen verteilt auf sechs Wochen lernen Sie relevante Technologien und Werkzeuge kennen. Jedes Modul beinhaltet zwei bis drei Videos (10-20 Minuten), ein Quiz oder ein Peer-Assessment sowie kurze Hintergrundtexte und weiterführende Links zu ausgewählten Themen. Für wen ist dieser Kurs interessant: Dieser Kurs richtet sich an Korpuslinguist/-innen, an Geisteswissenschaftler/-innen und Sprachinteressierte, die von einer rein sprachwissenschaftlichen Perspektive ausgehend auch ein paar Schritte in die Welt der Digitalisierung von Texten wagen und die dahinterstehenden Technologien kennenlernen möchten. Für diesen Kurs brauchen Sie keine Programmierkenntnisse. Mit Interesse an der Digitalisierung und Annotation von Texten sind Sie bestens gerüstet für diesen Kurs. Wir freuen uns, mit Ihnen diese digitalen Wege zu beschreiten, die in den Geisteswissenschaften immer wichtiger werden.

Syllabus

Woche 1 - Wege in die digitale Welt

In der ersten Woche werden wir darüber sprechen, wie Texte digitalisiert und zum Beispiel in XML dargestellt werden können und was OCR (optical character recognition) für die Anwendung in der Praxis bedeutet. Wir befassen uns außerdem mit der Erstellung von Korpora und den Schwierigkeiten, denen wir dabei begegnen können. Viel Spaß!

Woche 2 - Strukturierte und nachhaltige Repräsentation von Korpusdaten

In der zweiten Woche beschäftigen wir uns mit der strukturierten und nachhaltigen Repräsentation von Korpusdaten. Wir werden über die Markup Language XML sprechen und einige wichtige Standards zur Textrepräsentation kennenlernen. In der zweiten Hälfte dieses Moduls geht es anschließend um das Thema der automatischen Text- und Wortsegmentierung. Viel Spaß mit den Videos!

Woche 3 - Eigenschaften von Korpora und grundlegende Analysemethoden

In der dritten Woche geht es um die wichtigsten Eigenschaften von Korpora, um grundlegende Analysemethoden in der Korpuslinguistik und Grundbegriffe wie Worthäufigkeiten, Kollokationen, N-Gramme. Im letzten Teil wird Ihnen Noah Bubenhofer noch einen Ausblick auf die visuelle und graphische Darstellung von Texteigenschaften geben. Viel Spaß!

Woche 4 - Automatische Korpusannotation mit computerlinguistischen Werkzeugen

In diesem Modul geht es um die automatische Korpus-Annotation mit linguistischen Informationen wie Part-Of-Speech-Tags (Wortarten) und Lemmas (Grundformen), aber auch um die Schwierigkeiten, die eine solche automatische Annotation mit sich bringen kann. Wir werden besprechen, wie die automatische Erkennung von Eigennamen oder geographischen Namen (Named Entities) abläuft und im dritten Teil noch auf die automatische Syntax-Analyse von Texten eingehen. Viel Spaß!

Woche 5 - Manuelle Annotation und Evaluation von Korpusdaten

In Modul 5 beschäftigen wir uns mit der Frage, wie eine möglichst ökonomische Annotation aussehen kann und wie sich manuelle und automatische Annotation mit Hilfe von maschinellem Lernen ergänzen können. Wir besprechen außerdem, wie wir die Qualität bzw. die Genauigkeit der Annotation gewährleisten und evaluieren können. Im zweiten Teil geht es dann um das sogenannte "Crowdsourcing", wo über Online-Plattformen Daten für diverse Projekte gesammelt bzw. korrigiert werden. Viel Spaß in der vorletzten Woche!

Woche 6 - Herausforderungen der Multilingualen Textanalyse

Im letzten Modul befassen wir uns mit multilingualen bzw. parallelen Korpora. Im ersten Teil geht es um die automatische Sprach-Identifikation in gemischtsprachlichen Korpora, die einen wichtigen Schritt bei der Verarbeitung der Texte darstellt. Im zweiten Teil geht es um die automatische Satz- bzw. Wortalignierung zwischen parallelen Texten in unterschiedlichen Sprachen. Viel Spaß in der letzten Woche!