Das Forschungsprojekt

Die Regesten der Stadt Saarbrücken lagen in ihrer Ursprungsfassung nur als Microsoft Word-Dokument vor. In diesem Format ist die im Text implizit enthaltene Struktur (z.B. Gliederung der einzelnen Regesten, Querverweise vom Index) zwar gut für den menschlichen Leser erkennbar, nicht aber für den Computer. Dies liegt daran, dass die Struktur nur durch die Formatierung (Fettdruck, Einrückungen etc.) deutlich gemacht wird. Diese visuellen Mittel sind jedoch ambig und müssen im Kontext disambiguiert werden. Fettdruck in den Regestentexten hat z.B. eine andere Bedeutung als Fettdruck im Index. Diese Disambiguierung setzt jedoch eine Kenntnis der Textstruktur voraus, z.B. über den typischen Aufbau eines Index, die ein Computer per se nicht hat. Die inhaltliche Struktur des Textes bleibt daher unerkannt und ungenutzt. Dies führte dazu, dass die Navigation im Ursprungstext relativ umständlich war und das Potenzial des digitalen Mediums kaum genutzt wurde. Zum Beispiel war es nicht möglich von einem Indexeintrag direkt auf das entsprechende Regest zu verlinken.

Die bessere elektronischen Erschließung des Textes war das Ziel eines Softwareprojekts im Sommersemester 2012 am Institut für Computerlinguistik der unter Leitung von Frau Prof. Dr. Caroline Sporleder.

Im Rahmen des Projektes wurde ein formales Schema der inhaltlichen Textorganisation entworfen und es wurden Methoden zur automatischen Strukturerkennung entwickelt, mit deren Hilfe der Text dann in der Auszeichnungssprache XML annotiert wurde. Der so ausgezeichnete Text wurde dann in eine Datenbank überführt, die dieser Webanwendung zugrunde liegt.

Die automatische Strukturerkennung und XML-Auszeichnung ist dabei nur ein erster --aber sehr wichtiger und nicht-trivialer-- Schritt zu einer weiteren (teil-)automatischen Textanalyse (Text Mining). Zum Beispiel könnten aus den im Index enthaltenen Informationen Stammbäume der in den Regesten erwähnten Personen generiert und visualisiert werden. Es ist geplant, dies im Rahmen weiterer Projekte aufzugreifen.

Mitglieder des Teams

  • Susanne Fertmann
  • Tim Krones
  • David Alfter (UniversitätTrier)