Eine Flut von Informationen prasselt tagtäglich auf Wissenschaftler ein. Angesichts dieser Nachrichtenfülle suchen Forschungslabore weltweit nach Wegen, relevante Informationen von Rechnern finden zu lassen.
An dieser Aufgabe arbeitet auch der Computerlinguist Prof. Dr. Udo Hahn von der Friedrich-Schiller-Universität Jena. Ihm ist jetzt der „IBM UIMA Innovation Award“ zuerkannt worden, ein Wissenschaftspreis, der seit 2006 jährlich vom IT-Unternehmen IBM an wenige Wissenschaftler weltweit vergeben wird. Diese Experten arbeiten an dem Software-Konzept UIMA (Unstructured Information Management Architecture), das ist eine offene Architektur für Analyse und Management großer, unstrukturierter Datenmengen. „Unstrukturiert“ meint hier, dass Computer keinen unmittelbaren Zugang zu den Inhalten von Texten, gesprochener Sprache, Musik, Bildern oder Filmen haben. Mit Hilfe der UIMA-Plattform können Rechner aber auf effektive Weise in die Lage versetzt werden, solche Inhalte automatisch zu erschließen.
Das Ziel dieser Entwicklungsarbeiten ist eine intelligente Suchmaschine, die aus einer großen Zahl von Dokumenten die wirklich wichtigen Fakten herausziehen soll. Dabei wird angestrebt, einmal erarbeitete Programme, sogenannte Module, wieder zu verwenden anstatt sie für jede Anwendung aufs Neue zu entwerfen und zu programmieren. „UIMA ist ein innovativer Weg, für komplexe Systeme der Sprachverarbeitung eine übersichtliche Architektur zu definieren, die eine inhaltliche Analyse von Texten erlaubt“, sagt Udo Hahn. Anders als herkömmliche Suchmaschinen (wie Google) fahndet das Jenaer System nicht nach starren Zeichenfolgen, sondern es kann oberflächlich verschiedene, aber inhaltlich gleiche oder stark verwandte Wörter – zum Beispiel „krank“, „kranken“, „Krankheit“, „kränkeln“ – und Aussagen auf ihren gemeinsamen Bedeutungskern reduzieren und die so aufbereiteten Informationen Wissenschaftlern zur zielgerichteten Suche anbieten.
Der praktische Nutzen liegt auf der Hand: Die größte biomedizinische Literatur-Datenbank der Welt etwa enthält 17 Millionen Einträge und täglich kommen hunderte von neuen Hinweisen hinzu. Kein Mensch hätte die Zeit, die für ihn wichtigsten Texte auszusuchen und durchzusehen. Die Software-Plattform UIMA arbeitet im Hintergrund solcher intelligenter Suchmaschinen und macht die Datenflut für den Anwender beherrschbarer.
Ein zweiter mit dem Preis bedachter Aspekt ist der Aufbau einer großen computerlinguistischen Software-Bibliothek, die den gesamten Analysezyklus bei der automatischen Sprachverarbeitung abdeckt. „Diese Bibliothek ist wie ein großer Schrank mit vielen Schubfächern, wo in jedem dieser Fächer alternative Programme für die Lösung eines Teilproblems bei der Sprachanalyse aufbewahrt werden. Je nach Einsatzzweck ziehen wir die passende Software aus dem Schubfach“, sagt Prof. Hahn.
Der „IBM UIMA Innovation Award“ wird im Januar 2008 überreicht werden. Das Preisgeld von 24.000 US-Dollar wird zweckgebunden verwendet, um die Forschung in der Software-Schmiede der Jenaer Computerlinguisten weiterzuführen.