Pl4net.info

Bibliothekarische Stimmen. Independent, täglich.

16. Dezember 2016
von Dimitri Busch
Kommentare deaktiviert für Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen

Organisation eines Thesaurus für die Unterstützung der mehrsprachigen Suche in einer bibliographischen Datenbank im Bereich Planen und Bauen

Das Problem der mehrsprachigen Suche gewinnt in der letzten Zeit immer mehr an Bedeutung, da viele nützliche Fachinformationen in der Welt in verschiedenen Sprachen publiziert werden. RSWBPlus ist eine bibliographische Datenbank zum Nachweis der Fachliteratur im Bereich Planen und Bauen, welche  deutsch- und englischsprachige Metadaten-Einträge enthält. Bis vor Kurzem war es problematisch Einträge zu finden, deren Sprache sich von der Anfragesprache unterschied. Zum Beispiel fand man auf deutschsprachige Anfragen nur deutschsprachige Einträge, obwohl die Datenbank auch potenziell nützliche englischsprachige Einträge enthielt. Um das Problem zu lösen, wurde nach einer Untersuchung bestehender Ansätze, die RSWBPlus weiterentwickelt, um eine mehrsprachige (sprachübergreifende) Suche zu unterstützen, welche unter Einbeziehung eines zweisprachigen begriffbasierten Thesaurus erfolgt. Der Thesaurus wurde aus bereits bestehenden Thesauri automatisch gebildet. Die Einträge der Quell-Thesauri wurden in SKOS-Format (Simple Knowledge Organisation System) umgewandelt, automatisch miteinander vereinigt und schließlich in einen Ziel-Thesaurus eingespielt, der ebenfalls in SKOS geführt wird. Für den Zugriff zum Ziel-Thesaurus werden Apache Jena und MS SQL Server verwendet. Bei der mehrsprachigen Suche werden Terme der Anfrage durch entsprechende Übersetzungen und Synonyme in Deutsch und Englisch erweitert. Die Erweiterung der Suchterme kann sowohl in der Laufzeit, als auch halbautomatisch erfolgen. Das verbesserte Recherchesystem kann insbesondere deutschsprachigen Benutzern helfen, relevante englischsprachige Einträge zu finden. Die Verwendung vom SKOS erhöht die Interoperabilität der Thesauri, vereinfacht das Bilden des Ziel-Thesaurus und den Zugriff zu seinen Einträgen.

 

In recent times, the problem of multi-lingual search is gaining more and more importance, because a lot of useful specialized information are published in several languages. RSWBPlus is a bibliographic database which includes German and English metadata entries in the field of construction and planning. Until recently it was difficult to find entries whose language differed from the query language. For example, German queries found only German entries, although the database also contained potentially useful English entries. After an investigation of existing approaches, the RSWBPlus was improved to support cross-language information retrieval, which is carried out with the involvement of a bilingual concept-based thesaurus. The thesaurus has been automatically generated from existing thesauri. The entries in the source thesauri were converted in SKOS format (Simple Knowledge Organization System), automatically merged and finally recorded in a target thesaurus, which also was saved in SKOS format. To access the target thesaurus Apache Jena and MS SQL Server are used. In the multilingual retrieval, query terms are extended by appropriate translations and synonyms in English and German. The expansion of the search terms can be carried out both semi-automatically and in the runtime. The improved retrieval system can especially help German users to find relevant English entries. The use of SKOS format increases interoperability of thesauri, simplifies the building of the target thesaurus and the access to its entries.