Facetten im KUG – Standorte und Sprachen

11. November 2013 von Oliver Flimm

Vor einigen Wochen wurden die Facetten im KUG mit der Eingrenzung der Rechercheergebnisse nach Themengebieten erweitert. Das sollte aber nur der Anfang für weitergehende Änderungen bei den Facetten sein. So ist es gerade im Bereich der Erscheinungsjahre aus Nutzersicht hilfreich eine Recherche im Nachhinein auf Jahresbereiche einzugrenzen, wie es andere Kataloge schon seit einiger Zeit anbieten.

Jenseits einer solchen vergleichsweise kleinen Erweiterung haben wir uns auch noch einmal andere Facetten genauer angeschaut, speziell die Rechercheeingrenzungen “nach Katalogen” und “nach Sprache”.

Kataloge vs. Standorte

Seit jeher stellt der einzelne Katalog die kleinste Daten- und Rechercheeinheit im KUG dar. Strukturell war dies immer durch die Organisation der Bibliotheken an Universität zu Köln als autonome Einheiten vorgegeben und hat sich auch später nach Hinzunahme externer Datenbestände bewährt. Dementsprechend existieren derzeit insgesamt 125 separate Kataloge von Institutsbibliotheken zuzüglich dem der USB Köln. Einer der Erfolge des KUG-Projektes war die Vereinheitlichung dieser vielen Kataloge unter nur noch einer Bibliothekssoftware, die in der USB auf zwei Servern gehostet wird – ein Server für den Katalog der USB und einer für die 125 Kataloge der Institutsbibliotheken.

Um die Qualität der bibliothekarischen Dienstleistungen an der Universität zu verbessern und Kräfte effizient zu bündeln, versucht die USB seit einigen Jahren gezielt fachzentrierte Kooperationen mit Institutsbibliotheken auf freiwilliger Basis einzugehen und sogenannte “gemeinsame Fachbibliotheken” zu bilden. Recherchetechnisch hat das einige Auswirkungen, denn diese Fachbibliotheken nutzen fortan das Bibliothekssystem der USB, während jedes zugehörige Institut seine Bestände bisher in einem eigenständigen Katalog erfasst hat. Während ein Institut nach dem anderen also einer Fachbibliothek beitritt und seine Bestände nach und nach migriert werden müssen, wird die “alte Ordnung” – ein Institut hat einen Katalog an einem Standort – aufgebrochen. Die Bestände sind erst einmal auf mehrere Kataloge verteilt, obwohl sie physikalisch an einem Standort aufgestellt sind.

Wie soll man das aber einem Nutzer klar machen, der doch nur wissen will, wo er das Medium denn nun bekommen kann bzw. seine Rechercheergebnisse auf die Medien “in seiner Bibliothek” eingrenzen will.

Der einzelne Katalog als Informationseinheit reicht hier nicht mehr aus. Daher können in der Administration des KUG Recherche-Portals nun zusätzlich Standorte erfasst werden.

Ein Standort besteht aus einem Identifier, mit dem man ihn referenzieren kann, einer Beschreibung und einem Typ. Wird als Identifier eine standardisierte ISIL verwendet, so lautet der Typ einfach “ISIL”, für alle anderen wird einfach der Typ “generic” besetzt. Zusätzlich werden für einen Standort verschiedene Informationen erfasst wie Institutsname, Adresse, Telefonnummer, Geo-Positionen usw.

Jedem Katalog kann hiermit in der KUG-Administration einfach ein Standort zugewiesen werden, an dem die Bestände zu finden sind. Dies entspricht dem bisherigen Normalfall. Bei Beständen, die auf mehrere Kataloge verteilt sind, können die zugehörigen einzelnen Standorte pro Katalog nun aber alternativ in den Daten angereichert werden. Im USB-Katalog sind das z.B. folgende Bestände, die durch den Filter add-locationid.pl mit Standorten angereichert werden:

Fachbibliothek Chemie (ISIL DE-38-507)
Fachbibliothek Versicherungswissenschaft (ISIL DE-38-123)
Fachbibliothek VWL (derzeit ISIL DE-38-105, später ISIL DE-38-101)
Fachbibliothek Medienkultur und Theater (2 Standorte mit ISIL DE-38-428 und DE-38-429)
USB: Hauptabteilung (ISIL DE-38)
USB: Humanwissenschaftliche Abteilung (Generisch DE-38-HWA)
USB: Sofortausleihbereich (Generisch DE-38-SAB)
USB: Lehrbuchsammlung (Generisch DE-38-LBS)
USB: Europäisches Dokumentationszentrum (Generisch DE-38-EDZ)
USB: Lesesaal (Generisch DE-38-LS)

Parallel dazu existieren die ehemaligen Institutskataloge mittelfristig weiter. Im Falle der Fachbibliothek Medienkultur sind das z.B. die Kataloge inst428 und inst429, die mit den Standorten DE-38-428 und DE-38-429 verknüpft sind. Eine Eingrenzung auf DE-38-429 führt den Nutzer also auf die Bestände aus den Katalogen der USB und der Theaterwissenschaftlichen Sammlung, die beide in Köln-Wahn aufgestellt sind.

Insgesamt bildet die Anreicherung mit Standorten bei einer Recherche über den Gesamtbestand aller Kataloge alle Möglichkeiten ab, die mit der alten Facettierung über Kataloge erreicht wurden und flexibilisiert sie zusätzlich mit der Zusammenfassung von Beständen über Kataloggrenzen hinweg. Ebenso lassen sich – wie im Fall der USB – verschiedene Unterstandorte (USB: Sofortausleihbereich) innerhalb eines Standortes (USB: Hauptabteilung) realisieren. Bisher wurden die Daten verschiedener Einzelstandorte des USB-Katalogs in eigene Kataloge extrahiert, wie z.B. für die Humanwissenschaftliche Abteilung, den Sofortausleihbereich usw. Bei einer Rercherche resultierten daraus zwangsläufig Mehrfacheinträge in den Trefferlisten. Mit den neuen Möglichkeiten der Standort-Facetten sind diese Kataloge nun nicht mehr notwendig, können entfernt werden und führen so nicht mehr zu den Mehrfacheinträgen.

Eine weitere Verbesserung ergibt sich für den Inhalt des Katalogs “Zeitschriften der Institute”. Zeitschriften werden für die Institute durch die USB direkt in der Zeitschriftendatenbank (ZDB) erfasst und normalerweise nicht in den einzelnen Institutskatalogen. Der daraus resultierende Katalog mit allen Zeitschriftenbeständen wird nun ebenfalls mit den verschiedenen Standorten angereichert. Bei einer Eingrenzung der Recherche auf den Standort eines Instituts werden dann automatisch auch die zugehörigen Zeitschriften mit ausgegeben.

Sprachen

Eine weitere Facette ist die Eingrenzmöglichkeit nach Sprache. Wie bei allen Eingrenzmöglichkeiten entgehen dem Nutzer, der sie verwendet, jedoch zwangsläufig potentiell relevante Titel, da in der Regel nie alle Titel eines Kataloges konsequent und vollständig mit den entsprechenden Informationen versehen wurden. Das betrifft auch andere Facetten, wie z.B. nach Themen (Schlagworte) oder nach Systematik (Notationen). Wir versuchen diesen Umstand durch geeignete Anreicherungen (Schlagworte aus dem b3kat usw.) fortlaufend zu verbessern, aber eine 100 prozentige Abdeckung des Bestandes ist leider sehr unrealistisch.

Bei der Facettierung nach Sprache kommt zum Abdeckungsgrad zusätzlich noch die Normierung auf standardisierte Sprachcodes hinzu. Im KUG normieren wir mit der Funktion normalize_lang die Sprachcodes z.B. auf ISO-639-2 (3stellig) von ISO-639-1, aber auch innerhalb von ISO-639-2 bei Mehrdeutigkeiten (ger und deu für Deutsch) .

Grundproblem ist und bleibt aber die Abdeckung. Nur wenige Kataloge im KUG vergeben Sprachcodes bei den Titelaufnahmen. Dazu gehören der USB-Katalog, Projekt Gutenberg, die OpenLibrary, aber z.B. quasi kein Institutskatalog. Das ist ziemlich wenig…

Aus diesem Grund haben wir nach Anreicherungsmöglichkeiten gesucht. Zunächst haben wir uns die offenen Daten des b3kat angeschaut, aber hier wurde sehr schnell klar, dass auch dort überproportional wenig Zuordnungen ISBN-zu-Sprachcode geschürft werden konnten, typischerweise gerade einmal 10-20 Tausend Zuordnung pro Dump-Datei der insgesamt 26 Dateien.

Also kommt hier – wenn man die Facette nicht grundsätzlich entfernen will – nur eine vollautomatisierte Vergabe von Sprachcode durch entsprechende linguistische Methoden in Frage. Angereichert werden sollen natürlich nur die Titel, die noch keinen Sprachcode besitzen – intellektuell katalogisierte Sprachcodes gehen immer vor.

Klein, schnell, kompakt und mit Unterstützung der Programmiersprache Perl erledigt die Chrome Language Detection Bibliothek (CLD) genau diese Aufgabe. Sie ist vollständig offener Bestandteil der Entwicklung des Web Browsers Chrome (genauer Chromium) und lässt sich sehr einfach mit dem Perl-Modul Lingua::Identify::CLD einsetzen. Setzt man dessen Objekt-Methode identify einen Text vor, so erhält man als Ergebnis den Sprachnamen, seinen Code (ISO-639-1), einen “Zuversichtlichkeitswert” für die Erkennung – und ein Flag, ob die Erkennung zuverlässig ist. Anhand dieses Flags können bei der Anreicherung sehr einfach alle unzuverlässigen Einordnungen verworfen werden und allein so die Qualität der Anreicherung gesteigert werden.

Ein weiterer qualitätssteigernder Faktor ist durch den Text selbst gegeben, anhand dessen die Identifizierung gemacht wird. Hier reicht der Titel in der Regel allein nicht aus. Daher konstruieren wir den Identifizierungstext aus dem Hautpsachtitel, seinem Zusatz und ggf. vorhandenen Gesamttiteln. In einem typischen Bibliothekskatalog kommen wir so auf ein Anreicherungsquoten über 80 Prozent. Sicherlich wird sich immer der eine oder andere Titel finden, der falsch identifiziert wurde, aber der Nutzen überwiegt hier ganz klar.

Die Ergebnisse der automatischen Sprach-Anreicherung sind sehr vielversprechend. Im Katalog der USB sind bereits Sprachcodes für 1.315.552 Titelaufnahmen erfasst. Nach der automatischen Anreicherung sind es bereits 2.044.780 Titelaufnahmen von insgesamt 3.227.887. In anderen Katalogen ohne Erfassung von Sprachcodes liegen die Anreicherungsquote z.T. bei über 80 Prozent der Titelaufnahmen.

Pl4net.info

Bibliothekarische Stimmen. Independent, täglich.

Facetten im KUG – Standorte und Sprachen