Pl4net.info

Bibliothekarische Stimmen. Independent, täglich.

“Wir irren uns nach vorne”: Relevanzsortierung in Discovery-Systemen     

Schon seit Jahren zitiere ich immer wieder Dirk Lewandowskis Ideen zum „Ranking (of) library materials“, um die Hypothese zu unterstützen, dass die heutigen Discovery-Systeme noch viele Potenziale ungenutzt lassen, um die Relevanz-Sortierung von Suchergebnissen zu verbessern. Umso gespannter war ich auf den Abschlussworkshop des Projektes LibRank, in dessen Rahmen neue Faktoren für die Beeinflussung von Rankings in bibliothekarischen Informationssystemen identifiziert und getestet werden sollten. Das ernüchternde Ergebnis: Die Hinzuziehung von Popularitätsdaten und Zitationshäufigkeiten brachte in den Augen von wissenschaftlichen und studentischen TesterInnen keine signifikante Verbesserung des Rankings. Nun mag man sich sicherlich über die Versuchsanordnung und andere methodische Fragen streiten – die insbesondere die geladenen Experten aus den Informationswissenschaften taten dies mit Bezug auf zahlreiche und widersprüchliche Studien. Trotzdem bin ich mit dem unguten Gefühl nach Hause gefahren, dass Daten aus Bibliotheken keinen wirklichen Beitrag dazu leisten können, die Ergebnisse von Suchen zu verbessern.

Warum Pessimismus dennoch unangebracht ist? Zunächst natürlich aufgrund der Verbesserung der Forschungssituation, u.a. durch Artikel wie diesen.  Aber vor allem auch, weil Grund besteht zu glauben, dass der Drops noch nicht gelutscht ist: Die Bremer E-LIB aus ergänzt die herkömmlichen textstatistischen Verfahren zum Ranking seit 2011 mit Daten zur Popularität, insbesondere Exemplarzahlen, – siehe „Nur die ersten drei Zählen! Optimierung von Rankingverfahren über Popularitätsfaktoren bei der Elektronischen Bibliothek Bremen (E-LIB)“.

Der Ansatz des E-LIB-Teams ist im Vergleich zu den im Rahmen von LibRank getesteten Verfahren weitaus pragmatischer: Genutzt werden relativ für alle Einträge verfügbare, leicht zugängliche und vergleichbare Daten, namentlich Klickdaten und Exemplarzahlen. Im Gegensatz dazu hat man sich bei LibRank sehr ausführlich zum Beispiel mit der Zitationsdaten beschäftigt, die im Vergleich zu Exemplarzahlen oder Klickhäufigkeit erfordern, dass man sich sehr ausführliche konzeptionelle und technische Gedanken darüber macht, wie man mit der Tatsache umgeht, dass nicht alle Titel Zitationsdaten haben oder der h-Index sich aufgrund einer potenziellen Bevorzugung von älteren AutorInnen weniger gut eignet als der m-Quotient. Das sind freilich interessante informationswissenschaftliche Probleme, von deren Komplexität das  Projektteam von LibRank sogar überrascht war.  Vielleicht hätte es dem Thema Ranking besser getan, wenn man sich auch ein paar übersichtlichere Faktoren herausgesucht hätte, um damit dann auch empirisch zu beweisen, was in der E-LIB seit fünf Jahren gefühlt gut funktioniert, wie dieser Vergleich zwischen herkömmlichen und um Popularitätsdaten ergänzten Ranking eindrucksvoll zeigt, den mir Martin Blenkle netterweise zur Verfügung gestellt hat:

2016 03 E-LIB Bremen Ranking mit Popularitätsbeeinflussung (2)

Leider blieben auf dem Abschlussworkshop zu wenig Zeit und Raum, um neben den informationswissenschaftlichen auch die bibliothekspraktischen Implikationen zu diskutieren. Ich meine aber wahrgenommen zu haben, dass durchaus Interesse besteht, die Idee des um Popularitätsdaten (und andere Faktoren) ergänzten Rankings weiter zu verfolgen, trotz der wenig ermutigenden Ergebnisse. Immerhin war auch die Gewissheit mitzunehmen, dass wir in unserem „Geschäftsfeld“ nicht allein sind mit dem – durchaus leidenschaftlichen – Glauben daran, die Suche besser machen zu können und der Frustration darüber, dass das jedoch nur durch Versuch und Irrtum möglich ist: Die Keynote zu der Veranstaltung lieferte mit Ingo Hettenhausen einer der Macher von otto.de, von dem das Zitat „Wir irren uns nach vorne“ stammt. Aus seinem Vortrag ließ sich Inspiration für die weitere Arbeit am Ranking schöpfen: Erstens hat er gezeigt, dass ein Informationssystem eine klare Fokussierung braucht. Otto will verkaufen. Wissen wir, was wir mit unseren Discovery-Systemen wollen. Ich unterstelle: Nein, zumindest nicht letztinstanzlich, denn sonst würden wir uns den Einbau von Funktionalitäten sparen, die erwiesenermaßen nur für die Zielgruppe “BibliothekarInnen“ interessant sind. Wir haben eine ungute Tendenz dazu, Discovery-Systeme zur eierlegenden Wollmilchsau zu machen: Sie sollen Katalog, lokales Bibliothekssystem, Fachdatenbank und Repository in einem sein und Informationsbedürfnisse von Studierenden, Forschenden, BibliothekarInnen, SchülerInnen usw. gleichermaßen erfüllen. Ich würde es interessant finden, ein Discovery-System zu bauen, das sich ausschließlich an unerfahrene Bedürftige an wissenschaftlicher Literatur richtet und entsprechend radikal konzipiert ist: Einbeziehung von (möglichst über Verbünde oder gar national aggregierten) Exemplarzahlen, Bevorzugung von einschlägigen Lehrbüchern und Verlagen sowie Titeln mit lokaler Prominenz (Datengrundlage zum Beispiel: Listen von Seminarapparaten) – und natürlich einer liebevolleren Behandlung des Themas Verfügbarkeit, in Form von Bevorzugung aktuell verfügbarer Titel und geschmeidigeren Darstellungen der Optionen für zunächst scheinbar unerreichbare Titel. Gerald Steilen sagte in der Nachbesprechung: „Wir müssen uns mehr um den letzten Klick kümmern“. Ein schönes Betätigungsfeld für Benutzungs-BibliothekarInnen – aber dazu dann in Leipzig mehr.

Stattdessen noch einmal zurück zu otto.de und einer Frage, die mir deswegen im Kopf herumgeht: Dort analysiert man sehr ausführlich, was die BesucherInnen des Portals eigentlich suchen, und bearbeitet häufig gestellte Suchanfragen manuell, um die Ergebnisse zu verbessern. So werden u.a. eine Liste mit über 4000 Synonymen gepflegt und ständig Kategorisierungen verbessert und für die Zukunft über Möglichkeiten der automatischen Anreicherung von beschreibenden Daten nachgedacht. Durchaus vertraute Tätigkeiten, oder? Vielleicht ist es überlegenswert, ob wir nicht auch noch manuelle Ansätze zur Verbesserung der Suche nutzen sollten. Können nicht alle Germanistik-FachreferentInnen mal eine Liste zu den wichtigsten Büchern für die wichtigsten Systemstellen meinetwegen der RVK machen, daraus filtern wir dann diejenigen mit der größten Schnittmenge und setzen sie auf einen kleinen Ranking-Thron? Man kann eben nicht jedes Problem mit Such- und Ranking-Algorithmen lösen, und das ist vielleicht ja auch ganz gut so, weil es Perspektiven für bibliothekarische Beiträge für verbesserte Discovery schafft.

 

Kommentare sind geschlossen.