Anfang des Jahres stelle Matthias Andrasch einen Prototypen f├╝r eine OER-Suchmaschine vor. Dieser Prototyp ist von Jointly aufgegriffen und weiterentwickelt worden. Die Crawling Prozesse wurden durch den Einsatz des Python-Tools Scrapy optimiert sowie die gesamte Suchmaschine als Docker-Image aufgebaut. Damit l├Ąsst sich der Index einer Suchmaschine sozusagen ÔÇťeinfrierenÔÇŁ und kann als Container beliebig oft repliziert werden, was zu einer hohen Performanz f├╝hrt (Nachtrag: Teile der beiden Prototypen werden im wirlernenonline-Projekt sowie dem OERSI-Projekt der TIB Hannover und des Hochschulbibliothekszentrums NRW nachgenutzt).

Essentieller Bestandteil der Prototypen sind sogenannte Crawler. Diese Suchen die Webseiten ab und speichern die relevanten Informationen ├╝ber Lernmaterialien in einer Datenbank, die dann der Suchmaschine zur Verf├╝gung gestellt wird. Beim Crawlen, d.h. beim „Absuchen“ der Webseiten nach Informationen, stellen sich zwei Probleme:

  1. viele Webseiten bieten keine maschinenlesbaren Metadaten (Informationen ├╝ber die Daten) an
  2. die Bezeichnungen der Daten sind hoch variabel und schwanken hinsichtlich ihrer Qualit├Ąt

1: Maschinenlesbare Metadaten

Ohne maschinenlesbare Informationen ist es f├╝r die Crawler, also die Maschinen schiwerig herauszufinden, wo welche Informationen auf der Seite stehen. Die Maschine kann eben nicht so gut wie der Mensch einfach erkennen, dass es sich in diesem Feld um den Namen der Herstellenden handelt, um das Fach oder um den Ressourcentypen. Die Einarbeitung dieser Informationen in den Crawler ist sehr m├╝hselig und ├Ąu├čerst fragil: Es muss n├Ąmlich stets die genaue Position im HTML-Quelltext der Seite aufgef├╝hrt werden, um an die Information zu gelangen. Sollten sich die Betreiber:innen des Repos dazu entscheiden eine kleine ├änderung an ihrer Seite vorzunehmen, kann dies dazu f├╝hren, dass der gesamte Crawler ├╝berarbeitet werden muss.

Um dieses Problem zu beheben soll ein Best-Practice-Guide erstellt werden, der Entwickler:innen mit Hilfe von praktischen Beispielen zeigt, wie sie maschinenlesbare Metadaten direkt in ihrer Webseite hinterlegen k├Ânnen.

2: Variabilit├Ąt der Attributwerte

Die Einbettung maschinenlesbarer Informationen liegt auf Seite der Informationsbereitstellenden, i.e. der Repositoriumsbetreibenden und kann durch die Crawlenden nicht beeinflusst werden. Au├čerdem fehlen kontrollierte Wertelisten (Vokabulare), die den Repositoriumsbetreibenden dabei helfen, ihre Angaben zu vereinheitlichen. Was ist damit gemeint? Ein kontrolliertes Vokabular dient dazu einheitliche Bezeichnungen f├╝r dieselben Dinge zu definieren. Die Bezeichnungen „Mathematik“, „Mathe“, „Mathematics“ dienen beispielsweise alle zur Bezeichnung des Schulfaches „Mathematik“, jedoch in abgek├╝rzter Form oder einer anderen Sprache. Wenn ein Crawler eine Webseite absucht und diese unterschiedlichen Bezeichnungen findet, wei├č die Maschine zun├Ąchst nicht, dass es sich hierbei um das selbe Fach handelt und w├╝rde in einem Suchfilter drei verschiedene Werte anlegen.

Kontrollierte Vokabulare (SKOS)

Mit Hilfe kontrollierter Vokabulare k├Ânnen wir der Maschine jedoch sagen, dass es sich hierbei um dasselbe Fach handelt. Der Standard, der f├╝r das Anlegen und Pflegen solcher Vokabulare verwendet wird, nennt sich SKOS, Simple Knowledge Organization System (deutsche Einf├╝hrung der DINI-KIM-AG). In Kurzform funktioniert es so: Es wird ein eindeutiger Identifier in Form einer URI f├╝r die Bezeichnung eines Items festgelegt (Bsp.: www.eine-persistente-url.de/mathematik). Diesem Identifier wird dann eine vorzugsweise verwendete Bezeichnung zugeordnet (Bsp: „Mathematik“@de –> das „@de“ bezeichnet die Sprache, in diesem Fall „Deutsch“). Dieses vorzugsweise verwendete Label nennt sich in SKOS „preferred Label“. Dieses Label gibt es dann f├╝r jede Sprache nur einmal. Damit wei├č bspw. hinterher eine Webseite, dass sie dieses Label anzeigen soll. Au├čerdem k├Ânnen beliebig viele „alternative Labels“ f├╝r eine Sprache definiert werden. Hier k├Ânnte dann beispielsweise „Mathe“@de als umgangssprachliche Bezeichnung f├╝r das Fach „Mathematik“ in Deutschland definiert werden.

Das Hochschulbibliothekszentrum NRW (HBZ) hat zur Erstellung und Ver├Âffentlichung solcher Vokabulare Tools entwickelt (http://skohub.io). Mit Hilfe dieser Tools k├Ânnen Vokabulare erstellt und im Internet unter einer URL ver├Âffentlicht werden( Beispiel: vocabs.openeduhub.de). Besonders n├╝tzlich an diesem Tool ist, dass neben einer sch├Ânen menschenlesbaren Repr├Ąsentation der Vokabulare auch eine maschinenlesbare Repr├Ąsentation angefertigt wird. Dies bedeutet, dass in einem Crawling-Prozess die Maschine sich zun├Ąchst die m├Âglichen Bezeichnungsarten einlesen kann und anschlie├čend, wenn es ein Repositorium mit Lerninhalten durchsucht, die Werte dort mit dem Vokabular abgleicht.

Findet der Crawler nun beispielsweise die Bezeichnung „Mathe“ auf der Webseite, wei├č die Maschine: „Ah, „Mathe“ ist ein alternativer Begriff f├╝r das Item mit dem Identifier „www.eine-persistente-url.de/mathematik“.┬áDer Crawler speichert nun statt des Wertes „Mathe“ die URL und so kann die Webseite hinterher auf die URL schauen und sich das „preferred Label“ zur Bezeichnung des Eintrags holen. Diese Vorgehensweise besitzt den ungemeinen Vorteil, dass die Webseite stets die aktuelle Bezeichnung hat, selbst wenn sich das „preferred Label“ einmal ├Ąndern sollte. Es ist eben nur die Referenz zu dem Wert gespeichert, nicht aber der Wert selbst.

Erarbeitung und Ver├Âffentlichung kontrollierter Vokabulare

Im Rahmen der Community Arbeit von Jointly sollen solche kontrollierten Vokabulare erstellt werden, damit k├╝nftige Infrastrukturen auf diese Wertelisten zugreifen k├Ânnen. Es bietet sich an, dass f├╝r dieses Vorhaben die Tools des HBZ genutzt werden. Die Entwicklung soll dabei auf der Plattform Github stattfinden, damit der Entwicklungsprozess ├Âffentlich einsehbar und gestaltbar ist. Au├čerdem wird die Entwicklung der Wertelisten in der OER-Metadatengruppe bekannt gemacht. Eine weitere Einbeziehung von Community-Mitgliedern wird angestrebt.

Nachtrag:

Kontrollierte Vokabulare – Wieso? Weshalb? Warum? Categories: 2020, alle Timelines: Jointly
Wir benutzen Cookies um die Nutzerfreundlichkeit der Webseite zu verbessen. Wenn Sie fortfahren, diese Seite zu verwenden, nehmen wir an, dass Sie damit einverstanden sind.