Niedersorbisches Textkorpus

Alternative Zugänge und Entwicklung der Korpussuche

Die mit technischer Unterstützung des Instituts für das Tschechische Nationalkorpus der Prager Karls-Universität unter dem Namen DOTKO veröffentlichte Textsammlung finden Sie auf der Seite www.korpus.cz. Dieses Korpus war die Datenbasis für die inzwischen eingestellte sogenannte „Standardsuche im alten Korpus“ und bleibt auf diese Weise weiterhin erreichbar. Es entspricht weitgehend dem hier veröffentlichten Teilkorpus Historisches Schrifttum, bietet aber im Unterschied zu Letzterem keine Informationen zur heutigen Schreibung und Grundform der enthaltenen Wörter.

Eine ergänzte und annotierte zweite Version DOTKO v2, die ebenfalls im Wesentlichen dem Teilkorpus Historisches Schrifttum entspricht, ist auch auf den Seiten des Tschechischen Nationalkorpus zugänglich.

Zugriff auf das obersorbische Textkorpus erhalten Sie auf obersorbisch.de.

Entwicklung der Korpussuche

2026-03-09
Erweiterung des Teilkorpus Neuestes niedersorbisches Schrifttum um zwei Subkorpora für die Jahre 2023 und 2024
2025-10-20
  • Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
    Erläuterung
    • Die bisherige verwendete CWB-Version 3.0 hat zwar UTF-8-kodierte Korpusdaten zugelassen, diese aber intern als ISO 8859-1 (Latin-1) kodiert abgelegt.
    • Somit wurde jedes Zeichen, das in der UTF-8-Kodierung aus mehr als einem Byte besteht, als mehrere Teilzeichen abgespeichert.
    • Diese Form der Speicherung führte in bestimmten Suchszenarien zu unerwartetem Verhalten bei manchen regulären Ausdrücken oder bei der Konvertierung von Groß- und Kleinschreibung, sobald obige Zeichen betroffen waren.
    • So konnte eine Anfrage mit regulären Ausdrücken wie witaj.o nicht „witajśo“ finden, die Anfrage witaj..o konnte das jedoch. Auch Anfragen mit Zeichenklassen ([sšś]) brachten disfunktionale Ergebnisse hervor.
    • Ebenso konnte eine Anfrage wie łužyca nicht „Łužyca“ finden.
    • Alle Anfragen sollten nunmehr wie erwartet funktionieren.
  • Die Anfragesyntax ist jetzt standardmäßig auf „Regulärer Ausdruck“ statt auf „Komfortsuche“ gestellt.
  • Interpunktionstokens werden in den Ergebnissen der Anfragesyntaxen „Komfortsuche“ und „Regulärer Ausdruck“ jetzt ignoriert.
    Erläuterung
    • Eine Suche nach ten ak findet somit jetzt sowohl Ergebnisse wie „ten ak“ als auch „ten, ak“.
    • Bisher mussten Satzzeichen explizit angegeben werden. Dafür war eine Anfrage wie ten , ak nötig. Diese ist auch jetzt noch möglich.
    • Die Anfrage ten, ak brachte und bringt weiterhin keinerlei Ergebnisse hervor.
2025-03-27
  • Erweiterung um das Teilkorpus Zeitungskorpus
  • Die Reihenfolge der Teilkorpora in den Sucheinstellungen und unter Quellen wurde verändert.
2025-03-17
Verschiedene Modernisierungen:
  • Einstellung der sogenannten „Standardsuche im alten Korpus“:
    • Die bisherige „Komfortsuche im neuen Korpus“ wird jetzt einfach als „Niedersorbisches Textkorpus“ oder „Korpussuche“ bezeichnet.
    • Die Adresspfade wurden angepasst, die Korpussuche ist jetzt unter dolnoserbski.de/korpus/ zu finden und nicht mehr auf dolnoserbski.de/korpus/standard/ und dolnoserbski.de/korpus/komfort/ aufgeteilt.
    • Unter der Seite dolnoserbski.de/korpus/pokazki/ wurde ein Link zu dolnoserbski.de/korpus/wuwise/ eingefügt, die Hinweise zu den auf korpus.cz angebotenen niedersorbischen Korpora DOTKO und DOTKO v2 enthalten.
  • Größere UX-Verbesserungen:
    • Suche jetzt unter /korpus/
    • Unterseite /korpus/pytanje/ entfernt
    • Navigations-Element „Suche“ führt jetzt zu /korpus/
  • Kleinere UX-Verbesserungen:
    • neue Icons
    • neue Farbzuordnung
    • Sucheinstellungs-Interaktionen
    • Informations-Buttons
    • Quellhervorhebung
    • Speicherung der Anzeige der Sonderzeichentastatur
  • Größere administrative Verbesserungen:
    • Vereinheitlichung der niedersorbischen und der obersorbischen Korpussuche
2023-12-14
Erweiterung um das Teilkorpus Neuestes niedersorbisches Schrifttum mit vier Subkorpora für die Jahre 2019 bis 2022
2022-02-01
Erweiterung um das Teilkorpus Historisches Schrifttum
2020-06-05
Einführung der Komfortsuche mit dem Teilkorpus Referenzkorpus