Alternative Zugänge und Entwicklung der Korpussuche
Die mit technischer Unterstützung des Instituts für das Tschechische Nationalkorpus der Prager Karls-Universität unter dem Namen DOTKO veröffentlichte Textsammlung finden Sie auf der Seite www.korpus.cz. Dieses Korpus war die Datenbasis für die inzwischen eingestellte sogenannte „Standardsuche im alten Korpus“ und bleibt auf diese Weise weiterhin erreichbar. Es entspricht weitgehend dem hier veröffentlichten Teilkorpus Historisches Schrifttum, bietet aber im Unterschied zu Letzterem keine Informationen zur heutigen Schreibung und Grundform der enthaltenen Wörter.
Eine ergänzte und annotierte zweite Version DOTKO v2, die ebenfalls im Wesentlichen dem Teilkorpus Historisches Schrifttum entspricht, ist auch auf den Seiten des Tschechischen Nationalkorpus zugänglich.
Zugriff auf das obersorbische Textkorpus erhalten Sie auf obersorbisch.de.
Entwicklung der Korpussuche
- 2026-03-09
- Erweiterung des Teilkorpus Neuestes niedersorbisches Schrifttum um zwei Subkorpora für die Jahre 2023 und 2024
- 2025-10-20
-
-
Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
Erläuterung
- Die bisherige verwendete CWB-Version 3.0 hat zwar UTF-8-kodierte Korpusdaten zugelassen, diese aber intern als ISO 8859-1 (Latin-1) kodiert abgelegt.
- Somit wurde jedes Zeichen, das in der UTF-8-Kodierung aus mehr als einem Byte besteht, als mehrere Teilzeichen abgespeichert.
- Diese Form der Speicherung führte in bestimmten Suchszenarien zu unerwartetem Verhalten bei manchen regulären Ausdrücken oder bei der Konvertierung von Groß- und Kleinschreibung, sobald obige Zeichen betroffen waren.
-
So konnte eine Anfrage mit regulären Ausdrücken wie
witaj.onicht „witajśo“ finden, die Anfragewitaj..okonnte das jedoch. Auch Anfragen mit Zeichenklassen ([sšś]) brachten disfunktionale Ergebnisse hervor. -
Ebenso konnte eine Anfrage wie
łužycanicht „Łužyca“ finden. - Alle Anfragen sollten nunmehr wie erwartet funktionieren.
- Die Anfragesyntax ist jetzt standardmäßig auf „Regulärer Ausdruck“ statt auf „Komfortsuche“ gestellt.
-
Interpunktionstokens werden in den Ergebnissen der Anfragesyntaxen „Komfortsuche“ und „Regulärer Ausdruck“ jetzt ignoriert.
Erläuterung
-
Eine Suche nach
ten akfindet somit jetzt sowohl Ergebnisse wie „ten ak“ als auch „ten, ak“. -
Bisher mussten Satzzeichen explizit angegeben werden. Dafür war eine Anfrage wie
ten , aknötig. Diese ist auch jetzt noch möglich. -
Die Anfrage
ten, akbrachte und bringt weiterhin keinerlei Ergebnisse hervor.
-
Eine Suche nach
-
Aktualisierung der zugrundeliegenden Korpus-Software „IMS Open Corpus Workbench“ (CWB) auf Version 3.5 und damit auf vollständige UTF-8-Unterstützung („multibyte-safe“).
- 2025-03-27
-
- Erweiterung um das Teilkorpus Zeitungskorpus
- Die Reihenfolge der Teilkorpora in den Sucheinstellungen und unter Quellen wurde verändert.
- 2025-03-17
-
Verschiedene Modernisierungen:
-
Einstellung der sogenannten „Standardsuche im alten Korpus“:
- Die bisherige „Komfortsuche im neuen Korpus“ wird jetzt einfach als „Niedersorbisches Textkorpus“ oder „Korpussuche“ bezeichnet.
- Die Adresspfade wurden angepasst, die Korpussuche ist jetzt unter dolnoserbski.de/korpus/ zu finden und nicht mehr auf dolnoserbski.de/korpus/standard/ und dolnoserbski.de/korpus/komfort/ aufgeteilt.
- Unter der Seite dolnoserbski.de/korpus/pokazki/ wurde ein Link zu dolnoserbski.de/korpus/wuwise/ eingefügt, die Hinweise zu den auf korpus.cz angebotenen niedersorbischen Korpora DOTKO und DOTKO v2 enthalten.
-
Größere UX-Verbesserungen:
- Suche jetzt unter /korpus/
- Unterseite /korpus/pytanje/ entfernt
- Navigations-Element „Suche“ führt jetzt zu /korpus/
-
Kleinere UX-Verbesserungen:
- neue Icons
- neue Farbzuordnung
- Sucheinstellungs-Interaktionen
- Informations-Buttons
- Quellhervorhebung
- Speicherung der Anzeige der Sonderzeichentastatur
-
Größere administrative Verbesserungen:
- Vereinheitlichung der niedersorbischen und der obersorbischen Korpussuche
-
Einstellung der sogenannten „Standardsuche im alten Korpus“:
- 2023-12-14
- Erweiterung um das Teilkorpus Neuestes niedersorbisches Schrifttum mit vier Subkorpora für die Jahre 2019 bis 2022
- ⋮
- 2022-02-01
- Erweiterung um das Teilkorpus Historisches Schrifttum
- ⋮
- 2020-06-05
- Einführung der Komfortsuche mit dem Teilkorpus Referenzkorpus
- ⋮