Alternatiwne pśistupy a wuwiśe korpusowego pytanja
Z techniskeju pódpěru Instituta Českego narodnego korpusa Praskeje Karloweje uniwersity pód titlom DOTKO wózjawjonu zběrku tekstow namakajośo na boce www.korpus.cz. Toś ten korpus jo był datowy zakład za tak pomjenjone „Standardne pytanje w starem korpusu“, kótarež se how wěcej njepóbitujo, a na taku wašnju wóstanjo k dostaśeju. Do dalokeje měry se maka z how wózjawjonym źělnym korpusom Historiske pismojstwo, na rozdźěl k slědnemu njejo pak wobogaśony z informacijami wó źinsajšnem pisanju a zakładnej formje wopśimjonych słow.
Wudopołnjona a anotěrowana druga wersija DOTKO v2, ak wopśimjejo daty wó źinsajšnem pisanju a zakładnej formje słow a jo stakim pśisamem identiska ze źělnym korpusom Historiske pismojstwo, se teke póbitujo na bokach Českego narodnego korpusa.
Górnoserbski tekstowy korpus jo na hornjoserbsce.de pśistupny.
Etapy wuwiśa korpusowego pytanja
- 2026-03-09
- Rozšyrjenje źělnego korpusa Nejnowše dolnoserbske pismojstwo wó pódkorpusa za lěśe 2023 a 2024
- 2025-10-20
-
-
Aktualizacija zakładneje korpusoweje software „IMS Open Corpus Workbench“ (CWB) na wersiju 3.5 a z tym na dopołne zmóžnjenje UTF-8 („multibyte-safe“).
Rozkłaźenje
- Doněnta wužywana wersija CWB 3.0 jo dopušćała korpusowe daty, ak su koděrowane pó standarźe UTF-8, jo je pak składowała we formaśe ISO 8859-1 (Latin-1).
- Stakim jo se kužde znamuško, ak w koděrowanju UTF-8 wobstoj z wěcej bytow, składowało ako zestajone z někotarych źělnych znamuškow.
- Toś ta wašnja składowanja jo wjadła k njewócakowanemu zaźaržanjeju we wěstych pytańskich szenariumach z regularnymi wurazami abo z pśetwórjenim wjeliko- a małopisanim, gaž su byli pótrjefjone górjejcne znamuška.
-
Pytanje z regularnym wurazom
witaj.onjejo mógało namakaś „witajśo“, pytanjewitaj..ojo to pak mógało. Teke pytanje z rědownjami znamuškow ([sšś]) jo pśinjasło dysfunkcionelne wuslědki. -
Rowno tak njejo pytanje
łužycamógało namakaś „Łužyca“. - Wšykne napšašowanja dejali něnto pšawje funkcioněrowaś.
- Pytańska syntaksa jo něnt standardnje nastajona na „Regularny wuraz“ město nastajenja na „Komfortne pytanje“.
-
Interpunciske tokeny we wuslědkach se něnto ignorěruju, gaž jo pytańska syntaksa nastajona na „Komfortne pytanje“ abo „Regularny wuraz“.
Rozkłaźenje
-
Pytanje za
ten aknamakajo něnto ako wuslědki z „ten ak“, tak teke z „ten, ak“. -
Doněnta su musali interpunkciske znamuška eksplicitnje pódawane byś. Za to jo napšašowanje
ten , aknotne było, což jo něnto teke hyšći móžno. -
Napšašowanje
ten, aknjejo pśinjasło a nadalej njepśinosujo žedne wuslědki.
-
Pytanje za
-
Aktualizacija zakładneje korpusoweje software „IMS Open Corpus Workbench“ (CWB) na wersiju 3.5 a z tym na dopołne zmóžnjenje UTF-8 („multibyte-safe“).
- 2025-03-27
-
- Rozšyrjenje wó źělny korpus Casnikowy korpus
- Pórěd źělnych korpusow w pytańskich nastajenjach a na boce Žrědła jo se změnił.
- 2025-03-17
-
Wšake modernizacije:
-
Kóńc póbitowanja tak pomjenjonego „Standardnego pytanja w starem korpusu“:
- Doněntejšne „Komfortne pytanje w nowem korpusu“ se něnt pomjenjujo jadnorje „Dolnoserbski tekstowy korpus“ abo „Korpusowe pytanje“.
- Adrese su se pśiměrili, korpusowe pytanje jo něnt pód dolnoserbski.de/korpus/ pśistupne a njejo wěcej rozdźělone na dolnoserbski.de/korpus/standard/ a dolnoserbski.de/korpus/komfort/.
- Na boce dolnoserbski.de/korpus/pokazki/ jo se zasajźił link k bokoju dolnoserbski.de/korpus/wuwise/, ak wopśimjejo informacije wó dolnoserbskima korpusoma DOTKO a DOTKO v2, ak se póbitujotej na korpus.cz.
-
Wětše UX-pólěpšenja:
- Pytanje něnt na /korpus/
- Pódbok /korpus/pytanje/ wótwónoźony
- Nawigaciski element „Pytanje“ wjeźo něnt na /korpus/
-
Mjeńše UX-pólěpšenja:
- nowe icony
- nowe pśirědowanje barwow
- interakcije pla pytańskich nastajenjow
- informaciske bublinki
- wuzwignjenje žrědłow
- składowanje zwobraznjowanja tastatury za wósebne znamuška
-
Wětše administratiwne pólěpšenja:
- Zjadnotnjenje dolnoserbskego a górnoserbskego korpusowego pytanja
-
Kóńc póbitowanja tak pomjenjonego „Standardnego pytanja w starem korpusu“:
- 2023-12-14
- Rozšyrjenje wó źělny korpus Nejnowše dolnoserbske pismojstwo ze styrjomi pódkorpusami za lěta 2019 až 2022
- ⋮
- 2022-02-01
- Rozšyrjenje wó źělny korpus Historiske pismojstwo
- ⋮
- 2020-06-05
- Zawjeźenje komfortnego pytanja ze źělnym korpusom Dolnoserbski referencny korpus
- ⋮