Wkludzynie do roboty ze Korpusym Ślōnskij Mowy – Silling

Tukej idzie przeczytać krōtke wkludzynie do roboty ze korpusym. Połniyjszy kurs (po czesku) idzie znojś we serwisie Czeskigo Korpusu Norodowego.

Je dostympnych piyńć spusobōw wyszukowanio we korpusie.

  • Podstawowy – szukanie gynau takij formy, jako je podano. Niy spiyro wyrażyń regularnych. We anotowanych korpusach podanie formy podstawowyj zwroco wszyjske formy jeji ôdmiany (szukanie czorny pies dałoby czorny pies, czornego psa, czornymu psu itd.). Ślōnski korpus niy je anotowany (na razie), beztōż wyszukowarka zwroco ino to, co dostowo.
  • Fraza – wyszukowanie podobne do podstawowego, ale spiyro regularne wyrażynia. Niy wyszukuje ôdmiany, ino to, co mo podane (czorny pies ôddo ino czorny pies).
  • Forma wyrazowo – szuko jednyj kōnkretnyj formy (kaj ôddo kaj, kajż ôddo kajż, kaj.* ôddo kaj, kajż, kajś, kajby, kajniykaj itp.)
  • Part wyrazu – zwroco wszyjske słowa, co w nich znojdzie sie zadano forma (pra ôddo pra, prawidło, pranie, prawić, kapra, sprawiedliwy itd.)
  • CQL – Corpus Query Language. Bez to, iże ślōnski korpus niyma na razie anotowany, tyn spusōb wyszukowanio niyma użyteczny.

Wyrażynia regularne

Wyrażynia regulane przizwolajōm nōm akuratnie ôpisać zbiōr cugōw, co pasujōm do szukanego słowa abo zjawiska. Do tego używo sie ekstra znakōw i dzikich kart ze włosnym znaczyniym.

  • kropka (.) – ôznaczo jedyn niyôkryślōny znak: d.m wyszuko dom, dōm, dóm, dym, dam itd.
  • interwał ({n, k}) – ôznaczo, wiela razy może sie powtōrzyć znak, co stoji przed nim: wan{1,2}a wyszuko wana i wanna. Jak k sie niy wpisze ({n,}), to n bydzie potraktowane jak minimum, a jak wpisze sie same n ({n}), wyszukano bydzie gynau ta liczba: wan{1}a znojdzie ino wana.
  • gwiozdka (*) – ôznaczo kożdo liczba powtōrzyń znaku, co stoji przed niōm, ôd zera do niyskōńczōności.
  • plus (+) – ôznaczo kożdo liczba powtōrzyń znaku, co stoji przed nim, ôd jedyn do niyskōńczōności
  • znak zapytanio (?) – ôznaczo zero abo jedno powtōrzynie znaku, co stoji przed nim.
  • wykoz ([]) – przizwolo na ôbranie znaku ze zbioru wkludzōnego do kwadratowych nowiasōw: d[oóō]m ôddo dom, dóm, dōm. Idzie tyż używać dywiza (-) jako ôperatora zakresu (bp. [a-z], [0-9]; trzeba pamiyntać, iże a-z ôznaczo ino litery łacińske podstawowe. Żeby szukać cołkigo alfabetu ślabikorzowego, trzeba wpisać a-zaćłńōôoośźż). Dodanie karetu na poczōntek zbioru we nowiasie bydzie ôznaczać, iże chcymy znojś wszyjske znaki, ino niy te we nowiasie: d[^oōó]m ôddo dym, dam itp., ale niy dom, dōm ani dóm.
  • ôkrōngły nowias () – cug znakōw we nowiasach ôkrōngłych je traktowany jak jednostka. Dziynki tymu idzie dō niego dodować mnożniki i niy bydōm ône tykać ino jednego znaku, ino wszyjskigo, co je we nowiasie: ō(ma){1,2} ôddo ōma i ōmama.
  • piōnowo kryska (|) – tyż ôznaczo zbiōr, ale niy indywidualnych znakōw, ino cołkich cugōw: dōm|dom ôddo dōm i dom, a dōm(a|owi|ym) ôddo dōma, dōmowi, dōmym.

Przikłady użycio wyrażyń regularnych:

  • s.m – ôddo sam, sōm, som, sóm, sem
  • dōm.* – ôddo dōm, dōmu, dōmek, dōmyślać, Dōmbrowa
  • .{1,2}dōm – ôddo padōm, wodōm, bydōm, modōm
  • d[oōó]m – ôddo dom, dōm i dóm
  • d[oōó]m(|u|owi|ym|em|ie|y|ow|ów|ōw|om|ōm|óm|ach|ami|oma|óma|ōma|ama|a) – ôddo cołko ôdmiana słowa dōm we trzech wariantach pisownie.