„Corpus” to łacińske słowo. Po naszymu „corpus” to ciało. Korpus jynzyka to je srogi zbiōr pisanych abo godanych tekstōw, nojczyńścij we formie elektrōnicznyj. Korpusōw sie używo do analizy statystycznyj, testowanio hipotez statystycznych, sprawdzanio wystōmpiyń abo weryfikowanio prawideł jynzykowych na danym polu godki.

Part Korpusu Ślōnskij Mowy we wolnym dostympie online mo 1 102 837 słōw. Ta liczba bydzie rōść skirz tego, iże wszyjske zebrane teksty do budowy korpusu majōm 2 001 281 słōw, ale niy do wszyjskich szło dostać zwolo na jejich ôpublikowanie.

Korpus online skłodo sie ze 941 dokumyntōw, co z nich nojstarszy je listek ôd Ambrożego Szklorza, mieszczana ôleskigo, do princa brzeskigo Jurzigo II, napisany we 1574 roku. Nojnowsze sōm rozmajte artykuły publicystyczne i informacyjne ze portalu Wachtyrz.eu. Nojkrōtszy dokumynt mo 67 słōw i je to śpiywka ô chopcach z Niezdrowic, nojdugszy to piōnto czyńść „Duchōw Wojny” ôd Alojzego Lyski, co mo 82 221 słōw.

Utwory literacke, artykuły presowe i publicystyka były ôstawiōne we ôryginalnyj formie. Teksty gwarowe były stransliterowane ze alfabetu fōnetycznego do ślabikorzowego.

Noczynie użyte do udostympniynio projektu to Manatee, co ôdpowiado za procesowanie korpusu, jak tyż KonText przigotowany ôd Instytutu Czeskigo Korpusu Norodowego. KonText ôdpowiado za interfejs używocza, to znaczy za to, co widzymy przi robocie. Instytut Czeskigo Korpusu Norodowego pōmogoł przi instalacyji tyj tajle serwisu, co udostympnio ślōnski korpus.