Mihaela je v svojem zadnjem prispevku postavila nekaj vprašanj, ki so povezani s korpusi in njihovo gradnjo. Rada bi ji odgovorila tu, v skupnem blogu, ker bo morebiti še koga drugega zanimalo. Upam tudi, da boste tudi drugi spregovorili in postavili svoja vprašanja. Tudi če nanje ne bomo našli odgovora, ga bomo vsaj skupaj iskali. Temu je v končni fazi tale blog namenjen.
Mihaela pravi:
Ni mi povsem jasno, kaj je mišljeno s ‘populacijo’, ‘mejami populacije in njeno hierarhično strukturo’ in ‘okvirno ciljno velikostjo korpusa’. Prosim, če mi podrobneje obrazložite te termine. Zanima me tudi način vzorčenja; kdaj se odločimo za cele članke oz. posamezne dele člankov in na podlagi katerih kriterijev se odločamo za vključitev posameznih delov člankov v korpus. Še malo bom zatežila – kakšna je razlika med pisnim in elektronskim ‘prenosnikom’ (ali gre pri tem za vir, ki je le v ‘papirnati’ obliki v nasprotju z ‘elektronsko’ obliko…).
Pa pričnimo s terminološkimi težavami. Če se spomnite, smo na delavnici rekli, da je korpusna metoda kvantitativna metoda proučevanja jezika. V kvantitativnih raziskavah populacijo razumemo kot množico, ki jo proučujemo s statističnimi metodami. V našem primeru je ta množica jezik. Ker pa je jezik lahko vse to, kar npr. pišemo v ta blog (pisni jezik), kar rečem svojim otrokom, ko ju spravljam v posteljo (govorni jezik), pravljica, ki jo pred tem preberem na glas (govorjeni jezik), kar slišim na televiziji in preberem v časopisu in na oglasni deski, lahko ugotovimo, da je zelo težko proučevati tole množico, če ji ne postavimo neke meje. Dejansko je tudi nemogoče oceniti, kako velika je ta množica. Zatorej so meje še bolj potrebne.
Če ne določimo populacije, ne moremo sestaviti korpusa, ki bo to množico predstavljal in nam omogočal, da svoje ugotovitve posplošujemo na celotno množico. Korpus je vedno le vzorec neke večje množice, je bolj obvladljiv, in če je dovolj dober, množico lahko dovolj dobro predstavlja.
Pri reševanju problemov, ki so povezani z definicijo jezika kot populacije, se preprosto poskušamo posluževati čim bolj pragmatičnih rešitev. Kako? S tem, da populacijo poskusimo definirati in ji določiti njene meje.
Pri definiranju populacije moramo odgovoriti na vprašanje, ali gre za jezik, ki ga ljudje slišimo in beremo (receptivni aspekt jezika), ali za jezik, ki ga ljudje napišemo in govorimo (produktivni aspekt jezika). Pri opisu obeh so zelo pomembne demografske značilnosti tistih, ki jezik sprejemajo oz. tistih, ki ga producirajo. Npr. starost (otroci, mladostniki,…), spol, družbeni sloj (niso npr. vsi družbeni sloji enako zastopani, ko gre za bralce časopisa The Sun) in podobno. Obstaja pa še tretja možnost. Gre za produkte, ki jih določimo glede na njihovo besedilno kategorijo ali žanr.
Preprosto rečeno, pri postavljanju mej korpusa določimo, kaj vključimo v korpus in česa ne (npr. če gre za produkte, povemo, kakšna besedila vključimo v korpus in kakšna ne). Razlogi za vključitev so seveda povezani s cilji, ki jih želimo doseči.
Hierarhična struktura populacije se nanaša na kategorije besedil, ki so del množice, ki jo naš korpus želi predstavljati. Npr. če govorimo o jeziku neke stroke, moramo ta jezik stroke in njene dele definirati. Vsak jezik stroke npr. sestavljajo besedila (pisna, govorna ali govorjena), ki so rezultat komunikacije med strokovnjaki (poročila, strokovni članki, znanstvena besedila, priročniki, predstavitve,…), strokovnjaki in bodočimi strokovnjaki (učbeniki, priročniki, enciklopedije, predavanja,…) in med strokovnjaki in laiki (poljudna in znanstveno poljudna besedila, reportaže, predstavitve,…). To je tista ‘večja slika’. Nas zanima cela ta podoba, le en njen del? Kako je ta del sestavljen, strukturiran? Obstaja le en tip besedil? Recimo, zanimajo nas predavanja strokovnjakov bodočim strokovnjakom. So vsa predavanja enaka? Jih morebiti lahko razvrstimo v nekakšne podskupine, podžanre? Če ja, potem mora naš korpus to strukturo odražati.
Okvirna ciljna velikost korpusa se nanaša na število besed, ki jih želimo zbrati: recimo 10.000 besed (oz. pojavnic).
Pri gradnji specializiranih korpusov se običajno odločamo za cela besedila. Razlog je ta, da izkušnje kažejo, da se nekatere strokovne besede pojavljajo le v določenem delu besedila (npr. samo v začetku, v sredini), zato bi se lahko zgodilo, da naš korpus ne zajame nekatere pomembne izraze. Dele besedil se običajno uporalja pri gradnji splošnih/reprezentativnih korpusov za nek jezik. Vsaj praksa je bila takšna v preteklosti. Pri tem so uporabljali slučajno vzorčenje, če se prav spomnim. Tisti, ki vas to zanima, najbolje je, da preberete opis korpusov Brown, LOB in podobno.
Prenosnik je elektronski npr. v elektronskih sporočilih. Res gre za pisni jezik, vendar narava prenosnika pomembno vpliva nanj (primerjajmo običajna pisma z elektronskimi sporočili, klepet v živo s klepetom na internetu).
Upam, da je slika sedaj malce bolj jasna. Smarties so le za tiste, ki so se prebili do konca.
Žal.



