On-line slovarček
statističnih pojmov
Matej Kovačič
Frekvenčna razporeditev
Frekvenčna razporeditev spremenljivke je
porazdelitev vrednosti spremenljivke in njihovih frekvenc. Frekvence ponavadi
zapišemo v obliki relativnih frekvenc oziroma strukturnih odstotkov.
Aritmetična sredina ()
Aritmetična sredina je poleg mediane,
modusa, geometrijske in harmonične sredine ena izmed najbolj uporabljanih
reprezentančnih vrednosti za spremenljivko. Definirana je kot vsota vseh
vrednosti, deljena s številom enot v populaciji (oziroma v našem primeru v
vzorcu). Primerna je za številske, približno normalno (unimodalno) porazdeljene
spremenljivke.
Analitično
jo izračunamo s pomočjo naslednje formule:
Standardni odklon (SD, s)
Standardni odklon je ena izmed mer
razpršenosti (variabilnosti). Definiran je kot kvadratni koren iz variance, ki
je prav tako ena izmed mer razpršenosti.
Varianco
analitično izračunamo spomočjo naslednje formule:
Aritmetična sredina in standardni odklon
zelo dobro opisujeta približno normalno in unimodalno porazdeljeno
spremenljivko. Vendar pa je unimodalna spremenljivka lahko bolj ali manj asimetrična (v levo ali v desno, odvisno
kam se vleče “rep”) ter bolj ali manj sploščena
(oziroma koničasta). Zato je nujno potrebno izračunati še stopnjo asimertije in
stopnjo sploščenosti. To storimo z naslednjimi dvemi koeficienti.
Koeficient asimetrije (skewness)[1]
Z njim merimo asimetrijo spremenljivke.
Kritične vrednosti:
·
večji od 0 - asimetrija v desno
·
enak 0 - spremenljivka je simetrična (porazdeljuje se
normalno)
·
manjši od 0 - asimetrija v levo
Koeficient sploščenosti (kurtosis)[2]
Z njim merimo stopnjo sploščenosti
spremenljivke. Kritične vrednosti:
·
večji od 0 - koničasta porazdelitev
·
enak 0 - spremenljivka se porazdeljuje normalno
·
manjši od 0 - sploščena porazdelitev
Interval zaupanja (za aritmetično sredino)
Interval zaupanja, ki ga določata njegova
spodnja in njegova zgornja meja, je interval, v katerem se z dano gotovostjo
(ponavadi določimo 95 odstotno) nahaja ocenjevani parameter. Interpretacija je
naslednja: z verjetnostjo tveganja a se
parameter nahaja v tem intervalu.
Analitična
formula za izračun intervala zaupanja za aritmetično sredino je naslednja:
Pri
formuli smo vzeli 95 odstotno gotovost, oziroma 5 odstotno stopnjo tveganja.
T-test
S pomočjo t-testa preverjamo domneve o
enakosti dveh povprečij. To storimo tako, da izberemo neko (neodvisno)
spremenljivko, ki vzorec razdeli na dva dela (dve skupini), nato pa za vsak del
izračunamo povprečje izbrane spremenljivke, povprečji pa med seboj primerjamo.
Hkrati tudi določimo stopnjo značilnosti (a), na
podlagi katere določimo kritično območje.
Analitična
formula za t-test:
|
Formula za oceno populacijske variance: |
Na vzorčnih podatkih izračunamo
eksperimentalno vrednost statistike, in če le-ta pade v kritično območje,
ničelno domnevo zavrnemo in sprejmemo osnovno domnevo ob že prej določeni
stopnji značilnosti a, sicer
pa rečemo, da vzorčni podatki kažejo na statistično neznačilne razlike med
parametrom in vzorčno oceno.
V svoji analizi sem s pomočjo Levenovega testa enakosti varianc
ugotovil ali sta varianci v obeh skupinah enaki (P ³ 0,05) ali ne (P < 0,05) in to tudi upošteval
pri analizi.
Koeficient korelacije med dvema spremenljivkama
Pearsonov koeficient korelacije meri
korelacijsko (stohastično) linearno povezanost med dvema spremenljivkama.
Zavzema lahko vrednosti v intervalu
[-1, 1]. Kritične vrednosti:
·
0: med spremenljivkama ni povezanosti
·
+ 1: pozitivna povezanost (z večanjem vrednosti ene
spremenljivke se veča tudi vrednost druge)
·
- 1: negativna povezanost (z večanjem vrednosti prve
spremenljivke, se manjša vrednost druge)
Pearsonov
koeficient korelacije analitično izračunamo s pomočjo naslednje formule:
pri
čemer je formula za kovarianco (ki meri linearno
povezanost med spremenljivkama) naslednja:
Računanje
evklidske razdalje
Da bi enote
lahko razvrstili v skupine, moramo najprej izmeriti podobnost med posameznima
enotama. Podobnost ugotovimo z mero podobnosti, ki je v bistvu preslikava, ki
vsakemu paru enot (v našem primeru: vsakemu paru študentov iz vzorca) priredi
neko realno število.
Pri razvrščanju
enot, določenih s samimi številskimi spremenljivkami, se najpogosteje uporablja
evklidska razdalja, ki sem jo v svoji nalogi uporabil tudi sam.
Evklidsko razdaljo med enotama X in Y, ki sta opisani z m številskimi spremenljivkami
izračunamo po naslednji formuli:
V svoji nalogi
sem kot opis enot (študentov iz vzorca) vzel 19 odvisnih spremenljivk iz sklopa
“Ambicije za dosego ciljev”.
3.2.
Združevanje v skupine po Wardovi metodi
Wardovo metodo
združevanja v skupine štejemo med hierarhične metode združevanja v skupine, ker
temelji na zaporednem združevanju (zlivanju) dveh ali več skupin v novo
skupino. Mero različnosti med novo skupino, sestavljeno iz skupin in in neko drugo skupino
v postopku
združevanja v skupine po Wardovi metodi določimo takole:
pri čemer predstavlja število
enot v , pa težišče skupine .
3.3 Drevo
združevanja (dendrogram)
Potek
združevanja lahko grafično ponazorimo z drevesom združevanja oz. tim.
dendrogramom. Listi tega drevesa so enote, točke združitve (točke, kjer se ena
veja cepi na več manjših) pa sestavljene skupine. Višina točke ali nivo združevanja (ang. level of fusion) je sorazmerna meri
različnosti med skupinama.
S pomočjo oblike
dendrograma se nato lahko odločimo v koliko skupin bomo razvrstili dane enote.
To storimo tako, da dendrogram na nekem nivoju “odrežemo” (tam, kjer nivoji
združevanja kažejo čimvečjo različnost med skupinami) ter tako dobimo določeno
število odrezanih “vej” drevesa. Število vej nam nato predstavlja število
skupin v katere bomo razvrstili enote.
Metoda
glavnih komponent
Metoda glavnih
komponent je ena najpogosteje uporabljanih multivariatnih metod. Osnovna
zamisel metode je opisati razpršenost n
enot v m razsežnem prostoru - ki je
določen z m merjenimi spremenljivkami
- z množico nekoreliranih spremenljivk (komponent), ki so linearne kombinacije
originalnih merjenih spremenljivk. Nove spremenljivke - komponente so urejene
od najpomembnejše - to je tiste, ki pojasnjuje kar največ razpršenosti osnovnih
podatkov - do najmanj pomembne - tiste, ki pojasnjuje najmanjši del
razpršenosti opazovanih spremenljivk.
Cilj te metode
je poiskati nekaj prvih komponent, ki pojasnjujejo čim večji del razpršenosti
analiziranih podatkov. Metoda glavnih komponent torej zmanjša razsežnost
podatkov, pri tem pa poizkuša izgubiti čim manj informacij.
Z metodo glavnih
komponent želimo torej poiskati take linearne kombinacije opazovanih spremenljivk,
ki kar se da močno korelirajo z opazovanimi spremenljivkami, oz. pojasnijo kar
se da veliko razpršenosti (variacije) opazovanih spremenljivk. Zato je potrebno
pri metodi glavnih komponent določiti uteži pri linearni kombinaciji
spremenljivk tako, da je varianca te linearne kombinacije največja. Ko
izračunamo prvo komponento z največjo varianco, poiščemo drugo komponento (z
največjo varianco), ki pa s prvo ne sme korelirati. Postopek ponavljamo do
zadnje komponente.
Pomembno je, da
predno računamo glavne komponente spremenljivke standardiziramo.
V naslednjem
koraku moramo ugotoviti koliko komponent je najpomembnejših. V literaturi
obstaja za določanje števila najpomembnejših komponent več pravil:
1.
izbrano število komponent naj
pojasni vsaj 80% skupne variance;
2.
izbrano število komponent naj
pojasni vsaj 50% skupne variance (velja v družboslovju);
3.
lastne vrednosti komponent naj
bodo večje kot povprečna vrednost lastnih vrednosti;
4.
odstotek pojasnjene variance
zadnje še izbrane komponente naj bo vsaj 5 %;
5.
število komponent določimo na
osnovi grafične predstavitve lastnih vrednosti s pomočjo scree diagrama: v koordinatni sistem nanašamo na abscisno os
število komponent, na ordinatno os pa ustrezne lastne vrednosti. Tam kjer se
krivulja na grafu lomi je sugestija za število komponent.
Prikaz
komponent
Nove
spremenljivke - komponente pridobljene s pomočjo metode glavnih komponent sem
potem prikazal v dvorazsežnem razsevnem grafikonu, v katerega sem vključil
kontrolno spremenljivko: SKUP (skupina, dobljena pri razvrščanju v skupine s
pomočjo Wardove metode), uspeh v zadnjem letniku srednje šole (od odličen do
zadosten), vernost (veren/neveren), kraj bivanja (mesto/primestje/vas) in spol
(moški/ženski).
Konstrukcija Likartove lestvice
Likartovo
lestvico konstruiramo iz večjega števila spremenljivk, ki nam vse merijo isti
koncept. Merjeni koncept želimo zaobjeti v eno samo spremenljivko, ki jo
konstruiramo na naslednji način: vrednosti vseh spremenljivk, ki jih vključimo
v konstrukcijo nove spremenljivke seštejemo ter dobljeno vsoto delimo s
številom spremenljivk. Pri tem pa je seveda potrebno paziti, da so vse
spremenljivke “obrnjene v isto smer”, oz. da vrednosti posamezne spremenljivke
pri vsaki spremenljivki pomenijo oz. na enak način merijo isto. Nova
(konstruirana) spremenljivka je intervalnega tipa.
Multipla regresija
Regresijska
funkcija nam kaže, kakšen bi
bil vpliv spremenljivk na spremenljivko Y,
če razen teh vplivov ne bi bilo nobenih drugih vplivov. Spremenljivke so neodvisne
spremenljivke, spremenljivka Y je odvisna spremenljivka, E pa je člen napake,
ki mu včasih rečemo tudi motnja ali disturbanca. Za i-to enoto seveda velja: . Regresijski model pa lahko zapišemo tudi matrično: Y = Xß +
E, pri čimer je:
Ko zgradimo regresijski model, seveda nastopi vprašanje,
koliko je regresijski model prilagojen podatkom. Če vemo, da za i-to enoto
velja:
, pri čemer je prava vrednost, regresijska ocena, pa razlika, potem
mora (po metodi najmanjših kvadratov) veljati:
da bo regresijski model čimbolj točen.
Velja torej:
oz. celotna varianca (SST) = pojasnjena varianca (SSR) +
nepojasnjena varianca (SSE).
Vektorsko lahko to zapišemo takole:
Determinacijski koeficient, ali kvadrat multiplega
koeficienta korelacije, ki nam pove odstotek pojasnjene variance analitično
nato izračunamo takole:
Ker je pri determinacijskem koeficientu števec odvisen od
števila neodvisnih spremenljivk, ga je potrebno popraviti:
Celotni regresijski model testiramo z F-testom:
Manjša kot je statistična značilnost F-statistike, boljši
je regresijski model.
Faktorska analiza
Faktorska analiza je ena izmed metod za
redukcijo podatkov. Pri faktorski analizi gre za študij povezav med
spremenljivkami tako, da poizkušamo najti novo množico spremenljivk, ki predstavljajo
to, kar je skupnega opazovanim spremenljivkam. Množica novih spremenljivk mora
biti seveda manjša od množice merjenih spremenljivk. Z drugimi besedami:
faktorska analiza poizkuša poenostaviti kompleksnost povezav med množico
opazovanih spremenljivk z razkritjem skupnih razsežnosti ali faktorjev, ki omogočajo vpogled v
osnovno strukturo podatkov. Metoda je uporabna v vseh tistih primerih, ko
zaradi različnih vzrokov neposredno merjenje neke spremenljivke ni možno. V tem
primeru merimo samo indikatorje pojma oz. konstrukta, ki ga neposredno ne
moremo meriti. S faktorsko analizo nato ugotovimo ali so zveze med opazovanimi
spremenljivkami (ali indikatorji) pojasnljive z manjšim številom posredno
opazovanih spremenljivk ali faktorjev.
Splošni faktorski model
Osnova faktorskega modela je domneva, da med
spremenljivkami (i = 1, ..., m), (r = 1, ..., k) in (i = 1, ..., m) velja
zveza:
; i = 1, ..., m in k
< m
pri
čemer so merjene
spremenljivke, skupni faktorji, pa specifični faktor,
ki vpliva samo na , pa je faktorska utež,
ki kaže na vpliv faktorja na .
V
matrični obliki splošni faktorski model zapišemo takole:
X = F A’
+ E
Na
osnovi naslednjih predpostavk splošnega faktorskega modela:
·
specifični faktorji so pravokotni med seboj
(cov (, ) = 0, če velja i ¹ j)
·
vsak specifični faktor je pravokoten na vsak
skupni faktor
(cov (,) = 0, za vsak i in j)
·
skupni faktorji so pravokotni med seboj
(cov (, ) = 0, če velja i ¹ j)
·
spremenljivke , in naj bodo centrirane
(E() = E() = E() = 0)
lahko
izpeljemo naslednjo faktorsko enačbo:
S = A A’ + y
Enačbo
lahko zapišemo tudi drugače:
, pri čemer je varianca skupnih
faktorjev, pa varianca
specifičnih faktorjev (slednja mora biti seveda čim manjša).
S tem smo varianco merjene spremenljivke razbili na del, ki je
pojasnjen s kupnimi faktorji in na specifično varianco. Delež variance, ki je
pojasnjena s skupnimi faktorji imenujemo tudi komunaliteta, označujemo
pa jo z
V prvem delu faktorske analize moramo
najprej izračunati neznane parametre faktorskega modela: faktorske uteži A in
specifične variance y. Pred
tem pa je potrebno preveriti:
·
identifikabilnost
faktorskega modela (ugotoviti moramo, ali faktorske uteži A in
specifične faktorje y sploh lahko
ocenimo)
Potreben (ne pa tudi zadosten) pogoj za
identifikacijo faktorskega modela je:
, pri čemer je m
število spremenljivk vključenih v faktorski model, k pa število faktorjev.
Če ta pogoj ni izpolnjen, je model prefaktoriziran, kar pomeni, da imamo
faktorje, ki že opisujejo merske napake. Sum na prefaktorizacijo nastopi
takrat, ko npr. korelacijski koeficienti padejo iz intervala [-1, 1] ali ko se
pojavi negativna varianca.
·
enoličnost
ocen parametrov (ali lahko te parametre ocenimo enolično - z eno
samo oceno)
Pri enoličnosti pa nastopi problem da se
parametra A sploh ne da enolično izračunati. Zato računamo v dveh korakih:
najprej izračunamo y
(zakoličimo skupni prostor - ocenimo komunalitete), nato pa na podlagi tega
izračunamo A. Postopek ponovimo večkrat, dokler model ne skonvergira.
Pri tem delu faktorske analize lahko
uporabimo več različnih metod. Kratek opis štirih najbolj pogostih, ki sem jih
tudi uporabil v svoji nalogi podajam v spodnji tabeli:
ime
metode |
osnovni
princip |
ocena
komunalitete |
metoda
glavnih osi |
maksimizira
varianco skupnih faktorjev |
več
načinov, kvadrat koeficienta multiple korelacije |
image |
vsako
spremenljivko regresira z ostalimi |
iterativno |
metoda
najmanjšega verjetja |
poišče
najboljšo oceno za reprodukcijo variančno kovariančne-matrike S |
iterativno |
alfa |
maksimizira
generabilnost faktorjev |
iterativno |
Rotacije
Drugi korak faktorske analize je rotacija. S
pomočjo rotacije prečistimo strukturo. Bistvo rotiranja namreč je, da dobimo
teoretično pomembne faktorje in čim enostavnejšo faktorsko strukturo. Če namreč
dobljene rešitve ne moremo dobro interpretirati, lahko dobljeno rešitev v
skupnem prostoru, ki je določen s skupnimi faktorji transformiramo tako, da jo
zarotiramo. Matematično to pomeni, da matriko A pomnožimo z transformacijsko
matriko M (A* = A M). Rešitev A* enako dobro reproducira
originalne podatke kot prvotna rešitev A.
Za rotacijo se odločamo predvsem takrat, ko
skupnih faktorjev ne moremo smiselno interpretirati - če so npr. projekcije
iste spremenljivke precejšnje na več faktorjih, ali pa če imamo splošen faktor (projekcije vseh
spremenljivk na prvi faktor so precejšnje). Ločimo dve vrsti rotacij:
·
pravokotne, kjer
so rotirani faktorji neodvisni med seboj (znana metoda je npr. varimax, ki maksimizira varianco
kvadratov uteži v vsakem faktorju in s tem poenostavlja strukturo po stolpcih);
·
poševne, kjer
so rotirani faktorji odvisni med seboj, med njimi ni pravega kota in faktorji
med seboj korelirajo (pri tem sem uporabil metodo oblimin). V primeru poševnih rotacij lahko spremenljivke (točke v
poševnem koordinatnem sistemu) projiciramo na poševne faktorje na dva načina:
·
vzporedno, pri čemer dobimo pattern uteži, ki so parcialni koeficienti korelacije med
spremenljivko in faktorjem in. predstavljajo “suhi vpliv” spremenljivke na
faktor;
·
pravokotno, s čemer dobimo strukturne uteži, ki so navadni koeficienti korelacije med
spremenljivko in faktorjem.
V
primeru pravokotnih faktorjev so pattern
in strukturne uteži seveda enake.
Vsebinsko so poševne rotacije boljše, v
praksi pa nastopijo problemi s kriterijsko funkcijo. Zato ponavadi najprej
naredimo poševno rotacijo, nato pa pogledamo kakšne so korelacije med faktorji.
Če so korelacije med faktorji majhne (manj od 0,20), naredimo pravokotno
rotacijo, sicer pa ne, saj bi bila v slednjem primeru struktura preveč
vsiljena.
V tretji, zadnji fazi faktorske analize
določimo še faktorske uteži na posameznih enotah. Eden izmed načinov za
določitev teh uteži je regresijska ocena faktorske vrednosti. Pri tem dobimo
ocenjeno faktorsko vrednost in ne prave faktorske
vrednosti F. Korelacije med zato ne bodo take kot
med F, lahko pa se spremeni tudi smer faktorja .
Diskriminantna
analiza
Osnovni cilj
diskriminantne analize je poiskati tako linearno kombinacijo merjenih
spremenljivk, da bodo vnaprej določene skupine med seboj čimbolj različne,
napaka pri uvrščanju enot v skupine pa bo čim manjša. Pri diskriminantni
analizi tako iščemo tiste razsežnosti podatkov, ki kar najbolj pojasnjujejo
razlike med skupinami. Iščemo torej dimenzijo, kjer so skupine čimbolj ločene.
Diskriminantna analiza ima zato funkcijo pojasnjevanja, pa tudi napovedovanja,
saj je eden izmed ciljev diskriminantne analize tudi ta, da (nove) enote kar se
da dobro prirejajo vnaprej danim skupinam.
Predpostavke
diskriminantne analize
Da je diskriminantna naliza sploh možna, mora biti
zadoščeno naslednjim pogojem:
·
število skupin k mora
biti večje ali vsaj enako 2
·
v vsaki skupini morata biti
vsaj dve enoti (zaradi variabilnosti v skupini)
·
število spremenljivk p
mora biti manjše od n - 2, pri čemer je n število enot v vzorcu
·
spremenljivke morajo biti vsaj
intervalnega tipa, lahko pa uporabimo tudi dobre ordinalne spremenljivke
·
nobena spremenljivka ne sme
biti linearna kombinacija preostalih spremenljivk (prepoved multikolinearnosti)
·
variančno-kovariančna matrika
mora biti za vsako skupino enot (približno) enaka (“variance” pri vseh skupinah
morajo biti približno enake)
·
pri statističnem ocejevanju se
predpostavlja, da so v vsaki skupini enot spremenljivke dobljene iz populacije
z večrazsežno normalno porzdelitvijo spremenljivk
Diskriminantna analiza na dveh ali več skupinah
Diskriminantna
spremenljivka Y v primeru dveh skupin, ki je linearna kombinacija merjenih
spremenljivk: , je definirana tako, da je kvocient razlik povprečij
diskriminantne spremenljivke v obeh skupinah in glede na varianco
diskriminantne spremenljivke v skupini maksimalen. V primeru večih skupin razlike
med skupinami lahko popišemo z več diskriminantnimi spremenljivkami - največ
jih je lahko največ min (p, k-1) [p je število spremenljivk, k pa število skupin].
Postopek za izračun diskriminantnih spremenljivk je v tem
primeru naslednji:
·
označimo vsoto kvadratov in
produktov odklonov od skupnega povprečja :
·
isto naredimo še za vsako
posamezno skupino:
; variabilnost znotraj skupin je enaka
·
izračunamo še vsoto kvadratov in
produktov odklonov med skupinami:
B = T - W
V primeru večih skupin je tako diskriminantni kriterij
naslednji:
oziroma: ; je ocena uteži
Kriteriji
selekcije med spremenljivkami v diskriminantni analizi so Wilksova lambda,
Mahalanobisova razdalja in F-test. Za preverjanje domneve o številu statistično
značilnih diskriminantnih spremenljivkah pa se uporablja Bartletov test.
Pravila uvrščanja enot v skupine
Ko imamo
izračunano diskriminantno spremenljivko , k-to enoto uvrstimo v tisto skupino , za katero velja, da je razlika med najmanjša. Povedano
drugače: enoto uvrstimo v tisto skupino, ki ima povprečje diskriminantne
spremenljivke čim bolj podobno vrednosti diskriminantne spremenljivke te enote.
Klasifikacijska tabela
Glede na
izračunano diskriminantno spremenljivko vsako enoto ponovno uvrstimo v svojo
skupino, pri tem pa dobimo odstotek pravilno uvrščenih enot. Diskriminantne spremenljivke
najbolje razvrščajo enote, če je odstotek pravilno razvrščenih enot 100 %.
Spodnja meja kvalitete razvrščanja pa je odstotek enot, ki bi bile pravilno
uvrščene ob naključnem razvrščanju. V primeru dveh skupin je tako spodnja meja
50 % enot, v primeru treh pa 33,3 %.
Model in
modeliranje
Model je
miselna, formalna ali materialna konstrukcija, ki glede na cilje proučevanja
ustrezno nadomešča dejanski pojav, ki ga proučujemo. Z modelom povzamemo
bistvene značilnosti proučevanega dejanskega pojava in s tem poenostavimo oz.
včasih celo sploh omogočimo njegovo proučevanje. Funkcija modela je predvsem
pojasnjevanje, pa tudi upravljanje in napovedovanje pojava. Model in dejanski
pojav nista istovetna, saj model le ralativno ustreza dejanskosti.
Modeliranje pa
je ena izmed splošnih znanstvenih metod raziskovanja. Razpeto je med dvema
dilemama: ustreznost dejanskemu stanju ter obvladljivost modela.
Osnovni
elementi vzročnih teorij, formulacija vzročnih teorij ter vzročni modeli
Med dvema
spremenljivkama lahko velja povezanost (kovariiranje) ali odvisnost
(vzročnost). Ločimo naslednje tipe povezanosti:
·
navidezna povezanost: povezanost med spremenljivkama X in Y nastane zaradi
skupne vzročne spremenljivke Z.
·
direktna in indirektna (posredna) vzročna povezanost: spremenljivka X vpliva na spremenljivko Z preko
spremenljivke Y, ki jo imenujemo tudi intervenirajoča spremenljivka.
ali tudi:
·
recipročna vzročna povezanost: spremenljivki vzročno vplivata druga na drugo, vsaka z
drugačnim vzročnim učinkom
·
pogojna povezanost: na povezavo med dvema spremenljivkama vpliva tretja
Prvi korak
formulacije vzročnih teorij je da raziskovalec na osnovi razpoložljivega
materiala (dokumentov, študij, raziskav) opredeli:
·
relevantne spremenljivke,
·
vzročno zaporedje
spremenljivk,
·
vzročne domneve,
nato pa na
osnovi teoretičnega poznavanja problema skuša preveriti vzročne domneve. Problem pa je v tem, da obstoja
vzročnosti ni mogoče dokazati. Iz podatkov namreč lahko določimo le
stopnjo kovariiranja (povezanosti), vendar pa kovariiranje ni dokaz za vzročno
povezanost, saj je lahko le rezultat skupnega vzroka obeh obravnavanih spremenljivk.
Torej lahko preverjamo le, če je vzročna domneva napačno postavljena. Še več!
Za isto teorijo lahko postavimo različne modele, in lahko se zgodi da nobenega
ne zavrnemo. Resničnost torej lahko pojasnimo z različnimi teorijami oz.
različnimi modeli.
Če povezanost in navidezna povezanost nista enaki je
možno naslednje:
1. vzročni vpliv obstaja
2. izpuščen je pomemben skupni vzrok
Zato je v model
potrebno vključiti vse relevantne skupne vzroke. Ker pa bi s tem lahko dobili
neskončen proces dodajanja spremenljivk, se lahko odločimo da za nekaj
spremenljivk, ki jih v teoriji potrebujemo predvsem kot pojasnjevalno moč, ne
iščemo skupnih vzrokov (jih ne pojasnjujemo). Te spremenljivke imenujemo
eksogene (označujemo jih z X), ostale, ki jih pojasnjujemo pa endogene
(označujemo jih z Y). Tako lahko vzročne teorije poenostavimo s tem, da
izpustimo intervenirajoče spremenljivke, ali pa tiste spremenljivke, ki
vplivajo ali na vzročne ali na posledične spremenljivke, vendar ne na obe
hkrati. Nikakor pa ne smemo izpustiti spremenljivk, ki nam pojasnjujejo skupne
vzroke. Seveda pa se moramo zavedati da model s tem, ko ga poenostavljamo,
hkrati tudi siromašimo.
Motnje oz.
disturbance v vzročnih modelih
Motnje v
vzročnih modelih označujemo s simbolom x, vzroki zanje pa so:
·
šibka formulacija teorij
(manjkajo pomembne spremenljivke)
·
prekompleksnost teorij
(zavestno izpuščamo manj pomembne spremenljivke)
·
nenapovedljivost, slučajnost
(napake respondentov)
·
nezanesljivost merjenja (slabi
indikatorji)
Modeli
linearnih strukturnih enačb
Najprej definirajmo naslednja dva pojma:
·
linearnost: nastopi ko vrednost vzročne spremenljivke ne
vpliva na velikost vzročnega učinka;
·
aditivnost: vzročna
učinka sta aditivna, če na velikost posameznega vzročnega učinka ne vpliva
vrednost druge vzročne spremenljivke.
Če imamo vzročne
učinke, za katere lahko predpostavimo linearnost in aditivnost, lahko za vsako
endogeno spremenljivko Yi napišemo linearno enačbo:
[če so spremenljivke
standardizirane a ne potrebujemo]
pri čemer je pomen oznak naslednji:
p - število endogenih spremenljivk
q - število eksogenih spremenljivk
- motnja za i-to
endogeno spremenljivko
- vzročni učinek j-te
endogene spremenljivke na i-to endogeno spremenljivko
- vzročni učinek j-te
eksogene spremenljivke na i-to endogeno spremenljivko
- povezanosti med
eksogenimi spremenljivkami (korelacija)
- povezanosti med
motnjami (varianca motnje)
V modelu linearnih strukturnih enačb predpostavimo:
·
da je povprečje motenj enako
nič: ;
·
da so
motnje in eksogene spremenljivke pravokotne oz. nepovezane med seboj: cov(Xj) = 0;
·
motnje med seboj niso povezane
;
·
povezanosti med
spremenljivkami X so različne od 0: ¹ 0.
Dobro je tudi,
da spremenljivke standardiziramo, saj se s tem izognemo zmedi v interpretaciji,
ki nastane zaradi vpliva merske lestvice na velikost parametrov učinka.
Zveze med
kovariancami ali korelacijami in strukturnimi parametri
Pomemben korak
analize je tudi vzpostavitev zveze med informacijami, ki jih lahko izračunamo
iz podatkov ter strukturnimi parametri, ki so osnovna značilnost vzročnih
teorij (,,,). Te zveze je mogoče dobiti z dekompozicijskimi pravili:
I. dekompozicijsko pravilo:
Korelacijski
koeficient (empirično izmerjena korelacija) med dvema spremenljivkama je enak vsoti direktnih učinkov, indirektnih
učinkov, navideznih povezav ter skupnih učinkov.
Vsak indirektni
učinek, navidezna povezanost in skupni učinek je lahko izražen kot produkt parametrov, ki povezujejo dve
spremenljivki.
II. dekompozicijsko pravilo:
Celotna varinca
endogene spremenljivke Y je enaka količini variance pojasnjene z vzročnimi
spremenljivkami te endogene spremenljivke in količine nepojasnjene variance.
Za vsako
endogeno spremenljivko lahko dobimo delež pojasnjene variance z vsoto produktov direktnih učinkov in
korelacijskih koeficientov te
endogene spremenljivke in vsake od
njenih vzročnih spremenljivk.
Potrebni
pogoj za identifikacijo vzročnega modela
Razliko med
številom enačb in številom strukturnih parametrov imenujemo število prostostnih stopenj. Potrebni
pogoj za identifikacijo modelov strukturnih enačb je, da je število prostostnih
stopenj enako ali večje od nič.
Iz tega sledi
zaključek, da so modeli z eno strukturno enačbo (regresijski modeli) vedno
identifikabilni.
Lisrel
model
Vzročni model
lahko v splošnem (matrično) zapišemo takole:
in sicer z
naslednjimi predpostavkami:
·
(I-B) je nesingularna matrika
·
E(x) = 0
·
je nekoreliran z X.
Oceniti je torej potrebno naslednje parametre:
B, G in y = cov(x)
potrebni pogoj za identifikacijo modela pa je
kjer je p
število endogenih spremenljivk, q
število eksogenih spremenljivk, t pa
število neznanih parametrov v modelu.
Lisrel model pa je določen s tremi (matričnimi) enačbami:
·
strukturni model:
·
merski model za Y:
·
merski model za X:
z naslednjimi predpostavkami:
1.
z ne korelira z x
2.
e ne korelira z h
3.
d ne korelira z x
4.
z, e ter d med seboj ne korelirajo
5.
matrika I - B je nesingularna
(če je singularna dobimo nesmiselne rezultate)
Ocenjevanje
modela
Naš teoretično
postavljen model lahko ocenimo z naslednjimi metodami:
·
metoda najmanjših kvadratov
(ULS)
·
metoda posplošenih najmanjših
kvadratov (GLS)
·
metoda največjega verjetja
(ML)
Vsaka metoda
izračuna funkcijo prileganja F. Le-ta je vedno nenegativna. Če gre za popolno
prileganje je anaka 0. Funkcijo F program Lisrel minimizira iterativno. Metoda
ML predpostavlja večrazsežno normalno porazdelitev merjenih spremenljivk,
dokazano pa je, da sta metodi ML in GLS precej robustni na nenormalnost.
Cenilke se približno normalno porazdeljujejo ob predpostavki, da so za velike
vzorce (400 enot ali več) izračunane standardne napake ocen parametrov.
Statistično
značilnost posameznega parametra izračunamo tako, da izračunamo 95-odstotni
interval zaupanja, za ta parameter.
Če je celoten
interval pozitiven, oz. negativen, lahko s 5-odstotnim tveganjem sprejmemo
domnevo o vzročnem učinku, če pa je interval delno pozitiven, delno pa
negativen, pa rečemo, da vzročnega učinka ni.
Program Lisrel
omogoča test modela v celoti (kako se prilega podatkom), vendar je poleg teh
statistik potrebno pogledati tudi smiselnost dobljene rešitve:
·
ali so vse ocene parametrov v
znanih intervalih (da ne presežejo svojega definicijskega območja)
·
ali so standardne napake
dovolj majhne
·
kolikšen je odstotek
pojasnjene variance endogenih spremenljivk ( za standardizirane podatke)
Poleg tega
Lisrel lahko izračuna še mero celotnega
prileganja podatkom. Izračunati jo je možno, če je število prostostnih stopenj
df večje od nič:
Pri
tem velja: večja kot je statistična značilnost (in manjši kot je ), bolj se model prilagaja podatkom.
Kvaliteta merjenja
Ob merjenju
spremljamo predvsem dve razsežnosti kvalitete merjenja:
·
zanesljivost merjenja (obravnava slučajne napake),
·
veljavnost merjenja (obravnava sistematične napake).
Zanesljivost je potreben, ne pa tudi zadosten pogoj za
dober merski postopek.
V postopku
merjenja nastopajo moteči dejavniki, ki vplivajo na rezultat merjenja. Rezultat
njihovega delovanja so merske napake. Merska napaka je razlika med dejansko in
izmerjeno vrednostjo. Ločimo dve vrsti merskih napak:
·
slučajne napake, ki povečujejo varianco izmerjenih vrednosti, na ocene
pravih vrednosti pa ne vplivajo;
·
sistematične napake, ki povzročajo pristranske ocene pravih vrednosti.
Zaradi zgornjih ugotovitev velja formula:
izmerjena vrednost = dejanska
vrednost + slučajne napake + sistematične napake
Grafično pa bi zanesljivost in veljavnost merjenja lahko
prikazali takole:
(ne)zanesljivost merjenja |
(ne)veljavnost merjenja |
Legenda: |
Klasična testna
teorija se ukvarja samo z
zanesljivostjo merjenja, saj predpostavlja da je merjenje veljavno. Ob tej
predpostavki pa velja formula:
izmerjena vrednost = dejanska vrednost + slučajne napake
kar lahko zapišemo tudi takole: (velja za i-to meritev). Matrično enačba
izgleda takole:
X = T + E
Ob pogoju, da
ostaja prava vrednost konstantna, in da se postopek merjenja ne spreminja
velja, da dejanska vrednost verjetnostna limita, ki se ji izmerjena vrednost
približuje, če število ponovljenih meritev narašča čez vse meje.
Predpostavke
klasične testne teorije so, da je aritmetična srenida napak enaka nič, da so
dejanske vrednosti in napake pri eni alimed različnimi meritvami med seboj
neodvisne ter da so slučajne napake med seboj neodvisne.
Metode ocenjevanja zanesljivosti
Cilj merjenja je
čimbolj natančna ocena dejanskih vrednosti. Ker postopki merjenja niso
popolnoma zanesljivi, enkratna merjenja ne dajo dovolj dobrih ocen dejanskih
vrednosti. Glede na to, da je dejanska vrednost verjetnostna limita, ki se ji
izmerjena vrednost približuje, če število ponovljenih meritev narašča čez vse
meje, lahko rečemo, da je zanesljivost funkcija števila neodvisnih meritev.
Zvezo med vsoto n paralelnih meritev ter zanesljivostjo posamezne meritve (ob
predpostavki, da je zanesljivost posamezne meritve znana) lahko opišemo z
Spearman-Brownovo formulo:
|
; pri čemer je n število meritev, zanesljivost
posamezne meritve, pa
zanesljivost vsote vseh meritev |
Velja še:
; iz česar sledi da več kot je ponovitev, bolj je merjenje
zanesljivo, oz. hitrejre pridemo do dobre (zanesljive) informacije.
Za ocenjevanje zanesljivosti merjenja ločimo dve vrsti
metod:
·
metode stabilnosti,
·
metode interne
konsistentnosti.
Metode stabilnosti
Osnovna ideja
teh metod je, da na istih enotah po določenem času ponovimo merjenje.
Zanesljivost merjenja spremenljivke X je korelacijski koeficient med
paralelnima meritvama te spremenljivke. Če je ta koeficient enak 1, gre za
popolno stabilnost. Poznamo:
·
Test-retest (korelacijski koeficient med dvema ponovljenima
merjenjema iste (paralelno merjenje) spremenljivke). Isto vprašanje postavimo v
dveh časovnih točkah. Problem je spominjanje prejšnjega odgovora ter sprememba
vrednosti spremenljivke v času.
·
Metoda alternativne oblike (korelacijski koeficient med merjeno spremenljivko in
drugo enakovredno spremenljivko). Tudi v tem primeru tako kot prej ponovimo
postopek merjenja na istih enotah, vendar ne uporabimo enakega, pač pa
različno, a enakovredno obliko merjenja (alternativna vprašanja, lestvice).
Problem spominjanja je tukaj manj izrazit, problem nastopi pri vprašanju, ali z
obema vprašanjema sploh merimo isto latentno spremenljivko.
Metode interne konsistentnosti
Te metode
temeljijo na merjenju istega konstrukta z več enakovrednimi spremenljivkami
(različnimi indikatorji, ki merijo isti koncept) v istem času. Poznamo:
·
Metoda razpolovitve
(split-half method). Opazovane spremenljivke
razvrstimo v dve skupini, jih v vsaki skupini seštejemo ter izračunamo
korelacijski koeficient med skupinama. Zanesjlivost dobimo s pomočjo naslednje
formule: . Če imamo 2n opazovanih spremenljivk, je
možnih kombinacij razvrstitev v dve skupini natanko .
Problem te metode je torej v tem, da je možnih kombinacij kako spremenljivke
razvrstiti v dve skupini veliko, različne možne kombinacije pa dajo različne
ocene zanesljivosti.
·
Chronbachov a. Le-ta temelji na variancah in kovariancah med merjenimi
spremenljivkami, ki merijo isti konstrukt. a je definirana na intervalu [0, 1]. Če je vrednost a večja od 0,80, pravimo, da je merski postopek zanesljiv.
Chronbach je dokazal, da je a enak povprečju vseh možnih
razpolovitev.
·
Metoda glavnih komponent in Q. V primeru, da opazovane spremenljivke res merijo le eno
latentno spremenljivko, bo lastna vrednost prve komponente velika (prva
komponenta bo pojasnila večino variance merjenih spremenljivk), ostale lastne
vrednosti pa bodo nizke. Vrednost Q, ki tudi meri zanesljivost
merjenja izračunamo takole:
|
; pri čemer je n število spremenljivk (oz. indikatorjev
latentne spremenljivke), pa prva lastna vrednost dobljena z metodo
glavnih komponent. |
Vpliv (ne)zanesljivosti merjenja na ocene statističnih
parametrov
V družboslovni metodologiji in raziskavah so
mejne vrednosti ki določajo dobro korelacijo in visok odstotek pojasnjene
variance precej nižje kot v npr. medicini ali tehniki. Ker je vedenje ljudi
manj stabilno kot npr. vedenje nekega tehničnega ali fiziološkega sistema
(rekli bi lahko da smo ljudje bolj kompleksni sistemi), je zato tudi merjenje
vedenja (stališč,...) ljudi bolj nezanesljivo. Ta nezanesljivost pa se odraža v
slabih ocenah parametrov, zato so kriteriji za ocenjevanje moči korelacijskih
in regresijskih koeficientov v družboslovju nižji kot drugod.