Sunteți pe pagina 1din 45

Teste neparametrice

Metodele neparametrice sau de distributie


libera in cadrul unei analize
statistice,testeaza ipoteza nula sau
determina limitele de incredere pentru
esantioane sau populatii fara a tine cont
de distribututia populatiei.

Tipuri de teste neparametrice (I)


Testul Wilcoxon al sumei rangurilor este

un test pentru date neperechi sau


imperechiate si este o alternativa a
testului t pentru esantioane perechi.
Testul Wilcoxon pentru doua esantioane
este un test pentru date neimperechiate si
este o alternativa a testului t pentru
esantioane independente.

Tipuri de teste neparametrice (II)


Testul U Mann- Whitney conduce la

rezultate echivalente cu testul Wilcoxon


pentru doua esantioane.
Testul exact Fisher se aplica pentru
tabelele de contingenta de tip 2x2 in
aceleasi conditii ca testul chi patrat, dar
cand frecventele asteptate sunt mai mici
decat 5.

Aplicatii si caracteristici (I)


Necesita cateva presupuneriasupra distibutiilor

esantioanelor si populatiei supuse studiului, dar


acestea sunt mult mai usoare in comparatie cu
conditiile de validitate ale testului chi patrat sau
ale testului t.
Sunt folosite pentru a analiza esantioane sau
populatii ce nu se distribuie normal sau
aproximativ normal si pentru care testele
parametrice sunt nepotrivite.

Aplicatii si caracteristici (II)


Sunt folosite pentru a analiza esantioane sau

populatii pentru care parametrii, cum ar fi


valoarea medie sau deviatia standard sunt
nereale sau nu pot fi determinate.
Pot fi folosite in locul testelor parametrice pentru
a analiza populatii ce urmeaza distributia
normala sau aproximativ normala, dar testele
neparametrice, operand de cele mai multe ori nu
cu valori masurabile ci cu rangurile valorilor, au
o putere mult mai mica.

Regresia
Analiza de regresie are ca scop obtinerea unei

expresii matematice cu ajutorul careia valorile


unei variabile (x) pot fi folosite pentru a prezice
valorile altei variabile (y).
X=variabila independenta (sau regresoare)careia
ii atribuim valori in concordanta cu realitatea,
este deci o variabila nealeatorie.
Y=variabila dependenta care ia valori in functie
de variabila x

Cazul cel mai simplu este atunci cand intre

variabila x si variabila y exista o legatura liniara;


atunci potrivita pentru descrierea relatiei este
ecuatia y=a+bx
a=ordonata de origine
b=coeficientul de regresie (panta dreptei) sau
tangenta unghiului pe care dreapta il face cu axa
OX
Daca b>0, dreapta este crescatoare, iar daca b<0
dreapta este descrescatoare.
a indica valoarea lui y corespunzatoare lui x=0
b indica cresterea variabilei y la cresterea cu o
unitate a variabilei x.

Coeficientii b si a se estimeaza pe baza

metodei celor mai mici patrate care


minimizeaza suma patratelor abaterilor
dintre valorile real observate yi, 1<i<n si
cele asteptate y*I; 1<i<n, prin formulele:

b*= nxi yi- xi yi/n xi 2-(xi )2


a*=y-b.x
Pe baza valorilor lui b* si a* se calculeaza
dreapta de regresie y*= a*+ b* . x

Corelatia
Daca ambele variabile (x si y) sunt cantitative si

aleatoare, atunci relatia statistica dintre ele


apartine domeniului corelatiei si un scop aici este
sa se indice gradul de asociere sau de legatura
intre cele 2 variabile. Asociatia este deci
reciproca si nu intr-un singur sens ca in cazul
regresiei.
Corelatia este indicata prin coeficientul de
corelatie.(r)

Aplicatii si caracteristici (I)


Coeficientul de corelatie simpla numit coeficientul de

corelatie Pearson este folosit pentru a indica gradul


asocierii liniare intre 2 variabile, asocierea fiind
reciproca.
Coeficientul de corelatie variaza intre -1 si +1, inclusiv:
- Cand se apropie de -1 modificarea unei variabile este
puternic asociata cu inversul modificarii liniare a
celeilalte variabile
- Cand coeficientul de corelatie este egal cu 0, inseamna
ca nu exista asociatie intre modificarile celor 2 variabile.
- Cand coeficientul de corelatie se apropie de +1,
imseamna ca modificarea unei variabile este foarte
puternic asociata cu modificarea liniara directa a
celeilalte variabile.

Aplicatii si caracteristici (II)


Un coeficient de corelatie poate fi calculat corect

numai cand datele ambelor variabile se refera la


esantioane si fiecare este ales independent.
Un coeficient de corelatie poate fi apropiat de
1, deci ne va indica o corelatie puternica, dar
ea poate fi nesemnificativa din cauza volumului
mic a esantionului studiat.
Corelatia nu trebuie identificata cu cauzalitatea,
in sensul ca observatiile a 2 variabile se pot
corela foarte bine fara sa avem motive logice si
stiintifice ca una dintre variabile poate fi cauza
celeilalte.

Calcul
r=xiyi-(xi)(yi)/n/(SDx)(SDy)
Coeficientul de corelatie al rangurilor

(Spearman) testeaza gradul de corelare intre 2


variabile calitative; este alternativa
neparametrica a coeficientului de corelatie
Pearson.
Se calculeaza cu formula:
rs=1-6di2/n(n2-1) unde n= nr. de indivizi
di2 =patratul diferentelor celor 2 clasamente

Acest coeficient variaza intre -1 si +1. O valoare

apropiata de +1, inseamna ca suma patratelor


diferentelor este aproape nula, deci avem
clasamente identice.
O valoare apropiata de 0, inseamna necorelarea
variabilelor, iar valoarea apropiata de -1 pune in
evidenta discordanta maxima a variabilelor.
Pentru corealtia rangurilor poate fi calculat si
coeficientul lui Kendall, pa baza formulei: rk=2T/
n(n-1) unde T=suma algebrica a nr. de ranguri
superioare, respectiv inferioare fiecarui rang al
valorilor lui y, aranjate dupa deria valorilor lui x,
in ordine crescatoare sau descrescatoare.

Ca si in cazul regresiei, cand avem in

studiu un numar mai mare de variabile,


apare problema calcularii unor coeficienti
de variatie multipla. Acestia pot fi de tip
partial sau total, dupa cum unele variabile
sunt constante sau nu.

Esantionajul
Esantionul=colectivitate de selectie=colectivitate

partial aleasa aleator dintr-o populatie.


Populatia de origine=colectivitate generala
Totalitatea elementelor individuale extrase din
colectivitatea generala la care se studiaza
caracterele lor principale si care compun
esantionul poarta denumirea de unitati de
observatie sau de selectie.
Documentatia care permite gasirea unitatilor de
selectie se numeste baza de sondaj.

Un esantion este reprezentativ atunci cand el

provine prin selectie aleatorie (randomizata) din


baza de sondaj.
Notiunea de reprezentativitate nu este legata de
volumul esantionului, ci de modul de selectie al
acestuia.
Volumul esantionului determina precizia
acestuia, deci se vor selecta esantioane mari
atunci cand se doreste o eroare mica.
De intelege prin eroare diferenta dintre valoarea
caracteristicii studiate masurate in populatie si
valoarea aceleiasi caracteristici, masurata in
esantion.

Avantajele si dezavantajele
cercetarii prin esantionaj
Efortul depus in cercetare este mai mic, existand

un plus de operativitate si un cost mai mic.


Duce la o acuratete mai mare a rezultatelor
deoarece poate fi angajat personal inalt calificat.
Datorita alegerii intamplatoare esantionul
reproduce populatia cu unele erori, numite si
aleatoare si care pot fi controlate de cercetator.
Un esantion are erori cu atat mai mari cu cat el
este mai mic.

Erorile in cercetarea bazata pe


esantionaj
Pentru o cercetare de succes este importanta

asigurarea unei reprezentativitati a esantionului


si a unui nivel satisfacator de precizie.
Reprezentativitatea se asigura prin extragerea sa
intamplatoare din baza de sondaj.
Nerespectarea alegerii aleatorii face sa apara
erorile siatematice (biais), dificil de a fi
cunoscute.
Un esantion este reprezentativ daca nu este
insotit de erori sistematice.

Cea de-a doua conditie, precizia, este

determinata de volumul esantionului.


Atunci cand volumul esantionului va
creste, precizia va fi mai mare, adica
structura si proprietatile populatiei
originare vor fi mai fidel relevate.
In cercetarea selectiva se inregistreaza
erori de esantionaj si erori care nu tin de
esantionaj. Erorile de esantionaj pot fi
cunoscute si astfel cercetatorul poate
modifica gradul de precizie al studiului
dupa necesitatile practice.

Deoarece eroarea aleatorie apare ca efect al hazardului,

masura acestei erori este probabila si niciodata certa.


Unitatea de masura a erorilor de esantionaj este eroarea
standard.
ex=x/nSx/n pentru caracteristicile cantitative
ep= PQ/ n pq/n pentru caraxcteristicile calitative
ex =eroarea standard a caracteristicii din esantion
x= abaterea standard a caracteristicii din populatia de
origine
Sx = abaterea standard a caracteristicii din esantion
ep = eroarea standard a proportiei
P=proportia populatiei din populatia generala
Q= prportia complementara=1-P
p=proportia populatiei din esantion
q=proportia complementara
n=volumul esantionului

Erorile independente de esantionaj


Sistematice si intamplatoare
Erorile sistematice tin de alegerea aleatoare. Ele

dispar prin respectarea regulilor selectiei.


Erorile intamplatoare sunt generate de
inexactitatea aparaturii si a observatorului in
general.
Cele mai grave sunt erorile sistematice ele
putand compromite cercetarea.
er2tot= er2sis+er2intamp

Determinarea volumului
esantionului
Pentru calcul se porneste de la eroarea standard

datorata numarului prestabilit de unitati de observare,


prin formula:
x=t,x.x/n se poate calcula eroarea limita acceptata
care va insoti determinarea.
Daca n30, coeficientul t, se poate inlocui cu U.
Cu ajutorul relatiei x2=s2.n/n-1 in care s este varianta
masurata, iar n este numarul de cazuri din esantionul
pilot.
Volumul esantionului este dat de relatia:
n=U2xx2/x2

Alte consideratii in determinarea


volumului esantionului

Determinarea volumului esantionului este influentata


de 2 presupuneri:
. Populatia din care provine esantionul este infinit de
mare
. Esantionul este selectat aleatoriu.
Populatia din care provine esantionul nu va fi niciodata
infinita astfel se va aplica corectia populatiei finite.
Acest indice se aplica daca volumul esantionului
depaseste 5-10% din populatie.
Indicele fpc se calculeaza astfel: fpc=n/1+n/N
n= volumul esantionului, N=volumul populatiei tinta
Aplicarea fpc va reduce volumul esantionului.
Indicele fpc se aplica mai des pentru studiile descriptive si
pentru selectia persoanelor de control in studiile cazcontrol.

Interpretarea puterii studiilor


publicate
Puterea reprezinta probabilitatea ca datele studiului vor

indica o diferenta intre tratamente sau expuneri, atunci


cand aceasta diferenta intr-adevar exista.
Daca puterea este mare, atunci nu avem nici un motiv
sa punem la indoiala concluziile studiului.
Daca studiul are o putere insuficienta atunci un rezultat
care indica lipsa unei diferente semnificative poate fi
atribuit deficitului de putere si nu posibilitatii ca ipoteza
nula este corecta.
Un studiu cu o putere inadecvata nu permite
cercetatorului sa testeze ipoteza studiata.
Puterea statistica se alege a priori de catre cercetator si
de regula se recomanda sa fie intre0,80 si 0,95.

Tipuri de esantionaj
Exista in principiu 2 mari modalitati de

esantionaj si anume:
Esantionajul probabilistic, aleator
Esantionajul neprobabilistic, nealeator sau
empiric.

Esantionajele probabilistice
Esantionul aleator, simplu sau elementar:

procedeul de obtinere consta din extragerea la


sorti a unitatilor ce vor compune esantionul si
vor fi efectiv investigate dintr-o lista in care au
fost inscrise si numerotate toate elementele care
compun populatia de referinta.
Fiecare unitate de selectie are sanse egale de a
intra in esantion .
Tehnica de sondaj presupune mai intai
determinarea volumului esantionului pentru a sti
cate unitati trebuie selectionate din baza care
contine un numar mult mai mare de subiecti.n/N
se numeste fractiune de esantionaj si arata cat
reprezinta esantionul din populatia tinta.


.
.

Exista 2 posibilitati de extragere probabilistica:


Sondaj fara repetitie (repunere)
Sondaj cu repetitie (cu repunere)
Sondajul fara repetitie consta in genul de
selectare tip Loto. Unitatile care vor
compune esantionul se extrag una cate una.
In acest caz nu toate unitatile statistice au
aceeasi probabilitate de a fi selectate.
Sonadjul cu repetitie inlatura acest inconvenient,
mentinand aceeasi probabilitate de-a lungul
intregii extrageri.
O alta posibilitate de realizare practica a extragerii
unitatilor
este folosirea tabelelor cu numere aleatoare, in care
numerele sunt dispuse haotic si se extrag primele 100 de
numere.Extragerea unitatilor din lista se poate face si cu un
anumit pas de numarare dat de raportul k=N/n. In acest

Pentru toate tehnicile de esantionaj calitatea

esantionului depinde de calitatea bazei de


sondaj.
Aceasta trebuie sa fie:
adecvata (sa contina toata populatia)
Completa (sa contina toate categoriile care
intereseaza studiul)
Sa nu repete aceleasi unitati de mai multe ori
exacta (persoanele inscrise in lista sa si existe in
mod efectiv)
actualizata
Convenabila pentru nevoile sondajului

Esantionul stratificat
Se foloseste atunci cand datele nu sunt dispuse

aleator, ci sunt clasate dupa anumite


caracteristici.
Se pot delimita mai multe subpopulatii care nu
se suprapun si care se numesc straturi.
Caracteristic pentru un strat este omogenitatea
interna si neomogenitatea fata de celelalte
straturi.

Se pot folosi 2 tipuri de selectie:


. Selectia stratificata proportionala folosita

atunci cand toate straturile sunt egale si cand


caracteristica cercetata se intalneste cu
frecvente relativ asemanatoare in fiecare strat
sau dispersia este asemanatoare.
. Selectia startificata cu volum optim folosita
atunci cand conditiile enuntate nu sunt
respectate.
Esantionajul stratificat permite obtinerea de date
precise pentru fiecare strat.
Realizarea efectiva a esantionului depinde de
existenta unor baze de sondaj oraganizate pe
straturi.

Esantionajul in cuiburi
Se foloseste atunci cand lipseste o baza de
sondaj care sa contina unitatile de
observatie, atunci cand intocmirea ei este
costisitoare sau dispersia populatiei este
exagerata.
Principiul de la care se porneste este ca
populatia de investigat poate fi imaginata
ca fiind constituita din unitati de selectie
agregate si ierarhizate.

Cuibul este o unitate de selectie heterogena in

care sunt agregate mai multe unitati de


observare.
Esantionajul in cuiburi se realizeaza in 3 etape:se foloseste ca baza de sondaj lista cuiburilor
- se extrag aleator cuiburile ce vor compune
esantionul
- se investigheaza apoi toate unitatile de
observare din cuiburile extrase.
Esantionajul este mult mai precis cu cat
heterogenitatea cuiburilor este mai mare.
Pentru a ne asigura reprezentativitatea este de
preferat sa se studieze mai multe cuiburi mici,
decat putine cuiburi de dimensiuni mari.

Esantionajul multistadial
Principiul este ierarhia unitatilor de selectie
posibile, ca in esantionajul in cuiburi.
Diferenta consta in aceea ca in timp ce in
cazul cuiburilor se poate utiliza o singura
extragere aleatoare urmata de
investigarea tuturor unitatilor din cuiburi ,
in esantionajul multistadial se fac mai
multe extrageri.

Si in acest caz este bine sa se evite folosirea unui numar

mare de extrageri.
De regula se foloseste esantionajul bi sau tristadial,
deoarece fiecare operatiune de extragere antreneaza
cate o eroare de esantionaj.
Avantaje:flexibilitate mai mare
Indicatie: acele procese care implica teste chimice,
biologice care pot fi efectuate intr-o cantitate mai mica
de produs, prin extragerea de subesantioane dintr-o
cantitate mai mare, care este ea insasi un esantion.
Pentru acest procedeu sunt necesare mai multe baze de
sondaj.
Se mai numeste esantionaj multifazic, cand se
cerceteaza intr-o prima faza anumite caracteristici si pe
baza lor se determina un al doilea esantion care se
cerceteaza in a doua faza.

Metodele neprobabilistice
Se bazeaza pe ideea ca reprezentativitatea
poate fi asigurata prin alegere rationala.
Sondajul neprobabilistic nu implica selectie
aleatoare.
Metodele nealeatoare pot fi:
- bazate pe conventie
- bazate pe atingerea unui scop.

Esantionajul conventional
Unitatea de observatie: omul de pe strada.
Nu avem nici o dovada a
reprezentativitatii.

Esantionajul bazat pe atingerea


unui scop
Selectia se face avand un scop
Cel care raspunde trebuie sa indeplineasca

anumite criterii
Subcategorii:- esantioane tipice
- esantionul expertilor
- metoda cotelor
- esantionul in bulgare de zapada
- metoda esantioanelor fixe

Esantioanele tipice
Se imparte populatia in subansamble

omogene si alegem din fiecare o unitate


considerata de cercetator ca fiind cea mai
reprezentativa.

Esantionul expertilor
Include persoane cu experienta si

pregatire cunoscute intr-un anumit


domeniu.
Motive de alegere: cunoaterea opiniei
persoanelor cu experienta si validarea unei
alte metode de esantionare aleasa.

Metoda cotelor
Este procedeul cel mai utilizat
Se bazeaza pe ideea asigurarii unei

reprezentativitati prin realizarea unui


esantion care sa aiba o structura
asemanatoare cu a populatiei.
Nu necesita existenta unei baze de sondaj,
ci doar cunoasterea structurii populatiei.
Nu permite evaluarea preciziei estimatiilor

Esantionul in bulgare de zapada


Se incepe cu identificarea celor care

indeplinesc criteriile pentru a fi inclusi in


studiu.
Aceste persoane sunt rugate sa
recomande alte persoane ce indeplinesc
aceleasi criterii.

Metoda esantioanelor fixe


Se colecteaza periodic date din acelasi
esantion.

Surse de eori in studiile pe


esantioane
3 surse de erori:
. Neinvestigarea unor unitati selectionate in

esantion datorita imposibilitatii de a localiza


indivizii sau datorita refuzului de a raspunde
. Erori in masurarea unitatilor datorita aparatului
de masura care poate fi imprecis
. Erori introduse in procesele de editare,
codificare si tabelare a rezultatelor
Problema nonraspunsului este principala problema.

Solutii

Reducerea nonraspunsului prin educatia populatiei


Revizitarea persoanelor care nu au fost gasite
Compararea populatiei refractare cu cea care a raspuns
Gasirea unui inlocuitor prin alcatuirea unei liste de
rezerva
Estimarea nivelului nonraspunsurilor si marirea volumului
esantionului corespunzator. Pentru aceasta volumul
esantionului se inmulteste cu un factor q=1/1-f, unde
f=rata estimata a nonraspunsului