Sunteți pe pagina 1din 45

Teste neparametrice

• Metodele neparametrice sau de distributie


libera in cadrul unei analize
statistice,testeaza ipoteza nula sau
determina limitele de incredere pentru
esantioane sau populatii fara a tine cont
de distribututia populatiei.
Tipuri de teste neparametrice (I)

• Testul Wilcoxon al sumei rangurilor este


un test pentru date neperechi sau
imperechiate si este o alternativa a
testului t pentru esantioane perechi.
• Testul Wilcoxon pentru doua esantioane
este un test pentru date neimperechiate si
este o alternativa a testului t pentru
esantioane independente.
Tipuri de teste neparametrice (II)

• Testul U Mann- Whitney conduce la


rezultate echivalente cu testul Wilcoxon
pentru doua esantioane.
• Testul exact Fisher se aplica pentru
tabelele de contingenta de tip 2x2 in
aceleasi conditii ca testul chi patrat, dar
cand frecventele asteptate sunt mai mici
decat 5.
Aplicatii si caracteristici (I)
• Necesita cateva presupuneriasupra distibutiilor
esantioanelor si populatiei supuse studiului, dar
acestea sunt mult mai usoare in comparatie cu
conditiile de validitate ale testului chi patrat sau
ale testului t.
• Sunt folosite pentru a analiza esantioane sau
populatii ce nu se distribuie normal sau
aproximativ normal si pentru care testele
parametrice sunt nepotrivite.
Aplicatii si caracteristici (II)
• Sunt folosite pentru a analiza esantioane sau
populatii pentru care parametrii, cum ar fi
valoarea medie sau deviatia standard sunt
nereale sau nu pot fi determinate.
• Pot fi folosite in locul testelor parametrice pentru
a analiza populatii ce urmeaza distributia
normala sau aproximativ normala, dar testele
neparametrice, operand de cele mai multe ori nu
cu valori masurabile ci cu rangurile valorilor, au o
putere mult mai mica.
Regresia
• Analiza de regresie are ca scop obtinerea unei
expresii matematice cu ajutorul careia valorile
unei variabile (x) pot fi folosite pentru a prezice
valorile altei variabile (y).
• X=variabila independenta (sau regresoare)careia
ii atribuim valori in concordanta cu realitatea,
este deci o variabila nealeatorie.
• Y=variabila dependenta care ia valori in functie
de variabila x
• Cazul cel mai simplu este atunci cand intre
variabila x si variabila y exista o legatura liniara;
atunci potrivita pentru descrierea relatiei este
ecuatia y=a+bx
• a=ordonata de origine
• b=coeficientul de regresie (panta dreptei) sau
tangenta unghiului pe care dreapta il face cu axa
OX
Daca b>0, dreapta este crescatoare, iar daca b<0
dreapta este descrescatoare.
a indica valoarea lui y corespunzatoare lui x=0
b indica cresterea variabilei y la cresterea cu o
unitate a variabilei x.
• Coeficientii b si a se estimeaza pe baza
metodei celor mai mici patrate care
minimizeaza suma patratelor abaterilor
dintre valorile real observate yi, 1<i<n si
cele asteptate y*I; 1<i<n, prin formulele:
b*= n∑xi yi- ∑xi yi/n ∑xi 2-(∑xi )2
a*=y-b.x
Pe baza valorilor lui b* si a* se calculeaza
dreapta de regresie y*= a*+ b* . x
Corelatia
• Daca ambele variabile (x si y) sunt cantitative si
aleatoare, atunci relatia statistica dintre ele
apartine domeniului corelatiei si un scop aici este
sa se indice gradul de asociere sau de legatura
intre cele 2 variabile. Asociatia este deci
reciproca si nu intr-un singur sens ca in cazul
regresiei.
• Corelatia este indicata prin coeficientul de
corelatie.(r)
Aplicatii si caracteristici (I)
• Coeficientul de corelatie simpla numit coeficientul de
corelatie Pearson este folosit pentru a indica gradul
asocierii liniare intre 2 variabile, asocierea fiind reciproca.
• Coeficientul de corelatie variaza intre -1 si +1, inclusiv:
- Cand se apropie de -1 modificarea unei variabile este
puternic asociata cu inversul modificarii liniare a
celeilalte variabile
- Cand coeficientul de corelatie este egal cu 0, inseamna
ca nu exista asociatie intre modificarile celor 2 variabile.
- Cand coeficientul de corelatie se apropie de +1,
imseamna ca modificarea unei variabile este foarte
puternic asociata cu modificarea liniara directa a
celeilalte variabile.
Aplicatii si caracteristici (II)
• Un coeficient de corelatie poate fi calculat corect
numai cand datele ambelor variabile se refera la
esantioane si fiecare este ales independent.
• Un coeficient de corelatie poate fi apropiat de
±1, deci ne va indica o corelatie puternica, dar
ea poate fi nesemnificativa din cauza volumului
mic a esantionului studiat.
• Corelatia nu trebuie identificata cu cauzalitatea,
in sensul ca observatiile a 2 variabile se pot
corela foarte bine fara sa avem motive logice si
stiintifice ca una dintre variabile poate fi cauza
celeilalte.
Calcul
• r=∑xiyi-(∑xi)(∑yi)/n/(SDx)(SDy)

• Coeficientul de corelatie al rangurilor


(Spearman) testeaza gradul de corelare intre 2
variabile calitative; este alternativa
neparametrica a “coeficientului de corelatie
Pearson”.
• Se calculeaza cu formula:
rs=1-6∑di2/n(n2-1) unde n= nr. de indivizi
di2 =patratul diferentelor celor 2 clasamente
• Acest coeficient variaza intre -1 si +1. O valoare
apropiata de +1, inseamna ca suma patratelor
diferentelor este aproape nula, deci avem
clasamente identice.
• O valoare apropiata de 0, inseamna necorelarea
variabilelor, iar valoarea apropiata de -1 pune in
evidenta discordanta maxima a variabilelor.
• Pentru corealtia rangurilor poate fi calculat si
coeficientul lui Kendall, pa baza formulei:
rk=2T/n(n-1) unde T=suma algebrica a nr. de
ranguri superioare, respectiv inferioare fiecarui
rang al valorilor lui y, aranjate dupa deria
valorilor lui x, in ordine crescatoare sau
descrescatoare.
• Ca si in cazul regresiei, cand avem in
studiu un numar mai mare de variabile,
apare problema calcularii unor coeficienti
de variatie multipla. Acestia pot fi de tip
partial sau total, dupa cum unele variabile
sunt constante sau nu.
Esantionajul
• Esantionul=colectivitate de selectie=colectivitate
partial aleasa aleator dintr-o populatie.
• Populatia de origine=colectivitate generala
• Totalitatea elementelor individuale extrase din
colectivitatea generala la care se studiaza
caracterele lor principale si care compun
esantionul poarta denumirea de unitati de
observatie sau de selectie.
• Documentatia care permite gasirea unitatilor de
selectie se numeste baza de sondaj.
• Un esantion este reprezentativ atunci cand el
provine prin selectie aleatorie (randomizata) din
baza de sondaj.
• Notiunea de reprezentativitate nu este legata de
volumul esantionului, ci de modul de selectie al
acestuia.
• Volumul esantionului determina precizia
acestuia, deci se vor selecta esantioane mari
atunci cand se doreste o eroare mica.
• De intelege prin eroare diferenta dintre valoarea
caracteristicii studiate masurate in populatie si
valoarea aceleiasi caracteristici, masurata in
esantion.
Avantajele si dezavantajele
cercetarii prin esantionaj
• Efortul depus in cercetare este mai mic, existand
un plus de operativitate si un cost mai mic.
• Duce la o acuratete mai mare a rezultatelor
deoarece poate fi angajat personal inalt calificat.
• Datorita alegerii intamplatoare esantionul
reproduce populatia cu unele erori, numite si
aleatoare si care pot fi controlate de cercetator.
• Un esantion are erori cu atat mai mari cu cat el
este mai mic.
Erorile in cercetarea bazata pe
esantionaj
• Pentru o cercetare de succes este importanta
asigurarea unei reprezentativitati a esantionului
si a unui nivel satisfacator de precizie.
• Reprezentativitatea se asigura prin extragerea sa
intamplatoare din baza de sondaj.
• Nerespectarea alegerii aleatorii face sa apara
erorile siatematice (biais), dificil de a fi
cunoscute.
• Un esantion este reprezentativ daca nu este
insotit de erori sistematice.
• Cea de-a doua conditie, precizia, este
determinata de volumul esantionului.
• Atunci cand volumul esantionului va
creste, precizia va fi mai mare, adica
structura si proprietatile populatiei
originare vor fi mai fidel relevate.
• In cercetarea selectiva se inregistreaza
erori de esantionaj si erori care nu tin de
esantionaj. Erorile de esantionaj pot fi
cunoscute si astfel cercetatorul poate
modifica gradul de precizie al studiului
dupa necesitatile practice.
• Deoarece eroarea aleatorie apare ca efect al hazardului,
masura acestei erori este probabila si niciodata certa.
Unitatea de masura a erorilor de esantionaj este eroarea
standard.
ex=σx/√n≈Sx/√n pentru caracteristicile cantitative
ep= √PQ/ √n ≈ √ pq/√n pentru caraxcteristicile calitative
ex =eroarea standard a caracteristicii din esantion
σx= abaterea standard a caracteristicii din populatia de
origine
Sx = abaterea standard a caracteristicii din esantion
ep = eroarea standard a proportiei
P=proportia populatiei din populatia generala
Q= prportia complementara=1-P
p=proportia populatiei din esantion
q=proportia complementara
n=volumul esantionului
Erorile independente de esantionaj

• Sistematice si intamplatoare
• Erorile sistematice tin de alegerea aleatoare. Ele
dispar prin respectarea regulilor selectiei.
• Erorile intamplatoare sunt generate de
inexactitatea aparaturii si a observatorului in
general.
• Cele mai grave sunt erorile sistematice ele
putand compromite cercetarea.
• er2tot= er2sis+er2intamp
Determinarea volumului
esantionului
• Pentru calcul se porneste de la eroarea standard
datorata numarului prestabilit de unitati de observare,
prin formula:
Δx=tα,νx.σx/√n se poate calcula eroarea limita acceptata
care va insoti determinarea.
Daca n≥30, coeficientul tα,ν se poate inlocui cu Uα.
Cu ajutorul relatiei σx2=s2.n/n-1 in care s este varianta
masurata, iar n este numarul de cazuri din esantionul
pilot.
Volumul esantionului este dat de relatia:
n=Uα2xσx2/Δx2
Alte consideratii in determinarea
volumului esantionului
• Determinarea volumului esantionului este influentata
de 2 presupuneri:
1. Populatia din care provine esantionul este infinit de
mare
2. Esantionul este selectat aleatoriu.
Populatia din care provine esantionul nu va fi niciodata
infinita astfel se va aplica corectia populatiei finite.
Acest indice se aplica daca volumul esantionului
depaseste 5-10% din populatie.
Indicele fpc se calculeaza astfel: fpc=n/1+n/N
n= volumul esantionului, N=volumul populatiei tinta
Aplicarea fpc va reduce volumul esantionului.
Indicele fpc se aplica mai des pentru studiile descriptive si
pentru selectia persoanelor de control in studiile caz-
control.
Interpretarea puterii studiilor
publicate
• Puterea reprezinta probabilitatea ca datele studiului vor
indica o diferenta intre tratamente sau expuneri, atunci
cand aceasta diferenta intr-adevar exista.
• Daca puterea este mare, atunci nu avem nici un motiv sa
punem la indoiala concluziile studiului.
• Daca studiul are o putere insuficienta atunci un rezultat
care indica lipsa unei diferente semnificative poate fi
atribuit deficitului de putere si nu posibilitatii ca ipoteza
nula este corecta.
• Un studiu cu o putere inadecvata nu permite
cercetatorului sa testeze ipoteza studiata.
• Puterea statistica se alege a priori de catre cercetator si
de regula se recomanda sa fie intre0,80 si 0,95.
Tipuri de esantionaj

• Exista in principiu 2 mari modalitati de


esantionaj si anume:
• Esantionajul probabilistic, aleator
• Esantionajul neprobabilistic, nealeator sau
empiric.
Esantionajele probabilistice
• Esantionul aleator, simplu sau elementar:
procedeul de obtinere consta din extragerea la
sorti a unitatilor ce vor compune esantionul si
vor fi efectiv investigate dintr-o lista in care au
fost inscrise si numerotate toate elementele care
compun populatia de referinta.
• Fiecare unitate de selectie are sanse egale de a
intra in esantion .
• Tehnica de sondaj presupune mai intai
determinarea volumului esantionului pentru a sti
cate unitati trebuie selectionate din baza care
contine un numar mult mai mare de subiecti.n/N
se numeste fractiune de esantionaj si arata cat
reprezinta esantionul din populatia tinta.
• Exista 2 posibilitati de extragere probabilistica:
1. Sondaj fara repetitie (repunere)
2. Sondaj cu repetitie (cu repunere)
Sondajul fara repetitie consta in genul de
selectare tip Loto. Unitatile care vor
compune esantionul se extrag una cate una.
In acest caz nu toate unitatile statistice au
aceeasi probabilitate de a fi selectate.
Sonadjul cu repetitie inlatura acest inconvenient,
mentinand aceeasi probabilitate de-a lungul
intregii extrageri.
O alta posibilitate de realizare practica a extragerii unitatilor
este folosirea tabelelor cu numere aleatoare, in care
numerele sunt dispuse haotic si se extrag primele 100 de
numere.Extragerea unitatilor din lista se poate face si cu un
anumit pas de numarare dat de raportul k=N/n. In acest
caz schema se numeste esantionaj sistematic.
• Pentru toate tehnicile de esantionaj calitatea
esantionului depinde de calitatea bazei de
sondaj.
• Aceasta trebuie sa fie:
• adecvata (sa contina toata populatia)
• Completa (sa contina toate categoriile care
intereseaza studiul)
• Sa nu repete aceleasi unitati de mai multe ori
• exacta (persoanele inscrise in lista sa si existe in
mod efectiv)
• actualizata
• Convenabila pentru nevoile sondajului
Esantionul stratificat
• Se foloseste atunci cand datele nu sunt dispuse
aleator, ci sunt clasate dupa anumite
caracteristici.
• Se pot delimita mai multe subpopulatii care nu
se suprapun si care se numesc straturi.
• Caracteristic pentru un strat este omogenitatea
interna si neomogenitatea fata de celelalte
straturi.
• Se pot folosi 2 tipuri de selectie:
1. Selectia stratificata proportionala – folosita
atunci cand toate straturile sunt egale si cand
caracteristica cercetata se intalneste cu
frecvente relativ asemanatoare in fiecare strat
sau dispersia este asemanatoare.
2. Selectia startificata cu volum optim – folosita
atunci cand conditiile enuntate nu sunt
respectate.
Esantionajul stratificat permite obtinerea de date
precise pentru fiecare strat.
Realizarea efectiva a esantionului depinde de
existenta unor baze de sondaj oraganizate pe
straturi.
Esantionajul in cuiburi
• Se foloseste atunci cand lipseste o baza de
sondaj care sa contina unitatile de
observatie, atunci cand intocmirea ei este
costisitoare sau dispersia populatiei este
exagerata.
• Principiul de la care se porneste este ca
populatia de investigat poate fi imaginata
ca fiind constituita din unitati de selectie
agregate si ierarhizate.
• Cuibul este o unitate de selectie heterogena in
care sunt agregate mai multe unitati de
observare.
• Esantionajul in cuiburi se realizeaza in 3 etape:-
se foloseste ca baza de sondaj lista cuiburilor
- se extrag aleator cuiburile ce vor compune
esantionul
- se investigheaza apoi toate unitatile de
observare din cuiburile extrase.
Esantionajul este mult mai precis cu cat
heterogenitatea cuiburilor este mai mare.
Pentru a ne asigura reprezentativitatea este de
preferat sa se studieze mai multe cuiburi mici,
decat putine cuiburi de dimensiuni mari.
Esantionajul multistadial

• Principiul este ierarhia unitatilor de selectie


posibile, ca in esantionajul in cuiburi.
• Diferenta consta in aceea ca in timp ce in
cazul cuiburilor se poate utiliza o singura
extragere aleatoare urmata de
investigarea tuturor unitatilor din cuiburi ,
in esantionajul multistadial se fac mai
multe extrageri.
• Si in acest caz este bine sa se evite folosirea unui numar
mare de extrageri.
• De regula se foloseste esantionajul bi sau tristadial,
deoarece fiecare operatiune de extragere antreneaza
cate o eroare de esantionaj.
• Avantaje:flexibilitate mai mare
• Indicatie: acele procese care implica teste chimice,
biologice care pot fi efectuate intr-o cantitate mai mica
de produs, prin extragerea de subesantioane dintr-o
cantitate mai mare, care este ea insasi un esantion.
• Pentru acest procedeu sunt necesare mai multe baze de
sondaj.
• Se mai numeste esantionaj multifazic, cand se
cerceteaza intr-o prima faza anumite caracteristici si pe
baza lor se determina un al doilea esantion care se
cerceteaza in a doua faza.
Metodele neprobabilistice

• Se bazeaza pe ideea ca reprezentativitatea


poate fi asigurata prin alegere rationala.
• Sondajul neprobabilistic nu implica selectie
aleatoare.
• Metodele nealeatoare pot fi:
- bazate pe conventie
- bazate pe atingerea unui scop.
Esantionajul conventional

• Unitatea de observatie: omul de pe strada.


• Nu avem nici o dovada a
reprezentativitatii.
Esantionajul bazat pe atingerea
unui scop
• Selectia se face avand un scop
• Cel care raspunde trebuie sa indeplineasca
anumite criterii
• Subcategorii:- esantioane tipice
- esantionul expertilor
- metoda cotelor
- esantionul in bulgare de zapada
- metoda esantioanelor fixe
Esantioanele tipice

• Se imparte populatia in subansamble


omogene si alegem din fiecare o unitate
considerata de cercetator ca fiind cea mai
reprezentativa.
Esantionul expertilor

• Include persoane cu experienta si


pregatire cunoscute intr-un anumit
domeniu.
• Motive de alegere: cunoaterea opiniei
persoanelor cu experienta si validarea unei
alte metode de esantionare aleasa.
Metoda cotelor
• Este procedeul cel mai utilizat
• Se bazeaza pe ideea asigurarii unei
reprezentativitati prin realizarea unui
esantion care sa aiba o structura
asemanatoare cu a populatiei.
• Nu necesita existenta unei baze de sondaj,
ci doar cunoasterea structurii populatiei.
• Nu permite evaluarea preciziei estimatiilor
Esantionul in bulgare de zapada

• Se incepe cu identificarea celor care


indeplinesc criteriile pentru a fi inclusi in
studiu.
• Aceste persoane sunt rugate sa
recomande alte persoane ce indeplinesc
aceleasi criterii.
Metoda esantioanelor fixe

• Se colecteaza periodic date din acelasi


esantion.
Surse de eori in studiile pe
esantioane
• 3 surse de erori:
1. Neinvestigarea unor unitati selectionate in
esantion datorita imposibilitatii de a localiza
indivizii sau datorita refuzului de a raspunde
2. Erori in masurarea unitatilor datorita aparatului
de masura care poate fi imprecis
3. Erori introduse in procesele de editare,
codificare si tabelare a rezultatelor
Problema nonraspunsului este principala problema.
Solutii
• Reducerea nonraspunsului prin educatia populatiei
• Revizitarea persoanelor care nu au fost gasite
• Compararea populatiei refractare cu cea care a raspuns
• Gasirea unui inlocuitor prin alcatuirea unei liste de
rezerva
• Estimarea nivelului nonraspunsurilor si marirea volumului
esantionului corespunzator. Pentru aceasta volumul
esantionului se inmulteste cu un factor q=1/1-f, unde
f=rata estimata a nonraspunsului