Sunteți pe pagina 1din 51

Statistica inferențială

Distribuții reale și distribuții normale z


Distributia de eșantionare
Teorema limitei centrale
Scorurile standard pentru eșantioane
Ipotezele metodei științifice
• Modalitatea de a exprima semnificația unei anumite valori dintr-o
distribuție prin raportarea la parametrii acesteia (medie, abatere
standard) este scorul standardizat (notat cu z sau scorul z)
𝑥 − 𝑥ҧ
𝑧=
𝑠
• Alte tipuri de scoruri standard
𝑥−𝑥ҧ
• Scorul T 𝑇 = 50 + 10
𝑠
𝑥−𝑥ҧ
• Scorul Hull 𝐻= 50 + 14
𝑠
𝑥−𝑥ҧ
• Scorul QI (Binet) QI=100+16
𝑠
𝑥−𝑥ҧ
• Scorul QI (Wechsler) QI=100+15
𝑠
𝑥−𝑥ҧ
• SAT (Scholastic Assessement Test) SAT=500+100
𝑠
De exemplu, într-o şcoală, media elevilor unei clase la matematică este
de 6,25 cu o abatere standard de 3,94. Georgel a obţinut, la
matematică, media 7,15. Ne interesează să ştim dacă Georgel este un
elev mediu la matematică, un elev bun sau un elev slab.
Scorul z al lui Georgel este:
7,15 − 6,25
𝑧= = 0,22
3,94
Prin urmare performanța sa la mate
se situează în zona scorurilor medii.
• Spre deosebire de Georgel, Costel are
media la matematică de 4,08. Este oare
Costel un elev slab, un elev mediu sau
un elev foarte slab?
4,08−6,25
𝑧= = −0,55 la fel și performanța lui Costel este tot în zona
3,94
rezultatelor normale, deci este un elev mediu la matematica?!
În fereastra deschisă trecem variabila careia
Notele z cu spss îi dorim să-i cunoaștem scorul z în câmpul
Calea este :Analyze/Descriptive Variables și bifăm Save standardized values
Statistic/Descriptive as variables și OK
Rezultatul este definirea unei noi variabile notată z(numele variabilei) și
apărută în baza de date. Evident din calcule se arată că noua variabilă
are media 0 și abaterea standard 1.
Distribuția de eșantionare
• Modelul cerecetărilor științifice se bazează pe investigarea unuia sau
a mai multor eșantioane pentru a verifica anumite ipoteze în legătură
cu populațiile din care acestea au fost extrase.

Populație

Eșantion Eșantion Eșantion Eșantion Eșantion


1 2 3 4 5

• Dacă fiecare din cele 5 eșantioane are câte o medie, atunci distribuția
valorilor alcătuită din aceste medii se numește distribuția medie de
eșantionare. Media ei se numește media de eșantionare
Împrăștierea distribuției de eșantionare
• Distribuția (medie) de eșantionare nu are aceeași împrăștiere ca distribuția
valorilor individuale ale variabilei de origine. Aceasta deoarece la nivelul
fiecărui eșantion, o parte din împrăștierea totală eate absorbită de fiecare
eșantion în parte.
• Ca urmare abaterea standard a distribuției de eșantionare este o fracțiune
din abaterea standard a populației, fiind dependentă de mărimea
eșantioanelor.
• Abaterea standard a mediei de eșantionare este denumită eroare standard
a mediei și se calculează:
𝜎
• 𝑠𝑚 = unde 𝜎 este abaterea standard a populației, iar N volumul
𝑁
eșantionului
• Cum în practică lucrăm cu𝑠 un singur eșantion vom considera s abaterea
standard a sa deci 𝑠𝑚 = .
𝑁
Cunoscând eroarea standard a mediei, putem acum estima limitele între care găsim
media populaţiei (µ) la un interval de încredere de 95%.
După cum ştim, în termeni de abateri standard, pe o distribuţie normală, intervalul de
încredere corespunzător nivelului de 95% este situat între +/- 1,96 abateri standard.
Particularizând, intervalul de încredere al mediei teoretice poate fi calculat după
formula:
𝜇 = 𝑥ҧ ∓ 1,96𝑠𝑚
Exemplu Dacă media înălțimii a 30 de subiecți este 179,9 cu eroarea standard a mediei
de 1,22 găsim limita inferioară a intervalului de încredere:
179,9-1,96x1,22=177,51 iar limita superioară 179,9+1,96x1,22=182,29.
În concluzie putem spune că înălțimea populației masculine din tara noastră va avea
media în intervalul [177,51;182,29].
În general pentru orice variabilă scalară, ce respectă condiția de normalitate, pentru
care avem media 𝑥ҧ și abaterea standard s putem spune cu un nivel de încredere de 95%
că media întregii populații este cuprinsă între 𝑥ҧ − 1,96 ∙ 𝑠 și 𝑥ҧ + 1,96 ∙ 𝑠 .
Teorema limitei centrale
Se afirmă următoarele adevăruri statistice fundamentale:
• - Cu cât numărul eșantioanelor dintr-o populație este mai mare cu
atât media distribuției de eșantionare se apropie de media populației
• Distribuția mediei de eșantionare se supune legilor curbei normale
chiar și atunci când distribuția variabilei la nivelul întregii populație nu
are caracter normal cu condiția ca volumul eșantioanelor sa fie
suficient de mare
Teorema limitei centrale este adevărată în următoarele condiții:
a) Eșantioanele sunt aleatorii sau neafectate de erori (bias)
b) Valorile care compun eșantioanele sunt independente
c) Eșantioanele au același volum.
Se considera un eșantion mare dacă are cel puțin 30 subiecți
STRATEGIA ANALIZEI STATISTICE A DATELOR
INTRODUCERE
Să discutăm despre cerințele statistice ce se impun în construirea unui studiu de
date. Din păcate sunt multe studii în care se aplică unei baze de date instrumentele
statistice, observăm câteva concluzii semnificative și abia apoi formulăm ipotezele.
Evident este total greșit, ar însemna să începem construcția unei case de la acoperiș.
Demersul științific implică următorul plan:
Enunțul problemei.
Se pleacă de la un fapt, o constatare observată, adică se enunță o problemă. O
problemă apare în urma unui mare număr de observaţii. Enunţarea problemei
presupune formularea acesteia în scris, în termeni clari şi expliciţi. În urma formulării
problemei, rezultă obiectivele cercetării, obiective exprimate în termeni de obiective
generale şi specifice. Obiectivele generale ghidează cercetarea în ansamblul ei. Un studiu
ştiinţific are unul, maxim două obiective generale. Nu ne putem concentra eforturile pe
mai multe planuri; or, planurile sunt ghidate exact de modul de formulare al obiectivelor
generale. Obiectivele generale ale unei cercetări sunt formulate în urma unui cumul de
observaţii şi, eventual, în urma unui studiu metaanalitic, adică prin a analiza cercetările
existente în acel domeniu.
Formularea ipotezelor
O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă referitoare la
relaţiile sau diferenţele existente între două sau mai multe variabile.
Ipotezele sunt formulate atât în cazul studiilor care urmăresc stabilirea unor
relaţii dintre variabile (numite şi studii corelaţionale), cât şi pentru cercetările ce
vizează existenţa unor diferenţe dintre variabile (studii factoriale). O primă
distincţie se poate face între ipoteze unilaterale (unidirecţionale) şi ipoteze
bilaterale (bidirecţionale).
O ipoteza statistica reprezinta supozitia care se face cu privire la parametrii
unei repartitii sau la legea de repartitie pe care o urmeaza anumite variabile
aleatoare. Procedeul de verificare a unei ipoteze statistice poarta numele de test
sau criteriu de semnificatie.
Ipotezele statistice sunt concepute ca ipoteze nule (H0) si ca ipoteze
alternative (H1).
• Ipoteza nula este o afirmatie despre un status quo. In esenta ea este
acea afirmatie care comunica ideea ca orice schimbare de la ceea ce
s-a gandit ca este adevarat se va datora in intregime erorilor
aleatoare.
• Ipoteza alternativa este o afirmatie care reflecta opusul ipotezei nule.
Scopul formularii ipotezei alternative este de fapt acela de a indica o
posibilitate de neconfirmare a ipotezei nule.
• In general, o ipoteza nula se formuleaza in sensul inexistentei unei
diferente (a unei deosebiri) intre doua sau mai multe grupuri.
• Ipoteza alternativa este aceea care afirma ca exista diferente
semnificative intre grupurile respective in legatura cu aspectul
cercetat.
Exemplu
Banca Prosperity dorește să realizeze un experiment de marketing
pentru a vedea dacă există o influență în ce privește numărul de
depozite la termen deschise de clienți și locația fiecărei filiale din
București.
• Adică se dorește confirmarea sau infirmarea faptului că există o
legatură între locație și numărul depozitelor deschise.
• În cazul nostru cercetătorul se așteaptă să fie o legatură în sensul că
locațiile plasate în puncte aglomerate, centrale să beneficieze de o
dechidere de conturi mai mare decât cele plasate în suburbii.
• Acest rezultat „așteptat”, „prefigurat” se numește ipoteza cercetării
sau ipoteza alternativă, fiind codificată H1. Simbolic putem scrie
𝐻1 → 𝑥𝑐𝑒𝑛𝑡𝑟𝑢 ≠ 𝑥𝑝𝑒𝑟𝑖𝑓 ,
unde 𝑥𝑐𝑒𝑛𝑡𝑟𝑢 reprezintă media conturilor dechise pe o perioada de
timp la filialele centrale, iar 𝑥𝑝𝑒𝑟𝑖𝑓 media pentru filialele periferice.
• Pentru a decide cu privire la ipoteza cercetării, trebuie să evaluăm
probabilitatea ca media eșantionului cercetării să fie rezultatul
hazardului de eșantionare.
• Procedura statistică ce se bazează pe acest raționament se numește
„ipoteza de nul”. Ea se notează cu H0 și are simbolic descrierea:
𝐻0 → 𝑥𝑐𝑒𝑛𝑡𝑟𝑢 = 𝑥𝑝𝑒𝑟𝑖𝑓
Avem doar două formulări statistice corecte:
• - respingem ipoteza de nul
• - nu respingem ipoteza de nul
Se respinge ipoteza nulă dacă probabilitatea să fie adevărată este mică:
pragul postulat de Fisher este de 0,05. Mai există și pragul de 0,01. Cele
două praguri reprezintă probabilitatea ca ipotexa nulă să fie sau să nu
fie respinsă. El se notează cu p, iar TREBUIE SĂ RETINEM:
respingem ipoteza de nul dacă p<0,05, și
nu respingem ipoteza de nul dacă p>0,05.
Chiar dacă pragul de semnificaţie creează condiţiile respingerii ipotezei
nule, totuşi nu vom putea niciodată afirma cu certitudine că susţinem ipoteza
alternativă. În cercetarea ştiinţifică, deşi condiţiile de semnificaţie statistică pot fi
îndeplinite, este posibilă apariţia a două tipuri de erori: putem respinge ipoteza
nulă, iar în realitate ea să nu îndeplinească condiţiile de respingere la nivelul
populaţiei, sau putem să nu respingem ipoteza nulă, în situaţia în care ar trebui
respinsă.
Pentru a ne lămuri asupra celor două tipuri de erori vom relata povestea
următoare (Ovidiu Lung)
A fost odată un împărat care avea obiceiul să poarte multe războaie. Înainte
de a merge la război, împăratul nostru îl chema pe vrăjitorul curţii şi îl punea să-i
prezică soarta bătăliei. De fiecare dată, bietul vrăjitor era în mare impas,
deoarece, dacă greşea previziunea, risca să-şi piardă capul, cum o păţiseră
mulţi alţii înaintea lui. Totuşi, vrăjitorul avea mulţi ani de când îşi păstra
capul pe umeri, iar predicţiile acestuia, uneori, se dovedeau a fi adevărate.
Să analizăm acum tabelul de mai sus. Observăm că există un număr de patru
situaţii:
- Vrăjitorul a prezis că împăratul va câştiga bătălia şi împăratul a câştigat-o.
Vrăjitorul a obţinut o nouă avere şi respectul împăratului;
- Vrăjitorul a prezis câştigarea bătăliei şi împăratul a pierdut-o. S-a comis
astfel o eroare de tip I, respingându-se ipoteza nulă când, de fapt, ar fi
trebuit acceptată. Şi-a pierdut şi averea şi capul.
- Vrăjitorul a prezis pierderea bătăliei şi împăratul a câştigat-o. S-a
comis acum o eroare de tip II, nerespingând ipoteza nulă în condiţiile
în care ar fi trebuit respinsă. În bucuria victoriei, împăratul s-ar putea
să-i cruţe capul vrăjitorului, însă va pierde respectul şi o parte din
avere.
- Vrăjitorul a prezis pierderea bătăliei şi împăratul a pierdut-o. Din
fericire, şi-a păstrat şi capul şi averea.
• După cum aţi putut observa, eroarea de tip I este situaţia în care un
cercetător respinge ipoteza nulă în condiţiile în care aceasta nu ar fi
trebuit respinsă, iar eroarea de tip doi este situaţia în care nu se
respinge ipoteza nulă, deşi ar trebui respinsă.
Pregatirea si analiza datelor
Se incepe prin a controla existenta omisiunilor datelor, valorile
aberante, lizibilitatea raspunsurilor, corectitudinea clasificarilor cerute,
inclusiv identificarea greselilor facute de operator (transcrierea gresita
a unor date).
Un rol important pentru activitatea de analiza revine codificarii
datelor care permite interpretarea, clasificarea, inregistrarea si stocarea
acestora.
Analiza presupune intelegerea logica a datelor colectate de la
subiecti. Ea necesita o prelucrare statistica a datelor primare obtinute
pritr-o metoda sau alta.
Analiza datelor

In aceasta etapa se realizeaza:


• verificarea ipotezelor statistice ale cercetarii.
• se obtin indicatorii tendintei centrale,
• se realizeaza compararea diferentelor dintre grupuri,
• se evidentiaza existenta legaturilor dintre variabile
• se determina intensitatea acestor legaturi,
• se stabilesc raporturile de cauzalitate dintre variabile etc.
Alegerea testului statistic implică următoarele segvențe:
1. Se identifică variabila independentă
2. Se identifică variabila dependentă
a) Dacă este de tip nominal/ordinal se aplică un test neprametric
b) Dacă este de tip interval/raport:
i) Respectă condițiile și mai ales eșantionul este mare, se recomandă
alegerea unui test parametric
ii) Nu respectă condițiile și, mai ales eșantionul este foarte mic, se
recomandă alegerea unui test neparametric (în acest caz valorile vor fi
transformate pe o scală nominală sau ordinală, în funcție de caracteristicile lor și
opțiunea cerecetătorului)
3. Se precizează obiectivele cercetării, care pot fi cel mai adesea
a) Diferența dintre grupuri dependente și independente Acest model este mai
potrivit în următoarele situații:
i) Atunci când variabila independentă, prin natura ei, se exprimă în
categorii naturale (categorii de vârstă, sex, statut social, profesional)
ii) Atunci când variabila independentă exprimă valori care nu
evoluează intr-o maniară liniară (prezentă/absență, preferințe)
b) Gradul de asociere. Acest model de cercetare este recomandat atunci
când avem de-a face cu var. măsurate simultan sau succesiv pe aceiași
subiecți (modele de tip „înainte-după”, intrasubiect) sau pe subiecți
aparținînd unor eșantioane pereche. În acest sens se vor lua în considerare
recomandarile.
i) Atunci când atât variabila indep. cât și cea dep. sunt de același tip,
obiectivul obișnuit este „gradul de asociere”.
ii) Atunci când var. indep. este de tip categorial iar cea dep. de tip
cantitativ obiectivul obișnuit este „diferența dintre grupuri”
4. Se alege testul statistic adecvat, dar, înainte de aceasta, se decide dacă alegem
un test parametric sau neparametric
a) Dacă var. dep. este măsurată pe scală ord/nom, problema alegerii nu se pune,
singurile teste aplicabile fiind cele neparametrice. Atunci când var. dep. este de
tip cantitativ și sunt întrunite condițiile impuse de statistica parametrică, este
recomandabil să se utilizeze testele parametrice. Dacă nu sunt îndeplinite
condițiile impuse de testul parametric putem:
i) Să efectuam verificări, corecții de valori, tratatrea valorilor lipsă,
transformări parametrice, eliminarea valorilor extreme, urmate de utilizarea
testelor parametrice
ii) Să transformăm var. dep. pe o scală nominală sau ordinală și să aplicăm
teste neparametrice.
b) Luarea în considerare a mărimii eșantionului. Teorema limitei centrale ne
asigură cu privire la normalitatea distribuției de eșantionare pentru eșantioane ce
depășesc N=30. Pentru eșantioane de volum mediu (apropiat de 30) testele
parametrice sunt mai sensibile la respectarea condițiilor impuse și, de aceea,
utilizarea testelor neparametrice pare o soluție mai bună. În practică, se va avea
în vedere că testele statistice, atât cele parametrice cât și cele neparametrice,
efectuate pe eșantioane reduse, sub N=20, nu oferă rezultate robuste, iar
creditibilitatea lor este indoielnică. Studiile de acest gen pot avea valoare de
studii-pilot în vederea lansării unor studii mai ample.
În principiu, orice analiză statistică cuprinde
două proceduri statistice efectuate în etape
succesive:
• Analiza statistică descriptivă

• Testarea ipotezelor
a) Alegerea statistii descriptive se poate face din tabelul:
Obiectivul descrierii Scala de măsură Condiție Soluție
Tabel de frecvențe
Nominală
Grafic de tip bară
Distribuția de
Ordinală frecvențe
Reprezentarea întregii Grafic de tip bară
distribuții Distribuția de
frecvențe
I/R Histograma
Poligonul de
frecvențe
Nominală Modul
Măsura tendinței Ordinală Mediana
centrale Simetrică Media
I/R
Asimetrică Mediana
Nominală Numărul de categorii

Măsura variabilității Ordinală Amplitudinea


Simetrica Abatrea standard
I/R
Asimetrică Amplitudinea
Exemplu de scriere statistica
descriptiva. In fiserul IQ.sav
facem analiza statistică
descriptivă pentru variabila iq.
Calea este Analyze/Descriptive
Statistics/Frecvencies unde
trecem în câmpul Variable
variabila iq. Deschidem Statistics
în care bifam Mean, Median,
Mode, Std deviation. Variance,
Range, Min, Max, S.E.mean,
Skewness și Kurtosis. Apoi
Continue si deschidem Chart unde
bifam Bar si apoi Continue și în
final OK. Obtinem în output
tabelele si graficul de mai sus.
b)Testarea ipotezelor

Pentru ușurarea alegerii testului statistic există diverse modele


ajutătoare de tip algoritmic, sub formă tabelară sau grafică. Meniul
Help al SPSS-ului, prin Statistic Coach pune la dispoziție informații
referitoare la testul statistic sau pagina Selecting Statistics a
Universității Cornell
(https://www.socialresearchmethods.net/selstat/ssstart.htm)
Obiectul Variabila independentă Variabila
dependentă Testul statistic aplicabil
cercetării
Una I/R z/t pentru un eșantion
Nominală z pentru o proporție
Două Independente I/R t pentru eșantioane
independente
Nominală z pentru două proporții
Ordinală Mann-Whitney U
Categorială Dependente I/R t pentru eșantioane
Diferența dependente
între grupuri (număr de
Nominală Testul semnului
categorii)
Ordinală Wilcoxon
Trei Independente I/R ANOVA factorială
Ordinală Kruskal-Wallis
Dependente I/R ANOVA pentru măsurări
repetate
Ordinală Friedman
I/R I/R r Pearson
Ordinală Ordinală rS Spearman
Asocierea
variabilelor Categorială (nominală sau Categorială (N/O) Chi-pătrat
ordinală) Testul exact Fisher
Testarea normalității unei distribuții
Toate metodele statistice
parametrice (testele t, corelația,
ANOVA, regresia liniară etc.) au la
bază condiția de normalitate a
distribuției variabilelor cantitative.
Putem verifica normalitatea grafic
sau statistic:
- Grafic se reprezintă histograma
comparându-se curba normală
- Statistic prin testul Kolmogorov-
Smirnov sau Shapiro-Wilk
Calea este Analyse/Nonparametric
Tests/Legacy Dialogs/1-Sample K-S
• Obținem dialogul în care trecem în câmpul Test Variable List variabila ce o
dorim analizată și vedem că este bifat testul Normal și OK.
Rezultatul este tabelul de unde avem p=0,063
deci p>0,05 prin urmare nu respingem
ipoteza de nul. (H0 „nu există nicio diferență
între distribuția normală și distribuția variabilei
considerate”.
• O alta cale pentru studierea normalității este Analyse/Descriptive
statistics/Explore unde butonul Plots conține opțiunea de testare a
normalității, rezultatul fiind tabelul:

Observăm de date aceasta că iq nu este


normală p<0,01. Nu este o greșală pt că
Interpretarea tabelului arata că afirma-
ția este riscantă. (p este sig. în tabelele SPSS!!!)

Valoarea p a testului de normalitate Mărimea eșantionului Interpretare


𝑝 ≤ 0,05 oarecare Forma distribuției nu este normală

𝑝 > 0,05 Mare (cel puțin câteva zeci) Distribuția are formă normală
𝑝 > 0,05 Mică (sub câteva zeci) Deși testul confirmă forma distribuției, o astfel
de concluzie este riscantă
REGRESIA LINIARA SIMPLA
Metoda regresiei liniare este utilă in verificarea unor modele predictive
sau explicative.
• În primul caz vom vorbi despre metoda regresiei liniare aplicată în
scop predictiv.
• În al doilea caz vorbim despre metoda regresiei liniare aplicată în scop
explicativ.
Variabila dependenta trebuie să fie întotdeauna cantitativă, variabila
(variabilele) independentă poate fi cantitativă sau categorială. În cazul
VI categoriale aceste se transformă în variabile dummy având o regresie
liniară cu variabile dummy (cu două valori, 1 și 0).
Tipurile de regresie liniară sunt:
• - regresia liniară simplă (o singura VI)
• - regresia liniară multiplă (cu două sau mai multe VI)
Regresia liniară simplă
Prezentare generală
Scop. Metoda rls este o extensie a corelației Pearson, descriind relația
dintre o VI și o VD.
Putem prezice scorul pentru VD având scorul pentru VI.
Putem găsi procentul din VD explicat prin variația VI.
Ecuația de regresie este de forma 𝑦 = 𝑎 + 𝑏𝑥 unde y reprezintă VD iar
x VI.
Condiții de aplicare a rls.
1. VD (criteriu) și VI (predictor) sunt cantitative și normal distribuite
2. Relația dintre ele este liniară
3. Erorile sunt normal distribuite
4. Evitarea cazurilor influente și a cazurilor extreme.
EXEMPLU
Am considerat să vedem dacă putem găsi
o regresie liniară simplă între proprietățile
fizice ale probelor analizate având două
variabile:
- VI densitatea specifică (reală)
- VD densitatea aparentă (volumică)
Am construit baza de date în SPSS Proprietatea fizică.sav cu variabilele: id (de
identificare a probei), vi și vd

Am copiat datele din anexa 2


Calea SPSS este Analyse/Regression/Linear
Trecem în câmpurile corespunzătoare vi și vd
Verificarea condițiilor 3 și 4 se face apăsând butonul Plots, unde trecem
variabilele *ZRESID pe axa Y și variabila *ZPRED pe axa X. Pentru verificarea
normalității bifăm Histogram și Normal probability plot și închidem fereastra cu
Continue
Apăsăm butonul Save iar în câmpul Rezidual bifăm
Standardized și Studentized (pentru identificarea unor
posibile cazuri extreme) apoi în câmpul Distances
bifăm Cook’s (pentru identificare unor posibile cazuri
influente) Apoi OK.
Al doilea table – Model Summary este important, deoarece ne oferă
informații despre eficiența modelului de regresie aplicat

Din coloana a doua avem coeficientul de corelație Pearson între


variabila dependentă și independentă. În cazul nostru R=0,896 adică
între cele două variabile este o relație puternică.
Coloana a treia conține coeficientul de determinare 𝑅2 = 0.802 cea ce
înseamnă că 80,2% din variația variabilei dependente poate fi explicată
de variația variabilei independente.
Coeficientul 𝑅2 ajustat este influențat de numărul VI și are în vedere o mai bună
linie de regresie. Vom spune că 79,8% din variația VD este explicată de variația
variabilei independente.
Ultima coloană a tabelului conține eroarea standard a estimării. Realizînd
același studiu pe alte eșantiioane vom găsi alte rezultate, deviația standard a
acestora este eroarea standard a estimării. În cazul nostru 0,050.
Următorul tabel ANOVA este testul F ce verifică faptul că linia de regresie este o
predicție bună

Avem F(1,43)=174,707 care este semnificativ deoarece p<0,001. Rezultă că


este puțin probabil ca rezultatele noastre să apară dintr-o eroare de
eșantionare. Testul F este folosit pentru respingerea ipotezei de nul.
Tabelul Coeficients prezintă coeficienții de regresie nestandardizați (B)
și standardizați (Beta) și rezultatela testelor t pentru fiecare din acesți
coeficienți.

Coeficientul nestandardizat pentru constantă este a=-0.267, iar coeficientul


nestandardizat pentru variabila independentă este b=1,078.
Ecuația de regresie este: 𝑦 = 𝑎 + 𝑏𝑥 = 1,078𝑥 − 0,267. Coeficientul
standardizat beta arată că atinci când VI crește cu o abatere standard atunci
VD crește cu 0,896 abateri standard. Valorile lui t indică semnificația statistică
a coeficienților, în cazul nostru b este semnificativ iar constanta a nu este
semnificativă statistic.
Ultimul tabel este cel al rezultatelor reziduale statistice:
Din el analizăm în ce măsură condițiile 3 și 4 sunt îndeplinite. Dacă vom studia
graficele, vedem că erorile sunt normal distribuite. Pentru condiția 4 trebuie să
avem Std. Residual și Stud. Rezidual în intervelul (-3,3) pentru ca ecuația
regresiei să fie stabilă. Rezultă aici că nu avem cazuri extreme. Urmărim si
distanța Cook care trebuie să fie mai mica decat 1 pentru a nu exista cazuri
influente. La noi are valoarea maximă 0.145 deci nu exista cazuri influente
Pentru a obține o ilustrare grafică pentru regresia liniară simplă considerăm
calea Graph/Lagacy dialogs/Scatter/Dot.../Simple/Define, pe axa Y trecem
VD iar pe axa X VI și OK. Obținem norul de puncte la care-i putem reprezenta
și dreapta de regresie
Pentru aceasta facem dublu-clic pe grafic trecând în modul Chart Editor
unde apăsăm butonul Add Fit Line at Total. Rezultatul este apariția
dreptei de regresie și a lui 𝑅2 . Inchizând Chart Editor obținem în output
figura dorita care prin copy se poate transpune în fișierul word dorit.
Prezentarea rezultatelor în teză, lucrări, etc.:

Tabelul ...Rezultatele analizei de regresie vizând estimarea VD pe baza scorurilor VI

Pentru a vedea gradul de predicție al VI asupra VD am aplicat metoda regresiei


liniare simple. Rezultatele au fost semnificative statistic F(1,43)=174,707, p<0,001.
Ecuația de regresie obținută este VD=-0,267+1,078*VI. Valoarea lui 𝑅 2 ajustat este
0,798, cea ce înseamnă că 79,8% din variația VD poate fi exprimată de variația VI.
Conform lui Cohen acesta este un efect foarte puternic.

Interpretarea mărimii efectului


Mărimea efectului D Cohen R
Foarte puternic ≥ 1,00 ≥ 0,70
puternic 0,80 0,50
mediu 0,50 0,30
slab 0,20 0,10
Testele t
1) z/t pentru un eșantion testează media unui eșantion față de media
cunoscută a populației din care face parte.
• Procedura: Analyze/Compare Means/One Sample T Test.
• Am aplicat în fișierul admitere.sav testul t pentru un eșantion la
variabila media la bac având ca si comparație media 7.
• Variabila testată se trece în lista Test Variable(s). In zona Test value se
înscrie media populației. Caseta Option permite alegerea pragului de
semnificație Confidence Interval 95% . Pentru rezultate avem două
tabele obținute in output:
Primul tablel prezintă statistica descriptive a variabilei testate (N, media, ab. standard,
eroarea standard a mediei)
Al doilea tabel include rezultatele testului statistic. Coloanele tabelului prezintă:
- valoarea testului t se raportează cu primele două zecimale;
- df sunt gradele de libertate (N-1);
- sig(2-tailed) este probabilitatea asociată valorii calculate a lui t care se
notează uzual cu p, notam p<0,001 testul ne spune că este o probabilitate mai mica
de 1/1000 de a obține o valoare a lui t mai mare ca 83,65;
Mean Difference este diferența dintre media eșantionului și valoarea de referință;
95% CI for the mean difference reprezintă limitele intervalului de încredere pentru
diferența dintre media eșantionului și valoarea de referință.
Calcularea indicelui de mărime a efectului𝑚−𝜇
Calcului indicelui de mărime a efectului se face după formula 𝑑 =
𝜎
• Unde m este media eșantionului, 𝜇 media populației (valoarea de referință) iar
𝜎 abaterea standard . Grila de interpretare a lui d (grila Cohen) este:
0,20 Efect mic
d 0,50 Efect mediu
0,80 Efect mare

• În cazul nostru d=2,84. Efectul este deci mare adică media la bacalaureat diferă
semnificativ de media 7.
• Raportarea rezultatului (cum se scrie in teză, lucrări, etc.)
Media la bacalaureat a eșantionului cercetat (m=8,85) diferă
semnificativ de media populației (𝜇 = 7) (t=83,65, df=883, p<0,005).
Indicele de mărime a efectului arată o diferență importantă a mediei
eșantionului față de media populației (d=2,84), limitele de încredere
indică o precizie mare a rezultatului (95% CI: 1,81-1,90)
PS. Se pot atașa tabelele care să certifice rezultatele de mai sus !!!
2) t pentru eșantioane independente
Este utilizat pentru testarea diferenței dintre mediile aceleași variabile
măsurate pe două grupuri
Procedura: Analyze/Compare Means/ Independent –Sample T Test. In
caseta principală Test (variables) se trece variabila de analizat iar variabila
independentă în zona Grouping Variable. Programul afișează două semne de
întrebare care sugerează introducerea în zona Define group a celor două
grupe (valorile care definesc cele două grupe, în cazul nostru de către
variabila sexul în modul Variable View la Value Labels gasesc 1=„Masculin” și
2=„Feminin”, deci cele două grupe au valorile 1 și 2) apoi Continue si OK
Exemplu. Fisierul IQ.sav obtinem rezultatul:
• Primul tabel reda statistica descriptivă a celor două grupuri.
• Al doilea tabel are două linii:
• Pe prima linie sunt reproduse rezultatele testului t pentru situația în
care varianța celor două grupuri comparate este egală. Egalitatea
varianțelor este testată cu testul Levene. Dacă p>0,05 atunci
varianțele sunt egale și citim de pe prima linie. Cazul nostru
p=0.417>0,05 deci varianțele sunt egale rezultatul testului t=-2,268,
df=28, p=0,031
• Calcularea mărimii efectului. Există mai mulți indici ai mărimii
efectului utilizați în diferența de medii. Omega-patrat și eta-patrat
(mai rar) cu formulele:
𝑡 2 −1 4,1438 𝑡 2
= = = 0,12 𝜂2 = 2
𝑡 2 +𝑛1 +𝑛2 −1 34,1076 𝑡 +𝑑𝑓
• Interpretarea valorilor lui 𝜔2 dupa Cohen: 0,01-marime scăzută a
asocierii, 0,06-mărime medie, 0,14-marime mare.
Raportarea rezultatului în teză, lucrări, etc.
Datele cercetării permit acceptarea ipotezei conform căreia
există o diferență semnificativă statistic între media coeficientului de
inteligență al celor două grupe (mB=108,25, mF=114,86, t=-2,268,
df=28, p=0,031).
Indicele de mărime a efectului indică o asociere medie
omega-pătrat=0,12). Intervalul de încredere (95%) pentru diferența
dintre medii este cuprins între valoarea inferioară -12,575 și
valoarea superioară -0,639 exprimând o precizie redusă a estimării
diferenței dintre medii.
PS. Se pot atașa tabelele care să certifice rezultatele de mai sus !!!
Cerințe proiect
1) Să se construiască o bază de date în SPSS care să conțină
- cel puțin 3 variabile nominale (Ex. sex, statut social, zodia, hobiuri, etc)
- cel putin 3 variabile ordinale (Ex. nivel educație, aprecieri pe scara Likert
cu 3,5,7 trepte)
- cel puțin 5 variabile scalare (Ex. înălțime, greutate, venit, alte
caracteristici numerice specifice mărimilor ce le folosiți in teza, lucrări)
2) Baza de date să conțină cel puțin 40 de subiecți
3) Într-un fișier word se va face analiza statistică descriptivă la cel putin 2
variabile din fiecare categorie (nominale, ordinale, scalare) și se vor enunța
ipoteze statistice apoi se vor aplica cel puțin 2 teste statistice.
4) Se aduc la examen pentru susținere: fișierul .sav cu baza de date, fișierul .spv
cu output-ul unde s-a facut procedurile statistice cerute și fisierul word în care
am scris analiza cerută.
SUCCES!!

S-ar putea să vă placă și