Documente Academic
Documente Profesional
Documente Cultură
Populație
• Dacă fiecare din cele 5 eșantioane are câte o medie, atunci distribuția
valorilor alcătuită din aceste medii se numește distribuția medie de
eșantionare. Media ei se numește media de eșantionare
Împrăștierea distribuției de eșantionare
• Distribuția (medie) de eșantionare nu are aceeași împrăștiere ca distribuția
valorilor individuale ale variabilei de origine. Aceasta deoarece la nivelul
fiecărui eșantion, o parte din împrăștierea totală eate absorbită de fiecare
eșantion în parte.
• Ca urmare abaterea standard a distribuției de eșantionare este o fracțiune
din abaterea standard a populației, fiind dependentă de mărimea
eșantioanelor.
• Abaterea standard a mediei de eșantionare este denumită eroare standard
a mediei și se calculează:
𝜎
• 𝑠𝑚 = unde 𝜎 este abaterea standard a populației, iar N volumul
𝑁
eșantionului
• Cum în practică lucrăm cu𝑠 un singur eșantion vom considera s abaterea
standard a sa deci 𝑠𝑚 = .
𝑁
Cunoscând eroarea standard a mediei, putem acum estima limitele între care găsim
media populaţiei (µ) la un interval de încredere de 95%.
După cum ştim, în termeni de abateri standard, pe o distribuţie normală, intervalul de
încredere corespunzător nivelului de 95% este situat între +/- 1,96 abateri standard.
Particularizând, intervalul de încredere al mediei teoretice poate fi calculat după
formula:
𝜇 = 𝑥ҧ ∓ 1,96𝑠𝑚
Exemplu Dacă media înălțimii a 30 de subiecți este 179,9 cu eroarea standard a mediei
de 1,22 găsim limita inferioară a intervalului de încredere:
179,9-1,96x1,22=177,51 iar limita superioară 179,9+1,96x1,22=182,29.
În concluzie putem spune că înălțimea populației masculine din tara noastră va avea
media în intervalul [177,51;182,29].
În general pentru orice variabilă scalară, ce respectă condiția de normalitate, pentru
care avem media 𝑥ҧ și abaterea standard s putem spune cu un nivel de încredere de 95%
că media întregii populații este cuprinsă între 𝑥ҧ − 1,96 ∙ 𝑠 și 𝑥ҧ + 1,96 ∙ 𝑠 .
Teorema limitei centrale
Se afirmă următoarele adevăruri statistice fundamentale:
• - Cu cât numărul eșantioanelor dintr-o populație este mai mare cu
atât media distribuției de eșantionare se apropie de media populației
• Distribuția mediei de eșantionare se supune legilor curbei normale
chiar și atunci când distribuția variabilei la nivelul întregii populație nu
are caracter normal cu condiția ca volumul eșantioanelor sa fie
suficient de mare
Teorema limitei centrale este adevărată în următoarele condiții:
a) Eșantioanele sunt aleatorii sau neafectate de erori (bias)
b) Valorile care compun eșantioanele sunt independente
c) Eșantioanele au același volum.
Se considera un eșantion mare dacă are cel puțin 30 subiecți
STRATEGIA ANALIZEI STATISTICE A DATELOR
INTRODUCERE
Să discutăm despre cerințele statistice ce se impun în construirea unui studiu de
date. Din păcate sunt multe studii în care se aplică unei baze de date instrumentele
statistice, observăm câteva concluzii semnificative și abia apoi formulăm ipotezele.
Evident este total greșit, ar însemna să începem construcția unei case de la acoperiș.
Demersul științific implică următorul plan:
Enunțul problemei.
Se pleacă de la un fapt, o constatare observată, adică se enunță o problemă. O
problemă apare în urma unui mare număr de observaţii. Enunţarea problemei
presupune formularea acesteia în scris, în termeni clari şi expliciţi. În urma formulării
problemei, rezultă obiectivele cercetării, obiective exprimate în termeni de obiective
generale şi specifice. Obiectivele generale ghidează cercetarea în ansamblul ei. Un studiu
ştiinţific are unul, maxim două obiective generale. Nu ne putem concentra eforturile pe
mai multe planuri; or, planurile sunt ghidate exact de modul de formulare al obiectivelor
generale. Obiectivele generale ale unei cercetări sunt formulate în urma unui cumul de
observaţii şi, eventual, în urma unui studiu metaanalitic, adică prin a analiza cercetările
existente în acel domeniu.
Formularea ipotezelor
O ipoteză reprezintă o prezumţie clară, explicită şi verificabilă referitoare la
relaţiile sau diferenţele existente între două sau mai multe variabile.
Ipotezele sunt formulate atât în cazul studiilor care urmăresc stabilirea unor
relaţii dintre variabile (numite şi studii corelaţionale), cât şi pentru cercetările ce
vizează existenţa unor diferenţe dintre variabile (studii factoriale). O primă
distincţie se poate face între ipoteze unilaterale (unidirecţionale) şi ipoteze
bilaterale (bidirecţionale).
O ipoteza statistica reprezinta supozitia care se face cu privire la parametrii
unei repartitii sau la legea de repartitie pe care o urmeaza anumite variabile
aleatoare. Procedeul de verificare a unei ipoteze statistice poarta numele de test
sau criteriu de semnificatie.
Ipotezele statistice sunt concepute ca ipoteze nule (H0) si ca ipoteze
alternative (H1).
• Ipoteza nula este o afirmatie despre un status quo. In esenta ea este
acea afirmatie care comunica ideea ca orice schimbare de la ceea ce
s-a gandit ca este adevarat se va datora in intregime erorilor
aleatoare.
• Ipoteza alternativa este o afirmatie care reflecta opusul ipotezei nule.
Scopul formularii ipotezei alternative este de fapt acela de a indica o
posibilitate de neconfirmare a ipotezei nule.
• In general, o ipoteza nula se formuleaza in sensul inexistentei unei
diferente (a unei deosebiri) intre doua sau mai multe grupuri.
• Ipoteza alternativa este aceea care afirma ca exista diferente
semnificative intre grupurile respective in legatura cu aspectul
cercetat.
Exemplu
Banca Prosperity dorește să realizeze un experiment de marketing
pentru a vedea dacă există o influență în ce privește numărul de
depozite la termen deschise de clienți și locația fiecărei filiale din
București.
• Adică se dorește confirmarea sau infirmarea faptului că există o
legatură între locație și numărul depozitelor deschise.
• În cazul nostru cercetătorul se așteaptă să fie o legatură în sensul că
locațiile plasate în puncte aglomerate, centrale să beneficieze de o
dechidere de conturi mai mare decât cele plasate în suburbii.
• Acest rezultat „așteptat”, „prefigurat” se numește ipoteza cercetării
sau ipoteza alternativă, fiind codificată H1. Simbolic putem scrie
𝐻1 → 𝑥𝑐𝑒𝑛𝑡𝑟𝑢 ≠ 𝑥𝑝𝑒𝑟𝑖𝑓 ,
unde 𝑥𝑐𝑒𝑛𝑡𝑟𝑢 reprezintă media conturilor dechise pe o perioada de
timp la filialele centrale, iar 𝑥𝑝𝑒𝑟𝑖𝑓 media pentru filialele periferice.
• Pentru a decide cu privire la ipoteza cercetării, trebuie să evaluăm
probabilitatea ca media eșantionului cercetării să fie rezultatul
hazardului de eșantionare.
• Procedura statistică ce se bazează pe acest raționament se numește
„ipoteza de nul”. Ea se notează cu H0 și are simbolic descrierea:
𝐻0 → 𝑥𝑐𝑒𝑛𝑡𝑟𝑢 = 𝑥𝑝𝑒𝑟𝑖𝑓
Avem doar două formulări statistice corecte:
• - respingem ipoteza de nul
• - nu respingem ipoteza de nul
Se respinge ipoteza nulă dacă probabilitatea să fie adevărată este mică:
pragul postulat de Fisher este de 0,05. Mai există și pragul de 0,01. Cele
două praguri reprezintă probabilitatea ca ipotexa nulă să fie sau să nu
fie respinsă. El se notează cu p, iar TREBUIE SĂ RETINEM:
respingem ipoteza de nul dacă p<0,05, și
nu respingem ipoteza de nul dacă p>0,05.
Chiar dacă pragul de semnificaţie creează condiţiile respingerii ipotezei
nule, totuşi nu vom putea niciodată afirma cu certitudine că susţinem ipoteza
alternativă. În cercetarea ştiinţifică, deşi condiţiile de semnificaţie statistică pot fi
îndeplinite, este posibilă apariţia a două tipuri de erori: putem respinge ipoteza
nulă, iar în realitate ea să nu îndeplinească condiţiile de respingere la nivelul
populaţiei, sau putem să nu respingem ipoteza nulă, în situaţia în care ar trebui
respinsă.
Pentru a ne lămuri asupra celor două tipuri de erori vom relata povestea
următoare (Ovidiu Lung)
A fost odată un împărat care avea obiceiul să poarte multe războaie. Înainte
de a merge la război, împăratul nostru îl chema pe vrăjitorul curţii şi îl punea să-i
prezică soarta bătăliei. De fiecare dată, bietul vrăjitor era în mare impas,
deoarece, dacă greşea previziunea, risca să-şi piardă capul, cum o păţiseră
mulţi alţii înaintea lui. Totuşi, vrăjitorul avea mulţi ani de când îşi păstra
capul pe umeri, iar predicţiile acestuia, uneori, se dovedeau a fi adevărate.
Să analizăm acum tabelul de mai sus. Observăm că există un număr de patru
situaţii:
- Vrăjitorul a prezis că împăratul va câştiga bătălia şi împăratul a câştigat-o.
Vrăjitorul a obţinut o nouă avere şi respectul împăratului;
- Vrăjitorul a prezis câştigarea bătăliei şi împăratul a pierdut-o. S-a comis
astfel o eroare de tip I, respingându-se ipoteza nulă când, de fapt, ar fi
trebuit acceptată. Şi-a pierdut şi averea şi capul.
- Vrăjitorul a prezis pierderea bătăliei şi împăratul a câştigat-o. S-a
comis acum o eroare de tip II, nerespingând ipoteza nulă în condiţiile
în care ar fi trebuit respinsă. În bucuria victoriei, împăratul s-ar putea
să-i cruţe capul vrăjitorului, însă va pierde respectul şi o parte din
avere.
- Vrăjitorul a prezis pierderea bătăliei şi împăratul a pierdut-o. Din
fericire, şi-a păstrat şi capul şi averea.
• După cum aţi putut observa, eroarea de tip I este situaţia în care un
cercetător respinge ipoteza nulă în condiţiile în care aceasta nu ar fi
trebuit respinsă, iar eroarea de tip doi este situaţia în care nu se
respinge ipoteza nulă, deşi ar trebui respinsă.
Pregatirea si analiza datelor
Se incepe prin a controla existenta omisiunilor datelor, valorile
aberante, lizibilitatea raspunsurilor, corectitudinea clasificarilor cerute,
inclusiv identificarea greselilor facute de operator (transcrierea gresita
a unor date).
Un rol important pentru activitatea de analiza revine codificarii
datelor care permite interpretarea, clasificarea, inregistrarea si stocarea
acestora.
Analiza presupune intelegerea logica a datelor colectate de la
subiecti. Ea necesita o prelucrare statistica a datelor primare obtinute
pritr-o metoda sau alta.
Analiza datelor
• Testarea ipotezelor
a) Alegerea statistii descriptive se poate face din tabelul:
Obiectivul descrierii Scala de măsură Condiție Soluție
Tabel de frecvențe
Nominală
Grafic de tip bară
Distribuția de
Ordinală frecvențe
Reprezentarea întregii Grafic de tip bară
distribuții Distribuția de
frecvențe
I/R Histograma
Poligonul de
frecvențe
Nominală Modul
Măsura tendinței Ordinală Mediana
centrale Simetrică Media
I/R
Asimetrică Mediana
Nominală Numărul de categorii
𝑝 > 0,05 Mare (cel puțin câteva zeci) Distribuția are formă normală
𝑝 > 0,05 Mică (sub câteva zeci) Deși testul confirmă forma distribuției, o astfel
de concluzie este riscantă
REGRESIA LINIARA SIMPLA
Metoda regresiei liniare este utilă in verificarea unor modele predictive
sau explicative.
• În primul caz vom vorbi despre metoda regresiei liniare aplicată în
scop predictiv.
• În al doilea caz vorbim despre metoda regresiei liniare aplicată în scop
explicativ.
Variabila dependenta trebuie să fie întotdeauna cantitativă, variabila
(variabilele) independentă poate fi cantitativă sau categorială. În cazul
VI categoriale aceste se transformă în variabile dummy având o regresie
liniară cu variabile dummy (cu două valori, 1 și 0).
Tipurile de regresie liniară sunt:
• - regresia liniară simplă (o singura VI)
• - regresia liniară multiplă (cu două sau mai multe VI)
Regresia liniară simplă
Prezentare generală
Scop. Metoda rls este o extensie a corelației Pearson, descriind relația
dintre o VI și o VD.
Putem prezice scorul pentru VD având scorul pentru VI.
Putem găsi procentul din VD explicat prin variația VI.
Ecuația de regresie este de forma 𝑦 = 𝑎 + 𝑏𝑥 unde y reprezintă VD iar
x VI.
Condiții de aplicare a rls.
1. VD (criteriu) și VI (predictor) sunt cantitative și normal distribuite
2. Relația dintre ele este liniară
3. Erorile sunt normal distribuite
4. Evitarea cazurilor influente și a cazurilor extreme.
EXEMPLU
Am considerat să vedem dacă putem găsi
o regresie liniară simplă între proprietățile
fizice ale probelor analizate având două
variabile:
- VI densitatea specifică (reală)
- VD densitatea aparentă (volumică)
Am construit baza de date în SPSS Proprietatea fizică.sav cu variabilele: id (de
identificare a probei), vi și vd
• În cazul nostru d=2,84. Efectul este deci mare adică media la bacalaureat diferă
semnificativ de media 7.
• Raportarea rezultatului (cum se scrie in teză, lucrări, etc.)
Media la bacalaureat a eșantionului cercetat (m=8,85) diferă
semnificativ de media populației (𝜇 = 7) (t=83,65, df=883, p<0,005).
Indicele de mărime a efectului arată o diferență importantă a mediei
eșantionului față de media populației (d=2,84), limitele de încredere
indică o precizie mare a rezultatului (95% CI: 1,81-1,90)
PS. Se pot atașa tabelele care să certifice rezultatele de mai sus !!!
2) t pentru eșantioane independente
Este utilizat pentru testarea diferenței dintre mediile aceleași variabile
măsurate pe două grupuri
Procedura: Analyze/Compare Means/ Independent –Sample T Test. In
caseta principală Test (variables) se trece variabila de analizat iar variabila
independentă în zona Grouping Variable. Programul afișează două semne de
întrebare care sugerează introducerea în zona Define group a celor două
grupe (valorile care definesc cele două grupe, în cazul nostru de către
variabila sexul în modul Variable View la Value Labels gasesc 1=„Masculin” și
2=„Feminin”, deci cele două grupe au valorile 1 și 2) apoi Continue si OK
Exemplu. Fisierul IQ.sav obtinem rezultatul:
• Primul tabel reda statistica descriptivă a celor două grupuri.
• Al doilea tabel are două linii:
• Pe prima linie sunt reproduse rezultatele testului t pentru situația în
care varianța celor două grupuri comparate este egală. Egalitatea
varianțelor este testată cu testul Levene. Dacă p>0,05 atunci
varianțele sunt egale și citim de pe prima linie. Cazul nostru
p=0.417>0,05 deci varianțele sunt egale rezultatul testului t=-2,268,
df=28, p=0,031
• Calcularea mărimii efectului. Există mai mulți indici ai mărimii
efectului utilizați în diferența de medii. Omega-patrat și eta-patrat
(mai rar) cu formulele:
𝑡 2 −1 4,1438 𝑡 2
= = = 0,12 𝜂2 = 2
𝑡 2 +𝑛1 +𝑛2 −1 34,1076 𝑡 +𝑑𝑓
• Interpretarea valorilor lui 𝜔2 dupa Cohen: 0,01-marime scăzută a
asocierii, 0,06-mărime medie, 0,14-marime mare.
Raportarea rezultatului în teză, lucrări, etc.
Datele cercetării permit acceptarea ipotezei conform căreia
există o diferență semnificativă statistic între media coeficientului de
inteligență al celor două grupe (mB=108,25, mF=114,86, t=-2,268,
df=28, p=0,031).
Indicele de mărime a efectului indică o asociere medie
omega-pătrat=0,12). Intervalul de încredere (95%) pentru diferența
dintre medii este cuprins între valoarea inferioară -12,575 și
valoarea superioară -0,639 exprimând o precizie redusă a estimării
diferenței dintre medii.
PS. Se pot atașa tabelele care să certifice rezultatele de mai sus !!!
Cerințe proiect
1) Să se construiască o bază de date în SPSS care să conțină
- cel puțin 3 variabile nominale (Ex. sex, statut social, zodia, hobiuri, etc)
- cel putin 3 variabile ordinale (Ex. nivel educație, aprecieri pe scara Likert
cu 3,5,7 trepte)
- cel puțin 5 variabile scalare (Ex. înălțime, greutate, venit, alte
caracteristici numerice specifice mărimilor ce le folosiți in teza, lucrări)
2) Baza de date să conțină cel puțin 40 de subiecți
3) Într-un fișier word se va face analiza statistică descriptivă la cel putin 2
variabile din fiecare categorie (nominale, ordinale, scalare) și se vor enunța
ipoteze statistice apoi se vor aplica cel puțin 2 teste statistice.
4) Se aduc la examen pentru susținere: fișierul .sav cu baza de date, fișierul .spv
cu output-ul unde s-a facut procedurile statistice cerute și fisierul word în care
am scris analiza cerută.
SUCCES!!