Documente Academic
Documente Profesional
Documente Cultură
Introducere .................................................................................................. 3
Prezentarea bazei de date............................................................................ 4
Analiza statistică descriptivă a variabilelor utilizate. ................................ 5
1. Regresie liniară multiplă ...................................................................... 9
2. Modelul PATH.................................................................................... 16
3. Analiza factorială confirmatorie ........................................................ 20
4. Modelul cu ecuații stucturale (SEM)................................................. 26
5. Concluzii: ............................................................................................ 30
Introducere
Proiectul de față își propune analizarea factorilor de influență care contribuie la
modificarea greutății copilului în momentul nașterii. Baza de date provine de Hosmer
and Lemeshow (2000) și este formată din 189 de observații pentru 11 variabile.
Asupra setului inițial de date s-au aplicat diferite transformări iar subsetul pe care s-a
realizat analiza este format din 5 variabile. Transformările pe care le-a suferit baza de
date sunt prezentate în cuprinsul capitolului 2.
Aceasta este formata in 189 de înregistrări a câte 11 variabile. Din baza inițială,
pentru studiul de față, s-au ales 5 variabile. Acestea au fost redenumite și rearanjate după
cum urmează:
• Prima variabilă din setul de date este ”Gcg” – denumirea acesteia provine de la
Greutatea copilului înregistrată la naștere în grame, aceasta fiind o variabilă
numerică va fi aleasă ca și variabilă dependentă iar cele din urmă vor fi alese ca
și variabile independente
• Vârsta – este vârsta mamei la nașterea copilului, de asemenea variabilă numerică
• Fumătoare – este statusul mamei în ceea ce privește fumatul și are două categorii:
0 – mama este nefumătoare; 1 - mama este fumătoare
• ”Gpm” – este greutatea înregistrată la ultima perioada menstruală, este o variabilă
numerică înregistrată în lbs
• ”Nvm” – este numărul de vizite la medic în primul trimestru de sarcină, de
asemenea, variabilă numerică pe care am transformat-o mai apoi intr-o variabilă
categorială cu 3 categorii si anume: prima categorie – până într-o vizită la medic
în primul trimestru de sarcină, între 1 și 3 vizite la medic în primul trimestru de
sarcină și cea de a treia categorie este formată din femeile care au făcut peste 3
vizite la medic în primul trimestru de sarcină.
Variabilele studiate pot fi observate atât printr-o analiză numerică cât și printr-o
analiză grafică.
În conținutul acestui capitol vom vizualiza întâi o analiză statistică descriptivă
atât pentru variabilele numerice cât și pentru cele nenumerice urmând ca apoi să
realizăm Testarea normalității distribuțiilor, identificarea valorilor extreme cu ajutorul
box-plot-ului și estimarea coeficienților de corelație Pearson pentru identificarea unei
eventuale coliniarități a variabilelor independente.
Din totalul de 189 de participante la studiu, 115 sunt nefumătoare iar 74 afirmă
ca au fumat în trecut sau încă fumează.
Greutatea înregistrată la ultima perioadă menstruală are o valoare minimă de
36 de kilograme, 25 % din femei au înregistrat la ultima perioadă menstruală 49.5kg,
50% din femeile participante la studiu au înregistrat 54.45 de kg la ultima perioadă
menstruală. Media acestora este de 58.42, 75% înregistrând 63 de kilograme la ultima
perioadă menstruală iar valoarea maxima înregistrată a fost 112.5 kg.
Outlierii sunt valorile extreme distanțate de celelalte valori din serie și pot avea
diferite cauze. Aceștia pot fi îndepărtați sau păstrați în funcție de cauza producerii
acestora. Pentru identificarea acestora s-a folosit graficul boxplot pentru variabilele
numerice.
Ipoteze:
În ciudat faptului că cele mai multe articole precizează vârsta ca fiind un factor
important în ceea ce priveste greutatea copilului la naștere, cazul de față se regăseste
mai precis cu articolul Epidemiological Factors Affecting Low Birth Weight care
precizează că vârsta nu are o influență semnificativă.
Valoarea înregistrată a lui p-value este de 0.009. Aceasta este mai mică decât riscul
asumat de 0.05, astfel, cu o probabilitate de 95% putem afirma că între cele două
variabile există o legătură semnificativa statistic.
Conform valorii înregistrate de către p-value(0.37 > 0.05 - riscul asumat) putem
afirma că între Greutatea copilului la naștere și Vârsta respondentei în momentul în
care aceasta a dat naștere nu există o legătură semnificativă statistic, cu un risc de 5%.
Pentru validarea modelului de regresie este necesar să se verifice dacă sunt îndeplinite
ipotezele asupra erorilor.
Pentru testarea ipotezelor specifice modelului de regresie am estimat variabila reziduală a
modelului de regresie pe care am salvat-o sub denumirea de resid.
1. Formularea ipotezelor:
H0 : M (εi) = 0 (Media erorilor este egală cu zero)
H1 : M (εi) ≠ 0 (Media erorilor este diferită de zero)
Pentru testarea acestei ipoteze am folosit testul One Sample t test iar acestea au fost
rezultatele:
2. Decizia statistică
Nivelul de semnificație al testului fiind Sig=1, acesta fiind mai mare decât valoarea
riscului asumat în valoare de 0,05, ipoteza nulă nu se respinge. Cu o probabilitate de 95% putem
afirma că media erorilor este egală cu zero.
Testarea homoscedasticității
Pentru testarea homoscedasticității am folosit testul Breusch Pagan în urma căruia am
obținut următoarele rezultate
1. Formularea ipotezelor:
H0: V(ei ) =s2 - Erorile sunt homoscedastice
H1: V(ei ) ≠ s2 - Erorile sunt heteroscedastic
2. Decizia statistică
După cumputem observa valoarea lui p-value din tabel este mai mică decât riscul
asumat ceea ce înseamnă că erorile sunt heteroscedastice și vor trebui corectate.
1. Formularea ipotezelor:
H0: 𝜀𝑖 ~𝑁( 0, 𝜎2) (erorile urmează o lege de repartiţie normală sau erorile sunt normal
distribuite)
H1: 𝜀𝑖 ≠ 𝑁(0, 𝜎2) (erorile nu urmează o lege normală sau erorile nu sunt normal
distribuite)
Atât în urma histogramei cât și în urma Q-Q plot-ului putem observa ca erorile
urmează o lege normală de distribuție dar de asemenea vom testa cu ajutorul testului
Jarque Bera:
2. Decizia statistică
Deoarece nivelul de semnificație p-value = 0,4326 este mai mare decât α = 0,05,
putem afirma cu o probabilitate de 95% că nu se respinge ipoteza de nul, așadar erorile
sunt normal distribuite. Acest lucru poate fi observat și cu ajutorul diagramei P-P Plot,
deoarece, erorile variază după o lege normală.
1. Formularea ipotezelor:
În urma testului Runs putem observa valoarea lui Prob = 0,145 > α = 0,05. Cu un risc de
5% putem afirma că nu se respinge ipoteza de nul, astfel, erorile nu sunt corelate.
În urma tabelului, putem observa valorile mici ale indicatorului VIF pentru variabilele
introduse în model (1,041;1,04153) ceea ce ne indică lipsa coliniarității.
În urma testării tuturor ipotezelor cu privire la erori putem trage concluzia că: media
erorilor este egală cu zero, ipoteza cu privire la homoscedasticitate nu este îndeplinită și va
trebui corectată, erorile sunt normal distribuite, acestea nu sunt corelate iar în cazul variabilelor
independente ne este indicată lipsa coliniarității.
2. Modelul PATH
În cadrul acestui capitol am construit analiza PATH asupra aceleiași baze de date
folosită anterior pentru estimarea modelului de regresie multiplă.
Am folosit programul Lisrel în crearea acestui model, iar prima etapa este aceea de a
importa baza de date → File/ Import Data. Apoi, pentru a asigura rularea analizelor am definit
variabilele ca și variabile continue.
Cu ajutorul opțiunii Graphs → vom realiza două grafice de tip Scatter plot între variabila
dependentă și fiecare variabilă independentă.
Prima imagine ne indică legătura dintre variabila dependentă și variabila independentă,
Greutatea înregistrată la ultima perioadă menstruală. Între cele 2 există o legătura de directă de
intensitate mica (r= 0.188).
Cel de-al doilea Scatter plot este realizat asupra variabile independente împreună cu
variabila Vârstă din care putem observa o legătura directă dar de intensitate mică (r=0.065)
După observarea celor două scatterplot-uri am construit un fișier de tip prelis cu terminația.psf
– ce va conține baza de date. În continuare, am realizat matricea de covarianță ce va fi necesară
în crearea modelului Path. Aceasta se obține utilizând următorii pași: Statistics > Output >
Covariances > Save to file în urma căreia am obținut următoarele rezultate:
Din prima parte a outputului putem observa că pentru variabilele Fumătoare si Nvm
(numarul de vizite la medic în ultimul trimestru nu s-au calculat deoarece sunt variabile
categoriale).
Pentru a genera modelul propriu zis am parcurs următorii pași:
După realizarea pașilor prezentați, am folosit sintaxa SIMPLIS pentru a putea genera
valorile din diagrama Path.
Aceasta este Diagrama Path – Estimates ce conține informațiile cu privire la coeficienții
modelulului de regresie iar următoarea imagine conține valorile calculate testului T-student:
Un model saturat este un model în care există cât mai mulți parametri estimați ca puncte
de date ceea ce va duce la o potrivire perfectă, dar va fi de mică utilitate statistică, deoarece nu
ne mai rămân date pentru a estima și gradele de libertate. Modelul poate fi îmbunătățit prin
utilizarea sau adăugarea altei/altor variabile.
Din cei 23 de itemi am selectat doar primii10 pentru a avea posibilitate rulării analizelor în
programul LISREL cu licența de student.
În imaginea următoare putem observa cei 10 itemi ce vor fi folosiți în următoarele analize:
1. Statistica mă face să plâng.
2. Prietenii mei mă vor considera prost din cauză ca nu știu să folosesc SPSS
3. Deviația standard mă încântă
4. Am visat ca Pearson mă atacă cu coeficienți de corelație.
5. Nu înțeleg statistica.
6. Am o experiență scăzută în ceea ce privește calculatorul.
7. Toate calculatoarele mă urăsc.
8. Nu am fost niciodată bun la matematică.
9. Prietenii mei sunt mai buni decât mine la statistică.
10. Computerele sunt folositoare doar pentru jocurile video.
Pentru realizarea analizelor următoare baza de date a fost in prealabil verificată de erori de
scriere, outlieri, valori lipsă toate acestea fiind tratate în același mod ca în cazul primei baze de
date specificate în acest proiect.
Pentru realizarea analizei s-a importat noua bază de date în programul Lisrel astfel: File >
Import Data > Files of type: SPSS (*.sav) deoarece această bază de date este salvată in format
*.sav
După importul baze de date s-a verificat tipul variabilelor si s-au setat ca si continue.
Pentru crearea diagramei Path s-au realizat aceeași pași ca cei exemplificați anterior
dar în căsuța Labels s-au adăugat 3 variabile latente astfel:
Cea dea doua variabilă latentă este ”Relationship with statistics” ce este formată
din itemii 1, 3, 4, 5:
• Statistica mă face să plâng.
• Deviația standard mă încântă
• Am visat ca Pearson mă atacă cu coeficienți de corelație.
• Nu înțeleg statistica.
Iar cea de-a 3 variabilă latentă se referă la cunoștintele pe care le are respondentul în
legătură cu calculatorul, ”Computer knowledge” și va fi formată din itemii 6, 7 și 10:
• Am o experiență scăzută în ceea ce privește calculatorul.
• Toate calculatoarele mă urăsc.
• Computerele sunt folositoare doar pentru jocurile video.
Diagrama Path– Analiza Factorială Confirmatorie – valorile estimate ale modelului
Model Specification
Ecuații:
Q01= Relationship with statistics + err_Q01
Q02= Friends opinion + err_Q02
Q03= Relationship with statistics + err_Q03
Q04= Relationship with statistics + err_Q04
Q05= Relationship with statistics + err_Q05
Q06= Computer knowledge + err_Q06
Q07= Computer knowledge + err_Q07
Q09= Friends opinion + err_Q09
Q010= Computer knowledge + err_Q010
Prezentarea rezultatelor:
Model Identification
Numărul parametrilor liberi este următorul:
• 9 factori de încărcare ;
• 3 corelații între variabilele latente;
• 9 varianțe ale erorii de măsurare;
• 0 covarianțe între erorile de măsurare;
Astfel ca pentru modelul generat avem 21 parametri liberi care trebuie estimați.
Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu: [p(p+1)]/2
unde p este numărul de variabile observate → [9 ∗ (9 + 3)]/2 = 54
În concluzie: 21 < 54 → modelul este supra-identificat.
Valoarea lui NPC este 369.07, nu este în aproprierea valorii zero ceea ce ne indică că
potrivirea nu este cea mai bună.
RMSEA are valoarea de 0.077 iar P-value =0.00 mai mic ca 0.05.
Indexul Godness of Fit (GFI = 0.97) modelul este potrivit datelor
NFI – 0.94 limita este de 0.90 ceea ce înseamnă ca este bun
Cea dea doua variabilă latentă este ”Relationship with statistics” ce este formată din
itemii 1, 3, 4, 5:
• Statistica mă face să plâng.
• Deviația standard mă încântă
• Am visat ca Pearson mă atacă cu coeficienți de corelație.
• Nu înțeleg statistica.
Iar cea de-a 3 variabilă latentă se referă la cunoștintele pe care le are respondentul în legătură
cu calculatorul, ”Computer knowledge” și va fi formată din itemii 6, 7 și 10:
• Am o experiență scăzută în ceea ce privește calculatorul.
• Toate calculatoarele mă urăsc.
• Computerele sunt folositoare doar pentru jocurile video.
3. Crearea scriptului
Am construit un scrip în care am mentionat variabilele observate (9 la număr), după
care am precizat variabilele latente (Friends opinion, Relationship with statistics, Computer
knowledge).
Am specificat apoi relațiile dintre variabilele observate și factori. Computer knowledge
consider ca este variabilă independentă de asemenea și variabila latentă Relationship with
statistics poate fi variabilă independentă în timp ce Friends opinion consider ca este
dependentă de celelalte două variabile latente deoarece opinia prietenilor fată de persoana in
cauză în chestionarul de fată depinde atât de către cunoștințele generale în ale calculatorului
cât și de relația părerea/respondentului față de statistică.
Astfel, avem următorul script:
4.Rularea acestuia a condus la următoarea diagramă Path:
Model Identification
• Modelul are 20 de parametri estimați:
• 9 factori de încărcare (pentru fiecare variabilă observată)
• 9 varianțe ale erorilor de măsurare (pentru variabilele observate)
• 0 legături de corelație între erorile variabilelor observate (săgețile curbate)
• 2 coeficienți ai ecuației structurale (legăturile dintre variabilele latente)
Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu:
[p(p+1)]/2, unde p este numărul de variabile observate → [9 ∗ (9 + 1)]/2 = 45
În concluzie: 20 < 45 → modelul este supra-identificat.
Grade de libertate df→ 45- 20 = 25 grade de libertate.
62% din variația variabilei Q07 (Toate calculatoarele mă urăsc) este explicată prin variația
factorului Relația cu calculatorul.
Restul variației până la 100% se datoarează altor factori neincluși în model.
Putem concluziona că acest model respectă marea majoritate din indicatorii importanți
menționați. Desigur, modelul ar putea fi îmbunătățit prin utilizarea sau adaugarea altei/altor
variabile.
5. Concluzii:
* între toate variabilele există o corelație pozitivă dar este de intensitate mică
* pentru modelul de regresie liniară multiplă parametrul β2 nu este semnificativ statistic dar
modelul reiese semnificativ statistic
* Contrar celor mai multe studii, în cazul de față vârsta respondentei nu influențează greutatea
bebelușului
* Modelul îndeplinește ipotezele specifice modelului de regresie mai puțin Ipoteza de
homoscedasticitate care va trebui corectată
* Cu ajutorul primului Scatterplot realizat în analiza Path putem observa legătura dintre
variabila dependentă și variabila independentă, Greutatea înregistrată la ultima perioadă
menstruală. Între cele 2 existând o legătura directă de intensitate mica (r= 0.188).
* Ecuația modelului de regresie: 0.02 *Vârsta + 0.18 * Gpm, iar parametrii modelului de
regresie sunt 𝛽1, 𝛽2 în cazul modelului Path
* În cazul modelului Path se poate observa obținerea un model saturat, ceea ce nu este de dorit,
acesta ar putea fi îmbunătățit prin adăugarea altor variabile.
* În cadrul Analizei Factoriale Confirmatorie s-a folosit baza de date SAQ (satisfaction
questionnaire) ce conține un chestionar legat de gradul de anxietate față de SPSS al studenților.
* Modelul cu Ecuații Structurale SEM, a fost realizat cu ajutorul aceleiași baze de date ca
pentru modelul anterior.
* Variabilele latente au rămas aceleași ca pentru Analiza Factorială, însă în cadrul modelului
cu ecuații structurale am considerat Computer knowledge ca variabilă independentă împreună
cu variabila latentă Relationship with statistics, în timp ce Friends opinion am considerat că
este dependentă de celelalte două variabile latente deoarece opinia prietenilor față de persoana
în cauză, în chestionarul de fată, depinde atât de către cunoștințele generale în ale calculatorului
cât și de relația părerea/respondentului față de statistică.
* Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu 45, astfel 20 <
45 semnificând un model supra-identificat. Grade de libertate df→ 45- 20 = 25
* 62% din variația variabilei Q07 (Toate calculatoarele mă urăsc) este explicată prin variația
factorului Relația cu calculatorul.
Restul variației până la 100% se datoarează altor factori neincluși în model.