Proiect - SEM

Modele de ecuații structurale
Student: Luca Eliza Nicoleta

Master: Data mining
Cuprins:
Introducere .................................................................................................. 3
Prezentarea bazei de date............................................................................ 4
Analiza statistică descriptivă a variabilelor utilizate. ................................ 5
1. Regresie liniară multiplă ...................................................................... 9
2. Modelul PATH.................................................................................... 16
3. Analiza factorială confirmatorie ........................................................ 20
4. Modelul cu ecuații stucturale (SEM)................................................. 26
5. Concluzii: ............................................................................................ 30
Introducere
Proiectul de față își propune analizarea factorilor de influență care contribuie la
modificarea greutății copilului în momentul nașterii. Baza de date provine de Hosmer
and Lemeshow (2000) și este formată din 189 de observații pentru 11 variabile.
Asupra setului inițial de date s-au aplicat diferite transformări iar subsetul pe care s-a
realizat analiza este format din 5 variabile. Transformările pe care le-a suferit baza de
date sunt prezentate în cuprinsul capitolului 2.
În studiul Preventing low birth. A pediatric perpective de către Richard E.

Behrman, M.D. Cleveland, Ohio ca și factori care ar influența greutatea copilului la
naștere au fost selectați în funcție de mai multe tipuri, 5 categorii de factori. În cele 5
categorii se întâlnesc factori precum: Smoking(Fumătoare), Age (Vârsta), Greutatea
înregistrată, Poor obstetric history (Numărul redus de vizite la medic în timpul sarcinii).
Conform studiului, fumatul este unul din cei mai importanti factori în ceea ce
influențează greutatea copilului la naștere. De asemenea, vârsta este invers relaționată
cu greutatea copilului la naștere. Deși este de menționat că o vârstă de 17 ani este mult
prea frageda iar aceasta într-adevar ar putea afecta negativ greutatea copilului la naștere.
Conform acestui studiu, toate cele 5 variabile mentionate, incluzând și o listă mai mare
de alte variabile, infleunțeaza greutatea copilului la naștere.
De asemnea și în studiul Intrauterine growth retardation and premature delivery:
the influence of maternal smoking and psychosocial factors de către M Nordentoft, H C
Lou, D Hansen, J Nim, O Pryds, P Rubin, and R Hemmingsen variabila care presupune
statusul mamei de fumătoare/nefumătoare influențează creșterea bebelușului în perioada
intrauterină.
În studiul Epidemiological Factors Affecting Low Birth Weight de către K.S.
Negi, S.D. Kandpal, M. Kukreti* ca și factori care infleunțează greutatea copilului la
naștere se regăsesc urmatorii: vizitele la medic in funcție de trimestrele de sarcină, si
greutatea înregistrată in perioada sarcinii pe langă alti factori. Spre deosebire de celelalte
studii, acest articol a concluzionat că vârsta mamei nu influențează semnificativ
greutatea bebelușului în momentul nașterii.
Articolul Socio-biological Determinants of Birth Weight de către K. Makhija,
G.V,S. Murthy, S.K. Kapoor and J. Lobo precizează în schimb ca vârsta mamei este un
factor care influențează semnificativ greutatea bebelușului la naștere.
În componența articolului Determinants of low birth weight: methodological
assessment and meta-analysis. sunt precizați următorii factori cu o influență
semnificativă asupra greutății fătului: greutatea mamei la naștere și înainte, statusul de
fumătoare sau nefumătoare al mamei și vârsta mamei.
Prezentarea bazei de date
Baza de date se poate regăsi pe site-

ul ”https://vincentarelbundock.github.io/Rdatasets/datasets.html” sub denumirea de lbw
ce provine de la ”low birth weight” în traducere românească ”greutate mică la naștere”.
Aceasta este formata in 189 de înregistrări a câte 11 variabile. Din baza inițială,
pentru studiul de față, s-au ales 5 variabile. Acestea au fost redenumite și rearanjate după
cum urmează:
• Prima variabilă din setul de date este ”Gcg” – denumirea acesteia provine de la
Greutatea copilului înregistrată la naștere în grame, aceasta fiind o variabilă
numerică va fi aleasă ca și variabilă dependentă iar cele din urmă vor fi alese ca
și variabile independente
• Vârsta – este vârsta mamei la nașterea copilului, de asemenea variabilă numerică
• Fumătoare – este statusul mamei în ceea ce privește fumatul și are două categorii:
0 – mama este nefumătoare; 1 - mama este fumătoare
• ”Gpm” – este greutatea înregistrată la ultima perioada menstruală, este o variabilă
numerică înregistrată în lbs
• ”Nvm” – este numărul de vizite la medic în primul trimestru de sarcină, de
asemenea, variabilă numerică pe care am transformat-o mai apoi intr-o variabilă
categorială cu 3 categorii si anume: prima categorie – până într-o vizită la medic
în primul trimestru de sarcină, între 1 și 3 vizite la medic în primul trimestru de
sarcină și cea de a treia categorie este formată din femeile care au făcut peste 3
vizite la medic în primul trimestru de sarcină.
Pentru a aduce greutatea copilului înregistrată în grame și greutatea înregistrată la

ultima perioadă menstruală înregistrată în lbs, la aceeași unitate de măsură și anume, kg
am modificat înregistrările după cum urmează:
* Greutatea înregistrată în lbs la ultima perioada menstruală am înmulțit-o cu 0,45

* Iar greutatea bebelușului înregistrată în grame am împărțit-o la 1000.
Analiza statistică descriptivă a variabilelor utilizate.
Variabilele studiate pot fi observate atât printr-o analiză numerică cât și printr-o
analiză grafică.
În conținutul acestui capitol vom vizualiza întâi o analiză statistică descriptivă
atât pentru variabilele numerice cât și pentru cele nenumerice urmând ca apoi să
realizăm Testarea normalității distribuțiilor, identificarea valorilor extreme cu ajutorul
box-plot-ului și estimarea coeficienților de corelație Pearson pentru identificarea unei
eventuale coliniarități a variabilelor independente.
Pentru o analiză statistică descriptivă a variabilelor am folosit în primul rând

comanda ”summary”:
Cu ajutorul acestei comenzi am obținut o analiză descriptivă sumară pentru

fiecare variabilă din baza de date.
După cum putem observa, pentru variabila “Greutatea copilului la naștere” putem
observa un minim de 0.709 kg. Este o valoare foarte mica având în vedere greutatea
unui bebeluș la naștere. Prima quartilă se află la 2.41 de kilograme, astfel putem afirma
că 25% din bebelușii luați în calcul pentru acest studiu au până in 2.41kg. Conform
medianei putem afirma că 50% din copiii nou născuți au până in 2.97 de kilograme, iar
75% dintre aceștia au până la 3.47 de kilograme conform celei de-a 3-a quartilă. Media
acestei populații de află la valoarea de 2.94kg iar valoarea cea mai mare întâlnită este
de 4.99de kg.
Variabila vârstă inregistrează un mini de 14 ani, o medie de 23 și un maxim de

45ani. 25% din femeile inregistrate în studiu au până în 19 ani, 50% dintre acestea
înregistrând pana in 23 de ani iar 50% peste.
Din totalul de 189 de participante la studiu, 115 sunt nefumătoare iar 74 afirmă
ca au fumat în trecut sau încă fumează.
Greutatea înregistrată la ultima perioadă menstruală are o valoare minimă de
36 de kilograme, 25 % din femei au înregistrat la ultima perioadă menstruală 49.5kg,
50% din femeile participante la studiu au înregistrat 54.45 de kg la ultima perioadă
menstruală. Media acestora este de 58.42, 75% înregistrând 63 de kilograme la ultima
perioadă menstruală iar valoarea maxima înregistrată a fost 112.5 kg.
Pentru variabila numărul de vizite la medic în primul trimestru de sarcină putem

observa că s-au înregistrat 147 de cazuri în care femeile au făcut cel puțin o vizită la
medic în primul trimestru de sarcină, 37 de femei au făcut între 1 și 3 vizite iar 5 femei
au vizitat medicul în primul trimestru de sarcină de mai mult de 3 ori.
Identificarea outlierilor și eliminarea acestora din bază (sau înlocuirea lor)
Outlierii sunt valorile extreme distanțate de celelalte valori din serie și pot avea
diferite cauze. Aceștia pot fi îndepărtați sau păstrați în funcție de cauza producerii
acestora. Pentru identificarea acestora s-a folosit graficul boxplot pentru variabilele
numerice.
Pentru variabila ”Greutatea copilului înregistrată în kilograme” s-a obținut

următorul boxplot:
Conform graficului putem observa că acesta înregistrează o valoare observată ca

și outlier. Am realizat un summary pentru această variabilă în urma căruia am aflat că
0,709 este cea mai mică greutate înregistrată și este tratată ca outlier.
Aceasta nu este o măsurătoare invalidă și nici o eroare de editare a datelor, de
aceea am ales să modific acea valoare cu 1, deoarece este foarte apropiată și nu va mai
fi considerată ca outlier. Pentru aceasta am folosit următoarea linie de cod:
În urma acesteia, am realizat din nou boxplot pentru această variabilă:
Astfel putem observa că variabila nu mai înregistrează valori extreme.
Pentru variabila Vârsta mamei la nașterea copilului s-a obținut următorul

boxplot:
Deoarece și aceasta înregistrează o valoare considerată extremă de 45 de ani, în
locul eliminării acestei observații am adus vârsta la maxim 35 de ani.
În urma transformării variabilei, nu se mai înregistrează valori extreme.
Pentru variabila Greutatea înregistrată la ultima perioada menstruală s-a obținut

următorul boxplot:
Deoarece se poate observa că valorile mai mari de 83 de kilograme au fost tratate

ca și valori extreme, am ales să modific ca toate valorile mai mari de 83 de kilograme
sa fie transformate in 83. În urma acestei modificări am obținut următorul boxplot:
În urma modificării, putem observa că variabila nu mai înregistrează valori extreme.
1. Regresie liniară multiplă

Pentru analiza de regresie liniară multiplă am ales ca variabilă dependentă Greutatea
nou-născuților înregistrată în grame iar ca variabilă independentă am ales Greutatea
înregistrată la ultima perioadă menstruală și vârsta respondentei în momentul nașterii și
am obținut următorul rezultat:
Modelul estimat este: Gcg=2.20+ 0.011*Gpm + 0.004*Vârsta
Greutatea nou născutului ar fi în medie egală cu 2.20 de kilograme atunci când

celelalte variabile ar fi egale cu 0.
Dacă greutatea înregistrată la ultima perioadă menstruală ar crește cu 1 kilogram, iar

vârsta mamei ar rămâne constantă, greutatea înregistrată în kilograme a nou născutului
ar crește în medie cu 0.011 kilograme.
Dacă vârsta mamei ar crește cu un an iar greutatea înregistrată la ultima perioadă

menstruală ar rămâne constantă, atunci greutatea nou născutului ar crește în medie cu
0.004 kilograme.
Estimarea prin interval de încredere a parametrilor modelului:
Cu o probabilitate de 95% putem afirma că panta dreptei de regresie, și anume

Greutatea înregistrată la ultima perioadă menstruală aparține intervalului: [0,002 ;
0,020].
De asemenea, cu o probabilitate de 95% putem afirma că variabila Vârsta mamei

la momentul nașterii bebelușului aparține intervalului [-0,016 ; 0,02].
Testarea parametrilor modelului de regresie
Ipoteze:
H0: β0=0 H0: β1=0 H0: β2=0

H1: β0¹0 H1: β1¹0 H1: β2¹0
Constanta modelului împreună cu variabila Greutatea înregistrată la ultima perioadă

menstruală au valorile asociate lui p-value mai mici decât riscul asumat de 5%, astfel
putem afirma cu o probabilitate de 95% că acestea sunt semnificative.
Valoarea asociată lui p-value pentru variabila vârsta respondentei la momentul

nașterii copilului este egală cu 0.69 > 0.05. În urma acesteia, putem afirma cu o
probabilitate de 95% că acest parametru nu este semnificativ.
În ciudat faptului că cele mai multe articole precizează vârsta ca fiind un factor
important în ceea ce priveste greutatea copilului la naștere, cazul de față se regăseste
mai precis cu articolul Epidemiological Factors Affecting Low Birth Weight care
precizează că vârsta nu are o influență semnificativă.
Estimarea și interpretarea indicatorilor de corelație
Pentru realizarea estimării coeficienților de corelație Pearson am realizat analiza

de corelație cu următoarea linie de cod:
Variabila 3 și 5, mai exact, statusul mamei (fumătoare sau nefumătoare) și
numărul de vizite la medic în primul trimestru de sarcină au fost eliminate deoarece sunt
variabile categoriale.
În urma acestei analize putem spune că:
• Există o corelație pozitiva de intensitate foarte mică între greutatea nou

născutului și vârsta mamei în momentul nașterii acestuia de 0,06.
• Există o corelație pozitivă de intensitate scăzută și între Greutatea nou născutului
și Greutatea mamei înregistrată la ultima perioadă menstruală (r= 0,18)
• Între Greutatea înregistrată la ultima perioadă menstruală si vârsta mamei în
momentul nașterii copilului există o corelație pozitivă de o intensitate redusă
(r=0,19)
• Contrar unor studii prezentate anterior, nu există o legătură puternică între
greutatea copilului și variabilele alese pentru testare
Testarea indicatorilor de corelație
Pentru a testa coeficienții de corelație s-a folosit testul student cu coeficientul de

corelație Pearson, astfel am obținut următoarele rezultate:
Pentru variabilele Greutatea nou-născutului înregistrată în kilograme și

Greutatea înregistrată la ultima perioadă menstruală s-a obținut următorul rezultat:
H0: r=0 – între variabile nu există o legătură semnificativă
H1: r¹0 – între variabile există o legătură semnificativă statistic
Valoarea înregistrată a lui p-value este de 0.009. Aceasta este mai mică decât riscul
asumat de 0.05, astfel, cu o probabilitate de 95% putem afirma că între cele două
variabile există o legătură semnificativa statistic.
Pentru variabilele Greutatea nou născutului înregistrată în kilograme și Vârsta

respondentei în momentul în care aceasta a dat naștere s-a obținut următorul rezultat:
Conform valorii înregistrate de către p-value(0.37 > 0.05 - riscul asumat) putem
afirma că între Greutatea copilului la naștere și Vârsta respondentei în momentul în
care aceasta a dat naștere nu există o legătură semnificativă statistic, cu un risc de 5%.
Pentru variabilele Greutatea înregistrată la ultima perioadă menstruală si Vârsta

respondentei în momentul în care aceasta a dat naștere am obținut următorul rezultat:
Cu o probablitate de 95% putem afirma că între cele 2 variabile există o legatură

semnificativă statistic conform valorii înregistrate de p-value (0.005 < 0.05).
Testarea ipotezelor specifice modelului de regresie
Pentru validarea modelului de regresie este necesar să se verifice dacă sunt îndeplinite
ipotezele asupra erorilor.
Pentru testarea ipotezelor specifice modelului de regresie am estimat variabila reziduală a
modelului de regresie pe care am salvat-o sub denumirea de resid.
Ipoteza mediei erorilor este egală cu 0
1. Formularea ipotezelor:
H0 : M (εi) = 0 (Media erorilor este egală cu zero)
H1 : M (εi) ≠ 0 (Media erorilor este diferită de zero)
Pentru testarea acestei ipoteze am folosit testul One Sample t test iar acestea au fost
rezultatele:
2. Decizia statistică
Nivelul de semnificație al testului fiind Sig=1, acesta fiind mai mare decât valoarea
riscului asumat în valoare de 0,05, ipoteza nulă nu se respinge. Cu o probabilitate de 95% putem
afirma că media erorilor este egală cu zero.
Testarea homoscedasticității
Pentru testarea homoscedasticității am folosit testul Breusch Pagan în urma căruia am
obținut următoarele rezultate
H0: V(ei ) =s2 - Erorile sunt homoscedastice
H1: V(ei ) ≠ s2 - Erorile sunt heteroscedastic
După cumputem observa valoarea lui p-value din tabel este mai mică decât riscul
asumat ceea ce înseamnă că erorile sunt heteroscedastice și vor trebui corectate.
Ipoteza de normalitate a erorilor
H0: 𝜀𝑖 ~𝑁( 0, 𝜎2) (erorile urmează o lege de repartiţie normală sau erorile sunt normal
distribuite)
H1: 𝜀𝑖 ≠ 𝑁(0, 𝜎2) (erorile nu urmează o lege normală sau erorile nu sunt normal
distribuite)
Atât în urma histogramei cât și în urma Q-Q plot-ului putem observa ca erorile
urmează o lege normală de distribuție dar de asemenea vom testa cu ajutorul testului
Jarque Bera:
Deoarece nivelul de semnificație p-value = 0,4326 este mai mare decât α = 0,05,
putem afirma cu o probabilitate de 95% că nu se respinge ipoteza de nul, așadar erorile
sunt normal distribuite. Acest lucru poate fi observat și cu ajutorul diagramei P-P Plot,
deoarece, erorile variază după o lege normală.
Ipoteza de necorelare a erorilor

Am testat această ipoteză atât cu ajutorul testului Runs. Acestea consideră că
valorile variabilei eroare pot fi privite ca seturi de valori care se succed în funcție de
semnul lor.
H0: 𝑐𝑜𝑣 (𝜀i , 𝜀j) = 0 (erorile sunt necorelate sau independente)

H1: 𝑐𝑜𝑣 (𝜀i , 𝜀j) ≠ 0 (erorile sunt corelate sau dependente)
În urma testului Runs putem observa valoarea lui Prob = 0,145 > α = 0,05. Cu un risc de
5% putem afirma că nu se respinge ipoteza de nul, astfel, erorile nu sunt corelate.
Testarea coliniarității între variabilele independente

Această ipoteză impune condiția ca între variabilele independente să nu existe o legătură de
tip liniar. Testarea necoliniarității se realizează cu ajutorul indicatorilor statistici VIF (Variance
Inflation Factor) și Tolerance. Dacă VIF are o valoare mai mare ca 10, este prezent fenomenul
de coliniaritate, iar TOL se determină ca inversul lui VIF.
În urma analizei în R am obținut următoarele rezultate:
În urma tabelului, putem observa valorile mici ale indicatorului VIF pentru variabilele
introduse în model (1,041;1,04153) ceea ce ne indică lipsa coliniarității.
În urma testării tuturor ipotezelor cu privire la erori putem trage concluzia că: media
erorilor este egală cu zero, ipoteza cu privire la homoscedasticitate nu este îndeplinită și va
trebui corectată, erorile sunt normal distribuite, acestea nu sunt corelate iar în cazul variabilelor
independente ne este indicată lipsa coliniarității.
2. Modelul PATH
În cadrul acestui capitol am construit analiza PATH asupra aceleiași baze de date
folosită anterior pentru estimarea modelului de regresie multiplă.
Pentru a realiza modelul Path am folosit ca variabilă dependentă variabila Gcg –

„Greutatea copilului în grame”, iar ca variabile independente considerăm age – „vârsta”
exprimată în ani și Gpm – „greutatea înregistrată la ultima perioadă menstruală”.
Am folosit programul Lisrel în crearea acestui model, iar prima etapa este aceea de a
importa baza de date → File/ Import Data. Apoi, pentru a asigura rularea analizelor am definit
variabilele ca și variabile continue.
Cu ajutorul opțiunii Graphs → vom realiza două grafice de tip Scatter plot între variabila
dependentă și fiecare variabilă independentă.
Prima imagine ne indică legătura dintre variabila dependentă și variabila independentă,
Greutatea înregistrată la ultima perioadă menstruală. Între cele 2 există o legătura de directă de
intensitate mica (r= 0.188).
Cel de-al doilea Scatter plot este realizat asupra variabile independente împreună cu
variabila Vârstă din care putem observa o legătura directă dar de intensitate mică (r=0.065)
După observarea celor două scatterplot-uri am construit un fișier de tip prelis cu terminația.psf
– ce va conține baza de date. În continuare, am realizat matricea de covarianță ce va fi necesară
în crearea modelului Path. Aceasta se obține utilizând următorii pași: Statistics > Output >
Covariances > Save to file în urma căreia am obținut următoarele rezultate:
Din prima parte a outputului putem observa că pentru variabilele Fumătoare si Nvm
(numarul de vizite la medic în ultimul trimestru nu s-au calculat deoarece sunt variabile
categoriale).
Pentru a genera modelul propriu zis am parcurs următorii pași:
După realizarea pașilor prezentați, am folosit sintaxa SIMPLIS pentru a putea genera
valorile din diagrama Path.
Aceasta este Diagrama Path – Estimates ce conține informațiile cu privire la coeficienții
modelulului de regresie iar următoarea imagine conține valorile calculate testului T-student:
Ecuația modelului de regresie: 0.02 *Vârsta + 0.18 * Gpm.

Parametrii modelului de regresie = 𝛽1, 𝛽2
În cadrul acestui output regăsim informații cu privire la abaterea standard asociată
parametrilor (imediat pe rândul următor sub ecuația modelului), dar și valoarea calculată a
testului t-Student(pe cel de-al 3-lea rând sub ecuația modelului.
În urma realizării acestui model observăm că obținem un model saturat, ceea ce nu este
de dorit.
Un model saturat este un model în care există cât mai mulți parametri estimați ca puncte
de date ceea ce va duce la o potrivire perfectă, dar va fi de mică utilitate statistică, deoarece nu
ne mai rămân date pentru a estima și gradele de libertate. Modelul poate fi îmbunătățit prin
utilizarea sau adăugarea altei/altor variabile.
3. Analiza factorială confirmatorie

În cadrul acestui capitol am construit o Analiză Factorială Confirmatorie, folosind baza
de date SAQ (satisfaction questionnaire) ce conține un chestionar legat de gradul de anxietate
față de SPSS al studenților. Baza conține 2571 de înregistrări, sursa acestei baze fiind Andy
Field’s Datasets ce poate fi regăsit pe acest site https://edge.sagepub.com/field5e/student-
resources/datasets.
Chestionarul cuprinde 23 de itemi toți aceștia având ca variantă de răspuns o scală
ordinală cu următoarele variante:
Din cei 23 de itemi am selectat doar primii10 pentru a avea posibilitate rulării analizelor în
programul LISREL cu licența de student.
În imaginea următoare putem observa cei 10 itemi ce vor fi folosiți în următoarele analize:
1. Statistica mă face să plâng.
2. Prietenii mei mă vor considera prost din cauză ca nu știu să folosesc SPSS
3. Deviația standard mă încântă
4. Am visat ca Pearson mă atacă cu coeficienți de corelație.
5. Nu înțeleg statistica.
6. Am o experiență scăzută în ceea ce privește calculatorul.
7. Toate calculatoarele mă urăsc.
8. Nu am fost niciodată bun la matematică.
9. Prietenii mei sunt mai buni decât mine la statistică.
10. Computerele sunt folositoare doar pentru jocurile video.
Pentru realizarea analizelor următoare baza de date a fost in prealabil verificată de erori de
scriere, outlieri, valori lipsă toate acestea fiind tratate în același mod ca în cazul primei baze de
date specificate în acest proiect.
Analiza factorială presupune determinarea seturilor de variabile observate ce împărtășesc

caracteristici comune care ar putea defini factori teoretici sau variabile latente. Analiza
factorilor presupune că unii factori cu un număr mai mic decât numărul de variabile observate
sunt responsabili pentru variația-covarianță partajată dintre variabilele observate.
Pentru realizarea analizei s-a importat noua bază de date în programul Lisrel astfel: File >
Import Data > Files of type: SPSS (*.sav) deoarece această bază de date este salvată in format
*.sav
După importul baze de date s-a verificat tipul variabilelor si s-au setat ca si continue.
Pentru crearea diagramei Path s-au realizat aceeași pași ca cei exemplificați anterior
dar în căsuța Labels s-au adăugat 3 variabile latente astfel:
1. Friends opinion – opinia prietenilor în legătură cu mine

2. Relationship with statistics - părerea/relația mea în legătură cu statistica
3. Computer knowledge – cunoștințele mele generale în legătură cu calculatorul
Variabila latentă 1 ”Friends opinion”- cuantifică itemii ce se referă la opinia
prietenilor despre persoana în cauză. Aceasta este formată din itemii 2 și 9
• Prietenii mei mă vor considera prost din cauză ca nu știu ca folosesc SPSS”
• Prietenii mei sunt mai buni decât mine la statistică.
Cea dea doua variabilă latentă este ”Relationship with statistics” ce este formată
din itemii 1, 3, 4, 5:
• Statistica mă face să plâng.
• Deviația standard mă încântă
• Am visat ca Pearson mă atacă cu coeficienți de corelație.
• Nu înțeleg statistica.
Iar cea de-a 3 variabilă latentă se referă la cunoștintele pe care le are respondentul în
legătură cu calculatorul, ”Computer knowledge” și va fi formată din itemii 6, 7 și 10:
• Am o experiență scăzută în ceea ce privește calculatorul.
• Toate calculatoarele mă urăsc.
• Computerele sunt folositoare doar pentru jocurile video.
Diagrama Path– Analiza Factorială Confirmatorie – valorile estimate ale modelului
Model Specification
Ecuații:
Q01= Relationship with statistics + err_Q01
Q02= Friends opinion + err_Q02
Q06= Computer knowledge + err_Q06
Q09= Friends opinion + err_Q09
Prezentarea rezultatelor:
Model Identification
Numărul parametrilor liberi este următorul:
• 9 factori de încărcare ;
• 3 corelații între variabilele latente;
• 9 varianțe ale erorii de măsurare;
• 0 covarianțe între erorile de măsurare;
Astfel ca pentru modelul generat avem 21 parametri liberi care trebuie estimați.
Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu: [p(p+1)]/2
unde p este numărul de variabile observate → [9 ∗ (9 + 3)]/2 = 54
În concluzie: 21 < 54 → modelul este supra-identificat.
Putem observa aici matricile de covarianță:
Informații cu privire la ecuațiile obținute:

Interpretare:
Q07 = 0.79*Computer knowledge , Errorvar.= 0.38 , R² = 0.62
(0.021) (0.024)
36.95 15.57
0,79 → este valoarea parametrul modelului (𝛽1)
0.021 → este abaterea standard asociată parametrul modelului (std. dev.)
36.95 → valoarea calculată a statisticii test
Cu un R² = 0.71 putem afirma cu o probabilitate de 95% că 71% din itemul ”toate

calculatoarele mă urăsc” descrie factorul Computer knowledge, restul până la 100% fiind
explicat prin influența altor factori.
Toți parametrii sunt semnificativi statistic, considerând un risc de 5 % ( Regula de
decizie |𝑡𝑐𝑎𝑙𝑐| > (𝑡.𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 1,960) → 𝑠𝑒 𝑟𝑒𝑠𝑝𝑖𝑛𝑔𝑒 𝑖𝑝𝑜𝑡𝑒𝑧𝑎 𝑛𝑢𝑙ă).
Pentru testarea modelului vom folosi Indicatorii fit prezentați în figura precedentă
Valoarea lui NPC este 369.07, nu este în aproprierea valorii zero ceea ce ne indică că
potrivirea nu este cea mai bună.
RMSEA are valoarea de 0.077 iar P-value =0.00 mai mic ca 0.05.
Indexul Godness of Fit (GFI = 0.97) modelul este potrivit datelor
NFI – 0.94 limita este de 0.90 ceea ce înseamnă ca este bun
Modelul îndeplinește majoritatea indicatorilor importanți dar desigur, și acesta ar putea fi

îmbunătățit.
4. Modelul cu ecuații stucturale (SEM)

În cadrul acestui capitol vom construi un Model cu Ecuații Structurale SEM, folosind
aceeași bază de date ca pentru modelul anterior.
Modelarea ecuațiilor structurale este o tehnică de analiză statistică multivariată ce
este utilizată pentru analiza relațiilor structurale dintre variabile. Această tehnică este
combinația dintre analiza factorilor și analiza regresiei multiple și este utilizată pentru a
analiza relația structurală dintre variabilele măsurate și variabile latente.
• Variabilele latente, pot fi atât independente cât și dependente;

• Pe lângă erorile de măsurare avem și erorile de predicție;
Scala răspunsurilor este următoarea:

1 = Acord total
2 = Acord parțial
3 = Neutru
4 = Dezacord parțial
5 = Dezacord total
Cele 3 variabile latente sunt:

2. Relationship with statistics - părerea/relația mea în legătură cu statistic
Variabila latentă 1 ”Friends opinion”- cuantifică itemii ce se referă la opinia prietenilor
despre persoana în cauză. Aceasta este formată din itemii 2 și 9
• Prietenii mei mă vor considera prost din cauză ca nu știu ca folosesc SPSS”
• Prietenii mei sunt mai buni decât mine la statistică.
Cea dea doua variabilă latentă este ”Relationship with statistics” ce este formată din
itemii 1, 3, 4, 5:
• Statistica mă face să plâng.
• Deviația standard mă încântă
• Am visat ca Pearson mă atacă cu coeficienți de corelație.
• Nu înțeleg statistica.
Iar cea de-a 3 variabilă latentă se referă la cunoștintele pe care le are respondentul în legătură
cu calculatorul, ”Computer knowledge” și va fi formată din itemii 6, 7 și 10:
• Am o experiență scăzută în ceea ce privește calculatorul.
• Toate calculatoarele mă urăsc.
• Computerele sunt folositoare doar pentru jocurile video.
Pașii pentru realizarea Modelului de Ecuații Structurale în programul Lisrel sunt:
1. Crearea fișierului .psf.

File > Import File > .SAV file → importul datelor s-a realizat utilizând formatul de date oferit
de spss.
2. Crearea matricei de covarianță

Statistics > Output Option > Covariace matrix → crearea și salvarea matricei de
covariantă.
3. Crearea scriptului
Am construit un scrip în care am mentionat variabilele observate (9 la număr), după
care am precizat variabilele latente (Friends opinion, Relationship with statistics, Computer
knowledge).
Am specificat apoi relațiile dintre variabilele observate și factori. Computer knowledge
consider ca este variabilă independentă de asemenea și variabila latentă Relationship with
statistics poate fi variabilă independentă în timp ce Friends opinion consider ca este
dependentă de celelalte două variabile latente deoarece opinia prietenilor fată de persoana in
cauză în chestionarul de fată depinde atât de către cunoștințele generale în ale calculatorului
cât și de relația părerea/respondentului față de statistică.
Astfel, avem următorul script:
4.Rularea acestuia a condus la următoarea diagramă Path:
Model Identification
• Modelul are 20 de parametri estimați:
• 9 factori de încărcare (pentru fiecare variabilă observată)
• 9 varianțe ale erorilor de măsurare (pentru variabilele observate)
• 0 legături de corelație între erorile variabilelor observate (săgețile curbate)
• 2 coeficienți ai ecuației structurale (legăturile dintre variabilele latente)
Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu:
[p(p+1)]/2, unde p este numărul de variabile observate → [9 ∗ (9 + 1)]/2 = 45
În concluzie: 20 < 45 → modelul este supra-identificat.
Grade de libertate df→ 45- 20 = 25 grade de libertate.
Informații cu privire la ecuațiile obținute:

Partea de măsurare a modelului:
Interpretare: Q07 = 0.87*Rel. calc, Errorvar.= 0.46 , R² = 0.62
62% din variația variabilei Q07 (Toate calculatoarele mă urăsc) este explicată prin variația
factorului Relația cu calculatorul.
Restul variației până la 100% se datoarează altor factori neincluși în model.
Partea structurală a modelului:

În urma specificarii legăturilor dintre variabilele latente/factori obținem ecuațiile structurale
de mai jos.
• Chi Square = 629.87 p-value = 0.0
• RMSEA = 0,097; p-value < 0.05
• GFI = 0.95 modelul este potrivit datelor
• AGFI = 0.91 > 0.9
• NFI = 0.92 este bun – este >= decât 0,90
Putem concluziona că acest model respectă marea majoritate din indicatorii importanți
menționați. Desigur, modelul ar putea fi îmbunătățit prin utilizarea sau adaugarea altei/altor
variabile.
5. Concluzii:
* între toate variabilele există o corelație pozitivă dar este de intensitate mică
* conform analizei de corelație, între variabile există legături semnificative statistic
* pentru modelul de regresie liniară multiplă parametrul β2 nu este semnificativ statistic dar
modelul reiese semnificativ statistic
* Contrar celor mai multe studii, în cazul de față vârsta respondentei nu influențează greutatea
bebelușului
* Modelul îndeplinește ipotezele specifice modelului de regresie mai puțin Ipoteza de
homoscedasticitate care va trebui corectată
* Conform modelului de regresie multiplu, greutatea bebelușului este influențată semnificativ

doar de către greutatea înregistrată la ultima perioada menstruală, acest lucru fiind specificat si
în unele articole menționate.
* Cu ajutorul primului Scatterplot realizat în analiza Path putem observa legătura dintre
variabila dependentă și variabila independentă, Greutatea înregistrată la ultima perioadă
menstruală. Între cele 2 existând o legătura directă de intensitate mica (r= 0.188).
* Ecuația modelului de regresie: 0.02 *Vârsta + 0.18 * Gpm, iar parametrii modelului de
regresie sunt 𝛽1, 𝛽2 în cazul modelului Path
* În cazul modelului Path se poate observa obținerea un model saturat, ceea ce nu este de dorit,
acesta ar putea fi îmbunătățit prin adăugarea altor variabile.
* În cadrul Analizei Factoriale Confirmatorie s-a folosit baza de date SAQ (satisfaction
questionnaire) ce conține un chestionar legat de gradul de anxietate față de SPSS al studenților.
* S-au construit 3 variabile latente:

2. Relationship with statistics - părerea/relația mea în legătură cu statistica
* Astfel ca pentru modelul Analizei Factoriale am regăsit 21 parametri liberi ce trebuie estimați.
Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu
54 ceea ce a concluzionat că modelul este supra-identificat.
* Cu un R² = 0.71 putem afirma cu o probabilitate de 95% că 71% din itemul ”toate

calculatoarele mă urăsc” descrie factorul Computer knowledge, restul până la 100% fiind
explicat prin influența altor factori.
* Toți parametrii au fost semnificativi statistic în cadrul Analizei Factoriale Confirmatorie,

considerând un risc de 5 % ( Regula de decizie |𝑡𝑐𝑎𝑙𝑐| > (𝑡.𝑡𝑒𝑜𝑟𝑒𝑡𝑖𝑐 = 1,960) → 𝑠𝑒 𝑟𝑒𝑠𝑝𝑖𝑛𝑔𝑒
𝑖𝑝𝑜𝑡𝑒𝑧𝑎 𝑛𝑢𝑙ă).
* Modelul cu Ecuații Structurale SEM, a fost realizat cu ajutorul aceleiași baze de date ca
pentru modelul anterior.
* Variabilele latente au rămas aceleași ca pentru Analiza Factorială, însă în cadrul modelului
cu ecuații structurale am considerat Computer knowledge ca variabilă independentă împreună
cu variabila latentă Relationship with statistics, în timp ce Friends opinion am considerat că
este dependentă de celelalte două variabile latente deoarece opinia prietenilor față de persoana
în cauză, în chestionarul de fată, depinde atât de către cunoștințele generale în ale calculatorului
cât și de relația părerea/respondentului față de statistică.
* Numărul valorilor distincte din matricea S (matricea covarianței) este egal cu 45, astfel 20 <
45 semnificând un model supra-identificat. Grade de libertate df→ 45- 20 = 25
* 62% din variația variabilei Q07 (Toate calculatoarele mă urăsc) este explicată prin variația
factorului Relația cu calculatorul.
Restul variației până la 100% se datoarează altor factori neincluși în model.
* De asemenea și modelul cu ecuații structurale respectă marea majoritate din indicatorii

importanți menționați dar, ar putea fi îmbunătățit prin utilizarea sau adaugarea altei/altor
variabile.

Proiect - SEM

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Proiect - SEM

Încărcat de

Drepturi de autor:

Formate disponibile

Modele de ecuații structurale

Student: Luca Eliza Nicoleta

În studiul Preventing low birth. A pediatric perpective de către Richard E.

Baza de date se poate regăsi pe site-

Pentru a aduce greutatea copilului înregistrată în grame și greutatea înregistrată la

* Greutatea înregistrată în lbs la ultima perioada menstruală am înmulțit-o cu 0,45

Analiza statistică descriptivă a variabilelor utilizate.

Pentru o analiză statistică descriptivă a variabilelor am folosit în primul rând

Cu ajutorul acestei comenzi am obținut o analiză descriptivă sumară pentru

Variabila vârstă inregistrează un mini de 14 ani, o medie de 23 și un maxim de

Pentru variabila numărul de vizite la medic în primul trimestru de sarcină putem

Identificarea outlierilor și eliminarea acestora din bază (sau înlocuirea lor)

Pentru variabila ”Greutatea copilului înregistrată în kilograme” s-a obținut

Conform graficului putem observa că acesta înregistrează o valoare observată ca

În urma acesteia, am realizat din nou boxplot pentru această variabilă:

Astfel putem observa că variabila nu mai înregistrează valori extreme.

Pentru variabila Vârsta mamei la nașterea copilului s-a obținut următorul

În urma transformării variabilei, nu se mai înregistrează valori extreme.

Pentru variabila Greutatea înregistrată la ultima perioada menstruală s-a obținut

Deoarece se poate observa că valorile mai mari de 83 de kilograme au fost tratate

1. Regresie liniară multiplă

Modelul estimat este: Gcg=2.20+ 0.011*Gpm + 0.004*Vârsta

Greutatea nou născutului ar fi în medie egală cu 2.20 de kilograme atunci când

Dacă greutatea înregistrată la ultima perioadă menstruală ar crește cu 1 kilogram, iar

Dacă vârsta mamei ar crește cu un an iar greutatea înregistrată la ultima perioadă

Cu o probabilitate de 95% putem afirma că panta dreptei de regresie, și anume

De asemenea, cu o probabilitate de 95% putem afirma că variabila Vârsta mamei

Testarea parametrilor modelului de regresie

H0: β0=0 H0: β1=0 H0: β2=0

Constanta modelului împreună cu variabila Greutatea înregistrată la ultima perioadă

Valoarea asociată lui p-value pentru variabila vârsta respondentei la momentul

Estimarea și interpretarea indicatorilor de corelație

Pentru realizarea estimării coeficienților de corelație Pearson am realizat analiza

În urma acestei analize putem spune că:

• Există o corelație pozitiva de intensitate foarte mică între greutatea nou

Testarea indicatorilor de corelație

Pentru a testa coeficienții de corelație s-a folosit testul student cu coeficientul de

Pentru variabilele Greutatea nou-născutului înregistrată în kilograme și

Pentru variabilele Greutatea nou născutului înregistrată în kilograme și Vârsta

Pentru variabilele Greutatea înregistrată la ultima perioadă menstruală si Vârsta

Cu o probablitate de 95% putem afirma că între cele 2 variabile există o legatură

Ipoteza mediei erorilor este egală cu 0

Ipoteza de normalitate a erorilor

Ipoteza de necorelare a erorilor

H0: 𝑐𝑜𝑣 (𝜀i , 𝜀j) = 0 (erorile sunt necorelate sau independente)

Testarea coliniarității între variabilele independente

Pentru a realiza modelul Path am folosit ca variabilă dependentă variabila Gcg –

Ecuația modelului de regresie: 0.02 *Vârsta + 0.18 * Gpm.

3. Analiza factorială confirmatorie

Analiza factorială presupune determinarea seturilor de variabile observate ce împărtășesc

1. Friends opinion – opinia prietenilor în legătură cu mine

Putem observa aici matricile de covarianță:

Informații cu privire la ecuațiile obținute:

Cu un R² = 0.71 putem afirma cu o probabilitate de 95% că 71% din itemul ”toate

Modelul îndeplinește majoritatea indicatorilor importanți dar desigur, și acesta ar putea fi

4. Modelul cu ecuații stucturale (SEM)

• Variabilele latente, pot fi atât independente cât și dependente;

Scala răspunsurilor este următoarea:

Cele 3 variabile latente sunt:

Pașii pentru realizarea Modelului de Ecuații Structurale în programul Lisrel sunt:

1. Crearea fișierului .psf.

2. Crearea matricei de covarianță

Informații cu privire la ecuațiile obținute:

Modelul estimat este: Gcg=2.20+ 0.011Gpm + 0.004Vârsta

Ecuația modelului de regresie: 0.02 Vârsta + 0.18 Gpm.