Sunteți pe pagina 1din 11

ANALIZA DATELOR

Analiza numarului de absolventi de studii tertiare

Student: Leolea Darie-George


Seria B
Grupa 1061

Profesor Coordonator: Monica Maer Matei

1
Am notat astfel numarul absolventilor pentru fiecare domeniu de studiu(mii).

I1-Arte si umanistica
I2-Stiinte sociale, jurnalism, administrarea afacerilor si drept.
I3- Matematica, statistica; tehnologia informatiilor si comunicatiilor
I4-Inginerie, fabricatie si constructii
I5- Sanatate
I6- Servicii
I7-Agricultura si silvicultura

2
Analiza corespondentelor

Analiza corespondentelor este metoda de reducere a dimensionalitatii, fiind


considerata echivalentul analizei componentelor principale pentru variabile
categoriale.

 corespondetelor se bazeaza pe un tabel de contingenta si nu pe o matrice de
Analiza

corelatie.

In urma analizei corespondentelor vor fi redefinite dimensiunile spatiuluiastfel incat
dimensiunile principale vor prelua un procent cat mai mare din varianta totala.

Cele doua variabile alese pentru care am aplicat analiza de corespondenta sunt:

I1-Numarul absolventilor pentru domeniul de studiu “Arte si umanistica”


I3- Numarul absolventilor pentru domeniul de studiu “Matematica,
statistica,tehnologia informatiilor si comunicatiilor”
.

Am ales I1 si I3, deoarece , dupa cum se poate vedea in tabelul de mai sus, au format
corelatii puternice si directe.

De asemenea, am realizat un data frame compus din cele doua variabile, la care am
adaugat ulterior doua variabile categoriale(p$I1c, p$I3c)

3
Am generat variabilele I1 si I3, la care m-am folosit de distributiile normale(qnorm) pentru
construirea acestora. M-am bazat pe o probabilitate generata aleatoriu, de medie si de abatere
standard a variabilelor initiale.

Pentru cele n= 30 de valori si in urma construirii variabilelor I1 dintr-o distributie


normala de medie 18.15 si abatere standard 28.84, iar pentru I3 dintr-o distributie
normala de medie 17.56 si abatere standard 29.17, s-a obtinut un procent 3.02 si 25.45,
respectiv, 4.72 si 29.59.

4
Am atasat variabilele categoriale la data frame-ul construit anterior. Fiecare variabila
categoriala am initializat-o cu 0, obtinand pe fiecare pozitie pentru cele 30 de valori, 0.

Am adaugat pentru fiecare coloana conditiile:

-daca I1 contine valori mai mici sau egale decat 3.02, pentru fiecare variabila categoriala
ce indeplineste aceasta conditie, i se aplica denumirea “LOW3”.
- daca I1 contine valori mai mari decat 3.02 si mai mici sau egale decat 25.45, pentru fiecare
variabila categoriala ce indeplineste aceasta conditie, i se aplica denumirea “MEDIU3”.
- daca I1 contine valori mai mari decat 25.45, pentru fiecare variabila categoriala
ce indeplineste aceasta conditie, i se aplica denumirea “HIGH3”.

-daca I3 contine valori mai mici sau egale decat 4.72, pentru fiecare variabila categoriala ce
indeplineste aceasta conditie, i se aplica denumirea “LOW6”.
- daca I3 contine valori mai mari decat 4.72 si mai mici sau egale decat 29.59, pentru fiecare
variabila categoriala ce indeplineste aceasta conditie, i se aplica denumirea “MEDIU6”.
- daca I3 contine valori mai mari decat 79.71, pentru fiecare variabila categoriala
ce indeplineste aceasta conditie, i se aplica denumirea “HIGH6”.

5
In urma aplicarii conditiilor, s-a obtinut urmatorul tabel:

6
Variabila categoriala I1 contine 6 tari pentru conditia High, 11 pentru Low, iar pentru
Medium, 13 tari.

Variabila categoriala I3 contine 6 tari pentru conditia High, 7 pentru Low, iar pentru
Medium contine 17 tari.

Analiza corespondentelor pentru variabilele I1c si Ic

Pentru a putea realiza analiza corespondentelor, este nevoie de tabelul de contingenta, deoarece
aceasta analiza nu se bazeaza pe matricea de corelatie.

Din tabelul de contingenta reies urmatoarele informatii: 6 tari sunt caracterizate de high1 si de
high6, low1 si low 3 caracterizeaza 7 tari, medium1 si low3 caracterizeaza 4 tari, in timp ce
13 dintre tari sunt caracterizate de medium1 si medium3.

7
Analiza testului chi

Statistica chi patrat reprezinta statistica pe baza careia se testeaza semnificatia


asocierii dintre categoriile reprezentate pe coloane si cele reprezentate pe linii.

Din analiza testului chi patrat a rezultat o valoare mica a lui p , ceea ce inseamna ca exista
o asociere foarte puternica intre I1c si I3c, rezultata din faptul ca cei din categoriile
respective sunt pe o treapta inalta.

Analiza corespondentelor cu functia CA

Scopul analizei corespondentelor este de a redefini dimensiunile spatiului Euclidian


multidimensional, astfel incat dimensiunile principale sa preia un procent cat mai mare
posibil din varianta totala, denumita inertie.

Aceasta inertie este masura variatiei obtinuta pe baza tabelului de contingenta, prin
intermediul valorii statistice chi patrat si este descompunsa pe mai multe dimensiuni. Inertia
totala este determinata de existenta diferentelor semnificative intre categoriile variabilei
reprezentate pe linii in ceea ce priveste variabila reprezentata pe coloane.

Prima variabila explica in valoare de 67.3%, iar cea de-a doua in proportie de 32.7%,
ceea ce inseamna ca primul indicator, al numarului absolventilor pentru domeniul de studiu
“Arte si umanistica”, extrage datele intr-o masura mai mare fata de cel de-al doilea, al
numarului absolventilor pentru domeniul de studiu “Matematica, statistica,tehnologia
informatiilor si comunicatiilor”

Inertia totala rezultata este de 1,48 .

Indiciele calitatii are valoarea 100, adica cea maxima.

Contributiile la inertie au valorile :


HIGH1: 538, LOW1 271, MEDIUM3 191;
HIGH3: 538, LOW3 239, MEDIUM6 223.

Coeficientul k reprezinta coordonatele pe harta. Pentru I3h High3 este reprezentate pe harta
de coordonatele: -2000, 0 , Low3 este reprezentat de coordonatele: 500 si 1215, iar
Medium3 este reprezentat de 500 si -500.

Corelatia lui I3h cu prima axa este 1 , iar cu cea de-a doua corelatia lui I3h este 0. I3h
contribuie in totalitate pentru prima axa, deoarece formeaza o legatura foarte stransa si
direct.
.

8
Contributia lui I3h cu prima axa este 800, iar pentru a doua axa este 0. De unde rezulta ca
variabila reprezentata de numarul absolventilor de “Arte si umanistica” din cele 30 de tari
analizate, contribuie in totalitate pentru prima axa.

Anexe:

path<-"C:\\Users\\darieleo\\Desktop"
p<-read.table(file.path(path,"educatie.txt"),sep="\t",dec=".",header=TRUE)
View(p)

m<-cbind(p$I1,p$I3)
View(m)
m<-as.data.frame(m)
View(m)

library(moments)
cor(p)
summary(p$I1)
summary(p$I3)
sd(p$I1)
sd(p$I3)

qnorm(0.3,18.15,28.84)
qnorm(0.6,18.15,28.84)

qnorm(0.33,17.56,29.17)

9
qnorm(0.66,17.56,29.17)

m$I1c<-rep(0,30)
View(m$I1c)

m$I1c[which(p$I1<=3.02)]<-"Low1"
m$I1c[which(p$I1>3.021&p$I1<=25.45)]<-"Medium1"
m$I1c[which(p$I1>25.45)]<-"High1"
table(m$I1c)

m$I3c<-rep(0,30)
View(m$I3c)

m$I3c[which(p$I3<=4.72)]<-"Low3"
m$I3c[which(p$I3>4.72&p$I3<=29.59)]<-"Medium3"
m$I3c[which(p$I3>29.59)]<-"High3"
table(m$I3c)

tabelcontingenta<-table(m$I1c,m$I3c)
tabelcontingenta

chisq.test(tabelcontingenta)

#Analiza de corespondente cu functia ca


library(ca)

ac<-ca(tabelcontingenta)
summary(ac)

10
11

S-ar putea să vă placă și