Sunteți pe pagina 1din 16

Metode de analiz statistic

Analiza statistic presupune aplicarea unor metode de calcul datelor sau


irurilor de date statistice n vederea:

testrii anumitor caliti, caracteristici ale acestora

stabilirii existenei unei relaii ntre acestea

determinarea tipului de relaii dintre acestea

determinarea semnificaiei relaiei dintre date

n statistic exist 2 mari categorii de metode:

parametrice i non

parametrice. Metodele parametrice sunt metode care se utilizeaz exclusiv n


tiinele exacte ,aplicndu-se n general dalor intervale. Datele crora li se aplic
trebuie s aib o distribuie normal. Sunt cunoscute ca fiind metode foarte
riguroase, cu greutate tiinific.

Datorit rigiditii lor privind calitatea

datelor aceste metode NU SE UTILIZEAZ n tiinele sociale i deci nici n


turism.
Metodele non parametrice. Acestea se aplic datelor nominale, ordinale sau
intervale. Distribuia normal a datelor nu este o condiie pentru a putea fi
utiilizate n metode non parametrice. Aceste metode nu sunt la fel de rigide ca
cele parametrice dar sunt mult mai robuste i flexibile.
n turism aproape toate metodele aplicate sunt non parametrice.
Cu alte cuvinte n acest curs de statistic aplicat se vor utiliza numai metode
i tehnici non parametrice

Corelaia Introducere
Definiii.
Corelaia... reprezint o metod utilizat pentru exprimarea gradului de
asociere sau a intensitii unei relaii existente ntre dou valori sau mai multe
variabile(Goodall 1987)

Corelaia ... este o metod... de descriere a gradului de asociere dintre 2


seturi de valori pereche (Hammond and McCullagh 1982)

Corelaia este o metod eficient de a detecta i nsuma relaiile dintre dou


variabile. Aspectul cel mai important privind corelaia este acela privind citirea
lor, adic interpretarea rezultatului obinut. Acest rezultat, n fapt , msoar
legtura dintre variabile; stabilete gradul de legtur dintre ele. Aceast
msurtoare sau grad se numete , coeficient.
Exist un numr mare de coefcieni de corelaie n statistic, n funcie de
natura variabilelor , a legturii, a modului de colectare a datelor etc. Toi
coeficienii de corelaie n final detecteaz dac valorile unor variabile covariaz (variaz mpreun). Adic indic dac diferenele aprute la nivelul
valorilorilor unei variabile tind s se asocieze cu diferenele aprute la nivelul
alteia. Odat stabilit corelaia, aceast NU presupune automat, faptul c o
variabil este determinat sau cauzat de cealalt. Corelaia stabilete prezena
de relaii cauzale, DAR NU ESTE SUFICINT PENTRU A DEMONSTRA
CAUZALITATEA UNEI RELAII. Cu alte cuvinte corelaia poate indica
prezena unei relaii de cauzalitate dar nu o demonstreaz.
n afar de faptul c prin corelaie se stabilte co-variaia, coeficienii de
corelaie pot furniza trei tipuri de informaie asupra relaiei descoperite:
1. intensitatea relaiei, indicat de valoarea coeficentului de corelaie;
cu ct acesta este mai mare cu att relaia este mai puternic
2. direcia relaiei (mai ales pentru datele ordinale i intervale), pozitiv
sau negativ
3. linearitatea, tendina de distribuia a datelor variabile, liar sau nonlinear

( Mesaj ptr An 3 IDD ... PAUZ DE ... Exemplificare a teoriei... C


DOAR NU DE CAFEA).
Mai concret: n statistic corelaia are un neles/semnificaie specific/.
Presupune automat faptul c , spre exemplu ,n timp ce o variabil crete sau
descrete ca valoare a doua variabil crete sau descrete i ea.
Oare???? Aa este???? Privii figura de mai jos!!!!
Ea reprezint un exemplu de distribuie a dou variabile A i B. Vizual, se
poate detecta vreo relaie, corelaie ntre ele? Adic putem spune c se ntmpl
ceva cu A n timp ce cuB se ntmpl ceva sau altceva???? CO-VARIAZ N VREUN FEL???

18
16

Variable B

14
12
10
8
6
4
2
0
0

10

Variable A
Rspuns corect: NU!!!

Dar n figura de mai jos????

15

20

25
20

15
10

5
0
0

10

15

Rspuns corect:DA!!! Mai mult observm c atunci cnd una crete, cealalt
crete i ea. n limbaj statistic avem de a face cu o corelaie pozitiv ntre cele
2 variabile.

Repetm jocul observaei i cu figura de mai jos! Exist vreo relaie,


corelaie ntre variabilele de mai jos???

25
20
15
10
5
0
0

10

15

Rspuns corect:DA!!! Mai mult observm c atunci cnd una scade, cealalt scade
i ea. n limbaj statistic avem de a face cu o corelaie negativ ntre cele 2
variabile.

Pn n acest stadiu am putut determina

doar vizual existena sau

inexistena unei co-variaii i direcia. Evident pentru a determina aspecte


privind intensitatea relaiei i linearitatea ei este nevoie de mult mai mult
dect o observaie vizual. Este nevoie de obinerea prin calcul a coeficientului
de corelaie.

( Mesaj ptr An 3 IDD : GATA CU PAUZA ....napoi la teorie....)

Corelaia ca i metod de calcul statistic va avea ntotdeauna ca rezultat o


valoare numeric cuprins ntre -1 i +1 ( Mesaj ptr An 3 IDD Turism!!!Luai
acest fapt ca atare, sau teorem, cum dorii. A v ntreba de ce, este
pierdere de vreme.....BELIEVE ME!!!!)

Acesta poart denumirea de coeficient de corelaie i se noteaz cu r i va

avea precum aminteam mai sus valori ce se pot nscrie/reprezenta pe axa de mai
jos
-1____________ 0 ___________+1
Ca urmare n funcie de valorile nregistrate de r, n teoria modelelor de
corelare apar situaiile ideale i anume: corelaia perfect negativ i cea perfect
pozitiv, cu distribuie perfect linear ; adic valorile ambelor variabile se
distribuie perfect linear ascendent sau descendent (cu inclusiv situaia
exccepional cnd cele dou variabile se suprapun ca valoare). Privii figurile de
mai jos.
16
14

Variable B

12
10
8
6
4
2
0
0

10
Variable A

Corelaie perfect negativ (r = -1)

15

20

16
14
Variable B

12
10
8
6
4
2
0
0

10

15

20

Variable A
Corelaie perfect pozitiv (r = +1)

Ele reprezint modelele ideale/perfecte de corelare. Acestea sunt evident


situaiile de exccepie, n realitate, relaia dintre variabile nregistrnd
intensiti, direcii i lineariti diferite comportndu-se ca atare!

Aa cum aminteam anterior, exist un numr foarte mare de metode


statistice de corelare ! Cele mai cunoscute i utilizate sunt:
1)

Coeficientul de corelaie produs-moment, Person (Pearsons Product

Moment Correlation Coefficient). Acesta este un coeficient de corelaie


parametric, adic inutil tiinelor sociale i deci i n turism. ( Mesaj ptr An 3
IDD Turism!!! : Parametric??? Forget it!!!)
2)

Coeficientul de corelaie cu rang, Spearman (Spearmans rank

correlation coefficient). ( Mesaj ptr An 3 IDD Turism!!!


sta ne intereseaz)

Condiii de aplicare
- date pentru 2 variabile.

- non parametric ,

- acelai numr de valori pentru ambele variabile.


- minimum 4 perechi de valori.
- date ordinale sau intervale.

Pentru calculare sunt necesare 12 stadii !

Studiu de caz
Rmania, perioada 1991 - 2000
Variabila 1: PNB (per cap loc.)
Variabila 2: Numr vizitatori strini

An

PNB(US$)

Numr vizitatori strini

1991
1992
1993
1994
1995
1996
1997
1998
1999
2000

1243
859
1159
1323
1564
1563
1565
1872
1585
1645

5,359,000
6,401,000
5,786,000
5,898,000
5,445,000
5,205,000
5,149,000
4,831,000
5,224,000
5,264,000

Dorim s vedem dac exist vreo relaie/corelaie ntre PNB i numrul de


vizitatori strini.

ADIC

DORIM

STABILIM

DAC

CELE

DOU

VARIABILE CO-VARIAZ.

Stadiul 1
Se ntocmete reprezentarea grafic de distribuie a valorilor celor 2
variabile pentru analiz vizual.

Dac distribuia nu pare s ia o form corelativ nseamn c nu exist o


corelaie i calculul nu se mai justific. Adic : DAC APARENT NU PUTEM
STABILI C CELE 2 VARIABILE CO-VARIAZ, C DEZVOLT VREO RELAIE
ATUNCI CALCULUL COEFICIENTULUI DE CORELAIE ESTE INUTIL!!!!

Pentru studiul nostru de caz distribuia valorilor se prezint ca n figura de


mai jos:

7000

Numar vizitatori

6000
5000
4000
3000
2000
1000
0
0

500

1000

1500

2000

PNB

Aparent ele par s co-varieze, avnd o tendin descendent, direcie negativ.


ADIC PARE S EXISTE O RELAIE NTRE CELE DOU.

Stadiul 2
Observnd datele i distribuia acestora situaia este aparent i neclar. n
acest caz, se FORMULEAZ O IPOTEZ. ACEASTA DE REGUL SE BAZEAZ
PE OBSERVAIA EFECTUAT. SE NUMETE IPOTEZ INIIAL I SE
NOTEAZ CU Hi. n cazul de fa o ipotez H i , evident. ar putea fi : Exist o

relaie ntre PNB i numrul de vizitatori strini n Romnia n perioada 1991


2000
Conform conveniei statistice n rigoare aceast ipotez se exprim
ntotdeauna negativ. Adic invers dect pare s fie situaia. .
( Mesaj ptr An 3 IDD Turism!!! ... exprimare PE DOS!!! INVERS, CU
SUSUL N JOS!!!, hai c aici trebuie s fii maetri!)
ACEASTA SE NUMETE IPOTEZA NUL I SE NOTEAZ CU H O. i dac
aparent exist o relaie ntre cele dou, ipoteza nul se va exprima:

Nu exist

nici un fel de relaie ntre PNB i numrul de vizitatori strini n Romnia n


perioada 1991 2000
Stadiul 3
Se construiete un tabel cu 6 coloane n care se nscriu mai nti datele
exsitente, utilizndu-se primele 2 coloane (1 i 2)

Variabila
(PNB)
1243
859
1159
1323
1564
1563
1565
1872
1585
1645

Stadiul 4

Variabila
(vizitatori)
5,359,000
6,401,000
5,786,000
5,898,000
5,445,000
5,205,000
5,149,000
4,831,000
5,224,000
5,264,000

Se acord rang de mrime valorilor variabilei 1 (i.e. cea mai mare valoare =1,
urmtoarea = 2 etc). nscriei rangul fiecrei valori n coloana 3.

Stadiul 5
n mod similar acordai rang de mrime valorilor variabilei 2. nscriei rangul
fiecrei valori n coloana 4.

Tabelul va arta acum aa!


Variabila 1

Variabila 2 (numr

Rang

(PNB)

vizitatori)

Variabila 1

1243
859
1159
1323
1564
1563
1565
1872
1585
1645

5,359,000
6,401,000
5,786,000
5,898,000
5,445,000
5,205,000
5,149,000
4,831,000
5,224,000
5,264,000

8
10
9
7
5
6
4
1
3
2

Rang
Variabila 2
5
1
3
2
4
8
9
10
7
6

Stadiul 6
Se calculeaz diferena dintre rangi (rang 1 rang 2). Adic din coloana 3
scadei coloana 4. Diferena de rang se noteaz cu d i se nscrie n coloana
5.

Variabila 1

Variabila 2 (numr

Rang

(PNB)

vizitatori)

Variabila 1

1243
859

5,359,000
6,401,000

8
10

Rang

Variabila 2
5
1

3
9

1159
1323
1564
1563
1565
1872
1585
1645

5,786,000
5,898,000
5,445,000
5,205,000
5,149,000
4,831,000
5,224,000
5,264,000

9
7
5
6
4
1
3
2

3
2
4
8
9
10
7
6

6
5
1
-2
-5
-9
-6
-4

Stadiul 7
Se ridic la ptrat d (diferena de rang). Aceasta se noteaz cu

d2 i se

nscrie n coloana 6.
Variabila 1

Variabila 2 (numr

Rang

(PNB)

vizitatori)

Variabila 1

1243
859
1159
1323
1564
1563
1565
1872
1585
1645

5,359,000
6,401,000
5,786,000
5,898,000
5,445,000
5,205,000
5,149,000
4,831,000
5,224,000
5,264,000

8
10
9
7
5
6
4
1
3
2

Stadiul 8:
Se calculeaz d2 adic suma tuturor valorilor d2.
d2 = 294

Stadiul 9:

Utilizai datele obinute n formula urmtoare:

Rang

d2

3
9
6
5
1
-2
-5
-9
-4
-4

9
81
36
25
1
4
25
81
16
16

Variabila 2
5
1
3
2
4
8
9
10
7
6

rs 1 -

d
2

n3 n

unde
rs = este coeficientul de corelaie)
n = numrul de perechi ale variabilelor 1i 2 (sau A i B)
6 294
1000 10
1764
1
990
1 1,78 0,78
1

rs = - 0.78 (aceasta este Coef de corelaie)


Stadiul 10:
Se analizeaz semnificaia coeficientului de corelaie. Analiza semnificaiei
presupune n primul rnd testarea semnificaiei.Testarea semnificaiei presupune
sigurana, corectidunea, ncrederea n rezultatul oninut. Aceasta se exprim
prin gradul de confiden al coeficientului de crelaie.
De regul statisticienii au nevoie de 95% grad de confiden

nainte s

accepte un coeficient. n statistic gradul de confien este notat cu p. El este


pre calculat i se gsete n tabele consacrate. Un grad de confiden de 95% se
noteaz n aceste tabele sub forma de p = 0.05. Gradul de confiden este

menionat ntotdeauna n interpretare i analiz i nscris obligatoriu n


forma p = 0.05
Pentru o siguran i o rigoare tiinific mai mare se poate merge la 99%
grad de confiden asupra rezultatului. Acesta se noteaz cu

p = 0.01

Cu

ct valoarea lui p este mai mic cu att gradul de confiden este mai mare
ceea ce implic o siguran o mai mare siguran i rigoare de calcul. Gradul
de confiden cu care se lucreaz se stabilete nc din stadiile incipiente
de calcul n funcie de natura variabilelor i numrul de perechi de date
disponibile. n general pentru studiul proceselor, fenomene sociale cu

caracter amplu, general cnd sunt disponibile puine perechi de date i ne


raportm la perioade de timp mari, se lucreaz cu

p = 0,05. Cnd se

studiaz procese, fenomene de detaliu cu numr mare de perechi de date,pe


perioade mici de timp se lucreaz c cu p = 0,01.
Tabelul de mai jos reprezint o variant simplicat a unui tabel consacrat cu
grade de confiden.
Pentru stabilirea semnificaiei din studiul nostru de caz se utilizeaz coloana
1 n care se afl N = numrul de perechi de variabile. n studiul nostru de caz
am utilizat 10 perechi. Astfel urmrim pentru N = 10, valorile de semnificaie fie
pentru p = 0.05 fie p = 0.01.

N
(numr
perechi

de

95%

99%

(p = 0.05)

(p= 0.01)

1.000
0.886
0.786
0.738
0.683
0.648
0.591
0.544
0.506

1.000
0.929
0.881
0.833
0.794
0.777
0.715
0.665

de

variabile)
5
6
7
8
9
10
12
14
16

Se raporteaz valoare lui r la valorile p = 0.05 pentru N =10.

Dac coeficientul de corelaie r este egal sau mai mare dect


valoarea lui p [se ignor semnul lui r (plus sau minus)] SE RESPINGE
IPOTEZA NUL.

Coeficientul de corelare r, este 0.78, mai mare dect valorea lui p = 0,05 ( de
95%) aceasta fiind de0.648. n concluzie se respinge ipoteza nul (Nu exist
nici un fel de relaie ntre PNB i numrul de vizitatori strini n Romnia n
perioada 1991 2000) i se accept ipoteza iniial, (Exist o relaie ntre PNB
i numrul de vizitatori strini n Romnia n perioada 1991 2000)

Dac s-ar fi ales ca grad de confiden p = 0,01 situaia ar fi fost coplect


diferit. S-a stabilit ca grad de confiden p = 0,05 deoarece: variabilele se
refer la indicatori destul de ampli, la nvel de ar pe o perioad destul de
limitat de timp cu valori la nivel anual.
n concluzie se poate spune c cele dou variabile sunt corelate cu un grad de
confiden de 95%

Stadiul 11
Cel mai important lucru din punct de vedere al tiinelor sociale i deci i al
turismului este interpretarea i analiza rezultatelor.
Ce nseamn acea valoare rs i faptul c am acceptat Hi ?
n final oricine poate calcula un coeficient de corelare. Important este cum
interpretm rezultatul, ce nseamn el!
Pn aici am stabilit (ce-i drept, tiinific) faptul c exist o relaie. Care
este, ns natura relaiei dintre PNB i numrul vizitatorilor strini din Romnia
n perioada 1991-2000?

DE ce numrul turitilor strini pare s scad n timp ce al PNB-ului s


creasc?
Ce putem spune despre contribuia turismului la PNB-ul Romniei?

Stadiul 12:

Se scriu intepretrile. Aici este locul i momentul n care se folosete


coeficientul de corelaie, pentru interpretarea rezultatelor

De regul se folosete formula:

Exist o puternic corelaie negativ ntrePNB inumrul de vizitatori strini


n Romnia n perioada 1991 2000 (r s = -0.78,
datoreaz

p = 0.05).

Acest fapt se

S-ar putea să vă placă și