Sunteți pe pagina 1din 16

Metode de analiz statistic

Analiza statistic presupune aplicarea unor metode de calcul datelor sau irurilor de date statistice n vederea: testrii anumitor caliti, caracteristici ale acestora stabilirii existenei unei relaii ntre acestea determinarea tipului de relaii dintre acestea determinarea semnificaiei relaiei dintre date parametrice i non

n statistic exist 2 mari categorii de metode:

parametrice Metodele parametrice sunt metode care se utilizeaz exclusiv n tiinele exacte ,aplic!ndu"se n general dalor intervale #atele crora li se aplic trebuie s aib o distribuie normal $unt cunoscute ca fiind metode foarte riguroase, cu %greutate& tiinific #atorit rigiditii lor privind calitatea

datelor aceste metode '( $) (*+,+-)A-. n tiinele sociale i deci nici n turism Metodele non parametrice Acestea se aplic datelor nominale, ordinale sau intervale #istribuia normal a datelor nu este o condiie pentru a putea fi utiilizate n metode non parametrice Aceste metode nu sunt la fel de /rigide0 ca cele parametrice dar sunt mult mai /robuste0 i flexibile n turism aproape toate metodele aplicate sunt non parametrice 1u alte cuvinte n acest curs de statistic aplicat se vor utiliza numai metode i te2nici non parametrice

Corelaia Introducere
Definiii. %1orelaia reprezint o metod utilizat pentru exprimarea gradului de

asociere sau a intensitii unei relaii existente ntre dou valori sau mai multe variabile&34oodall 56789

%1orelaia

este o metod

de descriere a gradului de asociere dintre 2

seturi de valori perec2e& 3:ammond and Mc1ullag2 56729

1orelaia este o metod eficient de a detecta i nsuma relaiile dintre dou variabile Aspectul cel mai important privind corelaia este acela privind ;citirea& lor, adic interpretarea rezultatului obinut Acest rezultat, n fapt , msoar legtura dintre variabile< stabilete gradul de legtur dintre ele Aceast msurtoare sau grad se numete , coeficient )xist un numr mare de coefcieni de corelaie n statistic, n funcie de natura variabilelor , a legturii, a modului de colectare a datelor etc *oi coeficienii de corelaie n final detecteaz dac valorile unor variabile co" variaz 3variaz mpreun9 Adic indic dac diferenele aprute la nivelul valorilorilor unei variabile tind s se asocieze cu diferenele aprute la nivelul alteia =dat stabilit corelaia, aceast '( presupune automat, faptul c o variabil este determinat sau cauzat de cealalt 1orelaia stabilete prezena de relaii cauzale, #A> '( )$*) $(?+1+'*. @)'*>( A #)M='$*>A 1A(-A,+*A*)A (')+ >),AA++ 1u alte cuvinte corelaia poate indica

prezena unei relaii de cauzalitate dar nu o demonstreaz n afar de faptul c prin corelaie se stabilte co"variaia, coeficienii de corelaie pot furniza trei tipuri de informaie asupra relaiei descoperite: 5 intensitatea relaiei, indicat de valoarea coeficentului de corelaie< cu c!t acesta este mai mare cu at!t relaia este mai puternic 2 direcia relaiei 3mai ales pentru datele ordinale i intervale9, pozitiv sau negativ B linearitatea, tendina de distribuia a datelor variabile, liar sau non" linear

( Mesaj ptr An

IDD ... !A"#$ D% ... %&emplificare a teoriei... C$

D'A( )" D% CA*%A+. Mai concret: n statistic corelaia are un nelesCsemnificaie specificC @resupune automat faptul c , spre exemplu ,&n timp ce o variabil crete sau descrete ca valoare a doua variabil crete sau descrete i ea& =areDDDD Aa esteDDDD @rivii figura de mai EosFFFF )a reprezint un exemplu de distribuie a dou variabile A i G ,izual, se poate detecta vreo relaie, corelaie ntre eleD Adic putem spune c se nt!mpl ceva cu A n timp ce cuG se nt!mpl ceva sau altcevaDDDD 1="HA>+A-. ' H>)" (' ?),DDD

18 16 14

Variable B

12 10 8 6 4 2 0 0 5 10 15 20

Variable A
>spuns corect: '(FFF

#ar n figura de mai EosDDDD

25 20

15 10

5 0 0 5 10 15

>spuns corect:#AFFF Mai mult observm c atunci c!nd una crete, cealalt crete i ea n limbaE statistic avem de a face cu o corelaie pozitiv ntre cele 2 variabile

>epetm Eocul observaei i cu figura de mai EosF )xist vreo relaie, corelaie ntre variabilele de mai EosDDD

25 20 15 10 5 0 0 5 10 15

>spuns corect:#AFFF Mai mult observm c atunci c!nd una scade, cealalt scade i ea n limbaE statistic avem de a face cu o corelaie negativ ntre cele 2 variabile

@!n n acest stadiu am putut determina

doar vizual e&istena sau

ine&istena unei co"variaii i direcia )vident pentru a determina aspecte privind intensitatea relaiei i linearitatea ei este nevoie de mult mai mult dec!t o observaie vizual )ste nevoie de obinerea prin calcul a coeficientului de corelaie

( Mesaj ptr An

IDD - .A/A C" !A"#A ....0napoi la teorie....+

1orelaia ca i metod de calcul statistic va avea ntotdeauna ca rezultat o valoare numeric cuprins ntre "5 i I5 ( Mesaj ptr An IDD /urism1112uai

acest fapt ca atare, sau teorem, cum dorii. A 3 0ntreba de ce, este pierdere de 3reme.....4%2I%,% M%1111+

Acesta poart denumirea de coeficient de corelaie i se noteaz cu r i va

avea precum aminteam mai sus valori ce se pot nscrieCreprezenta pe axa de mai Eos
"5JJJJJJJJJJJJ K JJJJJJJJJJJI5 1a urmare n funcie de valorile nregistrate de r, n teoria modelelor de corelare apar situaiile ideale i anume: corelaia perfect negativ i cea perfect pozitiv, cu distribuie perfect linear < adic valorile ambelor variabile se distribuie perfect linear ascendent sau descendent 3cu inclusiv situaia exccepional c!nd cele dou variabile se suprapun ca valoare9 @rivii figurile de mai Eos 16 14 12 Variable B 10 8 6 4 2 0 0 5 10 Variable A 1orelaie perfect negativ 3r L "59 15 20

16 14 12 Variable B 10 8 6 4 2 0 0 5 10 Variable A 1orelaie perfect pozitiv 3r L I59 15 20

)le reprezint modelele idealeCperfecte de corelare Acestea sunt evident situaiile de exccepie, n realitate, relaia dintre variabile nregistr!nd intensiti, direcii i lineariti diferite comport!ndu"se ca atareF

Aa cum aminteam anterior, exist un numr foarte mare de metode statistice de corelare F 1ele mai cunoscute i utilizate sunt: 59 Coeficientul de corelaie produs5moment , @erson 3@earson0s @roduct Acesta este un coeficient de corelaie

Moment 1orrelation 1oefficient9

parametric, adic inutil tiinelor sociale i deci i n turism ( Mesaj ptr An IDD /urism111 : !arametric666 *or7et it111+ 29 Coeficientul de corelaie cu ran7, 8pearman 3$pearman0s ranM IDD /urism111 " non parametric ,

correlation coefficient9 ( Mesaj ptr An sta ne intereseaz+

Condiii de aplicare " date pentru 2 variabile

" acelai numr de valori pentru ambele variabile " minimum N perec2i de valori " date ordinale sau intervale

@entru calculare sunt necesare 52 stadii F

8tudiu de caz >!mania, perioada 5665 " 2KKK ,ariabila 9: @'G 3per cap loc 9 ,ariabila :: 'umr vizitatori strini

An 5665 5662 566B 566N 566P 566Q 5668 5667 5666 2KKK

@'G3($O9 52NB 7P6 55P6 5B2B 5PQN 5PQB 5PQP 5782 5P7P 5QNP

'umr vizitatori strini P,BP6,KKK Q,NK5,KKK P,87Q,KKK P,767,KKK P,NNP,KKK P,2KP,KKK P,5N6,KKK N,7B5,KKK P,22N,KKK P,2QN,KKK

#orim s vedem dac exist vreo relaieCcorelaie ntre @'G i numrul de vizitatori strini ADIC$ D'(IM 8$ 8/A4I2IM DAC$ C%2% D'"$

,A(IA4I2% C'5,A(IA#$

8tadiul 9 $e ntocmete reprezentarea grafic de distribuie a valorilor celor 2 variabile pentru analiz vizual

#ac distribuia nu pare s ia o form corelativ nseamn c nu exist o corelaie i calculul nu se mai Eustific Adic : #A1. A@A>)'* '( @(*)M $*AG+,+ 1. 1),) 2 HA>+AG+,) 1="HA>+A-., 1. #)-H=,*. H>)= >),AA+) A*('1+ 1A,1(,(, 1=)?+1+)'*(,(+ #) 1=>),AA+) )$*) +'(*+,FFFF

@entru studiul nostru de caz distribuia valorilor se prezint ca n figura de mai Eos:

7000 6000 Numar vizitatori 5000 4000 3000 2000 1000 0 0 500 1000 PNB 1500 2000

Aparent ele par s co"varieze, av!nd o tendin descendent, direcie negativ A#+1. @A>) $. )R+$*) = >),AA+) '*>) 1),) #=(.

8tadiul : =bserv!nd datele i distribuia acestora situaia este aparent i neclar n acest caz, se ?=>M(,)A-. = +@=*)-. A1)A$*A #) >)4(,. $) GA-)A-. @) =G$)>HAA+A )?)1*(A*. $) '(M)S*) +@=*)-. +'+A+A,. S+ $) '=*)A-. 1( :i n cazul de fa o ipotez : i , evident ar putea fi : ; %&ist o

relaie 0ntre !)4 i numrul de 3izitatori strini 0n (om;nia 0n perioada 9<<9 :===>? 1onform conveniei statistice n rigoare aceast ipotez se e&prim ntotdeauna negativ Adic invers dec!t pare s fie situaia ( Mesaj ptr An IDD /urism111 ... e&primare @) #=$FFF +'H)>$, 1(

$($(, ' T=$FFF, 2ai c aici trebuie s fii maetriF9 A1)A$*A $) '(M)S*) +@=*)-A '(,. S+ $) '=*)A-. 1( : = Si dac aparent exist o relaie ntre cele dou, ipoteza nul se va exprima: U )u e&ist

nici un fel de relaie 0ntre !)4 i numrul de 3izitatori strini 0n (om;nia 0n perioada 9<<9 :===> 8tadiul $e construiete un tabel cu Q coloane n care se nscriu mai nt!i datele exsitente, utiliz!ndu"se primele 2 coloane 35 i 29

Hariabila 3@'G9 52NB 7P6 55P6 5B2B 5PQN 5PQB 5PQP 5782 5P7P 5QNP

Hariabila 3vizitatori9 P,BP6,KKK Q,NK5,KKK P,87Q,KKK P,767,KKK P,NNP,KKK P,2KP,KKK P,5N6,KKK N,7B5,KKK P,22N,KKK P,2QN,KKK

8tadiul @

$e acord rang de mrime valorilor variabilei 5 3i e cea mai mare valoare L5, urmtoarea L 2 etc9 nscriei rangul fiecrei valori n coloana B

8tadiul A n mod similar acordai rang de mrime valorilor variabilei 2 nscriei rangul fiecrei valori n coloana N

*abelul va arta acum aaF ,ariabila 9 3@'G9 52NB 7P6 55P6 5B2B 5PQN 5PQB 5PQP 5782 5P7P 5QNP 8tadiul B $e calculeaz diferena dintre rangi 3rang 5 V rang 29 Adic din coloana B scadei coloana N Diferena de ran7 se noteaz cu d i se 0nscrie 0n coloana A ,ariabila : 3numr vizitatori9 P,BP6,KKK Q,NK5,KKK P,87Q,KKK P,767,KKK P,NNP,KKK P,2KP,KKK P,5N6,KKK N,7B5,KKK P,22N,KKK P,2QN,KKK (an7 ,ariabila 9 7 5K 6 8 P Q N 5 B 2 (an7 ,ariabila : P 5 B 2 N 7 6 5K 8 Q

,ariabila 9 3@'G9 52NB 7P6

,ariabila : 3numr vizitatori9 P,BP6,KKK Q,NK5,KKK

(an7 ,ariabila 9 7 5K

(an7 ,ariabila : P 5

B 6

55P6 5B2B 5PQN 5PQB 5PQP 5782 5P7P 5QNP 8tadiul C

P,87Q,KKK P,767,KKK P,NNP,KKK P,2KP,KKK P,5N6,KKK N,7B5,KKK P,22N,KKK P,2QN,KKK

6 8 P Q N 5 B 2

B 2 N 7 6 5K 8 Q

Q P 5 "2 "P "6 "Q "N

$e ridic la ptrat d 3diferena de rang9 Aceasta se noteaz cu nscrie n coloana Q ,ariabila 9 3@'G9 52NB 7P6 55P6 5B2B 5PQN 5PQB 5PQP 5782 5P7P 5QNP 8tadiul D$e calculeaz d: adic suma tuturor valorilor d2 d: L 26N ,ariabila : 3numr vizitatori9 P,BP6,KKK Q,NK5,KKK P,87Q,KKK P,767,KKK P,NNP,KKK P,2KP,KKK P,5N6,KKK N,7B5,KKK P,22N,KKK P,2QN,KKK (an7 ,ariabila 9 7 5K 6 8 P Q N 5 B 2 (an7 ,ariabila : P 5 B 2 N 7 6 5K 8 Q

d: i se

d2

B 6 Q P 5 "2 "P "6 "N "N

6 75 BQ 2P 5 N 2P 75 5Q 5Q

8tadiul <-

(tilizai datele obinute n formula urmtoare:

rs = 1 -

n3 n

(d )
2

unde rs L este coeficientul de corelaie9 n L numrul de perec2i ale variabilelor 5i 2 3sau A i G9


6 294 1000 10 1764 =1 990 = 1 1,78 = 0,78 =1

rs L " K 87 3aceasta este 1oef de corelaie9 8tadiul 9=$e analizeaz semnificaia coeficientului de corelaie Analiza semnificaiei presupune n primul r!nd testarea semnificaiei *estarea semnificaiei presupune sigurana, corectidunea, ncrederea n rezultatul oninut Aceasta se exprim prin gradul de confiden al coeficientului de crelaie #e regul statisticienii au nevoie de 6PW grad de confiden nainte s

accepte un coeficient n statistic gradul de confien este notat cu p )l este pre calculat i se gsete n tabele consacrate (n grad de confiden de 6PW se noteaz n aceste tabele sub forma de p E =.=A .radul de confiden este

menionat 0ntotdeauna 0n interpretare i analiz i 0nscris obli7atoriu 0n forma p E =.=A


@entru o siguran i o rigoare tiinific mai mare se poate merge la 66W grad de confiden asupra rezultatului Acesta se noteaz cu

p E =.=9

Cu

c;t 3aloarea lui p este mai mic cu at;t 7radul de confiden este mai mare ceea ce implic o si7uran o mai mare si7uran i ri7oare de calcul. .radul de confiden cu care se lucreaz se stabilete 0nc din stadiile incipiente de calcul 0n funcie de natura 3ariabilelor i numrul de perecFi de date disponibile. Gn 7eneral pentru studiul proceselor, fenomene sociale cu

caracter amplu, 7eneral c;nd sunt disponibile puine perecFi de date i ne raportm la perioade de timp mari, se lucreaz cu p E =,=A. C;nd se

studiaz procese, fenomene de detaliu cu numr mare de perecFi de date,pe perioade mici de timp se lucreaz c cu p E =,=9.
*abelul de mai Eos reprezint o variant simplicat a unui tabel consacrat cu grade de confiden @entru stabilirea semnificaiei din studiul nostru de caz se utilizeaz coloana 5 n care se afl ' L numrul de perec2i de variabile n studiul nostru de caz am utilizat 5K perec2i Astfel urmrim pentru ' L 5K, valorile de semnificaie fie pentru p E =.=A fie p E =.=9.

' 3numr perec2i variabile9 P Q 8 7 6 5K 52 5N 5Q de de

6PW 3p L K KP9

66W 3pL K K59

5 KKK K 77Q K 87Q K 8B7 K Q7B K QN7 K P65 K PNN K PKQ

" 5 KKK K 626 K 775 K 7BB K 86N K 888 K 85P K QQP

$e raporteaz valoare lui r la valorile p L K KP pentru ' L5K

#ac coeficientul de corelaie r este e7al sau mai mare dec!t valoarea lui p Xse ignor semnul lui r 3plus sau minus9Y 8% (%8!I).% I!'/%#A )"2$

1oeficientul de corelare r, este K 87, mai mare dec!t valorea lui p L K,KP 3 de 6PW9 aceasta fiind deK QN7 n concluzie se respin7e ipoteza nul 3'u exist nici un fel de relaie ntre @'G i numrul de vizitatori strini n >om!nia n perioada 5665 V 2KKK09 i se accept ipoteza iniial, 3)xist o relaie ntre @'G i numrul de vizitatori strini n >om!nia n perioada 5665 V 2KKK0&9

#ac s"ar fi ales ca grad de confiden p L K,K5 situaia ar fi fost coplect diferit $"a stabilit ca grad de confiden p L K,KP deoarece: variabilele se refer la indicatori destul de ampli, la nvel de ar pe o perioad destul de limitat de timp cu valori la nivel anual n concluzie se poate spune c cele dou variabile sunt corelate cu un grad de confiden de 6PW

8tadiul 99 1el mai important lucru din punct de vedere al tiinelor sociale i deci i al turismului este interpretarea i analiza rezultatelor 1e nseamn acea valoare rs i faptul c am acceptat :i D n final oricine poate calcula un coeficient de corelare +mportant este cum interpretm rezultatul, ce nseamn elF @!n aici am stabilit 3ce"i drept, tiinific9 faptul c exist o relaie 1are este, ns natura relaiei dintre @'G i numrul vizitatorilor strini din >om!nia n perioada 5665"2KKKD

#) ce numrul turitilor strini pare s scad n timp ce al @'G"ului s creascD 1e putem spune despre contribuia turismului la @'G"ul >om!nieiD

8tadiul 9:-

$e scriu intepretrile Aici este locul i momentul n care se folosete coeficientul de corelaie, pentru interpretarea rezultatelor

#e regul se folosete formula:

%)xist o puternic corelaie negativ ntre@'G inumrul de vizitatori strini n >om!nia n perioada 5665 V 2KKK 3r s L "K 87, datoreaz Z& p L K KP9 Acest fapt se