Sunteți pe pagina 1din 3

Introducere in STATISTICA si PROBABILITATI

rezumat

Curs introductiv in
STATISTICA si PROBABILITATI

Capitolul 5: Corelatia Liniara


Textul cursului (tradus si adaptat) din:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice.
www.sjsu.edu/faculty/gerstman/StatPrimer

5.1 Introducere
Cercetare corelationala vs. cercetare experimentala. Cea mai mare parte a cercetarii empirice
apartine, fara indoiala, uneia dintre cele doua categorii generale. In cercetarea corelationala nu
influentam (sau cel putin incercam sa nu influentam) nici o variabila, ci dorim sa le masuram si sa
cautam relatii (corelatii) intre anumite seturi de variabile. In cercetarea experimentala manipulam niste
variabile si apoi masuram efectele acestei manipulari asupra altor variabile. Analiza datelor in
cercetarea experimentala consta si din calcularea unor „corelatii“ intre variabile, mai precis, intre cele
manipulate si cele afectate de aceasta manipulare. Datele experimentale pot furniza informatie mai
buna si numai ele pot demonstra relatii cauzale intre variabile.
De exemplu, daca gasim ca ori de cate ori modificam o variabila A se modifica si o alta variabila B,
atunci putem trage concluzia ca „A influenteaza pe B“. Datele din cercetarea corelationala pot doar sa
fie „interpretate“ in termeni cauzali pe baza teoriilor de care dispunem, dar datele corelationale nu pot
proba cauzalitatea.

Variabile dependente vs. variabile independente. Variabilele independente sunt cele manipulate, in
timp ce variabilele dependente sunt doar masurate si inregistrate. Aceasta distinctie poate parea
multora confuza din punct de vedere terminologic, dar o data familiarizati cu aceasta distinctie, ea
devine indispensabila. Termenii de „variabila independenta“ si „variabila dependenta“ se aplica, in
principal, in cercetarea experimentala, unde unele variabile sunt manipulate si, in acest sens, ele sunt
„independente“ fata de modele initialele de reactie, trasaturi, intentii, etc., ale subiectilor. In ceea ce
priveste alte variabile, se asteapta ca acestea sa fie „dependente“ de manipulare sau de conditiile
experimentale, adica sa depinda de „ceea ce va face subiectul“ ca raspuns. Intrucatva contrariu naturii
acestei distinctii, acesti termeni sunt utilizati de asemenea in studii in care nu se manipuleaza
literalmente variabile independente, ci doar se repartizeaza subiecti unor „grupuri experimentale“ pe
baza unor proprietati pre-existente ale subiectilor.
De exemplu, daca intr-un experiment, barbatii sunt comparati cu femeile cu privire la numarul de
leucocite, atunci „genul“ va fi variabila independenta, iar numarul de leucocite va fi variabila
dependenta.

Relatiile intre variabile. Indiferent de tipul lor, doua sau mai multe variabile se afla in relatie daca
intr-un esantion de observatii, valorile acelor variabile sunt distribuite intr-o maniera consistenta. Cu
alte cuvinte, variabilele sunt in relatie intre ele daca valorile lor corespund in mod sistematic una alteia
in aceste observatii.
De exemplu, genul si numarul de leucocite sunt considerate a fi in relatie una cu cealalta daca

1
Introducere in STATISTICA si PROBABILITATI
rezumat

majoritatea barbatilor au numarul de leucocite crescut si majoritatea femeilor il au scazut sau invers;
coeficientul de inteligenta IQ este in relatie cu numarulde erori dintr-un test daca oamenii cu IQ inalt
fac putine erori.

De ce sunt importante relatiile dintre variabile ? In general, scopul ultim al fiecarei analize sau
cercetari stiintifice este de a gasi relatii intre variabile. Filosofia stiintei ne invata ca nu exista nici o
cale de a reprezenta „semnificatia“ decat in termenii relatiilor dintre cantitati sau calitati, de aceea
progresul stiintific implica intotdeauna gasirea de noi relatii intre variabile. Cercetarea corelationala ca
si cea experimentala implica masurarea unor asemenea relatii in maniera cea mai directa. Statistica ne
ajuta sa evaluam relatiile dintre variabile.

Doua caracteristici fundamentale ale oricarei relatii intre variabile. Proprietatile formale
elementare ale oricarei relatii intre variabile sunt: (a) marimea si (b) valabilitatea sa .

Masura si variabilitate. Indiferent de variabila de raspuns, exista intotdeauna variabilitate in


date.Unul dintre obiectivele primare ale statisticii este de a masura si caracteriza aceasta variabilitate.

5.2 Date bivariate


Constau din valorile a doua variabile de raspuns diferite care sunt obtinute din aceeasi populatie de
interes. Exista trei combinatii de tipuri de variabile:
1. ambele variabile sunt calitative (atribute).
2. o variabila este calitativa (atribut) si cealalta este cantitativa (numerica).
3. ambele variabile sunt cantitative (ambele numerice).

5.3 Corelatie liniara


• Masoara puterea unei relatii liniare intre doua variabile: corelatia cuantifica masura in care
doua variabile (continui), X and Y, "merg impreuna."
• pe masura ce x creste, nici o schimbare in y: nici o corelatie.
• pe masura ce x creste, o schimbare in y: corelatie.

• Corelatie Positiva: x creste, y creste.


• Corelatie Negativa: x creste, y descreste.

• daca perechile ordonate urmeaza o evolutie in linie dreapta: corelatie liniara.

Dupa ce aflam cum se comporta datele in general, urmatorul pas este sa vedem care din puncte se abat
de la formatul general. Astfel de puncte se numesc “outliers.”
Abaterile de la asteptari se numesc valori reziduale (“residuals“).

Coeficient de corelatie liniara, r, masoara puterea unei relatii liniare intre doua variabile.

Ideea generala
Coeficientii de corelatie (notati cu r) sunt statistici care cuantifica relatia dintre X si Y in termeni
independenti de unitati de masura. Cand toate punctele din reprezentarea grafica cad direct pe o linie
inclinata inainte, atunci r = +1. Cand toate punctele din reprezentarea grafica cad direct pe o linie
inclinata inapoi, atunci, r = -1

2
Introducere in STATISTICA si PROBABILITATI
rezumat

Astfel de corelatii perfect sunt rar intalnite. De aceea, cuantificam puterea corelatiei prin gradul in
care datele adera la o linie imaginara care trece printre punctele graficului.

Interpretarea coeficientului de corelatie


Semnul coeficientului de corelatie determina daca avem o corelatie pozitiva sau negativa.
Marimea coeficientului de corelatie determina puterea corelatiei:

0 < |r| < 0.3 corelatie slaba


0.3 < |r| < 0.7 corelatie moderata
|r| > 0.7 corelatie puternica

Testarea ipotezelor
Coeficientul de corelatie pentru esantion, r, este estimatorul coeficientului de corelatie pentru
populatie .
Ipoteza poate fi testata cu o statistica t, unde ser reprezinta eroarea standard a coeficientului
de corelatie. In ipoteza nula, statistica t are n - 2 grade de libertate. Rezultatele testului sunt convertite
in valoarea-p.

S-ar putea să vă placă și