Sunteți pe pagina 1din 27

CURS BIOSTATISTICĂ

Facultatea de Inginerie Medicală


Departamentul - Bioinginerie și
Biotehnologii
Universitatea Politehnica București
Ciclul de studii- MASTER
Curs 7

Analiza de regresie și corelație.


Aplicații practice
Corelația

• Reprezintă o legatură strict liniara între 2 variabile (x


și y)
• Arată forța asociației între variabile
• Nu implică o relație cauză – efect !
• Notat r cunoscut drept coeficientul de corelație al lui
Pearson
• Se utilizează pentru valori normal distribuite
(uniforme); pentru cele neuniforme se utilizează
coeficientul de corelație Spearman
Corelația

r = 1; corelație perfecta r = 0; nicio corelație r = 0; nicio corelație

Corelatia intre ER si PgR (n = 261)


y = 0,5172x + 0,0882
100% r = 0.5, p < 0.001
Este independentă de
80%
unitatea de măsură și Corelație bună, nor
60%
nu se utilizează decăt de puncte cu aspect
PgR

pentru valori normal 40%


trapezoidal
distribuite 20%

0%
0% 20% 40% 60% 80% 100%
ER
Corelația

• r = ∑ (xi -μx) (yi - μy) / √ ∑ (xi - μx)2 ∑ (yi - μy)2 i=1,…n


• μx , μy - media valorilor xi , yi
Clasificare:
• r є [0; 0.2] → corelație foarte slabă
• r є [0.2; 0.4] → corelație slabă
• r є [0.4; 0.6] → corelație rezonabilă
• r є [0.6; 0.8] → corelație înaltă
• r є [0.8; 1] → corelație foarte înaltă → relație foarte strânsă
între variabile sau eroare de calcul !
Corelația Spearman

• Este o extensie a coeficientului de corelație Pearson în care valorile


variabilelor corelate sunt înlocuite cu rangurile lor corespunzătoare,
în cazul în care valorile variabilei studiate sunt calitative sau sunt
neuniform distribuite. El se calculează după relația:
6 d i
2

 = 1− i
n( n 2 − 1)

• unde d i - reprezintă diferența între rangurile valorilor variabilelor


corelate, d i = Rx − R y , i = 1, n , n numărul de observații.
i i
Corelația multiplă
• Coeficientul de corelație multiplă se determină cu ajutorul
coeficienților de corelație simplă dintre variabilele perechi. (de
exemplu putem exprima astfel legătura dintre o variabilă y si două
sau mai multe variabile independente)
• Exemple în Excel și SPSS
Exemple

Correlations

age CD3 CD4 CD8 CD4CD8 CD19 CD16


age Pearson Correlation 1 ,318* ,275 -,075 ,223 -,168 -,100
Sig. (2-tailed) ,043 ,082 ,642 ,161 ,293 ,534
N 41 41 41 41 41 41 41
CD3 Pearson Correlation ,318* 1 ,732** -,142 ,390* -,298 -,450**
Sig. (2-tailed) ,043 ,000 ,377 ,012 ,058 ,003
N 41 41 41 41 41 41 41
CD4 Pearson Correlation ,275 ,732** 1 -,739** ,864** -,148 -,394*
Sig. (2-tailed) ,082 ,000 ,000 ,000 ,357 ,011
N 41 41 41 41 41 41 41
CD8 Pearson Correlation -,075 -,142 -,739** 1 -,892** ,046 ,086
Sig. (2-tailed) ,642 ,377 ,000 ,000 ,776 ,594
N 41 41 41 41 41 41 41
CD4CD8 Pearson Correlation ,223 ,390* ,864** -,892** 1 -,101 -,211
Sig. (2-tailed) ,161 ,012 ,000 ,000 ,529 ,185
N 41 41 41 41 41 41 41
CD19 Pearson Correlation -,168 -,298 -,148 ,046 -,101 1 -,695**
Sig. (2-tailed) ,293 ,058 ,357 ,776 ,529 ,000
N 41 41 41 41 41 41 41
CD16 Pearson Correlation -,100 -,450** -,394* ,086 -,211 -,695** 1
Sig. (2-tailed) ,534 ,003 ,011 ,594 ,185 ,000
N 41 41 41 41 41 41 41
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Regresia liniară

• Regresia liniară este cea mai frecvent folosită.


• Are expresia, dată de ecuația dreptei.
• y = a + bx; f(x) = y; f : R → R
• y – variabila dependentă
• x – variabila independentă
• a – coeficientul de interceptare
• b – coeficientul de regresie
• Regresia cuantifică asociația între variabile și poate implica o
relație cauză - efect
Exemple
Lot general stadiul 1
80

70

60

y = 1,2038x - 35,519
50
cd4

40

30

20

10

0
0 10 20 30 40 50 60 70 80 90
Lot general stadiul 4
cd3

90

80

70

60 y = -0,9198x + 87,146

50
cd3

40

30

20

10

0
0 5 10 15 20 25 30
cd19
Lot gen stadiul 2
Regresia liniara
80

70

60 y = 6,5244x + 35,192

50
varsta

40

30

20

10

0
0 1 2 3 4 5 6 7
Lot general stadiul 3
raport

70

60

50

y = -0,1877x + 67,178

40
varsta

30

20

10

0
0 10 20 30 40 50 60 70
cd4
Regresia exponențială
• y = a ebx
• e = 2.781 (numarul lui Euler)
• R2 – arată cât de mult se potrivește modelul matematic ideal cu
datele experimentale

300

250

200
PSA

150

100

50
y = 0,7969e0,4891x

0
0 1 2 3 4 5 6 7 8 9 10
scor Gleason (GLT)
Regresia logaritmică
• y = a + b logx
• lgx = log10x
• lnx = logex ; e = 2.781
• Logaritmul valorii = rangul valorii
• ex.: lg1000 = lg103 = 3
• Logaritmii pot fi folosiți pentru uniformizarea datelor

Relatia intre IL-2 si TNF alfa in PAR la lotul studiat

50

40
y = -11.187Ln(x) + 37.412
TNF alfa

30
R2 = 0.7165
20

10

0
0 5 10 15 20 25 30
IL-2
300

250

200 Regresia polinomială


PSA

150

100

y = 0,2192x2 - 29,039x + 972,83

50

0
0 10 20 30 40 50 60 70 80 90 100
varsta

Relatia intre OCH1E5 si CK19 in hepatocarcinom

3.5 3 2
y = 1.3097x - 6.4633x + 7.4036x + 0.75
3
R2 = 0.3497; r = - 0.33; p = 0.05; n = 33
2.5
2
CK19 1.5

• Regresia polinomială 1
0.5

• y = a1xn + a2xn-1 + … + anx + an+1 0


-0.5 0 0.5 1 1.5 2 2.5 3 3.5
• n = 3 → y = a1x + a2x + a3x + a4
3 2 -1
OCH1E5
• n = 2 → y = a1x + a2x + a3
2

• Tip particular de regresie multiplă : y = a1x1 + a2x2 + … + anxn + b


• Binomul lui Newton (a + b)n
Regresia polinomială

Graficul de regresie polinomiala pentru


valorile logaritmice ale IL-2
Uniformizarea datelor utilizând
2
100 y = -0.8725x + 4.4339x + 20.749 rangul valorii (log zecimal)
R2 = 0.4497

10
Media

1
Graficul de regresie polinomiala pentru
0 2 4 6 8 10
valorile medii ale IL-2

0.1 y = -0.8725x 2 + 4.4339x + 20.749


50 R2 = 0.4497
40
Media
30
20

10

0
0 2 4 6 8 10
Regresia multiplă

• Scopul regresiei multiple (termen utilizat de Pearson, 1908)


este de a evidenţia relaţia dintre o variabilă dependentă
(explicată, endogenă, rezultativă) şi o mulţime de variabile
independente (explicative, factoriale, exogene, predictori).
• Prin utilizarea regresiei multiple se încearcă, adesea,
obţinerea răspunsului la una dintre întrebările: “care este cea
mai bună predicţie pentru …?”, “cine este cel mai bun
predictor pentru …?” .
• De reţinut că metoda regresiei multiple este generalizată
prin teoria “modelului liniar general”, în care se permit mai
multe variabile dependente simultan şi, de asemenea,
variabile factoriale care nu sunt independente liniar.
Regresia multiplă

• Clasa modelelor liniare poate fi exprimată prin: y = x α + ε, unde:


• • y este variabila dependentă (explicată, endogenă, rezultativă),
• • x este vectorul variabilelor independente (explicative, exogene), de
• dimensiune p
• • α este vectorul coeficienţilor, de dimensiune p , parametrii
modelului,
• • ε este o variabilă, interpretată ca eroare (perturbare, eroare de
măsurare, etc.).
• Cu alte cuvinte: y = α1 x1+2 x2+…+pxp +ε care exprimă relaţia
liniară dintre y şi x.
• Observam ca liniaritatea relaţiei se referă la coeficienţi şi nu la
variabile. De asemenea pentru p = 2 şi x1 ≡ 1 se obţine modelul
liniar simplu, dreapta de regresie.Utilitatea principală a unui model
liniar este aceea a predicţiei valorii lui y din valorile cunoscute ale
variabilelor x.
Principalele probleme urmărite sunt:

• estimarea coeficienţilor α,
• calitatea estimării,
• verificarea ipotezelor,
• calitatea predicţiei,
• alegerea modelului
Estimaţia prin cele mai mici pătrate

• Numim estimaţie (ajustare) a modelului orice soluţie {a, e} a sistemului:


y = Xa + e.
• Este de remarcat că sistemul conţine n ecuaţii şi p + n necunoscute, deci
• admite o infinitate de soluţii. Numim estimaţie prin cele mai mici pătrate, acea
soluţie a care minimizează suma pătratelor erorilor ei, adică :
n n

i =1
ei2 = [ y
i =1
i − (a i x i1 + a 2 x i 2 + ... + a p x ip )]2

• Cum este o funcţie de coeficienţii a, o condiţie necesară pentru atingerea


maximului este  (ee) : =0
a

• Se obţine a = (X'X)-1X'y, şi se demonstrează că este îndeplinit criteriul de minim şi


că este singura valoare cuaceastă proprietate adică valorile determinate reprezintă
estimaţia prin cele mai mici pătrate a coeficienţilor modelului liniar.
• Ecuaţia y = ai xi1 + a 2 xi 2 + ... + a p xip se numeşte ecuaţia de regresie multiplă.
• Înlocuind în această relaţie valori pentru variabilele independente xi se obţine
valoarea prognozată pentru variabila dependentă y.
Interpretarea coeficienţilor

• Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi


• produce o modificare a valorii y cu ai unităţi. Deoarece scalele de măsură
sunt, în general, diferite, interpretarea în acest sens a coeficienţilor poate
deforma imaginea importanţei variabilelor independente în model. Din
acest motiv se introduc coeficienţii de regresie standardizaţi definiţi drept
coeficienţii de regresie estimaţi ai modelului:
y = 1 x1 +  2 x 2 + .........+  p x p

• în care nu există termen liber, iar variabilele y şi x i sunt variabilele


standardizate, prin standardizare înţelegându-se transformarea de tipul:
x = ( x − xmed ) / s x
• Coeficienţii de regresie standardizaţi au interpretarea: modificarea cu o
abatere standard a valorii variabilei x produce o modificare cu βi abateri
standard a valorii variabilei dependente. În acest fel, mărimea coeficienţilor
standardizaţi reflectă importanţa variabilelor independente în predicţia lui y.
Estimaţia dispersiei erorilor (σ2)

• Notând cu ŷ valoarea ajustată, dată de ecuaţia de regresie,


pentru o realizare a vectorului x, considerată la estimarea
parametrilor, se obţine eroarea de ajustare, notată cu e:
ei = yi - ŷi, i = 1,…,n.
• Erorile de ajustare sunt denumite uzual reziduuri şi analiza lor
este o parte importantă studiului calitativ al ecuaţiei de
regresie.
Exemple

Ecuația este: PSA= 1,77*vasta+12,08*scor Gleason-166,94

Pentru coeficienți se observă în tabel probabilități : 2,7E-06; 1,06E-10; 2,22E-09 care sunt
mai mici decât 0.01.Se remarcă și valori bune și pentru R2 (0,47959) si R(0,692524). Tabelul
ANOVA dă și el un coeficient Fisher foarte bun ( F= 44,69571), cu o semnificație foarte bună,
p<0.01
Se observă că și reprezentările grafice ale reziduurilor pentru x 1 și x 2 sunt
bune ( tip bandă), ca și curba probabilităților de altfel.

X Variable 1 Residual Plot

200
Residuals

0
0 20 40 60 80 100
-200
X Variable 1

Normal Probability Plot

400

Y
200
0
0 20 40 60 80 100 120
Sample Percentile
X Variable 2 Residual Plot

200
Residuals

0
0 2 4 6 8 10
-200
X Variable 2
Exemple
Cea mai bună regresie

• Procesul de selectare a celei mai bune regresii are loc în contextul în


care există o variabilă dependentă y şi o mulţime de variabile
independente posibile x.
• Problema poate fi formulată și astfel:
• Care este acea submulţime minimală de variabile independente care
permite estimarea unui model liniar semnificativ şi adecvat valorilor
observate y?
• Etapele selectării celei mai bune regresii sunt:
• 1. Se identifică toate variabilele independente posibile (cu alte
cuvinte se specifică modelul maxim).
• 2. Se specifică criteriul de selectare a celei mai bune regresii.
• 3. Se specifică o strategie pentru selectarea variabilelor
independente.
• 4. Se realizează estimarea şi analiza modelului.
• 5. Se evaluează reliabilitatea modelului ales.
Regresia logistică

Se folosește mai mult pentru predicții privind evoluția


economică, posibilitatea achiziționării unui anumit produs nou
pe piață, marketing, activități imobiliare, etc.
In medicină, au fost unele încercări ( studii C. Băicuș), dar au
rămas la acest stadiu.
Viitorul poate oferi multe surpize....

S-ar putea să vă placă și