Curs 7

CURS BIOSTATISTICĂ
Facultatea de Inginerie Medicală

Departamentul - Bioinginerie și
Biotehnologii
Universitatea Politehnica București
Ciclul de studii- MASTER
Curs 7
Analiza de regresie și corelație.

Aplicații practice
Corelația
• Reprezintă o legatură strict liniara între 2 variabile (x

și y)
• Arată forța asociației între variabile
• Nu implică o relație cauză – efect !
• Notat r cunoscut drept coeficientul de corelație al lui
Pearson
• Se utilizează pentru valori normal distribuite
(uniforme); pentru cele neuniforme se utilizează
coeficientul de corelație Spearman
Corelația
r = 1; corelație perfecta r = 0; nicio corelație r = 0; nicio corelație
Corelatia intre ER si PgR (n = 261)

y = 0,5172x + 0,0882
100% r = 0.5, p < 0.001
Este independentă de
80%
unitatea de măsură și Corelație bună, nor
60%
nu se utilizează decăt de puncte cu aspect
PgR
pentru valori normal 40%

trapezoidal
distribuite 20%
0%
0% 20% 40% 60% 80% 100%
ER
Corelația
• r = ∑ (xi -μx) (yi - μy) / √ ∑ (xi - μx)2 ∑ (yi - μy)2 i=1,…n

• μx , μy - media valorilor xi , yi
Clasificare:
• r є [0; 0.2] → corelație foarte slabă
• r є [0.2; 0.4] → corelație slabă
• r є [0.4; 0.6] → corelație rezonabilă
• r є [0.6; 0.8] → corelație înaltă
• r є [0.8; 1] → corelație foarte înaltă → relație foarte strânsă
între variabile sau eroare de calcul !
Corelația Spearman
• Este o extensie a coeficientului de corelație Pearson în care valorile

variabilelor corelate sunt înlocuite cu rangurile lor corespunzătoare,
în cazul în care valorile variabilei studiate sunt calitative sau sunt
neuniform distribuite. El se calculează după relația:
6 d i
2
 = 1− i
n( n 2 − 1)
• unde d i - reprezintă diferența între rangurile valorilor variabilelor

corelate, d i = Rx − R y , i = 1, n , n numărul de observații.
i i
Corelația multiplă
• Coeficientul de corelație multiplă se determină cu ajutorul
coeficienților de corelație simplă dintre variabilele perechi. (de
exemplu putem exprima astfel legătura dintre o variabilă y si două
sau mai multe variabile independente)
• Exemple în Excel și SPSS
Exemple
Correlations
age CD3 CD4 CD8 CD4CD8 CD19 CD16

age Pearson Correlation 1 ,318* ,275 -,075 ,223 -,168 -,100
Sig. (2-tailed) ,043 ,082 ,642 ,161 ,293 ,534
N 41 41 41 41 41 41 41
CD3 Pearson Correlation ,318* 1 ,732** -,142 ,390* -,298 -,450**
Sig. (2-tailed) ,043 ,000 ,377 ,012 ,058 ,003
N 41 41 41 41 41 41 41
CD4 Pearson Correlation ,275 ,732** 1 -,739** ,864** -,148 -,394*
Sig. (2-tailed) ,082 ,000 ,000 ,000 ,357 ,011
N 41 41 41 41 41 41 41
CD8 Pearson Correlation -,075 -,142 -,739** 1 -,892** ,046 ,086
Sig. (2-tailed) ,642 ,377 ,000 ,000 ,776 ,594
N 41 41 41 41 41 41 41
CD4CD8 Pearson Correlation ,223 ,390* ,864** -,892** 1 -,101 -,211
Sig. (2-tailed) ,161 ,012 ,000 ,000 ,529 ,185
N 41 41 41 41 41 41 41
CD19 Pearson Correlation -,168 -,298 -,148 ,046 -,101 1 -,695**
Sig. (2-tailed) ,293 ,058 ,357 ,776 ,529 ,000
N 41 41 41 41 41 41 41
CD16 Pearson Correlation -,100 -,450** -,394* ,086 -,211 -,695** 1
Sig. (2-tailed) ,534 ,003 ,011 ,594 ,185 ,000
N 41 41 41 41 41 41 41
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).
Regresia liniară
• Regresia liniară este cea mai frecvent folosită.

• Are expresia, dată de ecuația dreptei.
• y = a + bx; f(x) = y; f : R → R
• y – variabila dependentă
• x – variabila independentă
• a – coeficientul de interceptare
• b – coeficientul de regresie
• Regresia cuantifică asociația între variabile și poate implica o
relație cauză - efect
Exemple
Lot general stadiul 1
80
70
60
y = 1,2038x - 35,519
50
cd4
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90
cd3
90
80
70
60 y = -0,9198x + 87,146
50
cd3
40
30
20
10
0
0 5 10 15 20 25 30
cd19
Lot gen stadiul 2
Regresia liniara
80
70
60 y = 6,5244x + 35,192
50
varsta
40
30
20
10
0
0 1 2 3 4 5 6 7
raport
70
60
50
y = -0,1877x + 67,178
40
varsta
30
20
10
0
0 10 20 30 40 50 60 70
cd4
Regresia exponențială
• y = a ebx
• e = 2.781 (numarul lui Euler)
• R2 – arată cât de mult se potrivește modelul matematic ideal cu
datele experimentale
300
250
200
PSA
150
100
50
y = 0,7969e0,4891x
0
0 1 2 3 4 5 6 7 8 9 10
scor Gleason (GLT)
Regresia logaritmică
• y = a + b logx
• lgx = log10x
• lnx = logex ; e = 2.781
• Logaritmul valorii = rangul valorii
• ex.: lg1000 = lg103 = 3
• Logaritmii pot fi folosiți pentru uniformizarea datelor
Relatia intre IL-2 si TNF alfa in PAR la lotul studiat
50
40
y = -11.187Ln(x) + 37.412
TNF alfa
30
R2 = 0.7165
20
10
0
0 5 10 15 20 25 30
IL-2
300
250
200 Regresia polinomială

PSA
150
100
y = 0,2192x2 - 29,039x + 972,83
50
0
0 10 20 30 40 50 60 70 80 90 100
varsta
Relatia intre OCH1E5 si CK19 in hepatocarcinom
3.5 3 2
y = 1.3097x - 6.4633x + 7.4036x + 0.75
3
R2 = 0.3497; r = - 0.33; p = 0.05; n = 33
2.5
2
CK19 1.5
• Regresia polinomială 1
0.5
• y = a1xn + a2xn-1 + … + anx + an+1 0

-0.5 0 0.5 1 1.5 2 2.5 3 3.5
• n = 3 → y = a1x + a2x + a3x + a4
3 2 -1
OCH1E5
• n = 2 → y = a1x + a2x + a3
2
• Tip particular de regresie multiplă : y = a1x1 + a2x2 + … + anxn + b

• Binomul lui Newton (a + b)n
Regresia polinomială
Graficul de regresie polinomiala pentru

valorile logaritmice ale IL-2
Uniformizarea datelor utilizând
2
100 y = -0.8725x + 4.4339x + 20.749 rangul valorii (log zecimal)
R2 = 0.4497
10
Media
1
Graficul de regresie polinomiala pentru
0 2 4 6 8 10
valorile medii ale IL-2
0.1 y = -0.8725x 2 + 4.4339x + 20.749

50 R2 = 0.4497
40
Media
30
20
10
0
0 2 4 6 8 10
Regresia multiplă
• Scopul regresiei multiple (termen utilizat de Pearson, 1908)

este de a evidenţia relaţia dintre o variabilă dependentă
(explicată, endogenă, rezultativă) şi o mulţime de variabile
independente (explicative, factoriale, exogene, predictori).
• Prin utilizarea regresiei multiple se încearcă, adesea,
obţinerea răspunsului la una dintre întrebările: “care este cea
mai bună predicţie pentru …?”, “cine este cel mai bun
predictor pentru …?” .
• De reţinut că metoda regresiei multiple este generalizată
prin teoria “modelului liniar general”, în care se permit mai
multe variabile dependente simultan şi, de asemenea,
variabile factoriale care nu sunt independente liniar.
Regresia multiplă
• Clasa modelelor liniare poate fi exprimată prin: y = x α + ε, unde:

• • y este variabila dependentă (explicată, endogenă, rezultativă),
• • x este vectorul variabilelor independente (explicative, exogene), de
• dimensiune p
• • α este vectorul coeficienţilor, de dimensiune p , parametrii
modelului,
• • ε este o variabilă, interpretată ca eroare (perturbare, eroare de
măsurare, etc.).
• Cu alte cuvinte: y = α1 x1+2 x2+…+pxp +ε care exprimă relaţia
liniară dintre y şi x.
• Observam ca liniaritatea relaţiei se referă la coeficienţi şi nu la
variabile. De asemenea pentru p = 2 şi x1 ≡ 1 se obţine modelul
liniar simplu, dreapta de regresie.Utilitatea principală a unui model
liniar este aceea a predicţiei valorii lui y din valorile cunoscute ale
variabilelor x.
Principalele probleme urmărite sunt:
• estimarea coeficienţilor α,
• calitatea estimării,
• verificarea ipotezelor,
• calitatea predicţiei,
• alegerea modelului
Estimaţia prin cele mai mici pătrate
• Numim estimaţie (ajustare) a modelului orice soluţie {a, e} a sistemului:

y = Xa + e.
• Este de remarcat că sistemul conţine n ecuaţii şi p + n necunoscute, deci
• admite o infinitate de soluţii. Numim estimaţie prin cele mai mici pătrate, acea
soluţie a care minimizează suma pătratelor erorilor ei, adică :
n n
i =1
ei2 = [ y
i =1
i − (a i x i1 + a 2 x i 2 + ... + a p x ip )]2
• Cum este o funcţie de coeficienţii a, o condiţie necesară pentru atingerea

maximului este  (ee) : =0
a
• Se obţine a = (X'X)-1X'y, şi se demonstrează că este îndeplinit criteriul de minim şi

că este singura valoare cuaceastă proprietate adică valorile determinate reprezintă
estimaţia prin cele mai mici pătrate a coeficienţilor modelului liniar.
• Ecuaţia y = ai xi1 + a 2 xi 2 + ... + a p xip se numeşte ecuaţia de regresie multiplă.
• Înlocuind în această relaţie valori pentru variabilele independente xi se obţine
valoarea prognozată pentru variabila dependentă y.
Interpretarea coeficienţilor
• Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi

• produce o modificare a valorii y cu ai unităţi. Deoarece scalele de măsură
sunt, în general, diferite, interpretarea în acest sens a coeficienţilor poate
deforma imaginea importanţei variabilelor independente în model. Din
acest motiv se introduc coeficienţii de regresie standardizaţi definiţi drept
coeficienţii de regresie estimaţi ai modelului:
y = 1 x1 +  2 x 2 + .........+  p x p
• în care nu există termen liber, iar variabilele y şi x i sunt variabilele

standardizate, prin standardizare înţelegându-se transformarea de tipul:
x = ( x − xmed ) / s x
• Coeficienţii de regresie standardizaţi au interpretarea: modificarea cu o
abatere standard a valorii variabilei x produce o modificare cu βi abateri
standard a valorii variabilei dependente. În acest fel, mărimea coeficienţilor
standardizaţi reflectă importanţa variabilelor independente în predicţia lui y.
Estimaţia dispersiei erorilor (σ2)
• Notând cu ŷ valoarea ajustată, dată de ecuaţia de regresie,

pentru o realizare a vectorului x, considerată la estimarea
parametrilor, se obţine eroarea de ajustare, notată cu e:
ei = yi - ŷi, i = 1,…,n.
• Erorile de ajustare sunt denumite uzual reziduuri şi analiza lor
este o parte importantă studiului calitativ al ecuaţiei de
regresie.
Exemple
Ecuația este: PSA= 1,77*vasta+12,08*scor Gleason-166,94
Pentru coeficienți se observă în tabel probabilități : 2,7E-06; 1,06E-10; 2,22E-09 care sunt
mai mici decât 0.01.Se remarcă și valori bune și pentru R2 (0,47959) si R(0,692524). Tabelul
ANOVA dă și el un coeficient Fisher foarte bun ( F= 44,69571), cu o semnificație foarte bună,
p<0.01
Se observă că și reprezentările grafice ale reziduurilor pentru x 1 și x 2 sunt
bune ( tip bandă), ca și curba probabilităților de altfel.
X Variable 1 Residual Plot
200
Residuals
0
0 20 40 60 80 100
-200
X Variable 1
Normal Probability Plot
400
Y
200
0
0 20 40 60 80 100 120
Sample Percentile
X Variable 2 Residual Plot
200
Residuals
0
0 2 4 6 8 10
-200
X Variable 2
Exemple
Cea mai bună regresie
• Procesul de selectare a celei mai bune regresii are loc în contextul în

care există o variabilă dependentă y şi o mulţime de variabile
independente posibile x.
• Problema poate fi formulată și astfel:
• Care este acea submulţime minimală de variabile independente care
permite estimarea unui model liniar semnificativ şi adecvat valorilor
observate y?
• Etapele selectării celei mai bune regresii sunt:
• 1. Se identifică toate variabilele independente posibile (cu alte
cuvinte se specifică modelul maxim).
• 2. Se specifică criteriul de selectare a celei mai bune regresii.
• 3. Se specifică o strategie pentru selectarea variabilelor
independente.
• 4. Se realizează estimarea şi analiza modelului.
• 5. Se evaluează reliabilitatea modelului ales.
Regresia logistică
Se folosește mai mult pentru predicții privind evoluția

economică, posibilitatea achiziționării unui anumit produs nou
pe piață, marketing, activități imobiliare, etc.
In medicină, au fost unele încercări ( studii C. Băicuș), dar au
rămas la acest stadiu.
Viitorul poate oferi multe surpize....

Curs 7

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 7

Încărcat de

Drepturi de autor:

Formate disponibile

CURS BIOSTATISTICĂ

Facultatea de Inginerie Medicală

Analiza de regresie și corelație.

• Reprezintă o legatură strict liniara între 2 variabile (x

r = 1; corelație perfecta r = 0; nicio corelație r = 0; nicio corelație

Corelatia intre ER si PgR (n = 261)

pentru valori normal 40%

• r = ∑ (xi -μx) (yi - μy) / √ ∑ (xi - μx)2 ∑ (yi - μy)2 i=1,…n

• Este o extensie a coeficientului de corelație Pearson în care valorile

• unde d i - reprezintă diferența între rangurile valorilor variabilelor

age CD3 CD4 CD8 CD4CD8 CD19 CD16

• Regresia liniară este cea mai frecvent folosită.

Relatia intre IL-2 si TNF alfa in PAR la lotul studiat

200 Regresia polinomială

y = 0,2192x2 - 29,039x + 972,83

Relatia intre OCH1E5 si CK19 in hepatocarcinom

• y = a1xn + a2xn-1 + … + anx + an+1 0

• Tip particular de regresie multiplă : y = a1x1 + a2x2 + … + anxn + b

Graficul de regresie polinomiala pentru

0.1 y = -0.8725x 2 + 4.4339x + 20.749

• Scopul regresiei multiple (termen utilizat de Pearson, 1908)

• Clasa modelelor liniare poate fi exprimată prin: y = x α + ε, unde:

• Numim estimaţie (ajustare) a modelului orice soluţie {a, e} a sistemului:

• Cum este o funcţie de coeficienţii a, o condiţie necesară pentru atingerea

• Se obţine a = (X'X)-1X'y, şi se demonstrează că este îndeplinit criteriul de minim şi

• Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi

• în care nu există termen liber, iar variabilele y şi x i sunt variabilele

• Notând cu ŷ valoarea ajustată, dată de ecuaţia de regresie,

Ecuația este: PSA= 1,77*vasta+12,08*scor Gleason-166,94

X Variable 1 Residual Plot

Normal Probability Plot

• Procesul de selectare a celei mai bune regresii are loc în contextul în

Se folosește mai mult pentru predicții privind evoluția

S-ar putea să vă placă și

Ecuația este: PSA= 1,77vasta+12,08scor Gleason-166,94