Documente Academic
Documente Profesional
Documente Cultură
REGRESIA LINIARĂ
CORELAȚIA PEARSON
- Existența unei asocieri pozitive între consumul de țigări și riscul de a avea cancer de plămân;
- Relația sau legătura existentă între timpul alocat studiului și nota obținută;
- Asocierea existentă între indicele de masă corporală și presiunea arterială sistolică exprimată prin regresia
liniară.
Regresia Liniară
Termenul de regresie a fost introdus de matematicianul Galton (1886). Metoda constă în determinarea
unei funcţii liniare f(x) = y_estimat = a + bx, care să aproximeze calculul valorilor y prin valorile x.
Metoda de calcul pentru parametrii dreptei de regresie, constă în definirea unei erori şi minimizarea
acesteia.
Considerăm că avem două şiruri de date corespunzătoare variabilelor aleatoare de interes X şi
respectiv Y.
În tabelul următor sunt prezentate cele două şiruri: X: x1 x2 …. xn
Y: y1 y2 … yn
Unele valori ale erorii i sunt pozitive, altele sunt negative, dar eroare există în toate cazurile când i
0. Pentru a nu pierde această informaţie se va folos pătratul erorii. Eroarea totală va fi formată din suma tuturor
n n
erorilor determinate de cele n valori experimentale:
i a b xi y i 2
2
i 1 i 1
Această sumă a pătratelor diferenţelor este pozitivă. Astfel privind problema cu necunoscutele a
respectiv b, funcţia de gradul doi va admite un minim (fiind suma pătratelor va fi numai pozitivă). Eroarea totală
trebuie minimizată pentru a obţine o aproximare cât mai corectă a valorilor lui y funcţie de x. Condiţia este ca
derivata funcţie de fiecare variabilă în parte să fie zero. Obţinem astfel sistemul de ecuaţii:
n
a b xi y i 2
n
a 0 i 1 0 2 a b xi yi 0,
a i 1
n n
0 a b x y 2 2 a b x y x 0.
b i 1 i i
i 1 i i i
0
b
n
n X Y xi y i
b i 1
n a Y b X
n X x2 2
i
i 1 Media variabilei x respectiv media variabilei y
definesc un punct de pe linia de regresie
REGRESIE LINIARĂ
5 f(x)=Yestimat = a + bX
4.5 Y
4 Norul de puncte
3.5 reprezentat grafic
α
3
formează diagrama de f(0)= a
2.5
(xi,yi) dispersie. tg(α)=b
2 a
1.5
a
1 tg α = b = 0,628
X=0 X
0 1 2 3 4 5 6
Concluzie: În cadrul regresiei liniare coeficientul unei covariabile reprezintă efectul asupra ieșirii
(variabilei y) pentru o creștere a covariabilei cu un punct (evident măsurat în unitatea de măsură
stabilită) și păstrarea constantă a valorilor celorlalte covariabile. Atenție nu contează valoarea efectivă
a celorlalte covariabile – contează să nu fie modificate - indiferent de valoare.
Valoarea de un punct a covariabilei depinde de unitatea de măsură, poate fi : un an, o lună , o zi, un gram ,
1 Kg, 1 cm, 1 mmL etc.
Exemple de utilizare a pantei dreptei de regresie – ca efect asupra variabilei
dependente y.
Acesta este notat cu b0. Iată repetăm forma generală a dreptei de regresie pentru un model cu p covariabile:
Y=f(x1,x2,…xp)=b0+b1*x1+b2*x2+…bi*xi+…+bp*xp (A)
Dacă toate covariabilele X1, X2, …Xp au valoarea 0 deci x1=0, x2=0 ,,,xp=0 atunci f(0,0,…0)=b0. Practic b0
reprezintă ordonata de intersecție a dreptei – sau intersecția dreptei cu axa YY`.
De multe ori în practica medicală acest coeficient b0 nu are sens. Iată de exemplu să considerăm
x1=greutatea, x2=IMC-ul, x3=TAS…. etc.
Pot fi aceste valori 0 ? Evident nu – nu există persoană cu greutate=0, IMC=0 …etc.
Pentru a avea valori reale ale coeficientului b0, se poate considera pacientul ideal de greutate G=70 Kg,
TAS=120 … etc. Apoi se raportează toate celelalte covariabile la forma ideală. Astfel coeficientul b0 capătă sens
deoarece reprezintă ieșirea din sistem pentru pacientul ideal – practic s-a făcut o translare a graficului din
originea (0,0,0…) în noua origine (G=70Kg, TAS=120, …).
Corelație
Legătura liniară dintre două variabile aleatoare repartizare normal a fost descrisă ca model matematic de
dreapta de regresie. În unele situații practice variabila X poate fi controlată, adică ia anumite valori prestabilite.
Corelația caracterizează intensitatea legăturii dintre cele două variabile aleatoare.
Vom descrie coeficientul de corelație Pearson – coeficient de corelația liniară.
Menționăm că cele două variabile aleatoare trebuie să fie distribuite normal.
Se notează cu r dacă este determinat din eșantioane respectiv ρ (Ro) dacă este perfect măsurat (reprezintă
valoarea calculată din populație).
n
x x yi y
REȚINEȚI
i Corelația măsoară intensitatea legăturii dintre două
variabile aleatoare (puterea legăturii). Funcția este
r i 1
comutativă: r(x,y)=r(y,x) – comutativitate.
n n
x x yi y
2 2 Regresia reprezintă un model matematic – putem
i afla valoarea Y funcție de covariabilele Xi.
i 1 i 1
Y Y b<0 Y
b=0
r(x,y) < 0
r(x,y) = 0
b>0
r(x,y) > 0
X X X
Putem testa coeficienții dreptei de regresie – în special panta ne interesează dacă este sau nu diferită de 0.
- condiții necesare pentru a aplica aparatul matematic: relația este de tip liniar, datele sunt alese aleatoriu,
termenul de eroare este normal distribuit de medie 0 și deviație standard constantă de-a lungul axei XX’.
Ipotezele de lucru:
H0: b = 0 , panta este nulă – deci nu avem relație.
H1: b ≠ 0 , panta este diferită de 0.
𝑏−0
Se calculează statistica discriminantă 𝑡 = 𝑆𝐸𝑏 , SEb este eroarea standard a coeficientului b. Este de fapt o
distribuție de tip t sau Student cu n-2 grade de libertate (n este volumul eșantionului).
𝑛 ∈
𝑖=1 𝑖
Formula pentru eroarea standard este : SEb = 𝑛−2
𝑛 𝑥 −𝑥 2
.
𝑖=1 𝑖
Se poate calcula în final nivelul de semnificație - dacă p ≤ 0.05 avem confirmarea statistică a diferenței față de
0 a pantei dreptei de regresie.
Există o metodă asemănătoare pentru testarea termenului liber (a) al regresiei.
Există și o variantă de testare a întregului model, bazată pe analiza varianței (numită ANOVA) poate fi
aplicată. Condiția este aceeași – pentru p ≤ 0.05 avem confirmarea statistică a utilității sistemului.
Exemple:
http://en.wikipedia.org/wiki/File:Correlation_examples2.svg
MODELE NELINIARE DE REGRESIE
În practica de zi cu zi se întâlnesc des cazuri în care legătura de tip liniar dintre două variabile nu este
respectată şi reprezintă doar un aspect particular al realităţii. Se impune astfel dezvoltarea de metode de
deducere a legăturilor de tip neliniar existente între variabila de intrare notată x (numită şi variabilă
independentă sau factor) şi variabila y (numită şi variabilă dependentă).
Prezentăm în continuare câteva modele neliniare de interes pentru determinarea regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente
faţă de variabila x la puterea a doua, conţinând eventual un Y
termen liber şi eventual un termen x la puterea întâi. M
C>0
Expresia matematică este: y = a + b x + c x2 .
Funcţie de semnul parametrului de regresie c
parabola prezintă un punct de extrem. Dacă c > 0 parabola
prezintă un punct de minim notat cu ,,m” iar în cazul în care
m C<0
c < 0, punctul de extrem este un maxim notat cu ,,M”.
X
Calculul punctului de extrem este realizat din punct
de vedere matematic prin condiţia ca derivata întâi în raport 0
cu variabila x să fie egală cu zero.
Modele hiperbolice
Există modele în cadrul fenomenelor reale biologice care pot lua o formă hiperbolică. Exprimarea
matematică este: 𝒚 = 𝒂 + 𝒃/𝒙 , pentru x > 0.
Graficul funcţiei depinde de semnul coeficientului b (ca şi în celelalte cazuri). Pentru b < 0 avem
dependenţă crescătoare, curba tinzând asimptotic la valoarea a (y = a ) pentru x tinzând la infinit. Pentru b > 0
avem dependenţă descrescătoare şi curba tinde asimptotic tot la valoarea a pentru x tinzând la infinit.
Reprezentarea grafică a hiperbolei este realizată în figura următoare (pentru a pozitiv):
y=a+ b
x , pentru x > 0
Model exponenţial
Pentru x = 0 se obţine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obţine o curbă crescătoare iar pentru coeficientul b < 0 se obţine o curbă
descrescătoare.
y = a · exp(b·x)
Analiza de regresie multiplă
Legătura multiplă reprezintă o relaţie matematică în care există mai multe variabile factoriale sau
independente (independent, explanatory variable or covariates). Astfel, variabila dependentă (sau răspuns)
poate fi exprimată matematic cu formula: 𝑦 = 𝑓 𝑥𝑖 + 𝜖 , cu i având valori de la 1 la n (n reprezintă numărul de
variabile), iar ε reprezintă eroarea.
Sunt situaţii în care nu se cunosc care variabile să se ia în consideraţie în cadrul regresiei multiple.
Pentru a determina variabilele independente care au efect important asupra variabilei rezultative (y) se
calculează spre exemplu coeficientul de corelaţie r(xi,y) şi se aleg apoi acele variabile ce corespund valorilor
maxime ale acestui coeficient. Există şi alte metode de analiză discriminantă pentru alegerea variabilelor
factoriale de interes. Această alegere are un efect important asupra erorii sistemului, căci eliminând o parte din
variabile, aproximarea sistemului este mai ,,grosolană” .
Funcţia f(xi) poate fi liniară, ceea ce reprezintă cazul cel mai simplu sau dimpotrivă, poate depinde
neliniar de variabilele de interes.
În cadrul unei legături multiple liniare ecuaţia este de forma: yestimat = a0 + a1 x1 + a2 x2 + … + an xn
Fiecare coeficient ,,ai” reprezintă influenţa variabilei corespunzătoare xi, iar a0 (termenul liber)
reprezintă influenţa celorlalţi factori, care sunt consideraţi ca o acţiune constantă.
Dacă în coordonate bidimensionale regresia liniară este o dreaptă, în coordonate n-dimensionale
regresia liniară va reprezenta o suprafaţă multidimensională ce trece prin punctul valorilor medii ale variabilelor.
Observație – asupra valorilor numerice ale coeficientului de corelație respectiv pantei dreptei de regresie.
Coeficientul de corelație măsoară intensitatea relației liniare dintre două variabile aleatoare – este o valoare
standardizată între -1 și 1. Cu cât variabilitatea datelor este mai mare cu atât acest coeficient va fi mai mic.
Panta dreptei de regresie măsoară în medie dependenţa ca model matematic dintre variabila dependentă Y
şi covariabilele Xi.
Dacă din modelul matematic rezultă o dependență direct proporțională deci pantă pozitivă atunci sigur și
corelația va fi pozitivă (și invers).
Nu putem afirma că o pantă mare atrage după sine un coeficient de corelație mare (și reciproc pantă mică
corelație mică – este fals !).
Iată un exemplu grafic:
Pantele dreptelor de regresie sunt foarte apropiate:
b1=2.056 ; b2=2.003
- Diferă la a doua zecimală.
Coeficienții de corelație:
r1=0.809 ; r2=0.989
Diferențe mari !
Coeficienții de determinare:
(r1)^2=0.655 ;
(r2)^2=0.978.
Excel – funcții pentru calculul regresiei liniare și a corelației:
- Calcularea coeficienților
- Verificarea modelului prin teste statistice de ipoteză
Exemple de posibile întrebări de examen