Sunteți pe pagina 1din 17

Corelatii

Introducere
Organismul uman este de departe cel mai complex sistem cunoscut de noi n univers. n functionarea unui sistem sunt importante cunoasterea parametrilor de functionare ai acestuia. De-a lungul timpului, oamenii de stiinta au studiat sistemele considernd ca acestea sunt caracterizate de un numar mai mic sau mai mare de asa-numiti parametri interni ai sistemului care caracterizeaza starea acestuia. n functie de starea sistemului la un moment dat, el poate reactiona ntr-un fel sau altul la asa-numitele variabile de intrare, facnd sistemul sa treaca ntr-o alta stare si, eventual sa produca anumite variabile de iesire. Daca ar fi sa facem o paralela, atunci pentru organismul uman variabilele de intrare sunt conditiile de mediu, att cele care se refera la conditiile n care organismul traieste si si desfasoara activitatea ct si actiuni mai mult sau mai putin momentane asupra lui cum ar fi actiunile permanente si vitale ca satisfacerea nevoilor de sete, foame, relatiile cu semenii, etc. Parametrii interni ar fi, daca am continua aceasta paralela, toate acele marimi care caracterizeaza starea organismului att momentan ct si ca evolutie n timp. Variabilele de iesire ar fi actiunile fiintei umane ca raspuns la conditiile de mediu. Aceasta paralela ar putea fi continuata printr-un studiu mai amanuntit al interrelatiilor care se nasc n mod natural ntre toate variabilele de intrare si de iesire, conditionate mai mult sau mai putin de parametrii interni. Din pacate acest mod de abordare a organismului uman pune probleme att de complexe nct rezultatele concrete care eventual s-ar putea obtine dintr-o astfel de abordare s-ar lasa foarte mult asteptate.Organismul uman este att de complex nct nu se poate pune problema de a l cuprinde n ecuatii si formule orict de complexe, cuprinzatoare si numeroase ar fi ele. De aceea, suntem obligati la a aborda un eventual studiu din perspectiva teoriei sistemelor al organismului uman sa procedam simplificator si sa ncercam: Fie studiul prin formule a relatiilor mai simple care se nasc n interiorul organismului uman atunci cnd separam n masura posibilului subsisteme mai simple, cum ar fi sistemul reglarii setei, al foamei, reflexe simple etc. De fapt si aceste sisteme, orict de simple ni s-ar parea la prima vedere nu pot fi modelate dect prin simplificari si aproximari care sa nu altereze prea mult esentialul si sa fie rezonabile din punctul de vedere al eventualului efort de calcul. Fie separarea unui numar restrns de parametri interni ntre care se cauta corelatiile mai mult sau mai putin asteptate. Vom cauta binenteles sa stabilim daca odata cu variatia unuia sau mai multor parametri regasim o variatie corespunzatoare a altor parametri, care n felul acesta pot fi cumva studiati avnd n vedere aceste corelatii pe care eventual le-am gasi.

9.2 Notiunea de corelatie


Functionarea organismul ca un tot unitar este conditionata de conlucrarea ntr-o armonie perfecta a unei miriade de factori, multi dintre ei nca necunoscuti. Legaturile dintre ei sunt de o complexitate ce ne scapa deocamdata pe alocuri. Cunoasterea umana, cu toate progresele facute, a reusit sa de 21421w2211v zvaluie ceea ce am putea numi valul exterior al proceselor complexe din organism. Ramn de studiat

corelatii pe care acum nici nu le banuim sau pe care le cunoastem doar superficial si trebuie sa le aprofundam. Pentru a explica notiunea de corelatie, vom exemplifica cteva legaturi ntre parametri de macrosistem, adica parametri ce caracterizeaza organismul n totalitatea lui sau sistemele mai importante din organism. Astfel, stim cu totii ca exista o corelatie ntre tensiunea arteriala sistolica si cea diastolica. Ce nseamna acest fapt? nseamna ca tendinta de crestere a tensiunii sistolice, este nsotita de o tendinta de crestere si a tensiunii diastolice, iar tendinta de scadere a primeia este nsotita de o tendinta de scadere a celei de-a doua. Tot astfel, alte perechi de parametri manifesta o comportare asemanatoare: greutatea si naltimea, numarul de eritrocite si hemoglobina, vitezele de sedimentare a hematiilor la o ora si la doua ore, colesterolemia si lipemia, etc. Trebuie subliniat ca variatia concomitenta a celor doi parametri se manifesta numai ca tendinta, nu este o regula. Pot exista indivizi cu tensiunea sistolica foarte mare si cea diastolica normala sau invers, indivizi cu tensiunea sistolica normala si cea diastolica scazuta. Totusi, majoritatea indivizilor manifesta tendinta de a avea valori crescute sau scazute, pentru ambele concomitent. Definitie: Vom spune ca doi parametri care au tendinta de a creste sau descreste simultan sunt direct corelati. Asa cum a fost data mai sus, notiunea de corelatie se refera la tendinta de crestere sau descrestere simultana a doi parametri indiferent ct de puternica sau de slaba este aceasta tendinta. Vom vedea mai departe ca este nevoie de o cuantificare a tariei corelatiei ntre doi parametri, altfel discutiile nu pot fi nuantate si corelatia ar fi o notiune prea putin utila. Pe de alta parte, exista cazuri n care doi parametri se coreleaza prin cresterea unuia nsotita de o tendinta de descrestere a celuilalt. Astfel, cresterea concentratiei hormonului tiroidian T4, este nsotita de o scadere a frecventei cardiace. Acesti doi parametri sunt un exemplu de corelatie inversa. Definitie: Vom spune ca doi parametri sunt corelati invers daca au tendinta ca, odata cu cresterea sau descresterea unuia, celalalt sa descreasca sau sa creasca. (au tendinta inversa de variatie). Trebuie facute cteva observatii care sa clarifice cele introduse mai sus si sa evite o folosire abuziva a termenului de corelatie: Corelatiile le vom cauta pentru parametri care pot fi masurati cantitativ si deci sunt exprimati prin numere. Nu vom cauta corelatii, cel putin nu n sensul definitiei de mai sus ntre parametri calitativi care se exprima prin simboluri nenumerice, adica care produc date nominale sau ordinale.

Tendinta de corelatie o putem ntelege n mai multe sensuri dintre care doua intereseaza mai mult domeniul medicinii:

Tendinta unui parametru de a se schimba de la pacient la pacient poate fi nsosita de tendinta altui parametru de a se schimba n acelasi sens sau invers Corelatii n sensul ca un parametru variaza la acelasi individ, de exemplu n timp, si variatia este nsotita de o variatie corepunzatoare a altui parametru, la acelasi pacient

Exemple de situatii n care avem corelatie ntre doi parametri sunt redate n figurile 9.1, 9.2 si 9.3. n figura 9.1, sunt reprezentate valorile bilirubinei totale si ale bilirubinei directe la 235 de pacienti cu ciroze hepatice si cancer hepatic. Se observa o corelatie extrem de puternica, din forma norului de puncte care este extrem de alungit si subtire.

Figura 9.1 Valorile bilirubinei totale si ale bilirubinei directe la 235 de pacienti cu ciroze hepatice si cancer hepatic. Se observa o corelatie extrem de puternica, din forma norului de puncte care este extrem de alungit si subtire
n figura 9.2, sunt reprezentate valorile pentru hormonul tiroidian T4 si cele ale hormonului T3, la 9 pacienti cu hipertiroidie si 9 pacienti hipotiroidie. Valorile sunt puternic corelate, fapt care se observa din forma norului dublu de puncte care se aliniaza de-a lungul unei linii aproape drepte. Faptul ca norul este ntrerupt nu are o relevanta prea mare n acest caz. La mijlocul norului de puncte lipsesc de fapt valorile normale. Pacientii pentru care s-au facut masuratorile, avnd diferite forme de tiroidii, valorile pentru cei doi hormoni sunt extreme.

Figura 9.2 Valorile pentru hormonul tiroidian T4 si cele ale hormonului T3, la 9 pacienti cu hipertiroidie si 9 pacienti hipotiroidie. Valorile sunt puternic corelate, fapt care se observa din forma norului dublu de puncte care se aliniaza de-a lungul unei linii aproape drepte.
n figura 9.3 este dat un alt exemplu de pereche de parametri care se coreleaza puternic: VSH la o ora si VSH la doua ore. Norul foarte alungit si subtire, arata tendinta de corelatie. Cele cteva puncte care sunt mult n afar norului, tradeaza erori de introducere adatelor. Acest exemplu ne spune si ca unele din valorile aberante pot fi oservate pe graficul de corelatie.

Figura 9.3 VSH la o ora si VSH la doua ore. Norul foarte alungit si subtire, arata tendinta de corelatie
n figura 9.4 se observa ca ntre valorile sodiului seric si potasiului seric ale pacientilor cu afectiuni hepato-renale nu exista nici o corelatie, deoarece datele sunt distribuite aproximativ ntmplator. Nu se poate observa o tendinta clara ca punctele graficului sa fie asezate ntr-un fel anume, n afara de tendinta naturala ca densitatea sa fie mai mare n mijloc, tendinta care se poate observa n general, la majoritatea datelor n medicina si biologie si nu numai. Pe de alta parte, tendinta punctelor de a se aseza ntr-un singur nor, arata omogenitatea seriei de valori.

Figura 9.4 Valorile sodiului seric si potasiului seric la 235 de pacienti cu afectiuni hepato-renale. Nu exista corelatie, deoarece punctele norului sunt distribuite ntmplator.
n ce priveste graficul punctual (SCATTER), se va urmari totdeauna trei tipuri diferite de informatie pe care acesta ni le poate oferi: daca cele doua serii de valori sunt corelate (Corelatia). daca esantionul pe care s-au facut masuratorile este omogen sau este eterogen (Omogenitatea). anumite informatii despre simetria distributiei celor doua serii de valori (Simetria). Exemple: n graficul din figura 9.4 se observa ca ntre valorile sodiului seric si potasiului seric ale pacientilor cu afectiuni hepato-renale nu exista nici o corelatie, deoarece datele sunt distribuite aproximativ ntmplator. Nu se poate observa o tendinta clara ca punctele graficului sa fie asezate ntr-un fel anume, n afara de tendinta naturala ca densitatea sa fie mai mare n mijloc, tendinta care se poate observa n general, la majoritatea datelor n medicina si biologie si nu numai. Pe de alta parte, tendinta punctelor de a se aseza ntr-un singur nor, arata omogenitatea seriei de valori. n graficul din figura 9.1, se observa ca ntre valorile bilirubinei totale si bilirubinei directe ale pacientilor cu ciroze si cancere hepatice exista o corelatie puternica, deoarece datele sunt distribuite aproximativ de-a lungul unei linii drepte. De asemeni, esantionul este omogen, ca si n cazul graficului 1, lucru care se observa din faptul ca norul de puncte nu are tendinta de a se divide n doi nori diferiti. Pe de alta parte se vede ca norul este mult mai dens n stnga jos. Deci, valorile din seria bilirubinei totale (orizontala), sunt distribuite asimetric (valori mai multe n stnga = asimetrie dreapta). La fel, valorile din seria bilirubinei directe (verticala), sunt mai dense jos, la valori mici, deci sunt distribuite tot asimetric (asimetrie dreapta).

n figura 9.2, se observa ca ntre valorile hormonilor tiroidieni T4 si T3 ale pacientilor cu diferite forme de tiroidism exista o corelatie datele fiind distribuite tot de-a lungul unei linii, chiar daca este discontinua. De asemeni, se observa ca distributia lor este grupata: o grupa cu valori mici pentru cei doi hormoni indicnd hipotiroidienii si o grupa cu valori mari pentru cei doi hormoni indicnd hipertiroidienii, adica o tendinta clara de separare n doi nori diferiti. Spunem n acest caz ca esantionul este eterogen sau neomogen. La fiecare grafic de acest tip este bine sa fie urmarite cele trei tipuri de informatie pe care poate sa ni le ofere (Corelatie, Omogenitate si Simetrie). Unele ne dau o informatie mai utila privind corelatia, altele ne informeaza mai bine n ce priveste omogenitatea sau simetria, deci nu totdeauna se pot obtine dintr-un singur grafic toate cele trei tipuri de informatie la fel de usor. Aprecierile sunt totdeauna subiective si depind de deprinderile pe care utilizatorul si le-a format lucrnd cu ct mai muote si mai variate exemple.

9.3 Coeficientul de corelatie PEARSON


Este clar ca o exprimare a tendintei de corelatie astfel nct sa surprindem taria corelatiei este foarte utila. De-a lungul timpului au fost propuse mai multe metode de masurare a tendintei de corelatie, dintre ele cele mai utile s-au dovedit acelea care propun coeficienti ce tin cont de toate valorile pe care le avem la dispozitie. Coeficientul de corelatie PEARSON este de departe cel mai utilizat n exprimarea tariei corelatiei ntre doi parametri numerici. Anume, fie si , valorile masurate

pentru cei doi parametri si fie , mediile de esantionare respective. Atunci coeficientul de corelatiile al parametrilor exprimati de seriile statistice X si Y va fi:

Aceasta formula, care la prima vedere pare foarte complicata, ne ofera n realitate ntr-un mod relativ simplu, o valoare numerica care, se va vedea mai jos, apreciaza foarte obiectiv situatia de fapt n ceea ce priveste corelatia. Pentru a ntelege cum functioneaza formula de mai sus sa luam un exemplu: tensiunile arteriale sistolica si diastolica masurate la 10 pacienti sunt urmatoarele: Tensiunea sistolica TMAX: 170, 160, 160, 150, 150, 170, 160, 180, 150, 150. Tensiunea diastolica TMIN: 85, 80, 80, 75, 80,, 85, 80, 85, 75, 75

Se observa ca pentru calculul lui r avem nevoie de mediile celor doua serii statistice, si , si pentru fiecare pacient n parte de diferentele si

, care pentru numarator trebuie nmultite ntre ele, iar pentru numitor trebuie ridicate la patrat si apoi sumate pentru toti pacientii. Deoarece valorile au fost alese special ca sa se usureze calculele, se observa ca mediile pentru TAMAX si TAMIN sunt =160 si =80. Este bine ca toate calculele necesare pentru gasirea lui r sa fie organizate ntr-un tabel asa cum se vede n tabelul 9.1:

Tabelul 9.1 Calculul coeficientului de corelatie Pearson


170, 160, 160, 150, 150, 170, 160, 180, 1 50, 150 85, 75, 10 10 5 5 50 50 80, 75 0 -10 0 0 0 50 80, 75, 80,, 85, 80, 85, Valorile pentru TAMAX

Valorile pentru TAMIN

-10

-10

10

20

Diferentele pentru TAMAX

=160)

=80)

0 5 0

0 50

Diferentele pentru TAMIN 5 0 -5 50 -5 0 100 =350

100 0 100 100

100

100 100

400 =1000

25 25

0 25

25

25

25 =150

Calculul lui r este:

Trecnd peste faptul ca de obicei calculele sunt putin mai dificile din cauza unor zecimale care apar inerent la calculul mediilor si deci al diferentelor, sa cautam sa vedem ce se poate ntmpla n diverse situatii ce pot apare n legatura cu valorile luate de cei doi parametri. n primul rn sa observam ca la numarator, n cazul nostru, numarul 350 a fost obtinut prin adunarea unor numere pozitive si anume 5x50+100. Dar observam ca valoarea 50 obtinuta pentru al patrulea pacient (ca si la al noualea si al zecelea, de altfel) s-au nmultit doua numere negative, pe cnd la celelalte valori diferite de 0, la pacientii 1, 6 si 8, numerele au fost obtinute prin nmultirea unor

numere pozitive. Acest lucru nu este nici pe de parte lipsit de importanta, ci din contra, este ceea ce caracterizeaza situatia prezentata n mod fundamental. Sa facem urmatoarele observatii referitoare la cazul prezentat: Pacientii 4,9 si 10 au si valori TAMAX si TAMIN sub media celor 10 pacienti. Deci diferentele si sunt ambele negative iar produsul lor, cel care se aduna la numarator este pozitiv Pacientii 1,6 si 8 au si valori TAMAX si TAMIN peste media celor 10 pacienti. Deci diferentele si sunt ambele pozitive iar produsul lor, cel care se aduna la numarator este pozitiv Pacientii 2, 3, 5 si 7 au valori TAMAX sau TAMIN egale cu media celor 10 pacienti. Deci, dintre diferentele si cel putin una este 0 iar produsul lor, cel care se aduna la numarator este 0. Ceea ce am precizat n rndurile de mai sus este caracteristic pentru situatiile n care cei doi parametri se coreleaza: cei doi parametri iau valori preponderent n acelasi sens, adica ori ambii sub medie, ori ambii peste medie. Din cauza tendintei a doi parametri care se coreleaza direct, ca atunci cnd unul este crescut, sa fie si celalalt crescut, vom fi pentru majoritatea pacientilor n situatii ca mai sus si produsele care se aduna la numarator sunt preponderent pozitive. n acest caz, suma de la numarator tinde sa aiba valori pozitive crescute. Evident, corelatia dintre parametri este doar o tendinta si este probabil sa ntlnim pacienti care, desi au unul din parametri crescut, de exemplu peste medie, celalalt poate sa nu fie crescut, chiar sa fie sub medie, caz n care produsul corespunzator lui va fi negativ. Dar acest fenomen nu este o tendinta daca parametrii sunt corelati ci mai curnd accident. Suma obtinuta la numarator va avea tendinta de a lua valori mari si pozitive n ciuda unor astfel de accidente. Daca cei doi parametri sunt corelati invers, adica tendinta unuia de a avea valori crescute este nsotita de tendinta celuilalt de a avea valori scazute, n acest caz, predominante vor fi situatiile n care n produsul , ia des valori negative. ntr-adevar, daca un parametru are valori sub medie si celalalt peste medie, o paranteza va fi pozitiva si una negativa. Daca acest fapt este o tendinta, parantezele de la numarator vor fi cele mai multe negative. Suma obtinuta la numarator va avea tendinta de a lua valori mari si negative. Daca cei doi parametri nu sunt corelati, parantezele de la numarator vor avea semne aleatorii, vor fi unele produse pozitive si unele negative. Tendinta va fi ca cele negative si cele pozitive sa se anuleze unele pe altele. Suma obtinuta la numarator va avea tendinta de a lua valori mici, pozitive sau negative. Nu am discutat nimic despre numitorul coeficientului r, deoarece el are

totdeauna semnul +, iar rolul lui este numai de a face ca r sa fie cuprins ntre -1 si +1. Magnitudinea lui r, precum si semnul sau, sunt dictate de suma de la numarator. Asadar, orice valori ar lua cei doi parametri, prin calculul lui r, obtinem un numar real cuprins n intervalul de numere reale [-1, 1]. Interpretarea coeficientului de corelatie Pearson se face n termeni extrem de subiectivi si imprecis astfel: Valori foarte apropiate de 1 arata o foarte puternica corelatie directa Valori n jurul a 0,7 - 0,9 arata o corelatie puternica Valori ntre 0,4 - 0,7 arata corelatie Valori ntre 0,15 - 0,4 arata corelatie slaba Valori sub 0,15 arata lipsa de corelatie

La fel, pentru valori negative pentru anticorelatie (corelatie inversa). O interpretare obiectiva a lui r este tinnd cont de semnificatia lui statistica, care este prezentata n subcapitolul urmator.

9.4 Testarea semnificatiei statistice a lui r


Ca orice variabila aleatoare, r este supus variatiilor datorate ntmplarii si valorile calculate folosind datele pe care le avem la ndemna sunt aproximative, n sensul ca sunt supuse acestor erori aleatoare. De aceea este foarte util sa se cunoasca distributia unei variabile aleatoare strns legata de r, pentru construirea intervalelor de ncredere. n figura 9.5 este reprezentata curba care descrie valorile coeficientului de corelatie Pearson pentru un numar din ce n ce mai mare de valori n cele doua serii. S-a calculat r, pentru latenta masurata pe ochiul stng si, respectiv drept, la 4 pacienti, apoi la 5 pacienti, apoi la 6 pacienti, si asa mai departe pna la o valoare a lui r calculata pe datele de la 913 pacienti. Se observa ca pna la 100-200 de pacienti, valoarea coeficientului r este foarte fluctuanta, dupa care se stabilizeaza relativ.

Figura 9.5 Valorile coeficientului de corelatie Pearson calculat pe un numar variabil de valori n cele doua serii. Sa calculat r, pentru latenta masurata pe ochiul stng si, respectiv drept, la 4 pacienti, apoi la 5 pacienti, apoi la 6

pacienti, si asa mai departe pna la o valoare a lui r calculata pe datele de la 913 pacienti. Se observa ca pna la 100-200 de pacienti, valoarea coeficientului r este foarte fluctuanta, dupa care se stabilizeaza relativ.
n cazul esantioanelor mari, se pot folosi nivelurile prag date de , respectiv , pentru nivelul construiesc intervale de coeficientului de corelatie masuratorile. pentru nivelul de semnificatie de 95%, daca n50 si de semnificatie de 99%, daca n100. Cu ajutorul lor se ncredere, care sunt o estimare a valorii adevarate a al populatiei din care afost extras lotul pe care s-au facut

Un test pentru ipoteza r=0 este statistica , care are o distributie Student cu n-2 grade de libertate si poate fi comparata cu valorile prag dorite, luate din tabelele pentru aceasta distributie.

9.5 Notiunea de dreapta de regresie


Daca doi parametri sunt suficient de puternic corelati, atunci cunoscnd valoarea unuia dintre ei, celalalt nu ia valori absolut aleatorii ci valoarea pe care acesta o poate lua este ntr-o legatura mai puternica sau mai slaba cu valoarea primului, n functie de ct de puternic este coeficientul de corelatie ntre cei doi parametri. Sa privim putin mai atent pe un grafic (vezi figura 9.6), ce se ntmpla n cazul unei corelatii puternice. Anume, sa reprezentam pe orizontala valorile latentei undei P100 pentru ochiul drept (LD), iar pe verticala valorile latentei undei P100 pentru ochiul stng (LS), la 913 de pacienti, masurate n milisecunde.

Figura 9.6 Corelatia valorilor latentei undei P100 pentru ochiul drept (verticala) si valorile latentei undei P100 pentru ochiul stng (orizontala), la 913 de pacienti, masurate n milisecunde. Fiecare punct de pe grafic corespunde unui pacient. Se observa o corelatie puternica din aranjarea norului de puncte, care are o forma alungita.
Asa cum era de asteptat valorile LD si LS se coreleaza, n sensul ca au tendinta

de a se aseza ntr-un nor alungit dinspre stnga jos spre dreapta sus pe grafic, cu unele exceptii, reprezentate de punctele care sunt iesite din nor. De fapt, se observa ca majoritatea punctelor din grafic se aranjaza ntr-o zona ovala. n cazurile ca cel din figura 9.6, se poate ncerca gasirea unei drepte care sa treaca ct mai aproape de punctele graficului, dreapta care sa reprezinte o legatura ntre cei doi parametri. n figura 9.7 este reprezentata o astfel de dreapta pentru graficul din figura 9.6. Aceasta dreapta exista pentru nori de puncte foarte diversi, si se numeste dreapta de regresie.

Figura 9.7 Dreapta de regresie pentru cazul latentei semnalului nervos pe cei doi ochi, la apcienti cu diverse afectiuni. Pe orizontala, valorile pentru ochiul stng, iar pe verticala cele pentru ochiul drept.
Numim aceasta dreapta legatura ntre cei doi parametri n sensul urmator: daca se cunoaste valoarea de pe orizontala, se poate calcula cu oarecare aproximare valoarea de pe verticala, si invers. n exemplul din figura 9.7, daca stim latenta pentru ochiul stng, putem calcula cu o anumita aproximatie latenta pentru ochiul drept, si invers. Acest fapt este sugerat n figura 9.8, de sagetile care indica valoarea aproximativa de pe o axa, corespunzatoare unei anumite valori de pe cealalta axa.

Figura 9.8 Folosirea dreptei de regresie ca legatura ntre

cei doi parametri care sunt puternic corelati.


Dreapta de regresie este de obicei cautata prin asa-numita metoda a celor mai mici patrate, expusa n subcapitolul urmator.

9.6 Metoda celor mai mici patrate (MCMMP)


Vom cauta o dreapta care sa se apropie ct mai mult de punctele graficului, dreapta care o vom numi drepta de regresie liniara. Pentru a ne da seama cum intrepretam expresia "se apropie ct mai mult de punctele graficului", sa luam un exemplu simplu, ca cel din figura 9.9.

Figura 9.9 O dreapa de regresie se cauta ac dreapta care este situata ct mai aproape de punctele graficului. Distantele de la punctele graficului la dreapta se masoara pe verticala. n imagine, distentele care trebuie sa fie ct mai mici sunt segmente verticale
Vom spune ca o dreapta este dreapta de regresie daca suma distantelor de la puncte la dreapta, masurate pe verticala si ridicate la patrat, este minima. Dreapta pe care o cautam are ecuatia , si vom ntelege prin aceasta ca, odata cunoscuta valoarea parametrului de pe abscisa, x, putem calcula valoarea parametrului de pe ordonata, y, prin nmultirea cu a si adunarea lui b. Asadar, gasirea dreptei de regresie este echivelenta cu gasirea coeficientilor a si b. n figura 9.10 este prezentata o situatie n care dreapta de regresie poate fi folosit pentru aproximarea unui efect Y (care poate fi un rezultat al unei medicatii) n functie de o cauza X (care poate fi medicasia). Se observa ca putem gasi nivelul efectului dupa valoarea luata de factorul cauza. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativa 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925.

Figura 9.10 Dreapta de regresie ca legatura ntre cauza si efect. Se observa ca putem gasi nivelul efectului dupa valoarea luata de factorul cauza. Pentru valoarea 10 a lui X, efectul Y are valoarea aproximativa 1010. Pentru valoarea 50 a lui X, Y ia valoarea 925
Proprietatea de baza a dreptei de regresie, se scrie astfel:

ceea ce exprima faptul ca segmentele ce unesc fiecare punct cu punctele de pe dreapta situate pe aceeasi verticala, trebuie sa fie ct mai scurte posibil. Exprimarea aceasta nu este tocmai corecta, ci mai degraba intuitiva, caci, a spune ca segmentele sunt ct mai scurte, nu precizeaza nimic cnd se refera la toate segmentele. Nu vom sti exact care dintre ele trebuie sa fie mai scurt si care mai lung cnd suma patratelor lor este minima. Vom interpreta expresia de mai sus ca o expresie ce contine doua necunoscute, si anume a si b, si dorim aflarea lor pentru a putea fi utilizate n ecuatia , atunci cnd avem nevoie. Minimul expresiei ce are ca variabile pe a si pe b, se poate afla printr-un procedeu care este cunoscut din analiza matematica, si anume, minimul unei functii se realizeaza pentru acele valori ale necunoscutei care anuleaza derivata nti a functiei n raport cu variabila respectiva. n cazul n care avem o functie cu doua variabile, ca cea de mai sus, va trebui sa anulam derivatele ei n raport cu fiecare dintre cele doua necunoscute. Vom scrie deci expresia S astfel ca derivarea n raport cu a si cu b sa fie ct mai facila. Pentru aceasta, vom folosi formula

, precum si faptul ca o suma poate fi distribuita, adica este valabila formula:

Astfel vom avea:

si dupa distribuirea de care vorbeam mai sus:

sau, dupa ce scoatem n fata sumelor ceea ce nu depinde de i:

Acum sa nu uitam ca si sunt valorile masurate ale celor doi parametri, care dau pozitiile punctelor de pe grafic, si deci, fiind cunoscute, sumele din expresia lui S sunt cunoscute. De fapt, se obisnuieste ca aceste sume sa fie notate cu urmatoarele notatii, mult folosite n analiza de regresie:

Asadar, sunt numere cunoscute n momentul calculului de care ne ocupam ceea ce face ca expresia lui S sa devina:

Acum pentru a afla minimul lui S vom deriva odata n raport cu a si vom egala cu 0 ceea ce am obtinut, apoi vom deriva n raport cu b si vom egala cu 0 ceea ce am obtinut. Nu trebuie uitat ca, la derivarea n raport cu a, vom considera ca b este constanta si invers. Vom obtine deci relatiile:

si

care se vede ca pot fi rescrise ca un sistem de doua ecuatii cu doua necunoscute, n felul urmator:

, sau, dupa trecerea termenilor care nu depind de necunoscutele a si b n partea dreapta si mpartirea cu 2 a ambelor egalitati, obtinem:

Acesta este, dupa cum se poate usor observa, un sistem de doua ecuatii cu doua necunoscute, chiar n forma cea mai simpla (sistem liniar). Metoda expusa mai sus se numeste Metoda Celor Mai Mici Patrate (MCMMP), si este mult folosita pentru simplitatea cu care ne pune la dispozitie un rezultat util. Utilitatea acestei metode este mai clar pusa n evidenta atunci cnd o folosim pentru evaluarea unui efect cuantificabil cnd cauzele care l produc pot fi cuantificate suficient de bine. Un bun exemplu este aplicarea unui tratament cu un medicament n diferite doze, daca efectul acestuia este suficient de obiectiv cuantificabil. Alt exemplu de aplicare utila a metodei celor mai mici patrate este estimarea evolutiei n timp a unor fenomene de intensitate cuantificabila. De exemplu, atunci cnd am nregistrat numarul anual de cazuri de cancer de sn ntr-o arie geografica data, si ne punem problema daca este ndreptatita ipoteza unei tendinte de crestere a incidentei acestei maladii. n acest caz, dreapta de regresie este un estimator al vitezei de crestere a incidentei si se poate testa daca exista o crestere semnificativa, iar n caz afirmativ se poate estima cantitativ aceasta tendinta. 9.7 Regresii neliniare Exista cazuri cnd dependenta ntre un efect si o cauza, sau n general ntre doi parametri nu este liniara. De exemplu, efectul poate sa sufere un fenomen de quasi saturatie si la un moment dat, desi doza creste semnificativ, efectul are o crestere aproape insesizabila, sau invers, la cresteri limitate ale dozei, efectul tinde sa creasca foarte mult. n realitate se pot ntlni extrem de multe astfel de situatii. n aceste cazuri, se cauta nu drepte de regresie ci alte curbe, dupa caz, logaritmice, exponentiale, polinomiale, etc. Cea mai simpla generalizare este cazul polinomului de gradul al doilea:

, caz n care, n mod evident trebuie gasiti trei coeficienti n loc de doi. Cantitatea de minimizat este

. n acest caz, cei trei coeficienti sunt solutiile unui sistem de trei ecuatii cu trei necunoscute, obtinute din egalarea cu 0 a celor trei derivate partiale ale lui S n raport cu a, b si respectiv c:

Au fost folosite si regresii cu polinoame de ordin mai mare, nsa pentru a presupune ca ntre doi parametri este o legatura foarte complexa trebuie puternice dovezi teoretice, care de obicei nu ne stau la dispozitie.

9.8 Regresia liniara multipla


Exista situatii n care este util sa consideram dependenta unui parametru de doua sau chiar mai multi parametri independenti. si n acest caz, Metoda Celor Mai Mici Patrate este de un pretios ajutor. n acest caz, se cauta o dependenta de forma:

unde Y este parametrul care depinde de ceilalti, X1, X2,.............Xn sunt parametrii independenti, iar m este numarul lor, uzual avnd valoarea 2 sau 3, mai rar ajungnd la 6 sau 8, foarte rar mai mare. n acest caz, se pune problema gasirii coeficientilor a1, a2,......an, astfel ca diferentele dintre valorile masurate Y1,Y2,........Yn, sa fie ct mai apropiate de valorile calculate cu expresia, , unde coeficientii a1, a2,......an, i consideram necunoscute si ne propunem sa i aflam, iar indicele i ne indica masuratoarea, adica: La masuratoarea 1 se obtin valorile , iar pentru Y valoarea Y1

La masuratoarea 2 se obtin valorile ......................................................................................

, iar pentru Y valoarea Y2

La masuratoarea n se obtin valorile

, iar pentru Y valoarea Yn

De exemplu, pentru dependenta ntre un parametru dependent si doi independenti, cantitatea de minimizat este:

S-ar putea să vă placă și