Documente Academic
Documente Profesional
Documente Cultură
Curs 7 PDF
Curs 7 PDF
REGRESIE
CURS 7
Generalități despre corelație.
Corelație liniară
• Pentru aceeași populație avem două seturi de date corespunzătoare
la două variabile distincte si se pune întrebarea dacă între cele două
variabile există vreo legătură (relație)? Dacă da, care este această
relație? Cum sunt aceste variabile corelate?
• Relațiile nu sunt neapărat de tip cauză-efect. Ele sunt relații
matematice care permit anticiparea comportamentului unei variabile
în funcție de comportamentul celeilalte.
Exemple:
• există vreo relație între înălțime și greutate?
• studiind mai mult, obții note mai mari?
• cantitatea de medicament prescrisă determină oare timpul de
însănătoșire al pacientului?
Corelație liniară
• pentru o populație avem două seturi de date corespunzătoare la două
variabile distincte - se formează perechile de date (x; y), în care x este
valoarea primei variabile și y este valoarea celei de-a doua variabile.
De exemplu, x este înălțimea și y este forța musculară.
• O pereche ordonata de date (x; y) se numește dată bidimensională.
• În mod tradițional, variabila X (având valorile x) se numește variabila
de intrare (variabila independentă), iar variabila Y (având valorile y)
se numește variabila de ieșire (variabila dependentă)
• Variabila de intrare X este cea măsurată sau controlată pentru a
prezice variabila Y
Diagrama de împrăștiere (nor de puncte)
• este reprezentarea grafică a perechilor de date într-un sistem de coordonate
ortogonal.
• Valorile x ale variabilei de intrare X sunt reprezentate pe axa Ox, iar valorile y ale
variabilei de ieșire Y sunt reprezentate pe axa Oy.
• Dacă perechile (x; y) tind să urmeze o dreaptă zicem că avem o corelație liniară.
• Dacă toate perechile (x; y) se găsesc pe o dreaptă (care nu este nici orizontală nici
verticală, atunci avem o corelație liniară perfectă.
• Dacă pentru valorile x crescânde ale variabilei de intrare X nu există o deplasare clară (bine
definită) ale valorilor y ale variabilei Y , atunci zicem că nu avem corelație sau că nu există
legătură între X și Y
• Dacă pentru valorile x crescânde ale variabilei de intrare X există o deplasare clară (bine
definită) ale valorilor y ale variabilei Y zicem că avem o corelație.
• Avem o corelație pozitivă dacă y tinde să crească și avem o corelație negativă dacă y tinde să
descrească odată cu creșterea lui x.
• Precizia schimbării lui y atunci când x crește determină cât de puternică este corelația
Diagrama de împrăștiere în cazul unei Diagrama de împrăștiere în cazul unei
corelații pozitive corelații pozitive strânse
SUMA DE
PRODUSE=POZITIVĂ
CORELAȚIA=POZITIVĂ
• o linie orizontală care trece prin media forței musculare şi o linie verticală care trece prin media
înălţimii
• înălţimile mari au tendinţa de a corespunde unei forțe musculare mari, iar înălţimile mici au tendința de
a corespunde unei forțe musculare mici, sunt mai multe observaţii în cadranele dreapta sus şi stânga
jos, decât în cadranele stânga sus şi dreapta jos
• Calculăm abaterile scăzând media din fiecare observație, înmulțim aceste abateri pentru cele 2
variabile corespunzătoare unui subiect, iar ulterior însumăm produsele de abateri
Relaţia dintre forța musculară şi vârstă
avem mai multe observaţii în cadranele din stânga sus şi dreapta jos, cadrane în care produsele
sunt negative, spre deosebire de cadranele stânga jos şi dreapta sus, în care produsele sunt
pozitive
suma de produse va fi negativă.
Atunci când valorile mari ale unei variabile sunt asociate cu valori mici ale celeilalte variabile
spunem că avem corelaţie negativă
• Suma de produse va depinde de numărul de observaţii şi de unităţile în care sunt
măsurate variabilele. S
• Se poate arăta că valoarea maxim posibilă care poate fi obținută este rădăcina
pătrată din suma pătratelor pentru înălțime înmulțită cu rădăcina pătrată din
suma pătratelor pentru forța musculară.
• Împărțim suma de produse prin rădăcina pătrată a produsului celor două sume
de pătrate (care corespund fiecărei valiabile). Astfel se obține coeficientul de
corelație care de obicei este notat cu r
• cunoscut și sub numele de coeficient de corelație Pearson sau de coeficient de
corelație al produselor momentelor
• numitorul coeficientului r are totdeauna semnul +
• rolul lui este numai de a face ca r să fie cuprins între -1 și +1.
• Magnitudinea lui r, precum şi semnul său, sunt dictate de suma de la numărător.
• Orice valori ar lua cei doi parametri, prin calculul lui r, obținem un număr real
cuprins în intervalul de numere reale [-1, 1].
Interpretarea coeficientului de corelaţie
Pearson
se face în termeni extrem de subiectivi şi imprecis astfel:
• Valori foarte apropiate de 1 - o foarte puternică corelaţie directă
• Valori în jurul a 0,7 – 0,9 - corelaţie puternică
• Valori între 0,4 – 0,7 - corelaţie
• Valori între 0,15 – 0,4 - corelaţie slabă
• Valori sub 0,15 - lipsă de corelaţie
Corelație nu înseamnă
cauză!!!
r = 1.00 - valori mari ale unei variabile
sunt asociate cu valori mari pentru relaţie puternică, dar nu perfect pozitivă
cealaltă variabilă şi punctele se află
exact pe o linie dreaptă
relaţie pozitivă, dar cu putere mai mică nu există nici o relaţie
• Există o anumită relaţie - valori mari de Y
sunt asociate, atât cu valori mici ale lui X, cât
şi cu valori mari ale lui X, iar valorile mici ale
lui Y sunt asociate cu valori ale lui X din
mijlocul intervalului.
• Există posibilitatea ca r să fie egal cu 0.00 și
atunci când există o relaţie care nu este
liniară.
• O corelaţie r = 0.00 înseamnă că nu există
nici o relaţie liniară, adică nu există o relaţie
în care valorile mari ale unei variabile sunt
asociate în mod consecvent, fie cu valori
mari, fie cu valori mici ale celeilalte, dar nu
cu ambele
• relație perfectă care nu este o linie
dreaptă Coeficientul de corelaţie este • Corelația este negativă când
< 1.00 valori mari ale unei variabile se
• r nu va fi egal cu +1.00 sau cu -1.00 asociază cu valori mici ale
când există o relaţie perfectă – doar celeilalte variabile
daca punctele se află exact pe o linie • relație negativă destul de slabă
dreaptă
• Corelaţia măsoară apropierea de o
relaţie liniară, nu de orice relaţie care
este perfectă
relație negativă perfectă. r = -1.00, atunci când
relație negativă puternică
valorile mari ale unei variabile sunt asociate cu
valorile mici ale celeilalte, adică punctele se află
pe o linie dreaptă
TESTE DE SEMNIFICAȚIE ȘI INTERVALUL DE ÎNCREDERE
PENTRU R
• Putem testa ipoteza nulă referitoare la egalitatea cu zero a coeficientului de corelație în
populație. Aceasta se poate face printr-un test t simplu
• Pentru ca testul de semnificație să fie valid trebuie să fie îndeplinite următoarele
condiții:
• cel puțin una dintre variabilele urmează o distribuție normală
• observațiile sunt independente.
• Pentru datele referitoare la forța musculară și înălțime, r = 0.42 și p = 0.006.
• Programele de analiză statistică dau, aproape întotdeauna, o valoare p când raportează
un coeficient de corelație.
• Se va vedea foarte rar un coeficient de corelație raportat fără valoarea p, chiar și atunci
când ipoteza nulă, care stabilește că în populație coeficientul de corelație este egal cu
zero, este absurdă
• Se poate determina și un interval de încredere pentru coeficientul de corelație în
populaţie (se folosește o funcţie matematică numită transformarea Z a lui Fisher)
ANALIZA DE REGRESIE
Metoda folosită în
acest caz este
regresia liniară
simplă
• regresia liniară simplă - metodă care ne permite prezicerea unei valori medii
pentru o variabilă cu ajutorul valorii observate pentru o altă variabilă.
• vom estima media BMI-ului dându-se valori pentru circumferința abdominală
• BMI este rezultatul, variabila dependentă y, variabila aleatoare sau variabila din
partea stânga
• Circumferința abdominală este predictorul, variabila explicativă, variabila
independentă x, variabila nealeatoare sau variabila din partea dreaptă
• Vom prezice variabila rezultat cu ajutorul valorii observate pentru variabila
predictor.
ANALIZA DE REGRESIE
• Vom alege linia pentru care se va obține minimul sumei de pătrate a acestor diferenţe.
• Metoda este cunoscută sub numele de principiul celor mai mici pătrate, iar estimările
obţinute, linia sau ecuaţia celor mai mici pătate (se poate estima prin programele de analiză
statistică).
• Uneori, aceste estimări mai sunt întâlnite și sub numele de estimatori ai metodei celor mai
mici pătrate sau OLS (ordinary least squares)
BMI = -4.15 + 0.35 × circumferința abdominală
• Estimația pantei este cunoscută și sub numele de coeficient de regresie.
• Spre deosebire de coeficientul de corelație, care este un număr adimensional,
acesta are dimensiuni, iar unitățile depind de unitățile variabilelor.
• Coeficientul de regresie arată cu cât crește BMI pe unitate când crește
circumferința abdominală, deci este exprimat în kilograme pe metru pătrat pe
centimetru (BMI este exprimat în kg/m2, iar circumferința abdominală în cm)
• Interceptul este exprimat în aceleași unități ca și variabila rezultat, aici în kg/m2
• În acest exemplu interceptul este negativ, ceea ce înseamnă că atunci când
circumferința abdominală este zero, BMI este negativ. Acest lucru este, desigur
imposibil, la fel cum circumferința abdominală nu poate fi zero - multă precauție
în atribuirea vreunei semnificații pentru valori ale interceptului care sunt în afara
intervalului de date. Totuși, aceasta este doar o convenție, valoarea fiind folosită
pentru trasarea celei mai bune linii în intervalul de date observate
INTERVALE DE ÎNCREDERE ȘI VALORI P ÎN REGRESIE
• Se pot determina intervale de încredere și valorile p pentru coeficienții obținuți în
regresie. În acest caz se va presupune că abaterile de la linia de regresie
(diferențele între valorile observate și valorile prezise) urmează o distribuție
normală cu varianță uniformă. (În plus, ca de obicei, se mai presupune și că
observațiile sunt independente între ele)
• panta estimată = 0.35 Kg/m2/cm, cu 95% CI = (0.31 - 0.40) Kg/m2/cm, p <0.001
• Interceptul estimat = -4.15 kg/m2, 95% CI = (-7.11 la -1.18) kg/m2
Interoperabilitatea în domeniul medical
• Datele medicale reprezintă toate informațiile referitoare la starea de sănătate a
unui pacient
• Este foarte importantă sistematizarea si păstrarea datelor medicale - ele trebuiesc
accesate ori de câte ori este necesară investigarea unui pacient
• Prim pas: crearea Dosarului Electronic de Sănătate (DES) sau EHR (Electronic
Health Record) - o înregistrare în format electronic a unor informații privind
starea de sănătate a pacientului, fiind o colecție sistematică de date medicale
electronice care fac referire la un pacient sau o populație
• DES folosește informații în format digital, capabile de a fi partajate către diferite
ramuri (specialități) din rețeaua de sănătate. În unele cazuri, această partajare
poate avea loc prin intermediul sistemelor informatice conectate la rețea, dar
esențial este că aceste date pot fi partajate către alte sisteme informatice si pot fi
schimbate între acestea
DES poate include:
• date, inclusiv date demografice
• istoricul medical
• medicamente și alergii
• starea de imunizare
• rezultatele testelor de laborator
• radiologie, imagini
• semnale vitale
• statistici personale (vârsta și greutatea)
• informații privind costurile implicate în cadrul procesului medical
Dosarul electronic de sănătate
• permite ca întregul istoric al pacientului să fie vizualizat, fără a fi
nevoie de cercetări suplimentare
• ajută la furnizarea de date corecte, adecvate și lizibile
• reduce șansele de replicare a datelor, deoarece există un singur fișier
modificabil
• este în mod constant actualizat, fapt ce elimină erorile prin omisiune
sau, mai grav pierderea informațiilor
• informațiile sunt stocate într-un fișier unic - se face mult mai eficient
extragerea de date medicale pentru examinarea posibilelor tendințe
și schimbări pe termen lung referitoare la un pacient
Data mining