Sunteți pe pagina 1din 59

Modele statistice

Cursul 12
Model statistic
Definitie: corelează, într-o relaţie matematică, prin metode
statistice datele experimentale ale variabilelor semnificative ale
unui proces.
Calculul statistic se utilizează pentru:
 validarea datelor experimentale,
 obtinerea si validarea modelului statistic.
Modelul statistic:
 reflectă legătura dintre datele de intrare şi de ieşire ale
sistemului,
 descrie comportament sistemelor complexe sau a sistemelor a
căror mecanisme nu sunt cunoscute,
 nu descrie mecanismul fizic sau chimic al procesului,
 coeficienţii modelului empiric nu au semnificaţie fizică.
Analiza de regresie

Activitatea de obtinere a ecuației dependenţei dintre variabile se numeste


analiza de regresie.

În analiza de regresie:
 variabila dependent, y este variabila asupra căruia se fac estimări,
 variabila sau variabilele independente sunt utilizate pentru estimarea
variabilei dependente.

Clasificarea analizei de regresie:


 liniară simplă – deduce relatia liniara dintre o variabilă independentă și
una dependentă,
 liniară multiplă - deduce relatia liniara dintre două sau mai multe
variabile independente și una dependentă,
 neliniară - deduce relaţia neliniara dintre dintre una sau mai multe
variabile independente și una dependentă.
Etapele analizei de regresie

1. Inventarierea variabilelor
2. Alegerea (propunerea) modelului de regresie
3. Obtinerea datelor experimentale
4. Calculul coeficientilor modelului de regresie
5. Testarea calitatii modelului

Inventarierea variabilelor: se analizeaza sistemul si se


stabileste variabila dependent y si variabilele independente xi.
Obtinerea datelor experimentale
Datele experimentale obtinute in regim aleator trebuie:
 sa acopere tot domeniul de interes,
 sa fie numeroase,
 sa fie reproductibile.

Verificarea reproductibilitatii se face pe date cu replicate. Datele sunt


reproductibile daca raportul dispersiilor replicatelor in doua puncte
indeplinesc conditia:

  𝑠 21
𝐹= 2
≤ 𝐹𝛼
𝑠 2

Date obtinute in regim programat: numar minim de date care


furnizeaza maximum de informatii.
Obtinerea datelor experimentale

Din analiza datelor experimentale se remarca faptul ca valorile y


depind de valorile variabilei independente x.
Daca nu se cunosc bazele teoretice ale procesul in profunzime, se
incearca sa se gaseasca un model (o relatie) care sa reflecte
variatia datelor experimentale, adica sa se gaseasca relatia:

y=f(x)

Daca y depinde de mai multi factori atunci relatia devine:

y=f(x1, x2…, xn)


Covarianţa datelor experimentale

În statistică, covarianța exprimă dependenţa dintre două variabile.

Cresterea lui x implica Cresterea lui x implica


Datele nu se coreleaza
scaderea lui y cresterea lui y
Covarianţa

Covarianța eșantionului  (x i  x )( y i  y)
cu n perechi de date este: cov ( x , y) s  i 1
n 1

Covarianța populatiei cu
 (x
i 1
i  x )( y i  y)

N perechi de date este: cov ( x , y) p 


N
Covarianţa

70
 Drepteleîmpart graficul în patru
65 II
y I zone în care:
60

55
 punctele din zona I au și ,
 punctele din zona II au și ,
50
 punctele din zonele I şi III au
45 III IV
,
40
 punctele din zonele II şi IV
35 au .
30
0 1 2 3 4 5 6

Partiționarea graficului prin puncte


Covarianţa

Interpretarea covariantei

 cov(x, y) > 0 - corelare liniară pozitivă între x și y dacă x


crește, crește şi y, iar punctele aparţin zonelor I şi III;

 cov(x, y) < 0 - corelare liniară negativă între x și y dacă x


crește, y scade, iar punctele aparţin zonelor II şi IV;

 cov(x, y) = 0 - x şi y nu se corelează, iar punctele se


repartizează între cele patru zone;

 cu cat valoarea covarianţei este mai mare cu atat dependenta


liniara dintre date este mai buna.
Covarianţa
Coeficientul de corelaţie Pearson
Coeficientul de corelație liniară a datelor defineste interdependenţa
dintre variabilele observate în populaţii statistice.

pentru esantion pentru populatie

covs ( x , y) cov p ( x, y)
r 
2 2
s x s y  x2  y2

Observatie: Coeficientul de corelație defineste :


 În sens larg legătura statistică între variabile cantitative, între
variabile calitative sau între ambele tipuri de variabile.
 În sens restrâns măsoara gradul de legătură statistică dintre
variabilele cantitative.
Date cu diferiti coeficienti de corelaţie

y y y

x x x
r = -1 r = -0,6 r=0

y
y y

x x x
r = +1 r = +0,3 r=0
Coeficientul de corelatie

Dacă punctele setului de date:


• aparţin unei linii drepte cu panta pozitivă, r=+1,

• aparţin unei linii drepte cu panta negativă, r=-1,

• nu se corelează, r=0,

• nu aparţin în totalitate unei linii drepte cu panta pozitivă,


0<r<1; cu cât punctele se abat de la linia dreaptă, cu atât
valoarea coeficientului r scade,
• nu aparţin în totalitate unei linii drepte cu panta negativă,
-1<r<0; cu cât punctele se abat de la linia dreaptă, cu atât
valoarea coeficientului r se apropie de zero.
Covarianta
Coeficientul
datelor
deexperimentale
corelaţie

r<0   r r>0
Coeficientul de corelaţie

• r  є [0; 0.2] → corelaţie foarte slabă, inexistentă


 r є [0.2; 0.4] sau r є [-0.2;- 0.4] → corelaţie slabă
 r є [0.4; 0.6] sau r є [-0.4; -0.6] → corelaţie rezonabilă
 r є [0.6; 0.8] sau r є [-0.6;- 0.8→ corelaţie bună
 r є [0.8; 1] sau r є [-0.8; -1] → corelaţie foarte bună
Coeficientul de corelatie

Dacă valoarea absolută a coeficientului de corelaţie este


aproape de 0, nu inseamnă că nu există legătură statistică între
variabile - legătura poate să existe, dar nu este liniară.
Coeficientul de corelaţie
Alegerea formei modelului
Modelul de regresie este relatia dintre variabile y=f(x). In calculul
de regresie se considera ca:
 variabilele x nu sunt afectate de eroare de masurare,
 variabila y este afectata de erori de experimentare.

x=t
y=h
Analiza de regresie liniara
Observatie:
Corelația trateaza cele două variabile în mod egal.
În regresie, o variabilă este independentă - variabila x, iar cealaltă
dependenta - variabila y.

Ce este o dependenta liniara? y

y= 0 + 1x 1

 şi - parametrii x
modelului 0
Modelul de regresie
 Fiecărui
x din populația x îi corespunde un y din populaţia y. Ecuația
dependenţei dintre y, x și denumită eroare, este modelul de
regresie:

yi= 0 + 1xi +  eroare aleatoare

termen fix distributie


normala
1. Eroarea exprimă variabilitatea lui y.
2. Relația dintre x și y este liniară.
3. In experimentele cu replicate, pentru orice x, y se distribuie
normal, iar dispersia lui y este egala pentru orice x.
4. Observațiile sunt independente.
Modelul de regresie
Ipoteze

1. Relația dintre x și y este liniară.


y Sy/x 2. In experimentele cu replicate,
pentru orice x, y se distribuie
Sy/x normal, iar dispersia lui y este
Sy/x egala pentru orice x.
Sy/x 3. Observațiile sunt independente.
Sy/x
Sy/x
Eroarea standard a lui y la x dat
este variabilitatea medie în jurul
liniei de regresie; este egala
pentru orice x.
x
Ecuatia de regresie
•  
Fiecărei distribuții a valorilor lui y îi corespunde o valoare
medie . Ecuația dintre şi x este ecuația de regresie:

Ecuația de regresie estimată


Parametrii 0 si 1 nu se cunosc și se estimează cu b0 și b1 din
datele eșantioanelor. Daca se substituie 0 si 1 cu b0 și b1 rezulta
ecuația de regresie estimată liniară:
Etapele calculului ecuatiei de regresie
Ecuatia de regresie

yi
 
C A ^𝑦  =   b0 +  b1 x
B  ´𝑦
y
B
A
C
yi
 

n n n


i 1
( yi  y ) 2  
i 1
( yˆ i  y ) 2  
i 1
( yˆ i  y i ) 2
Metoda celor mai mici pătrate
 Metoda celor mai mici pătrate
 utilizează datele eşantionului pentru calculul b0 și b1
 minimizează suma pătratelor abaterilor dintre valorile măsurate şi
cele estimate:

 Cuacest criteriu se determină ecuația care corelează cel mai bine


datele eşantionului. Dacă se utilizează alt criteriu, cum ar fi
minimizarea sumei abaterilor absolute dintre yi și i se obţine o
ecuație diferită. În practică, metoda celor mai mici pătrate este cea
mai utilizată.
Regresie liniara

experimental b1

calculat b0

Diferenta dintre valoarea experimentala si cea data de model se


exprima ca:
yˆ k  yk
Modelul liniar cu o variabila independenta

ŷ  b 0  b1x

m
SSE   ( y k  yˆ k ) 2 Suma patratelor abaterilor (Sum
k 1 of squared errors)

Cea mai buna dreapta va corespunde minimului sumei celor mai


mici patrate ( metoda celor mai mici patrate)
m
SSE    ŷ k  b 0  b1x k 
2

k 1 m = nr. puncte
experimentale
Functia obiectiv
Ecuatiile caracteristice ale metodei
celor mai mici patrate

SSE m
 2  ŷ k  b 0  b1x k  (1)  0
b 0 k 1

SSE m
 2  ŷ k  b 0  b1x k  ( x k )  0
b1 k 1

 
𝑏 1=
∑ ( 𝑥 𝑖 − ´𝑥 ) ( 𝑦 𝑖 − ´𝑦 )
∑ ( 𝑥 𝑖 − 𝑥´ )2
 
Regresie liniara multipla

yˆ  b0  b1 x1  b2 x2  ...bn xn

Exemplu: yˆ  b0  b1 x1  b2 x2

m
SSE   ( y k  yˆ k ) 2
k 1

m
SSE   ( yk  b0  b1 * x1, k  b2  x2,k ) 2
k 1

min SSE
( b0 ,b1 ,b2 )
Sistemul de ecuatii pentu 2 variabile
independente
SSE
 2 ( yk  b0  b1 * x1,k  b2  x2,k ) *(1)  0
b0 k
SSE
 2 ( yk  b0  b1 * x1, k  b2  x2 , k ) *( x1 , k )  0
b1 k

SSE
 2 ( yk  b0  b1 * x1,k  b2  x2 , k ) *( x2 , k )  0
b2 k

m m m
mb0  b1  x1 ,k  b2  x2,k   yk
k 1 k 1 k 1

m m m m
b0  x1, k  b1  x  b2  x1, k  x2, k   x1, k yk
2
1, k
k 1 k 1 k 1 k 1

m m m m
b0  x2, k  b1  x1,k  x2,k  b2  x 2
2, k   x2, k yk
k 1 k 1 k 1 k 1
Model de tip polinomial

y  b0  b1  x  b2  x 2 (3)

Exemplul tipic :

Cp  a  b t  c t2

Modelul poate fi transformat intr-un model liniar:

Cp= y t = x1 t2 = x2

Relatia propusa pentru variatia capacitatii calorice cu temperatura


este o relatie polinomiala.
Coeficientul de determinare
 Ecuațiade regresie estimată aproximează cu o relație liniară
populațiile x şi y.
Întrebarea este cât de bine descrie ecuația de regresie estimată
datele?
Coeficientul de determinare este măsura corelarii datelor cu ecuația
de regresie estimată.

Pentru observaţia i, diferența dintre valoarea măsurată, yi şi valoarea


estimată , yi-este reziduala i, adica eroarea de estimare a lui yi cu .
Metoda celor mai mici pătrate minimizează suma pătratelor
rezidualelor sau erorilor, SSE:
Coeficientul de determinare

 Diferența este eroarea dacă se utilizează la estimarea lui yi. Suma


pătratelor acestei diferenţe, SST este:

Observatie: SST este măsura grupării datelor în jurul dreptei și


SSE este măsura grupării datelor în jurul dreptei .
Suma abaterilor patratice dintre şi , SSR este:

Relația dintre cele trei sume de pătrate este:


Coeficientul de determinare
 SST,
SSR și SSE se folosesc pentru apreciearea potrivirii dintre
ecuația de regresie estimată şi date.
Ecuația de regresie estimată se potriveste cu datele dacă yi- si
SSE=0, rezulta ca SST=SSR şi SSR/SST=1.
Ecuația de regresie estimată nu se potriveste cu datele dacă SSE
este mare, SSR tinde spre zero şi SSE=SST.
Raportul SSR/SST, denumit coeficient de determinare, notat cu r2
evalueaza potrivirea datelor cu ecuaţia de regresie estimate:

r2 este procentul din suma totală a pătratelor care se află pe


dreapta de regresie.
Coeficientul de determinare ajustat
 Formula de calcul pentru este:

unde n este numărul de date din eșantion si k este numărul de


variabile independente ale modelului.
 indică cât de bine se potrivesc punctele cu linia de regresie si cat
de correct s-a ales numarul de variabile independente.
 descreşte dacă se adaugă variabile inutile unui model,
 creşte dacă se adaugă variabile utile unui model,
 < r2,
 daca <0, modelul nu este potrivit pentru date.
Cercetătorii sugerează că se accepta 0,19.
Coeficientul de corelare
 Coeficientulde corelare al datelor eşantionului se calculează din
coeficientul de determinare, r2 astfel:

b1 - panta ecuatiei dreptei de regresie estimată: x


Ipotezele modelului
 1. Se presupune că modelul liniar coreleaza variabilele
dependentă și independent: y=0+1x+
2. Cu metoda celor mai mici pătrate se determină coeficientii b0 și
b1, ca estimatori ai parametrilor modelului 0 și 1. Ecuația de
regresie estimată rezultată este:
3. r2 este măsura potrivirii ecuației de regresie estimată cu datele.
4. Se testeaza semnificațiai coeficienţiilor ecuației.
5. Ecuația de regresie estimată se utilizeaza dupa ce s-a obţinut
gradul de adecvare dorit al modelului cu datele si coeficienţii
ecuației sunt semnificativi.
Teste pentru semnificația coeficientiilor

 1. Se bazează pe următoarele ipoteze referitoare la termenul


erorii :
2. Eroarea  este variabilă aleatoare cu media egală cu zero, .
Rezultă că: 0 și 1 sunt constante, deoarece pentru orice x
=0+1x; ecuația se numește ecuație de regresie.
3. Dispersia lui , σ2, este aceeași pentru toate valorile lui x.
Rezultă că si dispersia lui y este egală cu σ2 și este aceeași
pentru toate valorile lui x.
4. Valorile lui  sunt independente. Rezultă că  pentru un anumit
x nu are nici o legătură cu  pentru oricare x si y pentru un anumit
x nu are nici o legătură cu y pentru oricare x.
5. Eroarea  este distribuită normal. Rezultă că si y este variabilă
aleatoare normal distribuită.
Teste pentru semnificația coeficientiilor

 Într-o ecuație de regresie liniară simplă =0+1x:


 dacă 1=0 atunci =0 si nu depinde linear de x,
 dacă 10, cele două variabile sunt dependente.
Pentru a testa dacă relația de regresie este semnificativă, se
testează ipoteza dacă 1=0.
Se utilizează două teste, care necesită estimarea lui σ2, dispersia
erorii  modelului de regresie.
Estimarea lui σ2
dispersia lui , reprezintă şi dispersia valorilor y în jurul dreptei de
 σ2,
regresie.
Abaterile valorilor y în jurul dreptei de regresie estimată se
numesc reziduale.
SSE, suma pătratelor rezidualelor, este măsura variabilității
observațiilor în jurul dreptei de regresie estimată.
SSE este:

SSE are n-2 grade de libertate, parametrii și

Valoarea medie a pătratelor erorii, MSE este estimator imparțial


pentru σ2; pentru esantion s2 este:
si
Testul t
 Dacă x și y se corelează linear atunci . Testul t determină cu datele
eşantionului, dacă este semnificativă:
H0: =0
Ha:
 Dacă H0 se respinge și între cele două variabile este o relație
semnificativă statistic.
 Dacă H0 nu se respinge, rezultă că nu sunt dovezi suficiente pentru
o relație semnificativă între cele două variabile.
Cu un eșantion nou se obtine o altă ecuație de regresie estimată.
b0 și b1 cu propriile lor distribuții de eșantionare cu proprietățile:
 valoare medie =
 abaterea standard: si
 forma distributiei: normală.
Testul t
 Statisticatestul se distribuie t cu n-2 grade de libertate. Pentru  dat
testul de semnificaţie t pentru regresia liniară simplă este:
H0: =0
Ha:
Statistica testului:
Regulile de respingere:
 metoda valorii p: H0 se respinge dacă p
 metoda valorii critice: H0 se respinge dacă

unde se calculează din distribuţia t cu n-2 grade de libertate.


Intervalul de încredere
  pentru
  Intervalul de încredere este: ;
 Nivelul de încredere al intervalului este 1- şi este valoarea lui t
corespunzatoare ariei /2 din capătul din dreapta al distribuţiei t.
 Testul de semnificaţie t, se aplică ipotezelor:
H0: =0
Ha:
 Intervalul de încredere este folosit pentru a testa ipoteza
referitoare la la două capete ale distribuţiei.
Dacă valoarea presupusă pentru :
 aparţine intervalului de încredere, H0 nu se respinge,
 nu aparţine intervalului de încredere, H0 se respinge.
Testul F
 Testul F se bazeaza pe distribuția de probabilităţi F.
Testele Fși t se aplica ecuatiei cu o singură variabilă
independent.
Testul F se utilizeaza pentru testarea semnificatiei globale a ecuatiei
cu mai multe variabile independente,.
Testul F calculează două estimări independente ale σ2
 MSE este estimare pentru σ2;
 SSR împărțită la numarul gradelor sale de libertate este o altă
estimare independentă pentru σ2 denumita media pătrată a
regresiei, MSR:
Testul F
 Ipotezele testate:
H0: =0
Ha:
Statistica testul:
Regulile de respingere:
metoda valorii p: H0 se respinge dacă valoarea p
metoda valorii critice: H0 se respinge dacă F

în care Fα aparţine distribuției F cu un grad de libertate la


numărător și n - 2 grade de libertate la numitor.
Testul F

Sursa Suma Grade de Media F Valoarea


variaţiei pătratelor libertate pătratelor p
Regresie
Regresie SSR
SSR 1
1 MSR=SSR/1
MSR=SSR/1   
Eroare SSE n-2    
Total SST n-1      
Eroare SSE n-2    

Total SST n-1      


Analiza rezidualelor: validarea
ipotezelor modelului
 Analiza
rezidualelor determina dacă modelul de regresie presupus
este adecvat.
Reziduala observatiei i este diferența yi -, adica este eroarea care
rezultă din utilizarea ecuației de regresie estimată la prezicerea lui y.
Rezidualele furnizează cele mai bune informații despre ε.
Analiza reziduală se bazează pe examinarea graficelor:
 Graficul rezidualelor în funcţie de x
 Graficul rezidualelor în funcţie de
 Graficul rezidualelor standardizate
 Graficul distribuţiei normale a probabilităţilor.
Graficul rezidualelor în funcţie de x

În acest grafic variabila independenta x este reprezentate pe


abscisă și rezidualele corespunzătoare pe ordonată.
Rezidualele se distribuie într-o bandă Modelul de regresie nu este adecvat;
orizontala;dispersia lui  este aceeași. ecuatia neliniară pare mai adecvată.

Rezidualele nu se distribuie într-o bandă


orizontala;dispersia lui  nuneste aceeași.
Graficul rezidualelor
  în funcţie de

 În
acest grafic variabila independenta este pe abscisă și rezidualele
pe ordonată. Aspectul graficului este similar cu cel pentru x; este
preferat pentru analiza de regresie multiplă, deoarece analizeaza
concomitent mai multe variabile independente.
Graficul rezidualelor standardizate
 Rezidualele standardizate sunt raportul rezidualelor si abaterea
standard:

Abaterea standard a rezidualei I, depinde de eroarea standard a


estimării, s și de valoarea corespunzătoare a xi:

hi este::
Graficul rezidualelor standardizate
Graficul rezidualelor
standardizate oferă
informații despre distribuitia
erorii .
Dacă distribuția rezidualelor
standardizate se aseamănă
cu distribuţia normală
standardizată a
probabilităţilor, atunci 95%
din rezidualele
standardizate sunt între -2 și
+2.

Rezidualele standardizate
sunt calculate de pachete
de programe statistice.
Reprezentarea grafică a probabilităţilor
normale
 Scoruri normale:
 se selectează aleatoriu 10 valori dintr-o distribuție normală
standardizata de probabilitati, cu și s=1,
 eșantionarea se repetă de 10 ori si eșantioanele se ordoneaza
crescător,
 Valoare medie a celor mai mici valori obținute prin eșantionare
repetată se numește statistica de ordinul unu.
Statisticieni demonstrează că valoarea medie a statisticii de ordinul
unu este 1,55, valoare denumită scor normal.
Dacă dimensiunea eşantionului este n = 10, se definesc 10 scoruri
normale. În general, un set de date cu n observații va avea n
statistici și n scoruri normale.
Reprezentarea grafică a probabilităţilor
normale
Ordinea statistică Scorul normal
1 -1,55
2 -1,00
3 -0,65
4 -0,37
5 -0,12
6 0,12
7 0,37
8 0,65
9 1,00
10 1,55
Reprezentarea grafică a probabilităţilor
normale
Ipoteza de normalitate este îndeplinită daca in reprezentarea
grafică, scorurile normale de pe axa orizontală și rezidualele
standardizate corespunzătoare de pe axa verticală, se grupează în
jurul liniei cu panta de 45o care trece prin origine.
Dacă datele modelului se abat suficient de mult de la linia cu panta
de 45 de grade, rezultă că rezidualele standardizate nu aparţin unei
distribuţii de probabilităţi normale standardizată.
Orice curbă evidentă a reprezenării grafice este a dovadă că
rezidualele nu provin dintr-o distribuție normală.
Scorurile normale și reprezentarea grafică a probabilităţilor normale
asociate se obțin din pachetele de programe statistice.
Reprezentarea grafică a probabilităţilor
normale

Reprezentarea grafică a scorurilor normale pe axa orizontală și a


rezidualelor standardizate de pe axa vertical.
Detectarea valorilor aberante
Solutionati exercitiile din fisierul Excel anexat.

Exercitiile 1, 2, 3, Determinati modelul matematic care


coreleaza datele.
Exercitiile 4 si 5 Codificati variabilele calitative si apoi
solutionati problema. Interpretati rezultatul.
Exercitiile 6, 7, 8, 9 Propuneti modelul adecvat.