Cursul 12 CSC 2020

Modele statistice
Cursul 12
Model statistic
Definitie: corelează, într-o relaţie matematică, prin metode
statistice datele experimentale ale variabilelor semnificative ale
unui proces.
Calculul statistic se utilizează pentru:
 validarea datelor experimentale,
 obtinerea si validarea modelului statistic.
Modelul statistic:
 reflectă legătura dintre datele de intrare şi de ieşire ale
sistemului,
 descrie comportament sistemelor complexe sau a sistemelor a
căror mecanisme nu sunt cunoscute,
 nu descrie mecanismul fizic sau chimic al procesului,
 coeficienţii modelului empiric nu au semnificaţie fizică.
Analiza de regresie
Activitatea de obtinere a ecuației dependenţei dintre variabile se numeste

analiza de regresie.
În analiza de regresie:
 variabila dependent, y este variabila asupra căruia se fac estimări,
 variabila sau variabilele independente sunt utilizate pentru estimarea
variabilei dependente.
Clasificarea analizei de regresie:

 liniară simplă – deduce relatia liniara dintre o variabilă independentă și
una dependentă,
 liniară multiplă - deduce relatia liniara dintre două sau mai multe
variabile independente și una dependentă,
 neliniară - deduce relaţia neliniara dintre dintre una sau mai multe
variabile independente și una dependentă.
Etapele analizei de regresie
1. Inventarierea variabilelor
2. Alegerea (propunerea) modelului de regresie
3. Obtinerea datelor experimentale
4. Calculul coeficientilor modelului de regresie
5. Testarea calitatii modelului
Inventarierea variabilelor: se analizeaza sistemul si se

stabileste variabila dependent y si variabilele independente xi.
Obtinerea datelor experimentale
Datele experimentale obtinute in regim aleator trebuie:
 sa acopere tot domeniul de interes,
 sa fie numeroase,
 sa fie reproductibile.
Verificarea reproductibilitatii se face pe date cu replicate. Datele sunt

reproductibile daca raportul dispersiilor replicatelor in doua puncte
indeplinesc conditia:
𝑠 21
𝐹= 2
≤ 𝐹𝛼
𝑠 2
Date obtinute in regim programat: numar minim de date care

furnizeaza maximum de informatii.
Obtinerea datelor experimentale
Din analiza datelor experimentale se remarca faptul ca valorile y

depind de valorile variabilei independente x.
Daca nu se cunosc bazele teoretice ale procesul in profunzime, se
incearca sa se gaseasca un model (o relatie) care sa reflecte
variatia datelor experimentale, adica sa se gaseasca relatia:
y=f(x)
Daca y depinde de mai multi factori atunci relatia devine:
y=f(x1, x2…, xn)

Covarianţa datelor experimentale
În statistică, covarianța exprimă dependenţa dintre două variabile.
Cresterea lui x implica Cresterea lui x implica

Datele nu se coreleaza
scaderea lui y cresterea lui y
Covarianţa
Covarianța eșantionului  (x i  x )( y i  y)
cu n perechi de date este: cov ( x , y) s  i 1
n 1
Covarianța populatiei cu
 (x
i 1
i  x )( y i  y)
N perechi de date este: cov ( x , y) p 

N
Covarianţa
70
Drepteleîmpart graficul în patru
65 II
y I zone în care:
60
55
 punctele din zona I au și ,
 punctele din zona II au și ,
50
 punctele din zonele I şi III au
45 III IV
,
40
 punctele din zonele II şi IV
35 au .
30
0 1 2 3 4 5 6
Partiționarea graficului prin puncte

Covarianţa
Interpretarea covariantei
 cov(x, y) > 0 - corelare liniară pozitivă între x și y dacă x

crește, crește şi y, iar punctele aparţin zonelor I şi III;
 cov(x, y) < 0 - corelare liniară negativă între x și y dacă x

crește, y scade, iar punctele aparţin zonelor II şi IV;
 cov(x, y) = 0 - x şi y nu se corelează, iar punctele se

repartizează între cele patru zone;
 cu cat valoarea covarianţei este mai mare cu atat dependenta

liniara dintre date este mai buna.
Covarianţa
Coeficientul de corelaţie Pearson
Coeficientul de corelație liniară a datelor defineste interdependenţa
dintre variabilele observate în populaţii statistice.
pentru esantion pentru populatie
covs ( x , y) cov p ( x, y)
r 
2 2
s x s y  x2  y2
Observatie: Coeficientul de corelație defineste :

 În sens larg legătura statistică între variabile cantitative, între
variabile calitative sau între ambele tipuri de variabile.
 În sens restrâns măsoara gradul de legătură statistică dintre
variabilele cantitative.
Date cu diferiti coeficienti de corelaţie
y y y
x x x
r = -1 r = -0,6 r=0
y
y y
x x x
r = +1 r = +0,3 r=0
Coeficientul de corelatie
Dacă punctele setului de date:

• aparţin unei linii drepte cu panta pozitivă, r=+1,
• aparţin unei linii drepte cu panta negativă, r=-1,
• nu se corelează, r=0,
• nu aparţin în totalitate unei linii drepte cu panta pozitivă,

0<r<1; cu cât punctele se abat de la linia dreaptă, cu atât
valoarea coeficientului r scade,
• nu aparţin în totalitate unei linii drepte cu panta negativă,
-1<r<0; cu cât punctele se abat de la linia dreaptă, cu atât
valoarea coeficientului r se apropie de zero.
Covarianta
Coeficientul
datelor
deexperimentale
corelaţie
r<0 r r>0
Coeficientul de corelaţie
• r є [0; 0.2] → corelaţie foarte slabă, inexistentă

 r є [0.2; 0.4] sau r є [-0.2;- 0.4] → corelaţie slabă
 r є [0.4; 0.6] sau r є [-0.4; -0.6] → corelaţie rezonabilă
 r є [0.6; 0.8] sau r є [-0.6;- 0.8→ corelaţie bună
 r є [0.8; 1] sau r є [-0.8; -1] → corelaţie foarte bună
Coeficientul de corelatie
Dacă valoarea absolută a coeficientului de corelaţie este

aproape de 0, nu inseamnă că nu există legătură statistică între
variabile - legătura poate să existe, dar nu este liniară.
Coeficientul de corelaţie
Alegerea formei modelului
Modelul de regresie este relatia dintre variabile y=f(x). In calculul
de regresie se considera ca:
 variabilele x nu sunt afectate de eroare de masurare,
 variabila y este afectata de erori de experimentare.
x=t
y=h
Analiza de regresie liniara
Observatie:
Corelația trateaza cele două variabile în mod egal.
În regresie, o variabilă este independentă - variabila x, iar cealaltă
dependenta - variabila y.
Ce este o dependenta liniara? y
y= 0 + 1x 1
şi - parametrii x
modelului 0
Modelul de regresie
Fiecărui
x din populația x îi corespunde un y din populaţia y. Ecuația
dependenţei dintre y, x și denumită eroare, este modelul de
regresie:
yi= 0 + 1xi +  eroare aleatoare
termen fix distributie

normala
1. Eroarea exprimă variabilitatea lui y.
2. Relația dintre x și y este liniară.
3. In experimentele cu replicate, pentru orice x, y se distribuie
normal, iar dispersia lui y este egala pentru orice x.
4. Observațiile sunt independente.
Modelul de regresie
Ipoteze
1. Relația dintre x și y este liniară.

y Sy/x 2. In experimentele cu replicate,
pentru orice x, y se distribuie
Sy/x normal, iar dispersia lui y este
Sy/x egala pentru orice x.
Sy/x 3. Observațiile sunt independente.
Sy/x
Sy/x
Eroarea standard a lui y la x dat
este variabilitatea medie în jurul
liniei de regresie; este egala
pentru orice x.
x
Ecuatia de regresie
•
Fiecărei distribuții a valorilor lui y îi corespunde o valoare
medie . Ecuația dintre şi x este ecuația de regresie:
Ecuația de regresie estimată

Parametrii 0 si 1 nu se cunosc și se estimează cu b0 și b1 din
datele eșantioanelor. Daca se substituie 0 si 1 cu b0 și b1 rezulta
ecuația de regresie estimată liniară:
Etapele calculului ecuatiei de regresie
Ecuatia de regresie
yi

C A ^𝑦 = b0 + b1 x
B ´𝑦
y
B
A
C
yi

n n n

i 1
( yi  y ) 2  
i 1
( yˆ i  y ) 2  
i 1
( yˆ i  y i ) 2
Metoda celor mai mici pătrate
Metoda celor mai mici pătrate
 utilizează datele eşantionului pentru calculul b0 și b1
 minimizează suma pătratelor abaterilor dintre valorile măsurate şi
cele estimate:
Cuacest criteriu se determină ecuația care corelează cel mai bine

datele eşantionului. Dacă se utilizează alt criteriu, cum ar fi
minimizarea sumei abaterilor absolute dintre yi și i se obţine o
ecuație diferită. În practică, metoda celor mai mici pătrate este cea
mai utilizată.
Regresie liniara
experimental b1
calculat b0
Diferenta dintre valoarea experimentala si cea data de model se

exprima ca:
yˆ k  yk
Modelul liniar cu o variabila independenta
ŷ  b 0  b1x
m
SSE   ( y k  yˆ k ) 2 Suma patratelor abaterilor (Sum
k 1 of squared errors)
Cea mai buna dreapta va corespunde minimului sumei celor mai

mici patrate ( metoda celor mai mici patrate)
m
SSE    ŷ k  b 0  b1x k 
2
k 1 m = nr. puncte
experimentale
Functia obiectiv
Ecuatiile caracteristice ale metodei
celor mai mici patrate
SSE m
 2  ŷ k  b 0  b1x k  (1)  0
b 0 k 1
SSE m
 2  ŷ k  b 0  b1x k  ( x k )  0
b1 k 1

𝑏 1=
∑ ( 𝑥 𝑖 − ´𝑥 ) ( 𝑦 𝑖 − ´𝑦 )
∑ ( 𝑥 𝑖 − 𝑥´ )2

Regresie liniara multipla
yˆ  b0  b1 x1  b2 x2  ...bn xn
Exemplu: yˆ  b0  b1 x1  b2 x2
m
SSE   ( y k  yˆ k ) 2
k 1
m
SSE   ( yk  b0  b1 * x1, k  b2  x2,k ) 2
k 1
min SSE
( b0 ,b1 ,b2 )
Sistemul de ecuatii pentu 2 variabile
independente
SSE
 2 ( yk  b0  b1 * x1,k  b2  x2,k ) *(1)  0
b0 k
SSE
 2 ( yk  b0  b1 * x1, k  b2  x2 , k ) *( x1 , k )  0
b1 k
SSE
 2 ( yk  b0  b1 * x1,k  b2  x2 , k ) *( x2 , k )  0
b2 k
m m m
mb0  b1  x1 ,k  b2  x2,k   yk
k 1 k 1 k 1
m m m m
b0  x1, k  b1  x  b2  x1, k  x2, k   x1, k yk
2
1, k
k 1 k 1 k 1 k 1
m m m m
b0  x2, k  b1  x1,k  x2,k  b2  x 2
2, k   x2, k yk
k 1 k 1 k 1 k 1
Model de tip polinomial
y  b0  b1  x  b2  x 2 (3)
Exemplul tipic :
Cp  a  b t  c t2
Modelul poate fi transformat intr-un model liniar:
Cp= y t = x1 t2 = x2
Relatia propusa pentru variatia capacitatii calorice cu temperatura

este o relatie polinomiala.
Coeficientul de determinare
Ecuațiade regresie estimată aproximează cu o relație liniară
populațiile x şi y.
Întrebarea este cât de bine descrie ecuația de regresie estimată
datele?
Coeficientul de determinare este măsura corelarii datelor cu ecuația
de regresie estimată.
Pentru observaţia i, diferența dintre valoarea măsurată, yi şi valoarea

estimată , yi-este reziduala i, adica eroarea de estimare a lui yi cu .
Metoda celor mai mici pătrate minimizează suma pătratelor
rezidualelor sau erorilor, SSE:
Diferența este eroarea dacă se utilizează la estimarea lui yi. Suma

pătratelor acestei diferenţe, SST este:
Observatie: SST este măsura grupării datelor în jurul dreptei și

SSE este măsura grupării datelor în jurul dreptei .
Suma abaterilor patratice dintre şi , SSR este:
Relația dintre cele trei sume de pătrate este:

SST,
SSR și SSE se folosesc pentru apreciearea potrivirii dintre
ecuația de regresie estimată şi date.
Ecuația de regresie estimată se potriveste cu datele dacă yi- si
SSE=0, rezulta ca SST=SSR şi SSR/SST=1.
Ecuația de regresie estimată nu se potriveste cu datele dacă SSE
este mare, SSR tinde spre zero şi SSE=SST.
Raportul SSR/SST, denumit coeficient de determinare, notat cu r2
evalueaza potrivirea datelor cu ecuaţia de regresie estimate:
r2 este procentul din suma totală a pătratelor care se află pe

dreapta de regresie.
Coeficientul de determinare ajustat
Formula de calcul pentru este:
unde n este numărul de date din eșantion si k este numărul de

variabile independente ale modelului.
 indică cât de bine se potrivesc punctele cu linia de regresie si cat
de correct s-a ales numarul de variabile independente.
 descreşte dacă se adaugă variabile inutile unui model,
 creşte dacă se adaugă variabile utile unui model,
 < r2,
 daca <0, modelul nu este potrivit pentru date.
Cercetătorii sugerează că se accepta 0,19.
Coeficientul de corelare
Coeficientulde corelare al datelor eşantionului se calculează din
coeficientul de determinare, r2 astfel:
b1 - panta ecuatiei dreptei de regresie estimată: x

Ipotezele modelului
1. Se presupune că modelul liniar coreleaza variabilele
dependentă și independent: y=0+1x+
2. Cu metoda celor mai mici pătrate se determină coeficientii b0 și
b1, ca estimatori ai parametrilor modelului 0 și 1. Ecuația de
regresie estimată rezultată este:
3. r2 este măsura potrivirii ecuației de regresie estimată cu datele.
4. Se testeaza semnificațiai coeficienţiilor ecuației.
5. Ecuația de regresie estimată se utilizeaza dupa ce s-a obţinut
gradul de adecvare dorit al modelului cu datele si coeficienţii
ecuației sunt semnificativi.
Teste pentru semnificația coeficientiilor
1. Se bazează pe următoarele ipoteze referitoare la termenul

erorii :
2. Eroarea  este variabilă aleatoare cu media egală cu zero, .
Rezultă că: 0 și 1 sunt constante, deoarece pentru orice x
=0+1x; ecuația se numește ecuație de regresie.
3. Dispersia lui , σ2, este aceeași pentru toate valorile lui x.
Rezultă că si dispersia lui y este egală cu σ2 și este aceeași
pentru toate valorile lui x.
4. Valorile lui  sunt independente. Rezultă că  pentru un anumit
x nu are nici o legătură cu  pentru oricare x si y pentru un anumit
x nu are nici o legătură cu y pentru oricare x.
5. Eroarea  este distribuită normal. Rezultă că si y este variabilă
aleatoare normal distribuită.
Teste pentru semnificația coeficientiilor
Într-o ecuație de regresie liniară simplă =0+1x:

 dacă 1=0 atunci =0 si nu depinde linear de x,
 dacă 10, cele două variabile sunt dependente.
Pentru a testa dacă relația de regresie este semnificativă, se
testează ipoteza dacă 1=0.
Se utilizează două teste, care necesită estimarea lui σ2, dispersia
erorii  modelului de regresie.
Estimarea lui σ2
dispersia lui , reprezintă şi dispersia valorilor y în jurul dreptei de
σ2,
regresie.
Abaterile valorilor y în jurul dreptei de regresie estimată se
numesc reziduale.
SSE, suma pătratelor rezidualelor, este măsura variabilității
observațiilor în jurul dreptei de regresie estimată.
SSE este:
SSE are n-2 grade de libertate, parametrii și
Valoarea medie a pătratelor erorii, MSE este estimator imparțial

pentru σ2; pentru esantion s2 este:
si
Testul t
Dacă x și y se corelează linear atunci . Testul t determină cu datele
eşantionului, dacă este semnificativă:
H0: =0
Ha:
 Dacă H0 se respinge și între cele două variabile este o relație
semnificativă statistic.
 Dacă H0 nu se respinge, rezultă că nu sunt dovezi suficiente pentru
o relație semnificativă între cele două variabile.
Cu un eșantion nou se obtine o altă ecuație de regresie estimată.
b0 și b1 cu propriile lor distribuții de eșantionare cu proprietățile:
 valoare medie =
 abaterea standard: si
 forma distributiei: normală.
Testul t
Statisticatestul se distribuie t cu n-2 grade de libertate. Pentru  dat
testul de semnificaţie t pentru regresia liniară simplă este:
H0: =0
Ha:
Statistica testului:
Regulile de respingere:
 metoda valorii p: H0 se respinge dacă p
 metoda valorii critice: H0 se respinge dacă
unde se calculează din distribuţia t cu n-2 grade de libertate.

Intervalul de încredere
pentru
 Intervalul de încredere este: ;
 Nivelul de încredere al intervalului este 1- şi este valoarea lui t
corespunzatoare ariei /2 din capătul din dreapta al distribuţiei t.
 Testul de semnificaţie t, se aplică ipotezelor:
H0: =0
Ha:
 Intervalul de încredere este folosit pentru a testa ipoteza
referitoare la la două capete ale distribuţiei.
Dacă valoarea presupusă pentru :
 aparţine intervalului de încredere, H0 nu se respinge,
 nu aparţine intervalului de încredere, H0 se respinge.
Testul F
Testul F se bazeaza pe distribuția de probabilităţi F.
Testele Fși t se aplica ecuatiei cu o singură variabilă
independent.
Testul F se utilizeaza pentru testarea semnificatiei globale a ecuatiei
cu mai multe variabile independente,.
Testul F calculează două estimări independente ale σ2
 MSE este estimare pentru σ2;
 SSR împărțită la numarul gradelor sale de libertate este o altă
estimare independentă pentru σ2 denumita media pătrată a
regresiei, MSR:
Testul F
Ipotezele testate:
H0: =0
Ha:
Statistica testul:
Regulile de respingere:
metoda valorii p: H0 se respinge dacă valoarea p
metoda valorii critice: H0 se respinge dacă F
în care Fα aparţine distribuției F cu un grad de libertate la

numărător și n - 2 grade de libertate la numitor.
Testul F
Sursa Suma Grade de Media F Valoarea

variaţiei pătratelor libertate pătratelor p
Regresie
Regresie SSR
SSR 1
1 MSR=SSR/1
MSR=SSR/1
Eroare SSE n-2
Total SST n-1
Eroare SSE n-2
Total SST n-1

Analiza rezidualelor: validarea
ipotezelor modelului
Analiza
rezidualelor determina dacă modelul de regresie presupus
este adecvat.
Reziduala observatiei i este diferența yi -, adica este eroarea care
rezultă din utilizarea ecuației de regresie estimată la prezicerea lui y.
Rezidualele furnizează cele mai bune informații despre ε.
Analiza reziduală se bazează pe examinarea graficelor:
 Graficul rezidualelor în funcţie de x
 Graficul rezidualelor în funcţie de
 Graficul rezidualelor standardizate
 Graficul distribuţiei normale a probabilităţilor.
Graficul rezidualelor în funcţie de x
În acest grafic variabila independenta x este reprezentate pe

abscisă și rezidualele corespunzătoare pe ordonată.
Rezidualele se distribuie într-o bandă Modelul de regresie nu este adecvat;
orizontala;dispersia lui  este aceeași. ecuatia neliniară pare mai adecvată.
Rezidualele nu se distribuie într-o bandă

orizontala;dispersia lui  nuneste aceeași.
Graficul rezidualelor
în funcţie de
În
acest grafic variabila independenta este pe abscisă și rezidualele
pe ordonată. Aspectul graficului este similar cu cel pentru x; este
preferat pentru analiza de regresie multiplă, deoarece analizeaza
concomitent mai multe variabile independente.
Graficul rezidualelor standardizate
Rezidualele standardizate sunt raportul rezidualelor si abaterea
standard:
Abaterea standard a rezidualei I, depinde de eroarea standard a

estimării, s și de valoarea corespunzătoare a xi:
hi este::
Graficul rezidualelor standardizate
Graficul rezidualelor
standardizate oferă
informații despre distribuitia
erorii .
Dacă distribuția rezidualelor
standardizate se aseamănă
cu distribuţia normală
standardizată a
probabilităţilor, atunci 95%
din rezidualele
standardizate sunt între -2 și
+2.
Rezidualele standardizate
sunt calculate de pachete
de programe statistice.
Reprezentarea grafică a probabilităţilor
normale
Scoruri normale:
 se selectează aleatoriu 10 valori dintr-o distribuție normală
standardizata de probabilitati, cu și s=1,
 eșantionarea se repetă de 10 ori si eșantioanele se ordoneaza
crescător,
 Valoare medie a celor mai mici valori obținute prin eșantionare
repetată se numește statistica de ordinul unu.
Statisticieni demonstrează că valoarea medie a statisticii de ordinul
unu este 1,55, valoare denumită scor normal.
Dacă dimensiunea eşantionului este n = 10, se definesc 10 scoruri
normale. În general, un set de date cu n observații va avea n
statistici și n scoruri normale.
normale
Ordinea statistică Scorul normal
1 -1,55
2 -1,00
3 -0,65
4 -0,37
5 -0,12
6 0,12
7 0,37
8 0,65
9 1,00
10 1,55
normale
Ipoteza de normalitate este îndeplinită daca in reprezentarea
grafică, scorurile normale de pe axa orizontală și rezidualele
standardizate corespunzătoare de pe axa verticală, se grupează în
jurul liniei cu panta de 45o care trece prin origine.
Dacă datele modelului se abat suficient de mult de la linia cu panta
de 45 de grade, rezultă că rezidualele standardizate nu aparţin unei
distribuţii de probabilităţi normale standardizată.
Orice curbă evidentă a reprezenării grafice este a dovadă că
rezidualele nu provin dintr-o distribuție normală.
Scorurile normale și reprezentarea grafică a probabilităţilor normale
asociate se obțin din pachetele de programe statistice.
normale
Reprezentarea grafică a scorurilor normale pe axa orizontală și a

rezidualelor standardizate de pe axa vertical.
Detectarea valorilor aberante
Solutionati exercitiile din fisierul Excel anexat.
Exercitiile 1, 2, 3, Determinati modelul matematic care

coreleaza datele.
Exercitiile 4 si 5 Codificati variabilele calitative si apoi
solutionati problema. Interpretati rezultatul.
Exercitiile 6, 7, 8, 9 Propuneti modelul adecvat.

Cursul 12 CSC 2020

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cursul 12 CSC 2020

Încărcat de

Drepturi de autor:

Formate disponibile

Modele statistice

Activitatea de obtinere a ecuației dependenţei dintre variabile se numeste

Clasificarea analizei de regresie:

Inventarierea variabilelor: se analizeaza sistemul si se

Verificarea reproductibilitatii se face pe date cu replicate. Datele sunt

Date obtinute in regim programat: numar minim de date care

Din analiza datelor experimentale se remarca faptul ca valorile y

Daca y depinde de mai multi factori atunci relatia devine:

y=f(x1, x2…, xn)

În statistică, covarianța exprimă dependenţa dintre două variabile.

Cresterea lui x implica Cresterea lui x implica

N perechi de date este: cov ( x , y) p 

Partiționarea graficului prin puncte

 cov(x, y) > 0 - corelare liniară pozitivă între x și y dacă x

 cov(x, y) < 0 - corelare liniară negativă între x și y dacă x

 cov(x, y) = 0 - x şi y nu se corelează, iar punctele se

 cu cat valoarea covarianţei este mai mare cu atat dependenta

pentru esantion pentru populatie

Observatie: Coeficientul de corelație defineste :

Dacă punctele setului de date:

• aparţin unei linii drepte cu panta negativă, r=-1,

• nu aparţin în totalitate unei linii drepte cu panta pozitivă,

• r є [0; 0.2] → corelaţie foarte slabă, inexistentă

Dacă valoarea absolută a coeficientului de corelaţie este

Ce este o dependenta liniara? y

yi= 0 + 1xi +  eroare aleatoare

termen fix distributie

1. Relația dintre x și y este liniară.

Ecuația de regresie estimată

Cuacest criteriu se determină ecuația care corelează cel mai bine

Diferenta dintre valoarea experimentala si cea data de model se

Cea mai buna dreapta va corespunde minimului sumei celor mai

Modelul poate fi transformat intr-un model liniar:

Relatia propusa pentru variatia capacitatii calorice cu temperatura

Pentru observaţia i, diferența dintre valoarea măsurată, yi şi valoarea

Diferența este eroarea dacă se utilizează la estimarea lui yi. Suma

Observatie: SST este măsura grupării datelor în jurul dreptei și

Relația dintre cele trei sume de pătrate este:

r2 este procentul din suma totală a pătratelor care se află pe

unde n este numărul de date din eșantion si k este numărul de

b1 - panta ecuatiei dreptei de regresie estimată: x

1. Se bazează pe următoarele ipoteze referitoare la termenul

Într-o ecuație de regresie liniară simplă =0+1x:

SSE are n-2 grade de libertate, parametrii și

Valoarea medie a pătratelor erorii, MSE este estimator imparțial

unde se calculează din distribuţia t cu n-2 grade de libertate.

în care Fα aparţine distribuției F cu un grad de libertate la

Sursa Suma Grade de Media F Valoarea

Total SST n-1

În acest grafic variabila independenta x este reprezentate pe

Rezidualele nu se distribuie într-o bandă

Abaterea standard a rezidualei I, depinde de eroarea standard a

Reprezentarea grafică a scorurilor normale pe axa orizontală și a

Exercitiile 1, 2, 3, Determinati modelul matematic care

S-ar putea să vă placă și