Documente Academic
Documente Profesional
Documente Cultură
(Design of experiments)
Titular de curs si aplicatii : Ș.L. dr. ing. Ionuț BANU
Durata alocată: 1h curs si 1 h de aplicații pe săptămâna
Evaluarea activității: verificare pe parcurs
Un referat realizat pe baza unui articol de specialitate 50 %
Două lucrări de verificare: 50 %
Bibliografie
[1] C. Balaban, Strategia experimentării și analiza datelor
experimentale. Aplicații în chimie, inginerie chimică, tehnologie
chimică, Editura Academiei Române, București, 1993.
[2] R. Mihail, Introducere în strategia experimentării, cu aplicaţii din
tehnologia chimică, Editura Științifică și Enciclopedică, București, 1976.
[3] G. Maria, Analiza statistică și corelarea datelor experimentale
(bio)chimice. Repartiții și estimatori statistici, Editura Printech,
Bucuresti, 2008.
[4] O. Iordache, G. Maria, S. Corbu, Modelarea statistică și estimarea
parametrilor proceselor chimice, Editura Academiei Române, București,
1991.
Obiectul disciplinei
Disciplina programarea experimentelor este o ramura a statisticii
matematice care se ocupa cu abordarea sistematica, riguroasa a rezolvarii
problemelor ingineresti, prin aplicarea unor principia si tehnici in etapa de
colectare a datelor experimentale.
Obiectul disciplinei este sa furnizeze cercetatorilor aparatul (metodele)
statistic cu ajutorul caruia sa se determine care dintre variabilele de intrare
influenteaza cel mai mult un process, si care sunt conditiile de operare care
maximizeaza, minimizeaza sau apropie o valoare de o alta fixata.
Istoricul disciplinei
Principiile statistice folosite in programarea experimentelor au fost dezvoltate
initial de R.A. Fisher in timpul activitatii sale la Statiunea de Experimentare
Rothamsted din Marea Britanie intre 1920‐1930 (in domeniul agricol)
Minitab‐ un pachet de programe statistice dezvoltat din 1972 la Pennsylvania State university;
Statistica – program de statistica si analiza de date dezvoltat din 1980 de compania americana Statsoft;
Alte programe care au in componenta lor pachete de proceduri pentru analiza statistica: Microsoft Excel,
Mathematica (1988, Wolfram , US), Maple (1982, Maplesoft, CA), Matlab (1984, Mathworks), Mathcad (~ 1990,
Mathsoft/PTC)
Notiuni fundamentale
1. Experiment, experienta
Prin experiment se intelege o serie de investigatii facute in scopul de a obtine un raspuns la o problema data. Se
Se considera ca fenomenul (procesul) studiat este o asa zisa “cutie neagra”, pentru care nu se observa decat variabilele de
Fiecare factor poate lua una sau mai multe valori pe parcursul unui experiment, numite niveluri.
‐ Natura (calitativi, cantitativi)
C. Independenta – nu trebuie sa existe o relatie de interdependenta intre factori (lineara, parabolica sau de alta natura).
Temperatura
3. Parametru (variabila de optimizat)
Raspunsul unei investigatii, reprezentand o variabila dependenta a procesului cercetat este denumit parametru de
optimizat
Caracteristici:
‐ cantitativ
b. Caracterizarea/testarea sumara a proceselor – obtinerea unor informatii despre proces si determinarea importantei
factorilor
Determinarea conditiilor de operare cele mai adecvate care maximizeaza un raspuns al unui proces
Capitolul 1
38.2C şi 38.4C
identice, dar aceasta este o falsa impresie, indusa de cele mai multe ori de o rezolutie
Exemplu:
Valoare
adevarata Erori sistematice si
întâmplătoare
16 17
16 17 16 17
X N X N X N
In relatia de calcul a abaterii lui U se vor folosi valorile numerice X N
Exemplu de propagare a erorii
A r 2
unde r=(50.5)m
3.14*5*5 78.5 m 2
A
A
2 r 2 3.14 5 31.4
r
2
A 2
2
A r 31.4 0.5 2
15.7
r
Eroare absoluta =
0.03x89=2.7cm
valoare =(893)cm
Natura statistica a erorilor
• Eroarea asociata cu valoare reala poate da
informatii asupra importantei erorilor.
• Studiul statistic al erorilor presupune
considerarea erorii experimentale ca o variabila
aleatoare (statistica) care poate lua orice valori
reale. Media acestei valori este 0 iar dispersia
este 2 ( abatere medie pătratica ).
• Distribuţia erorilor corespunde repartiţiei
normale Gauss.
Exemplul 1
R2h
V
3
Daca h 6 0.01 cm
R 5 0.02 cm
a) X Y Z
X
b)
Y Z
c) X Y e Z
d ) X ln Y 2 Z
Prelucrarea primara a datelor
experimentale: Statistica
descriptivă
Colectarea datelor
Observaţiile se referă la o mulţime ce poartă numele de
populaţie sau masă statistică.
Analiza datelor
Pentru a reflecta informaţia într-un mod sintetic se
utilizează un număr relativ mic de valori numerice
numite caracteristici. Aceste mărimi poartă şi numele de
“statistică”.
Mărimile caracteristice cele mai importante sunt media,
care este o măsură a localizării valorilor seriei statistice,
şi dispersia, ce furnizează informaţii asupra împrăştierii
observaţiilor în jurul mediei.
Interpretare
Număr de pompe, ni 40 33 15 10 2
Reprezentare grafică
ni k
fi Frecvenţa relativă N ni
N
i 1
50
40
30
ni
20
Diagrama cu
10 bastoane
0 1 2 3 4 5
x
Funcţia de repartiţie
Fie seria statistică definită de perechile (xi, ni).
Definiţie
Se numeşte funcţie de repartiţie a seriei statistice,
funcţia F care asociază oricărei valori reale x, numărul
total de unităţi statistice (elemente ale seriei) a căror
valoare xi este mai mică sau cel mult egală cu x.
Notaţia este:
F ( x ) ni
xi x
Frecvenţe, ni 40 33 15 10 2
Frecvenţe relative
0,40 0,73 0,88 0,98 1,00
cumulative
Diametru, mm [24,2- [24,4- [24,6- [24,8- [25,0- [25,2- [25,4- [25,6- [25,8-
24,4) 24,6) 24,8) 25,0) 25,2) 25,4) 25,6) 25,8) 26,0]
Efectiv, ni 5 13 24 19 14 10 8 5 2
25
20
15
10
3
l
2
0 10 20 30 40 50 60
Exemplu
Distribuţia granulometrică în baza masă a carbonatului de calciu precipitat este
măsurată cu un granulometru cu laser. Rezultatele sunt prezentate pe clase
granulometrice în care diametrul particulelor este măsurat în micrometri şi
reprezintă caracterul statistic studiat, iar frecvenţa claselor reprezintă procente
de masă din masa totală de particule care au diametre cuprinse în acea clasă:
3
l
2
0 10 20 30 40 50 60
FUNCŢIA DE REPARTIŢIE
Diametru, mm [24,2- [24,4- [24,6- [24,8- [25,0- [25,2- [25,4- [25,6- [25,8-
24,4) 24,6) 24,8) 25,0) 25,2) 25,4) 25,6) 25,8) 26,0]
Frecvenţa 5 13 24 19 14 10 8 5 2
Frecvenţa 5 18 42 61 75 85 93 98 100
cumulată
Media Aritmetică (MEDIE) X
k
1 k
N ni X x i ni
i 1 N i 1
1 k
X
N
c i 1
i ni
x i
X i 1
N
• Media armonică (pt. date în tabel)
N
xarmonic
1 / x1 1 / x2 ... 1 / x N
n i
xarmonic i
n1 / x1 n2 / x2 ... nk / xk
20
15
10
i i
n ( x x ) 2
σ
2 i 1
k
σ σ2
n
i 1
i
• O variabilă aleatoare care ia un număr finit sau numărabil de valori este
numită variabilă aleatoare discretă. Exemple de variabile aleatoare
discrete sunt:
numărul de piese defecte într‐o şarjă,
numărul de încercări reuşite la un test de rezistenţă al unui material,
numărul de molecule de monomer adiţionate într‐o polimerizare.
Dacă variabila aleatoare poate lua orice valoare numerică într‐un interval
I R, cu o probabilitate definită, atunci acea variabilă este de tip
continuu. Exemplu de astfel de variabile:
duratele de staţionare într‐un reactor cu agitare,
dimensiunile particulelor într‐o populaţie de cristale,
masele molare ale unui polimer
Legea de probabilitate a unei variabile
aleatoare discrete
• Legea de probabilitate, numită şi repartiţie de
probabilitate, pentru o variabilă aleatoare discretă este
definită prin specificare a tuturor valorilor posibile ale
variabilelor aleatoare şi a probabilităţilor corespunzătoare.
x1 x 2 xn
X :
p1 p2 pn
n
cu respectarea condiţiei :
pi 1
i 1
Funcţia de repartiţie
• Funcţia de repartiţie a variabilei aleatoare discrete X definită pe E este o
funcţie
F: R [0, 1]
care, pentru orice x R asociază valoarea F(x) = P(X <= x)
nk
P( x k ) C p q k
n
k
Conditii
‐ Probele trebuie sa fie identice
‐ Rezultatul unui eveniment sa fie independent de rezultatul testarii anterioare
.
Variabile aleatoare continue
• Densitate de probabilitate
O funcţie f definită pe R, continuă pe R sau pe un interval închis din R, în afara
căruia este nulă, se numeşte densitate de probabilitate dacă:
a) f(x) 0 pentru x R
b) f x dx 1
O variabilă aleatoare X este numită continuă dacă există o funcţie de densitate f pentru
care functia de repartitie F se poate defini pentru orice x real prin relatia:
x
F (x ) f (t )dt
Calculul probabilitatilor
F (a) P( X a)
a
F (a) f ( x)dx
b a b
P a X b F b F a f (t ) dt f t dt a f t dt
a
f(x) P X a f x dx
P(a < x < b)
b
P(x a) a) P X b f x dx
a b x Pa X b f x dx
a
Cuantila
Pentru o variabila aleatoare x cu densitatea de probabilitate f(x) si repartitia F(x)
se defineste cuantila de ordin , x , ca valoarea variabilei aleatoare x pentru
care probabilitatea ca x < x este .
F(x) =
De exemplu
P x x x 1 1
2 1
2
2 2
Pentru orice număr real b, P(X = b) = 0. Astfel, pentru o variabila
aleatoare continua probabilitatea ca aceasta sa ia o valoare anume
este nula.
lim Pa X b PX b 0
a b
b
f x dx 0
a
P (a X b ) P (a X b ) P (a X b ) P (a X b )
Media variabilei aleatoare
x1 x2 xn n
X :
p1
p2 pn p
i 1
i 1
n
E X xi pi
i 1
se numeşte valoarea medie variabilei aleatoare X
În cazul în care variabila aleatoare X poate lua valori într-o mulţime infinita
numărabilă de valori x1, x2, x3, ... cărora le corespund probabilităţile p1, p2, p3,
... atunci numărul
E X xi pi
i 1
Este media variabilei X daca seria este absolut convergentă
Dacă X este o variabilă aleatoare continuă cu densitatea de probabilitate f,
atunci numărul
E( X ) x f x dx
şi se notează cu D(X).
D X E X E X E X 2 2 E X E X E X E X 2 2 E X E X
2 2 2 2
D X E X 2 E X
2
n
D X ( xi E ( X )) 2 pi Pt o variabila discreta
i 1
D X ( x E ( X )) 2 f x dx Pentru o variabila continua
Ipoteza de repartiţie normală este de multe ori adaptată fără discriminare pentru
orice rezultate ale unor măsurători experimentale pentru că în acest caz există deja
proceduri statistice de analiză bine formulate. În realitate, nu toate rezultatele unor
măsurători experimentale afectate de erori aleatoare au o distribuţie normală.
Legea de probabilitate a variabilei normale
x
2
1
f x e 2 2
2 cu x R.
x 2
1
f x dx e 2 2
dx 1
2
Media si dispersia
x 2
x
E( x ) x * f x dx e 2 2
dx
2
x
2
1
D( x ) x 2
f x dx x 2
e 2
2
dx 2
2
f(x) N(,12)
N(,22)
σ 22 σ12
x
Definirea probabilităţilor pe intervale
reprezentative
b
x
2
1
Pa X b e 2 2 dx
2 a
P x 0,6826
P 2 x 2 0,9544
P 3 x 3 0,9974
Variabila normală adimensională
X μ
Z
σ
unde X este o variabilă normală repartizată N(,).
f(z)
z2
1
f z e 2
2
-3 -2 -1 0 1 2 3 z
Legatura intre functiile Gauss si Laplace
z y2
1
z e 2 dy
2
Această funcţie, numită funcţia Laplace (matematician francez) este tabelată. Ea este
mult utilizată în efectuarea testelor statistice.
F,
0,5
• Datele experimentale, atunci când erorile sunt întâmplătoare, se consideră adesea
ca având o distribuţie normală.
• Pentru a verifica acest lucru pe un anumit set de date experimentale se poate
folosi următoarea schemă:
...
2 2
1
2
2
2
n
x
t
Vn 2
Vn1
F n1 , n2
U n2
La determinarea repetata a carbonului in fonta s‐au gasit valorile in procente: 2.86, 2.89, 2.9,
2.91 si 2.99. Se pune problema daca valoarea 2.99 este anormala.
Rezolvare:
Se calculeaza Q cu relatia
xN 1 xN 2.99 2.91
Q 0.62
xN 1 x1 2.99 2.86
Din table se obtine Q(95 %, N=5) = 0.710
Qcalc <Qcritic 0.62<0.71 => nu exista motive sa consideram valoarea 2.99 ca anormala.
Tema
S‐au efectuat un set de masuratori ale unei marimi si s‐au obtinut valorile: 167, 180, 188, 177,
181, 185, 189 . In acest set de masuratori, valoarea 167 este o valoare anormala sau nu?. Se va
considera un nivel de incredere de 95 %.
2. La baza procedeelor de testare a rezultatelor anormale in cazul selectiilor mici sta, in general,
repartitia t‐student.
Fie valoarea anormala xd si media aritmetica a valorilor xn1 obtinuta dupa eliminarea
masuratorii considerate anormale.
‐ Se calculeaza dispersia celor n‐1 date:
x x
2
i n 1
s i
n2
‐ Se calculeza valoarea testului t
xn1 xd
t
n
s
n 1
Se dau urmatoarele 10 valori obtinute in urma analizei ionului de Fe3+ dintr‐o proba:
0.26, 0.21, 0.20, 0.21, 0.21, 0.19, 0.18, 0.17, 0.18, 0.19. Se cere sa se stabileasca daca 0.26 este
o valoare anormala.
Se calculeaza :
ttabelat t P 95%, 2.5%, n 2 2.306
2
In excel: t.inv(1‐alfa/2, n‐2) , cu alfa=0.05, t(0.975, 8) = 2.306
Intervale de incredere
s s
x z x z1
n n
4.05 4.05
126.18 2.326 126.18 126.18 2.326
250 250
125.58 126.18 126.78
Intervale de incredere pentru medie (esantioane mici)
u
t
2
Cu =n-1 grade de libertate, intervalul de incredere pentru medie
se calculeaza astfel:
s s
x t x t
n n
Functia Excel pentru repartitia t (student) este: tinv.2T(alfa, n-1)
Exemplu
La determinarea componentului principal intr‐un minereu s‐au gasit valorile: 30.1, 31.4, 30.9. S‐
au calculat media 30.8 si abaterea medie patratica 0.69. Sa se determine intervalele de incredere
pentru medie cu un grad de incredere de 95 %.
s s
x t x t
n n
tinv(alfa,3 1) 4.302
0.69 0.69
30.8 4.302 30.8 30.8 4.302
3 3
29.08 30.8 32.5
Intervale de incredere pentru dispersie
n 1 n 1
s2 2 s2
2 /2 12 /2
x
t
s/ n
Testele pot fi bilaterale, daca se doreste sa se testeze egalitatea mediilor
- Ipoteza de baza 0
0
- Ipoteza alternativa
- -tp<t<tp
- Ipoteza de baza
0 t<-tp
- Ipoteza alternative
0 t>-tp
0
- Ipoteza alternative t<tp
Valoarea tp pentru un test bilateral, alfa = 0.05,
Exemplu:
La instituirea unei metode noi, facandu-se 10 masuratori repetate, s-a gasit continutul in
elementul determinat xmed = 34.45mg/100 mL, iar abaterea standard s=0.806.
Cantitatea luata in proba a fost de 34 mg/100 mL. Valoarea gasita pentru medie este
intamplatoare sau metoda are o eroare sistematica?
34.45 34.00
t 1.76
0.806 / 10
t p t in v.2T (0.025,9) 2.685
t t p se accepta ipoteza de baza 0
99.7 100
t 2.6
0.395 / 10
t p t in v(0.05,9) 2.262
t t p seaccepta ipoteza alternativa 0
Problema consta in a verifica daca cele doua medii de selectie sunt distincte statistic-
corespund pentru doua populatii diferite sau corespund aceleiasi populatii.
x1 x2 12 22
z ; d
d n1 n2
Exemplu:
Avem doua selectii privind analiza prin aceeasi metoda, in acelasi laborator, a doua
probe de fonta obtinute prin aceeasi tehnologie in doua uzine diferite.
Mediile celor doua selectii sunt diferite sau nu?
n1=30, x1med=2.5 %, s1=0.15 %; n2=35, x2med=2.38 %; s2 = 0.08 %
0.152 0.082
d 0.0305
30 35
2.5 2.38
z 3.92
0.0305
Calcul de regresie
Metoda celor mai mici patrate.
Analiza modelelor.
De ce avem nevoie de experimente
planificate (proiecarea experimentului).
Justificarea modelarii empirice
Nu se cunoaste natura dependentei variabilelelor unui
proces
Se pot obtine date experimentale care arata o dependenta
intre variabile
Se propune un “model”- o relatie sau un set de relatii, care
sa reflecte dependenta variabilelor
Regresie= intoarcere (intoarcere si comparare cu datele
experimentale)
Utilizare:
modelarea proceselor complexe in chimie, biologie, tehnica,
procese economice, monitorizare mediu
Prognoze, optimizare
Etapele calculului de regresie
Inventarierea variabilelor
Obtinerea datelor experimentale
Alegerea (propunerea) unui model de regresie
Calculul coeficientilor modelului de regresie
Testarea modelului
Inventarierea variabilelor
Se analizeaza sistemul si se stabileste care este variabila
dependenta si care sunt variabilele independente sau factori
Y variabila dependenta
X1, X2, …Xn variabilele independente (factori)
Exemple:
1. Randamentul unei reactii depinde de temperatura de reactie
si de raportul dintre reactanti:
Y=randament
X1= temperatura, X2= raportul de reactanti
2. Capacitatea calorica a uni gaz depinde de
temperatura:
Y=Cp
X=temperatura
3. Nivelul salariului depinde de gradul de educatie
(ani de scoala/studii):
Y=salariul
X=nr ani de studii
4. Costul unui vas depinde de volumul sau:
Y=cost
X=volum vas
Obtinerea datelor experimentale
Obtinerea datelor in regim aleator:
Datele masurate sa acopere tot domeniul de interes
Datele masurate sa fie numeroase
Obtinerea datelor in regim programat (experimente
factoriale sau alte programe)
X=t
Y=h
Regresie liniara
experimental
calculat
y = b 0 + b1 x (1)
m
SSE ( yk yˆk )2
Suma patratelor abaterilor
k 1 (Sum of squared errors)
SSE
2 ( yk b0 b1 * xk ) *(1) 0
b0 k
SSE
2 ( yk b0 b1 * xk ) *( xk ) 0
b1 k
m m
mb0 b1 xk yk
k 1 k 1
m m m
b0 xk b1 x xk yk
2
k
k 1 k 1 k 1
Exemplu
nr exp temperatura, C Randament, %
(k) x y x*x x*y
1 120 60 14400 7200
2 130 63 16900 8190
3 135 64 18225 8640
4 138 67 19044 9246
5 144 68 20736 9792
6 154 71 23716 10934
7 163 73 26569 11899
984 466 139590 65901
7 b0 984 b1 466
984 b0 139590 b1 65901
b0=22,8 b1=0.311
Rezolvare in EXCEL
75 y = 0.3114x + 22.803
R2 = 0.9776
70
randament, %
65
60
55
50
120 125 130 135 140 145 150 155 160 165 170
temperatura, C
Regresie liniara multipla
y b0 b1 x1 b2 x2 ... bn xn (2)
Exemplu:
y b0 b1 x1 b2 x2
m
SSE ( yk yˆk )2
k 1
m
SSE ( yk b0 b1 * x1,k b2 x2,k ) 2
k 1
min SSE
( b0 ,b1 ,b2 )
Sistemul de ecuatii pentu 2 variabile
independente
SSE
2 ( yk b0 b1 * x1,k b2 x2,k )*(1) 0
b0 k
SSE
2 ( yk b0 b1 * x1,k b2 x2 , k ) *( x1 , k ) 0
b1 k
SSE
2 ( yk b0 b1 * x1,k b2 x2 , k ) *( x2 , k ) 0
b2 k
m m m
mb0 b1 x1 ,k b2 x2,k yk
k 1 k 1 k 1
m m m m
b0 x1, k b1 x b2 x1,k x2,k x1, k yk
2
1, k
k 1 k 1 k 1 k 1
m m m m
b0 x2, k b1 x1,k x2,k b2 x 2
2, k x2, k yk
k 1 k 1 k 1 k 1
Model de tip polinomial
y b0 b1 x b2 x 2 (3)
Exemplul tipic :
Cp a b t c t2
k k
( y ˆ
y ) 2
R2 1 k 1
m
k
( y
k 1
Y ) 2
y k
Y k 1
media aritmetica
m
7.5
y = 0.0006x + 6.8972
R2 = 0.9736
7.4
7.2
7.1
6.9
6.8
0 100 200 300 400 500 600 700 800 900
t, C
randam y
Regresie pt modelul y=b0+b1x1+b2x2
t x1
nr experim, k t, C durata stationare, min randam, % tau x2
1 20 50 65
2 25 55 68
3 30 60 70 y 58.80714 0.904286 x1 0.24 x2
4 35 70 75
5 40 80 77 R 2 0.962
6 45 90 78
7 50 100 79
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.980908
R Square 0.962181
Adjusted R 0.943271
Standard E 1.300412
Observatio 7
ANOVA
df SS MS F ignificance F
Regression 2 172.0929 86.04643 50.88279 0.00143
Residual 4 6.764286 1.691071
Total 6 178.8571
m
SST y j y
2
j1
ŷ
m
2
SSR j y
j1
SSE y j ŷ j
m
2
j1
Grade de libertate
• SST = SSR + SSE
• SSR = SST – SSE
• Gradele de libertate: pentru SST numarul de grade de libertate este m –
1 m – numărul de date (se pierde un grad de libertate pentru că s‐a
făcut media)
• Numărul gradelor de libertate pentru modelul asociat lui SSR este egal
cu numărul de coeficienţi, fără termenul liber, n.
• Numarul de grade de libertate pentru SSE se poate găsi prin:
• SST = m – 1
• SSR = n
• SSEm=
este – de
SST nr = m – 1 – n = m –
SSR experimente, (n + 1) = m –
n este p independente, p este
nr de variabile
numarul de coeficienti, p=n+1
Test de semnificatie a modelului
Ipoteza nulă pentru ecuaţia de regresie:
HA: bi 0 (cel puţin un i = 1, … n)
Dacă H0 este respinsă rezultă că există cel puţin o variabilă independentă
care contribuie la modelul de regresie şi putem trage concluzia că există
o relaţie între răspunsul y şi cel puţin unul din factori (variabilă
independentă).
Testul F de semnificatie
SSR SSR MSR SSR / n SSR / n
F0
SSE SSE MSE SSE /( m n 1) SSE /( m p )
Dacă F0 > Fcrit H0 se respinge si se accepta HA, adica exista cel putin un
coeficient diferit de zero si modelul este semnificativ
Fcrit = Fn,m-p,1-
ia valori 0,10; 0,05; 0,01. Descreşterea lui indică o încredere mai mare
în model. Valorile critice pentru F, Fcrit (distribuţia Fisher) cresc pentru mai
mici şi ele descresc de asemenea cu creşterea gradelor de libertate SSE
(descreşterea numărului de coeficienţi)
Ca urmare, creşterea numărului de coeficienţi (creşte SSR şi descreşte SSE)
pentru un număr dat de experimente poate duce la o scădere a lui MSR şi
creştere a lui MSE până la o valoare unde F0 < Fcrit şi modelul nu mai este
semnificativ.
Tabelul ANOVA
• Coeficientul de determinare
SSR SSE
R 2
1 0 < R2 < 1
SST SST
Atenţie. Cu creşterea numărului de termeni într-un model liniar se
măreşte R2. Aceasta nu implică neapărat un model adecvat şi capabil de
o bună predicţie
Coeficientii de regresie calculati prin metoda celor mai mici patrate sunt
estimatii ale coeficientilor adevarati ai modelului.
Daca coeficientii adevarati se noteaza cu i atunci estimatiile ( valorile
calculate din date) se noteaza cu ̂i
Variabila aleatoare ̂ i are media i
dispersia
SSE C00 C1n
m p Cii
C01
C11
MSE
1
C X X
T
Cii
2 C
Disp ii C
0n Cnn
experimentala
a lui Y
Matricea de varianta covarianta
• În general ̂
are media i şi dispersia ce depinde de σ2 (dacă îl
i
cunoaştem) sau de SSE/(m‐p), dacă nu cunoaştem σ2.
Dˆ X X
2 T 1
D(ˆ ) k ,m
rk,m
D(ˆ ) D(ˆ )
m,m k ,k
Utilizarea statisticilor Z si T
ˆ i i ˆ i i
Z T → Tm-p
Cii
→ N(0,1)
MSE Cii
Tinv(alfa, m-p)
Ipoteze şi testarea semnificaţiei coeficienţilor individuali
• H0: i = 0
• HA: i 0
ˆ i
Testul Student T
MSE Cii
ˆi
Z Daca: Z > z 1-/2 sau Z < z1- /2 Coeficientul este
Cii
2
semnificativ
Exemplu tabel ANOVA in EXCEL
nr experim, k t, C durata stationare, min randam, %
1 20 50 65
2 25 55 68
3 30 60 70 y 58.80714 0.904286 x1 0.24 x2
4 35 70 75
5 40 80 77 R 2 0.962
6 45 90 78
7 50 100 79
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,980908003
R Square 0,962180511
Adjusted R Square 0,943270767
Standard Error 1,300412023
Observations 7
ANOVA
df SS MS F Significance F
Regression 2 172,0928571 86,04643 50,88279 0,001430314
Residual 4 6,764285714 1,691071
Total 6 178,8571429
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 58,80714286 3,191028959 18,4289 5,1E-05 49,94740777 67,66687794 49,94740777 67,66687794
X1 0,904285714 0,376253687 2,403394 0,074083 -0,140364156 1,948935585 -0,14036416 1,948935585
X2 -0,24 0,217600551 -1,10294 0,331947 -0,844157237 0,364157237 -0,84415724 0,364157237
Analiza modelelor de regresie
Tabelul ANOVA (analiza
dispersionala)
Teste de semnificaţie pentru modelul de regresie
Acest test se bazează de definirea următoarelor sume:
SST (suma totală a pătratelor)
SSR (suma pătratelor regresiei)
SSE (suma pătratelor erorilor)
Definitii
regresia liniară definim variaţia totală în m observaţii ca sumă a
pătratelor între răspunsuri yj şi media tuturor răspunsurilor .
m
SST y j y
2
j1
ŷ
m
2
SSR j y
j1
SSE y j ŷ j
m
2
j1
Grade de libertate
SST = SSR + SSE
SSR = SST – SSE
H0: b1 = b2 =… = bn = 0
Fcrit = Fn,m-p,1-
ia valori 0,10; 0,05; 0,01. Descreşterea lui indică o încredere mai mare
în model. Valorile critice pentru F, Fcrit (distribuţia Fisher) cresc pentru mai
mici şi ele descresc de asemenea cu creşterea gradelor de libertate SSE
(descreşterea numărului de coeficienţi)
Ca urmare, creşterea numărului de coeficienţi (creşte SSR şi descreşte SSE)
pentru un număr dat de experimente poate duce la o scădere a lui MSR şi
creştere a lui MSE până la o valoare unde F0 < Fcrit şi modelul nu mai este
semnificativ.
Tabelul ANOVA
Coeficientul de determinare
SSR SSE
R 2
1 0 < R2 < 1
SST SST
Atenţie. Cu creşterea numărului de termeni într-un model liniar se
măreşte R2. Aceasta nu implică neapărat un model adecvat şi capabil de
o bună predicţie
Coeficientii de regresie calculati prin metoda celor mai mici patrate sunt
estimatii ale coeficientilor adevarati ai modelului.
Daca coeficientii adevarati se noteaza cu i atunci estimatiile ( valorile
calculate din date) se noteaza cu ̂i
Variabila aleatoare ̂ i are media i
dispersia
SSE C00 C1n
m p Cii
C01
C11
MSE
1
C X X
T
Cii
2 C
Disp ii C
0n Cnn
experimentala
a lui Y
Matricea de varianta covarianta
În general ̂i are media i şi dispersia ce depinde de σ2 (dacă îl
cunoaştem) sau de SSE/(m-p), dacă nu cunoaştem σ2.
Dˆ X X
2 T 1
D(ˆ ) k ,m
rk,m
D(ˆ ) D(ˆ )
m,m k ,k
Utilizarea statisticilor Z si T
ˆ i i ˆ i i
Z T → Tm-p
Cii
→ N(0,1)
MSE Cii
Tinv(alfa, m-p)
Ipoteze şi testarea semnificaţiei coeficienţilor
individuali
H0: i = 0
HA: i 0
ˆ i
Testul Student T
MSE Cii
ˆi
Z Daca: Z > z 1-/2 sau Z < z1- /2 Coeficientul este
Cii
2
semnificativ
Exemplu tabel ANOVA in EXCEL
nr experim, k t, C durata stationare, min randam, %
1 20 50 65
2 25 55 68
3 30 60 70 y 58.80714 0.904286 x1 0.24 x2
4 35 70 75
5 40 80 77 R 2 0.962
6 45 90 78
7 50 100 79
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,980908003
R Square 0,962180511
Adjusted R Square 0,943270767
Standard Error 1,300412023
Observations 7
ANOVA
df SS MS F Significance F
Regression 2 172,0928571 86,04643 50,88279 0,001430314
Residual 4 6,764285714 1,691071
Total 6 178,8571429
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 58,80714286 3,191028959 18,4289 5,1E-05 49,94740777 67,66687794 49,94740777 67,66687794
X1 0,904285714 0,376253687 2,403394 0,074083 -0,140364156 1,948935585 -0,14036416 1,948935585
X2 -0,24 0,217600551 -1,10294 0,331947 -0,844157237 0,364157237 -0,84415724 0,364157237
Optimizarea experimentarii
Programarea experimentelor
Notiuni fundamentale
Experiment- o serie de investigatii facute in
scopul de a obtine un raspuns la o problema
data. Acesta poate fi realizat pri incercari
successive numite experiente sau
determinari.
Factor
Se considera fenomenul cercetat drept o
“cutie neagra”, caracterizat doar de iesiri
(raspunsuri) si intrarile impuse
experimentelor
- Pentru a realiza o experienta este necesar sa
existe posibilitatea de a influenta comportarea
cutiei negre.
- Toate aceste influente notate cu “x” se numesc
factori si reprezinta variabile de intrare
Factori – calitativi –nu pot fi masurati printr-o
metoda fizica
- cantitativ – pot fi masurati (caracterizati prin
valoare si unitate de masura)
Factorii sunt caracterizati prin regiunea de
determinare (domeniu de variatie)
Caracteristicile factorilor
- controlabili, compatibili, independenti
tmin=35 °C
1
2
(-1,-1) (-1,1)
Nr. x1 x2 Randam.,
%
1 -1 -1 66
2 -1 1 70
3 1 -1 73
4 1 1 79
Verificare corectitudinii matricii de
experimentare
Analiza influentei factorilor pentru
exprimente factoriale fractionate
Urmarirea tendintelor
• Experimentele fractionate permit analiza
influentei mai multor factori cu un numar
restrans de masuratori.
• Exemplu: Un raspuns influentat de 4 factori
poate fi analizat cu doar 8 experimente (exp
factorial 24-1)
Se vor estima efectele principale
ale factorilor A (conc de acid), B(
conc catalizator), C (temperatura),
D (conc monomer) asupra
stabilitatii unui polimer (R).
Observatii
Din analiza influentei factorilor s-a constatat
ca factorii A si B influenteaza cel mai mult
raspunsul R. Aceasta inseamna ca se poate
considera un subspatiu bidimensional in care
experimentarea poate fi considerata ca un
duplicat al unui experiment 22
Liniile de R= constant reflecta directia de crestere a stabilitatii. Aceastea sunt
normale la suprafata de raspuns ( optimizare prin cautarea dupa panta
maxima- metoda gradientului ). Sageata indica directia de explorare in care
stabilitatea R creste. Cateva experimente suplimentare desfasurate in aceasta
directie au condus la obtinerea unei stabilitatii > 25.
Metoda celor mai mici patrate aplicata la date
obtinute in experimentul factorial
1 -1 -1 1 1 1 y1 X1,1y X2,1y
2 -1 1 -1 1 1 y2 X1,2y X2,2y
3 1 -1 -1 1 1 y3 X1,3y X2,3y
4 1 1 1 1 1 y4 X1,4y X2,4y
0i
0 0 4 4
Sistemul de ecuatii
4
4 bˆ0 0 bˆ1 0 bˆ2 Yi
4
0 b0 4 b1 0 b2 x1,iYi
ˆ ˆ ˆ i 1
i 1
4
0 bˆ0 0 bˆ1 4 bˆ2 x2,iYi
i 1
Y i x Y
1,i i x Y
2 ,i i
bˆ0 i 1
bˆ1 i 1
bˆ2 i 1
4 4 4
Experimentul factorial 23
3 variabile independente (3 factori)
Experimentele se desfasoara în varfurile unui cub
TABLE 3.3 Date normalizate pentru un experiment 23
run X1(tau) X2 (t) X3( c )
1 -1 -1 -1
2 1 -1 -1
3 -1 1 -1
4 1 1 -1
5 -1 -1 1
6 1 -1 1
7 -1 1 1
8 1 1 1
Model de regresie pentru date
obtinute in experimente
factoriale
y b0 b1 x1 b2 x2
y b0 b1 x1 b2 x2 b3 x3
y b0 b1 x1 b2 x2 b3 x3 b1,2 x1 x2 b2,3 x2 x3 b1.3 x1 x3