Sunteți pe pagina 1din 171

Programarea experimentelor

(Design of experiments)
Titular de curs si aplicatii : Ș.L. dr. ing. Ionuț BANU
Durata alocată: 1h curs si 1 h de aplicații pe săptămâna 

Evaluarea activității: verificare pe parcurs

 Un referat realizat pe baza unui articol de specialitate 50 % 

 Două lucrări de verificare: 50 %
Bibliografie
[1] C. Balaban, Strategia experimentării și analiza datelor
experimentale. Aplicații în chimie, inginerie chimică, tehnologie
chimică, Editura Academiei Române, București, 1993.
[2] R. Mihail, Introducere în strategia experimentării, cu aplicaţii din
tehnologia chimică, Editura Științifică și Enciclopedică, București, 1976.
[3] G. Maria, Analiza statistică și corelarea datelor experimentale
(bio)chimice. Repartiții și estimatori statistici, Editura Printech,
Bucuresti, 2008.
[4] O. Iordache, G. Maria, S. Corbu, Modelarea statistică și estimarea
parametrilor proceselor chimice, Editura Academiei Române, București,
1991.
Obiectul disciplinei
Disciplina programarea experimentelor este o ramura a statisticii
matematice care se ocupa cu abordarea sistematica, riguroasa a rezolvarii
problemelor ingineresti, prin aplicarea unor principia si tehnici in etapa de
colectare a datelor experimentale.
Obiectul disciplinei este sa furnizeze cercetatorilor aparatul (metodele)
statistic cu ajutorul caruia sa se determine care dintre variabilele de intrare
influenteaza cel mai mult un process, si care sunt conditiile de operare care
maximizeaza, minimizeaza sau apropie o valoare de o alta fixata.
Istoricul disciplinei
Principiile statistice folosite in programarea experimentelor au fost dezvoltate
initial de R.A. Fisher in timpul activitatii sale la Statiunea de Experimentare
Rothamsted din Marea Britanie intre 1920‐1930 (in domeniul agricol)

Utilizarea metodelor de programare a experimentelor in industria chimica a fost


initiata de G. Box si N. Drapper la inceputul anilor 1950.

Odata cu dezvoltarea tehnicii de calcul, a crescut semnificativ importanta aplicarii


metodelor programatice in industrie.
Programe de calcul utilizable in programarea experimentelor:

Minitab‐ un pachet de programe statistice dezvoltat din 1972 la Pennsylvania State university;

Statistica – program de statistica si analiza de date dezvoltat din 1980 de compania americana Statsoft;

Design Expert – dezvoltat de compania americana Stat‐Ease din 1982;

Alte programe care au in componenta lor pachete de proceduri pentru analiza statistica: Microsoft Excel,

Mathematica (1988, Wolfram , US), Maple (1982, Maplesoft, CA), Matlab (1984, Mathworks), Mathcad (~ 1990,

Mathsoft/PTC)
Notiuni fundamentale
1. Experiment, experienta

Prin experiment se intelege o serie de investigatii facute in scopul de a obtine un raspuns la o problema data. Se 

realizeaza pri incercari successive sau paralele numite experiente sau determinari


N
Experiment   Experientei
i 1
2. Factor (parametru)

Se considera ca fenomenul (procesul) studiat este o asa zisa “cutie neagra”, pentru care nu se observa decat variabilele de 

iesire (“raspunsul sistemului”) in functie de variabilele de intrare impuse de experimentator. Pentru realizarea unei

experiente este necesar sa existe posibilitatea de a influenta comportarea “cutiei negre“. 


Toate aceste “j” influente notate cu x, se numesc factori si reprezinta variabile de intrare. In consecinta xj sunt variabile

independente care influenteaza in mod semnificativ procesul. 


y1
x1
y2
Proces
xj
yp

Fiecare factor poate lua una sau mai multe valori pe parcursul unui experiment, numite niveluri.

Factorii sunt caracterizati prin:

‐ Regiune de determinare (domeniu de variatie) care poate fi continua sau discrete

‐ Natura (calitativi, cantitativi)

Factor calitativ – nu pot fi masurati printr‐o metoda de masurare oarecare

Factor cantitativ – pot fi masurati si sunt caracterizati prin valoare si unitate de masura


Proprietatile factorilor:

A. Controlabilitate ‐ un experiment poate fi programat daca factorii pot fi fixate la anumite valori de referinta dorite

B. Compatibilitate – se intelege posibilitatea combinarii factorilor in conditii de securitate in operare

C. Independenta – nu trebuie sa existe o relatie de interdependenta intre factori (lineara, parabolica sau de alta natura). 

Proces Factori Cantitativi Factori Calitativi


Reactia chimica Temperatura, presiune, concentratii  Tipul solventului
reactanti, raport molar intre 
Tipul utilajului
reactanti, pH, turatia agitatorului
Rectificare/distilare Concentratia amestecului,  Tipul coloanei
Temperatura alimentarii
Operatii de  Temperatura de intrare a fluidelor,  Tipul schimbatorului
incalzire/racier regimul de curgere, caracteristicile
constructive (raport L/D pentru tevi), 
proprietatile fizice ale fluidelor
tehnologice
Filtrare Concentratia suspensiei Natura materialului filtrant

Vascozitatea suspensiei Tipul de filtre

Temperatura
3. Parametru (variabila de optimizat)

Raspunsul unei investigatii, reprezentand o variabila dependenta a procesului cercetat este denumit parametru de 

optimizat

Caracteristici:

‐ cantitativ

‐ Exprimat printr‐o singura valoare

‐ Neambiguitatea din punct de vedere statistic (trebuie sa corespunda unui set de valori ale factorilor cu o precizie

superioara erorii experimentale

‐ Sa aiba sens fizic, simplu si usor de calculat


Arii ale ingineriei in care se poate aplica programarea experimentelor:

a. Compararea si analiza proceselor

Modificarile aduse unui factor pot sau nu adduce o imbunatatire a unui proces ca un intreg?

b. Caracterizarea/testarea sumara a proceselor – obtinerea unor informatii despre proces si determinarea importantei

factorilor

c. Modelarea si optimizarea proceselor din industrie

Determinarea conditiilor de operare cele mai adecvate care maximizeaza un raspuns al unui proces
Capitolul 1

Introducere in studiul erorii


experimentale
Probleme de analizat
• De ce sunt importante erorile?
• Tipuri de erori – întâmplătoare si sistematice
(precizie şi acurateţă)
• Estimarea erorilor
• Notarea rezultatului şi erorii
• Tratarea erorilor in formule de calcul
• Combinarea erorilor întâmplătoare si sistematice
• Caracterul statistic al erorii
De ce sunt importante erorile?
Doua masuratori ale temperaturii corpului înainte si
după administrarea unui medicament sunt:

38.2C şi 38.4C

Este semnificativa creşterea temperaturii? –


depinde de eroarea asociată măsurătorii

(38.20.01)C şi (38.4 0.01)C - semnificativa

(38.20.5)C and (38.4 0.5)C – nesemnificativă


Erori întâmplătoare (random errors)

• O eroare ce variază de la o măsurătore la alta


• Erorile pozitive si cele negative au aceeaşi şansa
de apariţie
• Întotdeauna prezente intr-un experiment
• Prezenta se dovedeşte a fi obligatorie din
distribuţia datelor măsurate
• De multe ori denumita eroare de citire
• Erorile intâmplătoare se pot estima prin repetarea
experimentului (replicate).
Erori sistematice
• Constanta intr-un set de determinări.
• Poate rezulta datorită unui aparat care nu
este bine calibrat sau dintr-o metodă
inadecvata de măsurare.
• Conduce la depărtarea de valoare
adevărata a măsurătorilor si a valorii medii
a acestora
• Este foarte dificil de identificat erorile
sistematice intr-un experiment.
• Sunt eliminate prin introducerea unor
anumite corectii (calibrare).
Diferenta aparuta intre masuratori este cauzata de variatii necontrolate aparute in

activitatile de masurare. Uneori se intampla sa avem masuratori repetate care sa fie

identice, dar aceasta este o falsa impresie, indusa de cele mai multe ori de o rezolutie

limitata a aparaturii de masura si control.

Exemplu:

Se masoara procentajul de Na dintr-o roca maruntita fin si se obtin valorile: 2.335;

2.281; 2.327; 2.308; 2.311; 2.264; 2.299; 2.295 (% wt).


Erori întâmplătoare-
erori sistematice
Erori întâmplătoare

Valoare
adevarata Erori sistematice si
întâmplătoare

•Un rezultat al unei măsurători se considera obţinut


cu acurateţe daca valorile înregistrate sunt aproape
de val reala (erori sistematice practic nule)
•Un rezultat este precis dacă erorile întâmplătoare
sunt foarte mici
Acuratete si precizie
Notarea erorilor
• Se recomanda înregistrarea erorii cu o
singura cifra semnificativă (maxim două).
• Scrieţi rezultatul cu aceeaşi precizie ca si
eroarea.
• Daca se utilizează notaţia ştiinţifică (cu
exponent) specificaţi eroare cu aceeaşi
valoare a exponentului.
Notarea erorilor si a rezultatului
• Valoare 44, eroare 5  445
• Valoare 128, eroare 32  13030
• Valoare 4.8x10-3,eroare 7x10-4 
(4.80.7)x10-3
• Valoare 1092, eroare 14  109214
• Valoare 12.345, eroare 0.35  12.30.4

Nu inregistraţi un rezultat la un nivel nerelevant


fata de eroare 36.6789353720.5
Estimarea erorii de citire 1

Osciloscop – relativ la lărgimea urmei


3.8 diviziuni, pentru 1V/division = 3.8V
Largimea urmei ~0.1 division = 0.1V
(3.80.1)V
Estimarea erorii de citire 2

Voltmetru digital – eroare considerata


5 in următoare cifra semnificativa
(3.3600.005)V
Estimarea erorii de citire 3

Aparat analog – eroare legata de grosimea pointerului


Valoare citita este 3.25V
Pointerul are grosimea 0.1V
(3.30.1)V
Estimarea erorii de citire 4

16 17

•Scala liniara (ex: o rigla)


•Trebuie estimata precizia
•Poate fi o alegere subiectiva
16.770.02
Estimarea erorii de citire 5

16 17 16 17

•Eroare de citire este importanta in raport cu ceea ce


trebuie măsurat
•In exemplul de mai sus nu este necesar un
instrument mai precis
Tratarea erorilor in formule
• La calculul unei mărimi ce contine o valoare
măsurata, eroarea măsurătorii se propaga asupra
rezultatului final.
• Exemplu: aria unui cerc A  r 2

• Cum se va reflecta eroare in măsurarea razei


asupra ariei?
Daca se presupune ca din anumite masuratori au fost eliminate erorile

sistematice, o masuratoare poate fi descrisa astfel:

Valoare raportata  Valoare masurata  


Tratarea erorii in formule de calcul
Daca exista X1, .., XN masuratori independente ale
unei cantitati, ale caror abateri  X ,  X ,..,  X 1 2 N

sunt mici, si fie o functie U(X1, .., XN) abaterea lui


U se poate calcula cu relatia:
2 2
 U  2  U  2
U     X1  ...     XN
 X 1   X N 

Daca valorile masurate ale variabilelor XN se pot scrie:

X N  X N   X N
In relatia de calcul a abaterii lui U se vor folosi valorile numerice X N
Exemplu de propagare a erorii
A r 2
unde r=(50.5)m
  3.14*5*5  78.5 m 2
A

A
 2 r  2  3.14  5  31.4
r
2
 A  2
 
2
 A    r  31.4 0.5 2
 15.7
 r 

Rezultatul final este A=(7916)m2


Erori sistematice si intamplatoare
Erorile intamplatoare si cele sistematice (daca se cunosc)
se cupleza prin adunarea patratelor acestora.
Exemplu: O lungime este masurata cu o citire in care se
specifica eroarea intamplatoare (892) cm utilizand un
instrument cu eroare de calibrare reflectata in acurateţa
de 2%.

Eroare absoluta =
0.03x89=2.7cm

valoare =(893)cm
Natura statistica a erorilor
• Eroarea asociata cu valoare reala poate da
informatii asupra importantei erorilor.
• Studiul statistic al erorilor presupune
considerarea erorii experimentale ca o variabila
aleatoare (statistica) care poate lua orice valori
reale. Media acestei valori este 0 iar dispersia
este 2 ( abatere medie pătratica ).
• Distribuţia erorilor corespunde repartiţiei
normale Gauss.
Exemplul 1

O proba de gaz continue monoxid de carbon cu concentratia de


50 ppm. Se utilizeaza un spectrofotometru pentru masurarea
concentratiei gazului. Se efectueaza 5 masuratori iar rezultatele
sunt: 51, 47, 53, 52, 48 ppm. Sa se estimeze eroarea sistematica
si aleatorie.
Exemplul 2

Se foloseste un alt spectrofotometru pentru a determina


concentratia unei alte probe de gaz. Valoarea adevarata a acestei
concentratii nu este cunoscuta. Se fac 5 masuratori: 62, 63, 61,
62, 59 ppm. Sa se estimeze precizia si sa se analizeze daca
poate fi determinate eroarea sistematica.
Exemplul 3

Spectrofotometrul din Exemplul 1 a fost recalibrat astfel incat


eroarea sistematica este neglijabila. Se foloseste acest
instrument pentru masurarea concentratiei de CO dintr-o alta
proba de gaz. Valoarea masurata este de 55.1 ppm. Cum ar
trebui exprimata aceasta valoare
Aplicatii

1. Temperatura de fierbere a apei a fost masurata intr-o serie de 4 masuratori.


Rezultatele sunt 110.01, 110.02, 109.99, 110.01. care dintre urmatoarele afirmatii
descriu cel mai bine procesul de masurare. Masuratorile au fost realizate cu:
a) cu acuratete, fara precizie; b) cu precizie dar fara acuratete; c) fara precizie, fara
acuratete; d) cu acuratete si cu precizie.
2. O persoana a masurat perimetrul unui teren rectangular. Cele doua dimensiuni sunt:
L1  50.11  0.05 m
L2  75.21  0.08 m

Estimati perimetrul si eroarea introdusa de masuratori in determinarea acestuia.

3. Volumul unui con este dat de relatia:

 R2h
V
3
Daca h  6  0.01 cm
R  5  0.02 cm

a) Estimati volumul conului si determinati eroarea estimarii


b) Care dintre urmatoarele proceduri duc la o diminuare a incertitudinii in calcului lui V,
reducerea erorii in masurarea lui h la 0.005 cm sau reducerea erorii in R la 0.01 cm?
Tema
Se presupune ca X, Y, Z sunt masuratori independente

X  25  1; Y  5  0.3; Z  3.5  0.2

Sa se determine erorile induse de masuratorile experimentale in urmatoarele expresii:

a) X  Y  Z
X
b)
Y Z
c) X Y  e Z

d ) X  ln Y 2  Z 
Prelucrarea primara a datelor
experimentale: Statistica
descriptivă
Colectarea datelor
Observaţiile se referă la o mulţime ce poartă numele de
populaţie sau masă statistică.

Fiecare element al acestei mulţimi este o unitate


statistică sau un element.

Dacă acest caracter este cantitativ (putându-i-se


asocia un număr real ce reprezintă măsura lui) el se
mai numeşte variabilă statistică discretă, dacă nu
poate lua decât anumite valori, sau variabilă
statistică continuă dacă poate lua orice valoare într-
un interval dat.

Observaţii: exhaustive (întreaga populaţie) sau


selecţii
Organizarea datelor
Tabelele statistice şi reprezentările grafice.

Analiza datelor
Pentru a reflecta informaţia într-un mod sintetic se
utilizează un număr relativ mic de valori numerice
numite caracteristici. Aceste mărimi poartă şi numele de
“statistică”.
Mărimile caracteristice cele mai importante sunt media,
care este o măsură a localizării valorilor seriei statistice,
şi dispersia, ce furnizează informaţii asupra împrăştierii
observaţiilor în jurul mediei.
Interpretare

Interpretarea rezultatelor analizei poate avea diverse


forme printre care şi generalizarea rezultatelor obţinute
pentru o selecţie la întreaga populaţie; această direcţie
este numită statistică inferenţială.
Serii statistice cu o variabilă discretă

Tabloul statistic: simpla enumerare a valorilor variabilei


statistice
Atunci când numărul de date este foarte mare este mai
comod să se grupeze formând SERIA STATISTICĂ
Număr de reparaţii, xi 0 1 2 3 4

Număr de pompe, ni 40 33 15 10 2
Reprezentare grafică

ni k
fi  Frecvenţa relativă N   ni
N
i 1

Număr de reparaţii, xi 0 1 2 3 4 k= nr. de


valori
distincte ale
Frecvenţe, ni 40 33 15 10 2
caracterului
statistic
Frecvenţe relative, fi 0,40 0,33 0,15 0,10 0,02

50

40

30
ni
20
Diagrama cu
10 bastoane
0 1 2 3 4 5

x
Funcţia de repartiţie
Fie seria statistică definită de perechile (xi, ni).
Definiţie
Se numeşte funcţie de repartiţie a seriei statistice,
funcţia F care asociază oricărei valori reale x, numărul
total de unităţi statistice (elemente ale seriei) a căror
valoare xi este mai mică sau cel mult egală cu x.
Notaţia este:
F ( x )   ni
xi  x

Într-o reprezentare ortogonală funcţia F(x) este o funcţie


în trepte, crescătoare pe mulţimea numerelor reale.
Aceasta funcţie este numită şi funcţia cumulativă a
frecvenţelor seriei.
Număr de reparaţii, xi 0 1 2 3 4

Frecvenţe, ni 40 33 15 10 2

Frecvenţe relative, fi 0,40 0,33 0,15 0,10 0,02

Frecvenţe relative
0,40 0,73 0,88 0,98 1,00
cumulative

Frecvenţă cumulativă 40 73 88 98 100


Serii statistice de variabile continue
O variabilă continuă poate lua orice valoare într-un
interval şi atunci nu mai este semnificativ calculul
frecvenţei valorilor izolate, în special în cazul seriilor
mari. În aceasta situaţie se consideră clase
caracterizate de o valoare minimă şi o valoare maximă
ale variabilei statistice. Clasa « i » se defineşte prin
limita ei inferioară xi-1 şi limita superioară xi (xi-1 < xi).
Numărul “xi - xi-1” este amplitudinea clasei, iar valoarea
este centrul clasei.

Pentru valorile de la limita dintre clase se alege o


convenţie de includere în una dintre clase. De
exemplu valoarea xi-1 face parte din clasa “i”, iar
valoarea xi nu face parte (este inclusă în clasa ”i+1”).
Ex: O maşină fabrică tije cilindrice de fier pentru betonul armat, cu
diametrul teoretic de 25 mm. Dintr-un eşantion de 100 piese luat la
întâmplare s-au verificat diametrele.

Diametru, mm [24,2- [24,4- [24,6- [24,8- [25,0- [25,2- [25,4- [25,6- [25,8-
24,4) 24,6) 24,8) 25,0) 25,2) 25,4) 25,6) 25,8) 26,0]

Efectiv, ni 5 13 24 19 14 10 8 5 2

25

20

15

10

24 24.25 24.5 24.75 25 25.25 25.5 25.75 26 26.25 26.5


Clase de amplitudini neegale
După cum se observă, suprafeţele dreptunghiurilor sunt
proporţionale cu efectivul claselor. Ordonatele se vor
modifica pentru a obţine efectivul clasei ca produs dintre
valoarea ordonatei şi lărgimea clasei citită pe abscisă.
Practic se împarte efectivul la lărgimea clasei pentru a
afla înălţimea acesteia în histogramă.

3
l
2

0 10 20 30 40 50 60
Exemplu
Distribuţia granulometrică în baza masă a carbonatului de calciu precipitat este
măsurată cu un granulometru cu laser. Rezultatele sunt prezentate pe clase
granulometrice în care diametrul particulelor este măsurat în micrometri şi
reprezintă caracterul statistic studiat, iar frecvenţa claselor reprezintă procente
de masă din masa totală de particule care au diametre cuprinse în acea clasă:

d, m <1,4 [1,4- [2,3- [4,0- [5,7- [7,4- [9,6- [12,5-16,2)


2,3) 4,0) 5,7) 7,4) 9,6) 12,5)

Frecv, % 2,1 3,2 3,3 3,4 4,9 8,3 12,2 14,5


masă

d, m [16,2- [21,1- [27,4- [35,6- [46,2- [16,2- [21,1- [27,4-35,6)


21,1) 27,4) 35,6) 46,2) 60,0) 21,1) 27,4)

Frecv., 14,5 12,9 10,1 6,9 3,7 14,5 12,9 10,1


% masă
5

3
l
2

0 10 20 30 40 50 60
FUNCŢIA DE REPARTIŢIE

Dacă X este o variabilă statistică continuă, funcţia F care


asociază oricărei valori reale x un număr de valori ale
variabilei statistice care sunt strict mai mici decât x, este
numită funcţie de repartiţie a seriei statistice.

Diametru, mm [24,2- [24,4- [24,6- [24,8- [25,0- [25,2- [25,4- [25,6- [25,8-
24,4) 24,6) 24,8) 25,0) 25,2) 25,4) 25,6) 25,8) 26,0]

Frecvenţa 5 13 24 19 14 10 8 5 2

Frecvenţa 5 18 42 61 75 85 93 98 100
cumulată
Media Aritmetică (MEDIE) X
k
1 k
N   ni X  x i  ni
i 1 N i 1

Pentru serii de variabilă continuă

1 k
X 
N
c i 1
i  ni

Dacă datele sunt colectate în tabele (nu grupate în serii), media şi


dispersia se calculează cu relaţiile:

x i
X i 1

N
• Media armonică (pt. date în tabel)

N
xarmonic 
1 / x1  1 / x2  ...  1 / x N

 Media armonică (pt. date serie cu k valori)

n i
xarmonic  i
n1 / x1  n2 / x2  ...  nk / xk

Pentru o variabilă statistică definită prin clase, valorile


xi se înlocuiesc cu centrele claselor, ci.
Mediana
Se numeşte mediana unei serii statistice numărul real,
notat Me pentru care jumătate din unităţile statistice au o
valoare a caracterului studiat mai mică sau egală cu Me,
iar jumătate din unităţile statistice au o valoare mai mare
decât Me.
Pentru o variabilă continuă, mediana se determină direct
din reprezentarea grafică a funcţiei de repartiţie, citind
valoarea abscisei ce corespunde unui efectiv cumulativ
N/2.
Modul
Daca variabila statistică este discretă, se numeşte
mod al serie statistice valoarea (valorile) pentru care
efectivul este cel mai mare.
În cazul unei serii statistice asociată unei variabile
continue pentru care observaţiile au fost grupate în
clase, numim clasa modală clasa în care efectivul
este cel mai mare.
Conform acestei definiţii în exemplul prezentat clasa
modală este [24,6 24,8].
25

20

15

10

24 24.25 24.5 24.75 25 25.25 25.5 25.75 26 26.25 26.5


Dispersia
Cel mai important parametru ce caracterizează împrăştierea este dispersia.
Aceasta este o măsură a abaterii valorilor seriei statistice faţă de medie.
Se numeşte dispersie a unei serii statistice (xi, ni) media pătratelor
abaterilor faţă de medie, notata cu σ2 :

i i
n ( x  x ) 2

σ 
2 i 1
k
σ  σ2
n
i 1
i

Pentru o variabilă statistică definită prin clase, valorile xi se înlocuiesc cu


centrele claselor, ci.
Se numeşte abatere medie pătratică rădăcina pătrată din dispersie
Variabile aleatoare şi legi de 
probabilitate
Definitii
Variabile aleatoare discrete
Variabile aleatoare continue
Exemple de variabile aleatoare
Variabile aleatoare

In teoria probabilitatilor se consideră un experiment aleator  căruia i se


asociază mulţimea evenimentelor elementare E = {e1, e2, ..., en}
Daca realizarea fiecărui experiment aleator poate fi caracterizat numeric,
valorile diferite ale acestor numere constituie o variabila aleatoare. În teoria
probabilităţii o variabilă aleatoare, de regulă notată cu X, este definită ca o
funcţie care asociază fiecărui eveniment elementar e  E un număr real, X(e):
X: E  R
În cursul desfăşurării experimentului nu se poate şti ce valoare va lua
variabila aleatoare la un moment dat, dar se cunoaşte mulţimea
valorilor pe care le poate lua.
O variabilă aleatoare se caracterizează, pe lângă valorile pe care le poate
lua, prin probabilităţile cu care poate lua aceste valori.
Probabilitatea este un numar real 0≤P(A)≤1 asociat evenimentului A
Tipuri de variabile aleatoare

• O variabilă aleatoare care ia un număr finit sau numărabil de valori este 
numită variabilă aleatoare discretă. Exemple de variabile aleatoare 
discrete sunt: 
numărul de piese defecte într‐o şarjă, 
numărul de încercări reuşite la un test de rezistenţă al unui material, 
numărul de molecule de monomer adiţionate într‐o polimerizare.
Dacă variabila aleatoare poate lua orice valoare numerică într‐un interval 
I  R, cu o probabilitate definită, atunci acea variabilă este de tip 
continuu. Exemplu de astfel de variabile: 
duratele de staţionare într‐un reactor cu agitare, 
dimensiunile particulelor într‐o populaţie de cristale, 
masele molare ale unui polimer
Legea de probabilitate a unei variabile 
aleatoare discrete
• Legea de probabilitate, numită şi repartiţie de 
probabilitate, pentru o variabilă aleatoare discretă este 
definită prin specificare a tuturor valorilor posibile ale 
variabilelor aleatoare şi a probabilităţilor corespunzătoare.

 x1 x 2  xn 
X :  
 p1 p2  pn 
n
cu respectarea condiţiei :
 pi  1
i 1
Funcţia de repartiţie

• Funcţia de repartiţie a variabilei aleatoare discrete X definită pe E este o 
funcţie
F: R  [0, 1]
care, pentru orice x  R asociază valoarea F(x) = P(X <= x)

F1 pentru care F(x1) = P(X  x1) =


p1
F(x2) = P(X  x2) = P(X = x1
p1 + p2 + p3
sau X=x2) = p1+p2
p1 + p2 F(x3) = P(X  x3) = P(X = x1
p1 sau X = x2 sau X=x3) = p1 + p2+p3
x1 x2 x3 xn x
Variabile aleatoare discrete finite – variabila binomiala
• Se asociaza proceselor aleatoare (stochastice) care pot primi doar doua valori
posibile: success si esec
• Probabilitatea evenimentului ca din n probe k sa aiba ca rezultat un succes este:

nk
P( x  k )  C p q k
n
k

unde p – probabilitatea succesului, q=1‐p probabilitatea esecului

Repartitia binomiala se poate folosi in cazul in care selectia este mai mica de 5 % din 


intreaga populatie

Conditii
‐ Probele trebuie sa fie identice
‐ Rezultatul unui eveniment sa fie independent de rezultatul testarii anterioare
.
Variabile aleatoare continue

• În descrierea variabilei aleatoare continue se discută despre corespondenţa


dintre intervalele dreptei reale şi probabilităţile corespunzătoare acestor
intervale I P(x I), unde X este variabila aleatoare. Valorile unei astfel de
variabile aleatoare nu mai pot fi scrise într‐un şir, iar, după cum se va arăta în
continuare,
P(X = x) = 0 pentru x  R
Daca ne raportam la statistica descriptiva, in investigarea unui caracter
continuu datele sunt grupate pe clase sau intervale şi evenimente de tipul
(X=xk) trebuie înlocuite cu evenimente de tipul ( a<X<b), unde a şi b sunt
numere reale oarecare
Legi de repartitie pentru variabile continue

• Densitate de probabilitate
O funcţie f definită pe R, continuă pe R sau pe un interval închis din R, în afara 
căruia este nulă, se numeşte densitate de probabilitate dacă:

a) f(x)  0 pentru  x  R

b)  f x  dx  1

O variabilă aleatoare X este numită continuă dacă există o funcţie de densitate f pentru
care functia de repartitie F se poate defini pentru orice x real prin relatia:

x
F (x )   f (t )dt

Calculul probabilitatilor

F (a)  P( X  a)
a
F (a)   f ( x)dx

b a b
P a  X  b   F  b   F a    f (t )  dt   f t   dt  a f t   dt
 

a
f(x) P X  a    f x   dx

P(a < x < b)
b
P(x a) a) P X  b    f  x   dx


a b x Pa  X  b    f  x   dx
a
Cuantila
Pentru o variabila aleatoare x cu densitatea de probabilitate f(x) si repartitia F(x)
se defineste cuantila de ordin , x , ca valoarea variabilei aleatoare x pentru
care probabilitatea ca x < x este .

F(x) = 
De exemplu

   
P  x  x  x    1    1  
 2 1
2 
2 2
Pentru orice număr real b, P(X = b) = 0. Astfel, pentru o variabila
aleatoare continua probabilitatea ca aceasta sa ia o valoare anume
este nula.
lim Pa  X  b   PX  b   0
a b
b

 f x  dx  0
a

Ca o consecinţa a cestei definiţii este egalitatea:

P (a  X  b )  P (a  X  b )  P (a  X  b )  P (a  X  b )
Media variabilei aleatoare

 x1 x2  xn  n
X : 
 p1

p2  pn  p
i 1
i 1
n
E  X    xi  pi
i 1
se numeşte valoarea medie variabilei aleatoare X

În cazul în care variabila aleatoare X poate lua valori într-o mulţime infinita
numărabilă de valori x1, x2, x3, ... cărora le corespund probabilităţile p1, p2, p3,
... atunci numărul

E  X    xi  pi
i 1
Este media variabilei X daca seria este absolut convergentă
Dacă X este o variabilă aleatoare continuă cu densitatea de probabilitate f, 
atunci numărul


E( X )   x  f x   dx


se numeşte media variabilei aleatoare X, dacă integrala este convergentă


Dispersia

Dispersia unei variabile aleatoare X este definită ca media variabilei X  EX 


2

şi se notează cu D(X).

D  X   E  X  E  X   E X 2   2  E  X   E  X   E  X   E X 2   2  E  X   E  X 
2 2 2 2

D  X   E X 2   E  X 
2

n
D  X    ( xi  E ( X )) 2  pi Pt o variabila discreta
i 1


D  X    ( x  E ( X )) 2  f x   dx Pentru o variabila continua


X   DX  Abatere medie patratica


Repartiţia normală

Repartiţia normală a fost propusă de matematicianul


german Karl Gauss (1777‐1855), matematician german,
pe baza studiului erorilor de măsurare, formulând
următoarele postulate:
1.Rezultatele măsurătorilor sunt afectate în mod inerent
de erori întâmplătoare
2.Abaterea rezultatelor de la valoarea adevărată a
mărimii măsurate este cauzată de factori aleatori,
fiecare dintre aceştia provocând o eroare elementară
3.Cauzele care conduc la apariţia erorilor sunt
independente între ele Johann Carl Friedrich
4.Probabilitatea de apariţie a erorilor pozitive este egală Gauss (1777–1855)
cu cea de apariţie a erorilor negative
5.Erorile foarte mari au aceeaşi probabilitate de apariţie
ca a erorilor foarte mici
Repartiţia normală este cea mai larg utilizată în analiza datelor pentru că:
multe variabile aleatoare care apar în cadrul experimentelor au 
repartiţie normală
multe repartiţii complexe pot fi aproximate cu o repartiţie normală 
(exemplu în acest sens este distribuţia binomială)
anumite variabile aleatorii utilizate în verificarea ipotezelor statistice au 
repartiţie normală

Ipoteza de repartiţie normală este de multe ori adaptată fără discriminare pentru
orice rezultate ale unor măsurători experimentale pentru că în acest caz există deja
proceduri statistice de analiză bine formulate. În realitate, nu toate rezultatele unor
măsurători experimentale afectate de erori aleatoare au o distribuţie normală.
Legea de probabilitate a variabilei normale

O variabilă aleatoare continuă X este repartizată normal cu parametrii  şi  şi se 


notează N(,) dacă are ca densitate de probabilitate funcţia


 x  
2

1
f x   e 2 2
2  cu x  R.

   x   2
1 

 f x   dx   e 2 2
 dx  1
 2     
Media si dispersia

  x  2

x 

E( x )   x * f x   dx   e 2 2
 dx  
    2
 x   
2
 
1
D( x )   x   2
 f x   dx   x   2
  e 2 
2
 dx   2
   2

f(x) N(,12)

N(,22)

σ 22  σ12
 x
Definirea probabilităţilor pe intervale 
reprezentative

b 
 x  
2

1
Pa  X  b    e 2  2  dx
 2 a

P    x       0,6826

P  2    x    2     0,9544

P  3    x    3     0,9974
Variabila normală adimensională

X μ
Z 
σ
unde X este o variabilă normală repartizată N(,).

f(z)

z2
1 
f z   e 2
2

-3 -2 -1 0 1 2 3 z
Legatura intre functiile Gauss si Laplace

z y2
1 
z    e 2  dy
 2
Această funcţie, numită funcţia Laplace (matematician francez) este tabelată. Ea este
mult utilizată în efectuarea testelor statistice.

F, 

0,5

-3 -2 -  + +2 +3 x

z Pierre-Simon Laplace (1749-


0 1827)
Verificarea normalităţii distribuţiei pentru o 
serie de date experimentale

• Datele experimentale, atunci când erorile sunt întâmplătoare, se consideră adesea 
ca având o distribuţie normală.
• Pentru a verifica acest lucru pe un anumit set de date experimentale se poate 
folosi următoarea schemă:

1 Se calculează media statistică cu formula: X 


 xi
N
unde xi sunt valorile experimentale ale variabilei aleatoare, iar N
dimensiunea eşantionului.
 
N 2
2. Dispersia se calculează cu relaţia : xi  X
σ 
2 i 1
N

3 Se calculează frecvenţele cumulative ale seriei statistice din intervalele


caracteristice [ –, + ], [ – 2, + 2], [ – 3, + 3].

Se compară rezultatele cu probabilităţile teoretice caracteristice repartiţiei normale.


Repartitia 2

 Definita si exploatata pentru ca in studiul erorilor apar sume de patrate ale


variabilelor
 Se defineste ca o suma de n variabile independente repartizate normal

      ...  
2 2
1
2
2
2
n

 Are ca parametru n – grade de libertate


 Se utilizeaza in calculul intervalelor de incredere pentru dispersii, in teste
pentru dispersii, in testarea modelelor
Repartitia t (Student)

x
t
Vn   2 

 Este un raport intre doua variabile aleatoare independente


x repartizata normal N(0,1)
V repartizata 2 cu n grade de libertate
Cu cat numarul n creste, repartitia t se apropie de N(0,1)
Se utilizeaza la estimarea intervalelor de incredere pentru medii
Repartitia F (Fisher)

Vn1
F  n1 , n2  
U n2

- Este un raport intre doua variabile aleatoare independente V si U


repartizate 2
Are drept parametri n1 si n2 grade de libertate
- Este o repartitie cu valori pozitive
- Se utilizeaza pentru compararea a doua expresii, testarea adecvantei
modelelor, se foloseste in analiza factoriala
- Este o repartitie asimetrica
Eliminarea rezultatelor anormale

Se considera o selectie mica (N<=4)


1. Testul Q (Dixon)
‐ Nu se foloseste de mai multe ori pentru acelasi set de date

‐ Marimea Q se calculeaza cu relatia:


x2  x1 xN 1  xN
Q sau Q
xN  x1 xN 1  x1
Cum se aplica:
‐ Se sorteaza datele in ordine crescatoare
‐ Se calculeaza Q cu relatiile de mai sus in care x1/xN+1 – valorile anormale;
‐ Se determina valoarea critica a lui Q din tabele similare cu cel de mai sus
‐ Daca Qcalc < Qcritic valoarea x1 nu este o valoare anormala
Exemplu

La determinarea repetata a carbonului in fonta s‐au gasit valorile in procente: 2.86, 2.89, 2.9,
2.91 si 2.99. Se pune problema daca valoarea 2.99 este anormala.

Rezolvare:
Se calculeaza Q cu relatia

xN 1  xN 2.99  2.91
Q   0.62
xN 1  x1 2.99  2.86
Din table se obtine Q(95 %, N=5) = 0.710

Qcalc <Qcritic 0.62<0.71 => nu exista motive sa consideram valoarea 2.99 ca anormala.
Tema

S‐au efectuat un set de masuratori ale unei marimi si s‐au obtinut valorile: 167, 180, 188, 177,
181, 185, 189 . In acest set de masuratori, valoarea 167 este o valoare anormala sau nu?. Se va
considera un nivel de incredere de 95 %.
2. La baza procedeelor de testare a rezultatelor anormale in cazul selectiilor mici sta, in general,
repartitia t‐student.

Fie valoarea anormala xd si media aritmetica a valorilor xn1 obtinuta dupa eliminarea
masuratorii considerate anormale.
‐ Se calculeaza dispersia celor n‐1 date:

 x  x 
2
i n 1
s i
n2
‐ Se calculeza valoarea testului t
xn1  xd
t
n
s
n 1

‐ Daca tcalculat< ttabelat atunci valoarea considerata nu este anormala


‐ ttabelat (95 %, n‐2)
Exemplu

Se dau urmatoarele 10 valori obtinute in urma analizei ionului de Fe3+ dintr‐o proba:
0.26, 0.21, 0.20, 0.21, 0.21, 0.19, 0.18, 0.17, 0.18, 0.19. Se cere sa se stabileasca daca 0.26 este
o valoare anormala.
Se calculeaza :

xn1  xd 0.193  0.26


tcalculat    4.24
n 10
s 0.015
n 1 9

  
ttabelat  t  P  95%,  2.5%,  n  2   2.306
 2 
In excel: t.inv(1‐alfa/2, n‐2) , cu alfa=0.05, t(0.975, 8) = 2.306
Intervale de incredere

Se alege un interval de probabilitate de 95 sau 99 %.


Fie  riscul ca parametrul considerat sa fie in afara intervalului si (1- ) nivelul
de incredere

Intervale de incredere pentru medie (esantioane mari)

Se considera variabila aleatoare centrata


x 
z
/ n
Fie o selectie cu media  si dispersia 2 atunci intervalul de incredere pentru
medie se determina astfel:
s s
x  z    x  z1
n n
Exemplu
La determinarea continutului in penicilina al unui numar de 250 fiole s‐a gasit media de selectie
de 126.18 mg, respective dispersia de selectie de 4.05 mg. Se cere sa se determine intervalele
de incredere pentru medie pentru un grad de incredere de 99 %.

Se calculeaza probabilitatea zalfa cu functia excel norm.s.inv(grad de incredere) = ……

s s
x  z    x  z1
n n
4.05 4.05
126.18  2.326  126.18  126.18  2.326
250 250
125.58  126.18  126.78
Intervale de incredere pentru medie (esantioane mici)

Daca se considera variabila aleatoare distribuita t (student)

u
t
2

Cu =n-1 grade de libertate, intervalul de incredere pentru medie
se calculeaza astfel:

s s
x  t    x  t
n n
Functia Excel pentru repartitia t (student) este: tinv.2T(alfa, n-1)
Exemplu
La determinarea componentului principal intr‐un minereu s‐au gasit valorile: 30.1, 31.4, 30.9. S‐
au calculat media 30.8 si abaterea medie patratica 0.69. Sa se determine intervalele de incredere
pentru medie cu un grad de incredere de 95 %.

s s
x  t    x  t
n n
tinv(alfa,3  1)  4.302
0.69 0.69
30.8  4.302  30.8  30.8  4.302
3 3
29.08  30.8  32.5
Intervale de incredere pentru dispersie

Se considera ca avem o serie de observatii n luate dintr-o populatie statistica


cu media  si dispersia 2
Fie  pragul de semnificatie. Intervalul de incredere pentru dispersia 2 se
determina astfel:

n 1 n 1
s2   2  s2
2 /2 12 /2

Functia Excel pentru repartitia chi2 este:


Chisq.inv(alfa/2, n-1)
Compararea mediei de selectie cu media cunoscuta a populatiei

Problema consta in a verifica daca valoarea medie selectie difera


corespunzator de valoarea luata ca proba. Procedeul permite identificarea
erorilor sistematice

Se testeaza cu ajutorul testului t

x 
t
s/ n
Testele pot fi bilaterale, daca se doreste sa se testeze egalitatea mediilor

- Ipoteza de baza 0  
0  
- Ipoteza alternativa

- -tp<t<tp

Unilaterale cu limita superioara daca

- Ipoteza de baza
0   t<-tp

- Ipoteza alternative
0   t>-tp

Unilaterale cu limita inferioara daca

- Ipoteza de baza 0   t>tp

0  
- Ipoteza alternative t<tp
Valoarea tp pentru un test bilateral, alfa = 0.05,

tinv.2T(alfa/2, n-1)= tinv.2t(0.025, 9)=2.685

Valoarea tp pentru un test unilateral, alfa = 0.05,

tinv.2T(0.05, 9)= 2.262

Exemplu:

La instituirea unei metode noi, facandu-se 10 masuratori repetate, s-a gasit continutul in
elementul determinat xmed = 34.45mg/100 mL, iar abaterea standard s=0.806.
Cantitatea luata in proba a fost de 34 mg/100 mL. Valoarea gasita pentru medie este
intamplatoare sau metoda are o eroare sistematica?

34.45  34.00
t  1.76
0.806 / 10
t p  t in v.2T (0.025,9)  2.685
t  t p  se accepta ipoteza de baza 0  

Concluzie : Media obtinuta din selectie este


supusa erorilor intamplatoare
Exemplu:
S-au cantarit 10 tablete continand un medicament dat, gasindu-se urmatoarele valori:
100.3, 99.2, 99.4, 100, 99.7, 99.9, 99.4, 100.1, 99.4, 99.6
Se cere sa se stabileasca daca selectia apartine populatiei cu media 100 mg.

Media de selectie este 99.7 iar abatererea standard 0.395


Se calculeaza

99.7  100
t  2.6
0.395 / 10
t p  t in v(0.05,9)  2.262
t  t p  seaccepta ipoteza alternativa 0  

Concluzie : Diferenta obtinuta este


semnificativa
Compararea a doua medii de selectie

Problema consta in a verifica daca cele doua medii de selectie sunt distincte statistic-
corespund pentru doua populatii diferite sau corespund aceleiasi populatii.

Se testeaza cu ajutorul variabile normale adimensionale (daca n1 si n2 >30 si se


cunosc dispersiile)

x1  x2  12  22
z ; d  
d n1 n2

Exemplu:
Avem doua selectii privind analiza prin aceeasi metoda, in acelasi laborator, a doua
probe de fonta obtinute prin aceeasi tehnologie in doua uzine diferite.
Mediile celor doua selectii sunt diferite sau nu?
n1=30, x1med=2.5 %, s1=0.15 %; n2=35, x2med=2.38 %; s2 = 0.08 %
0.152 0.082
d    0.0305
30 35
2.5  2.38
z  3.92
0.0305

Conditia de acceptare a egalitatii celor doua medii (ipoteza de baza) este


-zalfa/2<z<z1-alfa/2
Daca alfa = 0.05,
Norm.s.inv(1-alfa/2)=1.96
-1.96<3.92<1.96 nu se respecta, valoarea z este in afara intervalului=> mediile nu sunt egale.
Modele empirice 

Calcul de regresie
Metoda celor mai mici patrate. 
Analiza modelelor.
De ce avem nevoie de experimente 
planificate (proiecarea experimentului).
Justificarea modelarii empirice
Nu se cunoaste natura dependentei variabilelelor unui
proces
Se pot obtine date experimentale care arata o dependenta
intre variabile
Se propune un “model”- o relatie sau un set de relatii, care
sa reflecte dependenta variabilelor
Regresie= intoarcere (intoarcere si comparare cu datele
experimentale)

Utilizare:
modelarea proceselor complexe in chimie, biologie, tehnica,
procese economice, monitorizare mediu
Prognoze, optimizare
Etapele calculului de regresie

Inventarierea variabilelor
Obtinerea datelor experimentale
Alegerea (propunerea) unui model de regresie
Calculul coeficientilor modelului de regresie
Testarea modelului
Inventarierea variabilelor
Se analizeaza sistemul si se stabileste care este variabila
dependenta si care sunt variabilele independente sau factori
Y variabila dependenta
X1, X2, …Xn variabilele independente (factori)

Exemple:
1. Randamentul unei reactii depinde de temperatura de reactie
si de raportul dintre reactanti:
Y=randament
X1= temperatura, X2= raportul de reactanti
2. Capacitatea calorica a uni gaz depinde de
temperatura:
Y=Cp
X=temperatura
3. Nivelul salariului depinde de gradul de educatie
(ani de scoala/studii):
Y=salariul
X=nr ani de studii
4. Costul unui vas depinde de volumul sau:
Y=cost
X=volum vas
Obtinerea datelor experimentale
Obtinerea datelor in regim aleator:
Datele masurate sa acopere tot domeniul de interes
Datele masurate sa fie numeroase
Obtinerea datelor in regim programat (experimente
factoriale sau alte programe)

Date ce nu arata o Cresterea lui x implica o


corelare y=f(x) scadere a valorii y
Valorile y variaza dupa o
curba

Din analiza datelor experimentale se remarca faptul ca


valorile Y depind de valorile variabilei independente X.
Daca nu cunoastem procesul in profunzime incercam sa
gasim un model (o relatie) care sa reflecte variatia datelor
experimentale, adica sa gasim o functie f astfel incat y=f(x).
Daca y depinde de mai multi factori atunci relatia devine
y=f(x1,x2…,xn)
Alegerea formei modelului
Relatia pe care o cautam constituie modelul de regresie.
In calculul de regresie se considera ca variabilele X nu sunt
afectate de eroare de masurare. Variabila dependenta Y este
variabila afectata de erori de experimentare.

X=t
Y=h
Regresie liniara 

experimental

calculat

Diferenta dintre valoarea experimentala si cea data de


model se exprima ca
yk  yˆ k
Modelul liniar cu o variabila independenta

y = b 0 + b1 x (1)

m
SSE  ( yk  yˆk )2
Suma patratelor abaterilor
k 1 (Sum of squared errors)

Cea mai buna dreapta va corespunde minimului sumei celor


mai mici patrate ( metoda celor mai mici patrate)
m
SSE   ( yk  b0  b1 * xk ) 2
k 1 m= nr puncte
experimentale
min SSE
( b0 ,b1 )
Ecuatiile caracteristice ale metodei celor mai 
mici patrate

SSE
 2 ( yk  b0  b1 * xk ) *(1)  0
b0 k

SSE
 2 ( yk  b0  b1 * xk ) *( xk )  0
b1 k

m m
mb0  b1  xk   yk
k 1 k 1

m m m
b0  xk  b1  x   xk yk
2
k
k 1 k 1 k 1
Exemplu
nr exp temperatura, C Randament, %
(k) x y x*x x*y
1 120 60 14400 7200
2 130 63 16900 8190
3 135 64 18225 8640
4 138 67 19044 9246
5 144 68 20736 9792
6 154 71 23716 10934
7 163 73 26569 11899
 984 466 139590 65901

7  b0  984  b1  466
984  b0  139590  b1  65901

b0=22,8 b1=0.311
Rezolvare in EXCEL

75 y = 0.3114x + 22.803
R2 = 0.9776

70
randament, %

65

60

55

50
120 125 130 135 140 145 150 155 160 165 170
temperatura, C
Regresie liniara multipla
y  b0  b1  x1  b2  x2  ...  bn  xn (2)

Exemplu:
y  b0  b1  x1  b2  x2
m
SSE  ( yk  yˆk )2
k 1
m
SSE   ( yk  b0  b1 * x1,k  b2  x2,k ) 2
k 1

min SSE
( b0 ,b1 ,b2 )
Sistemul de ecuatii pentu 2 variabile 
independente
SSE
 2 ( yk  b0  b1 * x1,k  b2  x2,k )*(1)  0
b0 k
SSE
 2 ( yk  b0  b1 * x1,k  b2  x2 , k ) *( x1 , k )  0
b1 k

SSE
 2 ( yk  b0  b1 * x1,k  b2  x2 , k ) *( x2 , k )  0
b2 k

m m m
mb0  b1  x1 ,k  b2  x2,k   yk
k 1 k 1 k 1

m m m m
b0  x1, k  b1  x  b2  x1,k  x2,k   x1, k yk
2
1, k
k 1 k 1 k 1 k 1

m m m m
b0  x2, k  b1  x1,k  x2,k  b2  x 2
2, k   x2, k yk
k 1 k 1 k 1 k 1
Model de tip polinomial

y  b0  b1  x  b2  x 2 (3)

Exemplul tipic :
Cp  a  b t  c t2

Modelul poate fi transformat intr-un model liniar:

Cp=y t=x1 t2=x2

Relatia propusa pentru variatia capacitatii calorice cu


temperatura poate fi considerata de tipul relatiei 2
Verificarea gradului de corelare, coeficientul 
de determinare R2
m

 k k
( y  ˆ
y ) 2

R2  1  k 1
m

 k
( y
k 1
 Y ) 2

y k
Y  k 1
media aritmetica
m

R2 este o masura a gradului in care modelul potriveste datele


experimentale. Daca R2 este 1 variatia lui y este total explicata
de modelul propus
Toate softurile dedicate regresiei calculeaza valoarea R2
Rezolvare in EXCEL
nr exp, k t(C) Cp CO2 (cal/molC)
1 20 6.96
2 100 6.97
3 200 7
4 300 7.06
5 400 7.12
6 500 7.2
7 600 7.28
8 700 7.35
9 800 7.44

7.5
y = 0.0006x + 6.8972
R2 = 0.9736
7.4

7.3 y = 5E-07x 2 + 0.0003x + 6.9425


R2 = 0.997
Cp, cal/molC

7.2

7.1

6.9

6.8
0 100 200 300 400 500 600 700 800 900
t, C
randam  y
Regresie pt modelul y=b0+b1x1+b2x2
t  x1
nr experim, k t, C durata stationare, min randam, % tau  x2
1 20 50 65
2 25 55 68
3 30 60 70 y  58.80714  0.904286  x1  0.24  x2
4 35 70 75
5 40 80 77 R 2  0.962
6 45 90 78
7 50 100 79

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.980908
R Square 0.962181
Adjusted R 0.943271
Standard E 1.300412
Observatio 7

ANOVA
df SS MS F ignificance F
Regression 2 172.0929 86.04643 50.88279 0.00143
Residual 4 6.764286 1.691071
Total 6 178.8571

Coefficientstandard Erro t Stat P-value Lower 95% Upper 95%Lower 95.0%


Upper 95.0%
Intercept 58.80714 3.191029 18.4289 5.1E-05 49.94741 67.66688 49.94741 67.66688
X Variable 0.904286 0.376254 2.403394 0.074083 -0.14036 1.948936 -0.14036 1.948936
X Variable -0.24 0.217601 -1.10294 0.331947 -0.84416 0.364157 -0.84416 0.364157
Analiza modelelor de 
regresie
Tabelul ANOVA (analiza dispersionala)
• Teste de semnificaţie pentru modelul de regresie
• Acest test se bazează de definirea următoarelor sume:
• SST (suma totală a pătratelor)
• SSR (suma pătratelor regresiei)
• SSE (suma pătratelor erorilor)
Definitii
• regresia liniară definim variaţia totală în m observaţii ca sumă a pătratelor între 
răspunsuri yj şi media tuturor răspunsurilor .

 
m
SST   y j  y
2

j1

SSR dă variabilitatea în răspunsul y – explicitată de ecuaţia modelului

 ŷ 
m
2
SSR  j y
j1

SSE este suma patratelor rezidualelor

SSE   y j  ŷ j 
m
2

j1
Grade de libertate

• SST = SSR + SSE
• SSR = SST – SSE

• Gradele de libertate: pentru SST numarul de grade de libertate este m –
1 m – numărul de date (se pierde un grad de libertate pentru că s‐a 
făcut media) 
• Numărul gradelor de libertate pentru modelul asociat lui SSR este egal 
cu numărul de coeficienţi, fără termenul liber, n.

• Numarul de grade de libertate pentru SSE se poate găsi prin:
• SST = m – 1
• SSR = n
• SSEm= 
este – de
SST nr = m – 1 – n = m –
SSR experimente, (n + 1) = m –
n este p independente, p este
nr de variabile
numarul de coeficienti, p=n+1
Test de semnificatie a modelului

Ipoteza nulă pentru ecuaţia de regresie:

H0: b1 = b2 =… = bn = 0

HA: bi  0 (cel puţin un i = 1, … n)

Dacă H0 este respinsă rezultă că există cel puţin o variabilă independentă 
care contribuie la modelul de regresie şi putem trage concluzia că există 
o relaţie între răspunsul y şi cel puţin unul din factori (variabilă 
independentă).
Testul F de semnificatie
SSR  SSR MSR SSR / n SSR / n
F0    
SSE  SSE MSE SSE /( m  n  1) SSE /( m  p )
Dacă F0 > Fcrit H0 se respinge si se accepta HA, adica exista cel putin un
coeficient diferit de zero si modelul este semnificativ

Fcrit = Fn,m-p,1-

 ia valori 0,10; 0,05; 0,01. Descreşterea lui  indică o încredere mai mare
în model. Valorile critice pentru F, Fcrit (distribuţia Fisher) cresc pentru  mai
mici şi ele descresc de asemenea cu creşterea gradelor de libertate SSE
(descreşterea numărului de coeficienţi)
Ca urmare, creşterea numărului de coeficienţi (creşte SSR şi descreşte SSE)
pentru un număr dat de experimente poate duce la o scădere a lui MSR şi
creştere a lui MSE până la o valoare unde F0 < Fcrit şi modelul nu mai este
semnificativ.
Tabelul ANOVA

Sursa Suma  Pătratul mediu F0 p-value


dispersiei pătratelor
Regresie SSR n MSR = SSR/n MSR/MSE
Residual (erori) SSE m  n  1 SSE
 MSE 
p mp
Total SST m–1

Fcrit se citeste din tabelul distributie Fisher, de regula la un =0,05.


p-value este valoarea cea mai mica a lui  pentru care, in conditiile
studiului dat, modelul este semnificativ. De regula p-value este calculat
automat de softul de regresie si daca p-value este mai mic decat 0,05
modelul este semnificativ.
Coeficient de determinare

• Coeficientul de determinare

SSR SSE
R 2
 1 0 < R2 < 1
SST SST
Atenţie. Cu creşterea numărului de termeni într-un model liniar se
măreşte R2. Aceasta nu implică neapărat un model adecvat şi capabil de
o bună predicţie

Pentru corelaţia liniara simpla R2 este chiar patratul coeficientului de


corelare intre X si Y
În corelaţia liniara multipla dă corelaţia între valorile observate şi cele
prezise de model
Analiza coeficientilor modelelor de 
regresie
Dispersia coeficientilor

Coeficientii de regresie calculati prin metoda celor mai mici patrate sunt
estimatii ale coeficientilor adevarati ai modelului.
Daca coeficientii adevarati se noteaza cu i atunci estimatiile ( valorile
calculate din date) se noteaza cu ̂i
Variabila aleatoare ̂ i are media i
dispersia
 SSE  C00 C1n 
 m  p  Cii
C01 
 
 C11 
     
MSE
  
1
C  X X 
T 
 Cii 
 2  C 
  

Disp  ii C
 0n  Cnn 
experimentala

a lui Y
Matricea de varianta covarianta

• În general   ̂
are media i şi dispersia ce depinde de σ2 (dacă îl 
i
cunoaştem) sau de SSE/(m‐p), dacă nu cunoaştem σ2.

Dˆ    X  X 
2 T 1

Matricea de varianta - covarianta


D(ˆ ) mSSE
p
 X  X 
T 1

Matricea de intercorelare a coeficientilor

D(ˆ ) k ,m
rk,m 
D(ˆ )  D(ˆ )
m,m k ,k

Daca rm,k >0.95 coeficientul βm, este intercorelat cu coeficientul βk


Intervale de incredere

Utilizarea statisticilor Z si T

ˆ i  i ˆ i  i
Z T → Tm-p
  Cii
→ N(0,1)
MSE  Cii

ˆ i  z1  / 2   2  Cii  i  ˆ i  z1  / 2   2  Cii

ˆ i  t m p,1  / 2  MSE  Cii  i  ˆ i  t m p,1  / 2  MSE  Cii

Tinv(alfa, m-p)
Ipoteze şi testarea semnificaţiei coeficienţilor individuali

• H0: i = 0
• HA: i  0
ˆ i
Testul Student T
MSE  Cii

Daca: T > t m-p,1-/2 sau T < -t m-p,1-/2

se respinge H0 – coeficientul este semnificativ

Daca dispersia experimentala este cunoscuta se utilizeaza testul Z

ˆi
Z Daca: Z > z 1-/2 sau Z < z1- /2 Coeficientul este
  Cii
2
semnificativ
Exemplu tabel ANOVA in EXCEL
nr experim, k t, C durata stationare, min randam, %
1 20 50 65
2 25 55 68
3 30 60 70 y  58.80714  0.904286  x1  0.24  x2
4 35 70 75
5 40 80 77 R 2  0.962
6 45 90 78
7 50 100 79

SUMMARY OUTPUT

Regression Statistics
Multiple R 0,980908003
R Square 0,962180511
Adjusted R Square 0,943270767
Standard Error 1,300412023
Observations 7

ANOVA
df SS MS F Significance F
Regression 2 172,0928571 86,04643 50,88279 0,001430314
Residual 4 6,764285714 1,691071
Total 6 178,8571429

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 58,80714286 3,191028959 18,4289 5,1E-05 49,94740777 67,66687794 49,94740777 67,66687794
X1 0,904285714 0,376253687 2,403394 0,074083 -0,140364156 1,948935585 -0,14036416 1,948935585
X2 -0,24 0,217600551 -1,10294 0,331947 -0,844157237 0,364157237 -0,84415724 0,364157237
Analiza modelelor de regresie
Tabelul ANOVA (analiza
dispersionala)
 Teste de semnificaţie pentru modelul de regresie
 Acest test se bazează de definirea următoarelor sume:
 SST (suma totală a pătratelor)
 SSR (suma pătratelor regresiei)
 SSE (suma pătratelor erorilor)
Definitii
 regresia liniară definim variaţia totală în m observaţii ca sumă a
pătratelor între răspunsuri yj şi media tuturor răspunsurilor .

 
m
SST   y j  y
2

j1

SSR dă variabilitatea în răspunsul y – explicitată de ecuaţia modelului

 ŷ 
m
2
SSR  j y
j1

SSE este suma patratelor rezidualelor

SSE   y j  ŷ j 
m
2

j1
Grade de libertate
 SST = SSR + SSE
 SSR = SST – SSE

 Gradele de libertate: pentru SST numarul de grade de libertate


este m – 1 m – numărul de date (se pierde un grad de libertate
pentru că s-a făcut media)
 Numărul gradelor de libertate pentru modelul asociat lui SSR este
egal cu numărul de coeficienţi, fără termenul liber, n.

 Numarul de grade de libertate pentru SSE se poate găsi prin:


 SST = m – 1
 SSR = n
 SSE = SST – SSR = m – 1 – n = m – (n + 1) = m – p

m este nr de experimente, n este nr de variabile independente, p este


numarul de coeficienti, p=n+1
Test de semnificatie a modelului
Ipoteza nulă pentru ecuaţia de regresie:

H0: b1 = b2 =… = bn = 0

HA: bi  0 (cel puţin un i = 1, … n)

Dacă H0 este respinsă rezultă că există cel puţin o variabilă


independentă care contribuie la modelul de regresie şi putem
trage concluzia că există o relaţie între răspunsul y şi cel puţin
unul din factori (variabilă independentă).
Testul F de semnificatie
SSR  SSR MSR SSR / n SSR / n
F0    
SSE  SSE MSE SSE /( m  n  1) SSE /( m  p )
Dacă F0 > Fcrit H0 se respinge si se accepta HA, adica exista cel putin
un coeficient diferit de zero si modelul este semnificativ

Fcrit = Fn,m-p,1-

 ia valori 0,10; 0,05; 0,01. Descreşterea lui  indică o încredere mai mare
în model. Valorile critice pentru F, Fcrit (distribuţia Fisher) cresc pentru  mai
mici şi ele descresc de asemenea cu creşterea gradelor de libertate SSE
(descreşterea numărului de coeficienţi)
Ca urmare, creşterea numărului de coeficienţi (creşte SSR şi descreşte SSE)
pentru un număr dat de experimente poate duce la o scădere a lui MSR şi
creştere a lui MSE până la o valoare unde F0 < Fcrit şi modelul nu mai este
semnificativ.
Tabelul ANOVA

Sursa Suma  Pătratul mediu F0 p-value


dispersiei pătratelor
Regresie SSR n MSR = SSR/n MSR/MSE
Residual (erori) SSE m  n  1 SSE
 MSE 
p mp
Total SST m–1

Fcrit se citeste din tabelul distributie Fisher, de regula la un =0,05.


p-value este valoarea cea mai mica a lui  pentru care, in conditiile
studiului dat, modelul este semnificativ. De regula p-value este calculat
automat de softul de regresie si daca p-value este mai mic decat 0,05
modelul este semnificativ.
Coeficient de determinare

 Coeficientul de determinare
SSR SSE
R 2
 1 0 < R2 < 1
SST SST
Atenţie. Cu creşterea numărului de termeni într-un model liniar se
măreşte R2. Aceasta nu implică neapărat un model adecvat şi capabil de
o bună predicţie

Pentru corelaţia liniara simpla R2 este chiar patratul coeficientului de


corelare intre X si Y
În corelaţia liniara multipla dă corelaţia între valorile observate şi cele
prezise de model
Analiza coeficientilor modelelor de
regresie
Dispersia coeficientilor

Coeficientii de regresie calculati prin metoda celor mai mici patrate sunt
estimatii ale coeficientilor adevarati ai modelului.
Daca coeficientii adevarati se noteaza cu i atunci estimatiile ( valorile
calculate din date) se noteaza cu ̂i
Variabila aleatoare ̂ i are media i
dispersia
 SSE  C00 C1n 
 m  p  Cii
C01 
 
 C11 
     
MSE
  
1
C  X X 
T 
 Cii 
 2  C 
  

Disp  ii C
 0n  Cnn 
experimentala

a lui Y
Matricea de varianta covarianta
 În general ̂i are media i şi dispersia ce depinde de σ2 (dacă îl
cunoaştem) sau de SSE/(m-p), dacă nu cunoaştem σ2.

Dˆ    X  X 
2 T 1

Matricea de varianta - covarianta


D(ˆ ) mSSE
p
 X  X 
T 1

Matricea de intercorelare a coeficientilor

D(ˆ ) k ,m
rk,m 
D(ˆ )  D(ˆ )
m,m k ,k

Daca rm,k >0.95 coeficientul βm, este intercorelat cu coeficientul βk


Intervale de incredere

Utilizarea statisticilor Z si T

ˆ i  i ˆ i  i
Z T → Tm-p
  Cii
→ N(0,1)
MSE  Cii

ˆ i  z1  / 2   2  Cii  i  ˆ i  z1  / 2   2  Cii

ˆ i  t m p,1  / 2  MSE  Cii  i  ˆ i  t m p,1  / 2  MSE  Cii

Tinv(alfa, m-p)
Ipoteze şi testarea semnificaţiei coeficienţilor
individuali

 H0: i = 0
 HA: i  0
ˆ i
Testul Student T
MSE  Cii

Daca: T > t m-p,1-/2 sau T < -t m-p,1-/2

se respinge H0 – coeficientul este semnificativ

Daca dispersia experimentala este cunoscuta se utilizeaza testul Z

ˆi
Z Daca: Z > z 1-/2 sau Z < z1- /2 Coeficientul este
  Cii
2
semnificativ
Exemplu tabel ANOVA in EXCEL
nr experim, k t, C durata stationare, min randam, %
1 20 50 65
2 25 55 68
3 30 60 70 y  58.80714  0.904286  x1  0.24  x2
4 35 70 75
5 40 80 77 R 2  0.962
6 45 90 78
7 50 100 79

SUMMARY OUTPUT

Regression Statistics
Multiple R 0,980908003
R Square 0,962180511
Adjusted R Square 0,943270767
Standard Error 1,300412023
Observations 7

ANOVA
df SS MS F Significance F
Regression 2 172,0928571 86,04643 50,88279 0,001430314
Residual 4 6,764285714 1,691071
Total 6 178,8571429

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 58,80714286 3,191028959 18,4289 5,1E-05 49,94740777 67,66687794 49,94740777 67,66687794
X1 0,904285714 0,376253687 2,403394 0,074083 -0,140364156 1,948935585 -0,14036416 1,948935585
X2 -0,24 0,217600551 -1,10294 0,331947 -0,844157237 0,364157237 -0,84415724 0,364157237
Optimizarea experimentarii

Programarea experimentelor
Notiuni fundamentale
Experiment- o serie de investigatii facute in
scopul de a obtine un raspuns la o problema
data. Acesta poate fi realizat pri incercari
successive numite experiente sau
determinari.
Factor
Se considera fenomenul cercetat drept o
“cutie neagra”, caracterizat doar de iesiri
(raspunsuri) si intrarile impuse
experimentelor
- Pentru a realiza o experienta este necesar sa
existe posibilitatea de a influenta comportarea
cutiei negre.
- Toate aceste influente notate cu “x” se numesc
factori si reprezinta variabile de intrare
Factori – calitativi –nu pot fi masurati printr-o
metoda fizica
- cantitativ – pot fi masurati (caracterizati prin
valoare si unitate de masura)
Factorii sunt caracterizati prin regiunea de
determinare (domeniu de variatie)
Caracteristicile factorilor
- controlabili, compatibili, independenti

Un experiment poate fi programat daca factorii pot


fi fixati la anumite valori dorite de experimentator.
Prin compatibilitate se intelege posibilitatea
combinarii factorilor in conditii de securitate
Prin independent – nu trebuie sa existe intre factori
o relatie de dependent liniara (sau de alta natura)
Proces Factori cantitativi Factori calitativi
Reactia chimica T, P, concentratia Tipul solventului
reactantilor, Tipul utilajului
concentratia
solventului, pH, turatia
agitatorului
Rectificarea Compozitia Tipul coloanei de
amestecului rectificare
Temperatura de
alimentare
Operatii de Temperaturile de Tipul schimbatorului de
incalzire/racire intrare ale fluidelor caldura
Regimul de curgere
Caracteristici
constructive (raportul
L/dt pentru tevi)

Filtrare Concentratia Natura materialului


suspensiei filtrant
Temperatura Tipul de filtru
Obiective
 Obtinerea unei informatii cat mai complete prin cat mai
putine masuratori experimentale
 Economie de timp si cheltuieli reduse
 Posibilitatea de a studia un proces in conditii industriale,
cand numarul de experimente este limitat
Programe factoriale
Etape principale:
 Stabilirea factorilor
 Stabilirea centrului experimentelor
 Stabilirea intervalulul de variatie a variabilelor
independente (factori)
 Obtinerea datelor experimentale
 Codificarea variabilelor
 Obtinerea modelelor de regresie in vederea analizei si
optimizarii procesului
Caracteristici
 Factorii iau un numar limitat de valori numite niveluri
 Programul factorial complet utilizeaza toate combinatiile
posibile ale variabilelor si nivelurilor pentru alcatuirea
matricii de experimentare
Programe experimentare pe
doua niveluri , 2n
Se fac masuratori ale variabilei dependente, Y, pentru doua
niveluri ale fiecarui factor (un nivel maxim si un nivel minim)
n este numarul de factori
Nr experimente z=2n
Exemplu: analiza randamentului unui proces functie de
temperatura si presiune

Variabila dependenta (marime masurata): randamentul


Variabilele independente (factori): temperatura (t) si
presiunea (p)
Fixarea centrului experimentului: Reactorul este operat in
jurul valorilor de t=50 °C si 2 atm.
Domeniul de variatie al factorilor: Valoare minima pentru
temperatura t=35 °C, valoare maxima pentru temperatura,
t=65°C.
Domeniul de variatie pentru presiune: valoare minima p=1,5
atm, valoare maxima pentru presiune 2,5 atm

Experimentarile se vor efectua pentru doua niveluri ale


temperaturii: t=35 °C, t=65 °C si pe doua niveluri ale presiunii:
p=1,5 atm , p=2,5 atm.

Acesta este un experiment 22


3 4
tmax=65 °C
t=15°C
p=0,5 atm
t=50 °C

tmin=35 °C
1
2

pmin=1,5atm p=2 atm Pmax=2,5atm

Masuratori experimentale nr t, C P, Randam,


%
atm
Nr de experimente 1 35 1,5 66
este 22=4 2 35 2,5 70
3 65 1.5 73
4 65 2,5 79
Normarea variabilelor
La nivelul maxim valoarea factorilor va fi +1 iar la nivelul
minim –1
Centrul experimentelor are coordonatele (0,0)
x  xcentru
x 
x
Daca notam x1=t si x2=p
x2,1  x2,0 1.5  2
x1,1  x1,0 35  50 x2,1    1
x1,1    1 x2 0.5
x1 15
x2,2  x2,0 2.5  2
x1,2  x1,0 35  50 x2,2   1
x1,2    1 x2 0.5
x1 15
x2,3  x2,0 1.5  2
x1,3  x1,0 65  50 x2,3    1
x1,3   1 x2 0.5
x1 15
x2,4  x2,0 2.5  2
x1,4  x1,0 65  50 x2,4   1
x1,4   1 x2 0.5
x1 15
x1
(-1,1) (1,1)
Experimente in varfurile
(0,0) x2 unui patrat (notez x1= ~t )

(-1,-1) (-1,1)

Nr. x1 x2 Randam.,
%

1 -1 -1 66
2 -1 1 70
3 1 -1 73
4 1 1 79
Verificare corectitudinii matricii de
experimentare
Analiza influentei factorilor pentru
exprimente factoriale fractionate
Urmarirea tendintelor
• Experimentele fractionate permit analiza
influentei mai multor factori cu un numar
restrans de masuratori.
• Exemplu: Un raspuns influentat de 4 factori
poate fi analizat cu doar 8 experimente (exp
factorial 24-1)
Se vor estima efectele principale
ale factorilor A (conc de acid), B(
conc catalizator), C (temperatura),
D (conc monomer) asupra
stabilitatii unui polimer (R).
Observatii
Din analiza influentei factorilor s-a constatat
ca factorii A si B influenteaza cel mai mult
raspunsul R. Aceasta inseamna ca se poate
considera un subspatiu bidimensional in care
experimentarea poate fi considerata ca un
duplicat al unui experiment 22
Liniile de R= constant reflecta directia de crestere a stabilitatii. Aceastea sunt
normale la suprafata de raspuns ( optimizare prin cautarea dupa panta
maxima- metoda gradientului ). Sageata indica directia de explorare in care
stabilitatea R creste. Cateva experimente suplimentare desfasurate in aceasta
directie au condus la obtinerea unei stabilitatii > 25.
Metoda celor mai mici patrate aplicata la date
obtinute in experimentul factorial

Nr x1 x2 x1x2 x12 x22 y x1y x2y


exp

1 -1 -1 1 1 1 y1 X1,1y X2,1y

2 -1 1 -1 1 1 y2 X1,2y X2,2y

3 1 -1 -1 1 1 y3 X1,3y X2,3y

4 1 1 1 1 1 y4 X1,4y X2,4y

 0i
0 0 4 4
Sistemul de ecuatii
4
4  bˆ0  0  bˆ1  0  bˆ2   Yi
4
0  b0  4  b1  0  b2   x1,iYi
ˆ ˆ ˆ i 1

i 1
4
0  bˆ0  0  bˆ1  4  bˆ2   x2,iYi
i 1

Sistemul se rezolva ecuatie cu ecuatie si, in plus, toti


coeficientii sistemului sunt de acelasi ordin de marime
4 4 4

Y i x Y
1,i i x Y
2 ,i i
bˆ0  i 1
bˆ1  i 1
bˆ2  i 1

4 4 4
Experimentul factorial 23
3 variabile independente (3 factori)
Experimentele se desfasoara în varfurile unui cub
TABLE 3.3 Date normalizate pentru un experiment 23
run X1(tau) X2 (t) X3( c )

1 -1 -1 -1
2 1 -1 -1
3 -1 1 -1
4 1 1 -1
5 -1 -1 1
6 1 -1 1
7 -1 1 1
8 1 1 1
Model de regresie pentru date
obtinute in experimente
factoriale
y  b0  b1 x1  b2 x2
y  b0  b1 x1  b2 x2  b3 x3
y  b0  b1 x1  b2 x2  b3 x3  b1,2 x1 x2  b2,3 x2 x3  b1.3 x1 x3

Calculul coeficintilor bi si bi,j se obtin prin metoda celor


mai mici patrate utilizand date normate
Avantaje ale programarii
experimentale
Obtinerea informatiei cu un numar minim de experimente
 Permite analiza evolutiei unui proces pe baza unor
experimente reduse
Permite extinderea modelarii proceselor prin metode de
regresie pentru studii experimentale industriale