Sunteți pe pagina 1din 17

Prof. dr. ing. Ion COPAE Academia Tehnic Militar, Bucureti, email: ioncopae@hotmail.

com

CAPITOLUL 2
LEGI DE REPARTIIE NEPARAMETRICE
2.1. ASPECTE PRINCIPALE Aa cum s-a prezentat anterior, n cazul abordrii parametrice se adopt dou ipoteze simplificatoare: mrimile funcionale se supun unor legi de distribuie cunoscute (normal, exponenial, Weibull etc.), iar modelele matematice sunt cunoscute aprioric i conin parametric constani n timp. Ambele ipoteze menionate nu sunt confirmate n practic: mrimile funcionale nu se supun, de regul, nici unei legi de repartiie cunoscute din statistica clasic, iar modelele matematice nu sunt cunoscute aprioric i conin o familie de parametri sau/i sunt variabili n timp. n acest caz concret, trebuie verificat dac mrimile funcionale se supun unor legi de distribuie cunoscute din statistica clasic; aadar, trebuie verificate ipotezele statistice prin metode parametrice. n statistic, a testa o ipotez cu privire la un indicator al tendinei centrale (de exemplu media valorilor msurate) nseamn a decide dac se accept sau se respinge acea ipotez pe baza informaiilor obinute dintr-un eantion. O anumit ipotez poate fi adevrat sau fals, iar cercettorul poate s o accepte sau s o resping. Din combinarea acestor dou modaliti rezult situaia din tabelul 2.1. Tabelul 2.1. Decizie i eroare n statistic Ipoteza H Decizia Accept ipoteza H Respinge ipoteza H Ipoteza H este adevrat Decizie corect Eroare de genul I Ipoteza H este fals Eroare de genul II Decizie corect

Decizia este corect dac se accept o ipotez adevrat sau dac se respinge o ipotez fals cu un anumit nivel de semnificaie; decizia este incorect n celelalte dou situaii. Dac se respinge o ipotez adevrat, se comite o eroare de genul I, iar dac se accept o ipotez fals, se comite o eroare de genul II. Eroarea poate fi de genul I sau II n funcie de modul n care este formulat ipoteza care se testeaz. Probabilitatea de a respinge ipoteza H cnd este fals se numete puterea criteriului; diferena dintre unitate i puterea criteriului reprezint probabilitatea comiterii erorii de genul II.
1

n formularea unui criteriu de semnificaie ntotdeauna se pornete de la o ipotez de lucru, numit n statistic ipoteza diferenei nule, notat cu H0. Aceast ipotez postuleaz faptul c nu exist nici o diferen semnificativ ntre indicatorii obinui pe baz de sondaj i cei ai colectivitii generale, sau ntre indicatorii obinui cu ajutorul a dou sondaje. Dac prin aplicarea unui test de semnificaie diferena dintre valoarea ateptat i cea obinut prin calcule este mare, ipoteza nul se respinge. Dac diferena ntre ceea ce se ateapt i ceea ce s-a obinut este mic, nesemnificativ statistic, ipoteza nul se accept. Aplicarea unui test de semnificaie pentru verificarea unei ipoteze statistice se face n urmtoarele etape: - se formuleaz o ipotez (ipoteza nul H0) n aa fel nct probabilitatea erorii de genul I s poat fi calculat; - se formuleaz ipoteza alternativ (ipoteza H1) astfel nct respingerea ipotezei nule s fie echivalent cu acceptarea ipotezei alternative; - se specific probabilitatea cu care se accept o eroare de genul II pentru ipoteza alternativ; - se specific dac alternativa respingerii ipotezei nule este acceptarea ei sau reluarea raionamentului. n fig.2.1 se prezint rezultatul aplicrii testului Smirnov-Kolmogorov (notat S-K) pentru verificarea ncadrrii n distribuia normal a valorilor seriei dinamice experimentale a vitezei de la proba L25. Aadar n acest caz ipoteza H0 presupune c datele experimentale respect distribuia Gauss. Dup cum se remarc din grafic, prin aplicarea testului S-K se obine ipoteza alternativ H1 (se respinge ipoteza H0 cu un nivel de semnificaie =0,05), deci aceste date nu se ncadreaz n legea normal cu nivelul de semnificaie impus.

Fig.2.1
2

Dup cum se constat din fig.2.1, verificarea ncadrrii ntr-o lege de distribuie se poate face fie folosind graficul cu probabiliti (fig.1.2a), fie graficul cu quantile (fig1.2b). Ambele grafice arat i abaterea datelor experimentale de la distribuia Gauss teoretic (dac aceste date s-ar supune legii de distribuie normal). Aceeai concluzie anterioar rezult i din fig.2.2 i fig.2.3, unde s-au considerat trei mrimi funcionale de la 50 probe experimentale.

Fig.2.2

Fig.2.3 Dup cum se constat din aceste grafice, rezult i o probabilitate p foarte mic de a se respinge ipoteza H0 (deci eroarea de genul I), mult mai mic dect =0.05, deci concluzia este corect. Verificrile pot continua cu diferite legi de repartiie i diverse mrimi funcionale, aa cum se constat din fig.2.4-fig.2.6.

Fig.2.4

Fig.2.5
4

Fig.2.6 Pe baza acestor grafice, precum i a altora neprezentate, cu toate datele experimentale, se poate concluziona c, de regul, mrimile funcionale ce definesc dinamica autovehiculelor nu se supun nici unei legi de repartiie cunoscute din statistica clasic. Ca urmare, este necesar s se estimeze legile de repartiie a datelor experimentale, deci s se efectueze o abordare neparametric a dinamicii autovehiculelor i din acest punct de vedere, suplimentar la cele prezentate anterior. 2.2. ESTIMAREA LEGILOR DE REPARTIIE Pentru estimarea legilor de repartiie se folosesc aceleai funcii nucleu (kernel) menionate anterior i utilizate la regresiile neparametrice; cu aceste funcii kernel se estimeaz densitatea de probabilitate, pe baza creia se stabilete funcia de repartiie/distribuie prin suma cumulat a primeia (de aceea se mai numete funcia cumulativ de probabilitate). Estimarea neparametric a densitii de probabilitate f(x)=p are drept punct de plecare histograma mrimii vizate. Spre exemplu, n fig.2.7-fig.2.9 se prezint histogramele a 6 mrimi funcionale menionate pe grafice, toate pentru 50 probe experimentale ale autoturismului Logan. Fiecare din aceste grafice prezint histograma, de unde se obine estimarea densitii de probabilitate f(x): se unesc mijloacele intervalelor mrimilor respective i se mparte la numrul maxim de valori. De asemenea, n fiecare grafic sunt menionate valorile cu cea mai mare probabilitate, adic maximul funciei f(x); spre exemplu, din fig.2.7a se constat c cele mai multe valori (986 n grafic) se gsesc la valoarea vitezei
5

de 68 km/h. Similar, din fig.2.7b se constat c cele mai multe valori (2037) se gsesc la o variaie a vitezei de 0,41 m/s2, adic la o acceleraie. Graficul din fig.2.8a arat c motorul a funcionat cu preponderen la turaii mijlocii, iar cel din fig.2.8b indic o funcionare mai ales la sarcini mijlocii i mari (valorile cele mai mici aparin mersului n gol).

Fig.2.7

Fig.2.8

Fig.2.9 n fig.2.10a se reiau valorile cu care se estimeaz f(x) din fig.2.9a (valorile aferente mijloacelor intervalelor mprite la numrul total de valori) i se obine densitatea de probabilitate p (valorile probabilitilor). Efectund o sum cumulat a valorilor din fig.2.10a, se obine estimarea funciei de repartiie F(x) din fig.2.10b n cazul consumului orar de combustibil.

Fig.2.10 Suma cumulat menionat se justific prin relaia de legtur (1) din
7

partea superioar a fig.2.10b, care arat c funcia de distribuie este integrala densitii de probabilitate; invers, densitatea de probabilitate este derivata funciei de distribuie: F ( x) =

f ( x)dx; f ( x) = F ( x)

(2.1)

n fig.2.10a se ofer i un exemplu numeric prin calculul densitii de probabilitate p n punctul A unde f(x) prezint un maxim, n acest caz numrul total de valori ale celor 50 probe fiind de 8750 pentru consumul orar de combustibil; s-a obinut astfel p=f(7,26)=0,149 n punctul A. Referitor la histograme, trebuie menionat urmtorul aspect foarte important. Din graficele prezentate rezult c pentru stabilirea histogramei s-au adoptat totdeauna n=20 intervale de calcul. n realitate, pentru fiecare mrime n parte este necesar s se stabileasc numrul optim de intervale. n acest sens, n fig.2.11 s-au prezentat histogramele a 4 mrimi funcionale menionate pe grafice, dup ce n prealabil s-a stabilit numrul optim de intervale n. Dup cum se constat din grafice, numrul optim de intervale pentru stabilirea histogramelor difer de la o mrime la alta; dup stabilirea histogramelor se deduc densitatea de probabilitate i funcia de repartiie.

Fig.2.11 Mai trebuie menionat c densitatea de probabilitate i funcia de repartiie variaz n timp. De exemplu, n fig.2.12a se prezint densitile de probabilitate la momentele de timp t=10 s, t=25 s, t=45 s i t=70 s pentru 50 probe ce conin viteza de deplasare cu valorile din fig.2.12b. Dup cum se constat din fig.2.12a, tablourile de tip contur ale densitilor de probabilitate
8

variaz la diferite momente de timp.

Fig.2.12 Acelai aspect se constat i din fig.2.13, unde au fost vizate variaiile vitezei de deplasare (acceleraii, deceleraii) la cele 50 probe experimentale i la aceleai patru momente de timp anterioare.

Fig.2.13 Variaia n timp a densitii de probabilitate se constat i n cazul numai


9

a unei probe experimentale, aa cum se remarc din fig.2.14 i fig.2.15.

Fig.2.14

Fig.2.15 n fig.2.16 i fig.2.17 se prezint valorile pe probe cu cea mai mare probabilitate de apariie, pentru patru mrimi funcionale i n cazul a 50 probe experimentale; n grafice sunt redate i valorile mrimilor respective, scrise din
10

dou n dou probe.

Fig.2.16

Fig.2.17 Pe baza celor redate, n fig.2.18 se prezint densitile de probabilitate i funciile de repartiie ale celor 2 mrimi specificate n grafice, pentru 50 probe ale autoturismului Logan. n fig.2.19 se prezint densitatea de probabilitate a momentului motor, n partea inferioar fiind redat i distribuia datelor experimentale pentru a ilustra
11

un tablou sugestiv privind repartiia acestora.

Fig.2.18

Fig.2.19 n exemplele prezentate s-au redat densiti de probabilitate i funcii de distribuie pentru o singur mrime/variabil; ca urmare, n acest caz s-a apelat la distibuii univariabile. Pentru cazul abordrii parametrice, n fig.2.20 se prezint distribuiile univariabile cunoscute n statistica clasic, precum i
12

legturile dintre acestea.

Fig.2.20 n cazul n care se vizeaz dou mrimi funcionale se apeleaz la distribuii bivariabile; n cazul general, pentru mai multe mrimi funcionale se apeleaz la distribuii multivariabile. De exemplu, similar cazului univariabil, funcia de repartiie bivariabil se definete prin relaia: F ( x, y ) = p ( X x , Y y ) iar funcia densitate de probabilitate prin expresia:
13

(2.2)

f X ,Y ( x, y ) = fY | X ( y | x) f X ( x) = f X |Y ( x | y ) fY ( y ) (2.3) unde fY | X ( y | x) i f X |Y ( x | y ) sunt distribuiile condiionale, iar f X ( x) i fY ( y ) sunt distribuiile marginale pentru X i respectiv Y. n fig.2.21 i fig.2.22 se ofer un exemplu de stabilire a densitilor de probabilitate bivariabile vitez-consum combustibil la proba L22.

Fig.2.21

14

Fig.2.22 n fig.2.21a exist o reprezentare tip contur cu indicarea valorilor probabilitii p, care se regsesc i n scara gradat din fig.2.21b. Graficul imagine din fig.2.22a este mai sugestiv, deoarece se extrag mai clar zonele cu probabiliti mari ale distribuiei bivariabile. Similar, n fig.2.23 i fig.2.24 se redau densitile de probabilitate bivariabile la 50 probe experimentale ale autoturismului Logan.

Fig.2.23

15

Fig.2.24 Considernd mai multe curbe echiprobabile (cu p=const.), graficele prezentate n fig.2.23 i fig.2.24 evideniaz n mod sugestiv zonele cu densitate de probabilitate mare. De exemplu, din fig.2.23 rezult c cele mai multe date experimentale se gsesc n plajele de valori ale consumului Ch=5,5-9,5 kg/h i respectiv ale vitezei V=40-100 km/h. Din fig.2.24 se remarc faptul c cele mai multe valori ale consumului orar de combustibil Ch se gsesc n zone de acceleraii (dv/dt>0). Un ultim exemplu este prezentat n fig.2.25 unde este redat densitatea de probabilitate bivariabil vitez-consum de combustibil la 100 km parcuri; i n acest caz, graficul arat zonele cu cele mai multe valori ale celor dou mrimi (cu densitatea de probabilitate bivariabil cea mai mare).

Fig.2.25 De asemenea, graficul din fig.2.25 sugereaz c odat cu creterea vitezei de deplasare V, consumul la 100 km parcuri C100 se micoreaz; n schimb, aa cum se remarc din fig.2.23, odat cu creterea vitezei de deplasare, consumul orar de combustibil Ch se mrete. Dac se are n vedere legtura dintre aceste trei mrimi funcionale (cu densitatea benzinei): C100 = Ch V (2.4)

rezult c odat cu creterea vitezei de deplasare V, economicitatea motorului se nrutete (Ch crete) iar economicitatea autovehiculului se mbuntete (C100 scade). Altfel spus, n expresia (2.4), creterea consumului orar de combustibil
16

este mai mic dect creterea vitezei de deplasare.

17

S-ar putea să vă placă și