Sunteți pe pagina 1din 159

Refereni tiinifici Conf.univ.dr.ing. Radu CENU Prof.univ.dr.ing.

Norocel Valeriu NICOLESCU

Descrierea CIP a Bibliotecii Naionale a Romniei HORODNIC, SERGIU ANDREI Elemente de biostatistic forestier / Sergiu Horodnic. - Suceava: Editura Universitii din Suceava, 2004 Bibliogr. ISBN 973-666-135-0 630

Tehnoredactare computerizat: Sergiu HORODNIC Tiparul executat la Tipografia S.C. ROF S.A. Suceava str. Mreti 7A, tel.: 0230-523476; 0230-520237 GSM: 0745/585954

SERGIU HORODNIC

ELEMENTE DE BIOSTATISTIC FORESTIER

Prin particularitile obiectului de studiu, biostatistica utilizeaz o gam de noiuni specifice propriilor metode de culegere, prelucrare, analiz i interpretare a datelor experimentale. Cunoaterea semnificaiei i importanei acestora asigur fondul necesar pentru nelegerea n profunzime a modului de aplicare a algoritmilor de calcul statistic. Lucrarea nu trateaz exhaustiv problematica abordat, ci urmrete n primul rnd cuprinderea acelor aspecte care-i gsesc o larg utilizare n activitatea practic din domeniul forestier. Prin coninutul sintetic i modern, lucrarea se adreseaz celor care doresc s cunoasc i s aplice corect metodele de cercetare statistic i mai ales studenilor facultilor cu profil forestier i personalului de specialitate care i desfoar activitatea n silvicultur. Autorul

CUPRINS
1. NOIUNI INTRODUCTIVE ........................................................................7 1.1 SCURT ISTORIC ............................................................................................8 1.2 LOCALIZAREA STATISTICII ..........................................................................8 1.3 TERMINOLOGIE ........................................................................................10 2. NREGISTRAREA I PRELUCRAREA PRIMAR A OBSERVAIILOR ........................................................................................12 2.1 SUCCESIUNEA OPERAIILOR DE FORMARE A UNEI SERII DE DISTRIBUIE ............................................................................................12 2.2 REPREZENTAREA GRAFIC A SERIILOR DE DISTRIBUIE EMPIRICE ..........15 3. ANALIZA DISTRIBUIILOR EXPERIMENTALE ...................................18 3.1 MOMENTELE ............................................................................................18 3.2 INDICATORII TENDINEI CENTRALE ........................................................20 3.2.1 Mediile ................................................................................................20 3.2.2 Mediana ..............................................................................................23 3.2.3 Cuartilele .............................................................................................25 3.2.4 Modul .................................................................................................26 3.2.5 Relaii ntre indicii de poziie ...............................................................27 3.3 INDICATORII VARIABILITII (DISPERSIEI) ...............................................28 3.3.1 Variana ..............................................................................................28 3.3.2 Abaterea standard ...............................................................................29 3.3.3 Coeficientul de variaie ........................................................................29 3.4 INDICATORII FORMEI DISTRIBUIILOR EXPERIMENTALE .........................30 3.4.1 Indicele asimetriei................................................................................30 3.4.2 Indicele excesului ................................................................................32 3.5 CRITERII DE ELIMINARE A OBSERVAIILOR EXTREME..............................33 4. DISTRIBUII TEORETICE FRECVENT FOLOSITE N ANALIZA STATISTIC A FENOMENELOR DIN SILVICULTUR.........................36 4.1 DISTRIBUIA TEORETIC NORMAL (GAUSS-LAPLACE) ...........................38 4.2 DISTRIBUIA TEORETIC CHARLIER (TIP A) .............................................43 4.3 DISTRIBUIA BINOMIAL ..........................................................................44 4.4 DISTRIBUIA POISSON ..............................................................................45 4.5 DISTRIBUIA BETA ...................................................................................46 4.6 ALTE FUNCII DIN SISTEMUL DISTRIBUIILOR LUI PEARSON ...................48 4.7 DISTRIBUIA GAMMA ...............................................................................49 4.8 DISTRIBUIA WEIBULL .............................................................................52 4.9 ALTE DISTRIBUII DESCRESCTOARE .......................................................54 5. TEHNICA SONDAJULUI ...........................................................................55
4

5.1 METODA SELECTIV .................................................................................55 5.2 METODA SECVENIAL ............................................................................66 6. VERIFICAREA IPOTEZELOR STATISTICE ...........................................70 6.1 TESTE STATISTICE .....................................................................................70 6.2 REPARTIII UTILIZATE PENTRU TESTRI ..................................................72 6.2.1 Repartiia normal ...............................................................................72 6.2.2 Repartiia t (Student) ...........................................................................72 6.2.3 Repartiia F (Fisher) ............................................................................72 6.2.4 Repartiia 2 ........................................................................................73 6.3 VERIFICAREA CONCORDANEI DINTRE DISTRIBUIA EXPERIMENTAL I CEA TEORETIC ...................................................................................73 6.4 EXAMINAREA SEMNIFICAIEI DIFERENEI DINTRE DISPERSII .................75 6.4.1 Compararea unei dispersii experimentale (s2) cu o dispersie teoretic cunoscut (2)....................................................................................75 6.4.2 Verificarea semnificaiei diferenei dintre dou dispersii experimentale ....................................................................................75 6.4.3 Verificarea omogenitii mai multor dispersii .......................................76 6.5 TESTE DE CONFORMITATE. COMPARAREA MEDIILOR ..............................77 6.5.1 Intervalul de ncredere al mediei aritmetice ..........................................77 6.5.2 Compararea a dou medii aritmetice ....................................................78 6.6 COMPARAREA EFECTULUI A DOU TRATAMENTE PRIN METODA CUPLURILOR ............................................................................................80 6.7 EXAMINAREA SEMNIFICAIEI DIFERENEI DINTRE DOU PROPORII .....81 7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA VARIANEI..................................................................................................83 7.1 ECUAIA ANALIZEI VARIANEI ................................................................83 7.2 ANALIZA SIMPL A VARIANEI .................................................................85 8. ANALIZA CORELAIEI ............................................................................88 8.1 TIPURI DE LEGTURI NTRE VARIABILE ....................................................88 8.2 COEFICIENTUL DE CORELAIE .................................................................92 8.2.1 Proprietile coeficientului de corelaie ................................................92 8.2.2 Determinarea coeficientului de corelaie pentru corelaia simpl ..........93 8.2.3 Determinarea semnificaiei coeficientului de corelaie ..........................95 8.2.4 Coeficientul de corelaie a rangurilor ...................................................97 9. ANALIZA N COMPONENTE PRINCIPALE (ACP) ..............................101 9.1 CONSIDERAII ISTORICE.........................................................................101 9.2 PRINCIPII DE BAZ .................................................................................101 9.3 INTERPRETAREA ALGEBRIC A ACP.......................................................103 9.4 ESTIMAREA NUMRULUI DE COMPONENTE PRINCIPALE ........................116
5

9.5 INTERPRETAREA GEOMETRIC A ACP ...................................................117 9.6 DEZAVANTAJE ALE ACP ........................................................................121 9.7 CONCLUZII SINTETICE ASUPRA ACP.......................................................122 10. ANALIZA REGRESIEI............................................................................123 10.1 SUCCESIUNEA ETAPELOR PENTRU ANALIZA REGRESIEI .......................124 10.2 METODE ANALITICE DE DETERMINARE A PARAMETRILOR ECUAIILOR DE REGRESIE .....................................................................125 10.3 INTERVALUL DE NCREDERE PENTRU ECUAIA DE REGRESIE..............128 10.4 REGRESIA MULTIPL LINIAR ...............................................................129 10.5 TIPURI DE ECUAII DE REGRESIE I LIMITRILE ACESTORA .................131 10.6 RAPORTUL DE CORELAIE ....................................................................136 10.6.1 Determinarea raportului de corelaie................................................137 10.6.2 Semnificaia raportului de corelaie ..................................................138 11. ANALIZA SERIILOR DE TIMP .............................................................140 11.1 AJUSTAREA UNEI SERII CRONOLOGICE .................................................140 11.1.1 Ajustarea grafic prin procedeul punctelor mediane .........................141 11.1.2 Procedeul mediilor centrate .............................................................142 11.1.3 Procedeul mediilor mobile ...............................................................142 11.1.4 Analiza componentelor seriilor cronologice .....................................143 11.2 DETERMINAREA FAZEI DE CORELAIE .................................................144 11.2.1 Cazul n care cele dou caracteristici sunt exprimate n sisteme diferite de uniti de msur .............................................................144 11.2.2 Cazul n care cele dou caracteristici sunt exprimate n aceleai uniti de msur..............................................................................145 11.3 AUTOCORELAIA ..................................................................................146 11.4 ANALIZA ARMONIC A SERIILOR CRONOLOGICE..................................147 11.5 FUNCII DE CRETERE I DEZVOLTARE ................................................149 ANEXE....................................................................................................... 14053

1. NOIUNI INTRODUCTIVE Fenomenele simple sunt acele fenomene univoc determinate, adic au la baz o singur cauz. Fenomenele de mas sunt rezultatul influenei comune a unui numr mare de cauze; n cazul acestora, fiecare individ din cadrul unei populaii se manifest diferit n funcie de modul n care se asociaz factorii sistematici cu cei aleatori (ntmpltori), cei obiectivi cu cei subiectivi. Se manifest, deci, la nivelul unitilor individuale, o mare variabilitate n timp i n spaiu. Conceptul de statistic Statistica este tiina care se ocup cu descrierea i analiza numeric a fenomenelor de mas, dezvluind particularitile lor de volum, structur, dinamic, conexiune, precum i legile ce le guverneaz.

Fenomenelor de mas le sunt specifice legi, sub form de tendin, n care abaterile ntmpltoare, ntr-un sens sau n altul, se compenseaz reciproc pentru un numr mare de cazuri individuale luate n studiu. Aceste legi sunt legi statistice.

Statistica studiaz aspectele calitative ale fenomenelor de mas, fenomene ce sunt supuse legilor statistice, care se manifest n condiii concrete variabile n timp i spaiu.

Legile statistice exprim media strilor unui ansamblu de evenimente, cu luarea n considerare a influenei factorilor ntmpltori. Aceasta reprezint, deci, o tendin predominant ce poate fi pus n eviden numai dac se observ un numr suficient de mare de elemente ale ansamblului studiat.

1.1 Scurt istoric Termenul statistic deriv din latin (status = stare) i a fost folosit pentru prima oar de profesorul german Gottfried Achenwall; explicaia acestei etimologii este faptul c n secolele XVII i XVIII s-a creat, n Germania mai ales, un curent de gndire care i propunea s descrie situaia demografic, industrial, comercial i financiar a diferitelor state din acea vreme. n evoluia statisticii de-a lungul vremii s-au produs numeroase modificri ale obiectului acesteia i ale metodelor folosite n funcie de necesitile practice ale momentului i de baza teoretic de care se dispunea. Dac pn i scrierile istorice ale Egiptului antic, ale Greciei antice sau ale Romei antice conin rudimente de lucrri statistice cu caracter descriptiv (mai ales recensminte), totui, prima analiz statistic a unor date culese n prealabil este datorat lui John Graunt (1620-1674) n Anglia, secondat de William Petty. Acesta din urm este considerat creatorul aritmeticii politice care reprezint studiul fenomenelor social-economice prin intermediul cifrelor, al msurilor i al greutilor. n spiritul colii statisticii descriptive se nscrie, n rile romne, lucrarea lui Dimitrie Cantemir, Descriptio Moldaviae. nceputul statisticii moderne se consider debutul secolului XX i este marcat de momentul apariiei lucrrilor lui Karl Pearson (1857-1936) i ale lui Ronald Aylmer Fisher (1890-1962). K.Pearson a pus bazele statisticii inductive prin elaborarea testelor privitoare la semnificaia diferenelor dintre valorile calculate i cele empirice (experimentale). R.A.Fisher a elaborat teoria riguroas a sintetizrii concluziilor din datele observate i a enunat principiile planificrii experimentelor. 1.2 Localizarea statisticii Statistica a ptruns n toate domeniile tiinelor naturii i ale tiinelor sociale ca un complex de metode ce permit obinerea unor concluzii fundamentate teoretic, pe baza observaiilor sau a experimentelor efectuate. Metodele matematice folosite n statistic nu reprezint un scop n sine, ci ajut la prelucrarea datelor i interpretarea fenomenelor naturale sau sociale studiate.

S-au format, astfel, unele discipline de grani, cum ar fi: statistica matematic, statistica fizic, statistica biologic (sau biostatistica) etc. n silvicultur, statistica este folosit pentru fundamentarea celor mai importante probleme specifice.
SOCIAL Organizarea muncii etc. Economie forestier Silvicultur, Genetic, mpduriri, Ecologie etc.

ALGEBR ANALIZ MATEMATIC

STATISTIC

ECONOMIC

TEORIA PROBABILITILOR

TIINE ALE NATURII

Figura 1 Localizarea statisticii i domenii de aplicabilitate n silvicultur

Biostatistica forestier reprezint un complex al metodelor statisticii matematice utilizate pentru surprinderea, investigarea i analiza fenomenelor i proceselor biologice specifice pdurii.

Motivaia utilizrii acestor metode este dat de faptul c pdurea, arboretele cu fenomenele ce au loc n interiorul lor, reprezint colectiviti de volum mare ce nu pot fi suficient de bine cercetate n ansamblul lor. Se recurge, aadar, la reducerea numrului observaiilor, constituindu-se colectiviti mai mici, indicatorii statistici rezultai fiind extrapolai, dup regulile biostatisticii, la ntreaga populaie iniial studiat. Folosirea metodelor statisticii matematice n silvicultur: nlesnete trecerea de la observaii la concluzii tiinific fundamentate; contribuie la o analiz riguroas a fenomenelor studiate; permite obinerea unor informaii suficient de precise cu efort i cheltuial minime; d posibilitatea prelucrrii obiective i eficiente a datelor rezultate din observaii i experimente.

1.3 Terminologie Colectivitatea statistic (populaia) reprezint o mulime finit sau infinit format din uniti statistice calitativ omogene (cu una sau mai multe nsuiri comune). Exemple: arborii dintr-un arboret; totalitatea seminelor dintr-un arbore; numrul exemplarelor de vnat din aceeai specie aflate pe un teritoriu dat etc. n funcie de volumul observaiilor (numrul observaiilor), colectivitatea poate fi general sau de selecie (prob, sondaj, eantion). Colectivitatea de selecie reprezint o parte din populaie extras dup anumite criterii, n vederea cercetrii uneia sau a mai multor caracteristici. Elementele colectivitii sunt unitile statistice. O unitate statistic reprezint cea mai mic entitate luat n considerare n raport cu scopul cercetrii; aceasta poate fi simpl (de exemplu, un arbore) sau complex (un lot de arbori, de exemplu). Particularitile colectivitii statistice sunt determinate de nsuirile eseniale comune tuturor unitilor componente. Acestea formeaz obiectul cercetrii i sunt denumite caracteristici (de exemplu, diametrul de baz al arborelui, nlimea arborelui). Dup natura lor, caracteristicile pot fi calitative sau cantitative. Caracteristicile calitative (atributive) nu se pot exprima numeric dect printr-o codificare adecvat (culoarea ritidomului, starea de vegetaie, gradul de uscare etc.). Caracteristicile cantitative se exprim prin valori numerice obinute prin msurtori (diametru, nlime) sau prin numrare (numr de arbori). Valoarea cu care s-a nregistrat caracteristica unei uniti statistice reprezint valoarea observat sau varianta. n silvicultur, caracteristicile cantitative variaz n limite destul de mari, fluctuaie denumit variaie, variabilitate sau mprtiere. Caracteristicile cantitative supuse variabilitii poart denumirea de variabile. Variabilele sunt continue, atunci cnd pot lua orice valoare dintr-un interval dat, sau discontinue (discrete), cnd pot lua numai anumite valori din intervalul respectiv (de exemplu, numai valori ntregi). Probabilitatea producerii unui eveniment este raportul dintre numrul de cazuri favorabile (n) i numrul total de cazuri posibile (N): n P( E ) = (1.1) N

10

Probabilitatea unui eveniment imposibil este 0, iar probabilitatea unui eveniment sigur este 1. Dac se noteaz cu p probabilitatea realizrii unui eveniment i cu q, probabilitatea nerealizrii lui (probabilitatea realizrii evenimentului contrar), se pot scrie relaiile: p + q = 1(100%) (1.2) p = 1 q (1.3) q = 1 p (1.4) Etapele cercetrii statistice

Privit ca un proces complex, cercetarea statistic se realizeaz n trei etape: observarea sau msurarea (culegerea datelor din teren), prelucrarea informaiilor prin diferite procedee statisticomatematice n vederea obinerii unor indicatori, analiza i interpretarea rezultatelor i desprinderea unor concluzii.

Evident, nainte de efectuarea cercetrii trebuie clarificate scopul i obiectul cercetrii. Obiectul cercetrii se stabilete n funcie de scop i trebuie delimitat nu numai ca volum (numr de uniti ce urmeaz a fi cercetate), ci i n timp i spaiu. Aceasta presupune stabilirea mrimii colectivitii, a locului de efectuare a lucrrilor, a perioadei de cercetare, a modului de culegere i prelucrare a observaiilor. Se stabilesc, deci, criterii unitare de selectare, de msurare i de notare. Se impune ntocmirea unui plan de organizare a ntregii cercetri care constituie metodologia cercetrii.

11

2. NREGISTRAREA I PRELUCRAREA PRIMAR A OBSERVAIILOR

Datele obinute pe baza observaiilor sau a msurtorilor efectuate se nregistreaz n fie de observare sau pe formulare-list. Aceasta constituie evidena primar. Fia reprezint nregistrarea unei singure uniti din colectivitate cu toate caracteristicile prevzute n planul observrii. n formularele-list sunt nregistrate mai multe uniti. Se opteaz pentru una dintre aceste forme de nregistrare n funcie de numrul caracteristicilor urmrite i de variabilitatea acestora. Totalitatea valorilor observate (pentru o anumit caracteristic) n cadrul colectivitii cercetate, centralizate tabelar, constituie irul statistic. Materialul cifric al unui ir statistic se poate nregistra n ordinea observrii sau n ordine cresctoare sau descresctoare. n cadrul valorilor observate, prin examinarea irului statistic se pot identifica: o valoare minim i una maxim. Diferena dintre valoarea maxim (xmax) i cea minim (xmin) se numete amplitudinea de variaie a irului statistic: w = x max x min . (2.1)
2.1 Succesiunea operaiilor de formare a unei serii de distribuie

Considerente legate de nevoia obinerii unei imagini de ansamblu asupra colectivitii studiate conduc la gruparea valorilor observate n clase i reprezentarea lor tabelar (tabelul 1). Ca efect al gruprii rezult seria de distribuie sau de repartiie.

O serie de distribuie este format din dou iruri statistice: - valorile observate redate prin limitele claselor sau prin centrul lor, - frecvenele absolute (simple sau cumulate) sau frecvenele relative (simple sau cumulate).

Elementele seriei de distribuie sunt: limitele clasei: inferioar i superioar. Toate valorile observate cuprinse ntre limite se trec n clasa respectiv. Astfel, fiecrei valori individuale i se atribuie o singur valoare (centrul clasei). Datorit acestei rotunjiri se produc erori, denumite erori de grupare n clase, cu att mai mari cu ct amplitudinea clasei este mai mare.
12

amplitudinea unei clase (mrimea clasei) calculat ca diferen dintre limite. amplitudinea de variaie: diferena dintre valoarea maxim i valoarea minim din irul statistic. frecvena absolut (ni) a clasei: numrul unitilor statistice corespunztoare unei clase. volumul colectivitii (N): numrul total de uniti cercetate (N=ni). frecvena relativ: raportul dintre frecvena absolut i volumul colectivitii, exprimat n valori absolute sau n procente (fi=ni/N). Frecvenele absolute sau cele relative pot fi cumulate din aproape n aproape, ajungndu-se la stabilirea distribuiei frecvenelor cumulate. Distribuiile de frecven pot fi empirice (experimentale) sau teoretice. Cele empirice rezult din cercetrile experimentale, iar cele teoretice corespund unor legi de probabilitate cunoscute. Seria de distribuie format n raport cu o caracteristic cantitativ se numete serie de variaie, iar cea format n raport cu timpul, serie dinamic sau cronologic. Succesiunea operaiilor de formare a unei serii de distribuie este urmtoarea: calculul amplitudinii w a irului statistic; determinarea grupelor de valori, deci a numrului de clase, n funcie de omogenitatea colectivitii i de natura fenomenului studiat. Fixarea intervalelor de grupare include segmentarea mai mult sau mai puin arbitrar a cmpului de variaie a caracteristicii studiate. Astfel, o scar greit aleas poate schimba complet aspectul repartiiei. Pentru un numr mai mic de 50 de uniti n cadrul probei, nu este indicat gruparea n clase. Numrul de clase (k) poate fi determinat cu relaia empiric a lui Sturges: 10 k = 1 + lg N , (2.2) 3 N fiind volumul probei. Cu notaiile anterioare, se poate aplica i relaia: k = 5 lg N , (2.3) sau pot fi utilizate tabele de coresponden de tipul celui de mai jos, cu valori determinate, de asemenea, experimental:
N k 50 8 100 10 500 1000 10000 13 15 20

13

Pentru situaiile din silvicultur s-a dovedit corespunztor un numr de 1015 clase. Un numr mic de clase implic o micorare a preciziei, iar un numr prea mare duce la prelucrri greoaie i nu permite diferenierea cu claritate a caracteristicilor distribuiei empirice. determinarea mrimii clasei (intervalul clasei, amplitudinea clasei); trebuie echilibrate urmtoarele dou cerine: se recomand ca intervalele s nu fie prea largi, pentru c ar produce o pierdere de informaie i ar disimula unele particulariti ale repartiiei (micoreaz precizia rezultatelor); mrimea clasei nu trebuie s fie prea mic pentru c nu se elimin, astfel, iregularitile accidentale i, n plus, se complic fr folos calculele. w x x min a = = max . (2.4) k k Dac numrul de clase nu este cunoscut, se folosesc relaii empirice, de exemplu: x x min 1 a = max sau a = (2.5) f ( x max x min ) , 10 100 1 + lg N 3 n care f este un factor empiric care depinde de N. Pentru comoditatea calculelor se adopt, pentru o clas, un interval rotunjit, ceea ce duce la modificarea numrului de clase stabilit anterior. Intervalele claselor pot fi egale sau inegale (mrimea clasei poate fi constant sau, respectiv, variabil). Este preferabil repartiia pe o scar cu intervale egale, frecvenele diferitelor clase fiind astfel comparabile ntre ele i adecvate calculelor ulterioare. Gruparea pe clase inegale este mai simpl, dar acestea nu sunt caracteristice colectivitii studiate i, n plus, presupun prelucrri statistice ulterioare speciale.
Cu ct se mrete amplitudinea claselor, cu att se simplific mai mult calculele, dar se deformeaz mai accentuat distribuia.

Ca un exemplu de alegere a mrimii claselor, pentru caracteristica diametru al arborilor, a=1 cm pentru lucrri de cercetare (mai pretenioase) i a=24 cm pentru lucrri curente de producie.
14

n cazul unui arboret echien de molid n vrst de 70 ani s-a msurat caracteristica diametru de baz pentru 144 arbori. Prin gruparea valorilor experimentale n clase cu amplitudinea de 4 cm, a rezultat distribuia experimental din tabelul urmtor.
Tabelul 1. Distribuia experimental pentru caracteristica diametru de baz
Nr. crt. Valori observate limitele clasei centrul clasei Frecvene absolute Frecvene absolute cumulate Frecvene relative Frecvene relative cumulate

(ni)

(ni)

(fi=ni/N)

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.

26,1-30,0 30,1-34,0 34,1-38,0 38,1-42,0 42,1-46,0 46,1-50,0 50,1-54,0 54,1-58,0 58,1-62,0 62,1-66,0 66,1-70,0 TOTAL

28 32 36 40 44 48 52 56 60 64 68

4 9 18 32 21 21 17 11 5 4 2 144

4 13 31 63 84 105 122 133 138 142 144

0,028 0,063 0,125 0,222 0,146 0,146 0,118 0,076 0,035 0,028 0,014 1,000

(fi) 0,028 0,090 0,215 0,438 0,583 0,729 0,847 0,924 0,958 0,986 1,000

2.2 Reprezentarea grafic a seriilor de distribuie empirice

Pentru a pune n eviden caracterul variaiei fenomenului studiat, seriile de distribuie se reprezint grafic. Se obine, astfel, o prim imagine a formei i structurii colectivitii studiate. Pentru distribuia experimental din exemplul anterior, se pot realiza (figurile 2, 3 i 4): histograma, poligonul de frecven i curba frecvenelor cumulate (ogiva).

Figura 2. Poligonul frecvenelor absolute


15

Figura 3. Histograma frecvenelor absolute

Figura 4. Ogiva frecvenelor absolute cumulate

Br: 25% Mo: 5% Fa: 50% Mo: 25% Br: 25%

Fa: 50%

Figura 5. Diagrame de structur

Diagramele de structur reprezint o form special de grafice, foarte ilustrativ, n care frecvenele sunt reprezentate prin dreptunghiuri sau sectoare de cerc, ale cror nlimi, respectiv unghiuri la centru, sunt proporionale cu frecvenele respective.

16

De exemplu, structura pe specii a unui arboret poate fi redat grafic n modalitatea prezentat n figura 5. Distribuiile discontinue se reprezint, de obicei, prin histograme. Pentru distribuiile continue se poate folosi orice mod de reprezentare grafic. Graficele pot avea scri uniforme sau scri funcionale (neuniforme). Scara aritmetic (natural) traduce proporionalitatea ntre numerele xi, yi i lungimile absciselor i ordonatelor n reprezentare rectangular. Scara logaritmic, scar funcional, traduce proporionalitatea dintre logaritmii numerelor xi i yi i lungimile absciselor i ordonatelor. n primul caz, intervalul corespunztor unei uniti rmne acelai pe ntreaga lungime a scrii; n cellalt caz, intervalele grafice (segmentele dintre punctele cotate) sunt inegale. Frecvent folosite n cercetare sunt graficele cu reele semilogaritmice. Reelele funcionale se folosesc, n general, pentru transformarea unei curbe ntr-o dreapt (anamorfoz grafic), procedeu ce prezint unele avantaje: dreapta se poate construi mai uor; dreapta permite o interpolare sau o extrapolare grafic mai uoar. Reelele funcionale se folosesc n urmtoarele situaii: cnd se compar dou fenomene cu niveluri foarte diferite de manifestare; cnd se reprezint un fenomen al crui interval de variaie este foarte mare.

17

3. ANALIZA DISTRIBUIILOR EXPERIMENTALE

Pentru caracterizarea fenomenelor de mas, statistica a elaborat metodologii i tehnici specifice. Proprietatea principal a fenomenelor de mas o reprezint variabilitatea formelor individuale i de manifestare n timp i n spaiu. Indicatorul statistic este expresia numeric a unor fenomene, procese, activiti sau categorii economice sau sociale. Acesta este purttor de informaii cu coninut real, obiectiv determinat.
Indicatorii statistici sunt utilizai pentru caracterizarea volumului i structurii unor procese i fenomene de mas. Funciile indicatorilor statistici sunt: funcia de msurare a aspectelor cantitative ale fenomenelor; funcia de comparare utilizat pentru cunoaterea modificrilor de volum, structur i dinamic ale fenomenelor; funcia de analiz folosit pentru aprecierea coninutului real al analizei statistice, depistnd i eliminnd cazurile care se ndeprteaz semnificativ de la legitatea de variaie; funcia de sintez, legat de necesitatea sintetizrii valorilor individuale ntr-o singur expresie numeric; funcia de estimare; funcia de verificare a ipotezelor i de testare a parametrilor utilizai.

3.1 Momentele Momentele sunt valori care sintetizeaz o repartiie i, cu toate c nu reprezint indicatori statistici de sine stttori, permit precizarea anumitor caracteristici ale repartiiei; aceste valori odat calculate, faciliteaz determinarea unor indicatori statistici de baz. Termenul momente a fost mprumutat din mecanic unde este folosit pentru a descrie distribuia de mase. Momentul de ordinul p al variabilei X n raport cu o valoare x0 reprezint media aritmetic a diferenelor xi - x0 , ridicate la puterea p: p ni ( x i x 0 ) . mp = (3.1) ni n practic se utilizeaz aproape exclusiv momentele n raport cu originea (x0=0) i momentele n raport cu media aritmetic (x0= x ).
18

Momentul simplu ( m 'p ) reprezint momentul calculat n raport cu

originea msurtorilor (x0=0): m


' p

Momentul centrat (p) este momentul calculat n raport cu media aritmetic a repartiiei (x0= x ):

n x = n
i i

p i

(3.2)

n (x x ) = n
i i i

(3.3)

Momentele uzuale, att cele simple ct i cele centrate, sunt cele de ordinele 1, 2, 3 i 4. n particular, momentul simplu de ordinul 1 se confund cu media aritmetic, momentul centrat de ordinul 1 este nul (vezi proprietile mediei aritmetice) i momentul centrat de ordinul 2 aproximeaz variana.
Primele patru momente ale repartiiei de frecvene sunt, n cea mai mare parte a cazurilor, suficiente pentru a descrie caracteristicile principale ale acesteia. Din aceste momente sunt derivai i indicatorii asimetriei i excesului. ntre momentele simple i cele centrate uzuale exist relaiile: 1=0 ; (3.4)
' 2= m2 m1' ; 2

(3.5)
3

' ' 3= m3 3m1' m2 + 2m1' ;


' ' ' 4= m4 4m1' m3 + 6m1 m2 3m1 . '2 '4

(3.6)
(3.7)

n cazul momentelor calculate pentru repartiii pe clase de valori, pentru a corecta eroarea sistematic introdus prin substituirea valorilor reale ale caracteristicii studiate prin centrele de clas, trebuie s se aplice coreciile lui Sheppard. Formulele de calcul pentru momentele corectate pornind de la momentele brute calculate anterior sunt: (3.8) '2 = 2 1 a 2 ; 12 1 7 4 (3.9) '4 = 4 2 a 2 + a , 2 240
19

n care a reprezint amplitudinea, presupus egal, a claselor. Relaiile anterioare pot fi aplicate n cazul unei repartiii unimodale (n clopot) cu intervalul de clas constant, frecvena tinznd ctre zero n ambele direcii. Coreciile lui Sheppard nu sunt aplicabile: repartiiilor pe valori distincte (negrupate n clase), pentru c dispare motivaia coreciilor; repartiiilor n form de J sau U sau chiar formelor puternic asimetrice (oblice); momentelor centrate de ordin impar, deoarece alternrile de semne duc la compensarea erorilor; n particular, n repartiiile perfect simetrice, momentele de ordin impar sunt nule. Momentele centrate de ordin par sunt, n general, supraestimate atunci cnd se calculeaz pentru repartiii pe clase de valori, de unde i necesitatea coreciei n sensul menionat.
3.2 Indicatorii tendinei centrale

Aceti indicatori (denumii i indici de poziie) sintetizeaz valorile centrale ale distribuiei i ofer o reprezentare simplificat a unei distribuii empirice de frecvene prin determinarea unei tendine centrale (zona din intervalul de variaie al caracteristicii studiate n care tind s se concentreze valorile incluse n irul statistic). Valorile medii sau valorile centrale se determin pentru colectiviti statistice omogene (este necesar, n prealabil, un test de omogenitate); aceste valori medii se modific odat cu modificarea valorii oricrui element al seriei statistice. Media este denumit i speran matematic i reprezint valoarea cu care s-ar putea nlocui toi termenii unei serii de distribuie dac acetia nu ar fi supui unor factori compleci de influen care-i difereniaz. Pentru caracterizarea unei distribuii se pot calcula, teoretic, multe tipuri de medii. n domeniul forestier se folosesc numai cteva, mai importante.
3.2.1 Mediile

Dup modul de calcul, mediile pot fi simple sau ponderate (atunci cnd utilizeaz produsele dintre frecvene i valorile observate). Relaiile de calcul difer, astfel, dup cum valorile observate sunt grupate sau nu n clase. Media aritmetic este cel mai utilizat indice al tendinei centrale.
20

Relaiile de calcul sunt: - pentru valori negrupate x=

- pentru valori grupate n clase x=

xi
1

n x
i

n
1

(3.10)

relaii n care: x este media aritmetic a unei probe (eantion), xi valorile individuale ale caracteristicii x, n primul caz, sau centrul clasei i, n cel de-al doilea; ni frecvena absolut a clasei i; k numrul de clase.
Tabelul 2. Calculul mediei aritmetice pentru valori grupate n clase
Centrul clasei (cm) 28 32 36 40 44 48 52 56 60 64 68 TOTAL

ni
4 9 18 32 21 21 17 11 5 4 2 144

ni xi
112 288 648 1280 924 1008 884 616 300 256 136 6452

Pentru exemplul de distribuie experimental considerat anterior (tabelele 1 i 2) media aritmetic este: 6452 = 44,81 cm. x= (3.11) 144 Media aritmetic a ntregii populaii se noteaz cu i se poate calcula cu exactitate numai dup determinarea valorilor caracteristicii studiate pentru toi indivizii din colectivitatea general. Proprieti ale mediei aritmetice: - suma algebric a diferenelor dintre fiecare observaie n parte i media aritmetic este egal cu 0;

21

- suma ptratelor abaterilor valorilor individuale fa de medie reprezint un minim (este mai mic dect suma ptratelor abaterilor fa de oricare alt valoare diferit de media aritmetic). Aceste proprieti sunt utilizate pentru numeroase aplicaii n statistic. Media aritmetic este cu att mai reprezentativ cu ct diferena dintre aceasta i median (un alt indice de poziie) este mai mic. Media aritmetic este mai puin stabil, fiind foarte mult influenat de valorile extreme ale distribuiei. Atunci cnd se calculeaz mai multe medii aritmetice x1 , x 2 , x3 ,..., pentru probe extrase din aceeai populaie, volumele probelor fiind N1, N2, N3,..., se poate calcula, n condiii bine precizate statistic, media general: x N + x 2 N 2 + ... x= 1 1 (3.12) N 1 + N 2 + ... Calculul i folosirea mediei generale x este admis numai dup ce s-a verificat dac mediile probelor ( xi ) reprezint estimaii ale aceleiai medii generale, , a populaiei. Media armonic ( x h ) se determin cu relaiile: - pentru valori negrupate - pentru valori grupate n clase (3.13) k ni 1 xi Este folosit, de exemplu, n economia forestier pentru calculul randamentului. Media geometric ( x g ) este valoarea pozitiv a rdcinilor de ordinul N din produsul a N valori observate: - pentru valori negrupate - pentru valori grupate n clase
xg =
N

N xh = N 1 1 xi

xh =

n
1

xi
1

x g = N xini
1

(3.14)

Se folosete atunci cnd valorile observate sunt aranjate ntr-o progresie geometric sau au un ritm exponenial de variaie (de exemplu, n economia forestier, pentru determinarea ritmurilor medii de cretere a produciei).

22

Mediile de ordin superior ( x p ):

- pentru valori negrupate


p

- pentru valori grupate n clase

xp =

xip
1

xp =

n x
i p 1

p i

n
1

(3.15)

Reprezint rdcinile de ordin p ale raportului dintre suma valorilor observate, ridicate la puterea p, i numrul acestora ; pentru p= 2,3,... se obin: media ptratic ( x 2 ), media cubic ( x3 ), .n relaii s-a notat numrul de clase cu k. Se utilizeaz atunci cnd se acord o importan mai mare nivelurilor mai ridicate ale seriei statistice.

Relaie ntre medii!

xh xg x x2 x3
Deoarece media unei caracteristici se determin pentru un numr limitat de observaii, valoarea ei este afectat de o eroare de estimaie a adevratei medii a populaiei ntregi. Pentru media aritmetic: s , (3.16) sx = N n care s x reprezint eroarea (abaterea) standard a mediei aritmetice, s este abaterea standard a caracteristicii studiate, iar N, volumul colectivitii. Pentru un numr mare de valori observate, s x va fi mai mic, iar media calculat pe baza probelor se va apropia mai mult de media a ntregii populaii.
3.2.2 Mediana

n afara mediilor propriu-zise intereseaz, din punct de vedere statistic, i calcularea unor medii de structur (mediana, cuartilele, modul i valoarea central). Acestea se utilizeaz mai ales pentru distribuii asimetrice. Mediana (Me) este valoarea dintr-o serie statistic ce mparte volumul populaiei (N) n dou pri egale.
23

Pentru irurile statistice (valori negrupate n clase), exist dou situaii: irul statistic are un numr impar de termeni (N); n acest caz mediana N +1 corespunde variantei de rangul , rangul fiind numrul ce indic 2 poziia unei observaii n cadrul unui ir ordonat n raport cu un anumit criteriu. De exemplu pentru irul statistic 8,9,10,11,13,14,16, 7 +1 rangul medianei este = 4 , deci mediana are valoarea Me=11; 2 irul statistic are un numr par de termeni (N); mediana se calculeaz N ca medie aritmetic a valorilor de rangul k i k+1 (unde k = ): 2 x + x k +1 . (3.17) Me = k 2 Pentru seriile cu valori grupate n clase, mediana poate fi determinat analitic sau grafic. Determinarea analitic a medianei nseamn aplicarea relaiei: N a S n 2 , (3.18) Me = x Me + n Me n care: xMe este limita inferioar a clasei mediane (cea care, n irul frecvenelor absolute cumulate, reprezint prima valoare mai mare dect N/2); a - mrimea clasei; N - volumul probei; Sn - frecvena absolut cumulat pn la clasa imediat inferioar celei mediane; nMe - frecvena absolut a clasei mediane. Pentru distribuia experimental a diametrelor de baz din exemplul anterior, cu notaiile din figura 7, mediana este: 4 (72 63) Me = 42 + = 43,71 cm. (3.19) 21 Determinarea grafic a medianei se poate face pe graficul frecvenelor cumulate, absolute sau relative, n care aceasta corespunde 1 N valorii (figura 4), respectiv, lui . 2 2 Mediana prezint o stabilitate mai mare dect media aritmetic pentru c depinde mai puin de valorile extreme ale seriei statistice. Aceasta d informaii utile i n cazul distribuiilor mai puin omogene.
24

Un caz particular l constituie mediana ptratic (Mep), utilizat n dendrometrie pentru calculul diametrului central al suprafeei de baz. k ni xi2 ' 1 Sn a 2 . Mep = x Mep + (3.20) 2 (ni xi ) Mep
Aa cum se observ, se calculeaz asemntor cu mediana (Me), ns n funcie de valorile nixi2 cumulate. Relaia dintre cele dou mediane este: Me Mep . (3.21)
3.2.3 Cuartilele Cuartilele sunt trei indicatori statistici care mpart setul de valori experimentale n patru pri egale. Prima cuartil (Q1), numit i cuartila inferioar, delimiteaz cele mai mici 25% valori experimentale. Relaia de calcul a acesteia este: N a ni' 4 , ' (3.22) Q1 = x0 + nQ1

n care: ' este limita inferioar a clasei n care se gsete N/4, x0

' i

- frecvenele absolute cumulate pn la clasa lui Q1,

nQ1 - frecvena absolut a clasei n care se afl Q1. Cea de-a doua cuartil (Q2) este egal cu mediana. A treia cuartil (Q3), numit i cuartila superioar, delimiteaz cele mai mari 25% valori experimentale din distribuie. Relaia de calcul a acesteia este: 3N a ni'' 4 , '' Q3 = x0 (3.23) + nQ3
n care: '' x0 este limita inferioar a clasei n care se gsete 3N/4,

'' i

- frecvenele absolute cumulate pn la clasa lui Q3,

nQ3 - frecvena absolut a clasei n care se afl Q3.

25

Intervalul intercuartilic (IRQ) reprezint diferena dintre Q3 i Q1. n interiorul acestuia se afl 50% dintre valorile experimentale ale caracteristicii analizate. Pentru distribuia experimental exemplificat anterior, cuartilele Q1 i Q3 se determin astfel: 4 (36 31) Q1 = 38 + = 38,63 cm, (3.24) 32 4 (108 105) (3.25) Q3 = 50 + = 50,71 cm. 17 Se poate obine o imagine sintetic a dispersiei valorilor caracteristicii studiate prin redarea grafic, sub forma unei diagrame, a urmtorilor indicatori: valoarea minim (xmin), prima cuartil, mediana, a treia cuartil i valoarea maxim. Diagrama boxplot d informaii asupra amplitudinii datelor (prin valorile extreme), despre tendina central (prin median) i despre modul de grupare a valorilor (prin cuartile). Pentru exemplul considerat, diagrama boxplot este prezentat n figura 6).

Figura 6. Diagrama tip boxplot

3.2.4 Modul

Distribuiile pot fi unimodale, bimodale, ..., plurimodale, dup numrul de maxime locale pe care le prezint. Modul (Mo), numit i dominant este acea valoare a caracteristicii studiate cu frecvena maxim n distribuie. Are sens numai n cazul distribuiilor unimodale (atunci cnd modul are o valoare unic), caz n care corespunde vrfului curbei de frecven. Acest indice se calculeaz, evident, numai pentru valori grupate n clase, cu relaia:
26

Mo = x Mo +

a (n0 n1 ) , 2n0 n1 n 2

(3.26)

n care: xMo este limita inferioar a clasei modale; n0 - frecvena clasei modale; n1 - frecvena clasei inferioare celei modale; n2 - frecvena clasei superioare celei modale. n exemplul anterior: 4 (32 18) Mo = 38 + = 40,24 cm. (3.27) 2 32 18 21 Determinare grafic a modului se realizeaz pe poligonul frecvenelor absolute sau pe histograma frecvenelor absolute, ca n figurile 2 i 3.
Centrul Frecven absolut clasei simpl cumulat (cm) 28 4 4 n 1 32 9 13 36 n0 18 31 40 32 63 44 21 84 n2 105 48 nMe 21 52 17 122 56 11 133 60 5 138 64 4 142 68 2 144 TOTAL 144 -

Sn N/2

clasa modal clasa median

Figura 7. Identificarea valorilor necesar determinrii medianei i modului

3.2.5 Relaii ntre indicii de poziie

Pentru distribuii apropiate de distribuia teoretic normal este valabil relaia lui Pearson: Mo = 3Me -2 x . (3.28) Modul este folosit i pentru stabilirea gradului de asimetrie a distribuiei experimentale pentru c este direct proporional cu diferena dintre x i Me. Pentru o distribuie simetric: Mo = Me = x . (3.29)

27

- x este indicat a fi folosit pentru distribuii simetrice;

- Mediana este mai stabil dect x pentru c depinde mai puin de forma distribuiei; - Modul este utilizat atunci cnd nu se ine seama de variaiile distribuiilor; - Mediana i modul, prin poziia relativ a lor, arat mai bine tendina de concentrare a frecvenelor din cadrul unei distribuii.
3.3 Indicatorii variabilitii (dispersiei)

Cunoaterea mediilor sau a altor indicatori ai tendinei centrale nu este suficient pentru a caracteriza o serie statistic. Este necesar, suplimentar, cunoaterea variabilitii caracteristicii studiate, adic a mprtierii valorilor fa de medie sub influena unor factori ntmpltori. Indicii de variaie sunt utilizai pentru a da o imagine corect asupra gradului de mprtiere a valorilor observate n jurul centrelor de grupare.

Cea mai simpl msur a variabilitii valorilor msurate este amplitudinea de variaie (w) calculat cu relaia 2.1. Este un indice expeditiv, dar i destul de imprecis (depinde de valorile extreme).
3.3.1 Variana

Denumit i dispersie (2, pentru ntreaga populaie, sau s2, pentru un eantion) este msura cea mai utilizat a variabilitii. Aceasta reprezint o medie a ptratelor abaterilor valorilor observate fa de media aritmetic: - pentru valori negrupate: - pentru valori grupate n clase:
s N 1 N 1 N-1 reprezentnd numrul gradelor de libertate. s
2

(x =

2 2

n (x =
i

(3.30)

28

n practic se utilizeaz mai mult relaiile echivalente: - pentru valori negrupate: - pentru valori grupate n clase:

N (3.31) N 1 N 1 Pentru valori mari ale lui N (un numr mare de observaii) se pot face aproximaiile: NN-1 i s22=2 (variana ntregii populaii din care s-a extras proba analizat). s =
2

2 i

( x )
i

s =
2

n x
i

2 i

( n x )
i i

3.3.2 Abaterea standard

Se noteaz cu , pentru ntreaga populaie, sau cu s, pentru o prob i este valoarea pozitiv a rdcinii ptrate din varian:

s=

s2 .

(3.32)

Se mai numete eroare sau abatere medie ptratic. Cu ct abaterea standard este mai mic, cu att gradul de mprtiere a valorilor caracteristicii studiate este mai redus.
3.3.3 Coeficientul de variaie

Coeficientul de variaie ( % , s% ) este utilizat pentru a face analiza comparativ ntre distribuii cu variabiliti exprimate n uniti de msur diferite. Este egal cu raportul procentual dintre abaterea standard i media aritmetic: s (3.33) s % = 100 (%). x Cu ct coeficientul de variaie este mai mic, cu att variabilitatea caracteristicii este mai mic, colectivitatea mai omogen, iar media aritmetic are un grad mai mare de reprezentativitate (afirmaie valabil i pentru ceilali indicatori de variaie). Se apreciaz c o serie de distribuie este omogen dac valoarea coeficientului de variaie nu depete 30%. n caz contrar se apreciaz c media nu mai este reprezentativ pentru o populaie considerat eterogen. Pentru distribuia experimental a caracteristicii diametrul de baz din exemplul luat anterior n considerare, valorile indicilor de variaie s-au determinat folosind datele din tabelul 3. Astfel: 10930,556 s2 = = 76,4375 cm2; s = 76,4375 = 8,74 cm; 144 1 8,74 s% = 100 = 19,5 %. 44,81
29

Tabelul 3.Calcule intermediare pentru determinarea indicilor de variaie


Centrul clasei 28 32 36 40 44 48 52 56 60 64 68 TOTAL

ni
4 9 18 32 21 21 17 11 5 4 2 144

ni ( xi x ) 2
1129,707 1475,840 1395,681 738,988 13,627 214,294 879,921 1378,471 1154,356 1473,707 1075,965 10930,556 44,81

x=

3.4 Indicatorii formei distribuiilor experimentale

n analiza seriilor de distribuie empirice o importan deosebit o prezint compararea mediilor cu ceilali indici de poziie.

O distribuie se numete simetric sau asimetric dup cum valorile variabilei sunt egal sau inegal dispersate de o parte i de alta a valorii centrale luate n considerare. n cazul distribuiilor simetrice, media aritmetic este egal cu mediana i cu modul; pe msur ce distribuia devine asimetric, apare o divergen a celor trei indici. Aa cum s-a artat, pentru distribuiile simetrice sau uor asimetrice este valabil relaia lui Pearson ( Mo = 3 Me 2 x ).
3.4.1 Indicele asimetriei Asimetria (figura 8) se caracterizeaz printr-o distorsionare a curbei experimentale pe orizontal n raport cu curba normal (clopotul lui Gauss). Gradul de deplasare se msoar prin indicele asimetriei (A). Asimetria poate fi aparent sau real. Cea aparent se datoreaz cercetrii unei colectiviti prea mici sau formrii defectuoase a claselor. Ea poate fi nlturat prin mrirea numrului de observaii i gruparea lor corect.

30

Asimetria real se datoreaz unor factori obiectivi a cror aciune nu poate fi nlturat i este caracteristic multor fenomene din silvicultur.

Pentru o distribuie asimetric, media aritmetic, datorit influenei valorilor extreme, se afl ntotdeauna n direcia ramurii mai lungi a distribuiei. Modul corespunde vrfului poligonului de frecvene, iar mediana se afl ntotdeauna ntre media aritmetic i mod.
Pentru estimarea asimetriei se compar media aritmetic i modul; sunt posibile trei situaii: x > Mo asimetrie pozitiv (de stnga), A>0; x < Mo asimetrie negativ (de dreapta), A<0; x = Mo distribuie simetric, A=0. Relaiile frecvent utilizate pentru determinarea asimetriei sunt: - relaia de baz: - relaia lui Pearson: - relaia momentelor:

n (x A=
i

N s3 x Mo ; A= s

(3.34) (3.35) (3.36)

A=

3 2

Indicele asimetriei este nsoit de eroarea sa (sA): 6 . sA = N +3

(3.37)

Asimetrie pozitiv (de stnga)

Asimetrie negativ (de dreapta)

Figura 8.Tipuri de asimetrie


31

Yule propune un coeficient (Sk) care ia valori n intervalul [-1, +1] care arat tipul i mrimea asimetriei. Relaia de calcul a acestui coeficient este: (Q Me) (Me Q1 ) Q3 2 Me + Q1 Sk = 3 = . (3.38) (Q3 Me) + (Me Q1 ) Q3 Q1 Cu ct este mai apropiat valoarea lui Sk de 0, cu att asimetria este mai redus (pentru distribuiile simetrice, Sk=0). Pe msur ce Sk se apropie de -1 sau de 1, asimetria este din ce n ce mai pronunat i negativ (de dreapta) sau, respectiv, pozitiv (de stnga).
3.4.2 Indicele excesului

O repartiie este mai boltit sau mai aplatizat dup cum valorile corespunztoare unor abateri mici de la valoarea central dein o proporie mai mult sau mai puin nsemnat. Aceast proprietate a repartiiei unimodale este denumit exces i se determin prin compararea cu curba normal de aceiai parametri. Deci excesul este proprietatea unei curbe de frecven unimodale de a fi mai ascuit sau mai aplatizat dect curba normal; acest lucru se determin prin analiza valorii unui indice de form denumit indicele excesului (E).

Figura 9. Tipuri de distribuii difereniate dup exces

Relaiile folosite pentru determinarea excesului sunt: - relaia de baz:

n (x E=
i

N s4

3;

(3.39)

32

- relaia momentelor:

E=

4 3. 2 2
24

(3.40)

Eroarea excesului (sE) este: . (3.41) N +5 Pe baza valorilor calculate A, sA, E, sE se poate face o testare statistic, dovedindu-se prezena sau absena asimetriei sau a excesului. Se calculeaz rapoartele
A sA

sE =

E sE

Dac rapoartele (n modul) sunt mai mici dect 2 se consider c, pentru o probabilitate de acoperire de 95%, asimetria, respectiv excesul, sunt nesemnificative. Dac rapoartele sunt mai mari sau egale cu 2, sunt dovedite asimetria sau excesul (pentru aceeai probabilitate de acoperire). Acest lucru nu trebuie s se considere neaprat un defect sau un fenomen anormal. Dimpotriv, exist anumite distribuii specifice unor caracteristici chiar din domeniul forestier pentru care se pot justifica teoretic asimetria i excesul. Exemple: distribuia diametrelor n arborete echiene (asimetrie de stnga); distribuia nlimilor n arborete echiene (asimetrie de dreapta). Pentru repartiia experimental exemplificat anterior s-au obinut urmtoarele valori ale indicatorilor formei: A = 0,4147 ; E = 0,2338 ; Sk = 0,1575 . Erorile indicatorilor formei sunt: s A = 0,2020 i s E = 0,4013 . A E = 2,0527 > 2 i = 0.5825 < 2 . Se obin rapoartele: sA sE Se poate spune c, n cazul analizat, asimetria este pozitiv (de stnga) i semnificativ, iar excesul este negativ, dar nesemnificativ.
3.5 Criterii de eliminare a observaiilor extreme

Printre valorile observate sau msurate pentru caracteristica studiat, apar uneori unele care se abat foarte mult fa de majoritate. Cauza apariiei valorilor aberante poate fi divers: - datorit instrumentelor folosite (decalibrate); - datorit greelilor de transmitere i de nregistrare a datelor; - datorit neomogenitii populaiei studiate. Este necesar s se exclud din calcule valorile extreme atunci cnd prezena lor influeneaz rezultatele analizei statistice.

33

Nu este admis, ns, eliminarea arbitrar a valorilor extreme, mai ales atunci cnd numrul observaiilor este redus. S-au propus mai multe criterii bazate pe teoria probabilitilor. Criteriul Chauvenet propune intervalul x k s n care s se pstreze valorile irului statistic ordonate cresctor sau descresctor; orice valoare din afara intervalului se elimin. x este media aritmetic a valorilor caracteristicii studiate pentru eantionul cercetat, s reprezint abaterea standard a eantionului, iar k este un coeficient ce se ia din tabele funcie de numrul observaiilor (N). Criteriul Irwin (testul ) se folosete atunci cnd se constat c o valoare din ir se abate mult de la valorile majoritare. Etapele de aplicare sunt: se ordoneaz valorile irului statistic; se determin abaterea standard (s); se calculeaz: x x n 1 x x1 sau exp = 2 , (3.42) exp = n s s unde: xn (x1) reprezint valoarea observat maxim (minim) ce trebuie verificat, xn-1 (x2) - valoarea anterioar (urmtoare) din irul statistic ordonat cresctor; n funcie de numrul de msurtori i probabilitatea de acoperire (p) se extrage din tabele teoretic. Dac exp teoretic valoarea analizat se menine n ir. Dac exp> teoretic valoarea extrem se elimin din irul statistic.
Criteriul Grubbs (testul z) n aceast situaie, etapele de aplicare a testului sunt: - se ordoneaz datele cresctor; - se calculeaz x i s; - se determin valoarea experimental a testului z cu una dintre relaiile: x x x x min z = max sau z ' = ; (3.43) s s - din tabele, n funcie de q=0,05 i N (volumul probei) se extrage valoarea lui zteoretic.
34

Interpretare: z, z zteoretic valoarea extrem nu se elimin; z, z> zteoretic valoarea extrem se elimin.
Criteriul 1,5 IQR Acest criteriu consider c este aberant orice valoare situat la mai mult de 1,5 din intervalul intercuartilic sub prima cuartil sau peste cea de-a treia. Dup eliminarea valorilor extreme, toi indicatorii statistici calculai anterior trebuie recalculai

35

4. DISTRIBUII TEORETICE FRECVENT FOLOSITE N ANALIZA STATISTIC A FENOMENELOR DIN SILVICULTUR

Distribuiile de frecven empirice implic date bazate pe observaii i experiment, deci obinute prin msurare sau numrare. S-a constatat c, plecnd de la anumite ipoteze generale se pot deduce matematic unele distribuii teoretice.
Distribuiile experimentale reprezint estimaii ale unor distribuii teoretice definite prin teoria probabilitilor. Distribuiile teoretice servesc drept modele matematice pentru cele experimentale.

Asimilarea unei distribuii empirice cu una teoretic prezint avantajul c la prelucrarea datelor se pot utiliza proprietile matematice ale acesteia din urm. Procesul de nlocuire a unei distribuii experimentale cu una teoretic cu aceiai parametri se numete ajustare; aceasta const, practic, n nlocuirea unui set de valori observate cu o funcie ct mai apropiat de realitatea fenomenului cercetat. Pentru o distribuie teoretic este important s se cunoasc att funcia de frecven (de densitate de probabilitate), ct i cea de repartiie. Legea de variaie a unei caracteristici continue este bine descris de funcia sa de repartiie.
Dac x este o variabil aleatoare real, funcia de repartiie F este definit pentru oricare xi prin relaia: F ( xi ) = P ( x < x i ) .

Funcia de repartiie msoar, deci, probabilitatea ca variabila aleatoare x s fie mai mic dect o anumit valoare de referin xi. Modelul grafic al funciei de repartiie este cel din figura 10. Probabilitatea ca variabila x s fie mai mic dect un nivel x1 este: F ( x1 ) = P ( x < x1 ) . (4.1) Analog pentru x2.

36

Figura 10. Modelul grafic general al funciei de repartiie i al funciei de densitate

Funcia de repartiie are urmtoarele proprieti: este o funcie cresctoare: oricare ar fi x1 i x2, x2 x1, F(x2) F(x1); dac F este funcia de repartiie a variabilei aleatoare x, atunci probabilitatea ca x s fie cuprins ntre dou valori x1 i x2 (cu x2>x1) se scrie: P( x1 x x 2 ) = F ( x 2 ) F ( x1 ) ; (4.2) este evident faptul c funcia de repartiie nu este altceva dect o probabilitate, deci ia valori n intervalul [0,1]; atunci cnd funcia F are o derivat continu, aceasta se utilizeaz pentru caracterizarea legii de variaie a lui x i se numete funcie de densitate: dF ( x ) F ' (x ) = = f (x ) ; (4.3) dx n acest caz:

F ( x ) = f ( x ) dx
x

(4.4)

37

i

P( x1 x x 2 ) = f ( x ) dx = F ( x 2 ) F ( x1 ) .
x2 x1

(4.5)

Funcia de densitate are proprietile: f (x ) 0 ;

f ( x ) dx = 1 (pe grafic, aria suprafeei cuprins ntre curba f(x)

i axa absciselor este egal cu unitatea). Valorile tipice mai importante ale unei funcii de repartiie sunt valoarea medie () i dispersia (2):

= x f (x ) dx ;

(4.6)

2 =

(x ) f (x )

dx .

(4.7)

Aceste relaii sunt teoretice i nu determinate experimental pentru o anumit caracteristic n urma msurtorilor. 4.1 Distribuia teoretic normal (Gauss-Laplace)

Din repartiia variabilelor aleatoare s-a ajuns la concluzia c funcia de repartiie normal poate fi luat drept model pentru cercetarea probabilistic. Funcia de densitate (densitatea de probabilitate) a distribuiei normale are expresia:
f ( x, , ) = 1

n care: -<x<+, este media repartiiei, iar este abaterea standard. Clopotul lui Gauss (figura 11) are urmtoarele proprieti: admite un maxim pentru x= ; este simetric n raport cu ; modificarea parametrului determin deplasarea curbei de-a lungul axei x fr a-i modifica forma; modificarea lui duce la lirea sau ngustarea curbei fr ca valoarea lui s fie afectat; are dou puncte de inflexiune, pentru x=. Calculul diferitelor valori ale densitii de repartiie f(x) n cazul unei distribuii normale cu media i variana 2 este greoi i necesit mult timp.

( x )2
2 2

(4.8)

38

Figura 11. Funcia de densitate a distribuiei normale

De aceea s-a efectuat o transformare de variabil (u=

obinndu-se funcia normal normat. n acest caz =0 i =1: u = ( x ) = x N = 0 , ' = (4.9) N N N


N 1 N 1 2 (N 1) iar funcia de densitate de probabilitate devine:

),

=
'

(u )

' 2

(x )
u2 2

2 = 1, 2

(4.10)

e , u ( ,+ ) . (4.11) 2 Funcia de repartiie se obine prin integrarea funciei de densitate de probabilitate i se numete integrala lui Gauss sau integrala erorilor: Aceasta reprezint aria suprafeei de sub curba normal de la - la x (sau de la - la u, n cazul normalei normate). Reprezentat grafic, aceast curb are dreptele Ox (sau Ou) i F(x)=1 ( sau F(u)=1) ca asimptote i un punct de inflexiune pentru x= (respectiv, u=0). Cu ajutorul integralei lui Gauss se poate calcula, pentru u1 i u2 dai, suprafaa total ce se afl sub curb ntre cele dou valori (tabelul 4). F ( x ) = f ( x ) dx sau F (u ) = f (u ) du .
x
u

f (u ) =

(4.12)

39

Intervalul astfel determinat (u1,u2) se numete interval de ncredere, iar suprafaa corespunztoare, probabilitate de acoperire (p). q=100-p se numete probabilitate de transgresiune sau probabilitate de depire. Aceste probabiliti se mai numesc praguri de semnificaie sau nivele de semnificaie.
Tabelul 4. Nivele de semnificaie uzuale

u1=

x1

u2=

x2

- -2 -3 -1,96 -2,58 -3,29

2 3 1,96 2,58 3,29

suprafaa cuprins (%) 68,26 95,44 99,73 95 99 99,9

n lucrrile de orice natur care aplic metodele statistice, indicatorii statistici, odat determinai, nu sunt prezentai dect nsoii de intervalele de ncredere corespunztoare unor probabiliti de acoperire de referin (se folosesc, de obicei, valorile lui p egale cu 95%, 99% sau 99,9%). Interesul pentru legea normal decurge dintr-o teorem foarte important, teorema limitei centrale care se enun astfel: Dac variabilele xi constituie un ir infinit de variabile aleatoare independente avnd toate legea de repartiie cu media i variana 2, atunci expresia: (4.13) n 2 tinde ctre o variabil normal redus, dac n tinde la +. Altfel spus, dac un fenomen este rezultatul influenei unei infiniti de factori (independeni sau cvasiindependeni), fiecare dintre acetia avnd un rol limitat, msurarea acestui fenomen se poate efectua

x
i =1

40

cu ajutorul unei variabile aleatoare cantitative a crei lege de repartiie se apropie de legea normal normat.
Legea normal este o lege de medie.

Dintre proprietile legii normale, dou au aplicabilitate practic direct: toate combinaiile liniare ale legii normale urmeaz o lege normal; toate legile normale pot fi descrise printr-una singur, cu condiia s se schimbe scara de msur a variabilei prin transformarea deja amintit (ceea ce nseamn a msura abaterile mediei n uniti de abatere standard). De aceea, n practic, nu se calculeaz direct probabilitatea evenimentului P(X<x) cnd X urmeaz o lege normal de parametri i 2, ci se determin P(Z<u) unde u=(x-)/ i n care Z urmeaz o lege normal redus de parametri =0 i 2=1. Ajustarea distribuiei experimentale dup legea distribuiei normale se realizeaz tabelar, dup modelul prezentat n tabelul 5 (cu datele experimentale corespunztoare exemplului anterior).
Tabelul 5. Exemplu de ajustare a unei distribuii experimentale dup legea teoretic normal

xi
1

ni
2

x x ui = i s
3

Frecvene teoretice absolute relative N a ni = f ( ui ) f ( ui ) s


4 5

ni
6

20 24 28 32 36 40 44 48 52 56 60 64 68 TOTAL

0 0 4 9 18 32 21 21 17 11 5 4 2 144

-2,8372 -2,3797 -1,9222 -1,4647 -1,0072 -0,5497 -0,0921 0,3654 0,8229 1,2804 1,7379 2,1954 2,6530

0,007127 0,023507 0,062890 0,136478 0,240235 0,343009 0,397252 0,373182 0,284359 0,175755 0,088113 0,035832 0,011819 2,179557

0,47 1,55 4,14 8,99 15,83 22,60 26,17 24,59 18,73 11,58 5,81 2,36 0,78 143,59

0 1 4 9 16 23 26 25 19 12 6 2 1 144

41

Etapele de lucru sunt: se determin media aritmetic ( x ) i abaterea standard (s) printr-un procedeu cunoscut; se determin abaterile normate (ui); n funcie de valorile abaterilor normate se scot din tabele valorile

f (u i ) f (u ) =

sau 1 2
e

se
u 2
2

calculeaz ;

dup

funcia

normal

normat

se determin frecvenele teoretice absolute ( ni ) i ajustarea este efectuat. Reprezentarea grafic a frecvenelor absolute experimentale i a celor teoretice (coloanele 2 i 5 din tabelul 5) arata sugestiv modul de ajustare a distribuiei empirice utiliznd distribuia teoretic normal (figura 12).

Figura 12. Reprezentarea grafic a ajustrii din tabelul 5

Este neaprat necesar s se verifice, prin teste statistice, concordana dintre distribuia experimental i cea teoretic (se compar frecvenele absolute experimentale cu cele teoretice prin utilizarea unor teste statistice, de exemplu testul 2).

42

Situaiile n care distribuia normal poate fi aplicat fenomenelor din silvicultur sunt diverse. Trebuie s fie ndeplinite, ns, anumite condiii: populaia din care se extrage proba s fie omogen; dac este cazul, se poate proceda, n prealabil, la stratificarea ei; caracteristica studiat s rmn sub influene aleatoare (ntmpltoare). Apariia unui factor cu o influen puternic determin asimetrii sau excese apreciabile.
4.2 Distribuia teoretic Charlier (tip A)

Charlier a demonstrat c o distribuie experimental poate fi redat printr-o serie de derivate ale funciei normale. Funcia de frecven teoretic are forma: A E IV (u ) = f (u ) f III (u ) + f (u ) , (4.14) 6 24 n care: f (u ) este funcia de frecven a distribuiei normale normate,

f III (u ), f IV (u ) - derivatele de ordin III i IV ale funciei f(u) (valori tabelate - anexa 1- sau calculate n funcie de valorile ui experimentale), A -indicele asimetriei, E -indicele excesului. Frecvenele absolute se determin cu aceeai relaie ca i n cazul normalei: N a ni = (u i ) , (4.15) s unde: a -amplitudinea unei clase, s -abaterea standard a probei, De observat c aceast funcie, (u), ia n considerare att asimetria ct i excesul i poate fi astfel adaptat la un numr mai mare de distribuii experimentale. Dac A=0 i E=0, distribuia Charlier se transform ntr-o distribuie normal.

Distribuia Charlier este o distribuie normal generalizat. Este indicat s se aplice atunci cnd asimetria i excesul au valori semnificative.

43

4.3 Distribuia binomial

Aceasta mai poart denumirea de repartiia lui Bernoulli sau repartiia newtonian. Se consider, ca exemplu, o populaie de N arbori din care M sunt uscai. Analiznd cte un arbore, la ntmplare, dintre cei N, se nregistreaz prezena sau absena fenomenului de uscare. Dac se repet de n ori experiena n aceleai condiii i n mod independent (cu posibilitatea de a extrage de mai multe ori acelai arbore, adic prin selecie repetat), numrul r de arbori uscai din eantionul de volum n este valoarea dat de o variabil aleatoare binomial X de parametri n i M p= . N Se poate demonstra c, pentru orice r ntreg cuprins ntre 0 i n ( 0 < r < n ): n care:
P( X = r ) = C n p r (1 p )
r nr

= Pr ,

(4.16) (4.17)

C
(observaie:

r n

n! . r!(n r )!

P
i =0

= 1 ).

n general, considernd o populaie format din N uniti din care se extrage o unitate, probabilitatea ca aceast unitate s posede caracteristica studiat este p N , iar probabilitatea evenimentului contrar este q N . Se poate scrie: p N + q N = 1 . Prin extragerea din populaia considerat a unei probe formate din n uniti prin metoda seleciei repetate, probabilitatea ca x uniti s posede caracteristica studiat este dat de funcia de repartiie: n! f (x ) = p x q n x , (4.18) x!(n x )! n care: n - numrul unitilor din prob (volumul probei), x - numrul elementelor care prezint caracteristica studiat, p - probabilitatea apariiei evenimentului urmrit, q - probabilitatea apariiei evenimentului contrar. Din motive de comoditate n calcule se aplic relaia de mai sus numai pentru x=0, caz n care: (4.19) f (0) = q n . Pentru x > 0 se utilizeaz formula de recuren:
44

nx p . (4.20) x +1 x Principalii indicatori statistici teoretici specifici repartiiei binomiale sunt: media x = pn (4.21) 2 dispersia s = n pq (4.22) Legea distribuiei binomiale se aplic ori de cte ori fenomenele sunt influenate de intervenia unor factori independeni ale cror probabiliti de apariie sunt cunoscute i au valoare constant. Ajustarea unei distribuii experimentale dup legea distribuiei binomiale urmeaz etapele: x se determin x , p, q: p = ; q=1-p; (4.23) n se determin frecvenele teoretice relative cu relaia 4.18 pentru x=0 i cu relaia 4.19 pentru x > 0 ; se determin frecvenele teoretice absolute: f ( x + 1) = f ( x )

(4.24) n i = N f i = N f ( xi ) ; se compar cele dou distribuii. Dac exist asemnare ntre distribuia teoretic i cea experimental a frecvenelor absolute nseamn c fenomenul studiat urmeaz legea distribuiei binomiale. Trebuie neaprat s se aplice, ns, un test statistic de ajustare.
4.4 Distribuia Poisson

Este un caz special al distribuiei binomiale pentru situaia n care probabilitatea apariiei unui eveniment este mic, chiar dac numrul observaiilor este foarte mare. Din acest motiv se mai numete distribuia evenimentelor rare. Distribuia Poisson este un caz limit al distribuiei binomiale pentru n i p 0 , produsul n p = fiind constant. Dac se consider c N arbori reprezint o populaie de 50000 ha i considernd c se extrage la ntmplare o suprafa de 0,1 ha n care se numr x arbori uscai (n ipoteza prealabil privind omogenitatea repartizrii arborilor uscai, nu n grupuri sau aglomerri pe anumite direcii), valoarea x poate fi considerat ca valoarea luat de o variabil
45

aleatoare X care urmeaz o lege Poisson de parametru ( este numrul mediu de arbori dintr-o suprafa de prob de 0,1 ha; = x ). Variabila X poate lua toate valorile ntregi pozitive sau nule, dup funcia de frecven a distribuiei Poisson: x e P( X = x ) = = f (x ) , (4.25) x! n care: (4.26) = x = s2 . Relaia de mai sus se aplic pentru x = 0 f (0) = e . Pentru x > 0 este comod s se aplice relaia de recuren: . (4.27) x +1 Domeniul de aplicativitate este relativ restrns. Exist unele caracteristici n domeniul entomologiei, al proteciei pdurilor, al vntoarei, care urmeaz legea distribuiei Poisson. Etapele de ajustare a distribuiei experimentale dup legea Poisson sunt: se determin media aritmetic x ; se determin dispersia s2; se compar x cu s2; numai dac cele dou valori sunt egale sau foarte apropiate se poate trece la ajustare; se determin frecvenele teoretice relative cu relaia direct sau prin formula de recuren (pentru x > 0 ); se determin frecvenele teoretice absolute: (4.28) ni = N f i ; se verific dac exist concordan ntre cele dou distribuii (printr-un test de concordan). Alte funcii teoretice foarte flexibile care se folosesc n silvicultur pentru caracterizarea structurii arboretelor echiene sunt distribuiile din sistemul Pearson.
4.5 Distribuia Beta Funcia de densitate de probabilitate beta este, n cazul general: 1 f ( x) = ( x a) 1 (b x) 1 (b a) ( + 1) , (4.29) B( , ) a x b , > 0 , > 0 , unde: (4.30)
( ) ( ) , ( + ) 0 fiind funcia gamma, tratat pe larg n subcapitolul 4.7. B ( , ) = t 1 (1 t ) 1 dt =
1

f ( x + 1) = f (x )

(4.31)

46

Dac se face schimbarea de variabil y =

xa se obine funcia ba

de densitate de probabilitate a legii beta standard: 1 y 1 (1 y ) 1 pentru 0 < y < 1 f ( y ) = B( , ) pentru celelalte valori y 0

(4.32)

n aceast form, parametrii i se pot estima cu relaiile: y (1 y ) = (1 y ) y (1 y ) 1 , (4.33) = y 1 ; s 2 2 s n care y i s 2 reprezint media aritmetic i, respectiv, variana valorilor experimentale y (frecvenelor relative). Pornind de la funcia de densitate de probabilitate de tip beta scris sub forma (Leahu, I., 1984): (4.34) f ( x) = const ( x a ) 1 (b x) 1 , parametrii pot fi estimai cu relaiile: z 1 2 s rel ( z + 1) 2 1 , = z = i (4.35) z +1 x rel z= , (4.36) 1 x rel N , (4.37) const = b 1 1 ( x a) (b a) dx
a

iar semnificaia celorlalte notaii este: x - centrele claselor formate pentru caracteristica studiat; a, b - valorile minim i, respectiv, maxim ale acestei caracteristici (pentru gruparea n k clase de amplitudine h, acestea sunt: h h a = x1 ; b = x k + ); 2 2 N - numrul total de arbori din eantion; s2 - dispersia (variana); , - parametrii exponeniali ai distribuiei beta; x a x rel - media n valori relative x rel = ; ba 2 s2 2 . s rel - variana n valori relative s rel = 2 ( ) b a
47

4.6 Alte funcii din sistemul distribuiilor lui Pearson

Sistemul ntreg al distribuiilor Pearson cuprinde, n afar de repartiia normal, alte 7 tipuri (IVII) de curbe diferite, unele cu 2-3 subtipuri, rezultnd 13 curbe diferite (Leahu, I., 1984). n notaia acestora, indicele i desemneaz o curb cu un maxim (unimodal), indicele u arat c este vorba despre o curb convex, iar j indic o curb descresctoare. Pentru arboretele echiene, prezint interes urmtoarele tipuri i subtipuri de funcii din sistemul Pearson:
Ii (k< 0) IIi (k=0; r3=0; r4< 3) IIIi (k= )
x y = y 0 1 + a1
m1

x 1 a2
m

m2

(4.38) (4.39)

x2 y = y 0 1 2 , a
p x y = y0 1 + e a , a p x

(4.40)

V (k=1) Vii (1< k< )

y = y0 x

(4.41) (4.42)

y = y 0 ( x a ) m1 x m2 .

Tipul de repartiie ce trebuie folosit se determin cu parametrul k, calculat cu relaia:


k=

32 (S + 2)2
16 (S + 1)

, n care S =

6 ( 4 3 1) , 3 32 2 4 + 6

(4.43)

3 A (momentul centrat de ordinul 3 indicele asimetriei) i


4 E + 3 (momentul centrat de ordinul 4 indicele excesului + 3).
Dup cum se observ, distribuiile Pearson se determin pe baza valorilor indicilor asimetriei i excesului pentru distribuia experimental. Parametrii a1 i a2 definesc amplitudinea de variaie a variabilei x, iar exponenii m1 i m2 indic nclinarea curbei pe laturile distribuiei. Dezavantajele folosirii distribuiilor Pearson constau n faptul c sunt necesare valorile extreme ale diametrelor (supuse unor evidente fluctuaii) i implic determinri manuale laborioase (aspect contracarat prin folosirea de programe specializate pentru calculatoarele electronice).

48

Mai puin folosite, dar cu aplicabilitate demonstrat pentru caracterizarea structurii arboretelor n funcie de diametru, sunt distribuiile gama i Weibull.
4.7 Distribuia Gamma

Distribuia gamma generalizat este o distribuie triparametric care are, ntr-o prim form parametrii k, i :
x f ( x) = (k ) Prin transformrile de parametri:

k 1

(4.44)

= ln( ) +

1 1 1 ln 2 , = i = , k k

(4.45)

se obine distribuia gamma triparametric n forma:


ln x ln x 1 + ln 2 e 2 1 dac 0 x 1 e f ( x) = 2 2 1 ln x 1 2 e dac = 0 x 2

(4.46)

Aa cum se poate observa, distribuia gamma generalizat este de o complexitate ridicat, iar determinarea parametrilor este destul de dificil. Acestea sunt motivele pentru care nu este foarte frecvent utilizat pentru ajustarea distribuiilor experimentale. Exist, ns, programe de calcul dedicate a cror folosire contracareaz inconvenientele menionate.

Folosirea acestei distribuii este recomandat mai ales pentru faptul c include, pentru anumite valori ale parametrilor, cteva alte distribuii de baz (Weibull atunci cnd = 1 , distribuia exponenial pentru = 1 i = 1 , distribuia lognormal dac = 0 , distribuia gamma biparametric pentru = ).

49

Funcia de densitate de probabilitate a distribuiei gamma biparametric este definit pentru x>0 prin:
1 f ( x) = x 1 e , ( ) x

(4.47)

unde >0 este parametrul de form i >0, parametrul de scar. ( ) este funcia gamma a crei relaie este:
( ) = y 1e y dy .
0

(4.48)

Pentru = 1 se obine forma standard a distribuiei gamma:


f ( x) =

1 1 x x e cu x > 0 , > 0 . ( )

(4.49)

O proprietate a acestei funcii este pus n eviden de relaia ( + 1) = ( ) ; cum (1) = 1 , atunci ( + 1) = ! pentru toate valorile ntregi pozitive. Pentru diferite valori ale parametrilor i se obin diverse forme de distribuii teoretice (figura 13).

Figura 13. Forme ale distribuiei teoretice gamma

Atunci cnd este ntreg i pozitiv, distribuia gamma este ntlnit n literatura de specialitate i sub denumirea de distribuia Erlang.

50

Aceast distribuie teoretic se caracterizeaz prin media aritmetic egal cu i variana 2 . De aceea, o prim modalitate de estimare a parametrilor distribuiei gamma este: =
x 2 s2 , = , x s2

(4.50)

= x , x i s 2 sunt media aritmetic, respectiv variana astfel nct distribuiei experimentale ce trebuie ajustat. Metoda verosimilitii maxime aplicat n cazul distribuiei gamma estimeaz parametrii acesteia cu relaiile:

= n care A = ln( x )

1 4A = x, i 1 + 1 + 4A 3

(4.51)

ln( x) ,
N

N fiind volumul populaiei statistice

analizate. Funcia de repartiie gamma (reprezentat n figura 14) este: F ( x) =


0
x
1 f ( x)dx = x 1e dx . ( ) 0

(4.52)

Figura 14. Funcia de repartiie gamma biparametric

51

Notndu-se t =

se obine forma incomplet a funciei gamma:


1 t 1e t dt . ( ) 0
x

F ( x) =

(4.53)

Trebuie remarcat faptul c funcia gamma nu este definit pentru x=0, ceea ce poate fi un impediment n ajustare. Pentru = 1 distribuia 1 gamma se transform ntr-o distribuie exponenial cu = . Aceasta

are funcia de densitate de probabilitate: f ( x) = e t i funcia de repartiie: F ( x) = 1 e t , pentru care media aritmetic este egal cu variana 1 1 (4.55) ln 2 (4.54)

, mediana este

O alt bine cunoscut distribuie statistic, 2 , este de asemenea un caz special al distribuiei gamma. Distribuia 2 cu n grade de n libertate este, de fapt, o distribuie gamma cu = i = 2 . 2
4.8 Distribuia Weibull Repartiia Weibull biparametric face legtura cu legea exponenial, fiind considerat chiar o generalizare a acesteia. Densitatea de probabilitate a legii Weibull are forma:
pentru x 0 0 f x, , = 1 x e pentru x > 0 x

(4.56)

n care cei doi parametri sunt strict pozitivi (>0; >0). Se observ c pentru =1 repartiia Weibull devine o repartiie exponenial; pentru <1 curba este descresctoare, convexitatea ei accentundu-se cu ct este mai mic. Pentru >1 curba este concav, cu ct este mai mare, graficul funciei avnd o form tot mai pronunat de clopot (pentru 1<<3,6 curba este n clopot cu asimetrie de stnga, pentru =3,6 curba aproximeaz legea normal a lui Gauss, iar pentru >3,6 curba este n
52

clopot cu asimetrie de dreapta). Parametrul determin, deci, forma distribuiei Weibull. Funcia de repartiie pentru legea Weibull este:
pentru x 0 0 F x, , = x pentru x > 0 1 e

(4.57)

Uneori, n practic, este necesar exprimarea legii Weibull ntr-o form mai avantajoas prin introducerea unui parametru de scar real, , prin substituirea:

=
Deci = 1

(4.58)

, iar expresia densitii de probabilitate a legii

Weibull biparametrice devine:


x x f , =
1

(4.59)

Legea Weibull triparametric reprezint varianta complet a acestei legi, obinut prin introducerea unui parametru de iniializare (de poziie), , care realizeaz o translatare pe axa x. Funcia densitii de probabilitate devine:
x f ( x , , , ) =
1

(4.60)

iar funcia de repartiie este:

F x , , , = 1 e

(4.61)

ambele valabile pentru x>0. Se precizeaz faptul c i se exprim n aceleai uniti de msur ca i x. Datorit faptului c estimarea simultan a celor trei parametri este destul de puin fiabil pentru c furnizeaz abateri mult prea mari pentru o utilizare ulterioar a acestei curbe, este preferabil s se estimeze numai parametrii de form () i de scar () considernd originea () fix ntr-un anumit interval. B.Lemoine (et al., 1991) ajunge la concluzia c valorile cele mai mici ale lui 2, obinute prin compararea distribuiilor experimentale cu distribuia teoretic Weibull, corespund
53

unor valori ale lui ct mai apropiate de minimul valorilor observate. Aceeai remarc este fcut de Bailey (et al., 1973; citai de J.Pard i J.Bouchon, 1988).
4.9 Alte distribuii descresctoare

Arboretele pluriene, naturale sau grdinrite, au o structura specific a distribuiei arborilor pe categorii de diametre: forma curbei de frecvene este descresctoare, frecvenele maxime fiind mereu la categoriile de diametre mici. Meyer propune pentru caracterizarea structurii arboretelor pluriene o funcie de forma: = k e x , n (4.62) reprezint numrul de arbori pe categorii de diametre, k i , n care n parametri, iar x, categoriile de diametre. Aceasta relaie sintetizeaz observaiile anterioare ale lui Liokourt potrivit crora repartizarea pe categorii de diametre a numrului de arbori n arboretele pluriene se face dup o progresie geometric. Prin logaritmarea relaiei lui Meyer, aceasta se liniarizeaz, devenind coeficient unghiular (valoarea lui este negativ). Funcia lui Meyer este considerat, totui, prea rigid i nu are nc o justificare ecologic. Exist propuneri pentru folosirea unor funcii mai elastice: funcia Weibull, funciile Pearson sau funciile exponeniale ale lui Caussinus i Rollet. Din sistemul funciilor Pearson se pot utiliza distribuia beta i cea de tip Ij, aceasta din urm avnd forma:
x 1 + a 1 , y = y0 m2 x 1 a 2
m1

(4.63)

notaiile fiind cele de la relaiile anterioare. Funcia exponenial a lui Rollet are forma: ( + 1) f ( x) = e x (1 e x ) , a +1 1 (1 e ) unde: x este categoria de diametre (cu amplitudinea de l cm), a - categoria de diametre inferioar, , - parametri experimentali.

(4.64)

54

5. TEHNICA SONDAJULUI 5.1 Metoda selectiv

Caracterizarea numeric a proceselor din silvicultur rareori poate fi efectuat pornind de la nregistrri integrale. Aceasta, pentru c: n multe situaii s-ar distruge ntreg materialul analizat, din motive obiective (costuri, imposibilitate tehnic etc.) nregistrarea total este imposibil de aplicat. n aceste cazuri se aplic metode de selecie prin nregistrri pariale sau sondaje. Se impune n prezent, n condiiile unei silviculturi moderne, o cunoatere tot mai aprofundat a fenomenelor din interiorul pdurii i a efectelor interveniilor silviculturale asupra strii fondului forestier, ceea ce nu se poate realiza dect prin metode bazate pe eantionaj. Din multitudinea problemelor de studiu abordate prin metoda selectiv se pot meniona: inventarierea fondului de producie, controlul calitii anumitor produse (a materialului de mpdurire, a sortimentelor de material lemnos), studiul defectelor lemnului, controlul eficacitii msurilor de combatere a duntorilor, cunoaterea n timp scurt a caracteristicilor procesului de producie i a factorilor ce-l influeneaz etc.
Sondajul reprezint o cercetare parial al crei scop este cel de a estima parametrii populaiei totale pe baza rezultatelor obinute pentru un eantion riguros prelevat (prin aplicarea principiilor teoriei probabilitilor).

Cercetarea prin sondaj i extinde continuu aria de investigare datorit multiplelor avantaje n comparaie cu observarea tuturor elementelor populaiei: operativitate i volum mic de cheltuieli materiale i de manoper, posibilitatea studierii amnunite a eantionului (ceea ce nu s-ar putea realiza pentru ntreaga populaie), fapt ce duce la obinerea unor informaii complexe i calitativ superioare, partea supus nregistrrii fiind mult mai redus dect ntreaga populaie statistic, erorile de nregistrare sunt mai puin numeroase

55

i mai uor de nlturat n faza de verificare a datelor; rezult o calitate superioar a rezultatelor obinute prin sondaj. Situaiile n care se utilizeaz cu precdere tehnica sondajelor sunt: atunci cnd msurarea implic distrugerea elementelor observate, atunci cnd cercetarea statistic total implic cheltuieli prea mari, atunci cnd populaia vizat este practic infinit. Teoria sondajelor se bazeaz pe legea numerelor mari care, n esen, este formulat astfel: se poate afirma cu o probabilitate apropiat de unitate (100%) c, n cazul unui numr suficient de mare de uniti cercetate, indicatorii medii ce caracterizeaz eantionul difer cu o cantitate foarte mic de cei care caracterizeaz populaia din care acesta a fost extras.

Cercetarea parial al crei scop este ca, pe baza rezultatelor prelucrrii datelor obinute, s se estimeze, prin aplicarea principiilor teoriei probabilitilor, parametrii corespunztori populaiei totale, se numete sondaj statistic. Esena sondajului const n alegerea dintr-o populaie ce constituie obiectul studiului, a unei asemenea pri (eantion, prob, mostr sau selecie) care poate s reprezinte ntreaga populaie. Populaia reprezint totalitatea unitilor simple sau complexe care formeaz obiectul cercetrii prin sondaj. O asemenea cercetare trebuie s nceap cu delimitarea n timp i n spaiu a populaiei. Populaiile pot fi: reale sau ipotetice, finite sau infinite. Trebuie subliniat faptul c noiunea de populaie nu se refer la indivizii fizici, la obiecte sau la evenimente, ci la observaiile ce pot fi fcute cu privire la acestea.
O populaie este format din totalitatea observaiilor efectuate.

56

Eantionul reprezint o parte sau un numr de elemente ale populaiei totale. Operaia de constituire a eantionului se numete eantionare.

Prin estimaie se nelege operaia de extindere, in limitele specificate de incertitudinea exprimat n termeni probabilistici, a rezultatelor obinute n sondaj asupra ntregii populaii. Estimaiile reprezint evaluri aproximative ale adevratelor valori ale parametrilor estimai. Eroarea estimaiei i afecteaz precizia, iar estimarea parametrului general se face printr-un interval de estimare numit i interval de ncredere. Considernd c acest interval are limita inferioar i limita superioar , pentru parametrul real este ndeplinit urmtoarea relaie de probabilitate: P < < = 1 ,

(5.1)

n care 1- este nivelul de ncredere ( este pragul de semnificaie). Jumtatea intervalului de ncredere se numete eroare limit admis i se noteaz cu: (5.2) 2 Metoda selectiv const, deci, n determinarea parametrilor populaiei formate din N elemente cu ajutorul valorilor observate xi (i=1, ,n) pentru n elemente extrase din respectiva populaie. Evident n<N, n fiind volumul seleciei. Condiiile n aplicarea metodei selective sunt:
eantionul trebuie extras astfel nct s fie reprezentativ pentru populaia studiat. Este echivalent acest lucru cu faptul c structura probei trebuie s fie apropiat de structura ntregii populaii; modalitatea practic de extragere a unitilor ce formeaz eantionul trebuie s fie astfel aleas nct fiecare unitate s aib aceeai ans de a face parte din prob (evitarea subiectivismului eantionrii); populaia din care se extrage eantionul s fie ct mai omogen; uneori este necesar mprirea n subpopulaii omogene (stratificare).

x =

( ) .

57

Un eantion trebuie s fie reprezentativ. Situaia contrar este cea a unui eantion deformat sau deplasat.

Biais este termenul specific preluat din literatura de specialitate strin, semnificaia lui (fr a putea gsi un corespondent exact n limba romn) fiind cea a unei deformaii sistematice, nentmpltoare, a unei serii de date dintr-o cercetare (Clocotici,V., Stan, A., 2000) Diferenele structurale dintre populaie i eantioane nu pot fi nlturate total, dar pot fi minimizate prin tehnicile de realizare a sondajului. Rezultatele sondajului sunt cu att mai reprezentative pentru ntreaga populaie cu ct erorile introduse prin nsui procedeul de eantionaj sunt mai mici. Eroarea de sondaj este abaterea care exist ntre valoarea calculat prin prelucrarea datelor din eantion i cea care s-ar fi obinut dac s-ar fi organizat o observare total (pentru ntreaga populaie). Erorile de sondaj pot fi: erori de nregistrare i erori de reprezentativitate. Erorile de nregistrare sunt comune tuturor tipurilor de sondaje i pot fi evitate prin folosirea unui personal specializat i printr-un control riguros al nregistrrilor. Erorile de reprezentativitate sunt specifice fiecrui sondaj n parte i pot fi sistematice sau ntmpltoare. Cauzele producerii erorilor de reprezentativitate sistematice pot fi: alegerea deliberat a unor date considerate n mod greit ca fiind reprezentative; dorina preconceput a cercettorului de a obine un anumit rezultat; substituirea unei uniti de cercetare cu alta ce ofer o mai mare comoditate n obinerea datelor; realizarea unui sondaj incomplet (necuprinderea n sondaj a tuturor unitilor stabilite). Trebuie remarcat faptul c ntr-un sondaj erorile sistematice sunt mai puin numeroase i mai puin grave dect n cazul observrii totale. Erorile aleatoare de selecie (sau de reprezentativitate) se produc chiar dac se respect riguros principiile teoriei seleciei deoarece eantionul nu reproduce dect cu o oarecare aproximaie distribuia variabilelor populaiei.
58

Procedeele de nlturare (sau de reducere, numai) a erorilor aleatoare de reprezentativitate constau n mrirea volumului eantionului i n alegerea unui tip de sondaj adecvat scopului cercetrii.

Erorile de reprezentativitate pot fi estimate cu anticipaie i trebuie ataate fiecrui indicator statistic atunci cnd este generalizat la ntreaga populaie. Colectivitile de selecie pot fi formate n mod: sistematic (mecanic), randomizat (aleatoriu, la ntmplare). Selecia sistematic se aplic diferit n funcie de volumul colectivitii statistice i const n alegerea n mod mecanic, la intervale egale, a unitilor de selecie, dup ce s-a stabilit n prealabil pasul de selecie sau de numrare. Procedeul mecanic de formare a eantionului presupune ca elementele colectivitii generale supuse cercetrii s fie prelevate dup un interval determinat care se aplic bazei de sondaj. De exemplu, dac volumul eantionului ar fi 1/10 din cel al colectivitii generale, includerea unitilor statistice n eantion se face din 10 n 10 ncepnd cu un element ales la ntmplare din populaie. Selecia randomizat const n extragerea ntmpltoare a unitilor din populaie pentru constituirea eantionului. Se bazeaz pe principiul asigurrii anselor egale de a fi inclus n selecie pentru fiecare unitate statistic. n acest scop se pot utiliza tabele cu numere ntmpltoare sau o urn din care se extrag numerele de ordine ale unitilor selectate. Utilizarea tabelelor cu numere aleatoare const n preluarea din cadrul populaiei a acelor uniti statistice ale cror numere de ordine prestabilite au fost citite dup o anumit ordine din tabel. Exist i algoritmi ce genereaz numere aleatoare. Selecia randomizat poate fi repetat sau nerepetat. n cazul seleciei repetate, fiecare unitate extras i cercetat (observat sau msurat) se introduce din nou n populaie, avnd posibilitatea de a mai fi extras ulterior; volumul populaiei rmne constant pe parcursul seleciei. La selecia nerepetat, unitatea odat extras nu se mai reinclude n populaie; volumul colectivitii generale scade la fiecare extragere cu cte o unitate. n aceast situaie, fiecare unitate poate fi inclus doar o singur dat n eantion.
59

Selecia randomizat prezint urmtoarele avantaje: valorile medii ale caracteristicilor studiate se distribuie dup legea normal, permite un calcul riguros i o estimare corect a erorii de reprezentativitate. Dezavantajele ar fi: posibilitatea unei repartizri neuniforme a unitilor selectate n cadrul colectivitii generale, rmnnd anumite zone nereprezentate n eantion, metoda este mai complicat n cazul n care populaia cercetat este mare i procentul de selecie ridicat. Una dintre problemele puse teoriei seleciei a fost stabilirea modului n care se calculeaz eroarea ntmpltoare de reprezentativitate ce va interveni n cercetarea selectiv, nainte ca aceast cercetare s se fi efectuat. Dac s-ar nregistra toate unitile componente ale unei populaii, s-ar putea determina valoarea real a mediei () care nu ar fi afectat de erori de reprezentativitate (sau eroarea de reprezentativitate ar fi nul). n cazul unui eantion, media calculat x (media de selecie) se abate cu att mai mult de la media populaiei () cu ct volumul n al probei este mai mic. Cel mai potrivit indicator sintetic pentru calcularea anticipat a erorii ntmpltoare de reprezentativitate, confirmat de experiena practic, este media ptratic a tuturor erorilor de reprezentativitate posibile, pentru eantioane de volum egal n extrase din populaia cu N uniti. Aa cum s-a artat la indicii de variaie ai distribuiilor empirice, mrimea abaterilor medii ptratice ale tuturor mediilor de sondaj de la media populaiei totale depinde de abaterea medie ptratic (abaterea standard) a populaiei respective () i de volumul eantioanelor (n), conform relaiei: . (5.3) n Cnd colectivitatea general ce urmeaz s fie caracterizat pe baza cercetrii selective nu a fost supus unei nregistrri totale anterioare, dispersia caracteristicii studiate se stabilete experimental pe baza unei mostre de cel puin 120 de uniti (2 s2 s). Relaia de mai sus devine:

x =

60

sx =

s n

(5.4)

s x este considerat, deci, unitatea de msur a erorii medii de reprezentativitate. Determinat n acest mod, aceasta este valabil pentru selecia repetat (atunci cnd o unitate extras este reintrodus n populaie i are ansa de a fi extras din nou). Situaia aceasta se ntlnete rar n practic, cazul uzual fiind cel al seleciei nerepetate, atunci cnd volumul N al populaiei scade cu o unitate pentru fiecare nou element inclus n eantion. n acest caz, eroarea medie de reprezentativitate se calculeaz cu relaia: sx = s n N n , N 1 (5.5)

n care: N este numrul de uniti din populaie, n- numrul de uniti din prob, s x - abaterea standard a mediei aritmetice (eroarea de reprezentativitate), s - abaterea standard a caracteristicii studiate. Se observ c, pentru populaii ce se pot aproxima ca fiind infinite (N foarte mare), eroarea de reprezentativitate depinde numai de mrimea probei i ntr-o msur foarte mic de mrimea populaiei: N n N n n = 1 1 (5.6) N 1 N 1 N 1 N n Practic, pentru N>100 i 0,05 , eroarea de reprezentativitate N s i n cazul seleciei nerepetate. este s x = n Pentru caracterizarea gradului de apropiere a mediei sondajului fa de media populaiei se impune i calcularea limitelor de ncredere pentru media populaiei, cu relaiile: x t s x pentru volume mici i (5.7) x u s x pentru volume mari. (5.8) Pentru analize comparative este util calcularea expresiei procentuale a erorii de reprezentativitate:

61

sx 100 (%). (5.9) x n cazul cercetrii selective este posibil obinerea numai a unui rezultat dintr-o serie ntreag de rezultate diferite. Toate rezultatele posibile se mpart n dou grupe (figura 15): rezultate care pot fi acceptate pentru c mediile de selecie ce s-ar obine difer n plus sau n minus fa de media general cu o mrime ce nu prejudiciaz scopul n care se utilizeaz aceste rezultate; rezultate care nu pot fi acceptate pentru c mediile de selecie difer n plus sau n minus fa de media general cu o mrime ce prejudiciaz scopul practic n care se utilizeaz datele cercetrii selective. sx% =

Figura 15. Intervalul de variaie a mediei aritmetice a caracteristicii studiate

Pentru a asigura reprezentativitatea eantionului este necesar s se limiteze intervalul n interiorul cruia poate varia media caracteristicii studiate, stabilindu-se mrimea erorii limit admise (x). Eroarea limit a mediei de selecie este o mrime constant fixat teoretic de cercettor nainte de efectuarea cercetrii selective, n urma unei analize n care se ine seama de dispersia caracteristicii studiate, de scopul n care vor fi utilizate rezultatele cercetrii, de un anumit volum preconizat pentru eantion i de probabilitatea cu care se trebuie garantate rezultatele. Cum , media general, trebuie s fie n interiorul intervalului de ncredere, se poate scrie pentru cazurile de limit: = x x , (5.10) adic poate fi egal cel mult cu limitele intervalului de ncredere. Se deduce astfel c eroarea medie admis x este: x = t s x (sau x = u s x ). (5.11) Deci, pentru sondajul simplu repetat:
62

x = t

s n

(5.12)

iar pentru sondajul simplu nerepetat: s n s N n x = t t 1 , (5.13) N 1 N n n t sau u exprimnd probabilitatea cu care se garanteaz rezultatele. n mod logic, determinarea mrimii eantionului ar fi trebuit s precead expunerea modului de determinare a erorii de reprezentativitate, dar tocmai n formula erorii sunt sintetizate elementele necesare pentru stabilirea volumului eantionului. n teoria i practica sondajelor se opereaz cu eantioane mari i eantioane de volum redus, n funcie de gradul de omogenitate a populaiei. Interpretarea erorii de reprezentativitate se face n mod diferit: pentru eantioane cu volum mare se folosete distribuia normal (u), pentru eantioane cu volum redus se folosete distribuia Student (t). Din reprezentarea grafic urmtoare (figura 16) se observ modul de variaie a erorii de reprezentativitate n funcie de numrul de uniti din eantion. Volumul probei nu poate fi prea mic (sub o valoare n1) pentru c n acest caz eroarea de reprezentativitate ar crete la valori inadmisibile. Un volum al probei peste n2 nu se justific pentru c eroarea de reprezentativitate ar scdea insesizabil. Exist, deci, o zon de optim n care, n funcie de eroarea limit admis, se stabilete volumul eantionului.

Figura 16. Modul de variaie a erorii de reprezentativitate n funcie de volumul probei

63

Organizarea unei cercetri prin sondaj presupune dimensionarea raional a eantionului. Un volum mare al probei, conform legii numerelor mari, sporete precizia rezultatelor. innd cont de criteriile de economicitate, ns, volumul eantionului trebuie s fie ct mai mic. n practic se determin numrul minim de uniti ce trebuie observate astfel nct s fie satisfcute exigenele de precizie i siguran formulate n raport cu costurile cercetrii. Pentru eantioanele cu volum mic (sub 30 de uniti): s N n s2 N n t 2 s2 n x = t 2x = t 2 1 N 1 n N 1 n n N 2 t2 s2 2 2 N t2 s2 . (5.14) n + = t s n = x N N 2x + t 2 s 2 Pentru eantioanele cu volum mare (peste 30 uniti) n locul lui t se folosete u: N u2 s2 n= . (5.15) N 2x + u 2 s 2 n 0,05 , se pornete de la relaia: Atunci cnd N s t 2 s2 t 2 s2 2 x = t x = n= , (5.16) n 2x n respectiv: n= u2 s2 . 2x s% = (5.17) s 100 i x

Relaiile pot fi aplicate i cu nlocuirile:


% =

x 100 . x Problema determinrii numrului de uniti pentru un eantion de volum mare este simpl pentru c se utilizeaz valorile cunoscute ale lui u (u0,05=1,96; u0,01=2,58; u0,001=3,29). Dac volumul probei este mic, se procedeaz astfel: se utilizeaz formulele cu u pentru populaii finite sau infinite (cu luarea n considerare a lui N sau nu) i se determin volumul provizoriu al probei, n: N u2 s2 u2 s2 n' = sau n' = , (5.18) N 2x + u 2 s 2 2x

64

dac n este sub 30, se recalculeaz volumul folosind relaia cu t a crui valoare se ia din tabele pentru n-1 grade de libertate, rezultnd n, dac n difer de n, se recalculeaz volumul probei pentru t aflat n funcie de n-1 grade de libertate, se continu pn cnd ultimele dou valori succesive ale volumului probei, rotunjite la ntreg, sunt egale. n cazul caracteristicilor alternative fiecare unitate elementar inclus n prob poate prezenta sau nu caracteristica studiat (de exemplu: arbore cu fenomen de uscare arbore sntos). Dac a este numrul unitilor ce prezint caracteristica urmrit, din cele n uniti incluse n eantion, eroarea de reprezentativitate, n cazul sondajului simplu nerepetat, este: p (1 p ) N n , (5.19) sp = n N 1 a unde p = , iar N este volumul populaiei studiate. n n cazul sondajului simplu repetat sau pentru populaii considerate n infinite i 0,05 : N p (1 p ) . (5.20) sp = n Numrul de uniti din sondaj se stabilete, n funcie de volumul populaiei, cu una dintre relaiile:
n= u 2 p (1 p ) N u 2 p (1 p ) n = , respectiv , 2p N 2p + u 2 p (1 p )

(5.21)

n care se poate utiliza i p% cu condiia ca p, eroarea limit admis, s fie exprimat de asemenea procentual (p%). Concluzionnd asupra modului de lucru n aplicarea metodei selective, etapele de lucru sunt urmtoarele: se stabilete eroarea limit admis (n valori absolute sau n %); de obicei % se alege ntre 1% i 10% n funcie de natura fenomenului cercetat, de exigen i de posibilitile materiale; se opteaz pentru un prag de semnificaie (probabilitate de transgresiune), de obicei 5%, iar pentru cercetri pretenioase, 1% sau 0,1%, se stabilete abaterea standard sau coeficientul de variaie pentru caracteristica analizat; se folosesc, eventual, valorile acestora determinate prin cercetri anterioare n condiii similare, se determin volumul probei cu una dintre relaiile prezentate anterior.
65

5.2 Metoda secvenial

Pe lng nregistrarea integral i metoda selectiv, atunci cnd apare problema practic de a verifica unele caracteristici calitative ale populaiei studiate, de a testa expeditiv elementele din cadrul acesteia, poate fi aplicat metoda secvenial.

Metoda secvenial se deosebete de metoda selectiv prin faptul c volumul eantionului nu este cunoscut cu anticipaie. Se aplic mai ales pentru controlul calitii produselor, controlul gradului de poluare etc. i ori de cte ori fenomenul studiat prezint dou stri de manifestare posibile (uscat sntos, corespunztor calitativ rebut etc.). n cazul acestei metode, propus de Wald (1947), verificarea ipotezei nule se efectueaz dup extragerea i observarea fiecrei uniti din populaie. S-a observat c, n comparaie cu metodele clasice, numrul de observaii poate s se reduc la jumtate chiar. Pe baza unui eantion redus (chiar de o unitate sau dou) se pot lua decizii rapide de acceptare sau de respingere a ipotezei nule. Controlul calitii produselor fiind domeniul n care se aplic frecvent sondajul secvenial, se va prezenta modul de folosire a metodei n acest scop. Se presupune c este studiat o caracteristic oarecare xi care ia valoarea 0 dac produsul controlat corespunde din punct de vedere calitativ sau valoarea 1 dac acesta este necorespunztor (rebut). Dac s-ar inventaria ntreaga populaie (format din N uniti) s-ar constata c aceasta conine D uniti defecte, proporia acestora fiind D p= . N Dat fiind c nu se face o analiz integral, p rmne necunoscut, dar se pot formula urmtoarele ipoteze, prin verificarea crora, dup fiecare unitate testat, se pot lua anumite decizii: acceptarea lotului, dac se verific ipoteza H0: p p1 respingerea lotului, dac se verific ipoteza alternativ H1: p p2 continuarea verificrii prin extragerea unei alte uniti din populaie (lot), dac datele obinute la un moment dat nu ofer temei suficient de respingere sau acceptare.
66

Pentru c este vorba despre un control, pe baza unei probe, acesta nu ofer certitudini, ci presupuneri asupra acceptrii sau respingerii ntregului lot. Acest lucru prezint anumite riscuri de a lua o decizie eronat, care sunt de dou tipuri: , riscul de genul I sau riscul furnizorului, este riscul de a respinge un lot bun (de a respinge ipoteza H0 cu toate c aceasta, printr-o analiz integral, s-ar dovedi adevrat). Ori de cte ori va exista ntr-un lot o proporie a defectelor p1 sau mai mic, furnizorul va dori s suporte un risc foarte mic de respingere (cel mult ).

, riscul de genul II sau riscul beneficiarului, este riscul de a


accepta un lot necorespunztor (de a respinge ipoteza H1 cu toate c n realitate ea este adevrat sau de a accepta ipoteza H0 atunci cnd ea este eronat).

Ori de cte ori va exista ntr-un lot o proporie a defectelor p2 sau mai mare, beneficiarul va dori s suporte un risc foarte mic de acceptare a lotului (cel mult ). ntre p1, p2, i exist relaiile: 0 p1 p 2 1 (5.22) 1 0 1 1 (5.23) 2 1 (5.24) p 2 p1 N Alte notaii efectuate: m - numrul de uniti testate (controlate), T1 - dreapta de acceptare (numrul maxim de rebuturi din unitile testate m, pentru care se accept ntreg lotul), T2 - dreapta de respingere (numrul minim de rebuturi din cele m uniti testate, pentru care se respinge ntreg lotul), xi - numrul total de rebuturi (suma rebuturilor) gsite printre cele m uniti controlate.

67

Pentru populaii infinite sau cu volum mare (N > 3000) se procedeaz astfel: se calculeaz valorile T1 i T2 (ecuaiile dreptelor T1 i T2) cu relaiile: T1 = k m + h1 (5.25) T2 = k m + h2 , (5.26) n care: 1 lg lg 1 , h2 = , (5.27) h1 = p 2 (1 p1 ) p 2 (1 p1 ) lg lg p1 (1 p 2 ) p1 (1 p 2 ) 1 p1 lg 1 p2 . (5.28) iar: k= p 2 (1 p1 ) lg p1 (1 p 2 ) se rezolv tabelar sau grafic prin continuarea sondajului att timp ct xi este cuprins ntre T1 i T2; dac xi > T2 lotul se respinge, iar dac xi < T1, lotul se accept. Tipul de grafic utilizat este redat n figura 17.

Figura 17. Grafic pentru analiza secvenial n cazul unei populaii infinite

Pentru populaiile finite (N < 3000 uniti), modelul matematic este altul: dreptele de acceptare i de respingere nu mai sunt paralele, ci se intersecteaz ntr-un punct P (x, y):
68

x = N y = p 2 p1 N + 0,5 (5.29) p ln 2 p1 punctele de intersecie ntre dreptele de control i abscis sunt (m1, 0) i (m2, 0) cu: 1 1 N ( p 2 p1 ) N ( p2 p1 ) 1 , (5.30) m1 = N 1 i m2 = N 1 1 acestea, mpreun cu punctul P (x, y) determinnd dreptele T1 i T2. exist o a treia dreapt de control: (5.31) T3 = p1 N rezolvarea cea mai comod este cea grafic, continundu-se sondajul pn cnd xi iese din zona de continuare fie n cea de respingere, fie n cea de acceptare, aceste zone fiind delimitate ca n figura 18.

Figura 18. Grafic pentru analiza secvenial n cazul unei populaii cu volum mic

69

6. VERIFICAREA IPOTEZELOR STATISTICE

Studiul fenomenelor din silvicultur se face pe colectiviti de volum mare. n consecin, se renun la observarea ntregii populaii i se fac msurtori numai pe probe sau eantioane de volum mai mic. Potrivit legii numerelor mari, influena cauzelor ntmpltoare asupra diferenelor dintre indicii statistici ai probelor se poate diminua pe msur ce se mrete numrul observaiilor. Se pot pune n eviden, astfel, numai diferenele cauzate de factori obiectivi. Posibilitile de majorare a numrului observaiilor fiind limitate n practic, apare necesitatea formulrii unor concluzii generale pe baza eantioanelor de volum mic. Indicatorii statistici calculai trebuie analizai, aadar, sub aspectul semnificaiei lor nainte de a-i considera ca baz teoretic pentru caracterizarea fenomenului studiat.
6.1 Teste statistice A testa semnificaia unui indicator statistic nseamn a determina dac abaterea acestuia este de natur aleatoare sau obiectiv (semnificativ). S-au elaborat diverse criterii i metode specifice tiinelor experimentale pentru testarea semnificaiei. Se formuleaz iniial o ipotez statistic reprezentnd o presupunere privitoare la parametrii unei distribuii sau la legea de repartiie pe care o urmeaz anumite variabile. Aceast ipotez este formulat pe baza datelor experimentale de care se dispune la un moment dat i, dup ce este analizat, este acceptat sau respins.

Frecvent, ipoteza statistic utilizat este ipoteza nul (H0) care const n presupunerea c abaterea indicatorilor determinai pe baza probelor fa de parametrii ntregii populaii este 0. Cealalt posibilitate se numete ipoteza alternativ (H1). Cu ajutorul unui test statistic sau test de semnificaie se decide acceptarea sau respingerea ipotezei nule. Acceptarea ipotezei nule nseamn preferarea acesteia fa de ipoteza alternativ. Se desprinde concluzia c ntre valorile comparate (dou valori experimentale sau o valoare experimental i una teoretic) nu exist diferene prea mari sau c aceste diferene sunt ntmpltoare. Respingnd H0, se accept semnificaia abaterilor existente (se accept H1, ipoteza alternativ).
70

Nu se poate pretinde c decizia de acceptare sau respingere a ipotezei nule este corect n toate cazurile pentru c se bazeaz numai pe o selecie de volum n din populaia ntreag (de volum N). Este posibil, deci, o eroare. Deciziile se iau cu o probabilitate de eroare q (probabilitate de transgresiune sau prag de semnificaie), care n general se alege 5%, 1% sau 0,1%. Eroarea care apare n cazul respingerii H0 cu toate c ea este, n realitate, adevrat, se numete eroare de genul I. Decizia greit de a accepta ipoteza H0, fals n realitate, se numete eroare de genul II.
Prin metodele de examinare a semnificaiei, ipoteza nul poate fi respins, dar nu poate fi niciodat dovedit. Se poate susine, cel mult, c ipoteza respectiv nu se afl n discordan cu datele experimentale. Asigurarea statistic nseamn o probabilitate mic a ipotezei contrare.

La examinarea semnificaiei se folosesc anumite teste: teste de conformitate, utilizate pentru compararea unei populaii teoretice cu o prob din punct de vedere al mediilor, abaterii standard, varianei, coeficientului de corelaie etc.; teste de egalitate sau omogenitate, care permit compararea unui numr de populaii prin intermediul unui numr egal de probe extrase din acestea (omogenitatea mediilor, a varianelor, a coeficienilor de corelaie etc.); teste de ajustare, folosite pentru compararea a dou distribuii (experimental cu teoretic sau distribuii experimentale ntre ele); teste de independen, care permit s se verifice dac dou sau mai multe criterii de clasificare sunt sau nu independente. Luarea unei decizii cu privire la o anumit ipotez statistic se numete testare. Testarea const n alegerea unui test statistic corespunztor i stabilirea unui prag de semnificaie; rezult o anumit valoare teoretic pentru testul respectiv.

dac valoarea estimat a testului este mai mic dect valoarea teoretic, se admite ipoteza nul; dac valoarea estimat este mai mare dect valoarea teoretic, ipoteza nul se respinge.

71

6.2 Repartiii utilizate pentru testri

n cazul testrii ipotezei nule se folosesc variabile aleatoare de testare care urmeaz legi teoretice de repartiie.
6.2.1 Repartiia normal

Dac variabilele de testare au o repartiie normal, q corespunde probabilitii de transgresiune. La o anumit probabilitate de eroare, q, x corespunde u = ; n general, i sunt presupuse cunoscute

numai pentru selecii mari i sunt estimai prin x i s. Probabilitatea de transgresiune de 5% corespunde unei valori a lui u=1,96. n acest caz se respinge ipoteza nul dac valoarea uexp calculat din selecie ndeplinete condiia uexp>uteoretic=1,96 i se accept dac uexputeoretic=1,96.
6.2.2 Repartiia t (Student)

Procedeul descris pentru repartiia normal nu mai este valabil n cazul n care i sunt necunoscui i trebuie estimai prin x i s pe baza unei selecii de volum mic (N<100). n aceast situaie se folosete repartiia t a lui Student care ia n considerare, pe lng probabilitatea de transgresiune, i volumul probei. Pentru valori din ce n ce mai mari ale lui N aceast repartiie devine din ce n ce mai apropiat de repartiia normal i coincide cu aceasta atunci cnd N. Repartiia t este tabelat pentru anumite praguri de semnificaie q i diferite grade de libertate f. Numrul gradelor de libertate este egal cu diferena dintre volumul seleciei i numrul caracteristicilor luate n considerare (f=N-m).
6.2.3 Repartiia F (Fisher)

Fie dou eantioane de volum n1 i, respectiv, n2 extrase dintr-o populaie normal i s12 i s22 cele dou variane corespunztoare acestora. s2 Se formeaz raportul Fexp = 12 . Repartiia frecvenelor acestor s2 valori a fost studiat de Fisher i se numete repartiia F. Aceasta depinde de pragul de semnificaie q (probabilitatea de transgresiune) i de gradele de libertate f1=n1-1 i f2=n2-1, a fost tabelat i servete la compararea a dou dispersii. Fiind raportul a dou ptrate, F ia numai valori pozitive.
72

6.2.4 Repartiia 2

n strns legtur cu teoria erorilor a lui Gauss, a fost studiat suma ptratelor unor variabile repartizate normal. Fie X1, X2, ..., Xn, n variabile aleatoare independente care au aceeai repartiie normal de parametri i 2. Repartiia sumei de ptrate: 1 n 2 = 2 ( x k )2 , (6.1)

k =1

n care x1, x2, ..., xn sunt valori ale variabilelor aleatoare X1, X2, ..., Xn, a fost numit de K.Pearson repartiia 2. Aceasta depinde de pragul de semnificaie q i de gradele de libertate f i este tabelat pentru aceste valori. Este folosit frecvent la compararea unei distribuii experimentale cu una teoretic sau a dou distribuii experimentale ntre ele.
6.3 Verificarea concordanei dintre distribuia experimental i cea teoretic

Verificarea corespondenei dintre repartiiile teoretice i cele empirice (testul de ajustare) se face, de obicei, cu ajutorul criteriului 2. Se formuleaz de la nceput ipoteza c distribuia experimental urmeaz legea distribuiei teoretice (normal, Charlier, binomial, Poisson etc), deci c diferenele dintre distribuii sunt nule (ipoteza nulH0). Verificarea ipotezei nule prin testul 2 necesit respectarea unor condiii: numrul observaiilor s fie suficient de mare (s intre sub incidena legii numerelor mari), frecvenele distribuiei experimentale s fie exprimate n valori absolute, numrul grupelor (claselor) formate s fie cel puin egal cu 5, volumul grupelor s fie suficient de mare (frecvena absolut s fie cel puin egal cu 5); dac exist grupe cu frecvene mai mici, acestea se vor contopi. Relaia de calcul este:

2 =
i =1

ni ni

ni

(6.2)

73

Calculul se desfoar tabelar (tabelul 6), dup modelul testrii normalitii distribuiei empirice a diametrelor de baz exemplificate anterior.
Tabelul 6. Exemplu de aplicare a testului
2

xi
1

ni
2

ni
3

ni ni

ni
4

20 24 28 32 36 40 44 48 52 56 60 64 68 TOTAL

0 0 4 9 18 32 21 21 17 11 5 4 2 144

0 1 4 9 16 23 26 25 19 12 6 2 1 144

0,071 0,250 3,522 0,962 0,640 0,211 0,083 0,444 6,183

se nsumeaz ultima coloan i se obine 2exp. din tabele se extrage 2teoretic n funcie de probabilitatea de transgresiune (pragul de semnificaie) q= 0,05 i numrul gradelor de libertate f. f = k n 1, (6.3) n care : k - numrul claselor rmase dup eventuala grupare a claselor extreme; n - numrul momentelor luate n calcul la determinarea distribuiei teoretice: n = 1 la distribuia Poisson i binomial, n = 2 la distribuia normal, n = 4 la distribuia Charlier tip A, n = 0 atunci cnd se compar dou distribuii empirice.

74

Dac 2exp2teoretic se accept ipoteza nul care consider c ntre distribuiile comparate nu sunt diferene semnificative. Dac 2exp>2teoretic nu exist concordan ntre cele dou distribuii i se respinge ipoteza nul.
2 2 exp = 6,183 , teoretic = 11,070 (pentru probabilitatea de transgresiune 5% i 5 grade de libertate). 2 2 , ceea ce nseamn c distribuia experimental este bine exp < teoretic ajustat de distribuia teoretic normal (se accept ipoteza nul).

Pentru exemplul considerat,

6.4 Examinarea semnificaiei diferenei dintre dispersii

Prin compararea dispersiilor se pot scoate n eviden particularitile colectivitilor cercetate (omogenitatea lor). Se aplic, deci, un test de egalitate sau de omogenitate.
6.4.1 Compararea unei dispersii experimentale (s2) cu o dispersie teoretic cunoscut (2) Etapele testrii n acest caz sunt: se determin variana experimental s2 n cadrul unei probe extrase din colectivitatea studiat; se face raportul s2/2; se determin f=N-1 (numrul gradelor de libertate); din tabele se extrage 2teoretic n funcie de pragul de semnificaie q i de f; se calculeaz raportul 2/f.

Dac s2/22/f diferena dintre dispersii este nesemnificativ. Dac s2/2>2/f diferena dintre dispersii este semnificativ.
6.4.2 Verificarea semnificaiei diferenei dintre dou dispersii experimentale n acest caz se folosete testul Fisher (F). Aplicarea se face n mai multe etape: se determin varianele s12 i s22 corespunztoare celor dou colectiviti de volum egal sau diferit (N1 i N2);
75

se determin valoarea teoretic a lui F n funcie de probabilitatea de transgresiune q i f1=N1-1 i f2=N2-1 (din tabele); s2 se compar Fteoretic cu Fexperimental= 12 , cu condiia Fexperimental1 s2 (ntotdeauna variana mai mare se afl la numrtor).

Dac FexperimentalFteoretic diferena dintre cele dou dispersii este nesemnificativ (reprezint, ambele, estimaii ale aceleiai dispersii teoretice 2). Dac Fexperimental >Fteoretic diferen semnificativ ntre dispersii.

6.4.3 Verificarea omogenitii mai multor dispersii

n aceast situaie se poate aplica testul Hartley (H): se calculeaz dispersiile s12, s22, ..., sn2 ale celor n colectiviti egale ca volum (N) i se identific dispersia maxim i cea minim; s2 se determin H exp = max ; 2 s min se calculeaz numrul gradelor de libertate f=N-1; n funcie de probabilitatea de transgresiune (q), numrul gradelor de libertate (f) i numrul de probe comparate (n) se extrage din tabele valoarea Hteoretic.

Dac HexpHteoretic probele sunt omogene, deci dispersiile analizate se consider estimaii ale aceleiai dispersii teoretice generale (2). Dac Hexp>Hteoretic eantioanele nu sunt omogene din punct de vedere al varianelor, (nu provin din aceeai populaie sau populaia nu este omogen i necesit stratificarea).

76

6.5 Teste de conformitate. Compararea mediilor 6.5.1 Intervalul de ncredere al mediei aritmetice Datorit variabilitii individuale i a volumului variabil al probelor extrase din populaiile studiate, n practic valoarea determinat a mediei aritmetice trebuie nsoit de intervalul de ncredere corespunztor probabilitii de transgresiune acceptate (5%, 1% sau 0,1%). Modul de determinare a intervalului de ncredere difer dup cum abaterea standard teoretic a populaiei din care s-a extras eantionul este sau nu cunoscut. n cazul cnd se cunoate (sau cnd exist un numr mare de observaii: N>100), abaterea standard a mediei aritmetice se calculeaz n acest caz cu relaia cunoscut:

sx = Intervalul de ncredere va fi:

N
x

(6.4) (6.5)

(x u s ) .

Pentru u egal cu 1,96, 2,58 sau 3,29 exist o siguran statistic (probabilitate de acoperire) de 95%, 99% sau, respectiv, 99,9% ca adevrata medie a populaiei studiate () s se gseasc n intervalul de ncredere calculat cu relaia anterioar.

n practic exist puine situaii n care se cunoate cu anticipaie valoarea teoretic a abaterii standard. Pentru unele caracteristici biometrice au fost stabilite, totui, valori orientative ale coeficientului de variaie (%). Se poate aproxima astfel abaterea standard: x % , (6.6) 100 n care x este media aritmetic experimental. Pot fi utilizate valori ale abaterii standard obinute prin cercetri anterioare, efectuate n condiii similare. n cazul cnd abaterea standard teoretic nu se cunoate, n locul variabilei normale normate u se utilizeaz valoarea lui t (testul Student). Limitele intervalului de ncredere vor fi definite de expresia: s . (6.7) x t sx = x t N t se extrage din tabele n funcie de probabilitatea de transgresiune q i de numrul gradelor de libertate f=N-1.
77

Deci, spre deosebire de cazul anterior, coeficientul de multiplicare a erorii mediei aritmetice se determin nu numai n funcie de probabilitatea de transgresiune ci i de numrul de observaii din cadrul probei. Metoda se folosete i atunci cnd N100 (pentru probe de volum mic). Pentru un numr mare de observaii, intervalul determinat prin aceast metod se suprapune peste intervalul determinat prin folosirea lui u. Pentru a avea o anumit acoperire statistic, intervalul de ncredere al mediei aritmetice se mrete n cazul unui numr mic de uniti N n prob. De asemenea, intervalul de ncredere se extinde pe msur ce scade probabilitatea de transgresiune.
6.5.2 Compararea a dou medii aritmetice Se ntlnesc situaii, n lucrrile curente, cnd este necesar compararea a dou sau mai multe medii rezultate prin luarea n considerare a unor colectiviti diferite (eantioane diferite extrase din aceeai populaie de volum mare sau din populaii diferite). O condiie ce trebuie ndeplinit este aceea a normalitii populaiilor considerate. Problema se rezolv diferit, dup cum dispersiile aproximeaz aceeai varian 2 a populaiei ntregi. Este necesar o prim etap, testul Fisher (F), pentru stabilirea semnificaiei diferenei dintre varianele celor dou probe: s12 Fexp = 2 1 . (6.8) s2 Fexp se compar cu Fteoretic luat din tabele n funcie de probabilitatea de transgresiune q (cu valorile obinuite 5% i 1%) i de numrul gradelor de libertate pentru probele comparate (f1=N1-1; f2=N2-1).

Dac FexpFteoretic 5% diferena ntre cele dou dispersii este nesemnificativ; Dac Fteoretic 5%<FexpFteoretic 1% exist o diferen semnificativ ntre dispersiile celor dou eantioane; Dac Fexp>Fteoretic 1% exist o diferen distinct semnificativ ntre cele dou probe din punct de vedere al variaiei caracteristicii analizate.

78

Etapa a doua const n aplicarea testului t (Student) pentru compararea mediilor aritmetice ale celor dou probe ( x1 i x 2 ). Dac la prima etap a rezultat o diferen nesemnificativ ntre 2 varianele s12 i s 2 , se poate calcula o varian medie s 2 ca medie ponderat n raport cu numrul gradelor de libertate pentru cele dou probe: 2 s 2 f + s2 f2 s2 = 1 1 . (6.9) f1 + f 2 Abaterea standard medie va fi:

s=

s2 ,

(6.10)

iar valoarea experimental a testului t se obine cu relaia:


t exp = x1 x 2 1 1 s + N1 N 2

(6.11)

Dac la prima etap a rezultat o diferen cel puin semnificativ 2 ntre varianele s12 i s 2 nu este permis calculul unei variane medii, ci se determin direct texp cu relaia:
x1 x 2 s12 s2 + 2 N1 N 2

t exp =

(6.12)

i se calculeaz corecia c: c= s12 N1 s12 s2 + 2 N1 N 2 , (6.13)

n care s12 este variana care s-a aflat la numrtorul lui Fexp n prima etap. n ambele situaii, tteoretic se extrage din tabele n funcie de probabilitatea de transgresiune (q=5%) i numrul gradelor de libertate pentru ansamblul format din cele dou probe. n primul caz: f = f1 + f 2 = N1 + N 2 2 , (6.14)
79

iar n cel de-al doilea: f =

(1 c ) c + f1 f2
2

(6.15)

texp tteoretic diferen nesemnificativ ntre mediile aritmetice ale celor dou probe; texp> tteoretic diferen semnificativ ntre medii.
6.6 Compararea efectului a dou tratamente prin metoda cuplurilor

n practic se ntlnesc dou situaii diferite: cnd unitile cercetate sunt omogene din punct de vedere al procedeului utilizat (tratamentului), se mpart n dou grupe egale i fiecare se consider ca selecie extras din aceeai populaie. Modul de calcul este identic cu cel aplicat la compararea mediilor. atunci cnd unitile cercetate nu sunt omogene, se extrag perechi de valori (cupluri) i se studiaz efectul celor dou procedee (tratamente) n paralel, ntr-o form tabelar ca n figura 19.
Numrul perechii (cuplului) Procedeul (tratamentul) A B xi1 xi2 Diferene di=xi1-xi2 di2

Figura 19. Model de tabel pentru aplicarea metodei cuplurilor

Etapele de lucru sunt: se grupeaz unitile statistice n n cupluri de valori; se calculeaz, pentru fiecare pereche, di i di2;
se determin

2 i

se calculeaz media diferenelor:

; (6.16) n se determin dispersia i abaterea standard pentru aceste diferene:

d=

d
2

2 sd =

2 i

( d )
i

n 1

sd =

2 sd ;

(6.17)

80

se calculeaz :

d n; (6.18) sd se compar cu tteoretic extras din tabele n funcie de probabilitatea de transgresiune (q=5%) i numrul gradelor de libertate f=n-1. t exp =
Dac texp tteoretic diferena ntre cele dou procedee este nesemnificativ; Dac texp> tteoretic cele dou procedee (tratamente) difer semnificativ.
Procedeul prezentat are avantajul c studiind perechile de uniti se elimin variabilitatea din cadrul populaiei (surs de erori ntmpltoare) i rmn numai abaterile datorate procedeelor diferite aplicate.
6.7 Examinarea semnificaiei diferenei dintre dou proporii

n situaia n care se pune problema comparrii a dou proporii de manifestare a unui fenomen analizat n cadrul unor eantioane de volum N1 i N2, pentru testarea semnificaiei diferenei dintre acestea se procedeaz n modalitatea prezentat n continuare. Presupunem c n proba de volum N1 se observ fenomenul studiat n a1 cazuri, iar n proba de volum N2, de a2 ori. Proporiile rezultate sunt: a a (6.19) p1 = 1 i p 2 = 2 . N1 N2 Pentru ntreaga populaie: a + a2 . (6.20) p= 1 N1 + N 2 Se aplic testul u: p1 p 2 u exp = . (6.21) 1 1 p(1 p ) N + N 2 1

n cazul unor eantioane de volum mic (N< 30) se aduc corecii proporiilor calculate: 1 1 p1 ' = p1 ; p2 ' = p2 + . (6.22) 2 N1 2N 2
81

uexp se compar cu uteoretic la o anumit probabilitate de transgresiune. Dac uexp uteoretic diferen nesemnificativ ntre proporii; Dac uexp> uteoretic diferen semnificativ ntre proporii.

82

7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA VARIANEI

Asupra unei colectiviti pot aciona simultan mai muli factori ce genereaz o anumit fluctuaie a valorilor caracteristicii cercetate, fluctuaie redat printr-o dispersie mai mare sau mai mic. Pentru evidenierea influenei fiecrui factor asupra variaiei indicatorilor statistici se utilizeaz analiza varianei sau analiza dispersional.

Analiza varianei ca metod statistic are drept scop scindarea dispersiei totale n categorii de variaie, n vederea stabilirii celor mai importani factori ce influeneaz fenomenul studiat.
Variana total este format din suma varianelor datorate factorilor luai n studiu, pe de o parte, i dintr-o varian rezidual a crei cauzalitate nu este cunoscut n momentul analizei, pe de alt parte. Variana rezidual se datoreaz aciunii unor factori neluai n considerare, unor erori de msurare etc. Aceasta se folosete ca unitate de msur pentru examinarea semnificaiei celorlalte componente ale varianei totale. Condiii de aplicare a analizei varianei sunt: probele considerate trebuie s fie omogene; constituirea probelor trebuie s fie fcut randomizat (extragerea la ntmplare a unitilor din populaie); probele trebuie s fie extrase din populaii normale sau aproape normal distribuite; numrul observaiilor trebuie s fie suficient de mare, astfel nct s intre sub incidena legii numerelor mari. 7.1 Ecuaia analizei varianei

Presupunem c se compar I probe (eantioane) egale, fiecare avnd J uniti (indivizi). Se admite c probele provin din populaii normal distribuite i cu aceeai abatere standard () a caracteristicii studiate; s-a verificat, deci, faptul c varianele calculate pentru cele I probe sunt omogene (aproximeaz aceeai varian general 2). Eantioanele au fost extrase randomizat i independent unele fa de altele. Scopul analizei este acela de a testa dac cele I probe difer statistic unele fa de altele (mai exact, dac exist cel puin dou probe
83

care difer mcar semnificativ ntre ele) i, eventual, de a ordona probele n funcie de un anumit criteriu. Notaiile efectuate pentru aceast analiz sunt: i - eantioanele; i=1, ..., I ; j - unitile (indivizii) fiecrui eantion; j=1, ..., J; xij - valoarea caracteristicii studiate pentru unitatea j din proba i. Pentru fiecare eantion i se poate scrie: xij = xi + eij , cu j=1, ..., J (7.1) xi reprezint media aritmetic a valorilor caracteristicii studiate, n eantionul i, iar eij este abaterea fa de media xi a fiecrei valori individuale xij. Considernd X , media tuturor valorilor caracteristicii studiate (a celor I J valori xij), se poate scrie: x ij = X + E ij , (7.2) n care Eij este abaterea fiecrei valori individuale xij fa de media general X . Din relaiile anterioare se obine: Eij = xij X = xi X + (xij xi ) = xi X + eij , (7.3)

iar prin ridicare la ptrat:


2 E ij = xi X

2 + eij + 2 eij xi X .

(7.4)

nsumnd ptratele erorilor pentru toate cele I J valori:

Eij2 = xi X
i =1 j =1 i =1 j =1
I

) + e
2 I J i =1 j =1

2 ij

+ 2 eij xi X .
i =1 j =1

(7.5)

Ultimul termen al sumei se mai poate scrie:


I J 2 ei1 xi X + ei 2 xi X + ... + eij xi X = 2 xi X eij = 0 , i =1 j =1 i =1 pentru c: pentru fiecare i, deci pentru fiecare prob, ( xi X ) este constant, iar

[ (

)]

e
j =1

ij

= 0 (una dintre proprietile mediei aritmetice).


I J I

Se obine:
i =1 j =1 i =1

Eij2 = J xi X

) + e
2
I J i =1 j =1

2 ij

(7.6)

Aceasta este ecuaia analizei varianei, care mai poate fi scris i n forma: Q = QF +QE , (7.7)
84

Ecuaia analizei varianei arat c:

Suma ptratelor abaterilor totale (Q) poate fi mprit n dou componente aditive:
QF , o sum a ptratelor abaterilor factoriale sau interpopulaionale (ntre probe) i QE, o sum a ptratelor abaterilor reziduale sau intrapopulaionale (n interiorul probelor).

Dup modul de grupare a observaiilor, analiza varianei poate fi: simpl: cnd valorile individuale se grupeaz dup un singur criteriu (monofactorial); dubl: cnd valorile individuale se grupeaz dup dou criterii (bifactorial); multipl: multifactorial. Atunci cnd se cerceteaz concomitent doi sau mai muli factori se urmrete att aciunea izolat a fiecruia ct i interaciunea lor. Importana analizei varianei const n: permite evaluarea eficacitii diverselor procedee experimentale prin stabilirea intensitii reale a factorilor ce genereaz variabilitatea; permite determinarea corect a valorilor experimentale ale indicilor statistici i a erorilor acestora.
7.2 Analiza simpl a varianei

Desfurarea calculelor are loc n funcie de modul de organizare a lucrrilor experimentale, implicnd o anumit metod de prelucrare a datelor. Pentru analiza simpl a varianei cu numr egal de observaii n grupe se parcurg etapele prezentate n continuare.

Pentru numr inegal, modul de aplicare a metodei este deosebit doar n ceea ce privete calculul sumei ptratelor abaterilor Prima etap const n pregtirea datelor pentru analiza varianei (tabelul 7).
85

Tabelul 7. Prelucrarea primar a datelor experimentale


Proba i 1 2 ... TOTAL
(*)

xij x11, x12, x13, . . . , x1J x21, x22, x23, . . . , x2J ...

Ni = J N1 = J N2 = J ...

Ti = xij
j =1

xi

T1 T2 ...

x1 x2
...

N = Ni = I J
i =1

G = Ti
i =1

x (*)

se poate calcula media mediilor numai dac la finalul analizei varianei se poate afirma c nu sunt diferene semnificative ntre probe.

Etapa a doua este chiar analiza simpl a varianei desfurat tabelar (tabelul 8). Observaii: pentru calculul lui QF pentru grupe inegale se raporteaz Ti2 la Ni; G2 c este o corecie egal cu . N
Tabelul 8. Analiza simpl a varianei
Sursa de variaie ntre probe (factorial) rezidual Total Suma ptratelor abaterilor Gradele de libertate Variane
2 sF =

Test F

QF =

Ti 2 c i =1 J
I

fF = I 1
fE = f fF = N I
f = N 1

QF fF
QE fE

Fexp =

2 sF 2 sE

QE = Q QF
2 Q = xij c i =1 j =1 I J

2 sE =

Valorile lui Fteoretic se extrag din tabele n funcie de probabilitatea de transgresiune (5% i 1%) i de numrul gradelor de libertate fF i fE.

Fexp Fteoretic0,05 nu exist diferene semnificative ntre probe; Fteoretic0,05 <Fexp Fteoretic0,01 exist diferene semnificative ntre probe Fexp > Fteoretic0,01 ntre probe exist diferene distinct semnificative.

86

n ultimele dou cazuri, concluzia este c exist cel puin dou probe care difer semnificativ, respectiv distinct semnificativ. Aceste diferene vor fi puse n eviden n cea de a treia etap, i anume: aplicarea testului t pentru analiza semnificaiei diferenelor dintre medii. Se completeaz tabelul 9.
Tabelul 9. Analiza semnificaiei diferenelor dintre medii
Proba 4
1 3

xi
x4 x1

Diferene (d) fa de proba ... 4 1 3 ... ... x 4 x1 x 4 x3 ... x1 x 3 ... ...

...

x3 ...

se aranjeaz n ordine descresctoare a mediilor

Pentru probabilitile de transgresiune uzuale (5%, 1% i 0,1%) se calculeaz diferenele limit (DL) cu relaia: DL = s d t , (7.8) n care abaterea standard a diferenelor (sd) este: 2 2 sd = s E , (7.9) J iar dac probele nu sunt de volum egal:
1 2 1 sd = s E N + N cu i, k = 1, , I. (7.10) k i Valoarea lui t se ia din tabele n funcie de probabilitatea de transgresiune i de numrul gradelor de libertate, fE. Se analizeaz pe rnd diferenele d din tabel. Semnificaia se marcheaz n tabelul cu diferenele experimentale.
d DL0,05 diferena d este nesemnificativ; DL0,05 < d DL0,01 diferena d este semnificativ (notaie *) DL0,01< d DL0,001 diferena d este distinct semnificativ (notaie **); d > DL0,001 diferena d este foarte semnificativ (notaie ***).

87

8. ANALIZA CORELAIEI

Caracteristic fenomenelor i proceselor studiate de biostatistic este faptul c acestea sunt rezultatul aciunii unui mare numr de factori (variabile), unii principali, alii secundari, unii eseniali, alii nesemnificativi, unii msurabili, alii nemsurabili.
Analiza corelaiei este o metod statistic prin care se cerceteaz i se exprim existena, tipul i intensitatea interdependenei dintre dou sau mai multe variabile aleatoare prin intermediul unor indicatori statistici (coeficientul de corelaie, raportul de corelaie). 8.1 Tipuri de legturi ntre variabile

Termenul corelaie este folosit pentru a defini interdependena (legtura) ntre variabilele observate n populaii statistice. Este sinonim cu legitate statistic sau legtur statistic. Etimologic, termenul corelaie provine din latin (corelatio = n relaie cu) i a fost folosit n biologie de Charles Darwin cu sensul de variabil corelativ. n statistic a fost preluat de Galton cu semnificaia de raporturi reciproce ntre anumite caracteristici. Legtura dintre dou sau mai multe caracteristici poate fi (figura 20): funcional; statistic (stohastic). n cazul dependenei funcionale, unei anumite valori a variabilei independente x i corespunde o singur valoare a variabilei dependente y. n cazul legturii statistice, unei valori x pentru variabila independent i corespund mai multe valori y care admit o medie reprezentativ.

Figura 20. Diferenierea dintre o legtur funcional i una statistic


88

Dup numrul caracteristicilor a cror interdependen o studiaz, corelaia poate fi simpl sau multipl. Corelaia simpl exprim legtura dintre dou caracteristici dintre care una este considerat variabila independent (x), iar cea de-a doua, variabila dependent de prima (y). Corelaia multipl exprim dependena statistic ntre o variabil dependent (rezultativ) i mai multe variabile independente (factoriale). Atunci cnd tipul legturii dintre dou caracteristici este greu de stabilit datorit numrului redus de observaii sau cnd aceste caracteristici sunt exprimate n uniti calitative, dependena statistic se poate exprima prin corelaia de rang. Importana analizei corelaiei const n faptul c pune n eviden natura legturii cercetate i intensitatea ei.

Se consider o colectivitate statistic reprezentat prin caracteristicile X i Y pentru care, n urma determinrilor experimentale, s-au obinut valorile nregistrate ntr-un tabel de forma: X Y x1, x2, x3, ..., xn y1, y2, y3, ..., yn

Repartiia empiric a variabilelor X i Y se analizeaz pe cale grafic ntr-un sistem de axe ortogonal n care se reprezint punctele de coordonate (xi, yi). Ansamblul acestor puncte se numete cmp de corelaie sau nor statistic, iar graficul n ntregime corelogram (figura 21). Dac punctele Mi (xi, yi) sunt distribuite de-a lungul unei fii care, n general, urmeaz o curb determinat, se poate afirma c ntre mrimile respective exist o dependen sau o legtur corelativ. Cu ct norul statistic (cmpul de corelaie) este mai ngust cu att legtura dintre variabilele studiate este mai puternic. ntr-un caz particular, aceast legtur corelativ se poate transforma n dependen funcional, atunci cnd punctele cmpului de corelaie se situeaz strict pe o anumit curb sau dreapt. Problema care se pune este de a exprima numeric gradul de dependen dintre cele dou variabile (gradul de apropiere de o dependen funcional).

89

Figura 21. Cmp de corelaie n dou situaii diferite de interdependen a variabilelor

Din modul de dispunere a grupului de puncte (nor statistic) se poate aprecia sensul legturii (figura 22). Aceasta poate fi direct (pozitiv), atunci cnd X i Y cresc sau descresc simultan, i invers (negativ), atunci cnd la modificarea ntr-un sens a variabilei X, Y se modific n sens contrar.

Figura 22. Observarea grafic a sensului corelaiei dintre variabile

n cazul n care ntre X i Y nu exist nici un fel de dependen, norul statistic va fi mprtiat. n foarte multe situaii, din observarea fenomenelor naturale sau sociale, fr a cunoate natura exact a acestora i nici cauzele manifestrii unei anumite caracteristici, se pot trage concluzii foarte importante prin examinarea corelaiei dintre acestea i alte evenimente. n astfel de cazuri, analiza corelaiei poate aduce contribuii valoroase deoarece este o metod de cercetare a fenomenelor care se bazeaz pe descompunerea unui ntreg n elementele lui componente i analiza relaiilor statistice dintre acestea. Atunci cnd se utilizeaz mai multe variabile se poate distinge o corelaie parial, cnd se consider pentru moment constante unele variabile, i o corelaie total, atunci cnd se iau n considerare variaiile tuturor mrimilor variabile. Se poate determina, astfel, ponderea diverilor factori la realizarea unui fenomen de mas.

90

n silvicultur, legturile dintre fenomene sau caracteristici sunt legturi statistice. Dei nu au caracter funcional, determinarea acestora prezint o importan deosebit pentru c prin cunoaterea valorilor unei caracteristici se pot determina valorile altei caracteristici (cu o anumit aproximaie) fr a efectua asupra acesteia din urm msurtori costisitoare sau foarte dificile (de exemplu, diametrul la 0,5 h n funcie de d -diametrul la 1,30 m-, pentru arbori). Corelaia constatat ntre dou variabile, dar care nu are nici o semnificaie cauzal se numete corelaie aparent sau fals. Este imprudent s se interpreteze corelaia n termeni de cauzalitate fr a cunoate n profunzime fenomenele studiate. Corelaia este doar o reflectare a legturilor cu caracter complex existente ntre fenomenele de mas. Statistica nu poate oferi informaii despre cauzalitatea legturilor dintre dou sau mai multe variabile.

Corespondena dintre variabile poate rezulta, de cele mai multe ori, dintr-o legtur nemijlocit ntre fenomene. n alte cazuri, dou fenomene se pot modifica (n acelai sens sau n sensuri opuse) ca urmare a modificrii unui al treilea factor, fr ca ntre primele dou s existe o legtur cauzal (de exemplu: diametrul i nlimea ntr-un arboret echien depind de dezvoltarea biocenozei respective care influeneaz printr-o multitudine de factori modificarea celor dou caracteristici direct intercorelate). O a treia situaie este cea a unui paralelism ntmpltor n modul de variaie a dou sau a mai multor fenomene. Se citeaz deseori exemplul tipic al unui cercettor care a nregistrat frecvena cuiburilor de barz reperate ntr-o suburbie a Londrei i, n paralel, frecvena naterilor n aceeai suburbie, pentru o anumit perioad. Datele au artat c perioada cu cea mai mare frecven pentru una dintre variabile corespunde unei frecvene ridicate i pentru cealalt. Statistic, corelaia ntre cele dou fenomene s-a dovedit ridicat. Nu se poate vorbi, ns, la modul serios, de o relaie cauz-efect n acest caz. Asemenea situaii practice atrag atenia asupra necesitii diferenierii legturilor cauzale de legturile formale. Se poate trece de la o relaie statistic determinat empiric la o relaie cauzal numai prin cunoaterea temeinic a domeniului studiat.

91

8.2 Coeficientul de corelaie

Indicatorul statistic care d msura intensitii legturii corelative dintre dou variabile este coeficientul de corelaie liniar (coeficientul Bravais-Pearson).
8.2.1 Proprietile coeficientului de corelaie Proprietile coeficientului de corelaie sunt: notaie: pentru populaia ntreag i r pentru un eantion; este indicatorul statistic care exprim numeric intensitatea legturii liniare dintre dou sau mai multe variabile; exprim gradul dispersiei valorilor caracteristicii rezultative y n jurul dreptei ce reprezint funcia de corelaie (dreapta de regresie); cu ct aceast dispersie este mai mare, cu att coeficientul de corelaie este mai mic n modul, i invers; ia valori n intervalul [-1,1]; cu ct este mai apropiat de 1 sau de -1 cu att corelaia este mai puternic; dac (sau r) = 1, corelaia este perfect (mai exact, legtura corelativ se transform ntr-o legtur funcional); dac (sau r) = 0, nu exist corelaie (variabilele luate n considerare nu depind ntre ele); r este coeficient de corelaie empiric (se refer la distribuii empirice, nu teoretice) i estimeaz, doar, valoarea lui . Atunci cnd numrul observaiilor este mic, pentru studierea legturii corelative ntre dou caracteristici se folosete un tabel de tipul celui prezentat deja (tabelul anterior). Dac numrul datelor experimentale este mare, acestea trebuie s fie grupate pe clase, att dup caracteristica X, ct i dup caracteristica Y. Rezult astfel distribuia empiric bidimensional ntr-un tabel de corelaie (tabelul din figura 23).

Figura 23. Forma general a unui tabel de corelaie


92

Studiul unui ansamblu bidimensional de date experimentale nu trebuie sa se limiteze la o analiza numeric automat, ci trebuie s-i sprijine concluziile i pe o analiz grafic atent. Situaiile prezentate n figura 24 atenioneaz asupra pericolului interpretrii legturii statistice dintre dou caracteristici numai prin valoarea coeficientului de corelaie.

Figura 24. Situaii improprii unei analize corecte a corelaiei

n prima situaie este clar necesitatea evidenierii a dou subpopulaii pentru care legtura corelativ ntre cele dou variabile analizate (x i y) este total diferit. n cea de-a doua, valoarea extrem izolat (B) genereaz un coeficient de corelaie cu valoare mare, dar ntre cele dou variabile nu exist, n realitate, nici o legtur statistic.
8.2.2 Determinarea coeficientului de corelaie pentru corelaia simpl

Se folosesc relaiile de calcul:

=
sau:
r=

xy

x y
s xy sx sy =

(pentru o populaie)
cov( xy ) (pentru o prob), sx sy

(8.1)
(8.2)

n care: sx reprezint abaterea standard a caracteristicii x; sy- abaterea standard a caracteristicii y; sxy sau cov(xy) - covariana (variana comun). Pentru valori negrupate n clase, se cunoate c:

sx =

( x )
N

N 1

i s y =

( y )
N

N 1

(8.3)

93

iar covariana se obine cu relaia:

s xy = Deci:

(x x ) ( y y ) xy
N 1 =

x y
N . (8.4)

N 1

xy
r=

x y
N
2 2

x
=

( x )
N

N 1

( y )
N

N 1

N 1

[N x

N xy x y
2

( x ) N y 2 ( y )
2

][

(8.5)

Dac se face gruparea n clase intervin frecvenele distribuiilor marginale nx, ny i frecvenele distribuiilor de clase nxy:
N n xy x y n x x n y y x y x y
2 2 2 2 N nx x nx x N n y y ny y x x y y

r = rxy = ryx =

n practic, pe o scal de la [0,1], considernd coeficientul de corelaie n modul, se utilizeaz urmtoarele subintervale de interpretare: - 0 r 0,200 situaie n care nu exist o legtur ntre variabile; - 0,200 < r < 0,500 ntre variabile exist o legtur slab; - 0,500 < r < 0,750 legtura dintre variabile are intensitate medie; - 0,750 < r < 0,950 legtur puternic ntre cele dou variabile; - 0,950 < r < 1,000 legtura dintre variabile este funcional. Exemplu de aplicare Pentru arboretul luat n considerare n exemplificrile anterioare, dac se analizeaz caracteristicile diametrul de baza (xi) i nlimea arborilor (yi), se obine distribuia empiric bidimensional (tabelul de corelaie) urmtor:

94

Tabelul 10. Distribuia empiric bidimensional pentru exemplul analizat


yi 44 42 40 38 36 34 32 30 28 26 nx xi 28 32 36 40 44 2 1 3 1 4 5 3 1 18 1 5 10 8 5 1 2 32 1 7 9 2 5 7 5 4 48 52 5 2 3 6 1 56 60 3 1 9 2 1 64 3 1 68 2 ny 8 10 20 22 26 22 14 9 8 5 144

1 2 1 4

3 2 1 3 9

21

21

17

11

Din calcule se obine: s xy cov( xy ) 31,4973 r= = = = 0,7965*** . sx s y sx s y 8,7428 4,5228


8.2.3 Determinarea semnificaiei coeficientului de corelaie

Valoarea coeficientului de corelaie r, calculat cu relaiile anterioare, reprezint o msur a intensitii legturii statistice ntre variabilele considerate.

Este necesar s fie testat semnificaia lui r, adic s se determine dac valoarea obinut estimeaz ntr-adevr valoarea a coeficientului de corelaie pentru populaia ntreag sau a rezultat datorit unor erori de eantionare. Metoda 1: testul u folosind transformarea lui Fisher Pentru normalizarea valorilor coeficienilor de corelaie, Fisher a aplicat transformarea: 1 1+ r z = ln . (8.7) 2 1 r n funcie de valoarea lui z calculat pentru valoarea experimental a coeficientului de corelaie r, se determin uexp cu relaia: z u exp = , (8.8) sz n care abaterea lui z este: 1 . (8.9) sz = N 3
95

uexp uteoretic 0,05 r este nesemnificativ, uteoretic 0,05 < uexp uteoretic 0,01 r este semnificativ (notaie *), uteoretic 0,01 < uexp uteoretic 0,001 r este distinct semnificativ (notaie **), uexp > uteoretic 0,001 r este foarte semnificativ (notaie ***).

Valoarea lui r poate fi mare n modul (apropiat de 1 sau de 1), dar nesemnificativ, sau mic (mai apropiat de 0) i semnificativ. Aceasta depinde de numrul unitilor statistice pentru care s-au determinat valorile caracteristicilor studiate. Limitele de ncredere pentru coeficientul de corelaie (intervalul n care se afl ) se determin n funcie de limitele de ncredere pentru z (valori tabelate): 1 , sau: (8.10) z u sz = z u N 3 1 1+ r 1 1 1+ (8.11) ln = ln u . 2 1 r N 3 2 1 Se determin cele dou limite ale intervalului de ncredere pentru coeficientul de variaie . Dac 0 este cuprins ntre cele dou limite ale intervalului de ncredere, indiferent de mrimea acestui interval nu poate fi dovedit o corelaie semnificativ. Metoda 2 (expeditiv): testul u sau t fr transformare prealabil pentru un numr mare de observaii, se utilizeaz statistica u pentru care se calculeaz o valoare experimental: r r u exp = = N (8.12) sr 1 r2 i se compar cu valoarea teoretic pentru probabilitatea de transgresiune impus; pentru un numr mic de observaii, se determin texp cu relaia: r (8.13) t exp = N 2 . 1 r2

96

Valoarea obinut se compar cu tteoretic extras din tabele n funcie de probabilitatea de transgresiune (q) i de numrul gradelor de libertate (f = N-2). Au fost ntocmite tabele din care se poate obine direct valoarea semnificativ a lui r pentru un anumit prag de semnificaie i n funcie de volumul probei. Pentru coeficientul de corelaie care exprim legtura statistic dintre diametrul de baz al arborilor i nlimea arborilor ( r = 0,7965*** ), valorile minime corespunztoare pragurilor de semnificaie 5%, 1% i 0,1% i f = N 2 = 144 2 = 142 grade de libertate sunt (prin interpolare n tabelul din anexa V): 0,164; 0,214 i, respectiv, 0,271. Coeficientul obinut este foarte semnificativ i s-a marcat corespunztor.
8.2.4 Coeficientul de corelaie a rangurilor

Determinarea coeficientului de corelaie a rangurilor (rs) presupune ca, n locul comparrii valorilor caracteristicilor msurabile (diametru de baz, nlime, lime a inelelor anuale etc.), s se ordoneze diferitele variabile calitative (i nu numai) utiliznd numere de la 1 la N. Aceste numere (ranguri) indic poziiile unitilor n irul statistic al fiecrei caracteristici. Se obin astfel dou clasamente distincte pentru care se calculeaz coeficientul de corelaie a rangurilor cu relaia:
rs = 1 6 d i2 N N 2 1
N

i =1

(8.14)

n care: N reprezint numrul de perechi de valori care se compar, d i2 - ptratul diferenei de rang pentru fiecare pereche i. Demonstraie n forma general, coeficientul de corelaie pentru valori negrupate n clase are expresia: s xy (x x ) ( y y ) , (8.15) = r= sx s y ( ) ( ) x x y y semnificaia notaiilor fiind cea menionat anterior. Dar rangurile, aa cum s-a menionat, reprezint numere de la 1 la N, att pentru caracteristica x, ct i pentru caracteristica y, deci:

97

N ( N + 1) N +1 2 x = y = i =1 = = . 2 N N

(8.16)
2

N (N + 1) N + 1 2 = i = i (x x ) = ( y y ) = 2 4 i =1 2 N ( N + 1) (2 N + 1) N ( N + 1) N ( N + 1) ( N 1) . (8.17) = = 6 4 12 Se face apoi transformarea:


2 2

2 (x x )( y y ) = (x x ) + ( y y ) [(x x ) ( y y )] = ( x x ) + ( y y ) d 2 unde prin d s-a notat diferena (x - y). Deci:


2 2 2 2 2

(x x ) + ( y y) d (x x)( y y) = 2
2 2

N ( N + 1) ( N 1) 1 d 2 6d 2 12 2 (8.18) r= = 1 = rs , N ( N + 1) ( N 1) 2 N N 1 12 tocmai ceea ce trebuia demonstrat. Avantajele folosirii coeficientului de corelaie a rangurilor sunt: elimin valorile absolute; nu se lucreaz cu valorile reale pentru care calculul este complicat; expeditivitate a calculelor; calculul lui rs implic ntocmirea unui tabel n care se observ imediat cuplurile discordante i sensul decalajului (pozitiv sau negativ). Dezavantajele utilizrii lui rs sunt: este mai puin precis dect coeficientul de corelaie obinuit pentru c nlocuiete prin diferene egale variaii efective diferite; existena unor ranguri egale nu influeneaz media aritmetic, dar afecteaz simitor varianele; eroarea poate fi neglijat dac asemenea erori nu sunt prea numeroase, dar exist i artificii de notare a rangurilor care diminueaz aceste erori. Exemplu de aplicare Considerm un eantion format din 8 arborete, cu aceeai proporie majoritar de participare a bradului, pentru care se determin dou caracteristici: consistena i procentul de uscare a arborilor de brad. Intereseaz dac exist o legtur corelativ ntre cele dou caracteristici.

N ( N + 1) ( N 1) 1 d 2 12 2 nlocuind n relaia coeficientului de corelaie:


2

98

Coeficientul de corelaie a rangurilor se determin cu datele din tabelul urmtor.


Tabelul 11. Calcule pentru determinarea coeficientului de corelaie a rangurilor % Rangul Consistena arbori arboretelor d d2 usca i dup x dup y x y 0,3 6 8 3 5 25 0,4 5 7 4 3 9 0,5 8 6 1 5 25 0,6 7 5 2 3 9 0,7 4 4 5 -1 1 0,8 3 3 6 -3 9 0,9 1 2 8 -6 36 1,0 2 1 7 -6 36 TOTAL 150

900 = 1 1,786 = 0,786 * (8.19) 8 (64 1) Dac se calculeaz coeficientul de corelaie obinuit, r, cu valorile determinate n tabelul 12, rs = 1
Tabelul 12. Calculul coeficientului de corelaie r pentru exemplul anterior
Consistena arboretelor x 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 TOTAL 5,2 % arbori uscai y 6 5 8 7 4 3 2 1 36 xy 1,8 2,0 4,0 4,2 2,8 2,4 0,9 2,0 20,1 x2 0,09 0,16 0,25 0,36 0,49 0,64 0,81 1,00 3,80 y2 36 25 64 49 16 9 1 4 204

r=

[N x

N xy x y
2

( x ) N y ( y )
2 2

][

99

(8 3,8 27,04) (8 204 1296)

8 20,1 5,2 36

= 0,785 *,

(8.20)

se observ c valoarea acestuia este foarte apropiat de coeficientul de corelaie a rangurilor. Testarea semnificaiei coeficientului de corelaie: 0,785 r (8.21) t exp = N 2 = 6 3 2 0,620 1 r n tabelul din anexa III, tteoretic(0,05; 6) = 2,447 i tteoretic(0,01; 6) = 3,707. Aadar, coeficientul de corelaie este semnificativ, chiar i pentru acest volum redus al eantionului. ntre cele dou caracteristici exist o corelaie puternic (valoare apropiat de 1,000) i invers (valoarea negativ a coeficientului de corelaie semnific faptul c pe msur ce cresc valorile uneia dintre caracteristici, scad valorile celeilalte caracteristici).

100

9. ANALIZA N COMPONENTE PRINCIPALE (ACP)

Analiza n componente principale (ACP) este o metod statistic prin care se identific parametrii specifici unui set multidimensional de valori experimentale exprimndu-le ntr-o form care pune n eviden similitudinile i diferenierile dintre variabilele luate n studiu. Aplicaia tradiional a ACP este cea de reducere a dimensiunilor setului de valori experimentale (tabelelor de contingen). Acest tip de analiz statistic poate fi folosit pentru a determina cte dimensiuni prezint importan real n interpretarea fenomenelor. Numrul de dimensiuni este dedus intuitiv, diferit de semnificaia strict matematic a acestora, prin analiza nivelului variaiei valorilor experimentale explicat de diferite componente principale. Dac exist un numr redus de componente care determin cea mai mare parte a variabilitii valorilor experimentale, atunci celelalte componente pot fi considerate ca fiind variabile de zgomot (perturbaie) pentru fenomenul studiat.
9.1 Consideraii istorice

Analiza n componente principale este o metod de analiz statistic aplicat nc de la nceputul secolului al XX-lea n scopul determinrii parametrilor ecuaiilor de regresie multiple, al reducerii dimensiunilor datelor i pentru reducerea zgomotului informaional. K. Pearson (1901) introduce ACP n aplicaiile biologice n vederea reiterrii analizei regresiei liniare ntr-o form nou. H. Hotelling (1933) dezvolt ACP pentru aplicaii n psihometrie. Karhunen i Loeve generalizeaz, la mijlocul secolului trecut, ACP n spaiul infinit-dimensional i n teoria probabilitilor.
9.2 Principii de baz

Analiza multifactorial este deosebit de important n interpretarea statistic a valorilor experimentale rezultate prin nregistrarea observaiilor pentru un numr mare de caracteristici sau variabile. Fiecare dintre cele m variabile luate n considerare poate fi considerat ca fiind o dimensiune diferit n hiperspaiul m-dimensional. Vizualizarea acestui hiperspaiu este dificil i din acest motiv obiectivul ACP este de a reduce multidimensionalitatea prin exprimarea tuturor valorilor experimentale prin compunerea lor n raport cu anumite variabile compozite. n plus, sintetizarea a dou sau trei componente principale poate fi redat grafic cu pierderi minime de informaie referitoare la fenomenul studiat. O modalitate de a reduce n cadrul analizei statistice multidimensionalitatea fenomenelor biologice const n extragerea componentelor principale, ceea ce const ntr-o rotaie a axelor n spaiul
101

multidimensional. Aceast operaie permite determinarea combinaiilor liniare (denumite componente principale) ale variabilelor iniiale care s sintetizeze o cantitate ct mai mare de informaie (Dillon, W.R., Goldstein, M., 1984). n situaia n care m variabile X1, X2, , Xm sunt corelate ntre ele, informaia pe care o transmit luate n ansamblu posed un anumit grad de redundan. Prin ACP se pot constitui, din lista celor m variabile iniiale, p noi variabile neredundante, p < m .

Ideea de baz a ACP este aceea de a reduce numrul mare de variabile iniiale luate n considerare, dintre care multe sunt puternic corelate ntre ele, la cteva variabile (sau componente) necorelate (ortogonale una fa de alta). Aceste componente principale pot fi considerate super-variabile integrate care explic cea mai mare parte din variana valorilor experimentale. ACP nu este altceva dect o recombinare liniar a variabilelor iniiale ntr-un nou set de variabile, de data aceasta ortogonale. Variana iniial este realocat n noi uniti de msur; din acest punct de vedere, ACP poate fi considerat un caz particular al analizei factoriale. Aplicarea ACP presupune ndeplinirea unor condiii iniiale, i anume: ntregul set de date este normal distribuit (se verific normalitatea prin teste specifice); trebuie s se transforme datele (prin centrare sau standardizare) astfel nct valorile diferitelor variabile s fie comparabile (figura 25); de fapt, standardizarea implic egalizarea influenelor variabilelor; dup centrarea valorilor experimentale prin folosirea momentului de ordinul 1 (media aritmetic) ntreaga informaie necesar aplicrii ACP este coninut de matricea covarianelor. Aadar, este necesar s se exprime fiecare dintre valorile experimentale observate sau msurate sub form de diferene fa de media aritmetic raportate la abaterea standard. Prin definiie, aceste valori standardizate au media 0 i variana 1.

102

Figura 25. Efectul transformrii valorilor experimentale

Determinarea componentelor principale presupune n continuare o rotaie de axe, transformare care faciliteaz interpretarea rezultatelor. Scopul analizei n componente principale const n explicarea i sintetizarea structurii varianei nglobate ntr-un set extins de variabile prin intermediul ctorva combinaii liniare al acestora.

ACP poate scoate n eviden anumite relaii care nu au fost identificate anterior i d posibilitatea interpretrii lor. Rezultatele ACP sunt frecvent utilizate n prelucrarea statistic ulterioar pentru analiza regresiilor multiple, pentru analiza cluster i n studiul seriilor de timp multivariate.
9.3 Interpretarea algebric a ACP

Analiza n componente principale se poate efectua pornind de la setul iniial de date experimentale, dar i folosind direct matricea covarianelor sau matricea de corelaie. Matricea de corelaie se utilizeaz atunci cnd caracteristicile studiate se exprim n uniti diferite de msur sau difer foarte mult gradul de mprtiere a valorilor experimentale ale variabilelor analizate. Folosirea matricii de corelaie este echivalent cu standardizarea variabilelor (transformarea lor n variabile cu media 0 i abaterea standard 1). Dup cum se cunoate, relaia covarianei este foarte asemntoare cu cea a varianei. Aceast similitudine se observ foarte bine dac se scrie variana n forma:

103

var( x) =

(x
i =1
n

x )( xi x )

(n 1)

(9.1)

covariana fiind:
cov( x, y ) =

(x
i =1

x )( y i y )

(n 1)

(9.2)

Covariana este, deci, determinat ntotdeauna pentru dou dimensiuni (variabile). Dac se analizeaz un set de date experimentale cu mai mult de dou dimensiuni (variabile), este necesar s se calculeze mai multe covariane. De exemplu, pentru un set de date tridimensional (pentru variabilele x, y i z) se calculeaz cov(x, y), cov(x, z) i cov(y, z). Generaliznd, pentru un set de date m-dimensional se pot m! determina covariane diferite care aranjate matricial formeaz 2 (m 2)! matricea covarianelor: mm = (ci , j , ci , j = cov( Dimi , Dim j ) ), (9.3) n care mm este o matrice cu m linii i m coloane (ptrat), iar Dimk este dimensiunea (variabila) k. Pentru exemplul cu trei variabile, matricea covarianelor are 3 linii i trei coloane: cov( x, x) cov( x, y ) cov( x, z ) (9.4) = cov( y, x) cov( y, y ) cov( y, z ) . cov( z, x) cov( z, y ) cov( z , z ) Se observ c pe diagonala principal covarianele sunt de fapt varianele caracteristicilor respective. De asemenea, datorit egalitii cov(a, b) = cov(b, a) , matricea este simetric fa de diagonala principal. Matricea de corelaie R cuprinde coeficienii de corelaie rij pentru toate perechile formate din cele m variabile analizate. ACP se bazeaz pe extragerea unor componente necorelate, denumite componente principale, prin determinarea eigenvectorilor matricii covarianelor sau ai matricii de corelaie ale variabilelor iniiale.

104

Sunt necesare cteva explicaii legate de operatorii algebrei matriciale i de regulile specifice de utilizare. Considerm dou variabile X1 i X2, pentru care rezult urmtoarea matrice de corelaie R: 1,000 0,723 (9.5) R= . 0.723 1,000 Aceast matrice are urmtoarele proprieti:
dac R este inversabil nseamn c exist o alt matrice ptratic R-1 care, prin nmulire cu R genereaz matricea unitate I: R R 1 = I ; 1 0 matricea unitate de ordinul 2 este i ndeplinete, n algebra 0 1 matricial, multe din funciile valorii 1 din algebra clasic; o matrice are matrice invers numai i numai dac valoarea determinantului ei este diferit de 0; n cazul general al unei matrici a b de ordinul 2 de forma , determinantul acesteia este c d a b det( R) = ; condiia de existen a matricii inverse este: c d a d b c 0 ; pentru exemplul considerat matricea R admite invers pentru c det( R) = 1 1 0,723 0,723 = 0,477271 > 0 ; fiecare matrice ptrat are o unic ecuaie polinomial caracteristic de acelai ordin cu cel al matricii (o matrice 2x2 are o ecuaie caracteristic ptratic, o matrice 3x3, una cubic .a.m.d.); Aceast ecuaie se obine din urmtoarea proprietate a matricilor ptrate inversabile: det( R I ) = 0 , (9.5)

n care R este matricea iniial m m , I este inversa acesteia, iar este un scalar (o matrice m m cu o valoare constant, , n fiecare celul); o alt modalitate de exprimare a proprietii anterioare este cea de egalare cu 0 a determinantului matricii R n care s-a sczut din elementele aflate pe diagonala principal, ceea ce n cazul general al matricii de ordinul 2 nseamn: a b (9.6) det = 0. c d

105

Revenind la matricea de corelaie R: 1 0,723 2 det = 0 (1 ) 0,723 2 = 0 2 2 + 0,477271 = 0 0,723 1 1 = 1,723 ; 2 = 0,277 . Valorile obinute se numesc eigenvalori sau valorii proprii ale matricii de corelaie. Eigenvalorile sunt strns legate de eigenvectori. Ambii termeni sunt explicai n continuare. Dou matrici pot fi nmulite dac mrimea lor este compatibil. Eigenvectorii (vectorii proprii) sunt un caz particular al acestei operaii. Considerm dou exemple de multiplicare a unei matrici cu un vector: 5 3 4 1 15 i = 3 3 = 9 3 3 2 4 3 4 4 24 . = 6 3 = 18 3 3 2 n al doilea exemplu, vectorul rezultant este un multiplu al vectorului iniial, pe cnd n primul exemplu nu se ntmpl acelai lucru. 4 Vectorul se numete vector propriu (eigenvector) al matricii ptrate 3 considerate. n reprezentare grafic, acesta este redat printr-o sgeat trasat din origine (0, 0) pn n punctul cu coordonatele (4, 3). Matricea ptrat trebuie neleas ca o matrice de transformare a vectorului cu care se nmulete ntr-un alt vector care i modific poziia iniial. Dac este vorba despre un eigenvector, dup nmulire el va avea aceeai direcie, deci este o reflectare a lui nsui; aceti vectori se autotransform i de aceea sunt denumii astfel (germ. eigen = propriu, auto). n al doilea exemplu prezentat anterior, vectorul iniial se afl pe 3 dreapta y = x , iar cel rezultat (sau oricare alt multiplu al acestuia, 4 pentru c nu are importan ct de lung este vectorul) se afl pe aceeai dreapt, deci este un vector propriu al matricii de transformare. Vectorii proprii au anumite proprieti care sunt folosite n prelucrarea statistic a datelor prin analiza n componente principale. n primul rnd, vectorii proprii pot fi determinai numai pentru matrici ptrate (dar, atenie, nu orice matrice ptrat are eigenvectori). Dac o anumit matrice m m are vectori proprii, atunci numrul total al acestora este m (de exemplu, o matrice 4 4 are 4 eigenvectori).
106

n al doilea rnd, toi vectorii proprii ai unei matrici sunt perpendiculari ntre ei n spaiul m-dimensional. Este important acest lucru pentru c datele experimentale pot fi exprimate nu numai n sistemul ortogonal de axe x, y, z, , ci i n raport cu aceti eigenvectori perpendiculari. Pentru a putea aplica analiza n componente principale este necesar s se determine vectorii proprii standard. Un eigenvector standard este cel a crui mrime este egal cu unitatea. Modul de calcul prin care se obine un vector propriu standard pentru exemplul anterior este prezentat n continuare. 4 2 2 Mrimea vectorului propriu este 4 + 3 = 25 = 5 . 3 mprind vectorul iniial la 5 se obine un eigenvector cu mrimea 1: 4 / 5 4 . 5 = 3 / 5 3 Pentru matrici mai mari de 3 3 determinarea vectorilor proprii se face prin aplicarea unor metode iterative pentru care exist programe de calcul specifice. Eigenvalorile (valorile proprii) sunt acele valori care arat de cte ori s-a majorat eigenvectorul dup multiplicarea lui cu matricea ptrat. 4 Eigenvaloarea asociat eigenvectorului din exemplul anterior 3 este 6. Indiferent care multiplu al acestui eigenvector este considerat, dup nmulirea matricii ptrate cu acesta se va obine ntotdeauna un vector de 6 ori mai mare. Presupunem c avem o populaie pentru care sau msurat m variabile randomizate X1, X2, , Xm. Este important meniunea c aceste variabile reprezint cele m axe de coordonate ale unui sistem cartezian n care se reprezint valorile experimentale. Intenia este cea de a pune n eviden un nou sistem de m axe ortogonale, combinaii liniare ale axelor iniiale, pe direciile celei mai mari variabiliti. Aceasta se poate concretiza prin rotaia axelor iniiale (figura 26). Avnd matricea iniial: X1 X (9.7) X = 2, M X m

107

cu matricea covarianelor i eigenvalorile 1 2 L m , se pot construi m combinaii liniare necorelate: Y1 = e11 X 1 + e21 X 2 + L + em1 X m Y = e X + e X + Le X 2 12 1 22 2 m2 m (9.8) ........................................................ Ym = e1m X 1 + e2 m X 2 + L + emm X m astfel nct variana noilor variabile Y1, Y2, , Ym s fie ct mai mare posibil. Componentele principale reprezint, de fapt, combinaii liniare ale variabilelor originale.

Figura 26. Rotaia axelor componentelor iniiale n scopul evidenierii celei mai mari variabiliti

ACP a matricii de corelaie R const n transformarea variabilelor s brute X1, X2, , Xm sau a celor standardizate X 1s , X 2s ,K, X m n factorii Y1, Y2, , Ym prin intermediul unor combinaii liniare ai cror coeficieni sunt elementele unei matrici ortogonale E obinute prin descompunerea spectral a lui R. Toate matricile simetrice ptrate, aa cum este cazul matricii de corelaie R, se descompun dup modelul: R = E E' , (9.9) n care matricea E este ortogonal i 1 0 K 0 0 K 0 2 (9.10) = L L L L 0 0 K m este diagonal.

108

Matricea E este compus din m vectori coloan, denumii eigenvectori, iar ortogonalitatea acesteia se verific prin ndeplinirea a trei criterii: - transpusa E a lui E este egal cu matricea invers E-1, astfel nct E E' = I ; - liniile lui E sunt ortogonale ntre ele i cu norma egal cu unitatea; - coloanele lui E sunt, de asemenea, ortogonale ntre ele i cu norma egal cu unitatea. Dac se pune condiia ca diagonala matricii s fie format din valori descresctoare ( 1 > 2 > K > m ), descompunerea anterioar, denumit descompunere spectral, este unic. Vectorii coloan e i scalarii pot fi determinai pentru = 1, K, m prin ecuaia vectorilor proprii: R e = e , (9.11) cu condiia suplimentar, ndeplinit de matricile ortogonale, ca fiecare e s fie de norm unitate. e sunt denumii vectori proprii (eigenvectori). Componentele eik ale matricii E sunt componente principale.

Analistul ncearc s interpreteze primele cteva componente principale n funcie de variabilele iniiale. ACP poate avea interpretri pertinente doar dac exist un nivel ridicat al corelaiei ntre caracteristicile analizate. Componentele principale sunt alese n ordine descresctoare a importanei lor astfel nct prima component s explice o ct mai mare parte din varian, iar fiecare dintre urmtoarele componente s justifice ct mai puin din variabilitatea valorilor analizate. Eigenvectorii arat gradul de participare a variabilelor iniiale (standardizate sau doar centrate) n determinarea fiecrei componente principale. Aceti vectori proprii sunt n esen coeficieni de corelaie, fiind compui dintr-un set de valori care reprezint, fiecare n parte, influena, importana sau ponderea de explicitare a unei anumite variabile ntr-o anumit component principal dat. Eigenvalorile reprezint contribuia relativ a fiecrei componente la explicarea variaiei totale a datelor experimentale (sunt mari pentru primele componente i din ce n ce mai mici pentru componentele subsecvente). Mrimea eigenvalorii indic importana acestei componente n explicarea variaiei totale i se determin ca sum

109

a ptratelor valorilor ce formeaz vectorul propriu corespunztor unei variabile principale. O valoare proprie mai mare de 1 indic faptul c acea component principal pentru care a fost determinat acumuleaz o parte mai mare din varian dect oricare dintre variabilele standardizate iniiale i acesta reprezint un criteriu de delimitare a componentelor principale care se justific a fi reinute pentru interpretarea rezultatelor. Odat calculate eigenvalorile pentru toate componentele trebuie s se stabileasc numrul componentelor principale suficiente pentru sintetizarea informaiei din setul de valori experimentale. Pentru majoritatea aplicaiilor se dovedete suficient un numr maxim de trei sau patru componente principale care surprind variana datelor. Presupunem c avem o populaie statistic format din N=122 arbori, pentru care s-au nregistrat valorile pentru variabilele: diametru de baz, X1, nlime, X2, i densitatea aparent convenional a lemnului, X3. Trebuie s se determine cele trei componente principale Y1, Y2 i Y3. Matricea covarianelor pentru acest set de date (considernd c s-a observat populaia ntreag, deci cu numitorul relaiilor de calcul N=122) este: 109,77151 32,13724 0,00363 (9.12) = 32,13724 12,58750 0,00277 , 0,00363 0,00277 0,00015 pentru care se obin perechile de valori proprii vectori proprii: 0,9576231 1 = 119,43742 , e1 = (9.13) 0,2880242 ; 0,0000358
0,2880242 2 = 2,92159 , e2 = 0,9576230 ; 0,0005490 0,0001239 3 = 0,00014 , e3 = 0,0005360 . 0,9999998

(9.14)

(9.15)

Deci componentele principale sunt: Y1 = 0,9576231 X 1 + 0,2880242 X 2 0,0000358 X 3 (9.16) Y2 = 0,2880242 X 1 + 0,9576230 X 2 0,0005490 X 3 (9.17) Y3 = 0,0001239 X 1 + 0,0005360 X 2 + 0,9999998 X 3 . (9.18)
110

Se poate observa c: 2 2 11 + 22 + 33 = 12 + 2 +3 = 109,77151 + 12,58750 + 0,00015 = 122,35916 (9.19) = 119,43742 + 2,92159 + 0,00014 = 1 + 2 + 3 n cazul general, proporia din variana total a populaiei explicat de componenta principal de ordinul k este:

i =1

.
i

(9.20)

Dac poate fi atribuit o proporie mare din variana populaiei unui numr relativ mic de componente principale, se pot nlocui cele m variabile iniiale prin aceste componente principale fr a pierde o cantitate mare de informaie. Pentru situaia concret analizat, proporia din variana total a populaiei explicat de fiecare component principal este: 1 119,43742 (9.21) = = 0,976122 = 97,6122% 3 122,35916

i =1

2
i

i =1

2,92159 = 0,023877 = 2,3877% 122,35916 0,00014 = 0,000001 = 0,0001% . 122,35916

(9.22)

3
i

i =1

(9.23)

Se observ influena nesemnificativ a celei de-a treia componente principale. Se pot calcula i coeficienii de corelaie ntre variabilele originale Xk i componentele principale Yi cu formula general: e (9.24) Yi X k = ik i ,

kk

valori frecvent utilizate pentru interpretarea componentelor principale Yi. Dac se standardizeaz variabilele se obin: X k X k k Zk = k = . (9.25)

kk

k2

Componentele principale pentru variabilele standardizate Zk pot fi obinute din eigenvectorii matricii de corelaie, R, pentru c, n acest caz, aceasta este identic cu matricea covarianelor. Pentru exemplul anterior,

111

dup standardizarea celor trei variabile X1, X2, X3, nu trebuie s se porneasc de la matricea , ci de la matricea R: 0,8597 0,1125 1,0000 (9.26) R = 0,8597 1,0000 0,1249 . 0,1125 0,1249 1,0000 Se obin perechile valori proprii vectori proprii: 0,6942382 1 = 1,8912753 , e1 = 0,6955431 ; 0,1850757
0,1381923 2 = 0,9684802 , e2 = 0,1235436 ; 0,9826698 0,7063541 3 = 0,1402445 , e3 = 0,7077830 , 0,0103500

(9.27)

(9.28)

(9.29)

diferite de cele obinute n primul caz. Componentele principale sunt: Y1 = 0,6942382 Z 1 + 0,6955431 Z 2 0,1850757 Z 3 (9.30) Y2 = 0,1381923 Z 1 + 0,1235436 Z 2 + 0,9826698 Z 3 (9.31) Y3 = 0,7063541 Z 1 + 0,7077830 Z 2 + 0,0103500 Z 3 . (9.32) n acest caz este ndeplinit relaia: 2 + 32 = 1,00 + 1,00 + 1,00 = 3,00 = 11 + 22 + 33 = 12 + 2 = 1,8912753 + 0,9684802 + 0,1402445 = 1 + 2 + 3 . (9.33) Proporia din variana total explicat de fiecare component principal este: 1 1,8912753 = = 0,6304 = 63,04% (9.34) 3 3,00

i =1

i =1

=
i

0,9684802 = 0,3228 = 32,28% 3,00 0,1402445 = 0,0468 = 4,68% . 3,00

(9.35)

3
i

i =1

(9.36)

112

n aceast situaie (atunci cnd ACP pornete de la matricea de corelaie R), se constat c, pentru a calcula ponderea unei componente principale (CP%) n variaia total, nseamn, de fapt, s se efectueze raportul procentual ntre valoarea proprie a acelei componente i numrul de variabile iniiale (m): eigenvaloare CP% = 100 (%). (9.37) m Se observ, din nou, influena nesemnificativ a celei de-a treia componente principale. Pentru a putea interpreta factorii obinui, se determin coeficienii de corelaie ( Yi Z k = S ik ) dintre acetia i variabilele iniiale, coeficieni ce se numesc saturaii: e 0,6942382 1,8912753 = 0,9547 Y1Z1 = 11 1 = 11 1,000 (9.38) (9.39) (9.40) (9.41) (9.42) (9.43) (9.44) (9.45)

Y Z =
1 2

e21 1

22
e31 1

= = = = = = = =

0,6955431 1,8912753 = 0,9565 1,000

Y Z =
1 3

33
e12 2

0,1850757 1,8912753 = 0,2545 1,000


0,1381923 0,9684802 = 0,1360 1,000 0,1235436 0,9684802 = 0,1216 1,000 0,9826698 0,9684802 = 0,9671 1,000

Y Z =
2 1

11
e22 2

Y Z =
2 2

22
e32 2

Y Z =
2 3

33
e13 3

Y Z =
3 1

11
e23 3

0,7063541 0,1402445 = 0,2645 1,000


0,7077830 0,1402445 = 0,2651 1,000

Y Z =
3 2

22
e33 3

0,0103500 0,1402445 = 0,0039 . (9.46) 33 1,000 Coeficienii de corelaie dintre variabilele iniiale standardizate i componentele principale sunt sintetizai n matricea de corelaie S, denumit matricea de saturaie (matricea de structur) n care fiecare

Y Z =
3 3

113

coloan este asociat unei variabile iniiale i fiecare linie unui factor (unei componente principale), ca n tabelul 13.
Tabelul 13. Matricea de saturaie

Y1 Y2 Y3

Z1 0,9547 0,1360 -0,2645

Z2 0,9565 0,1216 0,2651

Z3 -0,2545 0,9671 0,0039

Interpretarea valorilor din acest tabel este urmtoarea: - prima component principal Y1 este o rezultant a influenei tuturor primelor dou variabile iniiale, n pondere aproximativ egal, - cea de-a doua component principal Y2 este o rezultant a influenei variabilei Z3, - a treia component principal Y3 este o rezultant a influenei variabilelor Z1 i Z2, dar cu pondere mai mic. Exist relaiile matriciale:
1 2

unde

= E i S S ' = R , 1 . este matricea diagonal cu elemente

S = RE

1 2

1 2

(9.47)

Matricea de saturaie S are urmtoarele proprieti: - suma ptratelor tuturor saturaiilor pentru o variabil Xk (sau Zk) este egal cu 1 (ecuaia

S
i =1

2 ik

= 1 se poate interpreta ca o hipersfer cu

raza egal cu unitatea i cu centrul n originea sistemului de coordonate cu m dimensiuni, analog cu x 2 + y 2 = 1 , care este ecuaia cercului unitate n spaiul bidimensional, sau x 2 + y 2 + z 2 = 1 , ecuaia sferei unitate n spaiul tridimensional; aceasta se poate folosi pentru realizarea cercului de corelaie care este reprezentarea grafic prin care se asociaz fiecrei variabile Zk cte un punct de coordonate S ik pe fiecare dintre axele i reinute ca fiind componente principale); pentru exemplul anterior: 2 0,9547 2 + 0,1360 2 + ( 0,2645) 1 (9.48) 2 2 2 0,9565 + 0,1216 + 0,2651 1 (9.49)
-

(9.50) suma ptratelor tuturor saturaiilor pentru un factor (component principal) Yi este egal cu i; n exemplul considerat: 2 0,9547 2 + 0,9565 2 + ( 0,2545) 1,8912753 (9.51)
114

( 0,2545)2 + 0,96712 + 0,0039 2 1 ;

0,1360 2 + 0,1216 2 + 0,96712 0,9684802

(9.52) (9.53)

( 0,2645)
-

+ 0,2651 + 0,0039 0,1402445 ;


2 2

suma tuturor ptratelor saturaiilor este egal cu (numrul de variabile).

i =1

i egal cu m

Se deduce de aici c ACP complet transform variabilele corelate n variabile necorelate conservnd (meninnd constant) variana total. Dac nu se iau n considerare toate componentele principale ci 1 + 2 + L + p este proporia din variana numai primele p, valoarea 1 + 2 + L + m total explicat de primii p factori i constituie msura global a calitii
2 ACP. Valoarea h 2 = S ik , denumit comunalitate sau comunitate
p i =1

este inferioar lui 1; h2 msoar, de fapt, proporia din variana variabilelor Xk (sau Zk) explicat de primii p factori. n cazul ACP pornind de la variabilele standardizate (X k ) Zk = k , importana relativ a variabilelor este modificat fa de

cea determinat fr standardizare.

Variabilele sunt supuse standardizrii mai ales atunci cnd se exprim n uniti de msur sau la scri diferite. Pe baza structurii elementelor constitutive ale componentelor principale este posibil s se interpreteze primele cteva dintre acestea n sensul efectului total sau al contrastului dintre grupele de variabile. Corelaia puternic dintre prima component principal i una dintre variabile arat c acea variabil acioneaz n direcia maximului variaiei datelor. O corelaie puternic ntre o variabil iniial i cea de-a doua component principal, perpendicular pe prima, arat urmtoarea (ca mrime) surs de variaie a valorilor experimentale.
115

Aceast modalitate de interpretare poate continua i pentru urmtoarele componente principale reprezentative pentru cazul studiat. Noul set de variabile ortogonale (factori, variabile latente, componente principale) este introdus pentru eliminarea corelaiei dintre variabilele fenomenelor multifactoriale i pentru a reduce dimensiunile sistemului rezultant. Dac valorile coeficienilor de corelaie corespunztori celor m variabile iniiale sunt mici, este inutil s se aplice ACP pentru c se vor obine factori noi foarte apropiai de cei iniiali. Dac dou variabile Xj i Xk sunt foarte corelate (r foarte apropiat de 1 ) trebuie s se analizeze dac nu este mai bine s se elimine una dintre ele (sau s se combine ntr-o singur variabil) nainte de aplicarea ACP. n exemplul de calcul anterior, se observ c primele dou variabile (diametrul i nlimea arborilor) sunt puternic corelate (r=0,8597***). S-ar putea introduce n sistem variabila volum al arborilor care este de fapt o combinaie a celor dou variabile.
9.4 Estimarea numrului de componente principale

ACP reduce dimensiunile setului de date prin combinarea liniar a variabilelor iniiale corelate i obinerea altor variabile, n numr mai mic. Aceste noi variabile sunt liniar independente. Reinerea tuturor factorilor m echivaleaz cu pstrarea ntregii cantiti de informaie iniial, ceea ce nu simplific n nici un fel structura corelativ a variabilelor analizate. Situaia opus (pstrarea unui numr mic de factori) duce la explicarea unei proporii prea mici din variana total i reducerea excesiv a complexitii structurii legturilor dintre variabile. n general, sunt inclui n analiz numai eigenvectorii care corespund unor eigenvalori mai mari de 1,000, considerndu-se neglijabil contribuia celorlali la variana total. Trebuie s se aib n vedere anumite criterii, unele fundamentate statistic, altele doar empirice dar larg utilizate: alegerea unei proporii limit de explicare a varianei, convenabil din punct de vedere al preciziei analizei, de exemplu 90% (criteriul Joliffe);

116

pstrarea acelor valori proprii i , K k care sunt mai mari dect media i + L + p (criteriul Kaiser); p reprezentarea grafic descresctoare a valorilor proprii ; deseori se poate observa pe acest grafic un cot care marcheaz o modificare a regimului descreterii valorilor proprii; se pstreaz factorii care au valori proprii mai mari dect cea corespunztoare acestui punct de pe grafic (criteriul Cattell). Reprezentarea grafic a eigenvalorilor corespunztoare componentelor principale ilustreaz rata modificrilor de amplitudine a acestor valori proprii. Punctul n care curba reprezentat i modific evident panta indic numrul maxim de componente principale ce trebuie luate n considerare. 9.5 Interpretarea geometric a ACP

ACP construiete noi variabile, artificiale, iar reprezentarea grafic permite vizualizarea relaiilor dintre variabile i, eventual, existena unor grupe de indivizi sau grupe de variabile iniiale. Corelaiile sunt sintetizate n spaiul multidimensional cu dou sau mai multe axe. Fiecare ax constituie o component principal i intereseaz poziia variabilelor n raport cu aceste axe.

Componentele principale sunt eigenvectorii matricii covarianelor (sau ai matricii de corelaie) i, n reprezentare grafic, axele principale ale unei hiperelipse (elipsoid pdimensional). Geometric, combinaiile liniare reprezint o selecie de axe ale unui nou sistem de coordonate obinut prin transformarea ortogonal a sistemului iniial. Noile axe (e1, e2, , ep) reprezint direciile cu maxim variabilitate. Considernd elipsoidul p-dimensional X T 1 X = c 2 , componentele principale definesc axele acestui elipsoid. Demonstraie: Se cunoate c, dac este pozitiv i definit, atunci exist i
1

i: e = e 1 e = (1 / ) e . (9.54)

117

De asemenea, descompunerea spectral a matricii 1 este: 1 1 T (9.55) 1 = e1e1 +L+ e p eT p .

Folosind aceast modalitate de descompunere se obine: 1 T 2 1 T 2 1 T 2 (e p X ) , (9.56) c 2 = X T 1 X = (e1 X ) + (e2 X ) + L +

unde e X , e X , K , e X sunt componentele principale ale lui X. Dac se fac notaiile: T T Y1 = e1 X , Y2 = e2 X , , Y p = e T pX , se poate scrie:
c2 =
1

T 1

T 2

T p

(9.57) (9.58)

Y12 +

Y22 + L +

Y p2 .

Aceast ecuaie definete un elipsoid ntr-un sistem de coordonate ale crui axe sunt pe direciile vectorilor e1, e2, , ep; elipsoidul are semiaxele pe fiecare direcie p egale cu c p . n spaiul multidimensional fiecare variabil poate fi considerat un vector (n reprezentare geometric, o linie cu dou caracteristici: lungime sau mrime i direcie sau sens). Legturile statistice dintre variabile sunt bine puse n eviden n matricea de corelaie. Coeficienii de corelaie din aceast matrice pot fi exprimai geometric prin cosinusul unghiului format de vectorii corespunztori fiecrei perechi de variabile, lungimea acestor vectori fiind msura varianei explicate (figura 27).

Figura 27. Reprezentarea vectorial a corelaiei dintre dou variabile (A i B)

a) b) c) d)

variabile cu coeficient de corelaie r (0,1) variabile perfect corelate negativ, r = 1 variabile perfect corelate pozitiv, r = 1 variabile necorelate (ortogonale), r = 0
118

Calitatea reprezentrii depinde de proporia varianei explicate de fiecare ax n parte. Variabilele situate n apropierea originii noului sistem de coordonate se difereniaz foarte puin; cele de la periferie au o influen mai mare. Vectorii mai apropiai denot o legtur statistic mai puternic ntre variabile. Dac variabilele analizate se afl fiecare n apropierea a cte unei axe diferite, nu este corelaie ntre ele. Pot fi comparate numai variabilele care se situeaz n apropierea circumferinei cercului sau suprafeei sferei unitate (nu se poate interpreta gradul de corelaie a variabilelor aglomerate n zona central). Rotaia axelor permite obinerea unor saturaii apropiate de 1, -1 sau 0, ceea ce faciliteaz interpretarea factorilor obinui. Pentru cazul analizat anterior (simplist, de altfel, pentru c s-au luat n considerare numai trei variabile), interpretarea grafic a ACP (figura 28) duce la concluzia c se difereniaz clar perechea de variabile diametru-nlime a arborilor, care se afl n apropierea primei componente principale, de variabila densitate a lemnului, aflat pe direcia celei de-a doua componente principale.

Figura 28. Reprezentarea grafic a analizei n componente principale pentru exemplul considerat
119

Pentru setul de date analizat, ntre aceste dou grupe de variabile nu exist legtur corelativ. Diametrul i nlimea explic partea cea mai mare din variaia valorilor experimentale. Se mai observ, de asemenea, c n reprezentare grafic punctele corespunztoare diametrului i nlimii se gsesc foarte aproape. Aceasta atenioneaz asupra faptului c ntre cele dou variabile corelaia este foarte puternic. Cele N m valori experimentale (m fiind numrul de variabile iniiale, iar N, volumul probei constituite sau al populaiei n ntregime) pot fi reprezentate, n mod asemntor, printr-un nor de puncte n spaiu, fie prin intermediul scorurilor brute (atunci cnd ACP pornete de la matricea ), fie prin intermediul scorurilor standardizate (cnd ACP pornete de la matricea R). Se ncearc determinarea, pentru fiecare factor, a dreptei D pentru care suma ptratelor distanelor de la punctele individuale la dreapt este minim (figura 29). Se cunoate c aceast dreapt trebuie s treac prin centrul de greutate al norului statistic x = ( x1 , x 2 , K x p ) care, n cazul valorilor standardizate, corespunde originii sistemului de coordonate. Direcia dreptei D este cea a primei componente principale, Y1, pentru care variana proieciilor ortogonale ale punctelor pe dreapt este 1 , prima valoare proprie a lui (sau a lui R).

Figura 29. Direcia primei componente principale

n mod asemntor, n loc s se proiecteze pe o dreapt, norul de puncte se poate proiecta pe un plan (P) astfel nct suma ptratelor distanelor de la fiecare punct la acesta s fie minim (figura 30).

120

Figura 30. Planul primelor dou componente principale

Acest plan este cel al primelor dou componente principale Y1 i Y2, iar variana corespunztoare este 1 + 2 . Se continu similar pentru urmtoarele componente dintre cele p reinute.
9.6 Dezavantaje ale ACP

Una dintre ipotezele iniiale ale metodei este aceea a liniaritii legturii statistice dintre variabile. Este posibil ca legtura statistic dintre anumite variabile s fie puternic dar neliniar (raportul de corelaie cu valoare peste 0,5, dar coeficientul de corelaie mic); n aceast situaie ACP nu d rezultate concludente. Restricia prin care axele de coordonate trebuie s fie perpendiculare ntre ele, ceea ce nseamn componente principale necorelate, se concretizeaz ntr-un model matematic foarte diferit de cel al relaiilor specifice caracteristicilor biologice sau ecologice, frecvent puternic intercorelate. Din pcate, componentele principale, care extrag cea mai mare parte din variabilitatea variabilelor iniiale, sunt de cele mai multe ori dificil de interpretat.

121

Componentele principale sunt nelese ca supervariabile, idealizare i abstractizare matematic ce le difereniaz de variabilele reale iniiale i aceasta duce la o interpretare dificil a rezultatelor ACP. n multe aplicaii, numai prima component principal d informaii despre modul de grupare a variabilelor, celelalte fiind componente diferen care sunt de asemenea greu de explicat.
9.7 Concluzii sintetice asupra ACP

Pentru aplicarea ACP se calculeaz matricea covarianelor (sau cea de corelaie) i se determin apoi eigenvectorii i eigenvalorile acestei matrici. Este important s se rein faptul c intereseaz s se obin eigenvectori standard (cu mrimea egal cu unitatea). Urmtoarea etap este cea de ordonare a vectorilor proprii n sensul descresctor al eigenvalorilor ceea ce este echivalent cu aranjarea componentelor n ordinea semnificaiei lor. Determinarea componentelor principale const n compresia i reducerea dimensiunilor setului de date experimentale. Eigenvectorul cu valoarea proprie cea mai mare este prima component principal care red cea mai puternic legtur statistic ntre variabilele iniiale. Urmtoarea component principal semnificativ este eigenvectorul cu valoarea proprie imediat mai mic. Se continu n acest mod pn la aflarea tuturor componentelor principale, ignornd ultimele componente (cele cu semnificaie redus). Astfel se vor reduce dimensiunile iniiale ale setului de date: dac la nceput acesta a avut m dimensiuni, prin sortarea i alegerea primilor p eigenvectori, setul final de date va avea numai p dimensiuni. Cu vectorii proprii selectai pentru componentele principale se formeaz o matrice a vectorilor E (engl. Feature Vector). Aceti eigenvectori vor constitui, n ordinea semnificaiei lor, coloanele matricii: E = (e1e2 e3 K e p ) . (9.59) ntr-o ultim etap se poate obine un set final de valori (engl. Final Data) prin nmulirea transpusei matricii vectorilor cu transpusa matricii setului de date iniiale ajustate: FinalData = FeatureVector T DataAdjust T
T

(9.60)

FeatureVector este o matrice n care eigenvectorii sunt trecui pe linii primul fiind cel mai semnificativ, iar DataAdjustT, tot o matrice n care pe linii sunt trecute variabilele, iar pe coloane, valorile standardizate corespunztoare. Matricea rezultat FinalData este matricea datelor iniiale exprimate numai prin cei p eigenvectori ai componentelor principale.
122

10. ANALIZA REGRESIEI

Aa cum s-a prezentat anterior, coeficientul de corelaie indic intensitatea legturii dintre dou sau mai multe caracteristici i este utilizat n special pentru caracterizarea unei dependene liniare ntre acestea. Pentru a determina forma legturii corelative trebuie aplicat metoda de cercetare statistic denumit analiza regresiei.
Analiza regresiei este o metod statistic prin care se cerceteaz posibilitatea exprimrii cu ajutorul unei ecuaii a legturii dintre valorile medii ale unei variabile y (considerat dependent) i valorile unei sau ale mai multor variabile independente x, n cazul n care s-a observat, prin analiza corelaiei, existena unei asemenea legturi. Ecuaia de regresie este o relaie matematic prin care se exprim dependena dintre dou sau mai multe variabile i este de forma: = f ( x1 , x 2 ,K, x n ) . y (10.1)

Aceasta definete o curb sau o suprafa de regresie i are drept scop s permit, pentru valorile date x1, x2, , xn, calculul unei estimaii a lui y. Termenul regresie a fost folosit de Galton care a aplicat prima dat teoria corelaiei la date biologice. Examinnd dinamica populaiilor, acesta a constatat c n astfel de cazuri s-ar pstra un echilibru dinamic dac noile generaii ar moteni caracteristicile prinilor. Studiind nlimea tailor i cea a fiilor, Galton a sesizat c fiii se abat de la nlimea medie mai puin dect se abat taii, deci c fiii regreseaz spre valoarea medie. El a folosit termenul linie de regresie pentru linia de legtur dintre nlimile tailor i cele ale fiilor. Termenul regresie nu este destul de potrivit pentru cele mai multe tipuri de legturi statistice (corelative) ntre variabile, dar continu s se pstreze n literatura de specialitate ca o simpl convenie. Ecuaiile de regresie se folosesc att pentru sintetizarea anumitor cunotine ct i pentru efectuarea de interpolri sau, cu anumite precauii, extrapolri. Acestea prezint rezultatul cercetrii ntr-o form concentrat, nlocuind tabelele de calcul i, din acest considerent, pot da soluii optime pentru automatizarea lucrrilor.

123

10.1 Succesiunea etapelor pentru analiza regresiei

Etapele de lucru n aplicarea analizei regresiei sunt: stabilirea tipului de regresie, determinarea parametrilor ecuaiei de regresie, evaluarea preciziei dreptei sau curbei de regresie (evaluarea preciziei de estimare). Dup forma lor, legturile corelative pot fi liniare sau curbilinii. Stabilirea tipului de regresie este o operaie cu un grad nalt de subiectivism, datorit faptului c nu exist o metod riguros fundamentat care s asigure de la nceput soluia optim. Pentru lucrrile curente se procedeaz astfel: - se stabilesc variabilele (dependent, independente), - se culeg datele i se formeaz tabelul de corelaie, - se reprezint grafic valorile observate (toate, sau numai valorile medii ale caracteristicii rezultative n cazul unui numr mare de observaii), - analiznd cmpul de corelaie sau linia poligonal se stabilete forma, sensul i intensitatea legturii dintre variabile (figura 31); n cazul ordonrii dup o dreapt, regresia este liniar, iar n cazul ordonrii dup o curb, regresia este curbilinie;

Figura 31. Stabilirea grafic a tipului de ecuaie de regresie

a) regresie liniar stabilit pentru cmpul de corelaie b) regresie liniar stabilit pentru valorile medii c) regresie curbilinie stabilit pentru valorile medii - se face compensarea, grafic sau analitic; indiferent de modalitatea de ajustare, aprecierea corectitudinii se face dup criteriile generale: suma algebric a abaterilor s fie ct mai apropiat de 0 (n cazul ideal, chiar egal cu 0), suma ptratelor abaterilor s fie minim.
124

10.2 Metode analitice de determinare a parametrilor ecuaiilor de regresie

Se consider, pentru nceput, dreapta de regresie, exprimat prin ecuaia de regresie liniar simpl: = a +b x . y (10.2) n aceast ecuaie, constanta b este definit de relaia: sy b = b yx = r (10.3) sx i se numete coeficient de regresie al variabilei y n raport cu variabila x. Similar, se poate scrie expresia coeficientului de regresie al variabilei x n raport cu y: s bxy = r x . (10.4) sy n sens geometric (figura 32), coeficientul de regresie reprezint panta dreptei de regresie: b = tg . (10.5) Constanta a (termenul liber) este distana de la originea sistemului de coordonate la punctul de intersecie al ordonatei cu dreapta de regresie.

Figura 32. Interpretarea grafic a parametrilor dreptei de regresie

Determinarea ecuaiei de regresie liniare simple const, practic, n determinarea coeficientului de regresie (b) i a termenului liber (a). b se determin din relaia de definiie:

125

b = b yx = r

sy sx

s xy

sx s y sx

sy

s xy
2 sx

xy x
2

x y
N ( x )2

(10.6)

N a se determin din condiia ce se impune punctului M ( x , y ) de a fi situat pe dreapta de regresie (acesta verific ecuaia dreptei): y = a +b x a = y b x (10.7)

Dreapta definit de aceast ecuaie are o asemenea poziie nct suma ptratelor abaterilor individuale fa de dreapt este minim. O alt posibilitate este cea de estimare a parametrilor a i b prin metoda celor mai mici ptrate, al crui principiu de baz cere ca ecuaia de ajustare s fie astfel aleas nct suma ptratelor abaterilor valorilor ) s fie observate (y) de la valorile calculate pe baza modelului ( y minim (figura 33). Altfel spus, suma erorilor de estimare trebuie s fie ct mai redus: )2 = minim, S = (y y
i =1 N

(10.8)

unde i = 1, , N reprezint numrul perechilor de valori (xi, yi).

Figura 33. Reprezentarea grafic a ptratelor abaterilor valorilor experimentale fa de dreapta de regresie

Relaia anterioar se mai poate scrie, n cazul unei drepte de regresie:


S = ( y a b x ) = minim.
2 i =1 N

(10.9)

126

Minimul poate fi determinat prin anularea derivatelor pariale ale lui S n raport cu a i n raport cu b: S S = =0 (10.10) a b Se obine sistemul de ecuaii:
N ( y i a b xi ) = 0 i =1 y = N a +bx (10.11) N x ( y a b x ) = 0 xy = a x + b x 2 i i i i =1 Prima ecuaie arat c suma algebric a abaterilor ntre valorile observate i ordonatele corespunztoare ale dreptei de regresie este nul (abaterile negative ale punctelor situate sub dreapt compenseaz abaterile pozitive ale punctelor de deasupra dreptei). Prin mprirea la N, se obine: y = a +b x , (10.12)

deci dreapta de regresie trece prin punctul M ( x , y ) . Ecuaia liniar determinat anterior este cea care exprim dependena variabilei y n raport cu x: = a +b x y (10.13)

Spre deosebire de ecuaiile funcionale, din aceast relaie nu poate fi obinut relaia invers (dependena lui x n raport cu y). Deci, nu se poate scrie: a 1 = + y x b b
= f ( y ) se obine prin procedeele Ecuaia dreptei de regresie x prezentate anterior i reprezint o alt dreapt de regresie (figura 34) care = f (x ) . formeaz un unghi cu dreapta y este cu att mai mare cu ct legtura corelativ este mai slab (r mai mic; cmpul de corelaie mai dispersat). Dac r = 0, cele dou drepte de regresie sunt perpendiculare i paralele cu axele de coordonate. Pentru r = 1 sau r = -1 dreptele de regresie se suprapun (relaie funcional).

127

Figura 34. Poziia celor dou drepte de regresie ce redau forma legturii ntre caracteristicile x i y

10.3 Intervalul de ncredere pentru ecuaia de regresie

= a + b x reprezint numai o estimaie pentru adevrata y dreapt de regresie, pentru c se obine pe baza unei mulimi finite de perechi de valori (x, y) observate. sunt afectate de erori ( s y Aadar, valorile calculate y ), dreapta de regresie fiind caracterizat printr-un interval de ncredere: t sy y , (10.14)

n care t este valoarea testului Student pentru pragurile de semnificaie stabilite (q) i numrul gradelor de libertate f = N-2. Eroarea de estimare se determin cu relaia:
sy = sy/ x
1 (x x ) , + N Qx

(10.15)

n care s x / y reprezint abaterea standard a valorilor individuale ale lui y fa de dreapt i se determin cu relaia:

iar Qx calculeaz:

, (10.16) N 2 (suma ptratelor abaterilor pentru variabila x) se

sx / y =

(y
i =1

i ) y

128

k ni x i k k 2 Q x = ni ( xi x ) = ni xi2 i =1 (10.17) N i =1 i =1 vor fi cuprinse n intervalul Deci, adevratele valori medii y (figura 35): t sy + t sy (10.18) y ,y

Figura 35. Intervalul de ncredere al dreptei de regresie

Analiza graficului arat c, pentru o anumit probabilitate de sunt ncadrate ntre dou curbe. transgresiune, valorile medii ale lui y Amplitudinea intervalului de ncredere este mai mare la capete i mai mic la mijlocul cmpului de corelaie (datorit informaiilor mai puine despre legtura corelativ la marginile cmpului de corelaie).

10.4 Regresia multipl liniar

n cazul influenei mai multor caracteristici factoriale asupra variaiei caracteristicii rezultative y, se folosesc ecuaii de regresie multiple. Cea mai simpl este ecuaia de regresie multipl liniar: = a 0 + a1 x1 + a 2 x 2 + L + a n x n y (10.19)

129

Coeficienii de regresie (a1, a2, a3, , an) reflect influena caracteristicilor factoriale asupra caracteristicii rezultative i se determin prin metoda celor mai mici ptrate. Parametrii ecuaiei de regresie multiple liniare se determin prin rezolvarea sistemului de n+1 ecuaii cu n+1 necunoscute care rezult din metoda celor mai mici ptrate:
y = a 0 N + a1 x1 + a 2 x 2 + L + a n x n x1 y = a0 x1 + a1 x12 + a 2 x1 x2 + L + a n x1 xn 2 x 2 y = a 0 x 2 + a1 x1 x 2 + a 2 x 2 + L + a n x 2 x n LLLLLLLLLLLLLLLLLLLLLLLL 2 x n y = a 0 x n + a1 x1 x n + a 2 x 2 x n + L + a n x n

(10.20)

Se poate calcula, n acest caz, un coeficient de corelaie multipl (R). Ecuaiile de regresie liniare pot fi utilizate i pentru alte tipuri de legturi corelative, numai dac variabilele respective pot fi liniarizate prin transformri adecvate. Trebuie, ns, s se in cont de faptul c, prin transformare, variabilele i modific intervalul de variaie, ceea ce duce la modificarea distribuiei valorilor experimentale i a unor indicatori statistici. Ecuaiile de regresie trebuie s satisfac anumite condiii care s le asigure valabilitatea pentru aplicare practic: - s fie destul de sigure (precizie ridicat, probabilitate de acoperire mare, valoare mare a coeficientului de determinare R2), - s aib o form simpl (cea mai adecvat ecuaie de regresie, dar i cea mai simpl ca form matematic), - s fie n concordan cu existena fizic a fenomenului studiat.

n orice model statistic erorile sunt inerente att timp ct acesta rezult prin abstractizarea realitii. Simplificarea realitii are drept scop obinerea unor modele utilizabile n practic.

130

Exist multe tipuri de erori: erori de msurare, erori de eantionare, erori de calcul, erori de specificaie (datorate unei structuri improprii a modelului, cum ar fi omiterea unei variabile foarte relevante), erori de transferabilitate (se comit atunci cnd un model determinat pentru o anumit zon sau regiune geografic este aplicat ntr-o alta, total deosebit), erori de agregare (realizate atunci cnd modelele statistice sunt estimate la nivel de grup, iar aplicarea lor se face al nivel individual) etc. Dac nlturarea celorlalte categorii de erori este relativ simpl prin organizarea corespunztoare a cercetrii i interpretarea corect a rezultatelor obinute, erorile de calcul i cele de specificaie se comit frecvent din cauza importanei sczute ce li se d i a aplicrii unor metode de estimare inadecvate.
10.5 Tipuri de ecuaii de regresie i limitrile acestora

Se poate considera c exist dou mari categorii de ecuaii de regresie: - ecuaii isometrice sau ecuaii intrinsec liniare, - ecuaii allometrice (altele dect metrice) sau ecuaii intrinsec neliniare. nainte de epoca microcalculatoarelor, ecuaiile de regresie neliniare erau mai puin utilizate ca atare n lumea tiinific; frecvent, datele experimentale erau transformate prin substituiri de variabile astfel nct s se obin ecuaii liniare pentru care prelucrarea n vederea estimrii parametrilor este mai simpl i mai rapid. Aceast modalitate de lucru este depit i nerecomandat pentru analiza datelor din cauz c n urma liniarizrii s-a observat o distorsionare a erorilor reziduale i a relaiilor dintre variabile. n analiza regresiei se utilizeaz frecvent funciile putere, exponenial, polinomial sau cele asimptotice, care pot fi liniarizate prin transformri de variabile. Funcia putere de forma y = a x b este liniarizabil prin logaritmare: log y = log a b log x y ' = a'b x' (10.21) Funcia exponenial (curba de cretere sau de descretere), cu tipurile negative sau pozitive, este de forma y = a b x , liniarizabil prin transformarea: log y = log a (log b ) x . (10.22) Regresia polinomial (10.23) y = 0 + 1 x + 2 x 2 + 3 x 3 + K

131

reprezint un tip special pentru c nu este o ecuaie neliniar n sensul strict, chiar dac panta este variabil. Dezavantajul utilizrii const n faptul c parametrii ecuaiei de regresie rareori pot fi interpretai n termeni biologici, astfel nct curba poate fi perfect estimat, dar rmne artificial. Curbele asimptotice (logistic, Gompertz etc.) sunt ecuaii intrinsec liniare. Evident, exist i ecuaii neliniare care nu pot fi liniarizate, de exemplu: d y = (a / b ) x1 x 2 + c x3 (10.24) Diagnosticarea ecuaiilor de regresie se poate face prin procedee diferite: examinarea eficienei modelului, investigarea diferenelor dintre punctele experimentale i curba de regresie verificarea ndeplinirii ipotezelor analizei regresiei. Cele mai utilizate diagnoze se bazeaz pe analiza reziduurilor cere reprezint deviaiile valorilor individuale experimentale de la valorile estimate prin ecuaia de regresie. Pentru forma general a unei ecuaii de regresie multiple: = f ( x1 , x 2 ,K, x k ) + , y (10.25) termenul eroare este necunoscut pentru c adevratul model este necunoscut. Odat determinai parametrii unei ecuaii de regresie, pentru fiecare unitate statistic i erorile de estimare sunt: i = y i y i (10.26) n care: yi este valoarea observat a caracteristicii y, i este valoarea estimat dup ecuaia de regresie. y n modelarea statistic, transformrile de variabile sunt folosite frecvent pentru a demonstra compatibilitatea valorilor experimentale cu ipotezele pe care se fundamenteaz procesul de modelare, pentru liniarizarea legturii statistice dintre dou sau mai multe variabile a cror relaie este neliniar sau pentru a modifica limitele de variaie ale unor variabile. Pentru un model corect ales, reziduurile se dispun randomizat n jurul curbei sau suprafeei de regresie. Pentru un alt tip de distribuie
132

trebuie s se caute un alt model de ecuaie de regresie, mai adecvat, sau s se adauge noi variabile explicative. Tipul de transformare ce se aplic determin modul n care este afectat scara variabilelor netransformate. Schimbrile de variabile trebuie efectuate n mod iterativ, urmrind permanent modificrile pe care le produc. Compararea tipurilor de ecuaii de regresie trebuie s se fac n scara iniial, netransformat, a variabilei dependente. De exemplu, transformrile exponeniale implic o structur multiplicativ a erorilor n modelul de baz (iniial) i nu aditiv, aa cum este specific unei ecuaii liniare. Astfel, pentru ecuaia de regresie de baz: (10.27) y = a e b x + , transformarea logaritmic nseamn: . ln y = ln(a e b x + ) = ln a e b x 1 + = ln a + b x + ln1 + b x b x ae a e Cu toate c modelul obinut este ntr-adevr liniar, forma termenului eroare de estimare este total diferit de cea specific ecuaiilor de regresie determinate prin metoda celor mai mici ptrate. De fapt, termenul eroare este o funcie de x, a i b i este, deci, de tip multiplicativ. Regula ce se desprinde din acest exemplu este aceea c termenul eroare trebuie verificat ntotdeauna, dup efectuarea unei transformri de variabil, din punct de vedere al compatibilitii cu condiiile restrictive ale modelului iniial, n principal normalitatea erorilor. Nu numai transformrile prin logaritmare sunt folosite pentru liniarizare, ci i cele prin ridicare la o anumit putere (care restrng domeniul de variaie a valorilor mici) sau prin extragerea rdcinilor de un anumit ordin (care restrng domeniul de variaie a valorilor mari). Acestea se grupeaz ntr-o familie de transformri (tabelul 14) frecvent aplicate n practic, reprezentat de funcia putere (yp).
Tabelul 14. Familia de transformri yp

1/2
y

1/3
3

yp y2

-1/2 1
y

-1 1 y

Limitrile de aplicabilitate a ecuaiilor de regresie obinute prin liniarizare sunt determinate de ipotezele restrictive de baz ale analizei regresiei multiple, i anume:

133

media abaterilor reziduale individuale este egal cu 0 (metodele uzuale de estimare a coeficienilor de regresie se bazeaz tocmai pe aceast ipotez), abaterile reziduale se distribuie dup legea normal, variana abaterilor este constant pe ntreg domeniul de aplicabilitate a ecuaiei de regresie (pentru toate valorile experimentale ale variabilelor independente), variabilele factoriale nu sunt coliniare, erorile de estimare nu se coreleaz cu nici una dintre variabilele independente. n general, transformarea unei variabile factoriale x are scopul de a corecta neliniaritatea, iar transformarea variabilei dependente y se aplic pentru a corecta inconstana varianei sau pentru a obine normalizarea erorilor de estimare, ceea ce poate duce implicit i la creterea liniaritii. Dac erorile de estimare se distribuie dup legea normal n modelul iniial, transformarea lui y poate duce, ns, la deformarea distribuiei erorilor. Transformarea lui y implic schimbarea unitii de msur n care se exprim variabila dependent, ceea ce face dificil interpretarea rezultatelor cu att mai mult cu ct transformarea este mai complex. O alt situaie des ntlnit i prea puin analizat este cea n care unele variabile explicative sunt puternic corelate ntre ele, astfel nct ntregul set poteniale variabile conin informaie redundant. Multicoliniaritatea se manifest frecvent n ecuaiile de regresie multiple i se observ atunci cnd variabilele explicative luate n considerare ntr-o ecuaie de regresie multipl nu variaz independent ci sunt puternic corelate. Este specific variabilelor factoriale (nu se refer n nici un fel la variabila rezultativ) i favorizeaz urmtoarele manifestri negative: efectul variabilelor explicative asupra celei dependente se confund (nu pot fi separate sau influenate), variabilele explicative coliniare sunt de sensuri contrare i se compenseaz reciproc, un alt set de observaii din populaia iniial ar putea genera coeficieni de regresie total diferii de cei determinai pe baza eantionului anterior. n consecin, crete incertitudinea n estimarea coeficienilor ecuaiei de regresie, ale cror erori standard sunt foarte mari, astfel nct pot deveni nesemnificativi.

134

Multicoliniaritatea este specific ecuaiei de regresie polinomiale pentru c variabilele explicative sunt, de fapt, puteri ale aceleiai variabile i, evident, sunt foarte puternic corelate ntre ele. Este recomandabil s se utilizeze ct mai puine variabile explicative ntr-o ecuaie de regresie (numai acele variabile care sunt bine corelate cu variabila rezultativ i relativ necorelate ntre ele).

Trebuie s se ia o decizie bazat pe analiz statistic n aa fel nct s se foloseasc acele variabile independente care duc la obinerea unei ecuaii de regresie care s verifice n cea mai mare msur ipotezele formulate iniial. Transformrile de variabile reprezint un remediu pentru valorile extreme, pentru deviaiile de la normalitate i favorizeaz liniarizarea i homoscedascitatea (constana erorilor). Trebuie, ns, s existe precauie n aplicarea transformrilor pentru c astfel devine dificil interpretarea noilor variabile. Trebuie s se aplice urmtoarele reguli de transformare: transformrile variabilei dependente vor schimba distribuia erorilor de estimare n model; incompatibilitatea erorilor modelului cu o anumit distribuie teoretic poate fi remediat numai prin transformarea variabilei dependente; legtura statistic dintre variabila dependent i o anumit variabil independent poate fi liniarizat uneori prin transformarea variabilei factoriale, caz n care nu se modific (de obicei) distribuia erorilor de estimare; intervalele de ncredere determinate pentru ecuaia de regresie cu variabile transformate trebuie s fie recalculate n unitile de msur corespunztoare modelului iniial. Procesul de transformare este un proces iterativ care necesit i o evaluare postcalcul. Modelele neinterpretabile nu sunt de dorit, chiar dac acestea exprim foarte bine legtura corelativ studiat. Sunt mai apreciate

135

ecuaiile de regresie interpretabile, cu o alt form dect cea polinomial, chiar dac nu ajung la acelai grad de ajustare.
10.6 Raportul de corelaie

Folosirea coeficientului de corelaie r i a ecuaiilor de regresie liniare nu se justific dect dac exist ntr-adevr o dependen liniar ntre caracteristici. n celelalte situaii este recomandat s se utilizeze un alt indicator statistic care ia n calcul mediile aritmetice corespunztoare unor benzi trasate pe diagrama de puncte (xi, yi), paralel cu axele de coordonate (figura 36). Acest indicator se numete raport de corelaie i se noteaz cu .

Figura 36. Principiul de determinare a raportului de corelaie

Ecuaiile de regresie, n acest caz, nu mai sunt liniare. Metoda de determinare a coeficienilor de regresie este, ns, aceeai i se aplic n aceleai condiii. De exemplu, pentru o ecuaie de regresie polinom de gradul n (aplicabil n unele situaii bine justificate i numai cu un grad n de valoare mic), sistemul de ecuaii ce rezult din metoda celor mai mici ptrate este:
2 n y = a0 N + a1 x + a 2 x + L + a n x 2 3 n +1 xy = a 0 x + a1 x + a 2 x + L + a n x 2 3 4 n+ 2 x2 y = a 0 x + a1 x + a 2 x + L + a n x LLLLLLLLLLLLLLLLLLLLLLL xn y = a n n +1 + a 2 x n+ 2 + L + a n x 2n 0 x + a1 x
136

(10.29)

10.6.1 Determinarea raportului de corelaie

Pentru banda paralel cu ordonata, cu abscisa central (centrul clasei) xi, se consider media a ni valori y corespunztoare lui x, coninute n aceast clas. Dac se noteaz prin y media general a valorilor y i prin y xi media a ni valori y n clasa i dup x (cu centrul corespunztor lui
xi), raportul de corelaie are expresia:

yx =

n (y y ) (y y)
i xi 2 i

Q , QT

(10.30)

n care: Q este suma ptratelor abaterilor fa de media ntre clase (ntre grupele formate), QT suma ptratelor abaterilor pe total. Se poate defini i raportul de corelaie al lui x n funcie de y (al corelaiei inverse):

xy =
Se mai poate scrie:

n (x x ) (x x )
i yi 2 i

(10.31)

yx =

s yx sy

; xy =

s xy sx

(10.32)

n care notaiile reprezint: s y x - abaterea standard a mediilor de clas pentru caracteristica y, s y - abaterea standard a caracteristicii y, s x y - abaterea standard a mediilor de clas pentru caracteristica x, s x - abaterea standard a caracteristicii x. Raportul de corelaie este cuprins n intervalul [0,1] . Pentru = 0 , ntre variabile exist o independen total, iar pentru = 1 ntre caracteristici exist o legtur funcional (neliniar sau liniar). n timp ce pentru o regresie riguros liniar: yx = xy = r , pentru o regresie neliniar, ntotdeauna: >r.
137

(10.33) (10.34)

Raportul de corelaie multipl (R) msoar intensitatea legturii dintre o caracteristic rezultativ y i dou sau mai multe caracteristici factoriale x1, x2, ..., xi. Calculul raportului de corelaie presupune identificarea formei legturii dintre variabile (determinarea ecuaiei de regresie), determinarea mediei aritmetice ( y ) a valorilor individuale yi i calculul valorilor i ). Relaia de calcul este: ajustate ale variabilei rezultative ( y
R = 1

(y
i =1 N i =1

i ) y

(y

y)

.
2

(10.35)

Ptratul raportului de corelaie (R2), exprimat procentual, este numit coeficient de determinare i arat care este ponderea variaiei determinate de influena factorilor cuprini n model n variaia total a variabilei rezultative.
10.6.2 Semnificaia raportului de corelaie

Testarea semnificaiei raportului de corelaie se face prin aplicarea testului F.

Fexp =

N k 2 , k 1 1 2

(10.36)

n care k reprezint numrul de clase formate pentru caracteristica factorial. Fexp se compar cu Fteoretic extras din tabele pentru o anumit probabilitate de transgresiune q i pentru f1 = k-1 i f2 = N-k. dac Fexp Fteoretic 0,05 este nesemnificativ, dac Fexp > Fteoretic 0,05 este semnificativ, dac Fexp > Fteoretic 0,01 este distinct semnificativ.

138

Tabelul 15.
xy
ny (xy x)2

CALCULUL COEFICIENTULUI DE CORELAIE r, AL RAPORTULUI DE CORELAIE yx I AL RAPORTULUI DE CORELAIE xy


ny y

ny y 2

nxy x y

n y ( yi y ) 2

139
37,24 39,82 616,00 300,00 256,00 136,00 6452,00
x

44,0 42,0 40,0 38,0 36,0 34,0 32,0 30,0 28,0 26,0 nx 55,00 58,00 52,00 48,36 42,62 42,91 37,71 34,67 34,50 32,00 44,81 831,41 1740,93 1035,20 278,52 124,72 79,12 704,01 925,17 849,64 819,91 7388,64 40,47 361,20 156,78 213,79 127,19 75,37 2000,90 39,64 42,40 41,50 42,00 35,86

28,0 0 0 0 0 0 0 0 1 2 1 4 ny 8 10 20 22 26 22 14 9 8 5 144

32,0 0 0 0 0 0 0 3 2 1 3 9

36,0 0 0 1 0 3 1 4 5 3 1 18

40,0 0 0 1 5 10 8 5 1 2 0 32

44,0 0 2 0 1 7 9 2 0 0 0 21

48,0 0 0 5 7 5 4 0 0 0 0 21

52,0 5 2 3 6 1 0 0 0 0 0 17

56,0 0 0 9 2 0 0 0 0 0 0 11

60,0 3 1 0 1 0 0 0 0 0 0 5

64,0 0 3 1 0 0 0 0 0 0 0 4

68,0 0 2 0 0 0 0 0 0 0 0 2

352,00 15488,0 420,00 17640,0 800,00 32000,0 836,00 31768,0 936,00 33696,0 748,00 25432,0 448,00 14336,0 270,00 8100,0 224,00 6272,0 130,00 3380,0 5164,00 188112,0

19360,00 24360,00 41600,00 40432,00 39888,00 32096,00 16896,00 9360,00 7728,00 4160,00 235880,00

529,93 376,86 342,61 100,65 0,50 76,20 208,71 309,17 494,38 486,21 2925,22

yx
y
3,93

28,00

29,11

31,67

34,63

35,43

x
2 x ( y x y)

n
nx x nx x 2

(xy x)2
y

ny y

ny y 2
y

n
x y

xy

x y

( yi y ) 2
2 R yx = 0,684 yx = 0,827

n x ( y x y ) 2 247,19

410,06

316,68

48,90

n

x

nx x

112,00

288,00

648,00 1280,00 924,00 1008,00 884,00

nx x 2
214,29

3136,0

9216,0 23328,0 51200,0 40656,0 48384,0 45968,0 34496,0 18000,0 16384,0 9248,0 300016,0

nxy x y

3136,0

8384,0 20520,0 44320,0 32736,0 37536,0 35776,0 24416,0 12720,0 10624,0 5712,0 235880,0 879,92 1378,47 1154,36 1473,71 1075,96 10930,56

n
x y

xy

x y
2 x

n x ( xi x )

1129,71 1475,84 1395,68 738,99

13,63

( xi x )

2 = 0,676 R xy xy = 0,822

R 2 = 0,634 r = 0,797

11. ANALIZA SERIILOR DE TIMP

Seriile de timp, seriile cronologice sau seriile dinamice reprezint variaia uneia sau a mai multor caracteristici n raport cu variabila timp. Determinarea valorilor acestor caracteristici se face n momente diferite; pentru simplificarea metodelor de prelucrare statistic este recomandabil ca datele experimentale s fie obinute la intervale egale de timp ( t = 1 ). Variabilele analizate n raport cu timpul pot fi discrete (de exemplu: numrul de arbori) sau continue (de exemplu: temperatura). Unitatea de timp luat n considerare este anul (cel mai frecvent) dar i luna, sptmna, ziua, iar pentru evidenierea anumitor particulariti ale unor fenomene, chiar ora sau minutul. n funcie de numrul variabilelor considerate, seriile de timp pot fi unidimensionale, bidimensionale sau pluridimensionale.
11.1 Ajustarea unei serii cronologice

Din reprezentarea unei serii cronologice unidimensionale se observ c aceasta se caracterizeaz prin componentele: T: o variaie de lung durat (tendin secular sau trend), C: variaie ciclic (variaii ritmice care se repet dup o anumit perioad), S: variaie sezonier, caz particular de variaie periodic reprezentnd oscilaii ale seriilor cronologice n funcie de anotimpuri sau grupe de luni sau zile, R: variaie rezidual (variaii aleatoare sau accidentale). Seriile cronologice pot avea un model aditiv ( T + C + S + R ) sau un model multiplicativ ( T C S R ). Pentru fenomenele din silvicultur se aplic frecvent modelul aditiv al seriilor cronologice. Modelul general nu este aplicabil n toate situaiile. De exemplu, dac datele sunt nregistrate anual nu are sens considerarea unei componente sezoniere. Dac seria este analizat pentru o perioad scurt de timp, se poate omite componenta ciclic. Uneori, pentru analiza corelaiei seriilor de timp trebuie s fie eliminat trendul, astfel nct s poat fi puse n eviden numai variaiile ciclice.
Ajustarea unei serii cronologice, similar ajustrii distribuiilor, const n aplicarea metodelor statisticmatematice i grafice adecvate pentru nlocuirea seriei empirice cu o serie de valori calculate n vederea evidenierii caracterului legic i regulat al fenomenelor analizate.

140

Metodele de ajustare pot fi grupate n: metode grafice, metode mecanice i metode analitice. Metoda grafic const n trasarea aproximativ a unei curbe sau drepte de tendin pentru seria cronologic pe un grafic cu scar aritmetic sau logaritmic. Metodele de ajustare mecanic const n aplicarea succesiv a unor formule de calcul prestabilite care s modifice cea mai mare parte a termenilor seriei cronologice (de exemplu, metoda mediilor mobile). Metodele analitice de ajustare aplic metodele statisticomatematice pentru aproximarea valorilor teoretice ale seriilor de timp prin intermediul unor functii matematice. Cea mai utilizat este metoda celor mai mici ptrate. Uneori, nainte de ajustarea propriu zis, n scopul obinerii unor curbe cu variaii extreme estompate, se aplic metode de netezire prin interpolarea valorilor seriei de timp. Aceast operaie se bazeaz pe ipoteza c variabila analizat n raport cu timpul este o variabil continu i const n completarea termenilor lips (ntre valorile existente) ntr-o serie cronologic. Se folosesc formule specifice de interpolare (Newton, Lagrange etc.).
11.1.1 Ajustarea grafic prin procedeul punctelor mediane

Acest procedeu const n unirea punctelor de maxim ntre ele i a celor de maxim ntre ele (figura 37). Pe ordonatele ce corespund unui maxim sau minim se determin punctele A, B, C, , echidistanate fa de cele dou linii ce unesc maximele i minimele. Se obine astfel linia poligonal denumit tendin general.

Figura 37. Ajustarea unei serii de timp prin procedeul punctelor mediane

141

11.1.2 Procedeul mediilor centrate

Se aplic atunci cnd tendina seriei cronologice pare rectilinie, caz n care dreapta de tendin ar fi: = a + bt , y (11.1) cu b =

( y y ) (t t ) (t t )
i i i 2 i i

i a = y b t ,

(11.2)

n care: y este media valorilor variabilei studiate y, t este timpul mediu (mijlocul perioadei analizate). Pentru simplificarea calculelor, b este pus sub forma: yi t i N y t = i yi t i t i yi b= i 2 i t i N t 2 i t i2 t i t i

(11.3)

n cazul n care data primei observaii corespunde cu originea (t ia succesiv valorile 0, 1, 2, , N-1): N ( N 1) N ( N 1) (2 N 1) N 1 ;t = i i t i = 2 ; i t i2 = 6 2 N N 2 1 2 t t t = . (11.4) i i i i 12 Dac tendina general nu este liniar, dar poate deveni printr-o schimbare de variabil (de exemplu prin logaritmare: y ' = log y ), modalitatea de lucru este aceeai.

11.1.3 Procedeul mediilor mobile

Acest procedeu poate fi aplicat, dup caz, n dou variante: medii mobile neponderate, atunci cnd fiecare observaie este nlocuit printr-o medie aritmetic calculat cu valoarea observat i cu cele vecine ei:
xi 1 + xi + xi +1 x + xi 1 + xi + xi +1 + xi + 2 sau xi ' = i 2 . (11.5) 3 5 medii mobile ponderate, atunci cnd tendina este curbilinie (mediile mobile calculate neponderat s-ar plasa n concavitatea curbei). Procedeul Bloxham aplicat n aceast situaie presupune nlocuirea lui x + 2 xi + xi +1 xi cu i 1 . Procedeul Spencer necesit nlocuirea lui xi cu 4 media ponderat a 15 valori, calculat cu relaia: xi ' =
1 ( 3 xi 7 6 xi 6 5 xi 5 + 3 xi 4 + 21xi 3 + 46 xi 2 + 67 xi 1 + 74 xi + 67 xi +1 + 46 xi + 2 + 21xi +3 + 3xi + 4 5 xi +5 6 xi + 6 3 xi + 7 ) 320

142

11.1.4 Analiza componentelor seriilor cronologice Trendul reprezint principala component a unei serii de timp. n vederea identificrii tendinei generale se folosesc metode de ajustare analitic prin aplicarea metodei celor mai mici ptrate. Sunt estimai astfel parametrii unor funcii matematice adaptate la forma celei empirice. Frecvent sunt utilizate pentru ajustare: dreapta, parabola, exponeniala, exponeniala modificat, curba Gompertz, curba logistic. Exista criterii, destul de subiective ns, de alegere iniial a unei funcii teoretice. Practic, se recomand analiza reprezentrii grafice care d indicaii importante n legtur cu caracterul tendinei generale. Pentru evidenierea trendului, este de dorit ca seria cronologic s se refere la o perioad ct mai mare de timp. Analiza componentei sezoniere a seriei cronologice presupune stabilirea variaiei determinate de succesiunea anotimpurilor (sezoanelor) sau de repetarea unor particulariti pe luni, trimestre sau chiar uniti de timp mai mici. Sezonalitatea poate fi de tip constant (cu aproximativ aceeai amplitudine) sau de tip variabil. Analiza variaiilor ciclice ale seriilor cronologice presupune aplicarea unor metode statistico-matematice pentru identificarea acelor componente ale unei serii de timp care se repet la intervale egale. Un termen al seriei de timp care depete ca valoare att termenul anterior ct i cel urmtor se numete vrf sau maxim local. Situaia opus reprezint un minim local. Se numete perioad intervalul dintre dou vrfuri succesive. D'T , n care D Tendina ciclic este surprins de relaia T reprezint datele brute corectate din punct de vedere al variaiilor sezoniere, iar T este trendul. n cazul seriilor de timp bidimensionale, cele dou variabile continue (x i y) sunt determinate pentru momentele ti i pot fi reprezentate pe acelai grafic prin dou curbe: x = f (t ) i y = g (t ) . Dac aceste curbe au punctele de extrem de acelai tip (minime, respectiv, maxime) situate aproximativ pe aceeai abscis, se numesc serii sincrone. n alte situaii, seriile sunt asincrone i trebuie s se determine faza de corelaie sau abaterea de la sincronism.

143

11.2 Determinarea fazei de corelaie

Faza de corelaie reprezint corecia de timp care trebuie aplicat absciselor unei serii dinamice n vederea realizrii sincronismului cu alt serie dinamic.
11.2.1 Cazul n care cele dou caracteristici sunt exprimate n sisteme diferite de uniti de msur

Se calculeaz coeficientul de corelaie, r, al celor dou serii, xi = f (t i ) i y i = g (t i ) . n acest scop, meninnd fixe valorile ti pentru funcia f (t i ) , se aplic diferite corecii t k lui ti n funcia g (t i ) i se obin diferite valori ale coeficientului de corelaie rk. Din mulimea coeficienilor de corelaie calculai se alege valoarea maxim. Pentru rk = rmax va rezulta (t k )rmax = = faza de corelaie. Aa cum se poate deduce, acest mod de lucru este laborios; practic se procedeaz astfel: se consider c valorile xi, yi se obin la intervale egale de timp (prin interpolare se poate ndeplini aceast condiie), se alege arbitrar t 0 = N t , n care t este pasul constant al absciselor ti, iar N este un numr ntreg. Valoarea t0 trebuie aleas astfel nct, aplicnd-o la abscisele unei serii, extremele celor dou funcii, xi i yi, s coincid ca poziie. se noteaz: r0 = coeficientul de corelaie cnd se aplic o corecie t = N t = t 0 , r+ = coeficientul de corelaie cnd se aplic o corecie t = ( N + 1) t = t 0 + t , r_ = coeficientul de corelaie cnd se aplic o corecie t = ( N 1) t = t 0 t . Pe un interval mic de variaie a lui t, curba empiric a lui r poate fi aproximat printr-un polinom de gradul II: 2 r = a (t ) + b t + c . (11.6) Se obine sistemul:

144

r = a [( N 1) t ]2 + b [( N 1) t ] + c 2 r0 = a (N t ) + b ( N t ) + c r = a [( N + 1) t ]2 + b [( N + 1) t ] + c +
Prin rezolvarea sistemului se obin: r + r 2r a= + 2 0 ; 2 ( t ) r r 2 N (r+ + r 2 r0 ) b= + ; 2 t
c = r0 a ( N t ) + b N t ,
2

(11.7)

(11.8) (11.9) (11.10)

r = rmax atunci cnd prima derivat a funciei (11.6) este egal cu 0. Faza de corelaie va fi: 2 r r 2 N (r+ + r 2 r0 ) 2 ( t ) b = + = 2a 2 (r+ + r 2 r0 ) 2 t r+ r t . (11.11) = t 0 2 r+ + r 2 r0 11.2.2 Cazul n care cele dou caracteristici sunt exprimate n aceleai uniti de msur

Determinarea fazei de corelaie se poate face fr a calcula coeficienii de corelaie. Pe graficul celor dou funcii, xi = f (t i ) i y i = g (t i ) , se determin cu ct ar trebui deplasate abscisele punctelor funciei yi pentru ca extremele s coincid; dac extremele nu sunt foarte evidente, problema const n a stabili sensul i mrimea t 0 a translaiei unei funcii astfel nct cele dou curbe s devin paralele. Se consider c xi = f (t i ) i pstreaz abscisele ti iniiale, iar pentru y i = g (t i ) se aplic acea corecie t 0 determinat grafic i devine y i = g (t i + t 0 ) . i n acest caz t 0 trebuie considerat un numr ntreg de pai t . n continuare se determin sumele ptratelor abaterilor n trei situaii: 2 S 0 = i ( xi y i ) pentru y i = g (t i + N t ) , (11.12)

S + = i ( xi y i ) pentru y i = g [t i + ( N + 1) t ].
2

S = i ( xi y i ) pentru y i = g [t i + ( N 1) t ] i
2

(11.13) (11.14)

145

Pentru o valoare t 0 = N t apropiat de mrimea fazei de corelaie se poate scrie:

S = A (t ) 2 + B (t ) + C

(11.15)

i, dup ce se pune condiia ca S s fie minim, se obine expresia fazei de corelaie: B = , (11.16) 2 A tiind c: S + S 2 S0 A= + ; (11.17 2 2 ( t )
B= S + S 2 N (S + S + 2 S 0 ) i 2 ( t ) C = S 0 A (t 0 ) B (t 0 ) .
2

(11.18) (11.19)

Deci:
2 S S 2 N (S + + S 2 S 0 ) 2 ( t ) + = 2 (S + + S 2 S 0 ) 2 ( t )

= t 0

S+ S . 2 S+ + S 2 S0

(11.20)

11.3 Autocorelaia

n cazul unor serii de timp se observ c valorile xi se coreleaz cu valorile xi+k. Aceast corelaie dintre termenii aceleiai serii se numete autocorelaie i este pus n eviden prin compararea termen cu termen a seriei iniiale cu aceeai serie decalat cu k uniti de timp. Dezavantajul acestui tip de analiz statistic este acela c nu se pot forma dect n k cupluri de valori din cele n ale seriei ntregi, ceea ce poate constitui un impediment n cazul unei serii reduse. n cazul general, mediile celor dou serii astfel obinute nu sunt egale. De asemenea, nici abaterile standard. Cu notaiile: 1 nk 1 nk x i i x k = xi + k , nk 1 nk 1 relaia coeficientului de corelaie (autocorelaie) de ordin k este:

x1 =

(11.21)

146

rk =

(x
1

nk

x1 )( xi + k x k )
2

(x
1

nk

x1 ) ( xi + k x k )
1

nk

.
2

(11.22)

Pentru a recunoate dac o serie include cu adevrat un element ciclic se folosete metoda corelogramei. n acest scop se calculeaz rk pentru k = 1, 2, 3, 4, i se reprezint ntr-o diagram cu k n abscis i rk n ordonat (figura 38). Punctele unite descriu o curb denumit corelogram.

Figura 38. Reprezentare grafic a corelogramei

Dac aceast corelogram prezint o alur oscilatorie care nu se amortizeaz (amplitudinea se menine constant pentru valorile lui k din ce n ce mai mari) se poate concluziona c exist unul sau mai multe elemente ciclice n serie. Dac forma este oscilatorie amortizat, autocorelaia este susceptibil de a fi utilizat pentru prevederea unei valori xi a variabilei pornind de la valorile xi-1, xi-2, deja cunoscute prin determinarea unei ecuaii de regresie adecvate.
11.4 Analiza armonic a seriilor cronologice

Aceast metod de analiz statistic se bazeaz pe ipoteza c o serie de timp se comport ca un ansamblu de unde. Admind c seria este constituit dintr-un numr, posibil finit, de mici fluctuaii i cuprinde o gam continu de lungimi de und, se analizeaz distribuia varianei n diferite intervale de frecven ntr-un cmp continuu. n esen, procedeul se bazeaz, deci, pe considerarea unei serii cronologice ca o sum a funciilor periodice de forma:

147

2 2 (11.23) u (t ) = sin T t i v(t ) = cos T t , i i n care T1,2, , n sunt perioadele acestor funcii, perioade care se pot determina prin alegerea unor funcii periodice cunoscute crora li se atribuie valori succesive i observarea modului de variaie a acestora. Se ajunge la o sum a acestor funcii care d cea mai bun aproximare a variaiilor seriei analizate. Prin reprezentarea grafic a analizei armonice se obine periodograma. Frecvent, presupunnd seria de timp x = f (t ) , dac f (t + T ) = f (t ) pentru toate valorile lui t, aceasta se exprim ca o serie Fourier: 1 360 j t 360 j t = A0 + A j sin + B j cos x (11.24) , T T 2 j =1 n care T este perioada de oscilaie, iar A0, Aj i Bj sunt constante. Pentru un set de date care furnizeaz un numr finit de valori x1, x2, , xn corespunztoare observaiilor efectuate la momentele t1, t2, , tn separate prin intervale egale de timp, forma funciei este:
i = x + A j sin (i j ) + B j cos(i j ) , x
n n j =1 j =1

(11.25)

unde x este valoarea medie a variabilei xi pe perioada T (12 luni, 24 ore etc.), i reprezint numrul de ordine al unui element n seria cronologic 2 2j . studiat, iar pulsaia j = = Tj T Media x se calculeaz astfel: x1 + x n + x 2 + L + x n 1 2 la seriile de moment: x = , (11.26) n 1
la seriile cronologice de intervale: x =

. n Coeficienii Aj i Bj se estimeaz cu relaiile: n 2 n = 2 e sin (i ) , B A = ei cos(i j ), i j j j n i =1 n i =1 e fiind abaterile valorilor individuale xi fa de x ( e = xi x ). Seria (11.25) se mai poate scrie n forma:
i = x + j sin (i j + j ) , x
n j =1

x
i =1

(11.27)

(11.28)

(11.29)

148

n care j =

i se afl n cadranul Aj corespunztor semnelor coeficienilor Aj i Bj conform reprezentrii din figura 39.

2 A2 j + B j , iar faza j = arctg

Bj

Figura 39. Conveniile de semn pentru valorile coeficienilor Aj i Bj

2 j se numete amplitudine ptrat, iar importana ei const n


faptul c msoar descreterea n suma ptratelor reziduurilor: cu ct este mai mare aceast valoare, cu att mai mare este contribuia pe care componenta armonic a frecvenei j o aduce la variaia lui xi .
11.5 Funcii de cretere i dezvoltare

Prin msurarea succesiv, de preferin la intervale egale, a caracteristicilor dendrometrice ale arborilor sau ale arboretului n ansamblu, se obin valori experimentale care, reprezentate grafic, redau variaia n raport cu timpul a acelor caracteristici sau dinamica creterilor; ajustarea printr-o curb continu genereaz curba de cretere. Reprezentarea grafic a creterilor acumulate duce la obinerea curbei de acumulare sau de dezvoltare. Aceasta are forma unui S alungit i este asemntoare cu curba frecvenelor cumulate a distribuiilor teoretice. Dac funcia de dezvoltare este y = f ( x) , curba de cretere este prima derivat y ' a acesteia (sau, invers, curba de dezvoltare se obine prin integrarea curbei creterilor). Creterea medie se obine prin raportarea creterii cumulate la f ( x) perioada de timp analizat . x

149

n figura 40 s-a reprezentat curba de acumulare (a produciei totale) n partea superioar i curbele creterilor curente i medii, n partea inferioar. Se pot pune n eviden grafic legturile dintre aceste funcii: - maximul creterii curente este atins ntotdeauna nainte de cel al creterii medii; - maximul curbei creterii medii se realizeaz atunci cnd aceasta intersecteaz curba creterii curente; punctul de intersecie corespunde momentului n care curba de acumulare admite o tangent care trece prin originea sistemului de coordonate; - maximul creterii curente se atinge corespunztor punctului de inflexiune al curbei de acumulare; Relaiile dintre aceste funcii se demonstreaz relativ simplu prin aplicarea calculului diferenial; ele sunt aplicabile n cazul analizei creterilor n diametru de baz, n nlime, n suprafaa de baz sau n volum, att pentru arbori individuali ct i pentru arboretul echien n ansamblu.

Figura 40. Legtura dintre curbele de cretere i cea de acumulare


150

Pard i Bouchon (1988) prezint mai multe modele utilizate pentru exprimarea creterii diverselor caracteristici dendrometrice ale arborilor i arboretelor: - Duplat i Tran-Ha:
a x 3 a y = ( a 0 + a1 x ) 1 e 2

a4

+ a5 x

(11.30)

n care: e este baza logaritmului natural, a0 - parametru liber, a1, ..., a5 - parametri constani pentru aceeai staiune. - Lundqvist i Matrn:
5 x a y = a1 + a 2 e ( 4 ) a

a3

(11.31)

unde: e este baza logaritmului natural, a1, ..., a5 - coeficieni de regresie (a2, a3 i a5 strict pozitivi). Se observ c pentru a5=1 se obine modelul lui Schumacher. - Chapman - Richards: 1 a3 ( x a4 ) 1 a5 y = a1 + a 2 1 e (11.32) n care: e este baza logaritmului natural, a1, ..., a5 - coeficieni de regresie (a3 < 0 i a5 < 1). Pentru a1=a4=a5=0 se obine modelul logistic. n cele trei modele, y reprezint valoarea caracteristicii studiate, determinat n funcie de vrsta x. n unele situaii se poate folosi pentru ajustarea curbei creterilor i modelul de forma: a x 3 + a2 x 2 + a3 x y= 1 2 , (11.33) x + a 4 x + a5 cu aceeai semnificaie a notaiilor.

151

Bibliografie selectiv
Anonymous, 1991, CSS: STATISTICA, StatSoft Inc., Tulsa, U.S.A. Anonymous, 1998, SPSS Base 8.0 Application Guide Clocotici V., Stan A., 2000, Statistic aplicat n psihologie, Ed. Polirom, Iai Dodge Y., 1993, Statistique. Dictionnaire encyclopedique, Ed. Dunod, Paris Giurgiu V., 1972, Metode ale statisticii matematice aplicate n silvicultur, Ed.Ceres, Bucureti Giurgiu V., 1979, Dendrometrie i auxologie forestier, Ed.Ceres, Bucureti Houllier F., Gegout J.-C., 1994, Introduction a lanalyse des donnees, ENGREF, Nancy Leahu I., 1984, Metode i modele structural-funcionale n amenajarea pdurilor, Ed. Ceres, Bucureti Lemoine B. et al., 1991, Etude de la loi de Weibull en vue de son ajustement aux distributions en circonference de peuplements de Pin maritime; n Modelisation de la croissance et de la qualite des bois en function de la sylviculture et de lheredite, INRA Champenoux, Nancy Mihoc Gh., Urseanu V., Ursianu E., 1982, Modele de analiz statistic, Ed. tiinific i enciclopedic, Bucureti Neuilly M., 1993, Modelisation et estimation des erreurs de mesure, Ed. Lavoisier, Paris Parde J., Bouchon J., 1988, Dendrometrie, ENGREF, Nancy Philip M.S., 1994, Measuring Trees and Forests, CAB International, U.K. Porojan D., 1993, Statistica i teoria sondajului, Casa de editur i pres ansa S.R.L., Bucureti Rondeux J., 1993, La mesure des arbres et des peuplements forestiers, Ed. Lavoisier, Paris Rotariu T. et al., 1999, Metode statistice aplicate n tiinele sociale, Ed. Polirom, Iai Todoran I.,1989, Rspunsuri posibile. Corelaie i prognoz, Ed. DACIA, Cluj-Napoca Tomassone R., Dervin C., Masson J.P., 1993, Biometrie. Modelisation de phenomenes biologiques, Ed. Masson, Paris Trebici V. et al., 1985, Mic enciclopedie de statistic, Ed. tiinific i enciclopedic, Bucureti arc M., 1998, Tratat de statistic aplicat, Ed. Didactic i pedagogic, Bucureti
152

A N E X E

153

Distribuia normal
III

A NEX AI
III

f(u)

III

f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u)

IV

f(u)

III

f(u)

IV

f(u)

f(u)

IV

III

f(u)

IV

III

f(u)

IV

f(u)

IV

III

f(u)

IV

III

f(u)

IV

III

f(u)

IV

III

f(u)

IV

154
IV IV

u 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 1,1956 1,1541 1,0560 0,9082 0,7206 0,5056 0,2770 0,0487 -0,1660 -0,3559 -0,5122 -0,6292 -0,7042 -0,7376 -0,7326 -0,6942 -0,6293 -0,5452 -0,4494 -0,3492 -0,2506 -0,1588 -0,0774 -0,0088 0,0461 0,0871 0,1152 0,1317 0,1386 0,1378 0,1313 0,1208 0,1080 0,0941 0,0801 0,0669 0,0547 0,0440 0,0347 0,0270 0,0207 0,3988 0,3956 0,3885 0,3778 0,3637 0,3467 0,3271 0,3056 0,2827 0,2589 0,2347 0,2107 0,1872 0,1647 0,1435 0,1238 0,1057 0,0893 0,0748 0,0620 0,0508 0,0413 0,0332 0,0264 0,0208 0,0163 0,0126 0,0096 0,0073 0,0055 0,0040 0,0030 0,0022 0,0016 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002 0,0001 1,1941 1,1468 1,0434 0,8910 0,7001 0,4831 0,2539 0,0265 -0,1862 -0,3731 -0,5257 -0,6386 -0,7093 -0,7388 -0,7301 -0,6888 -0,6216 -0,5360 -0,4395 -0,3392 -0,2411 -0,1502 -0,0700 -0,0027 0,0508 0,0905 0,1173 0,1328 0,1389 0,1374 0,1304 0,1196 0,1066 0,0927 0,0788 0,0656 0,0536 0,0430 0,0339 0,0263 0,0201 0,3986 0,3951 0,3876 0,3765 0,3621 0,3448 0,3251 0,3034 0,2803 0,2565 0,2323 0,2083 0,1849 0,1626 0,1415 0,1219 0,1040 0,0878 0,0734 0,0608 0,0498 0,0404 0,0325 0,0258 0,0203 0,0158 0,0122 0,0093 0,0071 0,0053 0,0039 0,0029 0,0021 0,0015 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002 0,0001 1,1920 1,1388 1,0302 0,8735 0,6793 0,4605 0,2309 0,0043 -0,2063 -0,3901 -0,5389 -0,6476 -0,7141 -0,7395 -0,7274 -0,6831 -0,6138 -0,5267 -0,4295 -0,3292 -0,2316 -0,1416 -0,0626 0,0033 0,0554 0,0937 0,1194 0,1338 0,1390 0,1369 0,1294 0,1184 0,1052 0,0913 0,0774 0,0643 0,0524 0,0420 0,0331 0,0256 0,0195 0,3984 0,3945 0,3867 0,3752 0,3605 0,3429 0,3230 0,3011 0,2780 0,2541 0,2299 0,2059 0,1826 0,1604 0,1394 0,1200 0,1023 0,0863 0,0721 0,0596 0,0488 0,0396 0,0317 0,0252 0,0198 0,0154 0,0119 0,0091 0,0069 0,0051 0,0038 0,0028 0,0020 0,0015 0,0010 0,0007 0,0005 0,0004 0,0002 0,0002 0,0001 1,1894 1,1304 1,0165 0,8556 0,6583 0,4378 0,2078 -0,0176 -0,2260 -0,4066 -0,5516 -0,6561 -0,7185 -0,7399 -0,7243 -0,6772 -0,6057 -0,5173 -0,4195 -0,3192 -0,2222 -0,1332 -0,0554 0,0092 0,0598 0,0968 0,1213 0,1347 0,1391 0,1364 0,1285 0,1171 0,1039 0,0899 0,0761 0,0631 0,0513 0,0410 0,0323 0,0249 0,0190 0,3982 0,3939 0,3857 0,3739 0,3589 0,3410 0,3209 0,2989 0,2756 0,2516 0,2275 0,2036 0,1804 0,1582 0,1374 0,1182 0,1006 0,0848 0,0707 0,0584 0,0478 0,0387 0,0310 0,0246 0,0194 0,0151 0,0116 0,0088 0,0067 0,0050 0,0037 0,0027 0,0020 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 1,1861 1,1214 1,0024 0,8373 0,6371 0,4150 0,1849 -0,0394 -0,2455 -0,4228 -0,5639 -0,6642 -0,7224 -0,7400 -0,7209 -0,6710 -0,5975 -0,5079 -0,4095 -0,3093 -0,2129 -0,1249 -0,0483 0,0148 0,0641 0,0998 0,1231 0,1355 0,1391 0,1358 0,1275 0,1159 0,1025 0,0885 0,0747 0,0618 0,0502 0,0401 0,0315 0,0243 0,0185 0,3980 0,3932 0,3847 0,3725 0,3572 0,3391 0,3187 0,2966 0,2732 0,2492 0,2251 0,2012 0,1781 0,1561 0,1354 0,1163 0,0989 0,0833 0,0694 0,0573 0,0468 0,0379 0,0303 0,0241 0,0189 0,0147 0,0113 0,0086 0,0065 0,0048 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 1,1822 1,1118 0,9878 0,8186 0,6156 0,3921 0,1620 -0,0611 -0,2646 -0,4387 -0,5758 -0,6720 -0,7259 -0,7396 -0,7172 -0,6646 -0,5891 -0,4983 -0,3995 -0,2994 -0,2036 -0,1167 -0,0414 0,0204 0,0683 0,1027 0,1248 0,1363 0,1391 0,1351 0,1264 0,1146 0,1011 0,0871 0,0734 0,0606 0,0492 0,0392 0,0307 0,0237 0,0180 0,3977 0,3925 0,3836 0,3712 0,3555 0,3372 0,3166 0,2943 0,2709 0,2468 0,2227 0,1989 0,1758 0,1539 0,1334 0,1145 0,0973 0,0818 0,0681 0,0562 0,0459 0,0371 0,0297 0,0235 0,0184 0,0143 0,0110 0,0084 0,0063 0,0047 0,0035 0,0025 0,0018 0,0013 0,0009 0,0007 0,0005 0,0003 0,0002 0,0001 0,0001 1,1777 1,1017 0,9727 0,7996 0,5940 0,3691 0,1391 -0,0825 -0,2835 -0,4541 -0,5873 -0,6792 -0,7291 -0,7389 -0,7132 -0,6580 -0,5806 -0,4886 -0,3894 -0,2895 -0,1945 -0,1086 -0,0346 0,0258 0,0723 0,1054 0,1264 0,1369 0,1389 0,1345 0,1254 0,1133 0,0997 0,0857 0,0721 0,0594 0,0481 0,0382 0,0299 0,0230 0,0175

0,3989 0,3970 0,3910 0,3814 0,3683 0,3521 0,3332 0,3123 0,2897 0,2661 0,2420 0,2179 0,1942 0,1714 0,1497 0,1295 0,1109 0,0940 0,0790 0,0656 0,0540 0,0440 0,0355 0,0283 0,0224 0,0175 0,0136 0,0104 0,0079 0,0060 0,0044 0,0033 0,0024 0,0017 0,0012 0,0009 0,0006 0,0004 0,0003 0,0002 0,0001

f(u) 0,00 0,0000 0,1187 0,2315 0,3330 0,4184 0,4841 0,5278 0,5486 0,5469 0,5245 0,4839 0,4290 0,3635 0,2918 0,2180 0,1457 0,0781 0,0176 -0,0341 -0,0760 -0,1080 -0,1302 -0,1436 -0,1492 -0,1483 -0,1424 -0,1328 -0,1207 -0,1073 -0,0934 -0,0798 -0,0669 -0,0552 -0,0449 -0,0359 -0,0283 -0,0219 -0,0168 -0,0127 -0,0095 -0,0070

1,1968 1,1671 1,0799 0,9413 0,7607 0,5501 0,3231 0,0937 -0,1247 -0,3203 -0,4839 -0,6091 -0,6925 -0,7341 -0,7364 -0,7043 -0,6441 -0,5632 -0,4692 -0,3693 -0,2700 -0,1765 -0,0927 -0,0214 0,0362 0,0800 0,1105 0,1293 0,1379 0,1385 0,1330 0,1231 0,1107 0,0969 0,0829 0,0694 0,0570 0,0460 0,0365 0,0284 0,0218

0,3989 0,3965 0,3902 0,3802 0,3668 0,3503 0,3312 0,3101 0,2874 0,2637 0,2396 0,2155 0,1919 0,1691 0,1476 0,1276 0,1092 0,0925 0,0775 0,0644 0,0529 0,0431 0,0347 0,0277 0,0219 0,0171 0,0132 0,0101 0,0077 0,0058 0,0043 0,0032 0,0023 0,0017 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001

f(u) 0,01 0,0120 0,1303 0,2422 0,3423 0,4259 0,4895 0,5309 0,5495 0,5456 0,5212 0,4790 0,4228 0,3566 0,2845 0,2106 0,1387 0,0717 0,0120 -0,0387 -0,0797 -0,1106 -0,1320 -0,1445 -0,1494 -0,1480 -0,1416 -0,1317 -0,1194 -0,1059 -0,0920 -0,0784 -0,0657 -0,0541 -0,0439 -0,0350 -0,0276 -0,0214 -0,0163 -0,0123 -0,0092 -0,0067

1,1965 1,1609 1,0682 0,9250 0,7408 0,5279 0,3000 0,0712 -0,1454 -0,3383 -0,4983 -0,6193 -0,6986 -0,7361 -0,7347 -0,6994 -0,6368 -0,5542 -0,4593 -0,3592 -0,2603 -0,1676 -0,0850 -0,0150 0,0412 0,0836 0,1129 0,1306 0,1383 0,1382 0,1321 0,1220 0,1093 0,0955 0,0815 0,0681 0,0559 0,0450 0,0356 0,0277 0,0212

0,3989 0,3961 0,3894 0,3790 0,3653 0,3485 0,3292 0,3079 0,2850 0,2613 0,2371 0,2131 0,1895 0,1669 0,1456 0,1257 0,1074 0,0909 0,0761 0,0632 0,0519 0,0422 0,0339 0,0270 0,0213 0,0167 0,0129 0,0099 0,0075 0,0056 0,0042 0,0031 0,0022 0,0016 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001

f(u) 0,02 0,0239 0,1419 0,2529 0,3514 0,4332 0,4946 0,5338 0,5501 0,5440 0,5177 0,4740 0,4166 0,3495 0,2771 0,2033 0,1317 0,0654 0,0065 -0,0433 -0,0832 -0,1132 -0,1336 -0,1453 -0,1495 -0,1475 -0,1407 -0,1305 -0,1181 -0,1045 -0,0906 -0,0771 -0,0645 -0,0530 -0,0429 -0,0342 -0,0269 -0,0208 -0,0159 -0,0120 -0,0089 -0,0065

f(u) 0,03 0,0359 0,1534 0,2634 0,3604 0,4403 0,4996 0,5365 0,5504 0,5423 0,5140 0,4688 0,4102 0,3425 0,2697 0,1960 0,1248 0,0591 0,0011 -0,0477 -0,0867 -0,1156 -0,1351 -0,1460 -0,1496 -0,1470 -0,1399 -0,1294 -0,1168 -0,1031 -0,0892 -0,0758 -0,0633 -0,0520 -0,0420 -0,0334 -0,0262 -0,0203 -0,0155 -0,0116 -0,0086 -0,0063

f(u) 0,04 0,0478 0,1648 0,2737 0,3693 0,4472 0,5043 0,5389 0,5506 0,5403 0,5102 0,4635 0,4038 0,3354 0,2623 0,1887 0,1179 0,0529 -0,0042 -0,0521 -0,0900 -0,1180 -0,1366 -0,1467 -0,1496 -0,1465 -0,1389 -0,1282 -0,1154 -0,1017 -0,0879 -0,0745 -0,0621 -0,0509 -0,0411 -0,0327 -0,0256 -0,0198 -0,0150 -0,0113 -0,0084 -0,0061

f(u) 0,05 0,0597 0,1762 0,2840 0,3779 0,4539 0,5088 0,5411 0,5505 0,5381 0,5062 0,4580 0,3973 0,3282 0,2549 0,1815 0,1111 0,0468 -0,0094 -0,0563 -0,0933 -0,1203 -0,1380 -0,1473 -0,1495 -0,1459 -0,1380 -0,1270 -0,1141 -0,1003 -0,0865 -0,0732 -0,0609 -0,0499 -0,0402 -0,0319 -0,0249 -0,0192 -0,0146 -0,0110 -0,0081 -0,0059

f(u) 0,06 0,0716 0,1874 0,2941 0,3864 0,4603 0,5131 0,5431 0,5502 0,5358 0,5021 0,4524 0,3907 0,3210 0,2475 0,1742 0,1044 0,0408 -0,0146 -0,0605 -0,0964 -0,1225 -0,1393 -0,1478 -0,1494 -0,1453 -0,1370 -0,1258 -0,1127 -0,0989 -0,0852 -0,0720 -0,0598 -0,0488 -0,0393 -0,0311 -0,0243 -0,0187 -0,0142 -0,0107 -0,0079 -0,0058

f(u) 0,07 0,0834 0,1986 0,3040 0,3947 0,4666 0,5171 0,5448 0,5497 0,5332 0,4978 0,4467 0,3840 0,3138 0,2402 0,1670 0,0977 0,0349 -0,0196 -0,0645 -0,0994 -0,1245 -0,1405 -0,1483 -0,1492 -0,1446 -0,1360 -0,1245 -0,1114 -0,0976 -0,0838 -0,0707 -0,0586 -0,0478 -0,0384 -0,0304 -0,0237 -0,0182 -0,0138 -0,0103 -0,0076 -0,0056

f(u) 0,08 0,0952 0,2097 0,3138 0,4027 0,4726 0,5209 0,5463 0,5490 0,5305 0,4933 0,4409 0,3772 0,3065 0,2328 0,1599 0,0911 0,0290 -0,0245 -0,0685 -0,1024 -0,1265 -0,1416 -0,1486 -0,1490 -0,1439 -0,1349 -0,1233 -0,1100 -0,0962 -0,0824 -0,0694 -0,0575 -0,0468 -0,0375 -0,0297 -0,0231 -0,0177 -0,0134 -0,0100 -0,0074 -0,0054

0,3973 0,3918 0,3825 0,3697 0,3538 0,3352 0,3144 0,2920 0,2685 0,2444 0,2203 0,1965 0,1736 0,1518 0,1315 0,1127 0,0957 0,0804 0,0669 0,0551 0,0449 0,0363 0,0290 0,0229 0,0180 0,0139 0,0107 0,0081 0,0061 0,0046 0,0034 0,0025 0,0018 0,0013 0,0009 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001

f(u) 0,09 0,1070 0,2206 0,3235 0,4106 0,4785 0,5245 0,5476 0,5481 0,5276 0,4887 0,4350 0,3704 0,2992 0,2254 0,1528 0,0846 0,0233 -0,0294 -0,0723 -0,1052 -0,1284 -0,1426 -0,1490 -0,1487 -0,1432 -0,1339 -0,1220 -0,1086 -0,0948 -0,0811 -0,0682 -0,0563 -0,0458 -0,0367 -0,0290 -0,0225 -0,0173 -0,0131 -0,0097 -0,0072 -0,0052

1,1727 1,0911 0,9572 0,7803 0,5721 0,3461 0,1164 -0,1037 -0,3021 -0,4692 -0,5984 -0,6861 -0,7318 -0,7378 -0,7088 -0,6511 -0,5720 -0,4789 -0,3793 -0,2797 -0,1854 -0,1006 -0,0279 0,0311 0,0762 0,1080 0,1279 0,1375 0,1388 0,1337 0,1243 0,1120 0,0983 0,0843 0,0707 0,0582 0,0470 0,0373 0,0292 0,0224 0,0170

f(u)=f(-u)

f(u) = - f(-u)

III

III

f(u) =f(-u)

Distribuia F (Fisher)
A N E X AII
Grade de libertate (f) pentru numrtorul lui F

Prag de semnificaie:

0,05

155

f pentru numitorul lui F 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 400 600 800 1000

1 2 3 4 5 6 7 8 9 10 11 12 15 20 25 30 40 50 75 100 200 500 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,90 245,95 248,02 249,26 250,10 251,14 251,77 252,62 253,04 253,68 254,06 254,31 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,46 19,46 19,47 19,48 19,48 19,49 19,49 19,49 19,50 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,63 8,62 8,59 8,58 8,56 8,55 8,54 8,53 8,53 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,77 5,75 5,72 5,70 5,68 5,66 5,65 5,64 5,63 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,52 4,50 4,46 4,44 4,42 4,41 4,39 4,37 4,36 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,83 3,81 3,77 3,75 3,73 3,71 3,69 3,68 3,67 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,40 3,38 3,34 3,32 3,29 3,27 3,25 3,24 3,23 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,11 3,08 3,04 3,02 2,99 2,97 2,95 2,94 2,93 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,89 2,86 2,83 2,80 2,77 2,76 2,73 2,72 2,71 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,73 2,70 2,66 2,64 2,60 2,59 2,56 2,55 2,54 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,60 2,57 2,53 2,51 2,47 2,46 2,43 2,42 2,40 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,50 2,47 2,43 2,40 2,37 2,35 2,32 2,31 2,30 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,41 2,38 2,34 2,31 2,28 2,26 2,23 2,22 2,21 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,34 2,31 2,27 2,24 2,21 2,19 2,16 2,14 2,13 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,28 2,25 2,20 2,18 2,14 2,12 2,10 2,08 2,07 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,23 2,19 2,15 2,12 2,09 2,07 2,04 2,02 2,01 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,18 2,15 2,10 2,08 2,04 2,02 1,99 1,97 1,96 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,14 2,11 2,06 2,04 2,00 1,98 1,95 1,93 1,92 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,11 2,07 2,03 2,00 1,96 1,94 1,91 1,89 1,88 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,07 2,04 1,99 1,97 1,93 1,91 1,88 1,86 1,84 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,18 2,10 2,05 2,01 1,96 1,94 1,90 1,88 1,84 1,83 1,81 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,15 2,07 2,02 1,98 1,94 1,91 1,87 1,85 1,82 1,80 1,78 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,13 2,05 2,00 1,96 1,91 1,88 1,84 1,82 1,79 1,77 1,76 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,11 2,03 1,97 1,94 1,89 1,86 1,82 1,80 1,77 1,75 1,73 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,09 2,01 1,96 1,92 1,87 1,84 1,80 1,78 1,75 1,73 1,71 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,07 1,99 1,94 1,90 1,85 1,82 1,78 1,76 1,73 1,71 1,69 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,06 1,97 1,92 1,88 1,84 1,81 1,76 1,74 1,71 1,69 1,67 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,04 1,96 1,91 1,87 1,82 1,79 1,75 1,73 1,69 1,67 1,65 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,03 1,94 1,89 1,85 1,81 1,77 1,73 1,71 1,67 1,65 1,64 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,88 1,84 1,79 1,76 1,72 1,70 1,66 1,64 1,62 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,78 1,74 1,69 1,66 1,61 1,59 1,55 1,53 1,51 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,73 1,69 1,63 1,60 1,55 1,52 1,48 1,46 1,44 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,69 1,65 1,59 1,56 1,51 1,48 1,44 1,41 1,39 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,93 1,89 1,81 1,72 1,66 1,62 1,57 1,53 1,48 1,45 1,40 1,37 1,35 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,91 1,88 1,79 1,70 1,64 1,60 1,54 1,51 1,45 1,43 1,38 1,35 1,32 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,90 1,86 1,78 1,69 1,63 1,59 1,53 1,49 1,44 1,41 1,36 1,33 1,30 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,89 1,85 1,77 1,68 1,62 1,57 1,52 1,48 1,42 1,39 1,34 1,31 1,28 3,93 3,08 2,69 2,45 2,30 2,18 2,09 2,02 1,97 1,92 1,88 1,84 1,76 1,67 1,61 1,56 1,50 1,47 1,41 1,38 1,33 1,29 1,27 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,60 1,55 1,50 1,46 1,40 1,37 1,32 1,28 1,25 3,91 3,07 2,67 2,44 2,28 2,17 2,08 2,01 1,95 1,90 1,86 1,83 1,74 1,65 1,59 1,55 1,49 1,45 1,39 1,36 1,31 1,27 1,24 3,91 3,06 2,67 2,44 2,28 2,16 2,08 2,01 1,95 1,90 1,86 1,82 1,74 1,65 1,58 1,54 1,48 1,44 1,38 1,35 1,30 1,26 1,23 3,90 3,06 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,82 1,73 1,64 1,58 1,54 1,48 1,44 1,38 1,34 1,29 1,25 1,22 3,90 3,05 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,81 1,73 1,64 1,57 1,53 1,47 1,43 1,37 1,34 1,28 1,24 1,21 3,90 3,05 2,66 2,42 2,27 2,15 2,06 1,99 1,94 1,89 1,85 1,81 1,73 1,63 1,57 1,53 1,47 1,43 1,37 1,33 1,28 1,24 1,21 3,89 3,05 2,65 2,42 2,26 2,15 2,06 1,99 1,93 1,88 1,84 1,81 1,72 1,63 1,57 1,52 1,46 1,42 1,36 1,33 1,27 1,23 1,20 3,89 3,04 2,65 2,42 2,26 2,15 2,06 1,99 1,93 1,88 1,84 1,80 1,72 1,63 1,56 1,52 1,46 1,42 1,36 1,32 1,27 1,23 1,19 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,84 1,80 1,72 1,62 1,56 1,52 1,46 1,41 1,35 1,32 1,26 1,22 1,19 3,86 3,02 2,63 2,39 2,24 2,12 2,03 1,96 1,90 1,85 1,81 1,78 1,69 1,60 1,53 1,49 1,42 1,38 1,32 1,28 1,22 1,17 1,13 3,86 3,01 2,62 2,39 2,23 2,11 2,02 1,95 1,90 1,85 1,80 1,77 1,68 1,59 1,52 1,48 1,41 1,37 1,31 1,27 1,20 1,15 1,10 3,85 3,01 2,62 2,38 2,23 2,11 2,02 1,95 1,89 1,84 1,80 1,76 1,68 1,58 1,52 1,47 1,41 1,37 1,30 1,26 1,20 1,14 1,09 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,80 1,76 1,68 1,58 1,52 1,47 1,41 1,36 1,30 1,26 1,19 1,13 1,08 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,51 1,46 1,39 1,35 1,28 1,24 1,17 1,11

Distribuia t (Student)
Grade de libertate (f) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 400 600 800 1000 0,10% 636,578 31,600 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,660 3,646 3,591 3,551 3,520 3,496 3,476 3,460 3,435 3,416 3,402 3,390 3,381 3,373 3,367 3,361 3,357 3,352 3,349 3,345 3,342 3,340 3,315 3,307 3,303 3,300 3,290 0,05% Prag de semnificaie (test bilateral) 0,50% 1,00% 2,50% 5,00% 10,00% 127,321 63,656 25,452 12,706 6,314 14,089 9,925 6,205 4,303 2,920 7,453 5,841 4,177 3,182 2,353 5,598 4,604 3,495 2,776 2,132 4,773 4,032 3,163 2,571 2,015 4,317 3,707 2,969 2,447 1,943 4,029 3,499 2,841 2,365 1,895 3,833 3,355 2,752 2,306 1,860 3,690 3,250 2,685 2,262 1,833 3,581 3,169 2,634 2,228 1,812 3,497 3,106 2,593 2,201 1,796 3,428 3,055 2,560 2,179 1,782 3,372 3,012 2,533 2,160 1,771 3,326 2,977 2,510 2,145 1,761 3,286 2,947 2,490 2,131 1,753 3,252 2,921 2,473 2,120 1,746 3,222 2,898 2,458 2,110 1,740 3,197 2,878 2,445 2,101 1,734 3,174 2,861 2,433 2,093 1,729 3,153 2,845 2,423 2,086 1,725 3,135 2,831 2,414 2,080 1,721 3,119 2,819 2,405 2,074 1,717 3,104 2,807 2,398 2,069 1,714 3,091 2,797 2,391 2,064 1,711 3,078 2,787 2,385 2,060 1,708 3,067 2,779 2,379 2,056 1,706 3,057 2,771 2,373 2,052 1,703 3,047 2,763 2,368 2,048 1,701 3,038 2,756 2,364 2,045 1,699 3,030 2,750 2,360 2,042 1,697 2,996 2,724 2,342 2,030 1,690 2,971 2,704 2,329 2,021 1,684 2,952 2,690 2,319 2,014 1,679 2,937 2,678 2,311 2,009 1,676 2,925 2,668 2,304 2,004 1,673 2,915 2,660 2,299 2,000 1,671 2,899 2,648 2,291 1,994 1,667 2,887 2,639 2,284 1,990 1,664 2,878 2,632 2,280 1,987 1,662 2,871 2,626 2,276 1,984 1,660 2,865 2,621 2,272 1,982 1,659 2,860 2,617 2,270 1,980 1,658 2,856 2,614 2,268 1,978 1,657 2,852 2,611 2,266 1,977 1,656 2,849 2,609 2,264 1,976 1,655 2,847 2,607 2,263 1,975 1,654 2,844 2,605 2,261 1,974 1,654 2,842 2,603 2,260 1,973 1,653 2,840 2,602 2,259 1,973 1,653 2,838 2,601 2,258 1,972 1,653 2,823 2,588 2,250 1,966 1,649 2,817 2,584 2,247 1,964 1,647 2,815 2,582 2,246 1,963 1,647 2,813 2,581 2,245 1,962 1,646 2,807 2,576 2,241 1,960 1,645 0,10% 0,50% 1,00% 2,50% 5,00% Prag de semnificaie (test unilateral)

A NE X AIII
20,00% 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,306 1,303 1,301 1,299 1,297 1,296 1,294 1,292 1,291 1,290 1,289 1,289 1,288 1,288 1,287 1,287 1,287 1,286 1,286 1,286 1,284 1,283 1,283 1,282 1,282 10,00%

156

Distribuia 2
Grade de libertate 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 1% 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807 Pragul de semnificaie 3% 5% 10% 5,024 3,841 2,706 7,378 5,991 4,605 9,348 7,815 6,251 11,143 9,488 7,779 12,832 11,070 9,236 14,449 12,592 10,645 16,013 14,067 12,017 17,535 15,507 13,362 19,023 16,919 14,684 20,483 18,307 15,987 21,920 19,675 17,275 23,337 21,026 18,549 24,736 22,362 19,812 26,119 23,685 21,064 27,488 24,996 22,307 28,845 26,296 23,542 30,191 27,587 24,769 31,526 28,869 25,989 32,852 30,144 27,204 34,170 31,410 28,412 35,479 32,671 29,615 36,781 33,924 30,813 38,076 35,172 32,007 39,364 36,415 33,196 40,646 37,652 34,382 41,923 38,885 35,563 43,195 40,113 36,741 44,461 41,337 37,916 45,722 42,557 39,087 46,979 43,773 40,256 59,342 55,758 51,805 71,420 67,505 63,167 83,298 79,082 74,397 95,023 90,531 85,527 106,629 101,879 96,578 118,136 113,145 107,565 129,561 124,342 118,498

A NE X AIV
20% 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250 47,269 58,164 68,972 79,715 90,405 101,054 111,667

157

NE X AV Valori limit semnificative ale coeficientului de corelaie A


Grade de libertate (f) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 400 600 800 1000 5000 0,10% 1,000 0,999 0,991 0,974 0,951 0,925 0,898 0,872 0,847 0,823 0,801 0,780 0,760 0,742 0,725 0,708 0,693 0,679 0,665 0,652 0,640 0,629 0,618 0,607 0,597 0,588 0,579 0,570 0,562 0,554 0,519 0,490 0,465 0,443 0,424 0,408 0,380 0,357 0,338 0,321 0,307 0,294 0,283 0,273 0,264 0,256 0,249 0,242 0,236 0,230 0,164 0,134 0,116 0,104 0,047 Prag de semnificaie (test bilateral) 0,50% 1,00% 2,50% 5,00% 10,00% 1,000 1,000 0,999 0,997 0,988 0,995 0,990 0,975 0,950 0,900 0,974 0,959 0,924 0,878 0,805 0,942 0,917 0,868 0,811 0,729 0,906 0,875 0,817 0,754 0,669 0,870 0,834 0,771 0,707 0,621 0,836 0,798 0,732 0,666 0,582 0,805 0,765 0,697 0,632 0,549 0,776 0,735 0,667 0,602 0,521 0,750 0,708 0,640 0,576 0,497 0,726 0,684 0,616 0,553 0,476 0,703 0,661 0,594 0,532 0,458 0,683 0,641 0,575 0,514 0,441 0,664 0,623 0,557 0,497 0,426 0,647 0,606 0,541 0,482 0,412 0,631 0,590 0,526 0,468 0,400 0,616 0,575 0,512 0,456 0,389 0,602 0,561 0,499 0,444 0,378 0,589 0,549 0,487 0,433 0,369 0,576 0,537 0,476 0,423 0,360 0,565 0,526 0,466 0,413 0,352 0,554 0,515 0,456 0,404 0,344 0,543 0,505 0,447 0,396 0,337 0,534 0,496 0,439 0,388 0,330 0,524 0,487 0,430 0,381 0,323 0,515 0,479 0,423 0,374 0,317 0,507 0,471 0,415 0,367 0,311 0,499 0,463 0,409 0,361 0,306 0,491 0,456 0,402 0,355 0,301 0,484 0,449 0,396 0,349 0,296 0,452 0,418 0,368 0,325 0,275 0,425 0,393 0,346 0,304 0,257 0,403 0,372 0,327 0,288 0,243 0,384 0,354 0,311 0,273 0,231 0,367 0,339 0,297 0,261 0,220 0,352 0,325 0,285 0,250 0,211 0,327 0,302 0,264 0,232 0,195 0,307 0,283 0,247 0,217 0,183 0,290 0,267 0,234 0,205 0,173 0,276 0,254 0,222 0,195 0,164 0,263 0,242 0,212 0,186 0,156 0,253 0,232 0,203 0,178 0,150 0,243 0,223 0,195 0,171 0,144 0,234 0,216 0,188 0,165 0,139 0,227 0,208 0,182 0,159 0,134 0,220 0,202 0,176 0,154 0,130 0,213 0,196 0,171 0,150 0,126 0,207 0,190 0,166 0,146 0,122 0,202 0,185 0,162 0,142 0,119 0,197 0,181 0,158 0,138 0,116 0,140 0,128 0,112 0,098 0,082 0,114 0,105 0,091 0,080 0,067 0,099 0,091 0,079 0,069 0,058 0,089 0,081 0,071 0,062 0,052 0,040 0,036 0,032 0,028 0,023 20,00% 0,951 0,800 0,687 0,608 0,551 0,507 0,472 0,443 0,419 0,398 0,380 0,365 0,351 0,338 0,327 0,317 0,308 0,299 0,291 0,284 0,277 0,271 0,265 0,260 0,255 0,250 0,245 0,241 0,237 0,233 0,216 0,202 0,190 0,181 0,172 0,165 0,153 0,143 0,135 0,128 0,122 0,117 0,112 0,108 0,105 0,101 0,098 0,095 0,093 0,091 0,064 0,052 0,045 0,041 0,018

158