Documente Academic
Documente Profesional
Documente Cultură
Bio Statistic A
Bio Statistic A
630
ELEMENTE DE
BIOSTATISTICĂ
FORESTIERĂ
Prin particularităţile obiectului de studiu, biostatistica utilizează
o gamă de noţiuni specifice propriilor metode de culegere, prelucrare,
analiză şi interpretare a datelor experimentale.
Cunoaşterea semnificaţiei şi importanţei acestora asigură fondul
necesar pentru înţelegerea în profunzime a modului de aplicare a
algoritmilor de calcul statistic.
Lucrarea nu tratează exhaustiv problematica abordată, ci
urmăreşte în primul rând cuprinderea acelor aspecte care-şi găsesc o
largă utilizare în activitatea practică din domeniul forestier.
Prin conţinutul sintetic şi modern, lucrarea se adresează celor
care doresc să cunoască şi să aplice corect metodele de cercetare
statistică şi mai ales studenţilor facultăţilor cu profil forestier şi
personalului de specialitate care îşi desfăşoară activitatea în
silvicultură.
Autorul
3
CUPRINS
4
5.1 METODA SELECTIVĂ .................................................................................55
5.2 METODA SECVENŢIALĂ ............................................................................66
6. VERIFICAREA IPOTEZELOR STATISTICE...........................................70
6.1 TESTE STATISTICE .....................................................................................70
6.2 REPARTIŢII UTILIZATE PENTRU TESTĂRI ..................................................72
6.2.1 Repartiţia normală ...............................................................................72
6.2.2 Repartiţia t (Student) ...........................................................................72
6.2.3 Repartiţia F (Fisher) ............................................................................72
6.2.4 Repartiţia χ2 ........................................................................................73
6.3 VERIFICAREA CONCORDANŢEI DINTRE DISTRIBUŢIA EXPERIMENTALĂ
ŞI CEA TEORETICĂ ...................................................................................73
6.4 EXAMINAREA SEMNIFICAŢIEI DIFERENŢEI DINTRE DISPERSII .................75
6.4.1 Compararea unei dispersii experimentale (s2) cu o dispersie teoretică
cunoscută (σ2)....................................................................................75
6.4.2 Verificarea semnificaţiei diferenţei dintre două dispersii
experimentale ....................................................................................75
6.4.3 Verificarea omogenităţii mai multor dispersii.......................................76
6.5 TESTE DE CONFORMITATE. COMPARAREA MEDIILOR ..............................77
6.5.1 Intervalul de încredere al mediei aritmetice..........................................77
6.5.2 Compararea a două medii aritmetice....................................................78
6.6 COMPARAREA EFECTULUI A DOUĂ TRATAMENTE PRIN METODA
CUPLURILOR ............................................................................................80
6.7 EXAMINAREA SEMNIFICAŢIEI DIFERENŢEI DINTRE DOUĂ PROPORŢII .....81
7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA
VARIANŢEI..................................................................................................83
7.1 ECUAŢIA ANALIZEI VARIANŢEI ................................................................83
7.2 ANALIZA SIMPLĂ A VARIANŢEI .................................................................85
8. ANALIZA CORELAŢIEI ............................................................................88
8.1 TIPURI DE LEGĂTURI ÎNTRE VARIABILE ....................................................88
8.2 COEFICIENTUL DE CORELAŢIE .................................................................92
8.2.1 Proprietăţile coeficientului de corelaţie ................................................92
8.2.2 Determinarea coeficientului de corelaţie pentru corelaţia simplă ..........93
8.2.3 Determinarea semnificaţiei coeficientului de corelaţie..........................95
8.2.4 Coeficientul de corelaţie a rangurilor ...................................................97
9. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)..............................101
9.1 CONSIDERAŢII ISTORICE.........................................................................101
9.2 PRINCIPII DE BAZĂ .................................................................................101
9.3 INTERPRETAREA ALGEBRICĂ A ACP.......................................................103
9.4 ESTIMAREA NUMĂRULUI DE COMPONENTE PRINCIPALE ........................116
5
9.5 INTERPRETAREA GEOMETRICĂ A ACP ...................................................117
9.6 DEZAVANTAJE ALE ACP ........................................................................121
9.7 CONCLUZII SINTETICE ASUPRA ACP.......................................................122
10. ANALIZA REGRESIEI............................................................................123
10.1 SUCCESIUNEA ETAPELOR PENTRU ANALIZA REGRESIEI .......................124
10.2 METODE ANALITICE DE DETERMINARE A PARAMETRILOR
ECUAŢIILOR DE REGRESIE .....................................................................125
10.3 INTERVALUL DE ÎNCREDERE PENTRU ECUAŢIA DE REGRESIE..............128
10.4 REGRESIA MULTIPLĂ LINIARĂ ...............................................................129
10.5 TIPURI DE ECUAŢII DE REGRESIE ŞI LIMITĂRILE ACESTORA .................131
10.6 RAPORTUL DE CORELAŢIE ....................................................................136
10.6.1 Determinarea raportului de corelaţie................................................137
10.6.2 Semnificaţia raportului de corelaţie ..................................................138
11. ANALIZA SERIILOR DE TIMP .............................................................140
11.1 AJUSTAREA UNEI SERII CRONOLOGICE .................................................140
11.1.1 Ajustarea grafică prin procedeul punctelor mediane.........................141
11.1.2 Procedeul mediilor centrate .............................................................142
11.1.3 Procedeul mediilor mobile...............................................................142
11.1.4 Analiza componentelor seriilor cronologice.....................................143
11.2 DETERMINAREA FAZEI DE CORELAŢIE .................................................144
11.2.1 Cazul în care cele două caracteristici sunt exprimate în sisteme
diferite de unităţi de măsură .............................................................144
11.2.2 Cazul în care cele două caracteristici sunt exprimate în aceleaşi
unităţi de măsură..............................................................................145
11.3 AUTOCORELAŢIA ..................................................................................146
11.4 ANALIZA ARMONICĂ A SERIILOR CRONOLOGICE..................................147
11.5 FUNCŢII DE CREŞTERE ŞI DEZVOLTARE ................................................149
ANEXE....................................................................................................... 14053
6
1. NOŢIUNI INTRODUCTIVE
Fenomenele simple sunt acele fenomene univoc determinate,
adică au la bază o singură cauză. Fenomenele de masă sunt rezultatul
influenţei comune a unui număr mare de cauze; în cazul acestora, fiecare
individ din cadrul unei populaţii se manifestă diferit în funcţie de modul
în care se asociază factorii sistematici cu cei aleatori (întâmplători), cei
obiectivi cu cei subiectivi. Se manifestă, deci, la nivelul unităţilor
individuale, o mare variabilitate în timp şi în spaţiu.
Conceptul de statistică
Statistica este ştiinţa care se ocupă cu descrierea şi analiza
numerică a fenomenelor de masă, dezvăluind particularităţile lor
de volum, structură, dinamică, conexiune, precum şi legile ce le
guvernează.
7
1.1 Scurt istoric
Termenul statistică derivă din latină (status = stare) şi a fost
folosit pentru prima oară de profesorul german Gottfried Achenwall;
explicaţia acestei etimologii este faptul că în secolele XVII şi XVIII s-a
creat, în Germania mai ales, un curent de gândire care îşi propunea să
descrie situaţia demografică, industrială, comercială şi financiară a
diferitelor state din acea vreme.
În evoluţia statisticii de-a lungul vremii s-au produs numeroase
modificări ale obiectului acesteia şi ale metodelor folosite în funcţie de
necesităţile practice ale momentului şi de baza teoretică de care se
dispunea. Dacă până şi scrierile istorice ale Egiptului antic, ale Greciei
antice sau ale Romei antice conţin rudimente de lucrări statistice cu
caracter descriptiv (mai ales recensăminte), totuşi, prima analiză
statistică a unor date culese în prealabil este datorată lui John Graunt
(1620-1674) în Anglia, secondat de William Petty. Acesta din urmă este
considerat creatorul “aritmeticii politice” care reprezintă studiul
fenomenelor social-economice prin intermediul “cifrelor, al măsurilor şi
al greutăţilor”.
În spiritul şcolii statisticii descriptive se înscrie, în ţările române,
lucrarea lui Dimitrie Cantemir, “Descriptio Moldaviae”.
Începutul statisticii moderne se consideră debutul secolului XX şi
este marcat de momentul apariţiei lucrărilor lui Karl Pearson (1857-1936)
şi ale lui Ronald Aylmer Fisher (1890-1962). K.Pearson a pus bazele
statisticii inductive prin elaborarea testelor privitoare la semnificaţia
diferenţelor dintre valorile calculate şi cele empirice (experimentale).
R.A.Fisher a elaborat teoria riguroasă a sintetizării concluziilor din datele
observate şi a enunţat principiile planificării experimentelor.
1.2 Localizarea statisticii
Statistica a pătruns în toate domeniile ştiinţelor naturii şi ale
ştiinţelor sociale ca un complex de metode ce permit obţinerea unor
concluzii fundamentate teoretic, pe baza observaţiilor sau a
experimentelor efectuate.
8
S-au format, astfel, unele discipline de graniţă, cum ar fi:
statistica matematică, statistica fizică, statistica biologică (sau
biostatistica) etc.
În silvicultură, statistica este folosită pentru fundamentarea celor
mai importante probleme specifice.
Organizarea
ALGEBRĂ SOCIAL muncii etc.
ANALIZÃ Economie
ECONOMIC
MATEMATICĂ STATISTICĂ forestieră
Silvicultură,
ŞTIINŢE
Genetică,
TEORIA ALE Împăduriri,
PROBABILITĂŢILOR NATURII Ecologie etc.
9
1.3 Terminologie
Colectivitatea statistică (populaţia) reprezintă o mulţime finită
sau infinită formată din unităţi statistice calitativ omogene (cu una sau
mai multe însuşiri comune). Exemple:
• arborii dintr-un arboret;
• totalitatea seminţelor dintr-un arbore;
• numărul exemplarelor de vânat din aceeaşi specie aflate pe un teritoriu
dat etc.
În funcţie de volumul observaţiilor (numărul observaţiilor),
colectivitatea poate fi generală sau de selecţie (probă, sondaj, eşantion).
Colectivitatea de selecţie reprezintă o parte din populaţie extrasă după
anumite criterii, în vederea cercetării uneia sau a mai multor
caracteristici.
Elementele colectivităţii sunt unităţile statistice. O unitate
statistică reprezintă cea mai mică entitate luată în considerare în raport cu
scopul cercetării; aceasta poate fi simplă (de exemplu, un arbore) sau
complexă (un lot de arbori, de exemplu).
Particularităţile colectivităţii statistice sunt determinate de
însuşirile esenţiale comune tuturor unităţilor componente. Acestea
formează obiectul cercetării şi sunt denumite caracteristici (de exemplu,
diametrul de bază al arborelui, înălţimea arborelui). După natura lor,
caracteristicile pot fi calitative sau cantitative.
Caracteristicile calitative (atributive) nu se pot exprima numeric
decât printr-o codificare adecvată (culoarea ritidomului, starea de
vegetaţie, gradul de uscare etc.).
Caracteristicile cantitative se exprimă prin valori numerice
obţinute prin măsurători (diametru, înălţime) sau prin numărare (număr
de arbori).
Valoarea cu care s-a înregistrat caracteristica unei unităţi statistice
reprezintă valoarea observată sau varianta.
În silvicultură, caracteristicile cantitative variază în limite destul
de mari, fluctuaţie denumită variaţie, variabilitate sau împrăştiere.
Caracteristicile cantitative supuse variabilităţii poartă denumirea de
variabile. Variabilele sunt continue, atunci când pot lua orice valoare
dintr-un interval dat, sau discontinue (discrete), când pot lua numai
anumite valori din intervalul respectiv (de exemplu, numai valori întregi).
Probabilitatea producerii unui eveniment este raportul dintre
numărul de cazuri favorabile (n) şi numărul total de cazuri posibile (N):
n
P( E ) = (1.1)
N
10
Probabilitatea unui eveniment imposibil este 0, iar probabilitatea
unui eveniment sigur este 1. Dacă se notează cu p probabilitatea realizării
unui eveniment şi cu q, probabilitatea nerealizării lui (probabilitatea
realizării evenimentului contrar), se pot scrie relaţiile:
p + q = 1(100%) (1.2)
p = 1− q (1.3)
q = 1− p (1.4)
11
2. ÎNREGISTRAREA ŞI PRELUCRAREA PRIMARĂ A
OBSERVAŢIILOR
Datele obţinute pe baza observaţiilor sau a măsurătorilor efectuate
se înregistrează în fişe de observare sau pe formulare-listă. Aceasta
constituie evidenţa primară.
Fişa reprezintă înregistrarea unei singure unităţi din colectivitate
cu toate caracteristicile prevăzute în planul observării.
În formularele-listă sunt înregistrate mai multe unităţi. Se optează
pentru una dintre aceste forme de înregistrare în funcţie de numărul
caracteristicilor urmărite şi de variabilitatea acestora.
Totalitatea valorilor observate (pentru o anumită caracteristică) în
cadrul colectivităţii cercetate, centralizate tabelar, constituie şirul
statistic. Materialul cifric al unui şir statistic se poate înregistra în ordinea
observării sau în ordine crescătoare sau descrescătoare. În cadrul
valorilor observate, prin examinarea şirului statistic se pot identifica: o
valoare minimă şi una maximă. Diferenţa dintre valoarea maximă (xmax)
şi cea minimă (xmin) se numeşte amplitudinea de variaţie a şirului
statistic:
w = x max − x min . (2.1)
2.1 Succesiunea operaţiilor de formare a unei serii de distribuţie
Considerente legate de nevoia obţinerii unei imagini de ansamblu
asupra colectivităţii studiate conduc la gruparea valorilor observate în
clase şi reprezentarea lor tabelară (tabelul 1). Ca efect al grupării rezultă
seria de distribuţie sau de repartiţie.
12
• amplitudinea unei clase (mărimea clasei) calculată ca diferenţă dintre
limite.
• amplitudinea de variaţie: diferenţa dintre valoarea maximă şi valoarea
minimă din şirul statistic.
• frecvenţa absolută (ni) a clasei: numărul unităţilor statistice
corespunzătoare unei clase.
• volumul colectivităţii (N): numărul total de unităţi cercetate (N=Σni).
• frecvenţa relativă: raportul dintre frecvenţa absolută şi volumul
colectivităţii, exprimat în valori absolute sau în procente (fi=ni/N).
Frecvenţele absolute sau cele relative pot fi cumulate din aproape
în aproape, ajungându-se la stabilirea distribuţiei frecvenţelor cumulate.
Distribuţiile de frecvenţă pot fi empirice (experimentale) sau
teoretice. Cele empirice rezultă din cercetările experimentale, iar cele
teoretice corespund unor legi de probabilitate cunoscute.
Seria de distribuţie formată în raport cu o caracteristică cantitativă
se numeşte serie de variaţie, iar cea formată în raport cu timpul, serie
dinamică sau cronologică.
Succesiunea operaţiilor de formare a unei serii de distribuţie este
următoarea:
9 calculul amplitudinii w a şirului statistic;
9 determinarea grupelor de valori, deci a numărului de clase, în
funcţie de omogenitatea colectivităţii şi de natura fenomenului studiat.
Fixarea intervalelor de grupare include segmentarea mai mult sau
mai puţin arbitrară a câmpului de variaţie a caracteristicii studiate. Astfel,
o scară greşit aleasă poate schimba complet aspectul repartiţiei.
Pentru un număr mai mic de 50 de unităţi în cadrul probei, nu este
indicată gruparea în clase.
Numărul de clase (k) poate fi determinat cu relaţia empirică a lui
Sturges:
10
k = 1 + lg N , (2.2)
3
N fiind volumul probei.
Cu notaţiile anterioare, se poate aplica şi relaţia:
k = 5 ⋅ lg N , (2.3)
sau pot fi utilizate tabele de corespondenţă de tipul celui de mai jos, cu
valori determinate, de asemenea, experimental:
13
Pentru situaţiile din silvicultură s-a dovedit corespunzător un
număr de 10÷15 clase. Un număr mic de clase implică o micşorare a
preciziei, iar un număr prea mare duce la prelucrări greoaie şi nu permite
diferenţierea cu claritate a caracteristicilor distribuţiei empirice.
9 determinarea mărimii clasei (intervalul clasei, amplitudinea clasei);
trebuie echilibrate următoarele două cerinţe:
se recomandă ca intervalele să nu fie prea largi, pentru că ar produce
o pierdere de informaţie şi ar disimula unele particularităţi ale
repartiţiei (micşorează precizia rezultatelor);
mărimea clasei nu trebuie să fie prea mică pentru că nu se elimină,
astfel, iregularităţile accidentale şi, în plus, se complică fără folos
calculele.
w x − x min
a = = max . (2.4)
k k
14
În cazul unui arboret echien de molid în vârstă de 70 ani s-a
măsurat caracteristica diametru de bază pentru 144 arbori. Prin gruparea
valorilor experimentale în clase cu amplitudinea de 4 cm, a rezultat
distribuţia experimentală din tabelul următor.
Tabelul 1. Distribuţia experimentală pentru caracteristica diametru de bază
Valori observate Frecvenţe Frecvenţe
Nr. Frecvenţe absolute Frecvenţe relative
crt. limitele centrul absolute cumulate relative cumulate
clasei clasei (ni) (Σni) (fi=ni/N) (Σfi)
1. 26,1-30,0 28 4 4 0,028 0,028
2. 30,1-34,0 32 9 13 0,063 0,090
3. 34,1-38,0 36 18 31 0,125 0,215
4. 38,1-42,0 40 32 63 0,222 0,438
5. 42,1-46,0 44 21 84 0,146 0,583
6. 46,1-50,0 48 21 105 0,146 0,729
7. 50,1-54,0 52 17 122 0,118 0,847
8. 54,1-58,0 56 11 133 0,076 0,924
9. 58,1-62,0 60 5 138 0,035 0,958
10. 62,1-66,0 64 4 142 0,028 0,986
11. 66,1-70,0 68 2 144 0,014 1,000
TOTAL 144 1,000
15
Figura 3. Histograma frecvenţelor absolute
Br: 25%
Mo: 25% Br: 25%
Mo: 5%
16
De exemplu, structura pe specii a unui arboret poate fi redată
grafic în modalitatea prezentată în figura 5.
Distribuţiile discontinue se reprezintă, de obicei, prin histograme.
Pentru distribuţiile continue se poate folosi orice mod de reprezentare
grafică.
Graficele pot avea scări uniforme sau scări funcţionale
(neuniforme). Scara aritmetică (naturală) traduce proporţionalitatea
între numerele xi, yi şi lungimile absciselor şi ordonatelor în reprezentare
rectangulară.
Scara logaritmică, scară funcţională, traduce proporţionalitatea
dintre logaritmii numerelor xi şi yi şi lungimile absciselor şi ordonatelor.
În primul caz, intervalul corespunzător unei unităţi rămâne acelaşi pe
întreaga lungime a scării; în celălalt caz, intervalele grafice (segmentele
dintre punctele cotate) sunt inegale. Frecvent folosite în cercetare sunt
graficele cu reţele semilogaritmice.
Reţelele funcţionale se folosesc, în general, pentru transformarea
unei curbe într-o dreaptă (anamorfoză grafică), procedeu ce prezintă
unele avantaje:
dreapta se poate construi mai uşor;
dreapta permite o interpolare sau o extrapolare grafică mai uşoară.
Reţelele funcţionale se folosesc în următoarele situaţii:
când se compară două fenomene cu niveluri foarte diferite de
manifestare;
când se reprezintă un fenomen al cărui interval de variaţie este
foarte mare.
17
3. ANALIZA DISTRIBUŢIILOR EXPERIMENTALE
Pentru caracterizarea fenomenelor de masă, statistica a elaborat
metodologii şi tehnici specifice. Proprietatea principală a fenomenelor de
masă o reprezintă variabilitatea formelor individuale şi de manifestare în
timp şi în spaţiu.
Indicatorul statistic este expresia numerică a unor fenomene,
procese, activităţi sau categorii economice sau sociale. Acesta este
purtător de informaţii cu conţinut real, obiectiv determinat.
mp = (3.1)
∑ ni
În practică se utilizează aproape exclusiv momentele în raport cu
originea (x0=0) şi momentele în raport cu media aritmetică (x0= x ).
18
Momentul simplu ( m 'p ) reprezintă momentul calculat în raport cu
originea măsurătorilor (x0=0):
m '
=
∑n x i i
p
. (3.2)
∑n
p
i
μp =
i i
. (3.3)
∑n i
19
în care a reprezintă amplitudinea, presupusă egală, a claselor.
Relaţiile anterioare pot fi aplicate în cazul unei repartiţii
unimodale (“în clopot”) cu intervalul de clasă constant, frecvenţa tinzând
către zero în ambele direcţii.
Corecţiile lui Sheppard nu sunt aplicabile:
repartiţiilor pe valori distincte (negrupate în clase), pentru că
dispare motivaţia corecţiilor;
repartiţiilor în formă de “J” sau “U” sau chiar formelor puternic
asimetrice (oblice);
momentelor centrate de ordin impar, deoarece alternările de semne
duc la compensarea erorilor; în particular, în repartiţiile perfect
simetrice, momentele de ordin impar sunt nule.
Momentele centrate de ordin par sunt, în general, supraestimate
atunci când se calculează pentru repartiţii pe clase de valori, de unde şi
necesitatea corecţiei în sensul menţionat.
3.2 Indicatorii tendinţei centrale
Aceşti indicatori (denumiţi şi indici de poziţie) sintetizează
valorile centrale ale distribuţiei şi oferă o reprezentare simplificată a unei
distribuţii empirice de frecvenţe prin determinarea unei tendinţe centrale
(zona din intervalul de variaţie al caracteristicii studiate în care tind să se
concentreze valorile incluse în şirul statistic).
Valorile medii sau valorile centrale se determină pentru
colectivităţi statistice omogene (este necesar, în prealabil, un test de
omogenitate); aceste valori medii se modifică odată cu modificarea
valorii oricărui element al seriei statistice.
Media este denumită şi speranţă matematică şi reprezintă
valoarea cu care s-ar putea înlocui toţi termenii unei serii de distribuţie
dacă aceştia nu ar fi supuşi unor factori complecşi de influenţă care-i
diferenţiază.
Pentru caracterizarea unei distribuţii se pot calcula, teoretic, multe
tipuri de medii. În domeniul forestier se folosesc numai câteva, mai
importante.
3.2.1 Mediile
După modul de calcul, mediile pot fi simple sau ponderate
(atunci când utilizează produsele dintre frecvenţe şi valorile observate).
Relaţiile de calcul diferă, astfel, după cum valorile observate sunt
grupate sau nu în clase.
Media aritmetică este cel mai utilizat indice al tendinţei centrale.
20
Relaţiile de calcul sunt:
- pentru valori negrupate - pentru valori grupate în clase
N k
∑ xi ∑n x i i
x= 1
x= 1
k
(3.10)
N
∑n 1
i
relaţii în care:
x este media aritmetică a unei probe (eşantion),
xi – valorile individuale ale caracteristicii x, în primul caz, sau centrul
clasei i, în cel de-al doilea;
ni – frecvenţa absolută a clasei i;
k – numărul de clase.
Tabelul 2. Calculul mediei aritmetice
pentru valori grupate în clase
Centrul
clasei ni ni ⋅ xi
(cm)
28 4 112
32 9 288
36 18 648
40 32 1280
44 21 924
48 21 1008
52 17 884
56 11 616
60 5 300
64 4 256
68 2 136
TOTAL 144 6452
Pentru exemplul de distribuţie experimentală considerat anterior
(tabelele 1 şi 2) media aritmetică este:
6452
x= = 44,81 cm. (3.11)
144
Media aritmetică a întregii populaţii se notează cu μ şi se poate
calcula cu exactitate numai după determinarea valorilor caracteristicii
studiate pentru toţi indivizii din colectivitatea generală.
Proprietăţi ale mediei aritmetice:
- suma algebrică a diferenţelor dintre fiecare observaţie în parte şi
media aritmetică este egală cu 0;
21
- suma pătratelor abaterilor valorilor individuale faţă de medie
reprezintă un minim (este mai mică decât suma pătratelor abaterilor
faţă de oricare altă valoare diferită de media aritmetică).
Aceste proprietăţi sunt utilizate pentru numeroase aplicaţii în
statistică.
Media aritmetică este cu atât mai reprezentativă cu cât diferenţa
dintre aceasta şi mediană (un alt indice de poziţie) este mai mică. Media
aritmetică este mai puţin stabilă, fiind foarte mult influenţată de valorile
extreme ale distribuţiei.
Atunci când se calculează mai multe medii aritmetice
x1 , x 2 , x3 ,..., pentru probe extrase din aceeaşi populaţie, volumele
probelor fiind N1, N2, N3,..., se poate calcula, în condiţii bine precizate
statistic, media generală:
x N + x 2 N 2 + ...
x= 1 1 (3.12)
N 1 + N 2 + ...
Calculul şi folosirea mediei generale x este admisă numai după
ce s-a verificat dacă mediile probelor ( xi ) reprezintă estimaţii ale
aceleiaşi medii generale, μ, a populaţiei.
Media armonică ( x h ) se determină cu relaţiile:
- pentru valori negrupate - pentru valori grupate în clase
k
N
∑n i
xh = xh = 1
(3.13)
N
⎛1⎞ k
⎛ ni ⎞
∑1 ⎜⎜ x
⎟⎟ ∑1 ⎜⎜ x ⎟⎟
⎝ i⎠ ⎝ i⎠
Este folosită, de exemplu, în economia forestieră pentru calculul
randamentului.
Media geometrică ( x g ) este valoarea pozitivă a rădăcinilor de
ordinul N din produsul a N valori observate:
- pentru valori negrupate - pentru valori grupate în clase
N k
xg = N
∏ xi
1
x g = N ∏ xini
1
(3.14)
22
Mediile de ordin superior ( x p ):
- pentru valori negrupate - pentru valori grupate în clase
N k
p ∑ xip ∑n x i i
p
xp = 1
xp = p
1
k
(3.15)
N
∑n 1
i
xh ≤ xg ≤ x ≤ x2 ≤ x3
23
Pentru şirurile statistice (valori negrupate în clase), există două
situaţii:
• şirul statistic are un număr impar de termeni (N); în acest caz mediana
N +1
corespunde variantei de rangul , rangul fiind numărul ce indică
2
poziţia unei observaţii în cadrul unui şir ordonat în raport cu un
anumit criteriu. De exemplu pentru şirul statistic 8,9,10,11,13,14,16,
7 +1
rangul medianei este = 4 , deci mediana are valoarea Me=11;
2
• şirul statistic are un număr par de termeni (N); mediana se calculează
N
ca medie aritmetică a valorilor de rangul k şi k+1 (unde k = ):
2
x + x k +1
Me = k . (3.17)
2
Pentru seriile cu valori grupate în clase, mediana poate fi
determinată analitic sau grafic.
Determinarea analitică a medianei înseamnă aplicarea relaţiei:
⎛N ⎞
a⎜ − S n ⎟
2
Me = x Me + ⎝ ⎠, (3.18)
n Me
în care:
xMe este limita inferioară a clasei mediane (cea care, în şirul frecvenţelor
absolute cumulate, reprezintă prima valoare mai mare decât N/2);
a - mărimea clasei;
N - volumul probei;
Sn - frecvenţa absolută cumulată până la clasa imediat inferioară celei
mediane;
nMe - frecvenţa absolută a clasei mediane.
Pentru distribuţia experimentală a diametrelor de bază din
exemplul anterior, cu notaţiile din figura 7, mediana este:
4 ⋅ (72 − 63)
Me = 42 + = 43,71 cm. (3.19)
21
Determinarea grafică a medianei se poate face pe graficul
frecvenţelor cumulate, absolute sau relative, în care aceasta corespunde
N 1
valorii (figura 4), respectiv, lui .
2 2
Mediana prezintă o stabilitate mai mare decât media aritmetică
pentru că depinde mai puţin de valorile extreme ale seriei statistice.
Aceasta dă informaţii utile şi în cazul distribuţiilor mai puţin omogene.
24
Un caz particular îl constituie mediana pătratică (Mep), utilizată
în dendrometrie pentru calculul diametrului central al suprafeţei de bază.
⎛ k ⎞
⎜ ∑ ni xi2 ⎟
a⋅ ⎜ 1 ' ⎟
− Sn
⎜ 2 ⎟
⎜ ⎟
Mep = x Mep + ⎝ ⎠. (3.20)
2
(ni xi ) Mep
Aşa cum se observă, se calculează asemănător cu mediana (Me),
însă în funcţie de valorile nixi2 cumulate. Relaţia dintre cele două
mediane este:
Me ≤ Mep . (3.21)
3.2.3 Cuartilele
Cuartilele sunt trei indicatori statistici care împart setul de valori
experimentale în patru părţi egale.
Prima cuartilă (Q1), numită şi cuartila inferioară, delimitează cele
mai mici 25% valori experimentale. Relaţia de calcul a acesteia este:
⎛N ⎞
a ⋅ ⎜ − ∑ ni' ⎟
4
Q1 = x0' + ⎝ ⎠, (3.22)
nQ1
în care:
x0' este limita inferioară a clasei în care se găseşte N/4,
∑n '
i - frecvenţele absolute cumulate până la clasa lui Q1,
nQ1 - frecvenţa absolută a clasei în care se află Q1.
Cea de-a doua cuartilă (Q2) este egală cu mediana.
A treia cuartilă (Q3), numită şi cuartila superioară, delimitează
cele mai mari 25% valori experimentale din distribuţie. Relaţia de calcul
a acesteia este:
⎛ 3N ⎞
a ⋅⎜ − ∑ ni'' ⎟
4
Q3 = x0'' + ⎝ ⎠, (3.23)
nQ3
în care:
x0'' este limita inferioară a clasei în care se găseşte 3N/4,
∑n ''
i - frecvenţele absolute cumulate până la clasa lui Q3,
nQ3 - frecvenţa absolută a clasei în care se află Q3.
25
Intervalul intercuartilic (IRQ) reprezintă diferenţa dintre Q3 şi Q1.
În interiorul acestuia se află 50% dintre valorile experimentale ale
caracteristicii analizate.
Pentru distribuţia experimentală exemplificată anterior, cuartilele
Q1 şi Q3 se determină astfel:
4 ⋅ (36 − 31)
Q1 = 38 + = 38,63 cm, (3.24)
32
4 ⋅ (108 − 105)
Q3 = 50 + = 50,71 cm. (3.25)
17
Se poate obţine o imagine sintetică a dispersiei valorilor
caracteristicii studiate prin redarea grafică, sub forma unei diagrame, a
următorilor indicatori: valoarea minimă (xmin), prima cuartilă, mediana, a
treia cuartilă şi valoarea maximă. Diagrama „boxplot” dă informaţii
asupra amplitudinii datelor (prin valorile extreme), despre tendinţa
centrală (prin mediană) şi despre modul de grupare a valorilor (prin
cuartile). Pentru exemplul considerat, diagrama boxplot este prezentată în
figura 6).
26
a (n0 − n1 )
Mo = x Mo + , (3.26)
2n0 − n1 − n 2
în care:
xMo este limita inferioară a clasei modale;
n0 - frecvenţa clasei modale;
n1 - frecvenţa clasei inferioare celei modale;
n2 - frecvenţa clasei superioare celei modale.
În exemplul anterior:
4 ⋅ (32 − 18)
Mo = 38 + = 40,24 cm. (3.27)
2 ⋅ 32 − 18 − 21
Determinare grafică a modului se realizează pe poligonul
frecvenţelor absolute sau pe histograma frecvenţelor absolute, ca în
figurile 2 şi 3.
27
- x este indicată a fi folosită pentru distribuţii simetrice;
- Mediana este mai stabilă decât x pentru că depinde mai puţin
de forma distribuţiei;
- Modul este utilizat atunci când nu se ţine seama de variaţiile
distribuţiilor;
- Mediana şi modul, prin poziţia relativă a lor, arată mai bine
tendinţa de concentrare a frecvenţelor din cadrul unei
distribuţii.
∑ (x ) ∑ n (x )
2 2
i −x i i −x
s 2
= s 2
= (3.30)
N −1 N −1
N-1 reprezentând numărul gradelor de libertate.
28
În practică se utilizează mai mult relaţiile echivalente:
- pentru valori negrupate: - pentru valori grupate în clase:
(∑ x ) 2
(∑ n x ) 2
∑x ∑n x
i i i
2
i − i
2
i −
s =
2 N s =2 N (3.31)
N −1 N −1
Pentru valori mari ale lui N (un număr mare de observaţii) se pot
face aproximaţiile: N≈N-1 şi s2≈μ2=σ2 (varianţa întregii populaţii din care
s-a extras proba analizată).
3.3.2 Abaterea standard
Se notează cu σ, pentru întreaga populaţie, sau cu s, pentru o
probă şi este valoarea pozitivă a rădăcinii pătrate din varianţă:
s= s2 . (3.32)
Se mai numeşte eroare sau abatere medie pătratică. Cu cât
abaterea standard este mai mică, cu atât gradul de împrăştiere a valorilor
caracteristicii studiate este mai redus.
3.3.3 Coeficientul de variaţie
Coeficientul de variaţie (σ % , s% ) este utilizat pentru a face
analiza comparativă între distribuţii cu variabilităţi exprimate în unităţi
de măsură diferite. Este egal cu raportul procentual dintre abaterea
standard şi media aritmetică:
s
s % = ⋅ 100 (%). (3.33)
x
Cu cât coeficientul de variaţie este mai mic, cu atât variabilitatea
caracteristicii este mai mică, colectivitatea mai omogenă, iar media
aritmetică are un grad mai mare de reprezentativitate (afirmaţie valabilă
şi pentru ceilalţi indicatori de variaţie).
Se apreciază că o serie de distribuţie este omogenă dacă valoarea
coeficientului de variaţie nu depăşeşte 30%. În caz contrar se apreciază
că media nu mai este reprezentativă pentru o populaţie considerată
eterogenă.
Pentru distribuţia experimentală a caracteristicii diametrul de bază
din exemplul luat anterior în considerare, valorile indicilor de variaţie
s-au determinat folosind datele din tabelul 3. Astfel:
10930,556
s2 = = 76,4375 cm2; s = 76,4375 = 8,74 cm;
144 − 1
8,74
s% = ⋅ 100 = 19,5 %.
44,81
29
Tabelul 3.Calcule intermediare pentru
determinarea indicilor de variaţie
Centrul
clasei ni ni ⋅ ( xi − x ) 2
28 4 1129,707
32 9 1475,840
36 18 1395,681
40 32 738,988
44 21 13,627
48 21 214,294
52 17 879,921
56 11 1378,471
60 5 1154,356
64 4 1473,707
68 2 1075,965
TOTAL 144 10930,556
x= 44,81
30
Asimetria reală se datorează unor factori obiectivi a căror acţiune
nu poate fi înlăturată şi este caracteristică multor fenomene din
silvicultură.
31
Yule propune un coeficient (Sk) care ia valori în intervalul [-1,
+1] care arată tipul şi mărimea asimetriei. Relaţia de calcul a acestui
coeficient este:
(Q − Me) − (Me − Q1 ) Q3 − 2 ⋅ Me + Q1
Sk = 3 = . (3.38)
(Q3 − Me) + (Me − Q1 ) Q3 − Q1
Cu cât este mai apropiată valoarea lui Sk de 0, cu atât asimetria
este mai redusă (pentru distribuţiile simetrice, Sk=0). Pe măsură ce Sk se
apropie de -1 sau de 1, asimetria este din ce în ce mai pronunţată şi
negativă (de dreapta) sau, respectiv, pozitivă (de stânga).
3.4.2 Indicele excesului
O repartiţie este mai boltită sau mai aplatizată după cum valorile
corespunzătoare unor abateri mici de la valoarea centrală deţin o
proporţie mai mult sau mai puţin însemnată. Această proprietate a
repartiţiei unimodale este denumită exces şi se determină prin
compararea cu curba normală de aceiaşi parametri.
Deci excesul este proprietatea unei curbe de frecvenţă unimodale
de a fi mai ascuţită sau mai aplatizată decât curba normală; acest lucru se
determină prin analiza valorii unui indice de formă denumit indicele
excesului (E).
32
μ4
- relaţia momentelor: E= −3. (3.40)
μ 22
Eroarea excesului (sE) este:
24
sE = . (3.41)
N +5
Pe baza valorilor calculate A, sA, E, sE se poate face o testare
statistică, dovedindu-se prezenţa sau absenţa asimetriei sau a excesului.
A E
Se calculează rapoartele şi .
sA sE
Dacă rapoartele (în modul) sunt mai mici decât 2 se consideră că,
pentru o probabilitate de acoperire de 95%, asimetria, respectiv excesul,
sunt nesemnificative.
Dacă rapoartele sunt mai mari sau egale cu 2, sunt dovedite
asimetria sau excesul (pentru aceeaşi probabilitate de acoperire). Acest
lucru nu trebuie să se considere neapărat un defect sau un fenomen
anormal. Dimpotrivă, există anumite distribuţii specifice unor
caracteristici chiar din domeniul forestier pentru care se pot justifica
teoretic asimetria şi excesul. Exemple:
distribuţia diametrelor în arborete echiene (asimetrie de stânga);
distribuţia înălţimilor în arborete echiene (asimetrie de dreapta).
Pentru repartiţia experimentală exemplificată anterior s-au obţinut
următoarele valori ale indicatorilor formei:
A = 0,4147 ; E = −0,2338 ; Sk = 0,1575 .
Erorile indicatorilor formei sunt:
s A = 0,2020 şi s E = 0,4013 .
A E
Se obţin rapoartele: = 2,0527 > 2 şi = 0.5825 < 2 .
sA sE
Se poate spune că, în cazul analizat, asimetria este pozitivă (de
stânga) şi semnificativă, iar excesul este negativ, dar nesemnificativ.
3.5 Criterii de eliminare a observaţiilor extreme
Printre valorile observate sau măsurate pentru caracteristica
studiată, apar uneori unele care se abat foarte mult faţă de majoritate.
Cauza apariţiei valorilor aberante poate fi diversă:
- datorită instrumentelor folosite (decalibrate);
- datorită greşelilor de transmitere şi de înregistrare a datelor;
- datorită neomogenităţii populaţiei studiate.
Este necesar să se excludă din calcule valorile extreme atunci
când prezenţa lor influenţează rezultatele analizei statistice.
33
Nu este admisă, însă, eliminarea arbitrară a valorilor
extreme, mai ales atunci când numărul observaţiilor este redus.
34
Interpretare:
z, z’≤ zteoretic⇒ valoarea extremă nu se elimină;
z, z’> zteoretic⇒ valoarea extremă se elimină.
Criteriul 1,5 IQR
Acest criteriu consideră că este aberantă orice valoare situată la
mai mult de 1,5 din intervalul intercuartilic sub prima cuartilă sau peste
cea de-a treia.
35
4. DISTRIBUŢII TEORETICE FRECVENT FOLOSITE ÎN
ANALIZA STATISTICĂ A FENOMENELOR DIN
SILVICULTURĂ
Distribuţiile de frecvenţă empirice implică date bazate pe
observaţii şi experiment, deci obţinute prin măsurare sau numărare. S-a
constatat că, plecând de la anumite ipoteze generale se pot deduce
matematic unele distribuţii teoretice.
36
Figura 10. Modelul grafic general al funcţiei de repartiţie
şi al funcţiei de densitate
37
P( x1 ≤ x ≤ x 2 ) = ∫ f ( x ) dx = F ( x 2 ) − F ( x1 ) .
x2
şi (4.5)
x1
38
Figura 11. Funcţia de densitate a distribuţiei normale
x−μ
De aceea s-a efectuat o transformare de variabilă (u= ),
σ
obţinându-se funcţia normală normată. În acest caz μ’=0 şi σ’=1:
μ' =
∑ u = ∑ ( x − μ ) = ∑ x − Nμ = 0 , (4.9)
N Nσ Nσ
∑ (u − μ )' 2
∑u ∑ (x − μ )
2 2
σ2
σ =
'
= = = = 1, (4.10)
N −1 N −1 σ 2 (N − 1) σ2
iar funcţia de densitate de probabilitate devine:
u2
1 −
f (u ) = e , u ∈ (− ∞,+∞ ) .
2
(4.11)
2π
Funcţia de repartiţie se obţine prin integrarea funcţiei de densitate
de probabilitate şi se numeşte integrala lui Gauss sau integrala erorilor:
F ( x ) = ∫ f ( x ) dx sau F (u ) = ∫ f (u ) du .
x u
(4.12)
−∞ −∞
39
Intervalul astfel determinat (u1,u2) se numeşte interval de
încredere, iar suprafaţa corespunzătoare, probabilitate de
acoperire (p). q=100-p se numeşte probabilitate de transgre-
siune sau probabilitate de depăşire.
∑x
i =1
i −n⋅μ
(4.13)
n ⋅σ 2
tinde către o variabilă normală redusă, dacă n tinde la +∞.
Altfel spus, dacă un fenomen este rezultatul influenţei unei
infinităţi de factori (independenţi sau cvasiindependenţi), fiecare dintre
aceştia având un rol limitat, măsurarea acestui fenomen se poate efectua
40
cu ajutorul unei variabile aleatoare cantitative a cărei lege de repartiţie se
apropie de legea normală normată.
41
Etapele de lucru sunt:
• se determină media aritmetică ( x ) şi abaterea standard (s) printr-un
procedeu cunoscut;
• se determină abaterile normate (ui);
• în funcţie de valorile abaterilor normate se scot din tabele valorile
∧
f (u i ) sau se calculează după funcţia normală normată
2
u
1 −
f (u ) = ⋅e 2
;
2π
∧
• se determină frecvenţele teoretice absolute ( ni ) şi ajustarea este
efectuată.
Reprezentarea grafică a frecvenţelor absolute experimentale şi a
celor teoretice (coloanele 2 şi 5 din tabelul 5) arata sugestiv modul de
ajustare a distribuţiei empirice utilizând distribuţia teoretică normală
(figura 12).
42
Situaţiile în care distribuţia normală poate fi aplicată fenomenelor
din silvicultură sunt diverse. Trebuie să fie îndeplinite, însă, anumite
condiţii:
populaţia din care se extrage proba să fie omogenă; dacă este cazul,
se poate proceda, în prealabil, la stratificarea ei;
caracteristica studiată să rămână sub influenţe aleatoare
(întâmplătoare). Apariţia unui factor cu o influenţă puternică
determină asimetrii sau excese apreciabile.
4.2 Distribuţia teoretică Charlier (tip A)
Charlier a demonstrat că o distribuţie experimentală poate fi
redată printr-o serie de derivate ale funcţiei normale. Funcţia de frecvenţă
teoretică are forma:
A E IV
ϕ (u ) = f (u ) − ⋅ f III (u ) + f (u ) , (4.14)
6 24
în care:
f (u ) este funcţia de frecvenţă a distribuţiei normale normate,
f III (u ), f IV (u ) - derivatele de ordin III şi IV ale funcţiei f(u) (valori
tabelate - anexa 1- sau calculate în funcţie de valorile ui experimentale),
A -indicele asimetriei,
E -indicele excesului.
Frecvenţele absolute se determină cu aceeaşi relaţie ca şi în cazul
normalei:
∧ N ⋅a
ni = ⋅ ϕ (u i ) , (4.15)
s
unde:
a -amplitudinea unei clase,
s -abaterea standard a probei,
De observat că această funcţie, ϕ(u), ia în considerare atât
asimetria cât şi excesul şi poate fi astfel adaptată la un număr mai mare
de distribuţii experimentale.
Dacă A=0 şi E=0, distribuţia Charlier se transformă într-o
distribuţie normală.
43
4.3 Distribuţia binomială
Aceasta mai poartă denumirea de repartiţia lui Bernoulli sau
repartiţia newtoniană.
Se consideră, ca exemplu, o populaţie de N arbori din care M sunt
uscaţi. Analizând câte un arbore, la întâmplare, dintre cei N, se
înregistrează prezenţa sau absenţa fenomenului de uscare. Dacă se repetă
de n ori experienţa în aceleaşi condiţii şi în mod independent (cu
posibilitatea de a „extrage” de mai multe ori acelaşi arbore, adică prin
selecţie repetată), numărul r de arbori uscaţi din eşantionul de volum n
este valoarea dată de o variabilă aleatoare binomială X de parametri n şi
M
p= .
N
Se poate demonstra că, pentru orice r întreg cuprins între 0 şi n
( 0 < r < n ):
P( X = r ) = C n ⋅ p r (1 − p )
r n−r
= Pr , (4.16)
în care:
r n!
C n
=
r!⋅(n − r )!
. (4.17)
n
(observaţie: ∑P
i =0
i = 1 ).
44
n−x p
f ( x + 1) = f ( x ) ⋅ ⋅ . (4.20)
x +1 x
Principalii indicatori statistici teoretici specifici repartiţiei
binomiale sunt:
media x = p⋅n (4.21)
dispersia s = n⋅ p⋅q
2
(4.22)
Legea distribuţiei binomiale se aplică ori de câte ori fenomenele
sunt influenţate de intervenţia unor factori independenţi ale căror
probabilităţi de apariţie sunt cunoscute şi au valoare constantă.
Ajustarea unei distribuţii experimentale după legea distribuţiei
binomiale urmează etapele:
x
se determină x , p, q: p = ; q=1-p; (4.23)
n
se determină frecvenţele teoretice relative cu relaţia 4.18 pentru
x=0 şi cu relaţia 4.19 pentru x > 0 ;
se determină frecvenţele teoretice absolute:
∧ ∧ ∧
n i = N ⋅ f i = N ⋅ f ( xi ) ; (4.24)
se compară cele două distribuţii.
Dacă există asemănare între distribuţia teoretică şi cea
experimentală a frecvenţelor absolute înseamnă că fenomenul studiat
urmează legea distribuţiei binomiale. Trebuie neapărat să se aplice, însă,
un test statistic de ajustare.
4.4 Distribuţia Poisson
Este un caz special al distribuţiei binomiale pentru situaţia în care
probabilitatea apariţiei unui eveniment este mică, chiar dacă numărul
observaţiilor este foarte mare. Din acest motiv se mai numeşte distribuţia
evenimentelor rare.
45
aleatoare X care urmează o lege Poisson de parametru λ (λ este numărul
mediu de arbori dintr-o suprafaţă de probă de 0,1 ha; λ = x ).
Variabila X poate lua toate valorile întregi pozitive sau nule, după
funcţia de frecvenţă a distribuţiei Poisson:
λ x ⋅ e −λ
P( X = x ) = = f (x ) , (4.25)
x!
în care: λ = x = s2 . (4.26)
−λ
Relaţia de mai sus se aplică pentru x = 0 ⇒ f (0) = e . Pentru
x > 0 este comod să se aplice relaţia de recurenţă:
λ
f ( x + 1) = f (x ) ⋅
. (4.27)
x +1
Domeniul de aplicativitate este relativ restrâns. Există unele
caracteristici în domeniul entomologiei, al protecţiei pădurilor, al
vânătoarei, care urmează legea distribuţiei Poisson.
Etapele de ajustare a distribuţiei experimentale după legea
Poisson sunt:
se determină media aritmetică x ;
se determină dispersia s2;
se compară x cu s2; numai dacă cele două valori sunt egale sau
foarte apropiate se poate trece la ajustare;
se determină frecvenţele teoretice relative cu relaţia directă sau prin
formula de recurenţă (pentru x > 0 );
se determină frecvenţele teoretice absolute:
∧ ∧
ni = N ⋅ f i ; (4.28)
se verifică dacă există concordanţă între cele două distribuţii
(printr-un test de concordanţă).
Alte funcţii teoretice foarte flexibile care se folosesc în
silvicultură pentru caracterizarea structurii arboretelor echiene sunt
distribuţiile din sistemul Pearson.
4.5 Distribuţia Beta
Funcţia de densitate de probabilitate beta este, în cazul general:
1
f ( x) = ⋅ ( x − a)α −1 ⋅ (b − x) β −1 (b − a) −(α + β −1) , (4.29)
B(α , β )
a ≤ x ≤ b , α > 0 , β > 0 , unde: (4.30)
Γ(α ) ⋅ Γ( β )
1
B (α , β ) = ∫ t α −1 (1 − t ) β −1 dt = , (4.31)
0
Γ(α + β )
Γ fiind funcţia gamma, tratată pe larg în subcapitolul 4.7.
46
x−a
Dacă se face schimbarea de variabilă y = se obţine funcţia
b−a
de densitate de probabilitate a legii beta standard:
⎧ 1
⎪ ⋅ y α −1 ⋅ (1 − y ) β −1 pentru 0 < y < 1
f ( y ) = ⎨ B(α , β ) (4.32)
⎪⎩ 0 pentru celelalte valori y
În această formă, parametrii α şi β se pot estima cu relaţiile:
⎡ ⎡ y ⋅ (1 − y ) ⎤ ⎤ ⎡ ⎡ y ⋅ (1 − y ) ⎤ ⎤
αˆ = y ⋅ ⎢ ⎢ 2 ⎥ − 1⎥ ; βˆ = (1 − y ) ⋅ ⎢ ⎢ 2 ⎥⎦ − 1⎥ , (4.33)
⎣⎣ s ⎦ ⎦ ⎣⎣ s ⎦
2
în care y şi s reprezintă media aritmetică şi, respectiv, varianţa valorilor
experimentale y (frecvenţelor relative).
Pornind de la funcţia de densitate de probabilitate de tip beta
scrisă sub forma (Leahu, I., 1984):
f ( x) = const ⋅ ( x − a )α −1 (b − x) β −1 , (4.34)
parametrii pot fi estimaţi cu relaţiile:
z
−1
s rel ( z + 1) 2
2
ˆ
β= şi αˆ = z ⋅ βˆ − 1 , (4.35)
z +1
x rel
z= , (4.36)
1 − x rel
N
const = b , (4.37)
∫ ( x − a) (b − a) dx
α −1 β −1
47
4.6 Alte funcţii din sistemul distribuţiilor lui Pearson
Sistemul întreg al distribuţiilor Pearson cuprinde, în afară de
repartiţia normală, alte 7 tipuri (I÷VII) de curbe diferite, unele cu 2-3
subtipuri, rezultând 13 curbe diferite (Leahu, I., 1984). În notaţia
acestora, indicele i desemnează o curbă cu un maxim (unimodală),
indicele u arată că este vorba despre o curbă convexă, iar j indică o curbă
descrescătoare.
Pentru arboretele echiene, prezintă interes următoarele tipuri şi
subtipuri de funcţii din sistemul Pearson:
m1 m2
⎛ x⎞ ⎛ x⎞
Ii (k< 0) y = y 0 ⋅ ⎜1 + ⎟ ⎜1 − ⎟ , (4.38)
⎝ a1 ⎠ ⎝ a2 ⎠
m
⎛ x2 ⎞
IIi (k=0; r3=0; r4< 3) y = y 0 ⋅ ⎜1 − 2 ⎟ , (4.39)
⎝ a ⎠
p x
⎛ x⎞ − p⋅
IIIi (k=± ∞) y = y0 ⋅ ⎜1 + ⎟ ⋅ e a , (4.40)
⎝ a⎠
γ
−
−p
V (k=1) y = y0 ⋅ x ⋅e x
şi (4.41)
48
Mai puţin folosite, dar cu aplicabilitate demonstrată pentru
caracterizarea structurii arboretelor în funcţie de diametru, sunt
distribuţiile gama şi Weibull.
4.7 Distribuţia Gamma
Distribuţia gamma generalizată este o distribuţie triparametrică
care are, într-o primă formă parametrii k, β şi θ :
β
k ⋅ β −1 ⎛ x⎞
β
⎛ x⎞ −⎜ ⎟
⎝θ ⎠
f ( x) = ⋅⎜ ⎟ ⋅e . (4.44)
Γ(k ) ⋅ θ ⎝ θ ⎠
Prin transformările de parametri:
1 ⎛ 1 ⎞ 1 1
μ = ln(θ ) + ⋅ ln⎜ 2 ⎟ , σ = şi λ = , (4.45)
β ⎝λ ⎠ β k k
se obţine distribuţia gamma triparametrică în forma:
⎧ ⎡ ln x − μ
⎢λ−
ln x − μ ⎤
⎛ 1 ⎞ λ− σ ⎥
+ ln ⎜ 2 ⎟ − e
⎪ ⎢
⎢
σ ⎝λ ⎠ ⎥
⎥
⎪ λ ⎢ λ2 ⎥
⎪ 1 ⎢ ⎥
⎪σ ⋅ x ⋅ ⎛ 1 ⎞ ⋅ e
⎣ ⎦
dacă λ ≠ 0
f ( x) = ⎨ Γ⎜ 2 ⎟ (4.46)
⎪ ⎝λ ⎠
⎪ 1 ⎛ ln x − μ ⎞
2
⎪ 1 − ⎜ ⎟
⋅e 2⎝ σ ⎠
dacă λ = 0
⎪⎩ x ⋅ σ ⋅ 2π
Aşa cum se poate observa, distribuţia gamma generalizată este
de o complexitate ridicată, iar determinarea parametrilor este destul de
dificilă. Acestea sunt motivele pentru care nu este foarte frecvent
utilizată pentru ajustarea distribuţiilor experimentale. Există, însă,
programe de calcul dedicate a căror folosire contracarează
inconvenientele menţionate.
49
Funcţia de densitate de probabilitate a distribuţiei gamma
biparametrică este definită pentru x>0 prin:
x
1 −
f ( x) = α ⋅ x α −1 ⋅ e β , (4.47)
β ⋅ Γ(α )
unde α>0 este parametrul de formă şi β>0, parametrul de scară.
Γ(α ) este funcţia gamma a cărei relaţie este:
∞
Γ(α ) = ∫ y α −1e − y dy . (4.48)
0
50
Această distribuţie teoretică se caracterizează prin media
aritmetică egală cu α ⋅ β şi varianţa α ⋅ β 2 .
De aceea, o primă modalitate de estimare a parametrilor
distribuţiei gamma este:
x 2 ˆ s2
αˆ = , β = , (4.50)
s2 x
astfel încât αˆ ⋅ βˆ = x , x şi s 2 sunt media aritmetică, respectiv varianţa
distribuţiei experimentale ce trebuie ajustată.
Metoda verosimilităţii maxime aplicată în cazul distribuţiei
gamma estimează parametrii acesteia cu relaţiile:
1 ⎛ 4A ⎞ x
αˆ = ⋅ ⎜⎜1 + 1 + ⎟ şi βˆ = , (4.51)
4A ⎝ 3 ⎟⎠ αˆ
în care A = ln( x ) −
∑ ln( x) , N fiind volumul populaţiei statistice
N
analizate.
Funcţia de repartiţie gamma (reprezentată în figura 14) este:
x x x
1 −
F ( x) = ∫ f ( x)dx = α ⋅ ∫ x α −1e β dx . (4.52)
0 β ⋅ Γ(α ) 0
51
x
Notându-se t = se obţine forma incompletă a funcţiei gamma:
β
x
1
F ( x) = ⋅ ∫ t α −1e −t dt . (4.53)
Γ(α ) 0
Trebuie remarcat faptul că funcţia gamma nu este definită pentru
x=0, ceea ce poate fi un impediment în ajustare. Pentru α = 1 distribuţia
1
gamma se transformă într-o distribuţie exponenţială cu λ = . Aceasta
β
are funcţia de densitate de probabilitate:
f ( x) = λ ⋅ e − λ ⋅t (4.54)
şi funcţia de repartiţie:
F ( x) = 1 − e − λ ⋅t , (4.55)
1 ln 2
pentru care media aritmetică este egală cu , mediana este şi
λ λ
1
varianţa .
λ2
O altă bine cunoscută distribuţie statistică, χ 2 , este de asemenea
un caz special al distribuţiei gamma. Distribuţia χ 2 cu n grade de
n
libertate este, de fapt, o distribuţie gamma cu α = şi β = 2 .
2
4.8 Distribuţia Weibull
Repartiţia Weibull biparametrică face legătura cu legea
exponenţială, fiind considerată chiar o generalizare a acesteia.
Densitatea de probabilitate a legii Weibull are forma:
⎧ 0 pentru x ≤ 0
( )
f x, β , λ = ⎨ β −1 −λ⋅x β (4.56)
⎩β ⋅ λ ⋅ x ⋅e pentru x > 0
în care cei doi parametri sunt strict pozitivi (β>0; λ>0).
Se observă că pentru β=1 repartiţia Weibull devine o repartiţie
exponenţială; pentru β<1 curba este descrescătoare, convexitatea ei
accentuându-se cu cât β este mai mic.
Pentru β>1 curba este concavă, cu cât β este mai mare, graficul
funcţiei având o formă tot mai pronunţată de clopot (pentru 1<β<3,6
curba este în clopot cu asimetrie de stânga, pentru β=3,6 curba
aproximează legea normală a lui Gauss, iar pentru β>3,6 curba este în
52
clopot cu asimetrie de dreapta). Parametrul β determină, deci, forma
distribuţiei Weibull.
Funcţia de repartiţie pentru legea Weibull este:
⎧0 pentru x ≤ 0
(
F x, β , λ = ⎨ ) −λ⋅x β (4.57)
⎩1 − e pentru x > 0
Uneori, în practică, este necesară exprimarea legii Weibull într-o
formă mai avantajoasă prin introducerea unui parametru de scară reală,
η, prin substituirea:
1
λ= . (4.58)
ηβ
1
Deci η = β
, iar expresia densităţii de probabilitate a legii
λ
Weibull biparametrice devine:
β
β −1 ⎛ x⎞
⎛ x ⎞ β ⎛ x⎞ −⎜ ⎟
⎝ η⎠
f ⎜ , β⎟ = ⋅ ⎜ ⎟ ⋅e . (4.59)
⎝ η ⎠ η ⎝ η⎠
Legea Weibull triparametrică reprezintă varianta completă a
acestei legi, obţinută prin introducerea unui parametru de iniţializare (de
poziţie), γ, care realizează o translatare pe axa x. Funcţia densităţii de
probabilitate devine:
β
β −1 ⎛ x −γ ⎞
β ⎛ x −γ ⎞ −⎜ ⎟
f ( x , η, β , γ ) = ⋅ ⎜ ⎟ ⋅e ⎝ η ⎠
, (4.60)
η ⎝ η ⎠
iar funcţia de repartiţie este:
β
⎛ x −γ ⎞
−⎜ ⎟
( )
F x , η, β , γ = 1 − e ⎝ η ⎠
, (4.61)
ambele valabile pentru x>0.
Se precizează faptul că η şi γ se exprimă în aceleaşi unităţi de
măsură ca şi x.
Datorită faptului că estimarea simultană a celor trei parametri
este destul de puţin fiabilă pentru că furnizează abateri mult prea mari
pentru o utilizare ulterioară a acestei curbe, este preferabil să se estimeze
numai parametrii de formă (β) şi de scară (η) considerând originea (γ)
fixă într-un anumit interval. B.Lemoine (et al., 1991) ajunge la concluzia
că valorile cele mai mici ale lui χ2, obţinute prin compararea
distribuţiilor experimentale cu distribuţia teoretică Weibull, corespund
53
unor valori ale lui γ cât mai apropiate de minimul valorilor observate.
Aceeaşi remarcă este făcută de Bailey (et al., 1973; citaţi de J.Pardé şi
J.Bouchon, 1988).
4.9 Alte distribuţii descrescătoare
Arboretele pluriene, naturale sau grădinărite, au o structura
specifică a distribuţiei arborilor pe categorii de diametre: forma curbei de
frecvenţe este descrescătoare, frecvenţele maxime fiind mereu la
categoriile de diametre mici.
Meyer propune pentru caracterizarea structurii arboretelor
pluriene o funcţie de forma:
nˆ = k ⋅ e −α ⋅ x , (4.62)
în care n̂ reprezintă numărul de arbori pe categorii de diametre, k şi α,
parametri, iar x, categoriile de diametre.
Aceasta relaţie sintetizează observaţiile anterioare ale lui Liokourt
potrivit cărora repartizarea pe categorii de diametre a numărului de arbori
în arboretele pluriene se face după o progresie geometrică.
Prin logaritmarea relaţiei lui Meyer, aceasta se liniarizează, α
devenind coeficient unghiular (valoarea lui α este negativă).
Funcţia lui Meyer este considerată, totuşi, prea rigidă şi nu are
încă o justificare ecologică.
Există propuneri pentru folosirea unor funcţii mai elastice: funcţia
Weibull, funcţiile Pearson sau funcţiile exponenţiale ale lui Caussinus şi
Rollet.
Din sistemul funcţiilor Pearson se pot utiliza distribuţia beta şi cea
de tip Ij, aceasta din urmă având forma:
m1
⎛ x⎞
⎜⎜1 + ⎟⎟
a1 ⎠
y = y0 ⋅ ⎝ m2
, (4.63)
⎛ x ⎞
⎜⎜1 − ⎟⎟
⎝ a2 ⎠
notaţiile fiind cele de la relaţiile anterioare.
Funcţia exponenţială a lui Rollet are forma:
(α + 1) ⋅ θ
⋅ e −θ ⋅ x ⋅ (1 − eθ ⋅ x ) ,
α
f ( x) = −θ ⋅a α +1
(4.64)
1 − (1 − e )
unde:
x este categoria de diametre (cu amplitudinea de l cm),
a - categoria de diametre inferioară,
α, θ - parametri experimentali.
54
5. TEHNICA SONDAJULUI
5.1 Metoda selectivă
Caracterizarea numerică a proceselor din silvicultură rareori poate
fi efectuată pornind de la înregistrări integrale. Aceasta, pentru că:
în multe situaţii s-ar distruge întreg materialul analizat,
din motive obiective (costuri, imposibilitate tehnică etc.)
înregistrarea totală este imposibil de aplicat.
În aceste cazuri se aplică metode de selecţie prin înregistrări
parţiale sau sondaje.
Se impune în prezent, în condiţiile unei silviculturi moderne, o
cunoaştere tot mai aprofundată a fenomenelor din interiorul pădurii şi a
efectelor intervenţiilor silviculturale asupra stării fondului forestier, ceea
ce nu se poate realiza decât prin metode bazate pe eşantionaj.
Din multitudinea problemelor de studiu abordate prin metoda
selectivă se pot menţiona:
inventarierea fondului de producţie,
controlul calităţii anumitor produse (a materialului de împădurire, a
sortimentelor de material lemnos),
studiul defectelor lemnului,
controlul eficacităţii măsurilor de combatere a dăunătorilor,
cunoaşterea în timp scurt a caracteristicilor procesului de producţie şi
a factorilor ce-l influenţează etc.
55
şi mai uşor de înlăturat în faza de verificare a datelor; rezultă o
calitate superioară a rezultatelor obţinute prin sondaj.
56
Eşantionul reprezintă o parte sau un număr de elemente ale
populaţiei totale. Operaţia de constituire a eşantionului se numeşte
eşantionare.
Δx =
(θ − θ ) . (5.2)
2
Metoda selectivă constă, deci, în determinarea parametrilor
populaţiei formate din N elemente cu ajutorul valorilor observate xi (i=1,
…,n) pentru n elemente extrase din respectiva populaţie. Evident n<N, n
fiind volumul selecţiei.
Condiţiile în aplicarea metodei selective sunt:
eşantionul trebuie extras astfel încât să fie reprezentativ pentru
populaţia studiată. Este echivalent acest lucru cu faptul că structura
probei trebuie să fie apropiată de structura întregii populaţii;
modalitatea practică de extragere a unităţilor ce formează eşantionul
trebuie să fie astfel aleasă încât fiecare unitate să aibă aceeaşi şansă de a
face parte din probă (evitarea subiectivismului eşantionării);
populaţia din care se extrage eşantionul să fie cât mai omogenă; uneori
este necesară împărţirea în subpopulaţii omogene (stratificare).
57
Un eşantion trebuie să fie reprezentativ. Situaţia contrară este cea
a unui eşantion deformat sau deplasat.
58
Procedeele de înlăturare (sau de reducere, numai) a erorilor
aleatoare de reprezentativitate constau în mărirea volumului eşantionului
şi în alegerea unui tip de sondaj adecvat scopului cercetării.
59
Selecţia randomizată prezintă următoarele avantaje:
valorile medii ale caracteristicilor studiate se distribuie după legea
normală,
permite un calcul riguros şi o estimare corectă a erorii de
reprezentativitate.
Dezavantajele ar fi:
posibilitatea unei repartizări neuniforme a unităţilor selectate în cadrul
colectivităţii generale, rămânând anumite zone nereprezentate în
eşantion,
metoda este mai complicată în cazul în care populaţia cercetată este
mare şi procentul de selecţie ridicat.
Una dintre problemele puse teoriei selecţiei a fost stabilirea
modului în care se calculează eroarea întâmplătoare de reprezentativitate
ce va interveni în cercetarea selectivă, înainte ca această cercetare să se fi
efectuat.
Dacă s-ar înregistra toate unităţile componente ale unei populaţii,
s-ar putea determina valoarea reală a mediei (μ) care nu ar fi afectată de
erori de reprezentativitate (sau eroarea de reprezentativitate ar fi nulă).
În cazul unui eşantion, media calculată x (media de selecţie) se
abate cu atât mai mult de la media populaţiei (μ) cu cât volumul n al
probei este mai mic.
Cel mai potrivit indicator sintetic pentru calcularea anticipată a
erorii întâmplătoare de reprezentativitate, confirmat de experienţa
practică, este media pătratică a tuturor erorilor de reprezentativitate
posibile, pentru eşantioane de volum egal n extrase din populaţia cu N
unităţi.
Aşa cum s-a arătat la indicii de variaţie ai distribuţiilor empirice,
mărimea abaterilor medii pătratice ale tuturor mediilor de sondaj de la
media populaţiei totale depinde de abaterea medie pătratică (abaterea
standard) a populaţiei respective (σ) şi de volumul eşantioanelor (n),
conform relaţiei:
σ
σx = . (5.3)
n
Când colectivitatea generală ce urmează să fie caracterizată pe
baza cercetării selective nu a fost supusă unei înregistrări totale
anterioare, dispersia caracteristicii studiate se stabileşte experimental pe
baza unei mostre de cel puţin 120 de unităţi (σ2 ≈ s2 ⇒ σ ≈ s).
Relaţia de mai sus devine:
60
s
sx = . (5.4)
n
s x este considerată, deci, unitatea de măsură a erorii medii de
reprezentativitate. Determinată în acest mod, aceasta este valabilă pentru
selecţia repetată (atunci când o unitate extrasă este reintrodusă în
populaţie şi are şansa de a fi extrasă din nou).
Situaţia aceasta se întâlneşte rar în practică, cazul uzual fiind cel
al selecţiei nerepetate, atunci când volumul N al populaţiei scade cu o
unitate pentru fiecare nou element inclus în eşantion.
În acest caz, eroarea medie de reprezentativitate se calculează cu
relaţia:
s N −n
sx = ⋅ , (5.5)
n N −1
în care:
N este numărul de unităţi din populaţie,
n- numărul de unităţi din probă,
s x - abaterea standard a mediei aritmetice (eroarea de reprezentativitate),
s - abaterea standard a caracteristicii studiate.
Se observă că, pentru populaţii ce se pot aproxima ca fiind infinite
(N foarte mare), eroarea de reprezentativitate depinde numai de mărimea
probei şi într-o măsură foarte mică de mărimea populaţiei:
N −n N n n
= − ≈ 1− ≈ 1 (5.6)
N −1 N −1 N −1 N
n
Practic, pentru N>100 şi ≤ 0,05 , eroarea de reprezentativitate
N
s
este s x = şi în cazul selecţiei nerepetate.
n
Pentru caracterizarea gradului de apropiere a mediei sondajului
faţă de media populaţiei se impune şi calcularea limitelor de încredere
pentru media populaţiei, cu relaţiile:
x ± t ⋅ s x pentru volume mici şi (5.7)
x ± u ⋅ s x pentru volume mari. (5.8)
Pentru analize comparative este utilă calcularea expresiei
procentuale a erorii de reprezentativitate:
61
sx
sx% = ⋅ 100 (%). (5.9)
x
În cazul cercetării selective este posibilă obţinerea numai a unui
rezultat dintr-o serie întreagă de rezultate diferite.
Toate rezultatele posibile se împart în două grupe (figura 15):
rezultate care pot fi acceptate pentru că mediile de selecţie ce s-ar
obţine diferă în plus sau în minus faţă de media generală μ cu o
mărime ce nu prejudiciază scopul în care se utilizează aceste rezultate;
rezultate care nu pot fi acceptate pentru că mediile de selecţie diferă
în plus sau în minus faţă de media generală cu o mărime ce
prejudiciază scopul practic în care se utilizează datele cercetării
selective.
62
s
Δx = t ⋅ , (5.12)
n
iar pentru sondajul simplu nerepetat:
s N −n s n
Δx = t ⋅ ⋅ ≈t⋅ ⋅ 1− , (5.13)
n N −1 n N
t sau u exprimând probabilitatea cu care se garantează rezultatele.
În mod logic, determinarea mărimii eşantionului ar fi trebuit să
preceadă expunerea modului de determinare a erorii de reprezentativitate,
dar tocmai în formula erorii sunt sintetizate elementele necesare pentru
stabilirea volumului eşantionului.
În teoria şi practica sondajelor se operează cu eşantioane mari şi
eşantioane de volum redus, în funcţie de gradul de omogenitate a
populaţiei.
Interpretarea erorii de reprezentativitate se face în mod diferit:
pentru eşantioane cu volum mare se foloseşte distribuţia normală (u),
pentru eşantioane cu volum redus se foloseşte distribuţia Student (t).
Din reprezentarea grafică următoare (figura 16) se observă modul
de variaţie a erorii de reprezentativitate în funcţie de numărul de unităţi
din eşantion.
Volumul probei nu poate fi prea mic (sub o valoare n1) pentru că
în acest caz eroarea de reprezentativitate ar creşte la valori inadmisibile.
Un volum al probei peste n2 nu se justifică pentru că eroarea de
reprezentativitate ar scădea insesizabil.
Există, deci, o zonă de optim în care, în funcţie de eroarea limită
admisă, se stabileşte volumul eşantionului.
63
Organizarea unei cercetări prin sondaj presupune dimensionarea
raţională a eşantionului. Un volum mare al probei, conform legii
numerelor mari, sporeşte precizia rezultatelor. Ţinând cont de criteriile de
economicitate, însă, volumul eşantionului trebuie să fie cât mai mic.
În practică se determină numărul minim de unităţi ce trebuie
observate astfel încât să fie satisfăcute exigenţele de precizie şi siguranţă
formulate în raport cu costurile cercetării.
Pentru eşantioanele cu volum mic (sub 30 de unităţi):
s N −n s2 N − n t 2 ⋅ s2 ⎛ n⎞
Δx = t ⋅ ⋅ ⇔ Δ2x = t 2 ⋅ ⋅ ≈ ⋅ ⎜1 − ⎟ ⇒
n N −1 n N −1 n ⎝ N⎠
⎛ t2 ⋅ s2 ⎞ 2 2 N ⋅t2 ⋅ s2
⇒ n ⋅ ⎜⎜ Δ2x + ⎟⎟ = t ⋅ s ⇒ n = . (5.14)
⎝ N ⎠ N ⋅ Δ2x + t 2 ⋅ s 2
Pentru eşantioanele cu volum mare (peste 30 unităţi) în locul lui t
se foloseşte u:
N ⋅u2 ⋅ s2
n= . (5.15)
N ⋅ Δ2x + u 2 ⋅ s 2
n
Atunci când ≤ 0,05 , se porneşte de la relaţia:
N
s t 2 ⋅ s2 t 2 ⋅ s2
Δx = t ⋅ ⇒ Δx =
2
⇒n= , (5.16)
n n Δ2x
respectiv:
u2 ⋅ s2
n= . (5.17)
Δ2x
s
Relaţiile pot fi aplicate şi cu înlocuirile: s% = ⋅ 100 şi
x
Δx
Δ% = ⋅ 100 .
x
Problema determinării numărului de unităţi pentru un eşantion de
volum mare este simplă pentru că se utilizează valorile cunoscute ale lui
u (u0,05=1,96; u0,01=2,58; u0,001=3,29).
Dacă volumul probei este mic, se procedează astfel:
se utilizează formulele cu u pentru populaţii finite sau infinite (cu luarea
în considerare a lui N sau nu) şi se determină volumul provizoriu al
probei, n’:
u2 ⋅ s2 N ⋅u2 ⋅ s2
n' = sau n' = , (5.18)
Δ2x N ⋅ Δ2x + u 2 ⋅ s 2
64
dacă n’ este sub 30, se recalculează volumul folosind relaţia cu t a cărui
valoare se ia din tabele pentru n’-1 grade de libertate, rezultând n’’,
dacă n’’ diferă de n’, se recalculează volumul probei pentru t aflat în
funcţie de n’’-1 grade de libertate,
se continuă până când ultimele două valori succesive ale volumului
probei, rotunjite la întreg, sunt egale.
În cazul caracteristicilor alternative fiecare unitate elementară
inclusă în probă poate prezenta sau nu caracteristica studiată (de
exemplu: arbore cu fenomen de uscare – arbore sănătos).
Dacă a este numărul unităţilor ce prezintă caracteristica urmărită,
din cele n unităţi incluse în eşantion, eroarea de reprezentativitate, în
cazul sondajului simplu nerepetat, este:
p ⋅ (1 − p ) N − n
sp = ⋅ , (5.19)
n N −1
a
unde p = , iar N este volumul populaţiei studiate.
n
În cazul sondajului simplu repetat sau pentru populaţii considerate
n
infinite şi ≤ 0,05 :
N
p ⋅ (1 − p )
sp = . (5.20)
n
Numărul de unităţi din sondaj se stabileşte, în funcţie de volumul
populaţiei, cu una dintre relaţiile:
N ⋅ u 2 ⋅ p ⋅ (1 − p ) u 2 ⋅ p ⋅ (1 − p )
n= , respectiv n = , (5.21)
N ⋅ Δ2p + u 2 ⋅ p ⋅ (1 − p ) Δ2p
în care se poate utiliza şi p% cu condiţia ca Δp, eroarea limită admisă, să
fie exprimată de asemenea procentual (Δp%).
Concluzionând asupra modului de lucru în aplicarea metodei
selective, etapele de lucru sunt următoarele:
se stabileşte eroarea limită admisă (în valori absolute sau în %); de
obicei Δ% se alege între 1% şi 10% în funcţie de natura fenomenului
cercetat, de exigenţă şi de posibilităţile materiale;
se optează pentru un prag de semnificaţie (probabilitate de
transgresiune), de obicei 5%, iar pentru cercetări pretenţioase, 1% sau
0,1%,
se stabileşte abaterea standard sau coeficientul de variaţie pentru
caracteristica analizată; se folosesc, eventual, valorile acestora
determinate prin cercetări anterioare în condiţii similare,
se determină volumul probei cu una dintre relaţiile prezentate anterior.
65
5.2 Metoda secvenţială
Pe lângă înregistrarea integrală şi metoda selectivă, atunci când
apare problema practică de a verifica unele caracteristici calitative ale
populaţiei studiate, de a testa expeditiv elementele din cadrul acesteia,
poate fi aplicată metoda secvenţială.
66
Pentru că este vorba despre un control, pe baza unei probe, acesta
nu oferă certitudini, ci presupuneri asupra acceptării sau respingerii
întregului lot.
Acest lucru prezintă anumite riscuri de a lua o decizie eronată,
care sunt de două tipuri:
α, riscul de genul I sau riscul furnizorului, este riscul de a
respinge un lot bun (de a respinge ipoteza H0 cu toate că aceasta,
printr-o analiză integrală, s-ar dovedi adevărată).
67
Pentru populaţii infinite sau cu volum mare (N > 3000) se
procedează astfel:
se calculează valorile T1 şi T2 (ecuaţiile dreptelor T1 şi T2) cu
relaţiile:
T1 = k ⋅ m + h1 (5.25)
T2 = k ⋅ m + h2 , (5.26)
în care:
β 1− β
lg lg
h1 = 1−α , h2 = α , (5.27)
p 2 ⋅ (1 − p1 ) p 2 ⋅ (1 − p1 )
lg lg
p1 ⋅ (1 − p 2 ) p1 ⋅ (1 − p 2 )
1 − p1
lg
1 − p2
iar: k= . (5.28)
p 2 ⋅ (1 − p1 )
lg
p1 ⋅ (1 − p 2 )
se rezolvă tabelar sau grafic prin continuarea sondajului atât timp
cât Σxi este cuprinsă între T1 şi T2; dacă Σxi > T2 lotul se respinge,
iar dacă Σxi < T1, lotul se acceptă.
Tipul de grafic utilizat este redat în figura 17.
68
⎧x = N
⎪⎪ p 2 − p1
⎨y = p2
⋅ N + 0,5 (5.29)
⎪ ln
⎪⎩ p1
punctele de intersecţie între dreptele de control şi abscisă sunt (m1,
0) şi (m2, 0) cu:
⎡ 1
⎤ ⎡ 1
⎤
⎢ ⎛ β ⎞ N ⋅( p 2 − p1 )
⎥ ⎢ ⎛ 1 − β ⎞ N ⋅( p2 − p1 )
⎥ , (5.30)
m1 = N ⋅ 1 − ⎜ ⎟ şi m2 = N ⋅ 1 − ⎜ ⎟
⎢ ⎝1−α ⎠ ⎥ ⎢ ⎝ α ⎠ ⎥
⎣ ⎦ ⎣ ⎦
acestea, împreună cu punctul P (x, y) determinând dreptele T1 şi T2.
există o a treia dreaptă de control:
T3 = p1 ⋅ N (5.31)
rezolvarea cea mai comodă este cea grafică, continuându-se
sondajul până când Σxi iese din zona de continuare fie în cea de
respingere, fie în cea de acceptare, aceste zone fiind delimitate ca în
figura 18.
69
6. VERIFICAREA IPOTEZELOR STATISTICE
Studiul fenomenelor din silvicultură se face pe colectivităţi de
volum mare. În consecinţă, se renunţă la observarea întregii populaţii şi
se fac măsurători numai pe probe sau eşantioane de volum mai mic.
Potrivit legii numerelor mari, influenţa cauzelor întâmplătoare
asupra diferenţelor dintre indicii statistici ai probelor se poate diminua pe
măsură ce se măreşte numărul observaţiilor. Se pot pune în evidenţă,
astfel, numai diferenţele cauzate de factori obiectivi.
Posibilităţile de majorare a numărului observaţiilor fiind limitate
în practică, apare necesitatea formulării unor concluzii generale pe baza
eşantioanelor de volum mic. Indicatorii statistici calculaţi trebuie
analizaţi, aşadar, sub aspectul semnificaţiei lor înainte de a-i considera ca
bază teoretică pentru caracterizarea fenomenului studiat.
6.1 Teste statistice
A testa semnificaţia unui indicator statistic înseamnă a determina
dacă abaterea acestuia este de natură aleatoare sau obiectivă
(semnificativă).
S-au elaborat diverse criterii şi metode specifice ştiinţelor
experimentale pentru testarea semnificaţiei. Se formulează iniţial o
ipoteză statistică reprezentând o presupunere privitoare la parametrii unei
distribuţii sau la legea de repartiţie pe care o urmează anumite variabile.
Această ipoteză este formulată pe baza datelor experimentale de care se
dispune la un moment dat şi, după ce este analizată, este acceptată sau
respinsă.
70
Nu se poate pretinde că decizia de acceptare sau respingere a
ipotezei nule este corectă în toate cazurile pentru că se bazează numai pe
o selecţie de volum n din populaţia întreagă (de volum N). Este posibilă,
deci, o eroare. Deciziile se iau cu o probabilitate de eroare q
(probabilitate de transgresiune sau prag de semnificaţie), care în
general se alege 5%, 1% sau 0,1%.
Eroarea care apare în cazul respingerii H0 cu toate că ea este, în
realitate, adevărată, se numeşte eroare de genul I. Decizia greşită de a
accepta ipoteza H0, falsă în realitate, se numeşte eroare de genul II.
71
6.2 Repartiţii utilizate pentru testări
În cazul testării ipotezei nule se folosesc variabile aleatoare de
testare care urmează legi teoretice de repartiţie.
6.2.1 Repartiţia normală
Dacă variabilele de testare au o repartiţie normală, q corespunde
probabilităţii de transgresiune. La o anumită probabilitate de eroare, q,
x−μ
corespunde u = ; în general, μ şi σ sunt presupuse cunoscute
σ
numai pentru selecţii mari şi sunt estimaţi prin x şi s.
Probabilitatea de transgresiune de 5% corespunde unei valori a lui
u=1,96. În acest caz se respinge ipoteza nulă dacă valoarea uexp calculată
din selecţie îndeplineşte condiţia uexp>uteoretic=1,96 şi se acceptă dacă
uexp≤uteoretic=1,96.
6.2.2 Repartiţia t (Student)
Procedeul descris pentru repartiţia normală nu mai este valabil în
cazul în care μ şi σ sunt necunoscuţi şi trebuie estimaţi prin x şi s pe
baza unei selecţii de volum mic (N<100). În această situaţie se foloseşte
repartiţia t a lui Student care ia în considerare, pe lângă probabilitatea de
transgresiune, şi volumul probei.
Pentru valori din ce în ce mai mari ale lui N această repartiţie
devine din ce în ce mai apropiată de repartiţia normală şi coincide cu
aceasta atunci când N→∞.
Repartiţia t este tabelată pentru anumite praguri de semnificaţie q
şi diferite grade de libertate f. Numărul gradelor de libertate este egal cu
diferenţa dintre volumul selecţiei şi numărul caracteristicilor luate în
considerare (f=N-m).
6.2.3 Repartiţia F (Fisher)
Fie două eşantioane de volum n1 şi, respectiv, n2 extrase dintr-o
populaţie normală şi s12 şi s22 cele două varianţe corespunzătoare
acestora.
s2
Se formează raportul Fexp = 12 . Repartiţia frecvenţelor acestor
s2
valori a fost studiată de Fisher şi se numeşte repartiţia F.
Aceasta depinde de pragul de semnificaţie q (probabilitatea de
transgresiune) şi de gradele de libertate f1=n1-1 şi f2=n2-1, a fost tabelată
şi serveşte la compararea a două dispersii.
Fiind raportul a două pătrate, F ia numai valori pozitive.
72
6.2.4 Repartiţia χ2
În strânsă legătură cu teoria erorilor a lui Gauss, a fost studiată
suma pătratelor unor variabile repartizate normal.
Fie X1, X2, ..., Xn, n variabile aleatoare independente care au
aceeaşi repartiţie normală de parametri μ şi σ2.
Repartiţia sumei de pătrate:
1 n
χ 2 = 2 ∑ ( x k − μ )2 , (6.1)
σ k =1
în care x1, x2, ..., xn sunt valori ale variabilelor aleatoare X1, X2, ..., Xn, a
fost numită de K.Pearson repartiţia χ2. Aceasta depinde de pragul de
semnificaţie q şi de gradele de libertate f şi este tabelată pentru aceste
valori.
Este folosită frecvent la compararea unei distribuţii experimentale
cu una teoretică sau a două distribuţii experimentale între ele.
6.3 Verificarea concordanţei dintre distribuţia experimentală şi cea
teoretică
Verificarea corespondenţei dintre repartiţiile teoretice şi cele
empirice (testul de ajustare) se face, de obicei, cu ajutorul criteriului χ2.
Se formulează de la început ipoteza că distribuţia experimentală
urmează legea distribuţiei teoretice (normală, Charlier, binomială,
Poisson etc), deci că diferenţele dintre distribuţii sunt nule (ipoteza nulă-
H0).
Verificarea ipotezei nule prin testul χ2 necesită respectarea unor
condiţii:
numărul observaţiilor să fie suficient de mare (să intre sub incidenţa
legii numerelor mari),
frecvenţele distribuţiei experimentale să fie exprimate în valori
absolute,
numărul grupelor (claselor) formate să fie cel puţin egal cu 5,
volumul grupelor să fie suficient de mare (frecvenţa absolută să fie cel
puţin egală cu 5); dacă există grupe cu frecvenţe mai mici, acestea se
vor contopi.
Relaţia de calcul este:
2
⎛ ∧
⎞
k ⎜ ni − ni ⎟
⎝ ⎠
χ2 =∑ ∧
. (6.2)
i =1
ni
73
Calculul se desfăşoară tabelar (tabelul 6), după modelul testării
normalităţii distribuţiei empirice a diametrelor de bază exemplificate
anterior.
2
∧ ⎛ ∧
⎞
xi ni ⎜ ni − ni ⎟
ni ⎝ ⎠
∧
ni
1 2 3 4
20 0 0
24 0 1
0,071
28 4 4
32 9 9
36 18 16 0,250
40 32 23 3,522
44 21 26 0,962
48 21 25 0,640
52 17 19 0,211
56 11 12 0,083
60 5 6
64 4 2 0,444
68 2 1
TOTAL 144 144 6,183
74
Dacă χ2exp≤χ2teoretic⇒ se acceptă ipoteza nulă care
consideră că între distribuţiile comparate nu sunt diferenţe
semnificative.
Dacă χ2exp>χ2teoretic⇒ nu există concordanţă între cele două
distribuţii şi se respinge ipoteza nulă.
75
se determină valoarea teoretică a lui F în funcţie de probabilitatea de
transgresiune q şi f1=N1-1 şi f2=N2-1 (din tabele);
s2
se compară Fteoretic cu Fexperimental= 12 , cu condiţia Fexperimental≥1
s2
(întotdeauna varianţa mai mare se află la numărător).
76
6.5 Teste de conformitate. Compararea mediilor
6.5.1 Intervalul de încredere al mediei aritmetice
Datorită variabilităţii individuale şi a volumului variabil al
probelor extrase din populaţiile studiate, în practică valoarea determinată
a mediei aritmetice trebuie însoţită de intervalul de încredere cores-
punzător probabilităţii de transgresiune acceptate (5%, 1% sau 0,1%).
Modul de determinare a intervalului de încredere diferă după cum
abaterea standard teoretică a populaţiei din care s-a extras eşantionul este
sau nu cunoscută.
În cazul când se cunoaşte σ (sau când există un număr mare de
observaţii: N>100), abaterea standard a mediei aritmetice se calculează în
acest caz cu relaţia cunoscută:
σ
sx = . (6.4)
N
Intervalul de încredere va fi:
(x ± u ⋅ s ) .
x
(6.5)
77
Deci, spre deosebire de cazul anterior, coeficientul de
multiplicare a erorii mediei aritmetice se determină nu numai în funcţie
de probabilitatea de transgresiune ci şi de numărul de observaţii din
cadrul probei. Metoda se foloseşte şi atunci când N≤100 (pentru probe de
volum mic). Pentru un număr mare de observaţii, intervalul determinat
prin această metodă se suprapune peste intervalul determinat prin
folosirea lui u.
78
Etapa a doua constă în aplicarea testului t (Student) pentru
compararea mediilor aritmetice ale celor două probe ( x1 şi x 2 ).
Dacă la prima etapă a rezultat o diferenţă nesemnificativă între
varianţele s12 şi s 22 , se poate calcula o varianţă medie s 2 ca medie
ponderată în raport cu numărul gradelor de libertate pentru cele două
probe:
s 2 ⋅ f + s 22 ⋅ f 2
s2 = 1 1 . (6.9)
f1 + f 2
Abaterea standard medie va fi:
s= s2 , (6.10)
iar valoarea experimentală a testului t se obţine cu relaţia:
x1 − x 2
t exp = . (6.11)
1 1
s⋅ +
N1 N 2
Dacă la prima etapă a rezultat o diferenţă cel puţin semnificativă
între varianţele s12 şi s 22 nu este permis calculul unei varianţe medii, ci se
determină direct texp cu relaţia:
x1 − x 2
t exp = . (6.12)
s12 s2
+ 2
N1 N 2
şi se calculează corecţia c:
s12
N1
c= , (6.13)
s12 s2
+ 2
N1 N 2
în care s12 este varianţa care s-a aflat la numărătorul lui Fexp în prima
etapă.
În ambele situaţii, tteoretic se extrage din tabele în funcţie de
probabilitatea de transgresiune (q=5%) şi numărul gradelor de libertate
pentru ansamblul format din cele două probe.
În primul caz:
f = f1 + f 2 = N1 + N 2 − 2 , (6.14)
79
iar în cel de-al doilea:
1
f = . (6.15)
c2
+
(1 − c ) 2
f1 f2
d=
;
∑d i
(6.16)
n
se determină dispersia şi abaterea standard pentru aceste diferenţe:
(∑ d ) 2
∑d
i
i
2
−
s d2 = n ; sd = s d2 ; (6.17)
n −1
80
se calculează :
d
t exp = ⋅ n; (6.18)
sd
se compară cu tteoretic extras din tabele în funcţie de probabilitatea de
transgresiune (q=5%) şi numărul gradelor de libertate f=n-1.
81
uexp se compară cu uteoretic la o anumită probabilitate de
transgresiune.
82
7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA
VARIANŢEI
Asupra unei colectivităţi pot acţiona simultan mai mulţi factori ce
generează o anumită fluctuaţie a valorilor caracteristicii cercetate,
fluctuaţie redată printr-o dispersie mai mare sau mai mică. Pentru
evidenţierea influenţei fiecărui factor asupra variaţiei indicatorilor
statistici se utilizează analiza varianţei sau analiza dispersională.
83
care diferă măcar semnificativ între ele) şi, eventual, de a ordona probele
în funcţie de un anumit criteriu.
Notaţiile efectuate pentru această analiză sunt:
i - eşantioanele; i=1, ..., I ;
j - unităţile (indivizii) fiecărui eşantion; j=1, ..., J;
xij - valoarea caracteristicii studiate pentru unitatea j din proba i.
Pentru fiecare eşantion i se poate scrie:
xij = xi + eij , cu j=1, ..., J (7.1)
xi reprezintă media aritmetică a valorilor caracteristicii studiate,
în eşantionul i, iar eij este abaterea faţă de media xi a fiecărei valori
individuale xij.
Considerând X , media tuturor valorilor caracteristicii studiate (a
celor I⋅ J valori xij), se poate scrie:
x ij = X + E ij , (7.2)
în care Eij este abaterea fiecărei valori individuale xij faţă de media
generală X .
Din relaţiile anterioare se obţine:
( )
Eij = xij − X = xi − X + (xij − xi ) = xi − X + eij , (7.3) ( )
iar prin ridicare la pătrat:
E ij2 = xi − X ( )
2
(
+ eij2 + 2 ⋅ eij ⋅ xi − X . ) (7.4)
Însumând pătratele erorilor pentru toate cele I⋅ J valori:
( ) + ∑∑ e ( )
I J I J I J I J
∑∑ Eij2 = ∑∑ xi − X + 2 ⋅ ∑∑ eij ⋅ xi − X .
2 2
ij (7.5)
i =1 j =1 i =1 j =1 i =1 j =1 i =1 j =1
[ ( ) ( ) ( )]
I ⎡ ⎤
( )
I J
2 ⋅ ∑ ei1 xi − X + ei 2 xi − X + ... + eij xi − X = 2 ⋅ ∑ ⎢ xi − X ⋅ ∑ eij ⎥ = 0 ,
i =1 i =1 ⎣ j =1 ⎦
pentru că:
pentru fiecare i, deci pentru fiecare probă, ( xi − X ) este constantă, iar
J
∑e
j =1
ij = 0 (una dintre proprietăţile mediei aritmetice).
Se obţine:
( ) + ∑∑ e
I J I I J
∑∑ Eij2 = J ⋅ ∑ xi − X
2 2
ij . (7.6)
i =1 j =1 i =1 i =1 j =1
84
Ecuaţia analizei varianţei arată că:
Suma pătratelor abaterilor totale (Q) poate fi împărţită în
două componente aditive:
• QF , o sumă a pătratelor abaterilor factoriale sau interpopulaţionale
(între probe) şi
• QE, o sumă a pătratelor abaterilor reziduale sau intrapopulaţionale
(în interiorul probelor).
85
Tabelul 7. Prelucrarea primară a datelor experimentale
J
Proba
xij Ni = J Ti = ∑ xij xi
i j =1
(*)
se poate calcula media mediilor numai dacă la finalul analizei varianţei se
poate afirma că nu sunt diferenţe semnificative între probe.
Etapa a doua este chiar analiza simplă a varianţei desfăşurată
tabelar (tabelul 8).
Observaţii:
9 pentru calculul lui QF pentru grupe inegale se raportează Ti2 la Ni;
G2
9 c este o corecţie egală cu .
N
Tabelul 8. Analiza simplă a varianţei
Sursa de Suma pătratelor
Gradele de libertate Varianţe Test F
variaţie abaterilor
I
Ti 2 QF s F2
între probe
(factorială)
QF = ∑ −c fF = I − 1 s F2 = Fexp =
i =1 J fF s E2
QE
reziduală QE = Q − QF fE = f − fF = N − I s E2 =
fE
I J
Totală Q = ∑∑ xij2 − c f = N −1 -
i =1 j =1
86
În ultimele două cazuri, concluzia este că există cel puţin două
probe care diferă semnificativ, respectiv distinct semnificativ. Aceste
diferenţe vor fi puse în evidenţă în cea de a treia etapă, şi anume:
aplicarea testului t pentru analiza semnificaţiei diferenţelor dintre
medii. Se completează tabelul 9.
87
8. ANALIZA CORELAŢIEI
Caracteristic fenomenelor şi proceselor studiate de biostatistică
este faptul că acestea sunt rezultatul acţiunii unui mare număr de factori
(variabile), unii principali, alţii secundari, unii esenţiali, alţii
nesemnificativi, unii măsurabili, alţii nemăsurabili.
88
După numărul caracteristicilor a căror interdependenţă o studiază,
corelaţia poate fi simplă sau multiplă.
Corelaţia simplă exprimă legătura dintre două caracteristici dintre
care una este considerată variabila independentă (x), iar cea de-a doua,
variabila dependentă de prima (y).
Corelaţia multiplă exprimă dependenţa statistică între o variabilă
dependentă (rezultativă) şi mai multe variabile independente (factoriale).
Atunci când tipul legăturii dintre două caracteristici este greu de
stabilit datorită numărului redus de observaţii sau când aceste
caracteristici sunt exprimate în unităţi calitative, dependenţa statistică se
poate exprima prin corelaţia de rang.
89
Figura 21. Câmp de corelaţie în două situaţii diferite de interdependenţă a
variabilelor
Din modul de dispunere a grupului de puncte (nor statistic) se
poate aprecia sensul legăturii (figura 22). Aceasta poate fi directă
(pozitivă), atunci când X şi Y cresc sau descresc simultan, şi inversă
(negativă), atunci când la modificarea într-un sens a variabilei X, Y se
modifică în sens contrar.
90
În silvicultură, legăturile dintre fenomene sau caracteristici sunt
legături statistice. Deşi nu au caracter funcţional, determinarea acestora
prezintă o importanţă deosebită pentru că prin cunoaşterea valorilor unei
caracteristici se pot determina valorile altei caracteristici (cu o anumită
aproximaţie) fără a efectua asupra acesteia din urmă măsurători
costisitoare sau foarte dificile (de exemplu, diametrul la 0,5 h în funcţie
de d -diametrul la 1,30 m-, pentru arbori).
Corelaţia constatată între două variabile, dar care nu are nici o
semnificaţie cauzală se numeşte corelaţie aparentă sau falsă. Este
imprudent să se interpreteze corelaţia în termeni de cauzalitate fără a
cunoaşte în profunzime fenomenele studiate. Corelaţia este doar o
reflectare a legăturilor cu caracter complex existente între fenomenele de
masă.
91
8.2 Coeficientul de corelaţie
Indicatorul statistic care dă măsura intensităţii legăturii corelative
dintre două variabile este coeficientul de corelaţie liniară (coeficientul
Bravais-Pearson).
8.2.1 Proprietăţile coeficientului de corelaţie
Proprietăţile coeficientului de corelaţie sunt:
notaţie: ρ pentru populaţia întreagă şi r pentru un eşantion;
este indicatorul statistic care exprimă numeric intensitatea legăturii
liniare dintre două sau mai multe variabile;
exprimă gradul dispersiei valorilor caracteristicii rezultative y în jurul
dreptei ce reprezintă funcţia de corelaţie (dreapta de regresie); cu cât
această dispersie este mai mare, cu atât coeficientul de corelaţie este
mai mic în modul, şi invers;
ia valori în intervalul [-1,1]; cu cât este mai apropiat de 1 sau de -1 cu
atât corelaţia este mai puternică;
dacă ρ (sau r) = ±1, corelaţia este perfectă (mai exact, legătura
corelativă se transformă într-o legătură funcţională);
dacă ρ (sau r) = 0, nu există corelaţie (variabilele luate în considerare
nu depind între ele);
r este coeficient de corelaţie empiric (se referă la distribuţii empirice,
nu teoretice) şi estimează, doar, valoarea lui ρ.
Atunci când numărul observaţiilor este mic, pentru studierea
legăturii corelative între două caracteristici se foloseşte un tabel de tipul
celui prezentat deja (tabelul anterior). Dacă numărul datelor experimentale
este mare, acestea trebuie să fie grupate pe clase, atât după caracteristica
X, cât şi după caracteristica Y. Rezultă astfel distribuţia empirică
bidimensională într-un tabel de corelaţie (tabelul din figura 23).
92
Studiul unui ansamblu bidimensional de date experimentale nu
trebuie sa se limiteze la o analiza numerică automată, ci trebuie să-şi
sprijine concluziile şi pe o analiză grafică atentă. Situaţiile prezentate în
figura 24 atenţionează asupra pericolului interpretării legăturii statistice
dintre două caracteristici numai prin valoarea coeficientului de corelaţie.
∑x 2
−
N
∑y 2
−
N
sx = şi s y = , (8.3)
N −1 N −1
93
iar covarianţa se obţine cu relaţia:
∑x⋅∑ y
s xy =
∑ (x − x ) ⋅ ( y − y ) ∑ xy − = N . (8.4)
N −1 N −1
Deci:
∑x⋅∑ y
∑ xy − N
r= N −1 =
(∑ x )2
(∑ y ) 2
∑x 2
−
N
∑y 2
−
N
⋅
N −1 N −1
N ⋅ ∑ xy − ∑ x ⋅ ∑ y
= (8.5)
[N ⋅ ∑ x 2
][
− (∑ x ) ⋅ N ⋅ ∑ y 2 − (∑ y )
2 2
]
Dacă se face gruparea în clase intervin frecvenţele distribuţiilor
marginale nx, ny şi frecvenţele distribuţiilor de clase nxy:
⎛ ⎞⎛ ⎞
N ∑ ∑ n xy ⋅ x ⋅ y − ⎜ ∑ n x ⋅ x ⎟⎜⎜ ∑ n y ⋅ y ⎟⎟
x y ⎝ x ⎠⎝ y ⎠
r = rxy = ryx = .
⎞ ⎤ ⎡ ⎞ ⎤
2
⎡ ⎛
2
⎛
⎢ N ∑ n x ⋅ x − ⎜ ∑ n x ⋅ x ⎟ ⎥ ⋅ ⎢ N ∑ n y ⋅ y − ⎜⎜ ∑ n y ⋅ y ⎟⎟ ⎥
2 2
⎢⎣ x ⎝ x ⎠ ⎥⎦ ⎢⎣ y ⎝ y ⎠ ⎥⎦
94
Tabelul 10. Distribuţia empirică bidimensională pentru exemplul analizat
yi xi 28 32 36 40 44 48 52 56 60 64 68 ny
44 5 3 8
42 2 2 1 3 2 10
40 1 1 5 3 9 1 20
38 5 1 7 6 2 1 22
36 3 10 7 5 1 26
34 1 8 9 4 22
32 3 4 5 2 14
30 1 2 5 1 9
28 2 1 3 2 8
26 1 3 1 5
nx 4 9 18 32 21 21 17 11 5 4 2 144
95
uexp ≤ uteoretic 0,05 ⇒ r este nesemnificativ,
uteoretic 0,05 < uexp ≤ uteoretic 0,01 ⇒ r este semnificativ (notaţie *),
uteoretic 0,01 < uexp ≤ uteoretic 0,001 ⇒ r este distinct semnificativ (notaţie **),
uexp > uteoretic 0,001 ⇒ r este foarte semnificativ (notaţie ***).
96
Valoarea obţinută se compară cu tteoretic extras din tabele în funcţie
de probabilitatea de transgresiune (q) şi de numărul gradelor de libertate
(f = N-2).
Au fost întocmite tabele din care se poate obţine direct valoarea
semnificativă a lui r pentru un anumit prag de semnificaţie şi în funcţie
de volumul probei.
Pentru coeficientul de corelaţie care exprimă legătura statistică
dintre diametrul de bază al arborilor şi înălţimea arborilor
( r = 0,7965*** ), valorile minime corespunzătoare pragurilor de semni-
ficaţie 5%, 1% şi 0,1% şi f = N − 2 = 144 − 2 = 142 grade de libertate
sunt (prin interpolare în tabelul din anexa V): 0,164; 0,214 şi, respectiv,
0,271. Coeficientul obţinut este foarte semnificativ şi s-a marcat
corespunzător.
8.2.4 Coeficientul de corelaţie a rangurilor
Determinarea coeficientului de corelaţie a rangurilor (rs)
presupune ca, în locul comparării valorilor caracteristicilor măsurabile
(diametru de bază, înălţime, lăţime a inelelor anuale etc.), să se ordoneze
diferitele variabile calitative (şi nu numai) utilizând numere de la 1 la N.
Aceste numere (ranguri) indică poziţiile unităţilor în şirul statistic al
fiecărei caracteristici.
Se obţin astfel două clasamente distincte pentru care se calculează
coeficientul de corelaţie a rangurilor cu relaţia:
N
6 ⋅ ∑ d i2
rs = 1 − i =1
, (8.14)
(
N ⋅ N 2 −1 )
în care:
N reprezintă numărul de perechi de valori care se compară,
d i2 - pătratul diferenţei de rang pentru fiecare pereche i.
Demonstraţie
În forma generală, coeficientul de corelaţie pentru valori
negrupate în clase are expresia:
r=
s xy
=
∑ (x − x ) ⋅ ( y − y ) , (8.15)
sx ⋅ s y ∑ ( x − x ) ⋅ ∑ ( y − y )
semnificaţia notaţiilor fiind cea menţionată anterior.
Dar rangurile, aşa cum s-a menţionat, reprezintă numere de la 1 la
N, atât pentru caracteristica x, cât şi pentru caracteristica y, deci:
97
N ⋅ ( N + 1)
N
∑i 2 N +1
x = y = i =1 = = . (8.16)
N N 2
N ⋅ (N + 1)
2 2
⎛ N + 1⎞
N
∑ (x − x ) = ∑ ( y − y ) = ∑ ⎟ = ∑i −
2 2
⎜i − =
2
i =1 ⎝ 2 ⎠ 4
N ⋅ ( N + 1) ⋅ (2 N + 1) N ⋅ ( N + 1) N ⋅ ( N + 1) ⋅ ( N − 1)
2
= − = . (8.17)
6 4 12
Se face apoi transformarea:
2 ⋅ (x − x )( y − y ) = (x − x ) + ( y − y ) − [(x − x ) − ( y − y )] = ( x − x ) + ( y − y ) − d 2
2 2 2 2 2
∑(x − x)( y − y) = 2 12
= − ∑d 2
2
Înlocuind în relaţia coeficientului de corelaţie:
N ⋅ ( N + 1) ⋅ ( N − 1) 1
− ∑d 2 6⋅∑d 2
r= 12 2 = 1− = rs , (8.18)
N ⋅ ( N + 1) ⋅ ( N − 1)
12
N ⋅ N −1
2
( )
tocmai ceea ce trebuia demonstrat.
Avantajele folosirii coeficientului de corelaţie a rangurilor sunt:
elimină valorile absolute; nu se lucrează cu valorile reale pentru care
calculul este complicat;
expeditivitate a calculelor;
calculul lui rs implică întocmirea unui tabel în care se observă imediat
cuplurile discordante şi sensul decalajului (pozitiv sau negativ).
Dezavantajele utilizării lui rs sunt:
este mai puţin precis decât coeficientul de corelaţie obişnuit pentru că
înlocuieşte prin diferenţe egale variaţii efective diferite;
existenţa unor ranguri egale nu influenţează media aritmetică, dar
afectează simţitor varianţele; eroarea poate fi neglijată dacă asemenea
erori nu sunt prea numeroase, dar există şi artificii de notare a
rangurilor care diminuează aceste erori.
Exemplu de aplicare
Considerăm un eşantion format din 8 arborete, cu aceeaşi
proporţie majoritară de participare a bradului, pentru care se determină
două caracteristici: consistenţa şi procentul de uscare a arborilor de brad.
Interesează dacă există o legătură corelativă între cele două caracteristici.
98
Coeficientul de corelaţie a rangurilor se determină cu datele din
tabelul următor.
Tabelul 11. Calcule pentru determinarea coeficientului de
corelaţie a rangurilor
Consistenţa % Rangul
arbori
arboretelor d d2
x uscaţi după x după y
y
0,3 6 8 3 5 25
0,4 5 7 4 3 9
0,5 8 6 1 5 25
0,6 7 5 2 3 9
0,7 4 4 5 -1 1
0,8 3 3 6 -3 9
0,9 1 2 8 -6 36
1,0 2 1 7 -6 36
TOTAL 150
900
rs = 1 − = 1 − 1,786 = −0,786 * (8.19)
8 ⋅ (64 − 1)
Dacă se calculează coeficientul de corelaţie obişnuit, r, cu valorile
determinate în tabelul 12,
Tabelul 12. Calculul coeficientului de corelaţie r
pentru exemplul anterior
Consistenţa % arbori
arboretelor uscaţi xy x2 y2
x y
0,3 6 1,8 0,09 36
0,4 5 2,0 0,16 25
0,5 8 4,0 0,25 64
0,6 7 4,2 0,36 49
0,7 4 2,8 0,49 16
0,8 3 2,4 0,64 9
0,9 2 0,9 0,81 1
1,0 1 2,0 1,00 4
TOTAL 5,2 36 20,1 3,80 204
N ∑ xy − ∑ x ⋅ ∑ y
r= =
[N ∑ x 2 2
][
− (∑ x ) ⋅ N ∑ y − (∑ y )
2 2
]
99
8 ⋅ 20,1 − 5,2 ⋅ 36
= = −0,785 *, (8.20)
(8 ⋅ 3,8 − 27,04) ⋅ (8 ⋅ 204 − 1296)
se observă că valoarea acestuia este foarte apropiată de coeficientul de
corelaţie a rangurilor.
Testarea semnificaţiei coeficientului de corelaţie:
r 0,785
t exp = ⋅ N −2 = ⋅ 6 ≈3 (8.21)
1− r 2 0,620
În tabelul din anexa III, tteoretic(0,05; 6) = 2,447 şi tteoretic(0,01; 6) =
3,707. Aşadar, coeficientul de corelaţie este semnificativ, chiar şi pentru
acest volum redus al eşantionului.
Între cele două caracteristici există o corelaţie puternică (valoare
apropiată de – 1,000) şi inversă (valoarea negativă a coeficientului de
corelaţie semnifică faptul că pe măsură ce cresc valorile uneia dintre
caracteristici, scad valorile celeilalte caracteristici).
100
9. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)
Analiza în componente principale (ACP) este o metodă statistică
prin care se identifică parametrii specifici unui set multidimensional de
valori experimentale exprimându-le într-o formă care pune în evidenţă
similitudinile şi diferenţierile dintre variabilele luate în studiu.
Aplicaţia tradiţională a ACP este cea de reducere a dimensiunilor
setului de valori experimentale (tabelelor de contingenţă). Acest tip de
analiză statistică poate fi folosită pentru a determina câte dimensiuni
prezintă importanţă reală în interpretarea fenomenelor. Numărul de
dimensiuni este dedus intuitiv, diferit de semnificaţia strict matematică a
acestora, prin analiza nivelului variaţiei valorilor experimentale explicat
de diferite componente principale. Dacă există un număr redus de
componente care determină cea mai mare parte a variabilităţii valorilor
experimentale, atunci celelalte componente pot fi considerate ca fiind
variabile de „zgomot” (perturbaţie) pentru fenomenul studiat.
9.1 Consideraţii istorice
Analiza în componente principale este o metodă de analiză
statistică aplicată încă de la începutul secolului al XX-lea în scopul
determinării parametrilor ecuaţiilor de regresie multiple, al reducerii
dimensiunilor datelor şi pentru reducerea „zgomotului” informaţional.
K. Pearson (1901) introduce ACP în aplicaţiile biologice în
vederea reiterării analizei regresiei liniare într-o formă nouă.
H. Hotelling (1933) dezvoltă ACP pentru aplicaţii în psihometrie.
Karhunen şi Loeve generalizează, la mijlocul secolului trecut,
ACP în spaţiul infinit-dimensional şi în teoria probabilităţilor.
9.2 Principii de bază
Analiza multifactorială este deosebit de importantă în
interpretarea statistică a valorilor experimentale rezultate prin
înregistrarea observaţiilor pentru un număr mare de caracteristici sau
variabile. Fiecare dintre cele m variabile luate în considerare poate fi
considerată ca fiind o dimensiune diferită în hiperspaţiul m-dimensional.
Vizualizarea acestui hiperspaţiu este dificilă şi din acest motiv
obiectivul ACP este de a reduce multidimensionalitatea prin exprimarea
tuturor valorilor experimentale prin compunerea lor în raport cu anumite
variabile compozite. În plus, sintetizarea a două sau trei componente
principale poate fi redată grafic cu pierderi minime de informaţie
referitoare la fenomenul studiat.
O modalitate de a reduce în cadrul analizei statistice
multidimensionalitatea fenomenelor biologice constă în extragerea
componentelor principale, ceea ce constă într-o rotaţie a axelor în spaţiul
101
multidimensional. Această operaţie permite determinarea combinaţiilor
liniare (denumite componente principale) ale variabilelor iniţiale care să
sintetizeze o cantitate cât mai mare de informaţie (Dillon, W.R.,
Goldstein, M., 1984).
În situaţia în care m variabile X1, X2, …, Xm sunt corelate între ele,
informaţia pe care o transmit luate în ansamblu posedă un anumit grad de
redundanţă.
Prin ACP se pot constitui, din lista celor m variabile iniţiale, p noi
variabile neredundante, p < m .
102
Figura 25. Efectul transformării valorilor experimentale
Determinarea componentelor principale presupune în continuare o
rotaţie de axe, transformare care facilitează interpretarea rezultatelor.
103
n
∑ (x i − x )( xi − x )
var( x) = i =1
, (9.1)
(n − 1)
covarianţa fiind:
n
∑ (x i − x )( y i − y )
cov( x, y ) = i =1
. (9.2)
(n − 1)
Covarianţa este, deci, determinată întotdeauna pentru două
dimensiuni (variabile).
Dacă se analizează un set de date experimentale cu mai mult de
două dimensiuni (variabile), este necesar să se calculeze mai multe
covarianţe. De exemplu, pentru un set de date tridimensional (pentru
variabilele x, y şi z) se calculează cov(x, y), cov(x, z) şi cov(y, z).
Generalizând, pentru un set de date m-dimensional se pot
m!
determina covarianţe diferite care aranjate matricial formează
2 ⋅ (m − 2)!
matricea covarianţelor:
Σ m×m = (ci , j , ci , j = cov( Dimi , Dim j ) ), (9.3)
în care Σ m×m este o matrice cu m linii şi m coloane (pătrată), iar Dimk
este dimensiunea (variabila) k.
Pentru exemplul cu trei variabile, matricea covarianţelor are 3
linii şi trei coloane:
⎛ cov( x, x) cov( x, y ) cov( x, z ) ⎞
⎜ ⎟
Σ = ⎜ cov( y, x) cov( y, y ) cov( y, z ) ⎟ . (9.4)
⎜ cov( z, x) cov( z, y ) cov( z , z ) ⎟
⎝ ⎠
Se observă că pe diagonala principală covarianţele sunt de fapt
varianţele caracteristicilor respective. De asemenea, datorită egalităţii
cov(a, b) = cov(b, a) , matricea este simetrică faţă de diagonala
principală. Matricea de corelaţie R cuprinde coeficienţii de corelaţie rij
pentru toate perechile formate din cele m variabile analizate.
104
Sunt necesare câteva explicaţii legate de operatorii algebrei
matriciale şi de regulile specifice de utilizare.
Considerăm două variabile X1 şi X2, pentru care rezultă
următoarea matrice de corelaţie R:
⎛ 1,000 0,723⎞
R = ⎜⎜ ⎟⎟ . (9.5)
⎝ 0.723 1,000 ⎠
Această matrice are următoarele proprietăţi:
9 dacă R este inversabilă înseamnă că există o altă matrice pătratică R-1
care, prin înmulţire cu R generează matricea unitate I: R ∗ R −1 = I ;
⎛ 1 0⎞
9 matricea unitate de ordinul 2 este ⎜⎜ ⎟⎟ şi îndeplineşte, în algebra
⎝ 0 1⎠
matricială, multe din funcţiile valorii 1 din algebra clasică;
9 o matrice are matrice inversă numai şi numai dacă valoarea
determinantului ei este diferită de 0; în cazul general al unei matrici
⎛a b⎞
de ordinul 2 de forma ⎜⎜ ⎟⎟ , determinantul acesteia este
⎝c d⎠
a b
det( R) = ; condiţia de existenţă a matricii inverse este:
c d
a ⋅ d − b ⋅ c ≠ 0 ; pentru exemplul considerat matricea R admite
inversă pentru că det( R) = 1 ⋅ 1 − 0,723 ⋅ 0,723 = 0,477271 > 0 ;
9 fiecare matrice pătrată are o unică ecuaţie polinomială caracteristică
de acelaşi ordin cu cel al matricii (o matrice 2x2 are o ecuaţie
caracteristică pătratică, o matrice 3x3, una cubică ş.a.m.d.); Această
ecuaţie se obţine din următoarea proprietate a matricilor pătrate
inversabile:
det( R − λ ⋅ I ) = 0 , (9.5)
în care R este matricea iniţială m × m , I este inversa acesteia, iar λ
este un scalar (o matrice m × m cu o valoare constantă, λ, în fiecare
celulă);
9 o altă modalitate de exprimare a proprietăţii anterioare este cea de
egalare cu 0 a determinantului matricii R în care s-a scăzut λ din
elementele aflate pe diagonala principală, ceea ce în cazul general al
matricii de ordinul 2 înseamnă:
a−λ b
det = 0. (9.6)
c d −λ
105
Revenind la matricea de corelaţie R:
1 − λ 0,723
= 0 ⇔ (1 − λ ) − 0,723 2 = 0 ⇔ λ2 − 2λ + 0,477271 = 0 ⇒
2
det
0,723 1 − λ
⇒ λ1 = 1,723 ; λ 2 = 0,277 .
Valorile obţinute se numesc eigenvalori sau valorii proprii ale
matricii de corelaţie. Eigenvalorile sunt strâns legate de eigenvectori.
Ambii termeni sunt explicaţi în continuare.
Două matrici pot fi înmulţite dacă mărimea lor este compatibilă.
Eigenvectorii (vectorii proprii) sunt un caz particular al acestei operaţii.
Considerăm două exemple de multiplicare a unei matrici cu un
vector:
⎛ 3 4 ⎞ ⎛ 1 ⎞ ⎛15 ⎞ ⎛ 5⎞
⎜⎜ ⎟⎟ × ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = 3 × ⎜⎜ ⎟⎟ şi
⎝ 3 2 ⎠ ⎝ 3⎠ ⎝ 9 ⎠ ⎝ 3⎠
⎛ 3 4 ⎞ ⎛ 4 ⎞ ⎛ 24 ⎞ ⎛ 4⎞
⎜⎜ ⎟⎟ × ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = 6 × ⎜⎜ ⎟⎟ .
⎝ 3 2 ⎠ ⎝ 3 ⎠ ⎝ 18 ⎠ ⎝ 3⎠
În al doilea exemplu, vectorul rezultant este un multiplu al
vectorului iniţial, pe când în primul exemplu nu se întâmplă acelaşi lucru.
⎛ 4⎞
Vectorul ⎜⎜ ⎟⎟ se numeşte vector propriu (eigenvector) al matricii pătrate
⎝ 3⎠
considerate. În reprezentare grafică, acesta este redat printr-o săgeată
trasată din origine (0, 0) până în punctul cu coordonatele (4, 3).
Matricea pătrată trebuie înţeleasă ca o matrice de transformare a
vectorului cu care se înmulţeşte într-un alt vector care îşi modifică poziţia
iniţială. Dacă este vorba despre un eigenvector, după înmulţire el va avea
aceeaşi direcţie, deci este o reflectare a lui însuşi; aceşti vectori se
autotransformă şi de aceea sunt denumiţi astfel (germ. eigen = propriu,
auto).
În al doilea exemplu prezentat anterior, vectorul iniţial se află pe
3
dreapta y = x , iar cel rezultat (sau oricare alt multiplu al acestuia,
4
pentru că nu are importanţă cât de lung este vectorul) se află pe aceeaşi
dreaptă, deci este un vector propriu al matricii de transformare.
Vectorii proprii au anumite proprietăţi care sunt folosite în
prelucrarea statistică a datelor prin analiza în componente principale.
În primul rând, vectorii proprii pot fi determinaţi numai pentru
matrici pătrate (dar, atenţie, nu orice matrice pătrată are eigenvectori).
Dacă o anumită matrice m × m are vectori proprii, atunci numărul total al
acestora este m (de exemplu, o matrice 4 × 4 are 4 eigenvectori).
106
În al doilea rând, toţi vectorii proprii ai unei matrici sunt
perpendiculari între ei în spaţiul m-dimensional. Este important acest
lucru pentru că datele experimentale pot fi exprimate nu numai în
sistemul ortogonal de axe x, y, z, …, ci şi în raport cu aceşti eigenvectori
perpendiculari.
Pentru a putea aplica analiza în componente principale este
necesar să se determine vectorii proprii standard. Un eigenvector
standard este cel a cărui mărime este egală cu unitatea. Modul de calcul
prin care se obţine un vector propriu standard pentru exemplul anterior
este prezentat în continuare.
⎛ 4⎞
( )
Mărimea vectorului propriu ⎜⎜ ⎟⎟ este 4 2 + 3 2 = 25 = 5 .
⎝ 3⎠
Împărţind vectorul iniţial la 5 se obţine un eigenvector cu
mărimea 1:
⎛ 4⎞ ⎛ 4 / 5⎞
⎜⎜ ⎟⎟ ÷ 5 = ⎜⎜ ⎟⎟ .
⎝ 3⎠ ⎝ 3 / 5⎠
Pentru matrici mai mari de 3 × 3 determinarea vectorilor proprii
se face prin aplicarea unor metode iterative pentru care există programe
de calcul specifice.
Eigenvalorile (valorile proprii) sunt acele valori care arată de câte
ori s-a majorat eigenvectorul după multiplicarea lui cu matricea pătrată.
⎛ 4⎞
Eigenvaloarea asociată eigenvectorului ⎜⎜ ⎟⎟ din exemplul anterior
⎝ 3⎠
este 6. Indiferent care multiplu al acestui eigenvector este considerat,
după înmulţirea matricii pătrate cu acesta se va obţine întotdeauna un
vector de 6 ori mai mare.
Presupunem că avem o populaţie pentru care sau măsurat m
variabile randomizate X1, X2, …, Xm. Este importantă menţiunea că aceste
variabile reprezintă cele m axe de coordonate ale unui sistem cartezian în
care se reprezintă valorile experimentale. Intenţia este cea de a pune în
evidenţă un nou sistem de m axe ortogonale, combinaţii liniare ale axelor
iniţiale, pe direcţiile celei mai mari variabilităţi. Aceasta se poate
concretiza prin rotaţia axelor iniţiale (figura 26).
Având matricea iniţială:
⎡ X1 ⎤
⎢X ⎥
X = ⎢ 2⎥, (9.7)
⎢ M ⎥
⎢ ⎥
⎣X m ⎦
107
cu matricea covarianţelor Σ şi eigenvalorile λ1 ≥ λ 2 ≥ L ≥ λ m , se pot
construi m combinaţii liniare necorelate:
⎧ Y1 = e11 ⋅ X 1 + e21 ⋅ X 2 + L + em1 ⋅ X m
⎪ Y = e ⋅ X + e ⋅ X + Le ⋅ X
⎪ 2 12 1 22 2 m2 m
⎨ (9.8)
⎪ ........................................................
⎪⎩Ym = e1m ⋅ X 1 + e2 m ⋅ X 2 + L + emm ⋅ X m
astfel încât varianţa noilor variabile Y1, Y2, …, Ym să fie cât mai mare
posibilă. Componentele principale reprezintă, de fapt, combinaţii liniare
ale variabilelor originale.
108
Matricea E este compusă din m vectori coloană, denumiţi
eigenvectori, iar ortogonalitatea acesteia se verifică prin îndeplinirea a
trei criterii:
- transpusa E’ a lui E este egală cu matricea inversă E-1, astfel încât
E ⋅ E' = I ;
- liniile lui E sunt ortogonale între ele şi cu norma egală cu unitatea;
- coloanele lui E sunt, de asemenea, ortogonale între ele şi cu norma
egală cu unitatea.
Dacă se pune condiţia ca diagonala matricii Λ să fie formată din
valori descrescătoare ( λ1 > λ 2 > K > λ m ), descompunerea anterioară,
denumită descompunere spectrală, este unică.
Vectorii coloană eα şi scalarii λα pot fi determinaţi pentru
α = 1, K, m prin ecuaţia vectorilor proprii:
R ⋅ eα = λα ⋅ eα , (9.11)
cu condiţia suplimentară, îndeplinită de matricile ortogonale, ca fiecare
eα să fie de normă unitate. eα sunt denumiţi vectori proprii (eigenvectori).
Componentele eik ale matricii E sunt componente principale.
109
a pătratelor valorilor ce formează vectorul propriu corespunzător unei
variabile principale.
O valoare proprie mai mare de 1 indică faptul că acea componentă
principală pentru care a fost determinată acumulează o parte mai mare
din varianţă decât oricare dintre variabilele standardizate iniţiale şi acesta
reprezintă un criteriu de delimitare a componentelor principale care se
justifică a fi reţinute pentru interpretarea rezultatelor.
Odată calculate eigenvalorile pentru toate componentele trebuie
să se stabilească numărul componentelor principale suficiente pentru
sintetizarea informaţiei din setul de valori experimentale. Pentru
majoritatea aplicaţiilor se dovedeşte suficient un număr maxim de trei
sau patru componente principale care surprind varianţa datelor.
Presupunem că avem o populaţie statistică formată din N=122
arbori, pentru care s-au înregistrat valorile pentru variabilele: diametru de
bază, X1, înălţime, X2, şi densitatea aparentă convenţională a lemnului,
X3. Trebuie să se determine cele trei componente principale Y1, Y2 şi Y3.
Matricea covarianţelor pentru acest set de date (considerând că s-a
observat populaţia întreagă, deci cu numitorul relaţiilor de calcul N=122)
este:
⎡109,77151 32,13724 − 0,00363⎤
Σ = ⎢⎢ 32,13724 12,58750 − 0,00277 ⎥⎥ , (9.12)
⎢⎣ − 0,00363 − 0,00277 0,00015 ⎥⎦
pentru care se obţin perechile de valori proprii – vectori proprii:
⎡ 0,9576231 ⎤
λ1 = 119,43742 , e1 = ⎢⎢ 0,2880242 ⎥⎥ ; (9.13)
⎢⎣− 0,0000358⎥⎦
⎡− 0,2880242 ⎤
λ2 = 2,92159 , e2 = ⎢⎢ 0,9576230 ⎥⎥ ; (9.14)
⎢⎣ − 0,0005490 ⎥⎦
⎡− 0,0001239 ⎤
λ3 = 0,00014 , e3 = ⎢⎢ 0,0005360 ⎥⎥ . (9.15)
⎢⎣ 0,9999998 ⎥⎦
Deci componentele principale sunt:
Y1 = 0,9576231 ⋅ X 1 + 0,2880242 ⋅ X 2 − 0,0000358 ⋅ X 3 (9.16)
Y2 = −0,2880242 ⋅ X 1 + 0,9576230 ⋅ X 2 − 0,0005490 ⋅ X 3 (9.17)
Y3 = −0,0001239 ⋅ X 1 + 0,0005360 ⋅ X 2 + 0,9999998 ⋅ X 3 . (9.18)
110
Se poate observa că:
σ 11 + σ 22 + σ 33 = σ 12 + σ 22 + σ 32 = 109,77151 + 12,58750 + 0,00015 = 122,35916
= 119,43742 + 2,92159 + 0,00014 = λ1 + λ 2 + λ3 (9.19)
În cazul general, proporţia din varianţa totală a populaţiei
explicată de componenta principală de ordinul k este:
λk
m
. (9.20)
∑λ
i =1
i
λ2 2,92159
3
= = 0,023877 = 2,3877% (9.22)
122,35916
∑λ
i =1
i
λ3 0,00014
3
= = 0,000001 = 0,0001% . (9.23)
122,35916
∑λ
i =1
i
111
după standardizarea celor trei variabile X1, X2, X3, nu trebuie să se
pornească de la matricea Σ, ci de la matricea R:
⎡ 1,0000 0,8597 − 0,1125⎤
⎢
R = ⎢ 0,8597 1,0000 − 0,1249⎥⎥ . (9.26)
⎢⎣− 0,1125 − 0,1249 1,0000 ⎥⎦
Se obţin perechile valori proprii – vectori proprii:
⎡ 0,6942382 ⎤
λ1 = 1,8912753 , e1 = ⎢⎢ 0,6955431 ⎥⎥ ; (9.27)
⎢⎣− 0,1850757 ⎥⎦
⎡ 0,1381923 ⎤
λ2 = 0,9684802 , e2 = ⎢⎢ 0,1235436 ⎥⎥ ; (9.28)
⎢⎣0,9826698⎥⎦
⎡− 0,7063541⎤
λ3 = 0,1402445 , e3 = ⎢⎢ 0,7077830 ⎥⎥ , (9.29)
⎢⎣ 0,0103500 ⎥⎦
diferite de cele obţinute în primul caz.
Componentele principale sunt:
Y1 = 0,6942382 ⋅ Z 1 + 0,6955431 ⋅ Z 2 − 0,1850757 ⋅ Z 3 (9.30)
Y2 = 0,1381923 ⋅ Z 1 + 0,1235436 ⋅ Z 2 + 0,9826698 ⋅ Z 3 (9.31)
Y3 = −0,7063541 ⋅ Z 1 + 0,7077830 ⋅ Z 2 + 0,0103500 ⋅ Z 3 . (9.32)
În acest caz este îndeplinită relaţia:
σ 11 + σ 22 + σ 33 = σ 12 + σ 22 + σ 32 = 1,00 + 1,00 + 1,00 = 3,00 =
= 1,8912753 + 0,9684802 + 0,1402445 = λ1 + λ 2 + λ3 . (9.33)
Proporţia din varianţa totală explicată de fiecare componentă
principală este:
λ1 1,8912753
3
= = 0,6304 = 63,04% (9.34)
3,00
∑λ
i =1
i
λ2 0,9684802
3
= = 0,3228 = 32,28% (9.35)
3,00
∑λ
i =1
i
λ3 0,1402445
3
= = 0,0468 = 4,68% . (9.36)
3,00
∑λ
i =1
i
112
În această situaţie (atunci când ACP porneşte de la matricea de
corelaţie R), se constată că, pentru a calcula ponderea unei componente
principale (CP%) în variaţia totală, înseamnă, de fapt, să se efectueze
raportul procentual între valoarea proprie a acelei componente şi numărul
de variabile iniţiale (m):
eigenvaloare
CP% = ⋅ 100 (%). (9.37)
m
Se observă, din nou, influenţa nesemnificativă a celei de-a treia
componente principale.
Pentru a putea interpreta factorii obţinuţi, se determină
coeficienţii de corelaţie ( ρ Yi Z k = S ik ) dintre aceştia şi variabilele iniţiale,
coeficienţi ce se numesc saturaţii:
e λ 0,6942382 1,8912753
ρ Y1Z1 = 11 1 = = 0,9547 (9.38)
σ 11 1,000
e21 λ1 0,6955431 1,8912753
ρY Z = = = 0,9565 (9.39)
1 2
σ 22 1,000
e31 λ1 − 0,1850757 1,8912753
ρY Z = = = −0,2545 (9.40)
1 3
σ 33 1,000
e12 λ 2 0,1381923 0,9684802
ρY Z = = = 0,1360 (9.41)
2 1
σ 11 1,000
e22 λ 2 0,1235436 0,9684802
ρY Z = = = 0,1216 (9.42)
2 2
σ 22 1,000
e32 λ 2 0,9826698 0,9684802
ρY Z = = = 0,9671 (9.43)
2 3
σ 33 1,000
e13 λ3 − 0,7063541 0,1402445
ρY Z = = = −0,2645 (9.44)
3 1
σ 11 1,000
e23 λ3 0,7077830 0,1402445
ρY Z = = = 0,2651 (9.45)
3 2
σ 22 1,000
e33 λ3
0,0103500 0,1402445
ρY Z = = = 0,0039 . (9.46)
3 3
σ 33 1,000
Coeficienţii de corelaţie dintre variabilele iniţiale standardizate şi
componentele principale sunt sintetizaţi în matricea de corelaţie S,
denumită matricea de saturaţie (matricea de structură) în care fiecare
113
coloană este asociată unei variabile iniţiale şi fiecare linie unui factor
(unei componente principale), ca în tabelul 13.
Tabelul 13. Matricea de saturaţie
Z1 Z2 Z3
Y1 0,9547 0,9565 -0,2545
Y2 0,1360 0,1216 0,9671
Y3 -0,2645 0,2651 0,0039
Interpretarea valorilor din acest tabel este următoarea:
- prima componentă principală Y1 este o rezultantă a influenţei tuturor
primelor două variabile iniţiale, în pondere aproximativ egală,
- cea de-a doua componentă principală Y2 este o rezultantă a influenţei
variabilei Z3,
- a treia componentă principală Y3 este o rezultantă a influenţei
variabilelor Z1 şi Z2, dar cu pondere mai mică.
Există relaţiile matriciale:
1 1
−
S = R⋅E⋅Λ = E ⋅ Λ şi S ⋅ S ' = R ,
2 2
(9.47)
1
− 1
unde Λ 2
este matricea diagonală cu elemente .
λi
Matricea de saturaţie S are următoarele proprietăţi:
- suma pătratelor tuturor saturaţiilor pentru o variabilă Xk (sau Zk) este
m
egală cu 1 (ecuaţia ∑S
i =1
2
ik = 1 se poate interpreta ca o hipersferă cu
114
0,1360 2 + 0,1216 2 + 0,96712 ≅ 0,9684802 (9.52)
(− 0,2645) 2
+ 0,2651 + 0,0039 ≅ 0,1402445 ;
2 2
(9.53)
m
- suma tuturor pătratelor saturaţiilor este egală cu ∑λ
i =1
i şi egală cu m
(numărul de variabile).
115
Această modalitate de interpretare poate continua şi pentru
următoarele componente principale reprezentative pentru cazul studiat.
Noul set de variabile ortogonale (factori, variabile latente,
componente principale) este introdus pentru eliminarea corelaţiei dintre
variabilele fenomenelor multifactoriale şi pentru a reduce dimensiunile
sistemului rezultant.
116
9 păstrarea acelor valori proprii λi , K λ k care sunt mai mari decât media
λi + L + λ p
(criteriul Kaiser);
p
9 reprezentarea grafică descrescătoare a valorilor proprii λ ; deseori se
poate observa pe acest grafic un „cot” care marchează o modificare a
regimului descreşterii valorilor proprii; se păstrează factorii care au
valori proprii mai mari decât cea corespunzătoare acestui punct de pe
grafic (criteriul Cattell).
Reprezentarea grafică a eigenvalorilor corespunzătoare compo-
nentelor principale ilustrează rata modificărilor de amplitudine a
acestor valori proprii. Punctul în care curba reprezentată îşi modifică
evident panta indică numărul maxim de componente principale ce
trebuie luate în considerare.
9.5 Interpretarea geometrică a ACP
ACP construieşte noi variabile, artificiale, iar reprezentarea
grafică permite vizualizarea relaţiilor dintre variabile şi, eventual,
existenţa unor grupe de indivizi sau grupe de variabile iniţiale.
Corelaţiile sunt sintetizate în spaţiul multidimensional cu două
sau mai multe axe. Fiecare axă constituie o componentă principală şi
interesează poziţia variabilelor în raport cu aceste axe.
117
De asemenea, descompunerea spectrală a matricii Σ −1 este:
1 1
Σ −1 = e1e1T + L + e p e Tp . (9.55)
λ1 λp
Folosind această modalitate de descompunere se obţine:
c 2 = X T Σ −1 X = (e1T X ) + (e2T X ) + L + (e p X ) , (9.56)
1 2 1 2 1 T 2
λ1 λ2 λp
T T T
unde e X , e X , K , e X sunt componentele principale ale lui X.
1 2 p
118
Calitatea reprezentării depinde de proporţia varianţei explicate de
fiecare axă în parte. Variabilele situate în apropierea originii noului
sistem de coordonate se diferenţiază foarte puţin; cele de la periferie au o
influenţă mai mare. Vectorii mai apropiaţi denotă o legătură statistică mai
puternică între variabile.
Dacă variabilele analizate se află fiecare în apropierea a câte unei
axe diferite, nu este corelaţie între ele.
Pot fi comparate numai variabilele care se situează în apropierea
circumferinţei cercului sau suprafeţei sferei unitate (nu se poate interpreta
gradul de corelaţie a variabilelor aglomerate în zona centrală).
Rotaţia axelor permite obţinerea unor saturaţii apropiate de 1, -1
sau 0, ceea ce facilitează interpretarea factorilor obţinuţi.
Pentru cazul analizat anterior (simplist, de altfel, pentru că s-au
luat în considerare numai trei variabile), interpretarea grafică a ACP
(figura 28) duce la concluzia că se diferenţiază clar perechea de variabile
diametru-înălţime a arborilor, care se află în apropierea primei
componente principale, de variabila densitate a lemnului, aflată pe
direcţia celei de-a doua componente principale.
119
Pentru setul de date analizat, între aceste două grupe de variabile
nu există legătură corelativă. Diametrul şi înălţimea explică partea cea
mai mare din variaţia valorilor experimentale.
Se mai observă, de asemenea, că în reprezentare grafică punctele
corespunzătoare diametrului şi înălţimii se găsesc foarte aproape. Aceasta
atenţionează asupra faptului că între cele două variabile corelaţia este
foarte puternică.
Cele N × m valori experimentale (m fiind numărul de variabile
iniţiale, iar N, volumul probei constituite sau al populaţiei în întregime)
pot fi reprezentate, în mod asemănător, printr-un nor de puncte în spaţiu,
fie prin intermediul scorurilor brute (atunci când ACP porneşte de la
matricea Σ ), fie prin intermediul scorurilor standardizate (când ACP
porneşte de la matricea R).
Se încearcă determinarea, pentru fiecare factor, a dreptei D pentru
care suma pătratelor distanţelor de la punctele individuale la dreaptă este
minimă (figura 29). Se cunoaşte că această dreaptă trebuie să treacă prin
centrul de greutate al norului statistic x = ( x1 , x 2 , K x p ) care, în cazul
valorilor standardizate, corespunde originii sistemului de coordonate.
Direcţia dreptei D este cea a primei componente principale, Y1,
pentru care varianţa proiecţiilor ortogonale ale punctelor pe dreaptă este
λ1 , prima valoare proprie a lui Σ (sau a lui R).
120
Figura 30. Planul primelor două componente principale
121
Componentele principale sunt înţelese ca „supervariabile”,
idealizare şi abstractizare matematică ce le diferenţiază de variabilele
reale iniţiale şi aceasta duce la o interpretare dificilă a rezultatelor ACP.
În multe aplicaţii, numai prima componentă principală dă
informaţii despre modul de grupare a variabilelor, celelalte fiind
componente diferenţă care sunt de asemenea greu de explicat.
9.7 Concluzii sintetice asupra ACP
Pentru aplicarea ACP se calculează matricea covarianţelor (sau
cea de corelaţie) şi se determină apoi eigenvectorii şi eigenvalorile
acestei matrici. Este important să se reţină faptul că interesează să se
obţină eigenvectori standard (cu mărimea egală cu unitatea).
Următoarea etapă este cea de ordonare a vectorilor proprii în
sensul descrescător al eigenvalorilor ceea ce este echivalent cu aranjarea
componentelor în ordinea semnificaţiei lor.
Determinarea componentelor principale constă în compresia şi
reducerea dimensiunilor setului de date experimentale. Eigenvectorul cu
valoarea proprie cea mai mare este prima componentă principală care
redă cea mai puternică legătură statistică între variabilele iniţiale.
Următoarea componentă principală semnificativă este eigenvectorul cu
valoarea proprie imediat mai mică. Se continuă în acest mod până la
aflarea tuturor componentelor principale, ignorând ultimele componente
(cele cu semnificaţie redusă).
Astfel se vor reduce dimensiunile iniţiale ale setului de date: dacă
la început acesta a avut m dimensiuni, prin sortarea şi alegerea primilor p
eigenvectori, setul final de date va avea numai p dimensiuni.
Cu vectorii proprii selectaţi pentru componentele principale se
formează o matrice a vectorilor E (engl. Feature Vector). Aceşti
eigenvectori vor constitui, în ordinea semnificaţiei lor, coloanele matricii:
E = (e1e2 e3 K e p ) . (9.59)
Într-o ultimă etapă se poate obţine un set final de valori (engl.
Final Data) prin înmulţirea transpusei matricii vectorilor cu transpusa
matricii setului de date iniţiale ajustate:
FinalData = FeatureVector T × DataAdjust T (9.60)
T
FeatureVector este o matrice în care eigenvectorii sunt trecuţi pe
linii primul fiind cel mai semnificativ, iar DataAdjustT, tot o matrice în
care pe linii sunt trecute variabilele, iar pe coloane, valorile standardizate
corespunzătoare.
Matricea rezultat FinalData este matricea datelor iniţiale
exprimate numai prin cei p eigenvectori ai componentelor principale.
122
10. ANALIZA REGRESIEI
Aşa cum s-a prezentat anterior, coeficientul de corelaţie indică
intensitatea legăturii dintre două sau mai multe caracteristici şi este
utilizat în special pentru caracterizarea unei dependenţe liniare între
acestea.
Pentru a determina forma legăturii corelative trebuie aplicată
metoda de cercetare statistică denumită analiza regresiei.
123
10.1 Succesiunea etapelor pentru analiza regresiei
Etapele de lucru în aplicarea analizei regresiei sunt:
stabilirea tipului de regresie,
determinarea parametrilor ecuaţiei de regresie,
evaluarea preciziei dreptei sau curbei de regresie (evaluarea preciziei
de estimare).
După forma lor, legăturile corelative pot fi liniare sau curbilinii.
124
10.2 Metode analitice de determinare a parametrilor ecuaţiilor de
regresie
Se consideră, pentru început, dreapta de regresie, exprimată prin
ecuaţia de regresie liniară simplă:
yˆ = a + b ⋅ x . (10.2)
În această ecuaţie, constanta b este definită de relaţia:
sy
b = b yx = r ⋅ (10.3)
sx
şi se numeşte coeficient de regresie al variabilei y în raport cu variabila x.
Similar, se poate scrie expresia coeficientului de regresie al
variabilei x în raport cu y:
s
bxy = r ⋅ x . (10.4)
sy
În sens geometric (figura 32), coeficientul de regresie reprezintă
panta dreptei de regresie:
b = tgθ . (10.5)
Constanta a (termenul liber) este distanţa de la originea sistemului
de coordonate la punctul de intersecţie al ordonatei cu dreapta de
regresie.
125
∑x⋅∑ y
sy s xy sy s xy ∑ xy − N
b = b yx = r ⋅ = ⋅ = = (10.6)
sx sx ⋅ s y sx s x2 (∑ x )2
N
∑x 2
−
a se determină din condiţia ce se impune punctului M ( x , y ) de a
fi situat pe dreapta de regresie (acesta verifică ecuaţia dreptei):
y = a +b⋅ x ⇒ a = y −b⋅ x (10.7)
Dreapta definită de această ecuaţie are o asemenea poziţie încât
suma pătratelor abaterilor individuale faţă de dreaptă este minimă.
O altă posibilitate este cea de estimare a parametrilor a şi b prin
metoda celor mai mici pătrate, al cărui principiu de bază cere ca ecuaţia
de ajustare să fie astfel aleasă încât suma pătratelor abaterilor valorilor
observate (y) de la valorile calculate pe baza modelului ( ŷ ) să fie
minimă (figura 33). Altfel spus, suma erorilor de estimare trebuie să fie
cât mai redusă:
N
S = ∑ ( y − yˆ ) = minim,
2
(10.8)
i =1
unde i = 1, …, N reprezintă numărul perechilor de valori (xi, yi).
126
Minimul poate fi determinat prin anularea derivatelor parţiale ale
lui S în raport cu a şi în raport cu b:
∂S ∂S
= =0 (10.10)
∂a ∂b
Se obţine sistemul de ecuaţii:
⎧ N
⎪ ∑ ( y i − a − b ⋅ xi ) = 0 ⎧
⇒ ⎨∑
⎪ i =1 ⎪ y = N ⋅a +b⋅∑x
⎨N (10.11)
⎪ x ⋅ ( y − a − b ⋅ x ) = 0 ⎪ ∑ xy = a ⋅ ∑ x + b ⋅ ∑ x 2
⎪⎩∑
i =1
i i i ⎩
127
Figura 34. Poziţia celor două drepte de regresie ce redau
forma legăturii între caracteristicile x şi y
10.3 Intervalul de încredere pentru ecuaţia de regresie
yˆ = a + b ⋅ x reprezintă numai o estimaţie pentru adevărata
dreaptă de regresie, pentru că se obţine pe baza unei mulţimi finite de
perechi de valori (x, y) observate.
Aşadar, valorile calculate ŷ sunt afectate de erori ( s yˆ ), dreapta
de regresie fiind caracterizată printr-un interval de încredere:
yˆ ± t ⋅ s yˆ , (10.14)
în care t este valoarea testului Student pentru pragurile de semnificaţie
stabilite (q) şi numărul gradelor de libertate f = N-2.
Eroarea de estimare se determină cu relaţia:
1 (x − x )
s yˆ = s y / x ⋅ + , (10.15)
N Qx
în care s x / y reprezintă abaterea standard a valorilor individuale ale
lui y faţă de dreaptă şi se determină cu relaţia:
N
∑ (y − yˆ i )
2
i
sx / y = i =1
, (10.16)
N −2
iar Qx (suma pătratelor abaterilor pentru variabila x) se
calculează:
128
2
⎛ k ⎞
k k
⎜ ∑ ni x i ⎟
Q x = ∑ ni ⋅ ( xi − x ) = ∑ ni xi2 − ⎝ i =1
2 ⎠ (10.17)
i =1 i =1 N
Deci, adevăratele valori medii ŷ vor fi cuprinse în intervalul
(figura 35):
[ ]
yˆ − t ⋅ s yˆ , yˆ + t ⋅ s yˆ (10.18)
129
Coeficienţii de regresie (a1, a2, a3, …, an) reflectă influenţa
caracteristicilor factoriale asupra caracteristicii rezultative şi se determină
prin metoda celor mai mici pătrate.
Parametrii ecuaţiei de regresie multiple liniare se determină prin
rezolvarea sistemului de n+1 ecuaţii cu n+1 necunoscute care rezultă din
metoda celor mai mici pătrate:
⎧ ∑ y = a 0 N + a1 ∑ x1 + a 2 ∑ x 2 + L + a n ∑ x n
⎪
⎪⎪ ∑ x1 y = a 0 ∑ x1 + a1 ∑ x1 + a 2 ∑ x1 x 2 + L + a n ∑ x1 x n
2
⎨ ∑ x 2 y = a 0 ∑ x 2 + a1 ∑ x1 x 2 + a 2 ∑ x 2 + L + a n ∑ x 2 x n (10.20)
2
⎪LLLLLLLLLLLLLLLLLLLLLLLL
⎪
⎪⎩ ∑ x n y = a 0 ∑ x n + a1 ∑ x1 x n + a 2 ∑ x 2 x n + L + a n ∑ x n
2
130
Există multe tipuri de erori: erori de măsurare, erori de
eşantionare, erori de calcul, erori de specificaţie (datorate unei structuri
improprii a modelului, cum ar fi omiterea unei variabile foarte relevante),
erori de transferabilitate (se comit atunci când un model determinat
pentru o anumită zonă sau regiune geografică este aplicat într-o alta, total
deosebită), erori de agregare (realizate atunci când modelele statistice
sunt estimate la nivel de grup, iar aplicarea lor se face al nivel individual)
etc.
Dacă înlăturarea celorlalte categorii de erori este relativ simplă
prin organizarea corespunzătoare a cercetării şi interpretarea corectă a
rezultatelor obţinute, erorile de calcul şi cele de specificaţie se comit
frecvent din cauza importanţei scăzute ce li se dă şi a aplicării unor
metode de estimare inadecvate.
10.5 Tipuri de ecuaţii de regresie şi limitările acestora
Se poate considera că există două mari categorii de ecuaţii de
regresie:
- ecuaţii isometrice sau ecuaţii intrinsec liniare,
- ecuaţii allometrice (altele decât metrice) sau ecuaţii intrinsec neliniare.
Înainte de epoca microcalculatoarelor, ecuaţiile de regresie
neliniare erau mai puţin utilizate ca atare în lumea ştiinţifică; frecvent,
datele experimentale erau transformate prin substituiri de variabile astfel
încât să se obţină ecuaţii liniare pentru care prelucrarea în vederea
estimării parametrilor este mai simplă şi mai rapidă.
Această modalitate de lucru este depăşită şi nerecomandată pentru
analiza datelor din cauză că în urma liniarizării s-a observat o
distorsionare a erorilor reziduale şi a relaţiilor dintre variabile.
În analiza regresiei se utilizează frecvent funcţiile putere,
exponenţială, polinomială sau cele asimptotice, care pot fi liniarizate prin
transformări de variabile.
Funcţia putere de forma y = a ⋅ x −b este liniarizabilă prin logarit-
mare:
log y = log a − b ⋅ log x ⇔ y ' = a'−b ⋅ x' (10.21)
Funcţia exponenţială (curba de creştere sau de descreştere), cu
tipurile negative sau pozitive, este de forma y = a ⋅ b − x , liniarizabilă prin
transformarea:
log y = log a − (log b ) ⋅ x . (10.22)
Regresia polinomială
y = β 0 + β1 ⋅ x + β 2 ⋅ x 2 + β 3 ⋅ x 3 + K (10.23)
131
reprezintă un tip special pentru că nu este o ecuaţie neliniară în sensul
strict, chiar dacă panta este variabilă. Dezavantajul utilizării constă în
faptul că parametrii ecuaţiei de regresie rareori pot fi interpretaţi în
termeni biologici, astfel încât curba poate fi perfect estimată, dar rămâne
„artificială”.
Curbele asimptotice (logistică, Gompertz etc.) sunt ecuaţii
intrinsec liniare.
Evident, există şi ecuaţii neliniare care nu pot fi „liniarizate”, de
exemplu:
y = (a / b ) ⋅ x1 ⋅ x 2 + c ⋅ x3d (10.24)
Diagnosticarea ecuaţiilor de regresie se poate face prin procedee
diferite:
9 examinarea eficienţei modelului,
9 investigarea diferenţelor dintre punctele experimentale şi curba de
regresie
9 verificarea îndeplinirii ipotezelor analizei regresiei.
Cele mai utilizate diagnoze se bazează pe analiza reziduurilor
cere reprezintă deviaţiile valorilor individuale experimentale de la
valorile estimate prin ecuaţia de regresie.
Pentru forma generală a unei ecuaţii de regresie multiple:
yˆ = f ( x1 , x 2 ,K, x k ) + ε , (10.25)
termenul eroare ε este necunoscut pentru că adevăratul model este
necunoscut.
Odată determinaţi parametrii unei ecuaţii de regresie, pentru
fiecare unitate statistică i erorile de estimare sunt:
εˆi = y i − yˆ i (10.26)
în care:
yi este valoarea observată a caracteristicii y,
ŷ i este valoarea estimată după ecuaţia de regresie.
132
trebuie să se caute un alt model de ecuaţie de regresie, mai adecvat, sau
să se adauge noi variabile explicative.
Tipul de transformare ce se aplică determină modul în care este
afectată scara variabilelor netransformate.
Schimbările de variabile trebuie efectuate în mod iterativ,
urmărind permanent modificările pe care le produc. Compararea tipurilor
de ecuaţii de regresie trebuie să se facă în scara iniţială, netransformată, a
variabilei dependente.
De exemplu, transformările exponenţiale implică o structură
multiplicativă a erorilor în modelul de bază (iniţial) şi nu aditivă, aşa cum
este specifică unei ecuaţii liniare. Astfel, pentru ecuaţia de regresie de
bază:
y = a ⋅ e b⋅ x + ε , (10.27)
transformarea logaritmică înseamnă:
⎡ ⎛ ε ⎞⎤ ⎛ ε ⎞
ln y = ln(a ⋅ e b⋅ x + ε ) = ln ⎢a ⋅ e b⋅ x ⋅ ⎜1 + b⋅ x ⎟ ⎥
= ln a + b ⋅ x + ln⎜1 + b⋅ x ⎟
.
⎣ ⎝ a ⋅ e ⎠⎦ ⎝ a⋅e ⎠
Cu toate că modelul obţinut este într-adevăr liniar, forma
termenului eroare de estimare este total diferită de cea specifică ecuaţiilor
de regresie determinate prin metoda celor mai mici pătrate. De fapt,
termenul eroare este o funcţie de x, a şi b şi este, deci, de tip
multiplicativ.
Regula ce se desprinde din acest exemplu este aceea că termenul
eroare trebuie verificat întotdeauna, după efectuarea unei transformări de
variabilă, din punct de vedere al compatibilităţii cu condiţiile restrictive
ale modelului iniţial, în principal normalitatea erorilor.
Nu numai transformările prin logaritmare sunt folosite pentru
liniarizare, ci şi cele prin ridicare la o anumită putere (care restrâng
domeniul de variaţie a valorilor mici) sau prin extragerea rădăcinilor de
un anumit ordin (care restrâng domeniul de variaţie a valorilor mari).
Acestea se grupează într-o familie de transformări (tabelul 14)
frecvent aplicate în practică, reprezentată de funcţia putere (yp).
Tabelul 14. Familia de transformări yp
p 2 1/2 1/3 -1/2 -1
1 1
yp y2 y 3 y
y y
133
9 media abaterilor reziduale individuale este egală cu 0 (metodele
uzuale de estimare a coeficienţilor de regresie se bazează tocmai pe
această ipoteză),
9 abaterile reziduale se distribuie după legea normală,
9 varianţa abaterilor este constantă pe întreg domeniul de aplicabilitate a
ecuaţiei de regresie (pentru toate valorile experimentale ale
variabilelor independente),
9 variabilele factoriale nu sunt coliniare,
9 erorile de estimare nu se corelează cu nici una dintre variabilele
independente.
În general, transformarea unei variabile factoriale x are scopul de
a corecta neliniaritatea, iar transformarea variabilei dependente y se
aplică pentru a corecta inconstanţa varianţei sau pentru a obţine
normalizarea erorilor de estimare, ceea ce poate duce implicit şi la
creşterea liniarităţii.
Dacă erorile de estimare se distribuie după legea normală în
modelul iniţial, transformarea lui y poate duce, însă, la deformarea
distribuţiei erorilor.
Transformarea lui y implică schimbarea unităţii de măsură în care
se exprimă variabila dependentă, ceea ce face dificilă interpretarea
rezultatelor cu atât mai mult cu cât transformarea este mai complexă.
O altă situaţie des întâlnită şi prea puţin analizată este cea în care
unele variabile explicative sunt puternic corelate între ele, astfel încât
întregul set potenţiale variabile conţin informaţie redundantă.
Multicoliniaritatea se manifestă frecvent în ecuaţiile de regresie
multiple şi se observă atunci când variabilele explicative luate în
considerare într-o ecuaţie de regresie multiplă nu variază independent ci
sunt puternic corelate.
Este specifică variabilelor factoriale (nu se referă în nici un fel la
variabila rezultativă) şi favorizează următoarele manifestări negative:
9 efectul variabilelor explicative asupra celei dependente se confundă
(nu pot fi separate sau influenţate),
9 variabilele explicative coliniare sunt de sensuri contrare şi se
compensează reciproc,
9 un alt set de observaţii din populaţia iniţială ar putea genera
coeficienţi de regresie total diferiţi de cei determinaţi pe baza
eşantionului anterior.
În consecinţă, creşte incertitudinea în estimarea coeficienţilor
ecuaţiei de regresie, ale căror erori standard sunt foarte mari, astfel încât
pot deveni nesemnificativi.
134
Multicoliniaritatea este specifică ecuaţiei de regresie polinomiale
pentru că variabilele explicative sunt, de fapt, puteri ale aceleiaşi
variabile şi, evident, sunt foarte puternic corelate între ele.
135
ecuaţiile de regresie interpretabile, cu o altă formă decât cea polinomială,
chiar dacă nu ajung la acelaşi grad de ajustare.
10.6 Raportul de corelaţie
Folosirea coeficientului de corelaţie r şi a ecuaţiilor de regresie
liniare nu se justifică decât dacă există într-adevăr o dependenţă liniară
între caracteristici. În celelalte situaţii este recomandat să se utilizeze un
alt indicator statistic care ia în calcul mediile aritmetice corespunzătoare
unor benzi trasate pe diagrama de puncte (xi, yi), paralel cu axele de
coordonate (figura 36).
Acest indicator se numeşte raport de corelaţie şi se notează cu η.
⎪ xy = a
⎪∑ 0 ∑ x + a1 ∑ x + a 2 ∑ x + L + a n ∑ x
2 3 n +1
⎨ x2 y = a (10.29)
⎪∑ 0 ∑ x + a1 ∑ x + a 2 ∑ x + L + a n ∑ x
2 3 4 n+ 2
⎪ LLLLLLLLLLLLLLLLLLLLLLL
⎪ xn y = a
⎩∑ 0 ∑ x + a1 ∑ x + a 2 ∑ x n+ 2 + L + a n ∑ x 2n
n n +1
136
10.6.1 Determinarea raportului de corelaţie
Pentru banda paralelă cu ordonata, cu abscisa centrală (centrul
clasei) xi, se consideră media a ni valori y corespunzătoare lui x, conţinute
în această clasă. Dacă se notează prin y media generală a valorilor y şi
prin y xi media a ni valori y în clasa i după x (cu centrul corespunzător lui
xi), raportul de corelaţie are expresia:
η yx =
∑ n ⋅ (y − y )
i xi
2
=
Q
, (10.30)
∑ (y − y)
2
i
QT
în care:
Q este suma pătratelor abaterilor faţă de media între clase (între grupele
formate),
QT – suma pătratelor abaterilor pe total.
Se poate defini şi raportul de corelaţie al lui x în funcţie de y (al
corelaţiei inverse):
η xy =
∑ n ⋅ (x − x )
i yi
2
. (10.31)
∑ (x − x )
2
i
137
Raportul de corelaţie multiplă (R) măsoară intensitatea legăturii
dintre o caracteristică rezultativă y şi două sau mai multe caracteristici
factoriale x1, x2, ..., xi.
Calculul raportului de corelaţie presupune identificarea formei
legăturii dintre variabile (determinarea ecuaţiei de regresie), determinarea
mediei aritmetice ( y ) a valorilor individuale yi şi calculul valorilor
ajustate ale variabilei rezultative ( ŷ i ). Relaţia de calcul este:
N
∑ (y − yˆ i )
2
i
R = 1− i =1
N
. (10.35)
∑ (y
i =1
i − y)
2
138
CALCULUL COEFICIENTULUI DE CORELAŢIE r, AL RAPORTULUI DE
CORELAŢIE ηyx ŞI AL RAPORTULUI DE CORELAŢIE ηxy
Tabelul 15.
28,0 32,0 36,0 40,0 44,0 48,0 52,0 56,0 60,0 64,0 68,0 ny xy ny (xy − x)2 ny ⋅ y ny ⋅ y 2 nxy ⋅ x ⋅ y n y ( yi − y ) 2
44,0 0 0 0 0 0 0 5 0 3 0 0 8 55,00 831,41 352,00 15488,0 19360,00 529,93
42,0 0 0 0 0 2 0 2 0 1 3 2 10 58,00 1740,93 420,00 17640,0 24360,00 376,86
40,0 0 0 1 1 0 5 3 9 0 1 0 20 52,00 1035,20 800,00 32000,0 41600,00 342,61
38,0 0 0 0 5 1 7 6 2 1 0 0 22 48,36 278,52 836,00 31768,0 40432,00 100,65
36,0 0 0 3 10 7 5 1 0 0 0 0 26 42,62 124,72 936,00 33696,0 39888,00 0,50
34,0 0 0 1 8 9 4 0 0 0 0 0 22 42,91 79,12 748,00 25432,0 32096,00 76,20
32,0 0 3 4 5 2 0 0 0 0 0 0 14 37,71 704,01 448,00 14336,0 16896,00 208,71
30,0 1 2 5 1 0 0 0 0 0 0 0 9 34,67 925,17 270,00 8100,0 9360,00 309,17
28,0 2 1 3 2 0 0 0 0 0 0 0 8 34,50 849,64 224,00 6272,0 7728,00 494,38
26,0 1 3 1 0 0 0 0 0 0 0 0 5 32,00 819,91 130,00 3380,0 4160,00 486,21
139
nx 4 9 18 32 21 21 17 11 5 4 2 144 44,81 7388,64 5164,00 188112,0 235880,00 2925,22
yx 28,00 29,11 31,67 34,63 35,43 37,24 40,47 39,64 42,40 41,50 42,00 35,86 y x ∑n y (xy − x)2 ∑ ny ⋅ y ∑ ny ⋅ y 2 ∑∑ n xy ⋅x⋅ y ∑n y ( yi − y ) 2
y y x y
2 2
n x ( y x − y ) 2 247,19 410,06 316,68 48,90 3,93 39,82 361,20 156,78 213,79 127,19 75,37 2000,90 ∑n x ( y x − y) R yx = 0,684
nx ⋅ x 112,00 288,00 648,00 1280,00 924,00 1008,00 884,00 616,00 300,00 256,00 136,00 6452,00 ∑ nx ⋅ x η yx = 0,827
x
nx ⋅ x 2 3136,0 9216,0 23328,0 51200,0 40656,0 48384,0 45968,0 34496,0 18000,0 16384,0 9248,0 300016,0 ∑ nx ⋅ x 2
x
nxy ⋅ x ⋅ y 3136,0 8384,0 20520,0 44320,0 32736,0 37536,0 35776,0 24416,0 12720,0 10624,0 5712,0 235880,0 ∑∑ n xy ⋅x⋅ y R xy2 = 0,676 R 2 = 0,634
x y
2 2
n x (xi − x ) 1129,71 1475,84 1395,68 738,99 13,63 214,29 879,92 1378,47 1154,36 1473,71 1075,96 10930,56 ∑n x ( xi − x ) η xy = 0,822 r = 0,797
11. ANALIZA SERIILOR DE TIMP
Seriile de timp, seriile cronologice sau seriile dinamice reprezintă
variaţia uneia sau a mai multor caracteristici în raport cu variabila timp.
Determinarea valorilor acestor caracteristici se face în momente diferite;
pentru simplificarea metodelor de prelucrare statistică este recomandabil
ca datele experimentale să fie obţinute la intervale egale de timp ( δt = 1 ).
Variabilele analizate în raport cu timpul pot fi discrete (de
exemplu: numărul de arbori) sau continue (de exemplu: temperatura).
Unitatea de timp luată în considerare este anul (cel mai frecvent)
dar şi luna, săptămâna, ziua, iar pentru evidenţierea anumitor
particularităţi ale unor fenomene, chiar ora sau minutul.
În funcţie de numărul variabilelor considerate, seriile de timp pot
fi unidimensionale, bidimensionale sau pluridimensionale.
11.1 Ajustarea unei serii cronologice
Din reprezentarea unei serii cronologice unidimensionale se
observă că aceasta se caracterizează prin componentele:
T: o variaţie de lungă durată (tendinţă seculară sau trend),
C: variaţie ciclică (variaţii ritmice care se repetă după o anumită
perioadă),
S: variaţie sezonieră, caz particular de variaţie periodică reprezen-
tând oscilaţii ale seriilor cronologice în funcţie de anotimpuri sau
grupe de luni sau zile,
R: variaţie reziduală (variaţii aleatoare sau accidentale).
Seriile cronologice pot avea un model aditiv ( T + C + S + R ) sau
un model multiplicativ ( T ⋅ C ⋅ S ⋅ R ). Pentru fenomenele din silvicultură
se aplică frecvent modelul aditiv al seriilor cronologice.
Modelul general nu este aplicabil în toate situaţiile. De exemplu,
dacă datele sunt înregistrate anual nu are sens considerarea unei
componente sezoniere. Dacă seria este analizată pentru o perioadă scurtă
de timp, se poate omite componenta ciclică. Uneori, pentru analiza
corelaţiei seriilor de timp trebuie să fie eliminat trendul, astfel încât să
poată fi puse în evidenţă numai variaţiile ciclice.
140
Metodele de ajustare pot fi grupate în: metode grafice, metode
mecanice şi metode analitice.
Metoda grafică constă în trasarea aproximativă a unei curbe sau
drepte de tendinţă pentru seria cronologică pe un grafic cu scară
aritmetică sau logaritmică.
Metodele de ajustare mecanică constă în aplicarea succesivă a
unor formule de calcul prestabilite care să modifice cea mai mare parte a
termenilor seriei cronologice (de exemplu, metoda mediilor mobile).
Metodele analitice de ajustare aplică metodele statistico-
matematice pentru aproximarea valorilor teoretice ale seriilor de timp
prin intermediul unor functii matematice. Cea mai utilizată este metoda
celor mai mici pătrate.
Uneori, înainte de ajustarea propriu zisă, în scopul obţinerii unor
curbe cu variaţii extreme estompate, se aplică metode de netezire prin
interpolarea valorilor seriei de timp. Această operaţie se bazează pe
ipoteza că variabila analizată în raport cu timpul este o variabilă continuă
şi constă în completarea termenilor lipsă (între valorile existente) într-o
serie cronologică. Se folosesc formule specifice de interpolare (Newton,
Lagrange etc.).
11.1.1 Ajustarea grafică prin procedeul punctelor mediane
Acest procedeu constă în unirea punctelor de maxim între ele şi a
celor de maxim între ele (figura 37). Pe ordonatele ce corespund unui
maxim sau minim se determină punctele A, B, C, …, echidistanţate faţă
de cele două linii ce unesc maximele şi minimele. Se obţine astfel linia
poligonală denumită „tendinţă generală”.
Figura 37. Ajustarea unei serii de timp prin procedeul punctelor mediane
141
11.1.2 Procedeul mediilor centrate
Se aplică atunci când tendinţa seriei cronologice pare rectilinie,
caz în care dreapta de tendinţă ar fi:
yˆ = a + b ⋅ t , (11.1)
cu b =
∑ ( y − y )⋅ (t − t )
i i i
şi a = y − b ⋅ t , (11.2)
∑ (t − t )
2
i i
în care:
y este media valorilor variabilei studiate y,
t este timpul mediu (mijlocul perioadei analizate).
Pentru simplificarea calculelor, b este pus sub forma:
∑ yi ⋅ t i − N ⋅ y ⋅ t = ∑i yi ⋅ t i − t ⋅ ∑i yi
b= i 2 (11.3)
∑i t i − N ⋅ t 2 ∑i t i2 − t ⋅ ∑i t i
În cazul în care data primei observaţii corespunde cu originea (t ia
succesiv valorile 0, 1, 2, …, N-1):
N ⋅ ( N − 1) N ⋅ ( N − 1) ⋅ (2 N − 1) N −1
∑i t i = 2 ; ∑i t i2 = 6
;t =
2
şi
N ⋅ N 2 −1 ( )
∑i i ∑i i
t 2
− t ⋅ t =
12
. (11.4)
Dacă tendinţa generală nu este liniară, dar poate deveni printr-o
schimbare de variabilă (de exemplu prin logaritmare: y '= log y ),
modalitatea de lucru este aceeaşi.
11.1.3 Procedeul mediilor mobile
Acest procedeu poate fi aplicat, după caz, în două variante:
medii mobile neponderate, atunci când fiecare observaţie este
înlocuită printr-o medie aritmetică calculată cu valoarea observată şi
cu cele vecine ei:
xi −1 + xi + xi +1 x + xi −1 + xi + xi +1 + xi + 2
xi ' = sau xi ' = i −2 . (11.5)
3 5
medii mobile ponderate, atunci când tendinţa este curbilinie (mediile
mobile calculate neponderat s-ar plasa în concavitatea curbei).
Procedeul Bloxham aplicat în această situaţie presupune înlocuirea lui
x + 2 ⋅ xi + xi +1
xi cu i −1 . Procedeul Spencer necesită înlocuirea lui xi cu
4
media ponderată a 15 valori, calculată cu relaţia:
1
⋅ (− 3 xi −7 − 6 xi −6 − 5 xi −5 + 3 xi − 4 + 21xi −3 + 46 xi − 2 + 67 xi −1 + 74 xi + 67 xi +1 + 46 xi + 2 + 21xi +3 + 3xi + 4 − 5 xi +5 − 6 xi + 6 − 3 xi + 7 )
320
142
11.1.4 Analiza componentelor seriilor cronologice
Trendul reprezintă principala componentă a unei serii de timp. În
vederea identificării tendinţei generale se folosesc metode de ajustare
analitică prin aplicarea metodei celor mai mici pătrate. Sunt estimaţi
astfel parametrii unor funcţii matematice adaptate la forma celei
empirice. Frecvent sunt utilizate pentru ajustare: dreapta, parabola,
exponenţiala, exponenţiala modificată, curba Gompertz, curba logistică.
Exista criterii, destul de subiective însă, de alegere iniţială a unei
funcţii teoretice. Practic, se recomandă analiza reprezentării grafice care
dă indicaţii importante în legătură cu caracterul tendinţei generale.
Pentru evidenţierea trendului, este de dorit ca seria cronologică să
se refere la o perioadă cât mai mare de timp.
Analiza componentei sezoniere a seriei cronologice presupune
stabilirea variaţiei determinate de succesiunea anotimpurilor (sezoanelor)
sau de repetarea unor particularităţi pe luni, trimestre sau chiar unităţi de
timp mai mici.
Sezonalitatea poate fi de tip constant (cu aproximativ aceeaşi
amplitudine) sau de tip variabil.
Analiza variaţiilor ciclice ale seriilor cronologice presupune
aplicarea unor metode statistico-matematice pentru identificarea acelor
componente ale unei serii de timp care se repetă la intervale egale.
Un termen al seriei de timp care depăşeşte ca valoare atât
termenul anterior cât şi cel următor se numeşte vârf sau maxim local.
Situaţia opusă reprezintă un minim local.
Se numeşte perioadă intervalul dintre două vârfuri succesive.
D'−T
Tendinţa ciclică este surprinsă de relaţia , în care D’
T
reprezintă datele brute corectate din punct de vedere al variaţiilor
sezoniere, iar T este trendul.
În cazul seriilor de timp bidimensionale, cele două variabile
continue (x şi y) sunt determinate pentru momentele ti şi pot fi
reprezentate pe acelaşi grafic prin două curbe: x = f (t ) şi y = g (t ) . Dacă
aceste curbe au punctele de extrem de acelaşi tip (minime, respectiv,
maxime) situate aproximativ pe aceeaşi abscisă, se numesc serii
sincrone. În alte situaţii, seriile sunt asincrone şi trebuie să se determine
faza de corelaţie sau abaterea de la sincronism.
143
11.2 Determinarea fazei de corelaţie
144
⎧r− = a ⋅ [( N − 1) ⋅ δ t ]2 + b ⋅ [( N − 1) ⋅ δ t ] + c
⎪
⎨ r0 = a ⋅ (N ⋅ δ t ) + b ⋅ ( N ⋅ δ t ) + c
2
(11.7)
⎪r = a ⋅ [( N + 1) ⋅ δ t ]2 + b ⋅ [( N + 1) ⋅ δ t ] + c
⎩+
Prin rezolvarea sistemului se obţin:
r + r − 2⋅r
a= + − 2 0 ; (11.8)
2 ⋅ (δ t )
r − r − 2 ⋅ N ⋅ (r+ + r− − 2 ⋅ r0 )
b= + − ; (11.9)
2 ⋅δ t
c = r0 − a ⋅ ( N ⋅ δ t ) + b ⋅ N ⋅ δ t ,
2
(11.10)
r = rmax atunci când prima derivată a funcţiei (11.6) este egală cu 0.
Faza de corelaţie ϕ va fi:
b 2 ⋅ (δ t )
2
r − r − 2 ⋅ N ⋅ (r+ + r− − 2 ⋅ r0 )
ϕ =− =− ⋅ + − ⇒
2⋅a 2 ⋅ (r+ + r− − 2 ⋅ r0 ) 2 ⋅δ t
δt r+ − r−
⇒ ϕ = Δt 0 − ⋅ . (11.11)
2 r+ + r− − 2 ⋅ r0
11.2.2 Cazul în care cele două caracteristici sunt exprimate în
aceleaşi unităţi de măsură
Determinarea fazei de corelaţie se poate face fără a calcula
coeficienţii de corelaţie. Pe graficul celor două funcţii, xi = f (t i ) şi
y i = g (t i ) , se determină cu cât ar trebui deplasate abscisele punctelor
funcţiei yi pentru ca extremele să coincidă; dacă extremele nu sunt foarte
evidente, problema constă în a stabili sensul şi mărimea Δt 0 a translaţiei
unei funcţii astfel încât cele două curbe să devină paralele.
Se consideră că xi = f (t i ) îşi păstrează abscisele ti iniţiale, iar
pentru y i = g (t i ) se aplică acea corecţie Δt 0 determinată grafic şi devine
y i = g (t i + Δt 0 ) . Şi în acest caz Δt 0 trebuie considerat un număr întreg de
paşi δ t .
În continuare se determină sumele pătratelor abaterilor în trei
situaţii:
S 0 = ∑i ( xi − y i ) pentru y i = g (t i + N ⋅ δ t ) ,
2
(11.12)
S − = ∑i ( xi − y i ) pentru y i = g [t i + ( N − 1) ⋅ δ t ] şi
2
(11.13)
S + = ∑i ( xi − y i ) pentru y i = g [t i + ( N + 1) ⋅ δ t ].
2
(11.14)
145
Pentru o valoare Δt 0 = N ⋅ δ t apropiată de mărimea fazei de
corelaţie se poate scrie:
S = A ⋅ (Δt ) 2 + B ⋅ (Δt ) + C (11.15)
şi, după ce se pune condiţia ca S să fie minim, se obţine expresia fazei de
corelaţie:
B
ϕ =− , (11.16)
2⋅ A
ştiind că:
S + S− − 2 ⋅ S0
A= + ; (11.17
2 ⋅ (δ t )
2
S + − S − − 2 ⋅ N ⋅ (S + − S − + 2 ⋅ S 0 )
B= şi (11.18)
2 ⋅ (δ t )
C = S 0 − A ⋅ (Δt 0 ) − B ⋅ (Δt 0 ) .
2
(11.19)
Deci:
2 ⋅ (δ t )
2
S − S − − 2 ⋅ N ⋅ (S + + S − − 2 ⋅ S 0 )
ϕ= ⋅ + ⇒
2 ⋅ (S + + S − − 2 ⋅ S 0 ) 2 ⋅ (δ t )
δt S+ − S−
⇒ ϕ = Δt 0 − ⋅ . (11.20)
2 S+ + S− − 2 ⋅ S0
11.3 Autocorelaţia
În cazul unor serii de timp se observă că valorile xi se corelează
cu valorile xi+k. Această corelaţie dintre termenii aceleiaşi serii se
numeşte autocorelaţie şi este pusă în evidenţă prin compararea termen cu
termen a seriei iniţiale cu aceeaşi serie decalată cu k unităţi de timp.
Dezavantajul acestui tip de analiză statistică este acela că nu se
pot forma decât n − k cupluri de valori din cele n ale seriei întregi, ceea
ce poate constitui un impediment în cazul unei serii reduse.
În cazul general, mediile celor două serii astfel obţinute nu sunt
egale. De asemenea, nici abaterile standard.
Cu notaţiile:
1 n−k 1 n−k
x1 = ⋅ ∑ xi şi x k = ⋅ ∑ xi + k , (11.21)
n−k 1 n−k 1
relaţia coeficientului de corelaţie (autocorelaţie) de ordin k este:
146
n−k
∑ (x i − x1 )( xi + k − x k )
rk = 1
. (11.22)
n−k n−k
∑ (x − x1 ) ⋅∑ ( xi + k − x k )
2 2
i
1 1
147
⎛ 2π ⎞ ⎛ 2π ⎞
u (t ) = sin ⎜⎜ ⋅ t ⎟⎟ şi v(t ) = cos⎜⎜ ⋅ t ⎟⎟ , (11.23)
⎝ Ti ⎠ ⎝ Ti ⎠
în care T1,2, …, n sunt perioadele acestor funcţii, perioade care se pot
determina prin alegerea unor funcţii periodice cunoscute cărora li se
atribuie valori succesive şi observarea modului de variaţie a acestora.
Se ajunge la o sumă a acestor funcţii care dă cea mai bună
aproximare a variaţiilor seriei analizate. Prin reprezentarea grafică a
analizei armonice se obţine periodograma.
Frecvent, presupunând seria de timp x = f (t ) , dacă
f (t + T ) = f (t ) pentru toate valorile lui t, aceasta se exprimă ca o serie
Fourier:
1 ∞
⎛ 360 ⋅ j ⋅ t 360 ⋅ j ⋅ t ⎞
xˆ = A0 + ∑ ⎜ A j ⋅ sin + B j ⋅ cos ⎟, (11.24)
2 j =1 ⎝ T T ⎠
în care T este perioada de oscilaţie, iar A0, Aj şi Bj sunt constante.
Pentru un set de date care furnizează un număr finit de valori x1,
x2, …, xn corespunzătoare observaţiilor efectuate la momentele t1, t2, …,
tn separate prin intervale egale de timp, forma funcţiei este:
xˆ i = x + ∑ A j ⋅ sin (i ⋅ ω j ) + ∑ B j ⋅ cos(i ⋅ ω j ) ,
n n
(11.25)
j =1 j =1
∑x i
la seriile cronologice de intervale: x = i =1
. (11.27)
n
Coeficienţii Aj şi Bj se estimează cu relaţiile:
Aˆ j = ⋅ ∑ ei ⋅ sin (i ⋅ ω j ) , Bˆ j = ⋅ ∑ ei ⋅ cos(i ⋅ ω j ),
2 n 2 n
(11.28)
n i =1 n i =1
e fiind abaterile valorilor individuale xi faţă de x ( e = xi − x ).
Seria (11.25) se mai poate scrie în forma:
xˆ i = x + ∑ α j ⋅ sin (i ⋅ ω j + ϕ j ) ,
n
(11.29)
j =1
148
Bj
în care α j = A 2j + B 2j , iar faza ϕ j = arctgşi se află în cadranul
Aj
corespunzător semnelor coeficienţilor Aj şi Bj conform reprezentării din
figura 39.
149
În figura 40 s-a reprezentat curba de acumulare (a producţiei
totale) în partea superioară şi curbele creşterilor curente şi medii, în
partea inferioară.
Se pot pune în evidenţă grafic legăturile dintre aceste funcţii:
- maximul creşterii curente este atins întotdeauna înainte de cel al
creşterii medii;
- maximul curbei creşterii medii se realizează atunci când aceasta
intersectează curba creşterii curente; punctul de intersecţie corespunde
momentului în care curba de acumulare admite o tangentă care trece
prin originea sistemului de coordonate;
- maximul creşterii curente se atinge corespunzător punctului de
inflexiune al curbei de acumulare;
Relaţiile dintre aceste funcţii se demonstrează relativ simplu prin
aplicarea calculului diferenţial; ele sunt aplicabile în cazul analizei
creşterilor în diametru de bază, în înălţime, în suprafaţa de bază sau în
volum, atât pentru arbori individuali cât şi pentru arboretul echien în
ansamblu.
150
Pardé şi Bouchon (1988) prezintă mai multe modele utilizate
pentru exprimarea creşterii diverselor caracteristici dendrometrice ale
arborilor şi arboretelor:
- Duplat şi Tran-Ha:
a4
⎡ ⎛ x⎞ 3
a
⎤
−⎜ ⎟
⎢ ⎥
y = ( a 0 + a1 ⋅ x ) ⋅ ⎢1 − e ⎝ 2 ⎠
a
⎥ + a5 ⋅ x (11.30)
⎢ ⎥
⎣ ⎦
în care:
e este baza logaritmului natural,
a0 - parametru liber,
a1, ..., a5 - parametri constanţi pentru aceeaşi staţiune.
- Lundqvist şi Matérn:
a3
−
y = a1 + a 2 ⋅ e ( 4 )
5 a
x −a
(11.31)
unde:
e este baza logaritmului natural,
a1, ..., a5 - coeficienţi de regresie (a2, a3 şi a5 strict pozitivi).
Se observă că pentru a5=1 se obţine modelul lui Schumacher.
- Chapman - Richards:
⎡ 1
a3 ⋅( x − a4 ) 1− a5
⎤
y = a1 + a 2 ⋅ ⎢1 − e ⎥ (11.32)
⎢⎣ ⎥⎦
în care:
e este baza logaritmului natural,
a1, ..., a5 - coeficienţi de regresie (a3 < 0 şi a5 < 1).
Pentru a1=a4=a5=0 se obţine modelul logistic.
În cele trei modele, y reprezintă valoarea caracteristicii studiate,
determinată în funcţie de vârsta x.
În unele situaţii se poate folosi pentru ajustarea curbei creşterilor
şi modelul de forma:
a ⋅ x 3 + a2 ⋅ x 2 + a3 ⋅ x
y= 1 2 , (11.33)
x + a 4 ⋅ x + a5
cu aceeaşi semnificaţie a notaţiilor.
151
Bibliografie selectivă
152
ANEXE
153
Distribuţia normală ANEXAI
III IV III IV III IV III IV III IV III IV III IV III IV III IV III IV
f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u)
u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,3989 0,0000 1,1968 0,3989 0,0120 1,1965 0,3989 0,0239 1,1956 0,3988 0,0359 1,1941 0,3986 0,0478 1,1920 0,3984 0,0597 1,1894 0,3982 0,0716 1,1861 0,3980 0,0834 1,1822 0,3977 0,0952 1,1777 0,3973 0,1070 1,1727
0,1 0,3970 0,1187 1,1671 0,3965 0,1303 1,1609 0,3961 0,1419 1,1541 0,3956 0,1534 1,1468 0,3951 0,1648 1,1388 0,3945 0,1762 1,1304 0,3939 0,1874 1,1214 0,3932 0,1986 1,1118 0,3925 0,2097 1,1017 0,3918 0,2206 1,0911
0,2 0,3910 0,2315 1,0799 0,3902 0,2422 1,0682 0,3894 0,2529 1,0560 0,3885 0,2634 1,0434 0,3876 0,2737 1,0302 0,3867 0,2840 1,0165 0,3857 0,2941 1,0024 0,3847 0,3040 0,9878 0,3836 0,3138 0,9727 0,3825 0,3235 0,9572
0,3 0,3814 0,3330 0,9413 0,3802 0,3423 0,9250 0,3790 0,3514 0,9082 0,3778 0,3604 0,8910 0,3765 0,3693 0,8735 0,3752 0,3779 0,8556 0,3739 0,3864 0,8373 0,3725 0,3947 0,8186 0,3712 0,4027 0,7996 0,3697 0,4106 0,7803
0,4 0,3683 0,4184 0,7607 0,3668 0,4259 0,7408 0,3653 0,4332 0,7206 0,3637 0,4403 0,7001 0,3621 0,4472 0,6793 0,3605 0,4539 0,6583 0,3589 0,4603 0,6371 0,3572 0,4666 0,6156 0,3555 0,4726 0,5940 0,3538 0,4785 0,5721
0,5 0,3521 0,4841 0,5501 0,3503 0,4895 0,5279 0,3485 0,4946 0,5056 0,3467 0,4996 0,4831 0,3448 0,5043 0,4605 0,3429 0,5088 0,4378 0,3410 0,5131 0,4150 0,3391 0,5171 0,3921 0,3372 0,5209 0,3691 0,3352 0,5245 0,3461
0,6 0,3332 0,5278 0,3231 0,3312 0,5309 0,3000 0,3292 0,5338 0,2770 0,3271 0,5365 0,2539 0,3251 0,5389 0,2309 0,3230 0,5411 0,2078 0,3209 0,5431 0,1849 0,3187 0,5448 0,1620 0,3166 0,5463 0,1391 0,3144 0,5476 0,1164
0,7 0,3123 0,5486 0,0937 0,3101 0,5495 0,0712 0,3079 0,5501 0,0487 0,3056 0,5504 0,0265 0,3034 0,5506 0,0043 0,3011 0,5505 -0,0176 0,2989 0,5502 -0,0394 0,2966 0,5497 -0,0611 0,2943 0,5490 -0,0825 0,2920 0,5481 -0,1037
0,8 0,2897 0,5469 -0,1247 0,2874 0,5456 -0,1454 0,2850 0,5440 -0,1660 0,2827 0,5423 -0,1862 0,2803 0,5403 -0,2063 0,2780 0,5381 -0,2260 0,2756 0,5358 -0,2455 0,2732 0,5332 -0,2646 0,2709 0,5305 -0,2835 0,2685 0,5276 -0,3021
0,9 0,2661 0,5245 -0,3203 0,2637 0,5212 -0,3383 0,2613 0,5177 -0,3559 0,2589 0,5140 -0,3731 0,2565 0,5102 -0,3901 0,2541 0,5062 -0,4066 0,2516 0,5021 -0,4228 0,2492 0,4978 -0,4387 0,2468 0,4933 -0,4541 0,2444 0,4887 -0,4692
1,0 0,2420 0,4839 -0,4839 0,2396 0,4790 -0,4983 0,2371 0,4740 -0,5122 0,2347 0,4688 -0,5257 0,2323 0,4635 -0,5389 0,2299 0,4580 -0,5516 0,2275 0,4524 -0,5639 0,2251 0,4467 -0,5758 0,2227 0,4409 -0,5873 0,2203 0,4350 -0,5984
1,1 0,2179 0,4290 -0,6091 0,2155 0,4228 -0,6193 0,2131 0,4166 -0,6292 0,2107 0,4102 -0,6386 0,2083 0,4038 -0,6476 0,2059 0,3973 -0,6561 0,2036 0,3907 -0,6642 0,2012 0,3840 -0,6720 0,1989 0,3772 -0,6792 0,1965 0,3704 -0,6861
1,2 0,1942 0,3635 -0,6925 0,1919 0,3566 -0,6986 0,1895 0,3495 -0,7042 0,1872 0,3425 -0,7093 0,1849 0,3354 -0,7141 0,1826 0,3282 -0,7185 0,1804 0,3210 -0,7224 0,1781 0,3138 -0,7259 0,1758 0,3065 -0,7291 0,1736 0,2992 -0,7318
1,3 0,1714 0,2918 -0,7341 0,1691 0,2845 -0,7361 0,1669 0,2771 -0,7376 0,1647 0,2697 -0,7388 0,1626 0,2623 -0,7395 0,1604 0,2549 -0,7399 0,1582 0,2475 -0,7400 0,1561 0,2402 -0,7396 0,1539 0,2328 -0,7389 0,1518 0,2254 -0,7378
1,4 0,1497 0,2180 -0,7364 0,1476 0,2106 -0,7347 0,1456 0,2033 -0,7326 0,1435 0,1960 -0,7301 0,1415 0,1887 -0,7274 0,1394 0,1815 -0,7243 0,1374 0,1742 -0,7209 0,1354 0,1670 -0,7172 0,1334 0,1599 -0,7132 0,1315 0,1528 -0,7088
1,5 0,1295 0,1457 -0,7043 0,1276 0,1387 -0,6994 0,1257 0,1317 -0,6942 0,1238 0,1248 -0,6888 0,1219 0,1179 -0,6831 0,1200 0,1111 -0,6772 0,1182 0,1044 -0,6710 0,1163 0,0977 -0,6646 0,1145 0,0911 -0,6580 0,1127 0,0846 -0,6511
1,6 0,1109 0,0781 -0,6441 0,1092 0,0717 -0,6368 0,1074 0,0654 -0,6293 0,1057 0,0591 -0,6216 0,1040 0,0529 -0,6138 0,1023 0,0468 -0,6057 0,1006 0,0408 -0,5975 0,0989 0,0349 -0,5891 0,0973 0,0290 -0,5806 0,0957 0,0233 -0,5720
1,7 0,0940 0,0176 -0,5632 0,0925 0,0120 -0,5542 0,0909 0,0065 -0,5452 0,0893 0,0011 -0,5360 0,0878 -0,0042 -0,5267 0,0863 -0,0094 -0,5173 0,0848 -0,0146 -0,5079 0,0833 -0,0196 -0,4983 0,0818 -0,0245 -0,4886 0,0804 -0,0294 -0,4789
1,8 0,0790 -0,0341 -0,4692 0,0775 -0,0387 -0,4593 0,0761 -0,0433 -0,4494 0,0748 -0,0477 -0,4395 0,0734 -0,0521 -0,4295 0,0721 -0,0563 -0,4195 0,0707 -0,0605 -0,4095 0,0694 -0,0645 -0,3995 0,0681 -0,0685 -0,3894 0,0669 -0,0723 -0,3793
1,9 0,0656 -0,0760 -0,3693 0,0644 -0,0797 -0,3592 0,0632 -0,0832 -0,3492 0,0620 -0,0867 -0,3392 0,0608 -0,0900 -0,3292 0,0596 -0,0933 -0,3192 0,0584 -0,0964 -0,3093 0,0573 -0,0994 -0,2994 0,0562 -0,1024 -0,2895 0,0551 -0,1052 -0,2797
2,0 0,0540 -0,1080 -0,2700 0,0529 -0,1106 -0,2603 0,0519 -0,1132 -0,2506 0,0508 -0,1156 -0,2411 0,0498 -0,1180 -0,2316 0,0488 -0,1203 -0,2222 0,0478 -0,1225 -0,2129 0,0468 -0,1245 -0,2036 0,0459 -0,1265 -0,1945 0,0449 -0,1284 -0,1854
154
2,1 0,0440 -0,1302 -0,1765 0,0431 -0,1320 -0,1676 0,0422 -0,1336 -0,1588 0,0413 -0,1351 -0,1502 0,0404 -0,1366 -0,1416 0,0396 -0,1380 -0,1332 0,0387 -0,1393 -0,1249 0,0379 -0,1405 -0,1167 0,0371 -0,1416 -0,1086 0,0363 -0,1426 -0,1006
2,2 0,0355 -0,1436 -0,0927 0,0347 -0,1445 -0,0850 0,0339 -0,1453 -0,0774 0,0332 -0,1460 -0,0700 0,0325 -0,1467 -0,0626 0,0317 -0,1473 -0,0554 0,0310 -0,1478 -0,0483 0,0303 -0,1483 -0,0414 0,0297 -0,1486 -0,0346 0,0290 -0,1490 -0,0279
2,3 0,0283 -0,1492 -0,0214 0,0277 -0,1494 -0,0150 0,0270 -0,1495 -0,0088 0,0264 -0,1496 -0,0027 0,0258 -0,1496 0,0033 0,0252 -0,1495 0,0092 0,0246 -0,1494 0,0148 0,0241 -0,1492 0,0204 0,0235 -0,1490 0,0258 0,0229 -0,1487 0,0311
2,4 0,0224 -0,1483 0,0362 0,0219 -0,1480 0,0412 0,0213 -0,1475 0,0461 0,0208 -0,1470 0,0508 0,0203 -0,1465 0,0554 0,0198 -0,1459 0,0598 0,0194 -0,1453 0,0641 0,0189 -0,1446 0,0683 0,0184 -0,1439 0,0723 0,0180 -0,1432 0,0762
2,5 0,0175 -0,1424 0,0800 0,0171 -0,1416 0,0836 0,0167 -0,1407 0,0871 0,0163 -0,1399 0,0905 0,0158 -0,1389 0,0937 0,0154 -0,1380 0,0968 0,0151 -0,1370 0,0998 0,0147 -0,1360 0,1027 0,0143 -0,1349 0,1054 0,0139 -0,1339 0,1080
2,6 0,0136 -0,1328 0,1105 0,0132 -0,1317 0,1129 0,0129 -0,1305 0,1152 0,0126 -0,1294 0,1173 0,0122 -0,1282 0,1194 0,0119 -0,1270 0,1213 0,0116 -0,1258 0,1231 0,0113 -0,1245 0,1248 0,0110 -0,1233 0,1264 0,0107 -0,1220 0,1279
2,7 0,0104 -0,1207 0,1293 0,0101 -0,1194 0,1306 0,0099 -0,1181 0,1317 0,0096 -0,1168 0,1328 0,0093 -0,1154 0,1338 0,0091 -0,1141 0,1347 0,0088 -0,1127 0,1355 0,0086 -0,1114 0,1363 0,0084 -0,1100 0,1369 0,0081 -0,1086 0,1375
2,8 0,0079 -0,1073 0,1379 0,0077 -0,1059 0,1383 0,0075 -0,1045 0,1386 0,0073 -0,1031 0,1389 0,0071 -0,1017 0,1390 0,0069 -0,1003 0,1391 0,0067 -0,0989 0,1391 0,0065 -0,0976 0,1391 0,0063 -0,0962 0,1389 0,0061 -0,0948 0,1388
2,9 0,0060 -0,0934 0,1385 0,0058 -0,0920 0,1382 0,0056 -0,0906 0,1378 0,0055 -0,0892 0,1374 0,0053 -0,0879 0,1369 0,0051 -0,0865 0,1364 0,0050 -0,0852 0,1358 0,0048 -0,0838 0,1351 0,0047 -0,0824 0,1345 0,0046 -0,0811 0,1337
3,0 0,0044 -0,0798 0,1330 0,0043 -0,0784 0,1321 0,0042 -0,0771 0,1313 0,0040 -0,0758 0,1304 0,0039 -0,0745 0,1294 0,0038 -0,0732 0,1285 0,0037 -0,0720 0,1275 0,0036 -0,0707 0,1264 0,0035 -0,0694 0,1254 0,0034 -0,0682 0,1243
3,1 0,0033 -0,0669 0,1231 0,0032 -0,0657 0,1220 0,0031 -0,0645 0,1208 0,0030 -0,0633 0,1196 0,0029 -0,0621 0,1184 0,0028 -0,0609 0,1171 0,0027 -0,0598 0,1159 0,0026 -0,0586 0,1146 0,0025 -0,0575 0,1133 0,0025 -0,0563 0,1120
3,2 0,0024 -0,0552 0,1107 0,0023 -0,0541 0,1093 0,0022 -0,0530 0,1080 0,0022 -0,0520 0,1066 0,0021 -0,0509 0,1052 0,0020 -0,0499 0,1039 0,0020 -0,0488 0,1025 0,0019 -0,0478 0,1011 0,0018 -0,0468 0,0997 0,0018 -0,0458 0,0983
3,3 0,0017 -0,0449 0,0969 0,0017 -0,0439 0,0955 0,0016 -0,0429 0,0941 0,0016 -0,0420 0,0927 0,0015 -0,0411 0,0913 0,0015 -0,0402 0,0899 0,0014 -0,0393 0,0885 0,0014 -0,0384 0,0871 0,0013 -0,0375 0,0857 0,0013 -0,0367 0,0843
3,4 0,0012 -0,0359 0,0829 0,0012 -0,0350 0,0815 0,0012 -0,0342 0,0801 0,0011 -0,0334 0,0788 0,0011 -0,0327 0,0774 0,0010 -0,0319 0,0761 0,0010 -0,0311 0,0747 0,0010 -0,0304 0,0734 0,0009 -0,0297 0,0721 0,0009 -0,0290 0,0707
3,5 0,0009 -0,0283 0,0694 0,0008 -0,0276 0,0681 0,0008 -0,0269 0,0669 0,0008 -0,0262 0,0656 0,0008 -0,0256 0,0643 0,0007 -0,0249 0,0631 0,0007 -0,0243 0,0618 0,0007 -0,0237 0,0606 0,0007 -0,0231 0,0594 0,0006 -0,0225 0,0582
3,6 0,0006 -0,0219 0,0570 0,0006 -0,0214 0,0559 0,0006 -0,0208 0,0547 0,0005 -0,0203 0,0536 0,0005 -0,0198 0,0524 0,0005 -0,0192 0,0513 0,0005 -0,0187 0,0502 0,0005 -0,0182 0,0492 0,0005 -0,0177 0,0481 0,0004 -0,0173 0,0470
3,7 0,0004 -0,0168 0,0460 0,0004 -0,0163 0,0450 0,0004 -0,0159 0,0440 0,0004 -0,0155 0,0430 0,0004 -0,0150 0,0420 0,0004 -0,0146 0,0410 0,0003 -0,0142 0,0401 0,0003 -0,0138 0,0392 0,0003 -0,0134 0,0382 0,0003 -0,0131 0,0373
3,8 0,0003 -0,0127 0,0365 0,0003 -0,0123 0,0356 0,0003 -0,0120 0,0347 0,0003 -0,0116 0,0339 0,0003 -0,0113 0,0331 0,0002 -0,0110 0,0323 0,0002 -0,0107 0,0315 0,0002 -0,0103 0,0307 0,0002 -0,0100 0,0299 0,0002 -0,0097 0,0292
3,9 0,0002 -0,0095 0,0284 0,0002 -0,0092 0,0277 0,0002 -0,0089 0,0270 0,0002 -0,0086 0,0263 0,0002 -0,0084 0,0256 0,0002 -0,0081 0,0249 0,0002 -0,0079 0,0243 0,0002 -0,0076 0,0237 0,0001 -0,0074 0,0230 0,0001 -0,0072 0,0224
4,0 0,0001 -0,0070 0,0218 0,0001 -0,0067 0,0212 0,0001 -0,0065 0,0207 0,0001 -0,0063 0,0201 0,0001 -0,0061 0,0195 0,0001 -0,0059 0,0190 0,0001 -0,0058 0,0185 0,0001 -0,0056 0,0180 0,0001 -0,0054 0,0175 0,0001 -0,0052 0,0170
III III IV IV
f(u)=f(-u) f(u) = - f(-u) f(u) =f(-u)
Distribuţia F (Fisher)
ANEXAII
Prag de semnificaţie: 0,05
f pentru
Grade de libertate (f) pentru numărătorul lui F
numitorul
lui F 1 2 3 4 5 6 7 8 9 10 11 12 15 20 25 30 40 50 75 100 200 500 ∞
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,90 245,95 248,02 249,26 250,10 251,14 251,77 252,62 253,04 253,68 254,06 254,31
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,46 19,46 19,47 19,48 19,48 19,49 19,49 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,63 8,62 8,59 8,58 8,56 8,55 8,54 8,53 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,77 5,75 5,72 5,70 5,68 5,66 5,65 5,64 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,52 4,50 4,46 4,44 4,42 4,41 4,39 4,37 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,83 3,81 3,77 3,75 3,73 3,71 3,69 3,68 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,40 3,38 3,34 3,32 3,29 3,27 3,25 3,24 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,11 3,08 3,04 3,02 2,99 2,97 2,95 2,94 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,89 2,86 2,83 2,80 2,77 2,76 2,73 2,72 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,73 2,70 2,66 2,64 2,60 2,59 2,56 2,55 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,60 2,57 2,53 2,51 2,47 2,46 2,43 2,42 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,50 2,47 2,43 2,40 2,37 2,35 2,32 2,31 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,41 2,38 2,34 2,31 2,28 2,26 2,23 2,22 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,34 2,31 2,27 2,24 2,21 2,19 2,16 2,14 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,28 2,25 2,20 2,18 2,14 2,12 2,10 2,08 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,23 2,19 2,15 2,12 2,09 2,07 2,04 2,02 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,18 2,15 2,10 2,08 2,04 2,02 1,99 1,97 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,14 2,11 2,06 2,04 2,00 1,98 1,95 1,93 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,11 2,07 2,03 2,00 1,96 1,94 1,91 1,89 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,07 2,04 1,99 1,97 1,93 1,91 1,88 1,86 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,18 2,10 2,05 2,01 1,96 1,94 1,90 1,88 1,84 1,83 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,15 2,07 2,02 1,98 1,94 1,91 1,87 1,85 1,82 1,80 1,78
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,13 2,05 2,00 1,96 1,91 1,88 1,84 1,82 1,79 1,77 1,76
155
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,11 2,03 1,97 1,94 1,89 1,86 1,82 1,80 1,77 1,75 1,73
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,09 2,01 1,96 1,92 1,87 1,84 1,80 1,78 1,75 1,73 1,71
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,07 1,99 1,94 1,90 1,85 1,82 1,78 1,76 1,73 1,71 1,69
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,06 1,97 1,92 1,88 1,84 1,81 1,76 1,74 1,71 1,69 1,67
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,04 1,96 1,91 1,87 1,82 1,79 1,75 1,73 1,69 1,67 1,65
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,03 1,94 1,89 1,85 1,81 1,77 1,73 1,71 1,67 1,65 1,64
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,88 1,84 1,79 1,76 1,72 1,70 1,66 1,64 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,78 1,74 1,69 1,66 1,61 1,59 1,55 1,53 1,51
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,73 1,69 1,63 1,60 1,55 1,52 1,48 1,46 1,44
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,69 1,65 1,59 1,56 1,51 1,48 1,44 1,41 1,39
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,93 1,89 1,81 1,72 1,66 1,62 1,57 1,53 1,48 1,45 1,40 1,37 1,35
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,91 1,88 1,79 1,70 1,64 1,60 1,54 1,51 1,45 1,43 1,38 1,35 1,32
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,90 1,86 1,78 1,69 1,63 1,59 1,53 1,49 1,44 1,41 1,36 1,33 1,30
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,89 1,85 1,77 1,68 1,62 1,57 1,52 1,48 1,42 1,39 1,34 1,31 1,28
110 3,93 3,08 2,69 2,45 2,30 2,18 2,09 2,02 1,97 1,92 1,88 1,84 1,76 1,67 1,61 1,56 1,50 1,47 1,41 1,38 1,33 1,29 1,27
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,60 1,55 1,50 1,46 1,40 1,37 1,32 1,28 1,25
130 3,91 3,07 2,67 2,44 2,28 2,17 2,08 2,01 1,95 1,90 1,86 1,83 1,74 1,65 1,59 1,55 1,49 1,45 1,39 1,36 1,31 1,27 1,24
140 3,91 3,06 2,67 2,44 2,28 2,16 2,08 2,01 1,95 1,90 1,86 1,82 1,74 1,65 1,58 1,54 1,48 1,44 1,38 1,35 1,30 1,26 1,23
150 3,90 3,06 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,82 1,73 1,64 1,58 1,54 1,48 1,44 1,38 1,34 1,29 1,25 1,22
160 3,90 3,05 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,81 1,73 1,64 1,57 1,53 1,47 1,43 1,37 1,34 1,28 1,24 1,21
170 3,90 3,05 2,66 2,42 2,27 2,15 2,06 1,99 1,94 1,89 1,85 1,81 1,73 1,63 1,57 1,53 1,47 1,43 1,37 1,33 1,28 1,24 1,21
180 3,89 3,05 2,65 2,42 2,26 2,15 2,06 1,99 1,93 1,88 1,84 1,81 1,72 1,63 1,57 1,52 1,46 1,42 1,36 1,33 1,27 1,23 1,20
190 3,89 3,04 2,65 2,42 2,26 2,15 2,06 1,99 1,93 1,88 1,84 1,80 1,72 1,63 1,56 1,52 1,46 1,42 1,36 1,32 1,27 1,23 1,19
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,84 1,80 1,72 1,62 1,56 1,52 1,46 1,41 1,35 1,32 1,26 1,22 1,19
400 3,86 3,02 2,63 2,39 2,24 2,12 2,03 1,96 1,90 1,85 1,81 1,78 1,69 1,60 1,53 1,49 1,42 1,38 1,32 1,28 1,22 1,17 1,13
600 3,86 3,01 2,62 2,39 2,23 2,11 2,02 1,95 1,90 1,85 1,80 1,77 1,68 1,59 1,52 1,48 1,41 1,37 1,31 1,27 1,20 1,15 1,10
800 3,85 3,01 2,62 2,38 2,23 2,11 2,02 1,95 1,89 1,84 1,80 1,76 1,68 1,58 1,52 1,47 1,41 1,37 1,30 1,26 1,20 1,14 1,09
1000 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,80 1,76 1,68 1,58 1,52 1,47 1,41 1,36 1,30 1,26 1,19 1,13 1,08
∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,51 1,46 1,39 1,35 1,28 1,24 1,17 1,11
Distribuţia t (Student) ANEXAIII
Grade de Prag de semnificaţie (test bilateral)
libertate (f) 0,10% 0,50% 1,00% 2,50% 5,00% 10,00% 20,00%
1 636,578 127,321 63,656 25,452 12,706 6,314 3,078
2 31,600 14,089 9,925 6,205 4,303 2,920 1,886
3 12,924 7,453 5,841 4,177 3,182 2,353 1,638
4 8,610 5,598 4,604 3,495 2,776 2,132 1,533
5 6,869 4,773 4,032 3,163 2,571 2,015 1,476
6 5,959 4,317 3,707 2,969 2,447 1,943 1,440
7 5,408 4,029 3,499 2,841 2,365 1,895 1,415
8 5,041 3,833 3,355 2,752 2,306 1,860 1,397
9 4,781 3,690 3,250 2,685 2,262 1,833 1,383
10 4,587 3,581 3,169 2,634 2,228 1,812 1,372
11 4,437 3,497 3,106 2,593 2,201 1,796 1,363
12 4,318 3,428 3,055 2,560 2,179 1,782 1,356
13 4,221 3,372 3,012 2,533 2,160 1,771 1,350
14 4,140 3,326 2,977 2,510 2,145 1,761 1,345
15 4,073 3,286 2,947 2,490 2,131 1,753 1,341
16 4,015 3,252 2,921 2,473 2,120 1,746 1,337
17 3,965 3,222 2,898 2,458 2,110 1,740 1,333
18 3,922 3,197 2,878 2,445 2,101 1,734 1,330
19 3,883 3,174 2,861 2,433 2,093 1,729 1,328
20 3,850 3,153 2,845 2,423 2,086 1,725 1,325
21 3,819 3,135 2,831 2,414 2,080 1,721 1,323
22 3,792 3,119 2,819 2,405 2,074 1,717 1,321
23 3,768 3,104 2,807 2,398 2,069 1,714 1,319
24 3,745 3,091 2,797 2,391 2,064 1,711 1,318
25 3,725 3,078 2,787 2,385 2,060 1,708 1,316
26 3,707 3,067 2,779 2,379 2,056 1,706 1,315
27 3,689 3,057 2,771 2,373 2,052 1,703 1,314
28 3,674 3,047 2,763 2,368 2,048 1,701 1,313
29 3,660 3,038 2,756 2,364 2,045 1,699 1,311
30 3,646 3,030 2,750 2,360 2,042 1,697 1,310
35 3,591 2,996 2,724 2,342 2,030 1,690 1,306
40 3,551 2,971 2,704 2,329 2,021 1,684 1,303
45 3,520 2,952 2,690 2,319 2,014 1,679 1,301
50 3,496 2,937 2,678 2,311 2,009 1,676 1,299
55 3,476 2,925 2,668 2,304 2,004 1,673 1,297
60 3,460 2,915 2,660 2,299 2,000 1,671 1,296
70 3,435 2,899 2,648 2,291 1,994 1,667 1,294
80 3,416 2,887 2,639 2,284 1,990 1,664 1,292
90 3,402 2,878 2,632 2,280 1,987 1,662 1,291
100 3,390 2,871 2,626 2,276 1,984 1,660 1,290
110 3,381 2,865 2,621 2,272 1,982 1,659 1,289
120 3,373 2,860 2,617 2,270 1,980 1,658 1,289
130 3,367 2,856 2,614 2,268 1,978 1,657 1,288
140 3,361 2,852 2,611 2,266 1,977 1,656 1,288
150 3,357 2,849 2,609 2,264 1,976 1,655 1,287
160 3,352 2,847 2,607 2,263 1,975 1,654 1,287
170 3,349 2,844 2,605 2,261 1,974 1,654 1,287
180 3,345 2,842 2,603 2,260 1,973 1,653 1,286
190 3,342 2,840 2,602 2,259 1,973 1,653 1,286
200 3,340 2,838 2,601 2,258 1,972 1,653 1,286
400 3,315 2,823 2,588 2,250 1,966 1,649 1,284
600 3,307 2,817 2,584 2,247 1,964 1,647 1,283
800 3,303 2,815 2,582 2,246 1,963 1,647 1,283
1000 3,300 2,813 2,581 2,245 1,962 1,646 1,282
∞ 3,290 2,807 2,576 2,241 1,960 1,645 1,282
0,05% 0,10% 0,50% 1,00% 2,50% 5,00% 10,00%
f
Prag de semnificaţie (test unilateral)
156
Distribuţia χ2 ANEXAIV
Grade de Pragul de semnificaţie
libertate 1% 3% 5% 10% 20%
1 6,635 5,024 3,841 2,706 1,642
2 9,210 7,378 5,991 4,605 3,219
3 11,345 9,348 7,815 6,251 4,642
4 13,277 11,143 9,488 7,779 5,989
5 15,086 12,832 11,070 9,236 7,289
6 16,812 14,449 12,592 10,645 8,558
7 18,475 16,013 14,067 12,017 9,803
8 20,090 17,535 15,507 13,362 11,030
9 21,666 19,023 16,919 14,684 12,242
10 23,209 20,483 18,307 15,987 13,442
11 24,725 21,920 19,675 17,275 14,631
12 26,217 23,337 21,026 18,549 15,812
13 27,688 24,736 22,362 19,812 16,985
14 29,141 26,119 23,685 21,064 18,151
15 30,578 27,488 24,996 22,307 19,311
16 32,000 28,845 26,296 23,542 20,465
17 33,409 30,191 27,587 24,769 21,615
18 34,805 31,526 28,869 25,989 22,760
19 36,191 32,852 30,144 27,204 23,900
20 37,566 34,170 31,410 28,412 25,038
21 38,932 35,479 32,671 29,615 26,171
22 40,289 36,781 33,924 30,813 27,301
23 41,638 38,076 35,172 32,007 28,429
24 42,980 39,364 36,415 33,196 29,553
25 44,314 40,646 37,652 34,382 30,675
26 45,642 41,923 38,885 35,563 31,795
27 46,963 43,195 40,113 36,741 32,912
28 48,278 44,461 41,337 37,916 34,027
29 49,588 45,722 42,557 39,087 35,139
30 50,892 46,979 43,773 40,256 36,250
40 63,691 59,342 55,758 51,805 47,269
50 76,154 71,420 67,505 63,167 58,164
60 88,379 83,298 79,082 74,397 68,972
70 100,425 95,023 90,531 85,527 79,715
80 112,329 106,629 101,879 96,578 90,405
90 124,116 118,136 113,145 107,565 101,054
100 135,807 129,561 124,342 118,498 111,667
157
Valori limită semnificative ale coeficientului de corelaţie ANEXAV
Grade de Prag de semnificaţie (test bilateral)
libertate (f) 0,10% 0,50% 1,00% 2,50% 5,00% 10,00% 20,00%
1 1,000 1,000 1,000 0,999 0,997 0,988 0,951
2 0,999 0,995 0,990 0,975 0,950 0,900 0,800
3 0,991 0,974 0,959 0,924 0,878 0,805 0,687
4 0,974 0,942 0,917 0,868 0,811 0,729 0,608
5 0,951 0,906 0,875 0,817 0,754 0,669 0,551
6 0,925 0,870 0,834 0,771 0,707 0,621 0,507
7 0,898 0,836 0,798 0,732 0,666 0,582 0,472
8 0,872 0,805 0,765 0,697 0,632 0,549 0,443
9 0,847 0,776 0,735 0,667 0,602 0,521 0,419
10 0,823 0,750 0,708 0,640 0,576 0,497 0,398
11 0,801 0,726 0,684 0,616 0,553 0,476 0,380
12 0,780 0,703 0,661 0,594 0,532 0,458 0,365
13 0,760 0,683 0,641 0,575 0,514 0,441 0,351
14 0,742 0,664 0,623 0,557 0,497 0,426 0,338
15 0,725 0,647 0,606 0,541 0,482 0,412 0,327
16 0,708 0,631 0,590 0,526 0,468 0,400 0,317
17 0,693 0,616 0,575 0,512 0,456 0,389 0,308
18 0,679 0,602 0,561 0,499 0,444 0,378 0,299
19 0,665 0,589 0,549 0,487 0,433 0,369 0,291
20 0,652 0,576 0,537 0,476 0,423 0,360 0,284
21 0,640 0,565 0,526 0,466 0,413 0,352 0,277
22 0,629 0,554 0,515 0,456 0,404 0,344 0,271
23 0,618 0,543 0,505 0,447 0,396 0,337 0,265
24 0,607 0,534 0,496 0,439 0,388 0,330 0,260
25 0,597 0,524 0,487 0,430 0,381 0,323 0,255
26 0,588 0,515 0,479 0,423 0,374 0,317 0,250
27 0,579 0,507 0,471 0,415 0,367 0,311 0,245
28 0,570 0,499 0,463 0,409 0,361 0,306 0,241
29 0,562 0,491 0,456 0,402 0,355 0,301 0,237
30 0,554 0,484 0,449 0,396 0,349 0,296 0,233
35 0,519 0,452 0,418 0,368 0,325 0,275 0,216
40 0,490 0,425 0,393 0,346 0,304 0,257 0,202
45 0,465 0,403 0,372 0,327 0,288 0,243 0,190
50 0,443 0,384 0,354 0,311 0,273 0,231 0,181
55 0,424 0,367 0,339 0,297 0,261 0,220 0,172
60 0,408 0,352 0,325 0,285 0,250 0,211 0,165
70 0,380 0,327 0,302 0,264 0,232 0,195 0,153
80 0,357 0,307 0,283 0,247 0,217 0,183 0,143
90 0,338 0,290 0,267 0,234 0,205 0,173 0,135
100 0,321 0,276 0,254 0,222 0,195 0,164 0,128
110 0,307 0,263 0,242 0,212 0,186 0,156 0,122
120 0,294 0,253 0,232 0,203 0,178 0,150 0,117
130 0,283 0,243 0,223 0,195 0,171 0,144 0,112
140 0,273 0,234 0,216 0,188 0,165 0,139 0,108
150 0,264 0,227 0,208 0,182 0,159 0,134 0,105
160 0,256 0,220 0,202 0,176 0,154 0,130 0,101
170 0,249 0,213 0,196 0,171 0,150 0,126 0,098
180 0,242 0,207 0,190 0,166 0,146 0,122 0,095
190 0,236 0,202 0,185 0,162 0,142 0,119 0,093
200 0,230 0,197 0,181 0,158 0,138 0,116 0,091
400 0,164 0,140 0,128 0,112 0,098 0,082 0,064
600 0,134 0,114 0,105 0,091 0,080 0,067 0,052
800 0,116 0,099 0,091 0,079 0,069 0,058 0,045
1000 0,104 0,089 0,081 0,071 0,062 0,052 0,041
5000 0,047 0,040 0,036 0,032 0,028 0,023 0,018
158