Sunteți pe pagina 1din 159

Referenţi ştiinţifici

Conf.univ.dr.ing. Radu CENUŞĂ


Prof.univ.dr.ing. Norocel Valeriu NICOLESCU

Descrierea CIP a Bibliotecii Naţionale a României


HORODNIC, SERGIU ANDREI
Elemente de biostatistică forestieră / Sergiu
Horodnic. - Suceava: Editura Universităţii din Suceava,
2004
Bibliogr.
ISBN 973-666-135-0

630

Tehnoredactare computerizată: Sergiu HORODNIC


Tiparul executat la Tipografia S.C. ROF S.A. Suceava
str. Mărăşeşti 7A, tel.: 0230-523476; 0230-520237
GSM: 0745/585954
SERGIU HORODNIC

ELEMENTE DE
BIOSTATISTICĂ
FORESTIERĂ
Prin particularităţile obiectului de studiu, biostatistica utilizează
o gamă de noţiuni specifice propriilor metode de culegere, prelucrare,
analiză şi interpretare a datelor experimentale.
Cunoaşterea semnificaţiei şi importanţei acestora asigură fondul
necesar pentru înţelegerea în profunzime a modului de aplicare a
algoritmilor de calcul statistic.
Lucrarea nu tratează exhaustiv problematica abordată, ci
urmăreşte în primul rând cuprinderea acelor aspecte care-şi găsesc o
largă utilizare în activitatea practică din domeniul forestier.
Prin conţinutul sintetic şi modern, lucrarea se adresează celor
care doresc să cunoască şi să aplice corect metodele de cercetare
statistică şi mai ales studenţilor facultăţilor cu profil forestier şi
personalului de specialitate care îşi desfăşoară activitatea în
silvicultură.

Autorul

3
CUPRINS

1. NOŢIUNI INTRODUCTIVE ........................................................................7


1.1 SCURT ISTORIC ............................................................................................8
1.2 LOCALIZAREA STATISTICII ..........................................................................8
1.3 TERMINOLOGIE ........................................................................................10
2. ÎNREGISTRAREA ŞI PRELUCRAREA PRIMARĂ A
OBSERVAŢIILOR ........................................................................................12
2.1 SUCCESIUNEA OPERAŢIILOR DE FORMARE A UNEI SERII DE
DISTRIBUŢIE ............................................................................................12
2.2 REPREZENTAREA GRAFICĂ A SERIILOR DE DISTRIBUŢIE EMPIRICE ..........15
3. ANALIZA DISTRIBUŢIILOR EXPERIMENTALE...................................18
3.1 MOMENTELE ............................................................................................18
3.2 INDICATORII TENDINŢEI CENTRALE ........................................................20
3.2.1 Mediile ................................................................................................20
3.2.2 Mediana ..............................................................................................23
3.2.3 Cuartilele.............................................................................................25
3.2.4 Modul .................................................................................................26
3.2.5 Relaţii între indicii de poziţie ...............................................................27
3.3 INDICATORII VARIABILITĂŢII (DISPERSIEI) ...............................................28
3.3.1 Varianţa ..............................................................................................28
3.3.2 Abaterea standard ...............................................................................29
3.3.3 Coeficientul de variaţie ........................................................................29
3.4 INDICATORII FORMEI DISTRIBUŢIILOR EXPERIMENTALE .........................30
3.4.1 Indicele asimetriei................................................................................30
3.4.2 Indicele excesului ................................................................................32
3.5 CRITERII DE ELIMINARE A OBSERVAŢIILOR EXTREME..............................33
4. DISTRIBUŢII TEORETICE FRECVENT FOLOSITE ÎN ANALIZA
STATISTICĂ A FENOMENELOR DIN SILVICULTURĂ.........................36
4.1 DISTRIBUŢIA TEORETICĂ NORMALĂ (GAUSS-LAPLACE) ...........................38
4.2 DISTRIBUŢIA TEORETICĂ CHARLIER (TIP A) .............................................43
4.3 DISTRIBUŢIA BINOMIALĂ ..........................................................................44
4.4 DISTRIBUŢIA POISSON ..............................................................................45
4.5 DISTRIBUŢIA BETA ...................................................................................46
4.6 ALTE FUNCŢII DIN SISTEMUL DISTRIBUŢIILOR LUI PEARSON ...................48
4.7 DISTRIBUŢIA GAMMA ...............................................................................49
4.8 DISTRIBUŢIA WEIBULL .............................................................................52
4.9 ALTE DISTRIBUŢII DESCRESCĂTOARE .......................................................54
5. TEHNICA SONDAJULUI ...........................................................................55

4
5.1 METODA SELECTIVĂ .................................................................................55
5.2 METODA SECVENŢIALĂ ............................................................................66
6. VERIFICAREA IPOTEZELOR STATISTICE...........................................70
6.1 TESTE STATISTICE .....................................................................................70
6.2 REPARTIŢII UTILIZATE PENTRU TESTĂRI ..................................................72
6.2.1 Repartiţia normală ...............................................................................72
6.2.2 Repartiţia t (Student) ...........................................................................72
6.2.3 Repartiţia F (Fisher) ............................................................................72
6.2.4 Repartiţia χ2 ........................................................................................73
6.3 VERIFICAREA CONCORDANŢEI DINTRE DISTRIBUŢIA EXPERIMENTALĂ
ŞI CEA TEORETICĂ ...................................................................................73
6.4 EXAMINAREA SEMNIFICAŢIEI DIFERENŢEI DINTRE DISPERSII .................75
6.4.1 Compararea unei dispersii experimentale (s2) cu o dispersie teoretică
cunoscută (σ2)....................................................................................75
6.4.2 Verificarea semnificaţiei diferenţei dintre două dispersii
experimentale ....................................................................................75
6.4.3 Verificarea omogenităţii mai multor dispersii.......................................76
6.5 TESTE DE CONFORMITATE. COMPARAREA MEDIILOR ..............................77
6.5.1 Intervalul de încredere al mediei aritmetice..........................................77
6.5.2 Compararea a două medii aritmetice....................................................78
6.6 COMPARAREA EFECTULUI A DOUĂ TRATAMENTE PRIN METODA
CUPLURILOR ............................................................................................80
6.7 EXAMINAREA SEMNIFICAŢIEI DIFERENŢEI DINTRE DOUĂ PROPORŢII .....81
7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA
VARIANŢEI..................................................................................................83
7.1 ECUAŢIA ANALIZEI VARIANŢEI ................................................................83
7.2 ANALIZA SIMPLĂ A VARIANŢEI .................................................................85
8. ANALIZA CORELAŢIEI ............................................................................88
8.1 TIPURI DE LEGĂTURI ÎNTRE VARIABILE ....................................................88
8.2 COEFICIENTUL DE CORELAŢIE .................................................................92
8.2.1 Proprietăţile coeficientului de corelaţie ................................................92
8.2.2 Determinarea coeficientului de corelaţie pentru corelaţia simplă ..........93
8.2.3 Determinarea semnificaţiei coeficientului de corelaţie..........................95
8.2.4 Coeficientul de corelaţie a rangurilor ...................................................97
9. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)..............................101
9.1 CONSIDERAŢII ISTORICE.........................................................................101
9.2 PRINCIPII DE BAZĂ .................................................................................101
9.3 INTERPRETAREA ALGEBRICĂ A ACP.......................................................103
9.4 ESTIMAREA NUMĂRULUI DE COMPONENTE PRINCIPALE ........................116

5
9.5 INTERPRETAREA GEOMETRICĂ A ACP ...................................................117
9.6 DEZAVANTAJE ALE ACP ........................................................................121
9.7 CONCLUZII SINTETICE ASUPRA ACP.......................................................122
10. ANALIZA REGRESIEI............................................................................123
10.1 SUCCESIUNEA ETAPELOR PENTRU ANALIZA REGRESIEI .......................124
10.2 METODE ANALITICE DE DETERMINARE A PARAMETRILOR
ECUAŢIILOR DE REGRESIE .....................................................................125
10.3 INTERVALUL DE ÎNCREDERE PENTRU ECUAŢIA DE REGRESIE..............128
10.4 REGRESIA MULTIPLĂ LINIARĂ ...............................................................129
10.5 TIPURI DE ECUAŢII DE REGRESIE ŞI LIMITĂRILE ACESTORA .................131
10.6 RAPORTUL DE CORELAŢIE ....................................................................136
10.6.1 Determinarea raportului de corelaţie................................................137
10.6.2 Semnificaţia raportului de corelaţie ..................................................138
11. ANALIZA SERIILOR DE TIMP .............................................................140
11.1 AJUSTAREA UNEI SERII CRONOLOGICE .................................................140
11.1.1 Ajustarea grafică prin procedeul punctelor mediane.........................141
11.1.2 Procedeul mediilor centrate .............................................................142
11.1.3 Procedeul mediilor mobile...............................................................142
11.1.4 Analiza componentelor seriilor cronologice.....................................143
11.2 DETERMINAREA FAZEI DE CORELAŢIE .................................................144
11.2.1 Cazul în care cele două caracteristici sunt exprimate în sisteme
diferite de unităţi de măsură .............................................................144
11.2.2 Cazul în care cele două caracteristici sunt exprimate în aceleaşi
unităţi de măsură..............................................................................145
11.3 AUTOCORELAŢIA ..................................................................................146
11.4 ANALIZA ARMONICĂ A SERIILOR CRONOLOGICE..................................147
11.5 FUNCŢII DE CREŞTERE ŞI DEZVOLTARE ................................................149
ANEXE....................................................................................................... 14053

6
1. NOŢIUNI INTRODUCTIVE
Fenomenele simple sunt acele fenomene univoc determinate,
adică au la bază o singură cauză. Fenomenele de masă sunt rezultatul
influenţei comune a unui număr mare de cauze; în cazul acestora, fiecare
individ din cadrul unei populaţii se manifestă diferit în funcţie de modul
în care se asociază factorii sistematici cu cei aleatori (întâmplători), cei
obiectivi cu cei subiectivi. Se manifestă, deci, la nivelul unităţilor
individuale, o mare variabilitate în timp şi în spaţiu.
Conceptul de statistică
Statistica este ştiinţa care se ocupă cu descrierea şi analiza
numerică a fenomenelor de masă, dezvăluind particularităţile lor
de volum, structură, dinamică, conexiune, precum şi legile ce le
guvernează.

Fenomenelor de masă le sunt specifice legi, sub formă de


tendinţă, în care abaterile întâmplătoare, într-un sens sau în altul, se
compensează reciproc pentru un număr mare de cazuri individuale luate
în studiu. Aceste legi sunt legi statistice.

Statistica studiază aspectele calitative ale fenomenelor de


masă, fenomene ce sunt supuse legilor statistice, care se
manifestă în condiţii concrete variabile în timp şi spaţiu.

Legile statistice exprimă media stărilor unui ansamblu de


evenimente, cu luarea în considerare a influenţei factorilor întâmplători.
Aceasta reprezintă, deci, o tendinţă predominantă ce poate fi pusă în
evidenţă numai dacă se observă un număr suficient de mare de elemente
ale ansamblului studiat.

7
1.1 Scurt istoric
Termenul statistică derivă din latină (status = stare) şi a fost
folosit pentru prima oară de profesorul german Gottfried Achenwall;
explicaţia acestei etimologii este faptul că în secolele XVII şi XVIII s-a
creat, în Germania mai ales, un curent de gândire care îşi propunea să
descrie situaţia demografică, industrială, comercială şi financiară a
diferitelor state din acea vreme.
În evoluţia statisticii de-a lungul vremii s-au produs numeroase
modificări ale obiectului acesteia şi ale metodelor folosite în funcţie de
necesităţile practice ale momentului şi de baza teoretică de care se
dispunea. Dacă până şi scrierile istorice ale Egiptului antic, ale Greciei
antice sau ale Romei antice conţin rudimente de lucrări statistice cu
caracter descriptiv (mai ales recensăminte), totuşi, prima analiză
statistică a unor date culese în prealabil este datorată lui John Graunt
(1620-1674) în Anglia, secondat de William Petty. Acesta din urmă este
considerat creatorul “aritmeticii politice” care reprezintă studiul
fenomenelor social-economice prin intermediul “cifrelor, al măsurilor şi
al greutăţilor”.
În spiritul şcolii statisticii descriptive se înscrie, în ţările române,
lucrarea lui Dimitrie Cantemir, “Descriptio Moldaviae”.
Începutul statisticii moderne se consideră debutul secolului XX şi
este marcat de momentul apariţiei lucrărilor lui Karl Pearson (1857-1936)
şi ale lui Ronald Aylmer Fisher (1890-1962). K.Pearson a pus bazele
statisticii inductive prin elaborarea testelor privitoare la semnificaţia
diferenţelor dintre valorile calculate şi cele empirice (experimentale).
R.A.Fisher a elaborat teoria riguroasă a sintetizării concluziilor din datele
observate şi a enunţat principiile planificării experimentelor.
1.2 Localizarea statisticii
Statistica a pătruns în toate domeniile ştiinţelor naturii şi ale
ştiinţelor sociale ca un complex de metode ce permit obţinerea unor
concluzii fundamentate teoretic, pe baza observaţiilor sau a
experimentelor efectuate.

Metodele matematice folosite în statistică nu reprezintă un


scop în sine, ci ajută la prelucrarea datelor şi interpretarea
fenomenelor naturale sau sociale studiate.

8
S-au format, astfel, unele discipline de graniţă, cum ar fi:
statistica matematică, statistica fizică, statistica biologică (sau
biostatistica) etc.
În silvicultură, statistica este folosită pentru fundamentarea celor
mai importante probleme specifice.

Organizarea
ALGEBRĂ SOCIAL muncii etc.

ANALIZÃ Economie
ECONOMIC
MATEMATICĂ STATISTICĂ forestieră

Silvicultură,
ŞTIINŢE
Genetică,
TEORIA ALE Împăduriri,
PROBABILITĂŢILOR NATURII Ecologie etc.

Figura 1 Localizarea statisticii şi domenii de aplicabilitate în silvicultură

Biostatistica forestieră reprezintă un complex al metodelor


statisticii matematice utilizate pentru surprinderea, investigarea
şi analiza fenomenelor şi proceselor biologice specifice pădurii.

Motivaţia utilizării acestor metode este dată de faptul că pădurea,


arboretele cu fenomenele ce au loc în interiorul lor, reprezintă
colectivităţi de volum mare ce nu pot fi suficient de bine cercetate în
ansamblul lor. Se recurge, aşadar, la reducerea numărului observaţiilor,
constituindu-se colectivităţi mai mici, indicatorii statistici rezultaţi fiind
extrapolaţi, după regulile biostatisticii, la întreaga populaţie iniţială
studiată.
Folosirea metodelor statisticii matematice în silvicultură:
ƒ înlesneşte trecerea de la observaţii la concluzii ştiinţific
fundamentate;
ƒ contribuie la o analiză riguroasă a fenomenelor studiate;
ƒ permite obţinerea unor informaţii suficient de precise cu efort şi
cheltuială minime;
ƒ dă posibilitatea prelucrării obiective şi eficiente a datelor rezultate
din observaţii şi experimente.

9
1.3 Terminologie
Colectivitatea statistică (populaţia) reprezintă o mulţime finită
sau infinită formată din unităţi statistice calitativ omogene (cu una sau
mai multe însuşiri comune). Exemple:
• arborii dintr-un arboret;
• totalitatea seminţelor dintr-un arbore;
• numărul exemplarelor de vânat din aceeaşi specie aflate pe un teritoriu
dat etc.
În funcţie de volumul observaţiilor (numărul observaţiilor),
colectivitatea poate fi generală sau de selecţie (probă, sondaj, eşantion).
Colectivitatea de selecţie reprezintă o parte din populaţie extrasă după
anumite criterii, în vederea cercetării uneia sau a mai multor
caracteristici.
Elementele colectivităţii sunt unităţile statistice. O unitate
statistică reprezintă cea mai mică entitate luată în considerare în raport cu
scopul cercetării; aceasta poate fi simplă (de exemplu, un arbore) sau
complexă (un lot de arbori, de exemplu).
Particularităţile colectivităţii statistice sunt determinate de
însuşirile esenţiale comune tuturor unităţilor componente. Acestea
formează obiectul cercetării şi sunt denumite caracteristici (de exemplu,
diametrul de bază al arborelui, înălţimea arborelui). După natura lor,
caracteristicile pot fi calitative sau cantitative.
Caracteristicile calitative (atributive) nu se pot exprima numeric
decât printr-o codificare adecvată (culoarea ritidomului, starea de
vegetaţie, gradul de uscare etc.).
Caracteristicile cantitative se exprimă prin valori numerice
obţinute prin măsurători (diametru, înălţime) sau prin numărare (număr
de arbori).
Valoarea cu care s-a înregistrat caracteristica unei unităţi statistice
reprezintă valoarea observată sau varianta.
În silvicultură, caracteristicile cantitative variază în limite destul
de mari, fluctuaţie denumită variaţie, variabilitate sau împrăştiere.
Caracteristicile cantitative supuse variabilităţii poartă denumirea de
variabile. Variabilele sunt continue, atunci când pot lua orice valoare
dintr-un interval dat, sau discontinue (discrete), când pot lua numai
anumite valori din intervalul respectiv (de exemplu, numai valori întregi).
Probabilitatea producerii unui eveniment este raportul dintre
numărul de cazuri favorabile (n) şi numărul total de cazuri posibile (N):
n
P( E ) = (1.1)
N

10
Probabilitatea unui eveniment imposibil este 0, iar probabilitatea
unui eveniment sigur este 1. Dacă se notează cu p probabilitatea realizării
unui eveniment şi cu q, probabilitatea nerealizării lui (probabilitatea
realizării evenimentului contrar), se pot scrie relaţiile:
p + q = 1(100%) (1.2)
p = 1− q (1.3)
q = 1− p (1.4)

Etapele cercetării statistice


Privită ca un proces complex, cercetarea statistică se
realizează în trei etape:
ƒ observarea sau măsurarea (culegerea datelor din teren),
ƒ prelucrarea informaţiilor prin diferite procedee statistico-
matematice în vederea obţinerii unor indicatori,
ƒ analiza şi interpretarea rezultatelor şi desprinderea unor
concluzii.

Evident, înainte de efectuarea cercetării trebuie clarificate scopul


şi obiectul cercetării. Obiectul cercetării se stabileşte în funcţie de scop
şi trebuie delimitat nu numai ca volum (număr de unităţi ce urmează a fi
cercetate), ci şi în timp şi spaţiu. Aceasta presupune stabilirea mărimii
colectivităţii, a locului de efectuare a lucrărilor, a perioadei de cercetare,
a modului de culegere şi prelucrare a observaţiilor. Se stabilesc, deci,
criterii unitare de selectare, de măsurare şi de notare. Se impune
întocmirea unui plan de organizare a întregii cercetări care constituie
metodologia cercetării.

11
2. ÎNREGISTRAREA ŞI PRELUCRAREA PRIMARĂ A
OBSERVAŢIILOR
Datele obţinute pe baza observaţiilor sau a măsurătorilor efectuate
se înregistrează în fişe de observare sau pe formulare-listă. Aceasta
constituie evidenţa primară.
Fişa reprezintă înregistrarea unei singure unităţi din colectivitate
cu toate caracteristicile prevăzute în planul observării.
În formularele-listă sunt înregistrate mai multe unităţi. Se optează
pentru una dintre aceste forme de înregistrare în funcţie de numărul
caracteristicilor urmărite şi de variabilitatea acestora.
Totalitatea valorilor observate (pentru o anumită caracteristică) în
cadrul colectivităţii cercetate, centralizate tabelar, constituie şirul
statistic. Materialul cifric al unui şir statistic se poate înregistra în ordinea
observării sau în ordine crescătoare sau descrescătoare. În cadrul
valorilor observate, prin examinarea şirului statistic se pot identifica: o
valoare minimă şi una maximă. Diferenţa dintre valoarea maximă (xmax)
şi cea minimă (xmin) se numeşte amplitudinea de variaţie a şirului
statistic:
w = x max − x min . (2.1)
2.1 Succesiunea operaţiilor de formare a unei serii de distribuţie
Considerente legate de nevoia obţinerii unei imagini de ansamblu
asupra colectivităţii studiate conduc la gruparea valorilor observate în
clase şi reprezentarea lor tabelară (tabelul 1). Ca efect al grupării rezultă
seria de distribuţie sau de repartiţie.

O serie de distribuţie este formată din două şiruri statistice:


- valorile observate redate prin limitele claselor sau prin
centrul lor,
- frecvenţele absolute (simple sau cumulate) sau frecvenţele
relative (simple sau cumulate).

Elementele seriei de distribuţie sunt:


• limitele clasei: inferioară şi superioară. Toate valorile observate
cuprinse între limite se trec în clasa respectivă. Astfel, fiecărei valori
individuale i se atribuie o singură valoare (centrul clasei). Datorită
acestei rotunjiri se produc erori, denumite erori de grupare în clase, cu
atât mai mari cu cât amplitudinea clasei este mai mare.

12
• amplitudinea unei clase (mărimea clasei) calculată ca diferenţă dintre
limite.
• amplitudinea de variaţie: diferenţa dintre valoarea maximă şi valoarea
minimă din şirul statistic.
• frecvenţa absolută (ni) a clasei: numărul unităţilor statistice
corespunzătoare unei clase.
• volumul colectivităţii (N): numărul total de unităţi cercetate (N=Σni).
• frecvenţa relativă: raportul dintre frecvenţa absolută şi volumul
colectivităţii, exprimat în valori absolute sau în procente (fi=ni/N).
Frecvenţele absolute sau cele relative pot fi cumulate din aproape
în aproape, ajungându-se la stabilirea distribuţiei frecvenţelor cumulate.
Distribuţiile de frecvenţă pot fi empirice (experimentale) sau
teoretice. Cele empirice rezultă din cercetările experimentale, iar cele
teoretice corespund unor legi de probabilitate cunoscute.
Seria de distribuţie formată în raport cu o caracteristică cantitativă
se numeşte serie de variaţie, iar cea formată în raport cu timpul, serie
dinamică sau cronologică.
Succesiunea operaţiilor de formare a unei serii de distribuţie este
următoarea:
9 calculul amplitudinii w a şirului statistic;
9 determinarea grupelor de valori, deci a numărului de clase, în
funcţie de omogenitatea colectivităţii şi de natura fenomenului studiat.
Fixarea intervalelor de grupare include segmentarea mai mult sau
mai puţin arbitrară a câmpului de variaţie a caracteristicii studiate. Astfel,
o scară greşit aleasă poate schimba complet aspectul repartiţiei.
Pentru un număr mai mic de 50 de unităţi în cadrul probei, nu este
indicată gruparea în clase.
Numărul de clase (k) poate fi determinat cu relaţia empirică a lui
Sturges:
10
k = 1 + lg N , (2.2)
3
N fiind volumul probei.
Cu notaţiile anterioare, se poate aplica şi relaţia:
k = 5 ⋅ lg N , (2.3)
sau pot fi utilizate tabele de corespondenţă de tipul celui de mai jos, cu
valori determinate, de asemenea, experimental:

N 50 100 500 1000 10000


k 8 10 13 15 20

13
Pentru situaţiile din silvicultură s-a dovedit corespunzător un
număr de 10÷15 clase. Un număr mic de clase implică o micşorare a
preciziei, iar un număr prea mare duce la prelucrări greoaie şi nu permite
diferenţierea cu claritate a caracteristicilor distribuţiei empirice.
9 determinarea mărimii clasei (intervalul clasei, amplitudinea clasei);
trebuie echilibrate următoarele două cerinţe:
ƒ se recomandă ca intervalele să nu fie prea largi, pentru că ar produce
o pierdere de informaţie şi ar disimula unele particularităţi ale
repartiţiei (micşorează precizia rezultatelor);
ƒ mărimea clasei nu trebuie să fie prea mică pentru că nu se elimină,
astfel, iregularităţile accidentale şi, în plus, se complică fără folos
calculele.
w x − x min
a = = max . (2.4)
k k

Dacă numărul de clase nu este cunoscut, se folosesc relaţii


empirice, de exemplu:
x − x min 1
a = max sau a = f ( x max − x min ) , (2.5)
10 100
1 + lg N
3
în care f este un factor empiric care depinde de N.
Pentru comoditatea calculelor se adoptă, pentru o clasă, un
interval rotunjit, ceea ce duce la modificarea numărului de clase stabilit
anterior.
Intervalele claselor pot fi egale sau inegale (mărimea clasei poate
fi constantă sau, respectiv, variabilă). Este preferabilă repartiţia pe o
scară cu intervale egale, frecvenţele diferitelor clase fiind astfel
comparabile între ele şi adecvate calculelor ulterioare. Gruparea pe clase
inegale este mai simplă, dar acestea nu sunt caracteristice colectivităţii
studiate şi, în plus, presupun prelucrări statistice ulterioare speciale.

Cu cât se măreşte amplitudinea claselor, cu atât se


simplifică mai mult calculele, dar se deformează mai accentuat
distribuţia.

Ca un exemplu de alegere a mărimii claselor, pentru caracteristica


diametru al arborilor, a=1 cm pentru lucrări de cercetare (mai
pretenţioase) şi a=2÷4 cm pentru lucrări curente de producţie.

14
În cazul unui arboret echien de molid în vârstă de 70 ani s-a
măsurat caracteristica diametru de bază pentru 144 arbori. Prin gruparea
valorilor experimentale în clase cu amplitudinea de 4 cm, a rezultat
distribuţia experimentală din tabelul următor.
Tabelul 1. Distribuţia experimentală pentru caracteristica diametru de bază
Valori observate Frecvenţe Frecvenţe
Nr. Frecvenţe absolute Frecvenţe relative
crt. limitele centrul absolute cumulate relative cumulate
clasei clasei (ni) (Σni) (fi=ni/N) (Σfi)
1. 26,1-30,0 28 4 4 0,028 0,028
2. 30,1-34,0 32 9 13 0,063 0,090
3. 34,1-38,0 36 18 31 0,125 0,215
4. 38,1-42,0 40 32 63 0,222 0,438
5. 42,1-46,0 44 21 84 0,146 0,583
6. 46,1-50,0 48 21 105 0,146 0,729
7. 50,1-54,0 52 17 122 0,118 0,847
8. 54,1-58,0 56 11 133 0,076 0,924
9. 58,1-62,0 60 5 138 0,035 0,958
10. 62,1-66,0 64 4 142 0,028 0,986
11. 66,1-70,0 68 2 144 0,014 1,000
TOTAL 144 1,000

2.2 Reprezentarea grafică a seriilor de distribuţie empirice


Pentru a pune în evidenţă caracterul variaţiei fenomenului studiat,
seriile de distribuţie se reprezintă grafic. Se obţine, astfel, o primă
imagine a formei şi structurii colectivităţii studiate. Pentru distribuţia
experimentală din exemplul anterior, se pot realiza (figurile 2, 3 şi 4):
histograma, poligonul de frecvenţă şi curba frecvenţelor cumulate
(ogiva).

Figura 2. Poligonul frecvenţelor absolute

15
Figura 3. Histograma frecvenţelor absolute

Figura 4. Ogiva frecvenţelor absolute cumulate

Br: 25%
Mo: 25% Br: 25%
Mo: 5%

Fa: 50% Fa: 50%

Figura 5. Diagrame de structură


Diagramele de structură reprezintă o formă specială de grafice,
foarte ilustrativă, în care frecvenţele sunt reprezentate prin dreptunghiuri
sau sectoare de cerc, ale căror înălţimi, respectiv unghiuri la centru, sunt
proporţionale cu frecvenţele respective.

16
De exemplu, structura pe specii a unui arboret poate fi redată
grafic în modalitatea prezentată în figura 5.
Distribuţiile discontinue se reprezintă, de obicei, prin histograme.
Pentru distribuţiile continue se poate folosi orice mod de reprezentare
grafică.
Graficele pot avea scări uniforme sau scări funcţionale
(neuniforme). Scara aritmetică (naturală) traduce proporţionalitatea
între numerele xi, yi şi lungimile absciselor şi ordonatelor în reprezentare
rectangulară.
Scara logaritmică, scară funcţională, traduce proporţionalitatea
dintre logaritmii numerelor xi şi yi şi lungimile absciselor şi ordonatelor.
În primul caz, intervalul corespunzător unei unităţi rămâne acelaşi pe
întreaga lungime a scării; în celălalt caz, intervalele grafice (segmentele
dintre punctele cotate) sunt inegale. Frecvent folosite în cercetare sunt
graficele cu reţele semilogaritmice.
Reţelele funcţionale se folosesc, în general, pentru transformarea
unei curbe într-o dreaptă (anamorfoză grafică), procedeu ce prezintă
unele avantaje:
ƒ dreapta se poate construi mai uşor;
ƒ dreapta permite o interpolare sau o extrapolare grafică mai uşoară.
Reţelele funcţionale se folosesc în următoarele situaţii:
ƒ când se compară două fenomene cu niveluri foarte diferite de
manifestare;
ƒ când se reprezintă un fenomen al cărui interval de variaţie este
foarte mare.

17
3. ANALIZA DISTRIBUŢIILOR EXPERIMENTALE
Pentru caracterizarea fenomenelor de masă, statistica a elaborat
metodologii şi tehnici specifice. Proprietatea principală a fenomenelor de
masă o reprezintă variabilitatea formelor individuale şi de manifestare în
timp şi în spaţiu.
Indicatorul statistic este expresia numerică a unor fenomene,
procese, activităţi sau categorii economice sau sociale. Acesta este
purtător de informaţii cu conţinut real, obiectiv determinat.

Indicatorii statistici sunt utilizaţi pentru caracterizarea


volumului şi structurii unor procese şi fenomene de masă.

Funcţiile indicatorilor statistici sunt:


ƒ funcţia de măsurare a aspectelor cantitative ale fenomenelor;
ƒ funcţia de comparare utilizată pentru cunoaşterea modificărilor de
volum, structură şi dinamică ale fenomenelor;
ƒ funcţia de analiză folosită pentru aprecierea conţinutului real al
analizei statistice, depistând şi eliminând cazurile care se
îndepărtează semnificativ de la legitatea de variaţie;
ƒ funcţia de sinteză, legată de necesitatea sintetizării valorilor
individuale într-o singură expresie numerică;
ƒ funcţia de estimare;
ƒ funcţia de verificare a ipotezelor şi de testare a parametrilor
utilizaţi.
3.1 Momentele
Momentele sunt valori care sintetizează o repartiţie şi, cu toate că
nu reprezintă indicatori statistici de sine stătători, permit precizarea
anumitor caracteristici ale repartiţiei; aceste valori odată calculate,
facilitează determinarea unor indicatori statistici de bază.
Termenul “momente” a fost împrumutat din mecanică unde este
folosit pentru a descrie distribuţia de mase.
Momentul de ordinul p al variabilei X în raport cu o valoare x0
reprezintă media aritmetică a diferenţelor xi - x0 , ridicate la puterea p:
∑ ni ( x i − x 0 ) .
p

mp = (3.1)
∑ ni
În practică se utilizează aproape exclusiv momentele în raport cu
originea (x0=0) şi momentele în raport cu media aritmetică (x0= x ).

18
Momentul simplu ( m 'p ) reprezintă momentul calculat în raport cu
originea măsurătorilor (x0=0):

m '
=
∑n x i i
p

. (3.2)
∑n
p
i

Momentul centrat (μp) este momentul calculat în raport cu media


aritmetică a repartiţiei (x0= x ):
∑ n (x − x )
p

μp =
i i
. (3.3)
∑n i

Momentele uzuale, atât cele simple cât şi cele centrate, sunt


cele de ordinele 1, 2, 3 şi 4. În particular, momentul simplu de
ordinul 1 se confundă cu media aritmetică, momentul centrat de
ordinul 1 este nul (vezi proprietăţile mediei aritmetice) şi
momentul centrat de ordinul 2 aproximează varianţa.

Primele patru momente ale repartiţiei de frecvenţe sunt, în cea


mai mare parte a cazurilor, suficiente pentru a descrie caracteristicile
principale ale acesteia. Din aceste momente sunt derivaţi şi indicatorii
asimetriei şi excesului.
Între momentele simple şi cele centrate uzuale există relaţiile:
μ1=0 ; (3.4)
2
μ2= m2' − m1' ; (3.5)
3
μ3= m3' − 3m1' m2' + 2m1' ; (3.6)
'2 '4
μ4= m4' − 4m1' m3' + 6m1 m2' − 3m1 . (3.7)
În cazul momentelor calculate pentru repartiţii pe clase de valori,
pentru a corecta eroarea sistematică introdusă prin substituirea valorilor
reale ale caracteristicii studiate prin centrele de clasă, trebuie să se aplice
corecţiile lui Sheppard.
Formulele de calcul pentru momentele corectate pornind de la
momentele brute calculate anterior sunt:
μ '2 =μ 2 − 1 a 2 ; (3.8)
12
1 7 4
μ '4 =μ 4 − μ 2 a 2 + a , (3.9)
2 240

19
în care a reprezintă amplitudinea, presupusă egală, a claselor.
Relaţiile anterioare pot fi aplicate în cazul unei repartiţii
unimodale (“în clopot”) cu intervalul de clasă constant, frecvenţa tinzând
către zero în ambele direcţii.
Corecţiile lui Sheppard nu sunt aplicabile:
ƒ repartiţiilor pe valori distincte (negrupate în clase), pentru că
dispare motivaţia corecţiilor;
ƒ repartiţiilor în formă de “J” sau “U” sau chiar formelor puternic
asimetrice (oblice);
ƒ momentelor centrate de ordin impar, deoarece alternările de semne
duc la compensarea erorilor; în particular, în repartiţiile perfect
simetrice, momentele de ordin impar sunt nule.
Momentele centrate de ordin par sunt, în general, supraestimate
atunci când se calculează pentru repartiţii pe clase de valori, de unde şi
necesitatea corecţiei în sensul menţionat.
3.2 Indicatorii tendinţei centrale
Aceşti indicatori (denumiţi şi indici de poziţie) sintetizează
valorile centrale ale distribuţiei şi oferă o reprezentare simplificată a unei
distribuţii empirice de frecvenţe prin determinarea unei tendinţe centrale
(zona din intervalul de variaţie al caracteristicii studiate în care tind să se
concentreze valorile incluse în şirul statistic).
Valorile medii sau valorile centrale se determină pentru
colectivităţi statistice omogene (este necesar, în prealabil, un test de
omogenitate); aceste valori medii se modifică odată cu modificarea
valorii oricărui element al seriei statistice.
Media este denumită şi speranţă matematică şi reprezintă
valoarea cu care s-ar putea înlocui toţi termenii unei serii de distribuţie
dacă aceştia nu ar fi supuşi unor factori complecşi de influenţă care-i
diferenţiază.
Pentru caracterizarea unei distribuţii se pot calcula, teoretic, multe
tipuri de medii. În domeniul forestier se folosesc numai câteva, mai
importante.
3.2.1 Mediile
După modul de calcul, mediile pot fi simple sau ponderate
(atunci când utilizează produsele dintre frecvenţe şi valorile observate).
Relaţiile de calcul diferă, astfel, după cum valorile observate sunt
grupate sau nu în clase.
Media aritmetică este cel mai utilizat indice al tendinţei centrale.

20
Relaţiile de calcul sunt:
- pentru valori negrupate - pentru valori grupate în clase
N k

∑ xi ∑n x i i
x= 1
x= 1
k
(3.10)
N
∑n 1
i

relaţii în care:
x este media aritmetică a unei probe (eşantion),
xi – valorile individuale ale caracteristicii x, în primul caz, sau centrul
clasei i, în cel de-al doilea;
ni – frecvenţa absolută a clasei i;
k – numărul de clase.
Tabelul 2. Calculul mediei aritmetice
pentru valori grupate în clase
Centrul
clasei ni ni ⋅ xi
(cm)
28 4 112
32 9 288
36 18 648
40 32 1280
44 21 924
48 21 1008
52 17 884
56 11 616
60 5 300
64 4 256
68 2 136
TOTAL 144 6452
Pentru exemplul de distribuţie experimentală considerat anterior
(tabelele 1 şi 2) media aritmetică este:
6452
x= = 44,81 cm. (3.11)
144
Media aritmetică a întregii populaţii se notează cu μ şi se poate
calcula cu exactitate numai după determinarea valorilor caracteristicii
studiate pentru toţi indivizii din colectivitatea generală.
Proprietăţi ale mediei aritmetice:
- suma algebrică a diferenţelor dintre fiecare observaţie în parte şi
media aritmetică este egală cu 0;

21
- suma pătratelor abaterilor valorilor individuale faţă de medie
reprezintă un minim (este mai mică decât suma pătratelor abaterilor
faţă de oricare altă valoare diferită de media aritmetică).
Aceste proprietăţi sunt utilizate pentru numeroase aplicaţii în
statistică.
Media aritmetică este cu atât mai reprezentativă cu cât diferenţa
dintre aceasta şi mediană (un alt indice de poziţie) este mai mică. Media
aritmetică este mai puţin stabilă, fiind foarte mult influenţată de valorile
extreme ale distribuţiei.
Atunci când se calculează mai multe medii aritmetice
x1 , x 2 , x3 ,..., pentru probe extrase din aceeaşi populaţie, volumele
probelor fiind N1, N2, N3,..., se poate calcula, în condiţii bine precizate
statistic, media generală:
x N + x 2 N 2 + ...
x= 1 1 (3.12)
N 1 + N 2 + ...
Calculul şi folosirea mediei generale x este admisă numai după
ce s-a verificat dacă mediile probelor ( xi ) reprezintă estimaţii ale
aceleiaşi medii generale, μ, a populaţiei.
Media armonică ( x h ) se determină cu relaţiile:
- pentru valori negrupate - pentru valori grupate în clase
k

N
∑n i
xh = xh = 1
(3.13)
N
⎛1⎞ k
⎛ ni ⎞
∑1 ⎜⎜ x
⎟⎟ ∑1 ⎜⎜ x ⎟⎟
⎝ i⎠ ⎝ i⎠
Este folosită, de exemplu, în economia forestieră pentru calculul
randamentului.
Media geometrică ( x g ) este valoarea pozitivă a rădăcinilor de
ordinul N din produsul a N valori observate:
- pentru valori negrupate - pentru valori grupate în clase
N k
xg = N
∏ xi
1
x g = N ∏ xini
1
(3.14)

Se foloseşte atunci când valorile observate sunt aranjate într-o


progresie geometrică sau au un ritm exponenţial de variaţie (de exemplu,
în economia forestieră, pentru determinarea ritmurilor medii de creştere a
producţiei).

22
Mediile de ordin superior ( x p ):
- pentru valori negrupate - pentru valori grupate în clase
N k

p ∑ xip ∑n x i i
p

xp = 1
xp = p
1
k
(3.15)
N
∑n 1
i

Reprezintă rădăcinile de ordin p ale raportului dintre suma


valorilor observate, ridicate la puterea p, şi numărul acestora ; pentru p=
2,3,... se obţin: media pătratică ( x 2 ), media cubică ( x3 ), .…În relaţii s-a
notat numărul de clase cu k.
Se utilizează atunci când se acordă o importanţă mai mare
nivelurilor mai ridicate ale seriei statistice.

Relaţie între medii!

xh ≤ xg ≤ x ≤ x2 ≤ x3

Deoarece media unei caracteristici se determină pentru un număr


limitat de observaţii, valoarea ei este afectată de o eroare de estimaţie a
adevăratei medii μ a populaţiei întregi.
Pentru media aritmetică:
s
sx = , (3.16)
N
în care s x reprezintă eroarea (abaterea) standard a mediei aritmetice, s
este abaterea standard a caracteristicii studiate, iar N, volumul
colectivităţii.
Pentru un număr mare de valori observate, s x va fi mai mică, iar
media calculată pe baza probelor se va apropia mai mult de media μ a
întregii populaţii.
3.2.2 Mediana
În afara mediilor propriu-zise interesează, din punct de vedere
statistic, şi calcularea unor medii de structură (mediana, cuartilele,
modul şi valoarea centrală). Acestea se utilizează mai ales pentru
distribuţii asimetrice.
Mediana (Me) este valoarea dintr-o serie statistică ce împarte
volumul populaţiei (N) în două părţi egale.

23
Pentru şirurile statistice (valori negrupate în clase), există două
situaţii:
• şirul statistic are un număr impar de termeni (N); în acest caz mediana
N +1
corespunde variantei de rangul , rangul fiind numărul ce indică
2
poziţia unei observaţii în cadrul unui şir ordonat în raport cu un
anumit criteriu. De exemplu pentru şirul statistic 8,9,10,11,13,14,16,
7 +1
rangul medianei este = 4 , deci mediana are valoarea Me=11;
2
• şirul statistic are un număr par de termeni (N); mediana se calculează
N
ca medie aritmetică a valorilor de rangul k şi k+1 (unde k = ):
2
x + x k +1
Me = k . (3.17)
2
Pentru seriile cu valori grupate în clase, mediana poate fi
determinată analitic sau grafic.
Determinarea analitică a medianei înseamnă aplicarea relaţiei:
⎛N ⎞
a⎜ − S n ⎟
2
Me = x Me + ⎝ ⎠, (3.18)
n Me
în care:
xMe este limita inferioară a clasei mediane (cea care, în şirul frecvenţelor
absolute cumulate, reprezintă prima valoare mai mare decât N/2);
a - mărimea clasei;
N - volumul probei;
Sn - frecvenţa absolută cumulată până la clasa imediat inferioară celei
mediane;
nMe - frecvenţa absolută a clasei mediane.
Pentru distribuţia experimentală a diametrelor de bază din
exemplul anterior, cu notaţiile din figura 7, mediana este:
4 ⋅ (72 − 63)
Me = 42 + = 43,71 cm. (3.19)
21
Determinarea grafică a medianei se poate face pe graficul
frecvenţelor cumulate, absolute sau relative, în care aceasta corespunde
N 1
valorii (figura 4), respectiv, lui .
2 2
Mediana prezintă o stabilitate mai mare decât media aritmetică
pentru că depinde mai puţin de valorile extreme ale seriei statistice.
Aceasta dă informaţii utile şi în cazul distribuţiilor mai puţin omogene.

24
Un caz particular îl constituie mediana pătratică (Mep), utilizată
în dendrometrie pentru calculul diametrului central al suprafeţei de bază.
⎛ k ⎞
⎜ ∑ ni xi2 ⎟
a⋅ ⎜ 1 ' ⎟
− Sn
⎜ 2 ⎟
⎜ ⎟
Mep = x Mep + ⎝ ⎠. (3.20)
2
(ni xi ) Mep
Aşa cum se observă, se calculează asemănător cu mediana (Me),
însă în funcţie de valorile nixi2 cumulate. Relaţia dintre cele două
mediane este:
Me ≤ Mep . (3.21)
3.2.3 Cuartilele
Cuartilele sunt trei indicatori statistici care împart setul de valori
experimentale în patru părţi egale.
Prima cuartilă (Q1), numită şi cuartila inferioară, delimitează cele
mai mici 25% valori experimentale. Relaţia de calcul a acesteia este:
⎛N ⎞
a ⋅ ⎜ − ∑ ni' ⎟
4
Q1 = x0' + ⎝ ⎠, (3.22)
nQ1
în care:
x0' este limita inferioară a clasei în care se găseşte N/4,
∑n '
i - frecvenţele absolute cumulate până la clasa lui Q1,
nQ1 - frecvenţa absolută a clasei în care se află Q1.
Cea de-a doua cuartilă (Q2) este egală cu mediana.
A treia cuartilă (Q3), numită şi cuartila superioară, delimitează
cele mai mari 25% valori experimentale din distribuţie. Relaţia de calcul
a acesteia este:
⎛ 3N ⎞
a ⋅⎜ − ∑ ni'' ⎟
4
Q3 = x0'' + ⎝ ⎠, (3.23)
nQ3
în care:
x0'' este limita inferioară a clasei în care se găseşte 3N/4,
∑n ''
i - frecvenţele absolute cumulate până la clasa lui Q3,
nQ3 - frecvenţa absolută a clasei în care se află Q3.

25
Intervalul intercuartilic (IRQ) reprezintă diferenţa dintre Q3 şi Q1.
În interiorul acestuia se află 50% dintre valorile experimentale ale
caracteristicii analizate.
Pentru distribuţia experimentală exemplificată anterior, cuartilele
Q1 şi Q3 se determină astfel:
4 ⋅ (36 − 31)
Q1 = 38 + = 38,63 cm, (3.24)
32
4 ⋅ (108 − 105)
Q3 = 50 + = 50,71 cm. (3.25)
17
Se poate obţine o imagine sintetică a dispersiei valorilor
caracteristicii studiate prin redarea grafică, sub forma unei diagrame, a
următorilor indicatori: valoarea minimă (xmin), prima cuartilă, mediana, a
treia cuartilă şi valoarea maximă. Diagrama „boxplot” dă informaţii
asupra amplitudinii datelor (prin valorile extreme), despre tendinţa
centrală (prin mediană) şi despre modul de grupare a valorilor (prin
cuartile). Pentru exemplul considerat, diagrama boxplot este prezentată în
figura 6).

Figura 6. Diagrama tip „boxplot”


3.2.4 Modul
Distribuţiile pot fi unimodale, bimodale, ..., plurimodale, după
numărul de maxime locale pe care le prezintă.
Modul (Mo), numit şi dominantă este acea valoare a caracteris-
ticii studiate cu frecvenţa maximă în distribuţie. Are sens numai în cazul
distribuţiilor unimodale (atunci când modul are o valoare unică), caz în
care corespunde vârfului curbei de frecvenţă.
Acest indice se calculează, evident, numai pentru valori grupate în
clase, cu relaţia:

26
a (n0 − n1 )
Mo = x Mo + , (3.26)
2n0 − n1 − n 2
în care:
xMo este limita inferioară a clasei modale;
n0 - frecvenţa clasei modale;
n1 - frecvenţa clasei inferioare celei modale;
n2 - frecvenţa clasei superioare celei modale.
În exemplul anterior:
4 ⋅ (32 − 18)
Mo = 38 + = 40,24 cm. (3.27)
2 ⋅ 32 − 18 − 21
Determinare grafică a modului se realizează pe poligonul
frecvenţelor absolute sau pe histograma frecvenţelor absolute, ca în
figurile 2 şi 3.

Centrul Frecvenţă absolută


clasei
simplă cumulată
(cm)
28 4 4
32 9 n 1 13
Sn
36 n0 18 31
clasa modală 40 32 63
clasa mediană 44 21 84 N/2
48 nMe 21 n2 105
52 17 122
56 11 133
60 5 138
64 4 142
68 2 144
TOTAL 144 -
Figura 7. Identificarea valorilor necesar
determinării medianei şi modului
3.2.5 Relaţii între indicii de poziţie
Pentru distribuţii apropiate de distribuţia teoretică normală este
valabilă relaţia lui Pearson:
Mo = 3Me -2 x . (3.28)
Modul este folosit şi pentru stabilirea gradului de asimetrie a
distribuţiei experimentale pentru că este direct proporţional cu diferenţa
dintre x şi Me.
Pentru o distribuţie simetrică:
Mo = Me = x . (3.29)

27
- x este indicată a fi folosită pentru distribuţii simetrice;
- Mediana este mai stabilă decât x pentru că depinde mai puţin
de forma distribuţiei;
- Modul este utilizat atunci când nu se ţine seama de variaţiile
distribuţiilor;
- Mediana şi modul, prin poziţia relativă a lor, arată mai bine
tendinţa de concentrare a frecvenţelor din cadrul unei
distribuţii.

3.3 Indicatorii variabilităţii (dispersiei)


Cunoaşterea mediilor sau a altor indicatori ai tendinţei centrale nu
este suficientă pentru a caracteriza o serie statistică. Este necesară,
suplimentar, cunoaşterea variabilităţii caracteristicii studiate, adică a
împrăştierii valorilor faţă de medie sub influenţa unor factori
întâmplători.

Indicii de variaţie sunt utilizaţi pentru a da o imagine


corectă asupra gradului de împrăştiere a valorilor observate în
jurul centrelor de grupare.

Cea mai simplă măsură a variabilităţii valorilor măsurate este


amplitudinea de variaţie (w) calculată cu relaţia 2.1. Este un indice
expeditiv, dar şi destul de imprecis (depinde de valorile extreme).
3.3.1 Varianţa
Denumită şi dispersie (σ2, pentru întreaga populaţie, sau s2,
pentru un eşantion) este măsura cea mai utilizată a variabilităţii. Aceasta
reprezintă o medie a pătratelor abaterilor valorilor observate faţă de
media aritmetică:
- pentru valori negrupate: - pentru valori grupate în clase:

∑ (x ) ∑ n (x )
2 2
i −x i i −x
s 2
= s 2
= (3.30)
N −1 N −1
N-1 reprezentând numărul gradelor de libertate.

28
În practică se utilizează mai mult relaţiile echivalente:
- pentru valori negrupate: - pentru valori grupate în clase:
(∑ x ) 2
(∑ n x ) 2

∑x ∑n x
i i i
2
i − i
2
i −
s =
2 N s =2 N (3.31)
N −1 N −1
Pentru valori mari ale lui N (un număr mare de observaţii) se pot
face aproximaţiile: N≈N-1 şi s2≈μ2=σ2 (varianţa întregii populaţii din care
s-a extras proba analizată).
3.3.2 Abaterea standard
Se notează cu σ, pentru întreaga populaţie, sau cu s, pentru o
probă şi este valoarea pozitivă a rădăcinii pătrate din varianţă:
s= s2 . (3.32)
Se mai numeşte eroare sau abatere medie pătratică. Cu cât
abaterea standard este mai mică, cu atât gradul de împrăştiere a valorilor
caracteristicii studiate este mai redus.
3.3.3 Coeficientul de variaţie
Coeficientul de variaţie (σ % , s% ) este utilizat pentru a face
analiza comparativă între distribuţii cu variabilităţi exprimate în unităţi
de măsură diferite. Este egal cu raportul procentual dintre abaterea
standard şi media aritmetică:
s
s % = ⋅ 100 (%). (3.33)
x
Cu cât coeficientul de variaţie este mai mic, cu atât variabilitatea
caracteristicii este mai mică, colectivitatea mai omogenă, iar media
aritmetică are un grad mai mare de reprezentativitate (afirmaţie valabilă
şi pentru ceilalţi indicatori de variaţie).
Se apreciază că o serie de distribuţie este omogenă dacă valoarea
coeficientului de variaţie nu depăşeşte 30%. În caz contrar se apreciază
că media nu mai este reprezentativă pentru o populaţie considerată
eterogenă.
Pentru distribuţia experimentală a caracteristicii diametrul de bază
din exemplul luat anterior în considerare, valorile indicilor de variaţie
s-au determinat folosind datele din tabelul 3. Astfel:
10930,556
s2 = = 76,4375 cm2; s = 76,4375 = 8,74 cm;
144 − 1
8,74
s% = ⋅ 100 = 19,5 %.
44,81

29
Tabelul 3.Calcule intermediare pentru
determinarea indicilor de variaţie
Centrul
clasei ni ni ⋅ ( xi − x ) 2
28 4 1129,707
32 9 1475,840
36 18 1395,681
40 32 738,988
44 21 13,627
48 21 214,294
52 17 879,921
56 11 1378,471
60 5 1154,356
64 4 1473,707
68 2 1075,965
TOTAL 144 10930,556
x= 44,81

3.4 Indicatorii formei distribuţiilor experimentale


În analiza seriilor de distribuţie empirice o importanţă deosebită o
prezintă compararea mediilor cu ceilalţi indici de poziţie.

O distribuţie se numeşte simetrică sau asimetrică după


cum valorile variabilei sunt egal sau inegal dispersate de o parte
şi de alta a valorii centrale luate în considerare.

În cazul distribuţiilor simetrice, media aritmetică este egală cu


mediana şi cu modul; pe măsură ce distribuţia devine asimetrică, apare o
divergenţă a celor trei indici.
Aşa cum s-a arătat, pentru distribuţiile simetrice sau uşor
asimetrice este valabilă relaţia lui Pearson ( Mo = 3 Me − 2 x ).
3.4.1 Indicele asimetriei
Asimetria (figura 8) se caracterizează printr-o distorsionare a
curbei experimentale pe orizontală în raport cu curba normală (“clopotul
lui Gauss”). Gradul de deplasare se măsoară prin indicele asimetriei (A).
Asimetria poate fi aparentă sau reală. Cea aparentă se datorează
cercetării unei colectivităţi prea mici sau formării defectuoase a claselor.
Ea poate fi înlăturată prin mărirea numărului de observaţii şi gruparea lor
corectă.

30
Asimetria reală se datorează unor factori obiectivi a căror acţiune
nu poate fi înlăturată şi este caracteristică multor fenomene din
silvicultură.

Pentru o distribuţie asimetrică, media aritmetică, datorită


influenţei valorilor extreme, se află întotdeauna în direcţia
ramurii mai lungi a distribuţiei. Modul corespunde vârfului
poligonului de frecvenţe, iar mediana se află întotdeauna între
media aritmetică şi mod.

Pentru estimarea asimetriei se compară media aritmetică şi


modul; sunt posibile trei situaţii:
ƒ x > Mo → asimetrie pozitivă (de stânga), A>0;
ƒ x < Mo → asimetrie negativă (de dreapta), A<0;
ƒ x = Mo → distribuţie simetrică, A=0.
Relaţiile frecvent utilizate pentru determinarea asimetriei sunt:
∑ n (x )
3
i i −x
- relaţia de bază: A= ; (3.34)
N ⋅ s3
x − Mo
- relaţia lui Pearson: A= ; (3.35)
s
μ3
- relaţia momentelor: A= . (3.36)
μ 23
Indicele asimetriei este însoţit de eroarea sa (sA):
6
sA = . (3.37)
N +3

Asimetrie pozitivă (de stânga) Asimetrie negativă (de dreapta)

Figura 8.Tipuri de asimetrie

31
Yule propune un coeficient (Sk) care ia valori în intervalul [-1,
+1] care arată tipul şi mărimea asimetriei. Relaţia de calcul a acestui
coeficient este:
(Q − Me) − (Me − Q1 ) Q3 − 2 ⋅ Me + Q1
Sk = 3 = . (3.38)
(Q3 − Me) + (Me − Q1 ) Q3 − Q1
Cu cât este mai apropiată valoarea lui Sk de 0, cu atât asimetria
este mai redusă (pentru distribuţiile simetrice, Sk=0). Pe măsură ce Sk se
apropie de -1 sau de 1, asimetria este din ce în ce mai pronunţată şi
negativă (de dreapta) sau, respectiv, pozitivă (de stânga).
3.4.2 Indicele excesului
O repartiţie este mai boltită sau mai aplatizată după cum valorile
corespunzătoare unor abateri mici de la valoarea centrală deţin o
proporţie mai mult sau mai puţin însemnată. Această proprietate a
repartiţiei unimodale este denumită exces şi se determină prin
compararea cu curba normală de aceiaşi parametri.
Deci excesul este proprietatea unei curbe de frecvenţă unimodale
de a fi mai ascuţită sau mai aplatizată decât curba normală; acest lucru se
determină prin analiza valorii unui indice de formă denumit indicele
excesului (E).

Figura 9. Tipuri de distribuţii diferenţiate după exces

Relaţiile folosite pentru determinarea excesului sunt:


∑ n (x )
4
i i −x
- relaţia de bază: E= − 3; (3.39)
N ⋅ s4

32
μ4
- relaţia momentelor: E= −3. (3.40)
μ 22
Eroarea excesului (sE) este:
24
sE = . (3.41)
N +5
Pe baza valorilor calculate A, sA, E, sE se poate face o testare
statistică, dovedindu-se prezenţa sau absenţa asimetriei sau a excesului.
A E
Se calculează rapoartele şi .
sA sE
Dacă rapoartele (în modul) sunt mai mici decât 2 se consideră că,
pentru o probabilitate de acoperire de 95%, asimetria, respectiv excesul,
sunt nesemnificative.
Dacă rapoartele sunt mai mari sau egale cu 2, sunt dovedite
asimetria sau excesul (pentru aceeaşi probabilitate de acoperire). Acest
lucru nu trebuie să se considere neapărat un defect sau un fenomen
anormal. Dimpotrivă, există anumite distribuţii specifice unor
caracteristici chiar din domeniul forestier pentru care se pot justifica
teoretic asimetria şi excesul. Exemple:
ƒ distribuţia diametrelor în arborete echiene (asimetrie de stânga);
ƒ distribuţia înălţimilor în arborete echiene (asimetrie de dreapta).
Pentru repartiţia experimentală exemplificată anterior s-au obţinut
următoarele valori ale indicatorilor formei:
A = 0,4147 ; E = −0,2338 ; Sk = 0,1575 .
Erorile indicatorilor formei sunt:
s A = 0,2020 şi s E = 0,4013 .
A E
Se obţin rapoartele: = 2,0527 > 2 şi = 0.5825 < 2 .
sA sE
Se poate spune că, în cazul analizat, asimetria este pozitivă (de
stânga) şi semnificativă, iar excesul este negativ, dar nesemnificativ.
3.5 Criterii de eliminare a observaţiilor extreme
Printre valorile observate sau măsurate pentru caracteristica
studiată, apar uneori unele care se abat foarte mult faţă de majoritate.
Cauza apariţiei valorilor aberante poate fi diversă:
- datorită instrumentelor folosite (decalibrate);
- datorită greşelilor de transmitere şi de înregistrare a datelor;
- datorită neomogenităţii populaţiei studiate.
Este necesar să se excludă din calcule valorile extreme atunci
când prezenţa lor influenţează rezultatele analizei statistice.

33
Nu este admisă, însă, eliminarea arbitrară a valorilor
extreme, mai ales atunci când numărul observaţiilor este redus.

S-au propus mai multe criterii bazate pe teoria probabilităţilor.


Criteriul Chauvenet propune intervalul x ± k ⋅ s în care să se
păstreze valorile şirului statistic ordonate crescător sau descrescător;
orice valoare din afara intervalului se elimină.
x este media aritmetică a valorilor caracteristicii studiate pentru
eşantionul cercetat, s reprezintă abaterea standard a eşantionului, iar k
este un coeficient ce se ia din tabele funcţie de numărul observaţiilor (N).
Criteriul Irwin (testul λ) se foloseşte atunci când se constată că o
valoare din şir se abate mult de la valorile majoritare.
Etapele de aplicare sunt:
ƒ se ordonează valorile şirului statistic;
ƒ se determină abaterea standard (s);
ƒ se calculează:
x − x n −1 x − x1
λ exp = n sau λexp = 2 , (3.42)
s s
unde:
xn (x1) reprezintă valoarea observată maximă (minimă) ce trebuie
verificată,
xn-1 (x2) - valoarea anterioară (următoare) din şirul statistic ordonat
crescător;
ƒ în funcţie de numărul de măsurători şi probabilitatea de acoperire
(p) se extrage din tabele λteoretic.
Dacă λexp≤ λteoretic⇒ valoarea analizată se menţine în şir.
Dacă λexp> λteoretic⇒ valoarea extremă se elimină din şirul
statistic.
Criteriul Grubbs (testul z)
În această situaţie, etapele de aplicare a testului sunt:
- se ordonează datele crescător;
- se calculează x şi s;
- se determină valoarea experimentală a testului z cu una dintre relaţiile:
x −x x − x min
z = max sau z ' = ; (3.43)
s s
- din tabele, în funcţie de q=0,05 şi N (volumul probei) se extrage
valoarea lui zteoretic.

34
Interpretare:
z, z’≤ zteoretic⇒ valoarea extremă nu se elimină;
z, z’> zteoretic⇒ valoarea extremă se elimină.
Criteriul 1,5 IQR
Acest criteriu consideră că este aberantă orice valoare situată la
mai mult de 1,5 din intervalul intercuartilic sub prima cuartilă sau peste
cea de-a treia.

După eliminarea valorilor extreme, toţi indicatorii


statistici calculaţi anterior trebuie recalculaţi

35
4. DISTRIBUŢII TEORETICE FRECVENT FOLOSITE ÎN
ANALIZA STATISTICĂ A FENOMENELOR DIN
SILVICULTURĂ
Distribuţiile de frecvenţă empirice implică date bazate pe
observaţii şi experiment, deci obţinute prin măsurare sau numărare. S-a
constatat că, plecând de la anumite ipoteze generale se pot deduce
matematic unele distribuţii teoretice.

Distribuţiile experimentale reprezintă estimaţii ale unor


distribuţii teoretice definite prin teoria probabilităţilor.
Distribuţiile teoretice servesc drept modele matematice pentru
cele experimentale.

Asimilarea unei distribuţii empirice cu una teoretică prezintă


avantajul că la prelucrarea datelor se pot utiliza proprietăţile matematice
ale acesteia din urmă.
Procesul de înlocuire a unei distribuţii experimentale cu una
teoretică cu aceiaşi parametri se numeşte ajustare; aceasta constă,
practic, în înlocuirea unui set de valori observate cu o funcţie cât mai
apropiată de realitatea fenomenului cercetat.
Pentru o distribuţie teoretică este important să se cunoască atât
funcţia de frecvenţă (de densitate de probabilitate), cât şi cea de
repartiţie.
Legea de variaţie a unei caracteristici continue este bine descrisă
de funcţia sa de repartiţie.

Dacă x este o variabilă aleatoare reală, funcţia de


repartiţie F este definită pentru oricare xi prin relaţia:
F ( xi ) = P ( x < x i ) .

Funcţia de repartiţie măsoară, deci, probabilitatea ca variabila


aleatoare x să fie mai mică decât o anumită valoare de referinţă xi.
Modelul grafic al funcţiei de repartiţie este cel din figura 10.
Probabilitatea ca variabila x să fie mai mică decât un nivel x1 este:
F ( x1 ) = P ( x < x1 ) . (4.1)
Analog pentru x2.

36
Figura 10. Modelul grafic general al funcţiei de repartiţie
şi al funcţiei de densitate

Funcţia de repartiţie are următoarele proprietăţi:


ƒ este o funcţie crescătoare: oricare ar fi x1 şi x2, x2 ≥ x1,
⇒ F(x2) ≥ F(x1);
ƒ dacă F este funcţia de repartiţie a variabilei aleatoare x, atunci
probabilitatea ca x să fie cuprins între două valori x1 şi x2 (cu x2>x1)
se scrie:
P( x1 ≤ x ≤ x 2 ) = F ( x 2 ) − F ( x1 ) ; (4.2)
ƒ este evident faptul că funcţia de repartiţie nu este altceva decât o
probabilitate, deci ia valori în intervalul [0,1];
ƒ atunci când funcţia F are o derivată continuă, aceasta se utilizează
pentru caracterizarea legii de variaţie a lui x şi se numeşte funcţie
de densitate:
dF ( x )
F ' (x ) = = f (x ) ; (4.3)
dx
În acest caz:
F ( x ) = ∫ f ( x ) dx
x
(4.4)
−∞

37
P( x1 ≤ x ≤ x 2 ) = ∫ f ( x ) dx = F ( x 2 ) − F ( x1 ) .
x2
şi (4.5)
x1

Funcţia de densitate are proprietăţile:


ƒ f (x ) ≥ 0 ;
+∞
ƒ ∫ f ( x ) dx = 1 (pe grafic, aria suprafeţei cuprinsă între curba f(x)
−∞
şi axa absciselor este egală cu unitatea).
Valorile tipice mai importante ale unei funcţii de repartiţie sunt
valoarea medie (μ) şi dispersia (σ2):
+∞
μ = ∫ x ⋅ f (x ) dx ; (4.6)
−∞
+∞ 2
σ2 =∫
−∞
(x − μ ) f (x ) dx . (4.7)

Aceste relaţii sunt teoretice şi nu determinate


experimental pentru o anumită caracteristică în urma
măsurătorilor.

4.1 Distribuţia teoretică normală (Gauss-Laplace)


Din repartiţia variabilelor aleatoare s-a ajuns la concluzia că
funcţia de repartiţie normală poate fi luată drept model pentru cercetarea
probabilistică. Funcţia de densitate (densitatea de probabilitate) a
distribuţiei normale are expresia:
( x − μ )2
1 −
f ( x, μ , σ ) = ⋅e 2σ 2
, (4.8)
σ 2π
în care: -∞<x<+∞, μ este media repartiţiei, iar σ este abaterea standard.
“Clopotul lui Gauss” (figura 11) are următoarele proprietăţi:
ƒ admite un maxim pentru x=μ ;
ƒ este simetrică în raport cu μ ;
ƒ modificarea parametrului μ determină deplasarea curbei de-a lungul
axei x fără a-i modifica forma;
ƒ modificarea lui σ duce la lăţirea sau îngustarea curbei fără ca valoarea
lui μ să fie afectată;
ƒ are două puncte de inflexiune, pentru x=μ±σ.
Calculul diferitelor valori ale densităţii de repartiţie f(x) în cazul
unei distribuţii normale cu media μ şi varianţa σ2 este greoi şi necesită
mult timp.

38
Figura 11. Funcţia de densitate a distribuţiei normale
x−μ
De aceea s-a efectuat o transformare de variabilă (u= ),
σ
obţinându-se funcţia normală normată. În acest caz μ’=0 şi σ’=1:

μ' =
∑ u = ∑ ( x − μ ) = ∑ x − Nμ = 0 , (4.9)
N Nσ Nσ
∑ (u − μ )' 2
∑u ∑ (x − μ )
2 2
σ2
σ =
'
= = = = 1, (4.10)
N −1 N −1 σ 2 (N − 1) σ2
iar funcţia de densitate de probabilitate devine:
u2
1 −
f (u ) = e , u ∈ (− ∞,+∞ ) .
2
(4.11)

Funcţia de repartiţie se obţine prin integrarea funcţiei de densitate
de probabilitate şi se numeşte integrala lui Gauss sau integrala erorilor:
F ( x ) = ∫ f ( x ) dx sau F (u ) = ∫ f (u ) du .
x u
(4.12)
−∞ −∞

Aceasta reprezintă aria suprafeţei de sub curba normală de la -∞


la x (sau de la -∞ la u, în cazul normalei normate). Reprezentată grafic,
această curbă are dreptele Ox (sau Ou) şi F(x)=1 ( sau F(u)=1) ca
asimptote şi un punct de inflexiune pentru x=μ (respectiv, u=0).
Cu ajutorul integralei lui Gauss se poate calcula, pentru u1 şi u2
daţi, suprafaţa totală ce se află sub curbă între cele două valori (tabelul
4).

39
Intervalul astfel determinat (u1,u2) se numeşte interval de
încredere, iar suprafaţa corespunzătoare, probabilitate de
acoperire (p). q=100-p se numeşte probabilitate de transgre-
siune sau probabilitate de depăşire.

Aceste probabilităţi se mai numesc praguri de semnificaţie sau


nivele de semnificaţie.
Tabelul 4. Nivele de semnificaţie uzuale
x1 − μ x2 − μ suprafaţa
u1= u2=
σ σ cuprinsă
(%)
-σ σ 68,26
-2σ 2σ 95,44
-3σ 3σ 99,73
-1,96σ 1,96σ 95
-2,58σ 2,58σ 99
-3,29σ 3,29σ 99,9

În lucrările de orice natură care aplică metodele statistice,


indicatorii statistici, odată determinaţi, nu sunt prezentaţi decât însoţiţi de
intervalele de încredere corespunzătoare unor probabilităţi de acoperire
de referinţă (se folosesc, de obicei, valorile lui p egale cu 95%, 99% sau
99,9%).
Interesul pentru legea normală decurge dintr-o teoremă foarte
importantă, teorema limitei centrale care se enunţă astfel:
Dacă variabilele xi constituie un şir infinit de variabile aleatoare
independente având toate legea de repartiţie cu media μ şi varianţa σ2,
atunci expresia:
n

∑x
i =1
i −n⋅μ
(4.13)
n ⋅σ 2
tinde către o variabilă normală redusă, dacă n tinde la +∞.
Altfel spus, dacă un fenomen este rezultatul influenţei unei
infinităţi de factori (independenţi sau cvasiindependenţi), fiecare dintre
aceştia având un rol limitat, măsurarea acestui fenomen se poate efectua

40
cu ajutorul unei variabile aleatoare cantitative a cărei lege de repartiţie se
apropie de legea normală normată.

Legea normală este o lege de medie.

Dintre proprietăţile legii normale, două au aplicabilitate practică


directă:
ƒ toate combinaţiile liniare ale legii normale urmează o lege normală;
ƒ toate legile normale pot fi descrise printr-una singură, cu condiţia să se
schimbe scara de măsură a variabilei prin transformarea deja amintită
(ceea ce înseamnă a măsura abaterile mediei în unităţi de abatere
standard).
De aceea, în practică, nu se calculează direct probabilitatea
evenimentului P(X<x) când X urmează o lege normală de parametri μ şi
σ2, ci se determină P(Z<u) unde u=(x-μ)/σ şi în care Z urmează o lege
normală redusă de parametri μ=0 şi σ2=1.
Ajustarea distribuţiei experimentale după legea distribuţiei
normale se realizează tabelar, după modelul prezentat în tabelul 5 (cu
datele experimentale corespunzătoare exemplului anterior).

Tabelul 5. Exemplu de ajustare a unei distribuţii experimentale după


legea teoretică normală
Frecvenţe teoretice
x −x relative absolute
xi ni ui = i ∧ ∧ N ⋅a ∧ ∧
s f ( ui ) ni = ⋅ f ( ui ) ni
s
1 2 3 4 5 6
20 0 -2,8372 0,007127 0,47 0
24 0 -2,3797 0,023507 1,55 1
28 4 -1,9222 0,062890 4,14 4
32 9 -1,4647 0,136478 8,99 9
36 18 -1,0072 0,240235 15,83 16
40 32 -0,5497 0,343009 22,60 23
44 21 -0,0921 0,397252 26,17 26
48 21 0,3654 0,373182 24,59 25
52 17 0,8229 0,284359 18,73 19
56 11 1,2804 0,175755 11,58 12
60 5 1,7379 0,088113 5,81 6
64 4 2,1954 0,035832 2,36 2
68 2 2,6530 0,011819 0,78 1
TOTAL 144 2,179557 143,59 144

41
Etapele de lucru sunt:
• se determină media aritmetică ( x ) şi abaterea standard (s) printr-un
procedeu cunoscut;
• se determină abaterile normate (ui);
• în funcţie de valorile abaterilor normate se scot din tabele valorile

f (u i ) sau se calculează după funcţia normală normată
2
u
1 −
f (u ) = ⋅e 2
;


• se determină frecvenţele teoretice absolute ( ni ) şi ajustarea este
efectuată.
Reprezentarea grafică a frecvenţelor absolute experimentale şi a
celor teoretice (coloanele 2 şi 5 din tabelul 5) arata sugestiv modul de
ajustare a distribuţiei empirice utilizând distribuţia teoretică normală
(figura 12).

Figura 12. Reprezentarea grafică a ajustării din tabelul 5

Este neapărat necesar să se verifice, prin teste statistice,


concordanţa dintre distribuţia experimentală şi cea teoretică (se
compară frecvenţele absolute experimentale cu cele teoretice prin
utilizarea unor teste statistice, de exemplu testul χ2).

42
Situaţiile în care distribuţia normală poate fi aplicată fenomenelor
din silvicultură sunt diverse. Trebuie să fie îndeplinite, însă, anumite
condiţii:
ƒ populaţia din care se extrage proba să fie omogenă; dacă este cazul,
se poate proceda, în prealabil, la stratificarea ei;
ƒ caracteristica studiată să rămână sub influenţe aleatoare
(întâmplătoare). Apariţia unui factor cu o influenţă puternică
determină asimetrii sau excese apreciabile.
4.2 Distribuţia teoretică Charlier (tip A)
Charlier a demonstrat că o distribuţie experimentală poate fi
redată printr-o serie de derivate ale funcţiei normale. Funcţia de frecvenţă
teoretică are forma:
A E IV
ϕ (u ) = f (u ) − ⋅ f III (u ) + f (u ) , (4.14)
6 24
în care:
f (u ) este funcţia de frecvenţă a distribuţiei normale normate,
f III (u ), f IV (u ) - derivatele de ordin III şi IV ale funcţiei f(u) (valori
tabelate - anexa 1- sau calculate în funcţie de valorile ui experimentale),
A -indicele asimetriei,
E -indicele excesului.
Frecvenţele absolute se determină cu aceeaşi relaţie ca şi în cazul
normalei:
∧ N ⋅a
ni = ⋅ ϕ (u i ) , (4.15)
s
unde:
a -amplitudinea unei clase,
s -abaterea standard a probei,
De observat că această funcţie, ϕ(u), ia în considerare atât
asimetria cât şi excesul şi poate fi astfel adaptată la un număr mai mare
de distribuţii experimentale.
Dacă A=0 şi E=0, distribuţia Charlier se transformă într-o
distribuţie normală.

Distribuţia Charlier este o distribuţie normală generalizată.


Este indicat să se aplice atunci când asimetria şi excesul au
valori semnificative.

43
4.3 Distribuţia binomială
Aceasta mai poartă denumirea de repartiţia lui Bernoulli sau
repartiţia newtoniană.
Se consideră, ca exemplu, o populaţie de N arbori din care M sunt
uscaţi. Analizând câte un arbore, la întâmplare, dintre cei N, se
înregistrează prezenţa sau absenţa fenomenului de uscare. Dacă se repetă
de n ori experienţa în aceleaşi condiţii şi în mod independent (cu
posibilitatea de a „extrage” de mai multe ori acelaşi arbore, adică prin
selecţie repetată), numărul r de arbori uscaţi din eşantionul de volum n
este valoarea dată de o variabilă aleatoare binomială X de parametri n şi
M
p= .
N
Se poate demonstra că, pentru orice r întreg cuprins între 0 şi n
( 0 < r < n ):
P( X = r ) = C n ⋅ p r (1 − p )
r n−r
= Pr , (4.16)
în care:
r n!
C n
=
r!⋅(n − r )!
. (4.17)
n
(observaţie: ∑P
i =0
i = 1 ).

În general, considerând o populaţie formată din N unităţi din care


se extrage o unitate, probabilitatea ca această unitate să posede
caracteristica studiată este p N , iar probabilitatea evenimentului contrar
este q N . Se poate scrie: p N + q N = 1 .
Prin extragerea din populaţia considerată a unei probe formate din
n unităţi prin metoda selecţiei repetate, probabilitatea ca x unităţi să
posede caracteristica studiată este dată de funcţia de repartiţie:
n!
f (x ) = ⋅ p x ⋅ q n− x , (4.18)
x!⋅(n − x )!
în care:
n - numărul unităţilor din probă (volumul probei),
x - numărul elementelor care prezintă caracteristica studiată,
p - probabilitatea apariţiei evenimentului urmărit,
q - probabilitatea apariţiei evenimentului contrar.
Din motive de comoditate în calcule se aplică relaţia de mai sus
numai pentru x=0, caz în care:
f (0) = q n . (4.19)
Pentru x > 0 se utilizează formula de recurenţă:

44
n−x p
f ( x + 1) = f ( x ) ⋅ ⋅ . (4.20)
x +1 x
Principalii indicatori statistici teoretici specifici repartiţiei
binomiale sunt:
ƒ media x = p⋅n (4.21)
ƒ dispersia s = n⋅ p⋅q
2
(4.22)
Legea distribuţiei binomiale se aplică ori de câte ori fenomenele
sunt influenţate de intervenţia unor factori independenţi ale căror
probabilităţi de apariţie sunt cunoscute şi au valoare constantă.
Ajustarea unei distribuţii experimentale după legea distribuţiei
binomiale urmează etapele:
x
ƒ se determină x , p, q: p = ; q=1-p; (4.23)
n
ƒ se determină frecvenţele teoretice relative cu relaţia 4.18 pentru
x=0 şi cu relaţia 4.19 pentru x > 0 ;
ƒ se determină frecvenţele teoretice absolute:
∧ ∧ ∧
n i = N ⋅ f i = N ⋅ f ( xi ) ; (4.24)
ƒ se compară cele două distribuţii.
Dacă există asemănare între distribuţia teoretică şi cea
experimentală a frecvenţelor absolute înseamnă că fenomenul studiat
urmează legea distribuţiei binomiale. Trebuie neapărat să se aplice, însă,
un test statistic de ajustare.
4.4 Distribuţia Poisson
Este un caz special al distribuţiei binomiale pentru situaţia în care
probabilitatea apariţiei unui eveniment este mică, chiar dacă numărul
observaţiilor este foarte mare. Din acest motiv se mai numeşte distribuţia
evenimentelor rare.

Distribuţia Poisson este un caz limită al distribuţiei


binomiale pentru n → ∞ şi p → 0 , produsul n ⋅ p = λ fiind
constant.

Dacă se consideră că N arbori reprezintă o populaţie de 50000 ha


şi considerând că se extrage la întâmplare o suprafaţă de 0,1 ha în care se
numără x arbori uscaţi (în ipoteza prealabilă privind omogenitatea
repartizării arborilor uscaţi, nu în grupuri sau aglomerări pe anumite
direcţii), valoarea x poate fi considerată ca valoarea luată de o variabilă

45
aleatoare X care urmează o lege Poisson de parametru λ (λ este numărul
mediu de arbori dintr-o suprafaţă de probă de 0,1 ha; λ = x ).
Variabila X poate lua toate valorile întregi pozitive sau nule, după
funcţia de frecvenţă a distribuţiei Poisson:
λ x ⋅ e −λ
P( X = x ) = = f (x ) , (4.25)
x!
în care: λ = x = s2 . (4.26)
−λ
Relaţia de mai sus se aplică pentru x = 0 ⇒ f (0) = e . Pentru
x > 0 este comod să se aplice relaţia de recurenţă:
λ
f ( x + 1) = f (x ) ⋅
. (4.27)
x +1
Domeniul de aplicativitate este relativ restrâns. Există unele
caracteristici în domeniul entomologiei, al protecţiei pădurilor, al
vânătoarei, care urmează legea distribuţiei Poisson.
Etapele de ajustare a distribuţiei experimentale după legea
Poisson sunt:
ƒ se determină media aritmetică x ;
ƒ se determină dispersia s2;
ƒ se compară x cu s2; numai dacă cele două valori sunt egale sau
foarte apropiate se poate trece la ajustare;
ƒ se determină frecvenţele teoretice relative cu relaţia directă sau prin
formula de recurenţă (pentru x > 0 );
ƒ se determină frecvenţele teoretice absolute:
∧ ∧
ni = N ⋅ f i ; (4.28)
ƒ se verifică dacă există concordanţă între cele două distribuţii
(printr-un test de concordanţă).
Alte funcţii teoretice foarte flexibile care se folosesc în
silvicultură pentru caracterizarea structurii arboretelor echiene sunt
distribuţiile din sistemul Pearson.
4.5 Distribuţia Beta
Funcţia de densitate de probabilitate beta este, în cazul general:
1
f ( x) = ⋅ ( x − a)α −1 ⋅ (b − x) β −1 (b − a) −(α + β −1) , (4.29)
B(α , β )
a ≤ x ≤ b , α > 0 , β > 0 , unde: (4.30)
Γ(α ) ⋅ Γ( β )
1
B (α , β ) = ∫ t α −1 (1 − t ) β −1 dt = , (4.31)
0
Γ(α + β )
Γ fiind funcţia gamma, tratată pe larg în subcapitolul 4.7.

46
x−a
Dacă se face schimbarea de variabilă y = se obţine funcţia
b−a
de densitate de probabilitate a legii beta standard:
⎧ 1
⎪ ⋅ y α −1 ⋅ (1 − y ) β −1 pentru 0 < y < 1
f ( y ) = ⎨ B(α , β ) (4.32)
⎪⎩ 0 pentru celelalte valori y
În această formă, parametrii α şi β se pot estima cu relaţiile:
⎡ ⎡ y ⋅ (1 − y ) ⎤ ⎤ ⎡ ⎡ y ⋅ (1 − y ) ⎤ ⎤
αˆ = y ⋅ ⎢ ⎢ 2 ⎥ − 1⎥ ; βˆ = (1 − y ) ⋅ ⎢ ⎢ 2 ⎥⎦ − 1⎥ , (4.33)
⎣⎣ s ⎦ ⎦ ⎣⎣ s ⎦
2
în care y şi s reprezintă media aritmetică şi, respectiv, varianţa valorilor
experimentale y (frecvenţelor relative).
Pornind de la funcţia de densitate de probabilitate de tip beta
scrisă sub forma (Leahu, I., 1984):
f ( x) = const ⋅ ( x − a )α −1 (b − x) β −1 , (4.34)
parametrii pot fi estimaţi cu relaţiile:
z
−1
s rel ( z + 1) 2
2
ˆ
β= şi αˆ = z ⋅ βˆ − 1 , (4.35)
z +1
x rel
z= , (4.36)
1 − x rel
N
const = b , (4.37)
∫ ( x − a) (b − a) dx
α −1 β −1

iar semnificaţia celorlalte notaţii este:


x - centrele claselor formate pentru caracteristica studiată;
a, b - valorile minimă şi, respectiv, maximă ale acestei caracteristici
(pentru gruparea în k clase de amplitudine h, acestea sunt:
h h
a = x1 − ; b = x k + );
2 2
N - numărul total de arbori din eşantion;
s2 - dispersia (varianţa);
α, β - parametrii exponenţiali ai distribuţiei beta;
⎛ x −a⎞
x rel - media în valori relative ⎜ x rel = ⎟;
⎝ b−a⎠
⎛ 2 s2 ⎞

s rel - varianţa în valori relative ⎜ s rel =
2
⎟.
2 ⎟
⎝ (b − a ) ⎠

47
4.6 Alte funcţii din sistemul distribuţiilor lui Pearson
Sistemul întreg al distribuţiilor Pearson cuprinde, în afară de
repartiţia normală, alte 7 tipuri (I÷VII) de curbe diferite, unele cu 2-3
subtipuri, rezultând 13 curbe diferite (Leahu, I., 1984). În notaţia
acestora, indicele i desemnează o curbă cu un maxim (unimodală),
indicele u arată că este vorba despre o curbă convexă, iar j indică o curbă
descrescătoare.
Pentru arboretele echiene, prezintă interes următoarele tipuri şi
subtipuri de funcţii din sistemul Pearson:
m1 m2
⎛ x⎞ ⎛ x⎞
Ii (k< 0) y = y 0 ⋅ ⎜1 + ⎟ ⎜1 − ⎟ , (4.38)
⎝ a1 ⎠ ⎝ a2 ⎠
m
⎛ x2 ⎞
IIi (k=0; r3=0; r4< 3) y = y 0 ⋅ ⎜1 − 2 ⎟ , (4.39)
⎝ a ⎠
p x
⎛ x⎞ − p⋅
IIIi (k=± ∞) y = y0 ⋅ ⎜1 + ⎟ ⋅ e a , (4.40)
⎝ a⎠
γ

−p
V (k=1) y = y0 ⋅ x ⋅e x
şi (4.41)

Vii (1< k< ∞) y = y 0 ⋅ ( x − a ) m1 ⋅ x − m2 . (4.42)


Tipul de repartiţie ce trebuie folosit se determină cu parametrul k,
calculat cu relaţia:
μ 32 ⋅ (S + 2)2 6 ⋅ (μ 4 − μ 3 − 1)
k=− , în care S = , (4.43)
16 ⋅ (S + 1) 3μ 32 − 2 μ 4 + 6
μ 3 ≅ A (momentul centrat de ordinul 3 ≅ indicele asimetriei) şi
μ 4 ≅ E + 3 (momentul centrat de ordinul 4 ≅ indicele excesului + 3).
După cum se observă, distribuţiile Pearson se determină pe baza
valorilor indicilor asimetriei şi excesului pentru distribuţia experimentală.
Parametrii a1 şi a2 definesc amplitudinea de variaţie a variabilei x,
iar exponenţii m1 şi m2 indică înclinarea curbei pe laturile distribuţiei.
Dezavantajele folosirii distribuţiilor Pearson constau în faptul că
sunt necesare valorile extreme ale diametrelor (supuse unor evidente
fluctuaţii) şi implică determinări manuale laborioase (aspect contracarat
prin folosirea de programe specializate pentru calculatoarele electronice).

48
Mai puţin folosite, dar cu aplicabilitate demonstrată pentru
caracterizarea structurii arboretelor în funcţie de diametru, sunt
distribuţiile gama şi Weibull.
4.7 Distribuţia Gamma
Distribuţia gamma generalizată este o distribuţie triparametrică
care are, într-o primă formă parametrii k, β şi θ :
β
k ⋅ β −1 ⎛ x⎞
β
⎛ x⎞ −⎜ ⎟
⎝θ ⎠
f ( x) = ⋅⎜ ⎟ ⋅e . (4.44)
Γ(k ) ⋅ θ ⎝ θ ⎠
Prin transformările de parametri:
1 ⎛ 1 ⎞ 1 1
μ = ln(θ ) + ⋅ ln⎜ 2 ⎟ , σ = şi λ = , (4.45)
β ⎝λ ⎠ β k k
se obţine distribuţia gamma triparametrică în forma:
⎧ ⎡ ln x − μ
⎢λ−
ln x − μ ⎤
⎛ 1 ⎞ λ− σ ⎥
+ ln ⎜ 2 ⎟ − e
⎪ ⎢

σ ⎝λ ⎠ ⎥

⎪ λ ⎢ λ2 ⎥
⎪ 1 ⎢ ⎥
⎪σ ⋅ x ⋅ ⎛ 1 ⎞ ⋅ e
⎣ ⎦
dacă λ ≠ 0
f ( x) = ⎨ Γ⎜ 2 ⎟ (4.46)
⎪ ⎝λ ⎠
⎪ 1 ⎛ ln x − μ ⎞
2

⎪ 1 − ⎜ ⎟
⋅e 2⎝ σ ⎠
dacă λ = 0
⎪⎩ x ⋅ σ ⋅ 2π
Aşa cum se poate observa, distribuţia gamma generalizată este
de o complexitate ridicată, iar determinarea parametrilor este destul de
dificilă. Acestea sunt motivele pentru care nu este foarte frecvent
utilizată pentru ajustarea distribuţiilor experimentale. Există, însă,
programe de calcul dedicate a căror folosire contracarează
inconvenientele menţionate.

Folosirea acestei distribuţii este recomandată mai ales


pentru faptul că include, pentru anumite valori ale parametrilor,
câteva alte distribuţii de bază (Weibull atunci când λ = 1 ,
distribuţia exponenţială pentru λ = 1 şi σ = 1 , distribuţia
lognormală dacă λ = 0 , distribuţia gamma biparametrică
pentru λ = σ ).

49
Funcţia de densitate de probabilitate a distribuţiei gamma
biparametrică este definită pentru x>0 prin:
x
1 −
f ( x) = α ⋅ x α −1 ⋅ e β , (4.47)
β ⋅ Γ(α )
unde α>0 este parametrul de formă şi β>0, parametrul de scară.
Γ(α ) este funcţia gamma a cărei relaţie este:

Γ(α ) = ∫ y α −1e − y dy . (4.48)
0

Pentru β = 1 se obţine forma standard a distribuţiei gamma:


1 α −1 − x
f ( x) = x e cu x > 0 , α > 0 . (4.49)
Γ(α )
O proprietate a acestei funcţii este pusă în evidenţă de relaţia
Γ(α + 1) = α ⋅ Γ(α ) ; cum Γ(1) = 1 , atunci Γ(α + 1) = α ! pentru toate
valorile α întregi pozitive.
Pentru diferite valori ale parametrilor α şi β se obţin diverse
forme de distribuţii teoretice (figura 13).

Figura 13. Forme ale distribuţiei teoretice gamma


Atunci când α este întreg şi pozitiv, distribuţia gamma este
întâlnită în literatura de specialitate şi sub denumirea de distribuţia
Erlang.

50
Această distribuţie teoretică se caracterizează prin media
aritmetică egală cu α ⋅ β şi varianţa α ⋅ β 2 .
De aceea, o primă modalitate de estimare a parametrilor
distribuţiei gamma este:
x 2 ˆ s2
αˆ = , β = , (4.50)
s2 x
astfel încât αˆ ⋅ βˆ = x , x şi s 2 sunt media aritmetică, respectiv varianţa
distribuţiei experimentale ce trebuie ajustată.
Metoda verosimilităţii maxime aplicată în cazul distribuţiei
gamma estimează parametrii acesteia cu relaţiile:
1 ⎛ 4A ⎞ x
αˆ = ⋅ ⎜⎜1 + 1 + ⎟ şi βˆ = , (4.51)
4A ⎝ 3 ⎟⎠ αˆ

în care A = ln( x ) −
∑ ln( x) , N fiind volumul populaţiei statistice
N
analizate.
Funcţia de repartiţie gamma (reprezentată în figura 14) este:
x x x
1 −
F ( x) = ∫ f ( x)dx = α ⋅ ∫ x α −1e β dx . (4.52)
0 β ⋅ Γ(α ) 0

Figura 14. Funcţia de repartiţie gamma biparametrică

51
x
Notându-se t = se obţine forma incompletă a funcţiei gamma:
β
x
1
F ( x) = ⋅ ∫ t α −1e −t dt . (4.53)
Γ(α ) 0
Trebuie remarcat faptul că funcţia gamma nu este definită pentru
x=0, ceea ce poate fi un impediment în ajustare. Pentru α = 1 distribuţia
1
gamma se transformă într-o distribuţie exponenţială cu λ = . Aceasta
β
are funcţia de densitate de probabilitate:
f ( x) = λ ⋅ e − λ ⋅t (4.54)
şi funcţia de repartiţie:
F ( x) = 1 − e − λ ⋅t , (4.55)
1 ln 2
pentru care media aritmetică este egală cu , mediana este şi
λ λ
1
varianţa .
λ2
O altă bine cunoscută distribuţie statistică, χ 2 , este de asemenea
un caz special al distribuţiei gamma. Distribuţia χ 2 cu n grade de
n
libertate este, de fapt, o distribuţie gamma cu α = şi β = 2 .
2
4.8 Distribuţia Weibull
Repartiţia Weibull biparametrică face legătura cu legea
exponenţială, fiind considerată chiar o generalizare a acesteia.
Densitatea de probabilitate a legii Weibull are forma:
⎧ 0 pentru x ≤ 0
( )
f x, β , λ = ⎨ β −1 −λ⋅x β (4.56)
⎩β ⋅ λ ⋅ x ⋅e pentru x > 0
în care cei doi parametri sunt strict pozitivi (β>0; λ>0).
Se observă că pentru β=1 repartiţia Weibull devine o repartiţie
exponenţială; pentru β<1 curba este descrescătoare, convexitatea ei
accentuându-se cu cât β este mai mic.
Pentru β>1 curba este concavă, cu cât β este mai mare, graficul
funcţiei având o formă tot mai pronunţată de clopot (pentru 1<β<3,6
curba este în clopot cu asimetrie de stânga, pentru β=3,6 curba
aproximează legea normală a lui Gauss, iar pentru β>3,6 curba este în

52
clopot cu asimetrie de dreapta). Parametrul β determină, deci, forma
distribuţiei Weibull.
Funcţia de repartiţie pentru legea Weibull este:
⎧0 pentru x ≤ 0
(
F x, β , λ = ⎨ ) −λ⋅x β (4.57)
⎩1 − e pentru x > 0
Uneori, în practică, este necesară exprimarea legii Weibull într-o
formă mai avantajoasă prin introducerea unui parametru de scară reală,
η, prin substituirea:
1
λ= . (4.58)
ηβ
1
Deci η = β
, iar expresia densităţii de probabilitate a legii
λ
Weibull biparametrice devine:
β
β −1 ⎛ x⎞
⎛ x ⎞ β ⎛ x⎞ −⎜ ⎟
⎝ η⎠
f ⎜ , β⎟ = ⋅ ⎜ ⎟ ⋅e . (4.59)
⎝ η ⎠ η ⎝ η⎠
Legea Weibull triparametrică reprezintă varianta completă a
acestei legi, obţinută prin introducerea unui parametru de iniţializare (de
poziţie), γ, care realizează o translatare pe axa x. Funcţia densităţii de
probabilitate devine:
β
β −1 ⎛ x −γ ⎞
β ⎛ x −γ ⎞ −⎜ ⎟
f ( x , η, β , γ ) = ⋅ ⎜ ⎟ ⋅e ⎝ η ⎠
, (4.60)
η ⎝ η ⎠
iar funcţia de repartiţie este:
β
⎛ x −γ ⎞
−⎜ ⎟
( )
F x , η, β , γ = 1 − e ⎝ η ⎠
, (4.61)
ambele valabile pentru x>0.
Se precizează faptul că η şi γ se exprimă în aceleaşi unităţi de
măsură ca şi x.
Datorită faptului că estimarea simultană a celor trei parametri
este destul de puţin fiabilă pentru că furnizează abateri mult prea mari
pentru o utilizare ulterioară a acestei curbe, este preferabil să se estimeze
numai parametrii de formă (β) şi de scară (η) considerând originea (γ)
fixă într-un anumit interval. B.Lemoine (et al., 1991) ajunge la concluzia
că valorile cele mai mici ale lui χ2, obţinute prin compararea
distribuţiilor experimentale cu distribuţia teoretică Weibull, corespund

53
unor valori ale lui γ cât mai apropiate de minimul valorilor observate.
Aceeaşi remarcă este făcută de Bailey (et al., 1973; citaţi de J.Pardé şi
J.Bouchon, 1988).
4.9 Alte distribuţii descrescătoare
Arboretele pluriene, naturale sau grădinărite, au o structura
specifică a distribuţiei arborilor pe categorii de diametre: forma curbei de
frecvenţe este descrescătoare, frecvenţele maxime fiind mereu la
categoriile de diametre mici.
Meyer propune pentru caracterizarea structurii arboretelor
pluriene o funcţie de forma:
nˆ = k ⋅ e −α ⋅ x , (4.62)
în care n̂ reprezintă numărul de arbori pe categorii de diametre, k şi α,
parametri, iar x, categoriile de diametre.
Aceasta relaţie sintetizează observaţiile anterioare ale lui Liokourt
potrivit cărora repartizarea pe categorii de diametre a numărului de arbori
în arboretele pluriene se face după o progresie geometrică.
Prin logaritmarea relaţiei lui Meyer, aceasta se liniarizează, α
devenind coeficient unghiular (valoarea lui α este negativă).
Funcţia lui Meyer este considerată, totuşi, prea rigidă şi nu are
încă o justificare ecologică.
Există propuneri pentru folosirea unor funcţii mai elastice: funcţia
Weibull, funcţiile Pearson sau funcţiile exponenţiale ale lui Caussinus şi
Rollet.
Din sistemul funcţiilor Pearson se pot utiliza distribuţia beta şi cea
de tip Ij, aceasta din urmă având forma:
m1
⎛ x⎞
⎜⎜1 + ⎟⎟
a1 ⎠
y = y0 ⋅ ⎝ m2
, (4.63)
⎛ x ⎞
⎜⎜1 − ⎟⎟
⎝ a2 ⎠
notaţiile fiind cele de la relaţiile anterioare.
Funcţia exponenţială a lui Rollet are forma:
(α + 1) ⋅ θ
⋅ e −θ ⋅ x ⋅ (1 − eθ ⋅ x ) ,
α
f ( x) = −θ ⋅a α +1
(4.64)
1 − (1 − e )
unde:
x este categoria de diametre (cu amplitudinea de l cm),
a - categoria de diametre inferioară,
α, θ - parametri experimentali.

54
5. TEHNICA SONDAJULUI
5.1 Metoda selectivă
Caracterizarea numerică a proceselor din silvicultură rareori poate
fi efectuată pornind de la înregistrări integrale. Aceasta, pentru că:
ƒ în multe situaţii s-ar distruge întreg materialul analizat,
ƒ din motive obiective (costuri, imposibilitate tehnică etc.)
înregistrarea totală este imposibil de aplicat.
În aceste cazuri se aplică metode de selecţie prin înregistrări
parţiale sau sondaje.
Se impune în prezent, în condiţiile unei silviculturi moderne, o
cunoaştere tot mai aprofundată a fenomenelor din interiorul pădurii şi a
efectelor intervenţiilor silviculturale asupra stării fondului forestier, ceea
ce nu se poate realiza decât prin metode bazate pe eşantionaj.
Din multitudinea problemelor de studiu abordate prin metoda
selectivă se pot menţiona:
ƒ inventarierea fondului de producţie,
ƒ controlul calităţii anumitor produse (a materialului de împădurire, a
sortimentelor de material lemnos),
ƒ studiul defectelor lemnului,
ƒ controlul eficacităţii măsurilor de combatere a dăunătorilor,
ƒ cunoaşterea în timp scurt a caracteristicilor procesului de producţie şi
a factorilor ce-l influenţează etc.

Sondajul reprezintă o cercetare parţială al cărei scop


este cel de a estima parametrii populaţiei totale pe baza
rezultatelor obţinute pentru un eşantion riguros prelevat (prin
aplicarea principiilor teoriei probabilităţilor).

Cercetarea prin sondaj îşi extinde continuu aria de investigare


datorită multiplelor avantaje în comparaţie cu observarea tuturor
elementelor populaţiei:
ƒ operativitate şi volum mic de cheltuieli materiale şi de manoperă,
ƒ posibilitatea studierii amănunţite a eşantionului (ceea ce nu s-ar
putea realiza pentru întreaga populaţie), fapt ce duce la obţinerea
unor informaţii complexe şi calitativ superioare,
ƒ partea supusă înregistrării fiind mult mai redusă decât întreaga
populaţie statistică, erorile de înregistrare sunt mai puţin numeroase

55
şi mai uşor de înlăturat în faza de verificare a datelor; rezultă o
calitate superioară a rezultatelor obţinute prin sondaj.

Situaţiile în care se utilizează cu precădere tehnica


sondajelor sunt:
ƒ atunci când măsurarea implică distrugerea elementelor
observate,
ƒ atunci când cercetarea statistică totală implică cheltuieli prea
mari,
ƒ atunci când populaţia vizată este practic infinită.

Teoria sondajelor se bazează pe legea numerelor mari care, în


esenţă, este formulată astfel: se poate afirma cu o probabilitate apropiată
de unitate (100%) că, în cazul unui număr suficient de mare de unităţi
cercetate, indicatorii medii ce caracterizează eşantionul diferă cu o
cantitate foarte mică de cei care caracterizează populaţia din care acesta a
fost extras.

Cercetarea parţială al cărei scop este ca, pe baza


rezultatelor prelucrării datelor obţinute, să se estimeze, prin
aplicarea principiilor teoriei probabilităţilor, parametrii
corespunzători populaţiei totale, se numeşte sondaj statistic.

Esenţa sondajului constă în alegerea dintr-o populaţie ce


constituie obiectul studiului, a unei asemenea părţi (eşantion, probă,
mostră sau selecţie) care poate să reprezinte întreaga populaţie.
Populaţia reprezintă totalitatea unităţilor simple sau complexe
care formează obiectul cercetării prin sondaj. O asemenea cercetare
trebuie să înceapă cu delimitarea în timp şi în spaţiu a populaţiei.
Populaţiile pot fi: reale sau ipotetice, finite sau infinite.
Trebuie subliniat faptul că noţiunea de populaţie nu se referă la
indivizii fizici, la obiecte sau la evenimente, ci la observaţiile ce pot fi
făcute cu privire la acestea.

O populaţie este formată din totalitatea observaţiilor efectuate.

56
Eşantionul reprezintă o parte sau un număr de elemente ale
populaţiei totale. Operaţia de constituire a eşantionului se numeşte
eşantionare.

Prin estimaţie se înţelege operaţia de extindere, in


limitele specificate de incertitudinea exprimată în termeni
probabilistici, a rezultatelor obţinute în sondaj asupra întregii
populaţii.

Estimaţiile reprezintă evaluări aproximative ale adevăratelor


valori ale parametrilor estimaţi. Eroarea estimaţiei îi afectează precizia,
iar estimarea parametrului general se face printr-un interval de estimare
numit şi interval de încredere.
Considerând că acest interval are limita inferioară θ şi limita
superioară θ , pentru parametrul real θ este îndeplinită următoarea
relaţie de probabilitate:
( )
P θ < θ < θ = 1−α , (5.1)
în care 1-α este nivelul de încredere (α este pragul de semnificaţie).
Jumătatea intervalului de încredere se numeşte eroare limită
admisă şi se notează cu:

Δx =
(θ − θ ) . (5.2)
2
Metoda selectivă constă, deci, în determinarea parametrilor
populaţiei formate din N elemente cu ajutorul valorilor observate xi (i=1,
…,n) pentru n elemente extrase din respectiva populaţie. Evident n<N, n
fiind volumul selecţiei.
Condiţiile în aplicarea metodei selective sunt:
ƒ eşantionul trebuie extras astfel încât să fie reprezentativ pentru
populaţia studiată. Este echivalent acest lucru cu faptul că structura
probei trebuie să fie apropiată de structura întregii populaţii;
ƒ modalitatea practică de extragere a unităţilor ce formează eşantionul
trebuie să fie astfel aleasă încât fiecare unitate să aibă aceeaşi şansă de a
face parte din probă (evitarea subiectivismului eşantionării);
ƒ populaţia din care se extrage eşantionul să fie cât mai omogenă; uneori
este necesară împărţirea în subpopulaţii omogene (stratificare).

57
Un eşantion trebuie să fie reprezentativ. Situaţia contrară este cea
a unui eşantion deformat sau deplasat.

„Biais” este termenul specific preluat din literatura de


specialitate străină, semnificaţia lui (fără a putea găsi un
corespondent exact în limba română) fiind cea a unei deformaţii
sistematice, neîntâmplătoare, a unei serii de date dintr-o
cercetare (Clocotici,V., Stan, A., 2000)

Diferenţele structurale dintre populaţie şi eşantioane nu pot fi


înlăturate total, dar pot fi minimizate prin tehnicile de realizare a
sondajului.
Rezultatele sondajului sunt cu atât mai reprezentative pentru
întreaga populaţie cu cât erorile introduse prin însuşi procedeul de
eşantionaj sunt mai mici.
Eroarea de sondaj este abaterea care există între valoarea
calculată prin prelucrarea datelor din eşantion şi cea care s-ar fi obţinut
dacă s-ar fi organizat o observare totală (pentru întreaga populaţie).
Erorile de sondaj pot fi: erori de înregistrare şi erori de
reprezentativitate.
Erorile de înregistrare sunt comune tuturor tipurilor de sondaje şi
pot fi evitate prin folosirea unui personal specializat şi printr-un control
riguros al înregistrărilor.
Erorile de reprezentativitate sunt specifice fiecărui sondaj în
parte şi pot fi sistematice sau întâmplătoare.
Cauzele producerii erorilor de reprezentativitate sistematice pot fi:
ƒ alegerea deliberată a unor date considerate în mod greşit ca fiind
reprezentative;
ƒ dorinţa preconcepută a cercetătorului de a obţine un anumit rezultat;
ƒ substituirea unei unităţi de cercetare cu alta ce oferă o mai mare
comoditate în obţinerea datelor;
ƒ realizarea unui sondaj incomplet (necuprinderea în sondaj a tuturor
unităţilor stabilite).
Trebuie remarcat faptul că într-un sondaj erorile sistematice sunt
mai puţin numeroase şi mai puţin grave decât în cazul observării totale.
Erorile aleatoare de selecţie (sau de reprezentativitate) se produc
chiar dacă se respectă riguros principiile teoriei selecţiei deoarece
eşantionul nu reproduce decât cu o oarecare aproximaţie distribuţia
variabilelor populaţiei.

58
Procedeele de înlăturare (sau de reducere, numai) a erorilor
aleatoare de reprezentativitate constau în mărirea volumului eşantionului
şi în alegerea unui tip de sondaj adecvat scopului cercetării.

Erorile de reprezentativitate pot fi estimate cu anticipaţie


şi trebuie ataşate fiecărui indicator statistic atunci când este
generalizat la întreaga populaţie.

Colectivităţile de selecţie pot fi formate în mod:


ƒ sistematic (mecanic),
ƒ randomizat (aleatoriu, la întâmplare).
Selecţia sistematică se aplică diferit în funcţie de volumul
colectivităţii statistice şi constă în alegerea în mod mecanic, la intervale
egale, a unităţilor de selecţie, după ce s-a stabilit în prealabil pasul de
selecţie sau de numărare. Procedeul mecanic de formare a eşantionului
presupune ca elementele colectivităţii generale supuse cercetării să fie
prelevate după un interval determinat care se aplică bazei de sondaj.
De exemplu, dacă volumul eşantionului ar fi 1/10 din cel al
colectivităţii generale, includerea unităţilor statistice în eşantion se face
din 10 în 10 începând cu un element ales la întâmplare din populaţie.
Selecţia randomizată constă în extragerea întâmplătoare a
unităţilor din populaţie pentru constituirea eşantionului. Se bazează pe
principiul asigurării şanselor egale de a fi inclusă în selecţie pentru
fiecare unitate statistică. În acest scop se pot utiliza tabele cu numere
întâmplătoare sau o urnă din care se extrag numerele de ordine ale
unităţilor selectate. Utilizarea tabelelor cu numere aleatoare constă în
preluarea din cadrul populaţiei a acelor unităţi statistice ale căror numere
de ordine prestabilite au fost citite după o anumită ordine din tabel.
Există şi algoritmi ce generează numere aleatoare.
Selecţia randomizată poate fi repetată sau nerepetată.
În cazul selecţiei repetate, fiecare unitate extrasă şi cercetată
(observată sau măsurată) se introduce din nou în populaţie, având
posibilitatea de a mai fi extrasă ulterior; volumul populaţiei rămâne
constant pe parcursul selecţiei.
La selecţia nerepetată, unitatea odată extrasă nu se mai reinclude
în populaţie; volumul colectivităţii generale scade la fiecare extragere cu
câte o unitate. În această situaţie, fiecare unitate poate fi inclusă doar o
singură dată în eşantion.

59
Selecţia randomizată prezintă următoarele avantaje:
ƒ valorile medii ale caracteristicilor studiate se distribuie după legea
normală,
ƒ permite un calcul riguros şi o estimare corectă a erorii de
reprezentativitate.
Dezavantajele ar fi:
ƒ posibilitatea unei repartizări neuniforme a unităţilor selectate în cadrul
colectivităţii generale, rămânând anumite zone nereprezentate în
eşantion,
ƒ metoda este mai complicată în cazul în care populaţia cercetată este
mare şi procentul de selecţie ridicat.
Una dintre problemele puse teoriei selecţiei a fost stabilirea
modului în care se calculează eroarea întâmplătoare de reprezentativitate
ce va interveni în cercetarea selectivă, înainte ca această cercetare să se fi
efectuat.
Dacă s-ar înregistra toate unităţile componente ale unei populaţii,
s-ar putea determina valoarea reală a mediei (μ) care nu ar fi afectată de
erori de reprezentativitate (sau eroarea de reprezentativitate ar fi nulă).
În cazul unui eşantion, media calculată x (media de selecţie) se
abate cu atât mai mult de la media populaţiei (μ) cu cât volumul n al
probei este mai mic.
Cel mai potrivit indicator sintetic pentru calcularea anticipată a
erorii întâmplătoare de reprezentativitate, confirmat de experienţa
practică, este media pătratică a tuturor erorilor de reprezentativitate
posibile, pentru eşantioane de volum egal n extrase din populaţia cu N
unităţi.
Aşa cum s-a arătat la indicii de variaţie ai distribuţiilor empirice,
mărimea abaterilor medii pătratice ale tuturor mediilor de sondaj de la
media populaţiei totale depinde de abaterea medie pătratică (abaterea
standard) a populaţiei respective (σ) şi de volumul eşantioanelor (n),
conform relaţiei:
σ
σx = . (5.3)
n
Când colectivitatea generală ce urmează să fie caracterizată pe
baza cercetării selective nu a fost supusă unei înregistrări totale
anterioare, dispersia caracteristicii studiate se stabileşte experimental pe
baza unei mostre de cel puţin 120 de unităţi (σ2 ≈ s2 ⇒ σ ≈ s).
Relaţia de mai sus devine:

60
s
sx = . (5.4)
n
s x este considerată, deci, unitatea de măsură a erorii medii de
reprezentativitate. Determinată în acest mod, aceasta este valabilă pentru
selecţia repetată (atunci când o unitate extrasă este reintrodusă în
populaţie şi are şansa de a fi extrasă din nou).
Situaţia aceasta se întâlneşte rar în practică, cazul uzual fiind cel
al selecţiei nerepetate, atunci când volumul N al populaţiei scade cu o
unitate pentru fiecare nou element inclus în eşantion.
În acest caz, eroarea medie de reprezentativitate se calculează cu
relaţia:

s N −n
sx = ⋅ , (5.5)
n N −1
în care:
N este numărul de unităţi din populaţie,
n- numărul de unităţi din probă,
s x - abaterea standard a mediei aritmetice (eroarea de reprezentativitate),
s - abaterea standard a caracteristicii studiate.
Se observă că, pentru populaţii ce se pot aproxima ca fiind infinite
(N foarte mare), eroarea de reprezentativitate depinde numai de mărimea
probei şi într-o măsură foarte mică de mărimea populaţiei:
N −n N n n
= − ≈ 1− ≈ 1 (5.6)
N −1 N −1 N −1 N
n
Practic, pentru N>100 şi ≤ 0,05 , eroarea de reprezentativitate
N
s
este s x = şi în cazul selecţiei nerepetate.
n
Pentru caracterizarea gradului de apropiere a mediei sondajului
faţă de media populaţiei se impune şi calcularea limitelor de încredere
pentru media populaţiei, cu relaţiile:
x ± t ⋅ s x pentru volume mici şi (5.7)
x ± u ⋅ s x pentru volume mari. (5.8)
Pentru analize comparative este utilă calcularea expresiei
procentuale a erorii de reprezentativitate:

61
sx
sx% = ⋅ 100 (%). (5.9)
x
În cazul cercetării selective este posibilă obţinerea numai a unui
rezultat dintr-o serie întreagă de rezultate diferite.
Toate rezultatele posibile se împart în două grupe (figura 15):
ƒ rezultate care pot fi acceptate pentru că mediile de selecţie ce s-ar
obţine diferă în plus sau în minus faţă de media generală μ cu o
mărime ce nu prejudiciază scopul în care se utilizează aceste rezultate;
ƒ rezultate care nu pot fi acceptate pentru că mediile de selecţie diferă
în plus sau în minus faţă de media generală cu o mărime ce
prejudiciază scopul practic în care se utilizează datele cercetării
selective.

Figura 15. Intervalul de variaţie a mediei aritmetice a


caracteristicii studiate

Pentru a asigura reprezentativitatea eşantionului este necesar să se


limiteze intervalul în interiorul căruia poate varia media caracteristicii
studiate, stabilindu-se mărimea erorii limită admise (Δx).
Eroarea limită a mediei de selecţie este o mărime constantă fixată
teoretic de cercetător înainte de efectuarea cercetării selective, în urma
unei analize în care se ţine seama de dispersia caracteristicii studiate, de
scopul în care vor fi utilizate rezultatele cercetării, de un anumit volum
preconizat pentru eşantion şi de probabilitatea cu care se trebuie
garantate rezultatele.
Cum μ, media generală, trebuie să fie în interiorul intervalului de
încredere, se poate scrie pentru cazurile de limită:
μ = x ± Δx , (5.10)
adică μ poate fi egală cel mult cu limitele intervalului de încredere.
Se deduce astfel că eroarea medie admisă Δx este:
Δ x = t ⋅ s x (sau Δ x = u ⋅ s x ). (5.11)
Deci, pentru sondajul simplu repetat:

62
s
Δx = t ⋅ , (5.12)
n
iar pentru sondajul simplu nerepetat:
s N −n s n
Δx = t ⋅ ⋅ ≈t⋅ ⋅ 1− , (5.13)
n N −1 n N
t sau u exprimând probabilitatea cu care se garantează rezultatele.
În mod logic, determinarea mărimii eşantionului ar fi trebuit să
preceadă expunerea modului de determinare a erorii de reprezentativitate,
dar tocmai în formula erorii sunt sintetizate elementele necesare pentru
stabilirea volumului eşantionului.
În teoria şi practica sondajelor se operează cu eşantioane mari şi
eşantioane de volum redus, în funcţie de gradul de omogenitate a
populaţiei.
Interpretarea erorii de reprezentativitate se face în mod diferit:
ƒ pentru eşantioane cu volum mare se foloseşte distribuţia normală (u),
ƒ pentru eşantioane cu volum redus se foloseşte distribuţia Student (t).
Din reprezentarea grafică următoare (figura 16) se observă modul
de variaţie a erorii de reprezentativitate în funcţie de numărul de unităţi
din eşantion.
Volumul probei nu poate fi prea mic (sub o valoare n1) pentru că
în acest caz eroarea de reprezentativitate ar creşte la valori inadmisibile.
Un volum al probei peste n2 nu se justifică pentru că eroarea de
reprezentativitate ar scădea insesizabil.
Există, deci, o zonă de optim în care, în funcţie de eroarea limită
admisă, se stabileşte volumul eşantionului.

Figura 16. Modul de variaţie a erorii de reprezentativitate în


funcţie de volumul probei

63
Organizarea unei cercetări prin sondaj presupune dimensionarea
raţională a eşantionului. Un volum mare al probei, conform legii
numerelor mari, sporeşte precizia rezultatelor. Ţinând cont de criteriile de
economicitate, însă, volumul eşantionului trebuie să fie cât mai mic.
În practică se determină numărul minim de unităţi ce trebuie
observate astfel încât să fie satisfăcute exigenţele de precizie şi siguranţă
formulate în raport cu costurile cercetării.
Pentru eşantioanele cu volum mic (sub 30 de unităţi):
s N −n s2 N − n t 2 ⋅ s2 ⎛ n⎞
Δx = t ⋅ ⋅ ⇔ Δ2x = t 2 ⋅ ⋅ ≈ ⋅ ⎜1 − ⎟ ⇒
n N −1 n N −1 n ⎝ N⎠
⎛ t2 ⋅ s2 ⎞ 2 2 N ⋅t2 ⋅ s2
⇒ n ⋅ ⎜⎜ Δ2x + ⎟⎟ = t ⋅ s ⇒ n = . (5.14)
⎝ N ⎠ N ⋅ Δ2x + t 2 ⋅ s 2
Pentru eşantioanele cu volum mare (peste 30 unităţi) în locul lui t
se foloseşte u:
N ⋅u2 ⋅ s2
n= . (5.15)
N ⋅ Δ2x + u 2 ⋅ s 2
n
Atunci când ≤ 0,05 , se porneşte de la relaţia:
N
s t 2 ⋅ s2 t 2 ⋅ s2
Δx = t ⋅ ⇒ Δx =
2
⇒n= , (5.16)
n n Δ2x
respectiv:
u2 ⋅ s2
n= . (5.17)
Δ2x
s
Relaţiile pot fi aplicate şi cu înlocuirile: s% = ⋅ 100 şi
x
Δx
Δ% = ⋅ 100 .
x
Problema determinării numărului de unităţi pentru un eşantion de
volum mare este simplă pentru că se utilizează valorile cunoscute ale lui
u (u0,05=1,96; u0,01=2,58; u0,001=3,29).
Dacă volumul probei este mic, se procedează astfel:
ƒ se utilizează formulele cu u pentru populaţii finite sau infinite (cu luarea
în considerare a lui N sau nu) şi se determină volumul provizoriu al
probei, n’:
u2 ⋅ s2 N ⋅u2 ⋅ s2
n' = sau n' = , (5.18)
Δ2x N ⋅ Δ2x + u 2 ⋅ s 2

64
ƒ dacă n’ este sub 30, se recalculează volumul folosind relaţia cu t a cărui
valoare se ia din tabele pentru n’-1 grade de libertate, rezultând n’’,
ƒ dacă n’’ diferă de n’, se recalculează volumul probei pentru t aflat în
funcţie de n’’-1 grade de libertate,
ƒ se continuă până când ultimele două valori succesive ale volumului
probei, rotunjite la întreg, sunt egale.
În cazul caracteristicilor alternative fiecare unitate elementară
inclusă în probă poate prezenta sau nu caracteristica studiată (de
exemplu: arbore cu fenomen de uscare – arbore sănătos).
Dacă a este numărul unităţilor ce prezintă caracteristica urmărită,
din cele n unităţi incluse în eşantion, eroarea de reprezentativitate, în
cazul sondajului simplu nerepetat, este:
p ⋅ (1 − p ) N − n
sp = ⋅ , (5.19)
n N −1
a
unde p = , iar N este volumul populaţiei studiate.
n
În cazul sondajului simplu repetat sau pentru populaţii considerate
n
infinite şi ≤ 0,05 :
N
p ⋅ (1 − p )
sp = . (5.20)
n
Numărul de unităţi din sondaj se stabileşte, în funcţie de volumul
populaţiei, cu una dintre relaţiile:
N ⋅ u 2 ⋅ p ⋅ (1 − p ) u 2 ⋅ p ⋅ (1 − p )
n= , respectiv n = , (5.21)
N ⋅ Δ2p + u 2 ⋅ p ⋅ (1 − p ) Δ2p
în care se poate utiliza şi p% cu condiţia ca Δp, eroarea limită admisă, să
fie exprimată de asemenea procentual (Δp%).
Concluzionând asupra modului de lucru în aplicarea metodei
selective, etapele de lucru sunt următoarele:
ƒ se stabileşte eroarea limită admisă (în valori absolute sau în %); de
obicei Δ% se alege între 1% şi 10% în funcţie de natura fenomenului
cercetat, de exigenţă şi de posibilităţile materiale;
ƒ se optează pentru un prag de semnificaţie (probabilitate de
transgresiune), de obicei 5%, iar pentru cercetări pretenţioase, 1% sau
0,1%,
ƒ se stabileşte abaterea standard sau coeficientul de variaţie pentru
caracteristica analizată; se folosesc, eventual, valorile acestora
determinate prin cercetări anterioare în condiţii similare,
ƒ se determină volumul probei cu una dintre relaţiile prezentate anterior.

65
5.2 Metoda secvenţială
Pe lângă înregistrarea integrală şi metoda selectivă, atunci când
apare problema practică de a verifica unele caracteristici calitative ale
populaţiei studiate, de a testa expeditiv elementele din cadrul acesteia,
poate fi aplicată metoda secvenţială.

Metoda secvenţială se deosebeşte de metoda selectivă prin


faptul că volumul eşantionului nu este cunoscut cu anticipaţie.

Se aplică mai ales pentru controlul calităţii produselor, controlul


gradului de poluare etc. şi ori de câte ori fenomenul studiat prezintă două
stări de manifestare posibile (uscat – sănătos, corespunzător calitativ –
rebut etc.).
În cazul acestei metode, propusă de Wald (1947), verificarea
ipotezei nule se efectuează după extragerea şi observarea fiecărei unităţi
din populaţie.
S-a observat că, în comparaţie cu metodele clasice, numărul de
observaţii poate să se reducă la jumătate chiar. Pe baza unui eşantion
redus (chiar de o unitate sau două) se pot lua decizii rapide de acceptare
sau de respingere a ipotezei nule.
Controlul calităţii produselor fiind domeniul în care se aplică
frecvent sondajul secvenţial, se va prezenta modul de folosire a metodei
în acest scop.
Se presupune că este studiată o caracteristică oarecare xi care ia
valoarea 0 dacă produsul controlat corespunde din punct de vedere
calitativ sau valoarea 1 dacă acesta este necorespunzător (rebut).
Dacă s-ar inventaria întreaga populaţie (formată din N unităţi) s-ar
constata că aceasta conţine D unităţi defecte, proporţia acestora fiind
D
p= .
N
Dat fiind că nu se face o analiză integrală, p rămâne necunoscută,
dar se pot formula următoarele ipoteze, prin verificarea cărora, după
fiecare unitate testată, se pot lua anumite decizii:
ƒ acceptarea lotului, dacă se verifică ipoteza H0: p ≤ p1
ƒ respingerea lotului, dacă se verifică ipoteza alternativă H1:
p ≥ p2
ƒ continuarea verificării prin extragerea unei alte unităţi din
populaţie (lot), dacă datele obţinute la un moment dat nu oferă
temei suficient de respingere sau acceptare.

66
Pentru că este vorba despre un control, pe baza unei probe, acesta
nu oferă certitudini, ci presupuneri asupra acceptării sau respingerii
întregului lot.
Acest lucru prezintă anumite riscuri de a lua o decizie eronată,
care sunt de două tipuri:
ƒ α, riscul de genul I sau riscul furnizorului, este riscul de a
respinge un lot bun (de a respinge ipoteza H0 cu toate că aceasta,
printr-o analiză integrală, s-ar dovedi adevărată).

Ori de câte ori va exista într-un lot o proporţie a defectelor


p1 sau mai mică, furnizorul va dori să suporte un risc foarte mic
de respingere (cel mult α).

ƒ β, riscul de genul II sau riscul beneficiarului, este riscul de a


accepta un lot necorespunzător (de a respinge ipoteza H1 cu toate
că în realitate ea este adevărată sau de a accepta ipoteza H0 atunci
când ea este eronată).

Ori de câte ori va exista într-un lot o proporţie a defectelor


p2 sau mai mare, beneficiarul va dori să suporte un risc foarte
mic de acceptare a lotului (cel mult β).

Între p1, p2, α şi β există relaţiile:


0 ≤ p1 ≤ p 2 ≤ 1 (5.22)
1
0 ≤ β ≤ ≤ 1−α ≤ 1 (5.23)
2
1
p 2 − p1 ≥ (5.24)
N
Alte notaţii efectuate:
m - numărul de unităţi testate (controlate),
T1 - dreapta de acceptare (numărul maxim de rebuturi din unităţile
testate m, pentru care se acceptă întreg lotul),
T2 - dreapta de respingere (numărul minim de rebuturi din cele m unităţi
testate, pentru care se respinge întreg lotul),
Σxi - numărul total de rebuturi (suma rebuturilor) găsite printre cele m
unităţi controlate.

67
Pentru populaţii infinite sau cu volum mare (N > 3000) se
procedează astfel:
ƒ se calculează valorile T1 şi T2 (ecuaţiile dreptelor T1 şi T2) cu
relaţiile:
T1 = k ⋅ m + h1 (5.25)
T2 = k ⋅ m + h2 , (5.26)
în care:
β 1− β
lg lg
h1 = 1−α , h2 = α , (5.27)
p 2 ⋅ (1 − p1 ) p 2 ⋅ (1 − p1 )
lg lg
p1 ⋅ (1 − p 2 ) p1 ⋅ (1 − p 2 )
1 − p1
lg
1 − p2
iar: k= . (5.28)
p 2 ⋅ (1 − p1 )
lg
p1 ⋅ (1 − p 2 )
ƒ se rezolvă tabelar sau grafic prin continuarea sondajului atât timp
cât Σxi este cuprinsă între T1 şi T2; dacă Σxi > T2 lotul se respinge,
iar dacă Σxi < T1, lotul se acceptă.
Tipul de grafic utilizat este redat în figura 17.

Figura 17. Grafic pentru analiza secvenţială în cazul


unei populaţii infinite
Pentru populaţiile finite (N < 3000 unităţi), modelul matematic
este altul:
ƒ dreptele de acceptare şi de respingere nu mai sunt paralele, ci se
intersectează într-un punct P (x, y):

68
⎧x = N
⎪⎪ p 2 − p1
⎨y = p2
⋅ N + 0,5 (5.29)
⎪ ln
⎪⎩ p1
ƒ punctele de intersecţie între dreptele de control şi abscisă sunt (m1,
0) şi (m2, 0) cu:
⎡ 1
⎤ ⎡ 1

⎢ ⎛ β ⎞ N ⋅( p 2 − p1 )
⎥ ⎢ ⎛ 1 − β ⎞ N ⋅( p2 − p1 )
⎥ , (5.30)
m1 = N ⋅ 1 − ⎜ ⎟ şi m2 = N ⋅ 1 − ⎜ ⎟
⎢ ⎝1−α ⎠ ⎥ ⎢ ⎝ α ⎠ ⎥
⎣ ⎦ ⎣ ⎦
acestea, împreună cu punctul P (x, y) determinând dreptele T1 şi T2.
ƒ există o a treia dreaptă de control:
T3 = p1 ⋅ N (5.31)
ƒ rezolvarea cea mai comodă este cea grafică, continuându-se
sondajul până când Σxi iese din zona de continuare fie în cea de
respingere, fie în cea de acceptare, aceste zone fiind delimitate ca în
figura 18.

Figura 18. Grafic pentru analiza secvenţială în cazul


unei populaţii cu volum mic

69
6. VERIFICAREA IPOTEZELOR STATISTICE
Studiul fenomenelor din silvicultură se face pe colectivităţi de
volum mare. În consecinţă, se renunţă la observarea întregii populaţii şi
se fac măsurători numai pe probe sau eşantioane de volum mai mic.
Potrivit legii numerelor mari, influenţa cauzelor întâmplătoare
asupra diferenţelor dintre indicii statistici ai probelor se poate diminua pe
măsură ce se măreşte numărul observaţiilor. Se pot pune în evidenţă,
astfel, numai diferenţele cauzate de factori obiectivi.
Posibilităţile de majorare a numărului observaţiilor fiind limitate
în practică, apare necesitatea formulării unor concluzii generale pe baza
eşantioanelor de volum mic. Indicatorii statistici calculaţi trebuie
analizaţi, aşadar, sub aspectul semnificaţiei lor înainte de a-i considera ca
bază teoretică pentru caracterizarea fenomenului studiat.
6.1 Teste statistice
A testa semnificaţia unui indicator statistic înseamnă a determina
dacă abaterea acestuia este de natură aleatoare sau obiectivă
(semnificativă).
S-au elaborat diverse criterii şi metode specifice ştiinţelor
experimentale pentru testarea semnificaţiei. Se formulează iniţial o
ipoteză statistică reprezentând o presupunere privitoare la parametrii unei
distribuţii sau la legea de repartiţie pe care o urmează anumite variabile.
Această ipoteză este formulată pe baza datelor experimentale de care se
dispune la un moment dat şi, după ce este analizată, este acceptată sau
respinsă.

Frecvent, ipoteza statistică utilizată este ipoteza nulă (H0)


care constă în presupunerea că abaterea indicatorilor determinaţi
pe baza probelor faţă de parametrii întregii populaţii este 0.
Cealaltă posibilitate se numeşte ipoteza alternativă (H1).

Cu ajutorul unui test statistic sau test de semnificaţie se decide


acceptarea sau respingerea ipotezei nule. Acceptarea ipotezei nule
înseamnă preferarea acesteia faţă de ipoteza alternativă. Se desprinde
concluzia că între valorile comparate (două valori experimentale sau o
valoare experimentală şi una teoretică) nu există diferenţe prea mari sau
că aceste diferenţe sunt întâmplătoare.
Respingând H0, se acceptă semnificaţia abaterilor existente (se
acceptă H1, ipoteza alternativă).

70
Nu se poate pretinde că decizia de acceptare sau respingere a
ipotezei nule este corectă în toate cazurile pentru că se bazează numai pe
o selecţie de volum n din populaţia întreagă (de volum N). Este posibilă,
deci, o eroare. Deciziile se iau cu o probabilitate de eroare q
(probabilitate de transgresiune sau prag de semnificaţie), care în
general se alege 5%, 1% sau 0,1%.
Eroarea care apare în cazul respingerii H0 cu toate că ea este, în
realitate, adevărată, se numeşte eroare de genul I. Decizia greşită de a
accepta ipoteza H0, falsă în realitate, se numeşte eroare de genul II.

Prin metodele de examinare a semnificaţiei, ipoteza nulă


poate fi respinsă, dar nu poate fi niciodată dovedită. Se poate
susţine, cel mult, că ipoteza respectivă nu se află în
discordanţă cu datele experimentale. Asigurarea statistică
înseamnă o probabilitate mică a ipotezei contrare.

La examinarea semnificaţiei se folosesc anumite teste:


ƒ teste de conformitate, utilizate pentru compararea unei populaţii
teoretice cu o probă din punct de vedere al mediilor, abaterii standard,
varianţei, coeficientului de corelaţie etc.;
ƒ teste de egalitate sau omogenitate, care permit compararea unui
număr de populaţii prin intermediul unui număr egal de probe extrase
din acestea (omogenitatea mediilor, a varianţelor, a coeficienţilor de
corelaţie etc.);
ƒ teste de ajustare, folosite pentru compararea a două distribuţii
(experimentală cu teoretică sau distribuţii experimentale între ele);
ƒ teste de independenţă, care permit să se verifice dacă două sau mai
multe criterii de clasificare sunt sau nu independente.
Luarea unei decizii cu privire la o anumită ipoteză statistică se
numeşte testare. Testarea constă în alegerea unui test statistic
corespunzător şi stabilirea unui prag de semnificaţie; rezultă o anumită
valoare teoretică pentru testul respectiv.

ƒ dacă valoarea estimată a testului este mai mică decât


valoarea teoretică, se admite ipoteza nulă;
ƒ dacă valoarea estimată este mai mare decât valoarea
teoretică, ipoteza nulă se respinge.

71
6.2 Repartiţii utilizate pentru testări
În cazul testării ipotezei nule se folosesc variabile aleatoare de
testare care urmează legi teoretice de repartiţie.
6.2.1 Repartiţia normală
Dacă variabilele de testare au o repartiţie normală, q corespunde
probabilităţii de transgresiune. La o anumită probabilitate de eroare, q,
x−μ
corespunde u = ; în general, μ şi σ sunt presupuse cunoscute
σ
numai pentru selecţii mari şi sunt estimaţi prin x şi s.
Probabilitatea de transgresiune de 5% corespunde unei valori a lui
u=1,96. În acest caz se respinge ipoteza nulă dacă valoarea uexp calculată
din selecţie îndeplineşte condiţia uexp>uteoretic=1,96 şi se acceptă dacă
uexp≤uteoretic=1,96.
6.2.2 Repartiţia t (Student)
Procedeul descris pentru repartiţia normală nu mai este valabil în
cazul în care μ şi σ sunt necunoscuţi şi trebuie estimaţi prin x şi s pe
baza unei selecţii de volum mic (N<100). În această situaţie se foloseşte
repartiţia t a lui Student care ia în considerare, pe lângă probabilitatea de
transgresiune, şi volumul probei.
Pentru valori din ce în ce mai mari ale lui N această repartiţie
devine din ce în ce mai apropiată de repartiţia normală şi coincide cu
aceasta atunci când N→∞.
Repartiţia t este tabelată pentru anumite praguri de semnificaţie q
şi diferite grade de libertate f. Numărul gradelor de libertate este egal cu
diferenţa dintre volumul selecţiei şi numărul caracteristicilor luate în
considerare (f=N-m).
6.2.3 Repartiţia F (Fisher)
Fie două eşantioane de volum n1 şi, respectiv, n2 extrase dintr-o
populaţie normală şi s12 şi s22 cele două varianţe corespunzătoare
acestora.
s2
Se formează raportul Fexp = 12 . Repartiţia frecvenţelor acestor
s2
valori a fost studiată de Fisher şi se numeşte repartiţia F.
Aceasta depinde de pragul de semnificaţie q (probabilitatea de
transgresiune) şi de gradele de libertate f1=n1-1 şi f2=n2-1, a fost tabelată
şi serveşte la compararea a două dispersii.
Fiind raportul a două pătrate, F ia numai valori pozitive.

72
6.2.4 Repartiţia χ2
În strânsă legătură cu teoria erorilor a lui Gauss, a fost studiată
suma pătratelor unor variabile repartizate normal.
Fie X1, X2, ..., Xn, n variabile aleatoare independente care au
aceeaşi repartiţie normală de parametri μ şi σ2.
Repartiţia sumei de pătrate:
1 n
χ 2 = 2 ∑ ( x k − μ )2 , (6.1)
σ k =1
în care x1, x2, ..., xn sunt valori ale variabilelor aleatoare X1, X2, ..., Xn, a
fost numită de K.Pearson repartiţia χ2. Aceasta depinde de pragul de
semnificaţie q şi de gradele de libertate f şi este tabelată pentru aceste
valori.
Este folosită frecvent la compararea unei distribuţii experimentale
cu una teoretică sau a două distribuţii experimentale între ele.
6.3 Verificarea concordanţei dintre distribuţia experimentală şi cea
teoretică
Verificarea corespondenţei dintre repartiţiile teoretice şi cele
empirice (testul de ajustare) se face, de obicei, cu ajutorul criteriului χ2.
Se formulează de la început ipoteza că distribuţia experimentală
urmează legea distribuţiei teoretice (normală, Charlier, binomială,
Poisson etc), deci că diferenţele dintre distribuţii sunt nule (ipoteza nulă-
H0).
Verificarea ipotezei nule prin testul χ2 necesită respectarea unor
condiţii:
ƒ numărul observaţiilor să fie suficient de mare (să intre sub incidenţa
legii numerelor mari),
ƒ frecvenţele distribuţiei experimentale să fie exprimate în valori
absolute,
ƒ numărul grupelor (claselor) formate să fie cel puţin egal cu 5,
ƒ volumul grupelor să fie suficient de mare (frecvenţa absolută să fie cel
puţin egală cu 5); dacă există grupe cu frecvenţe mai mici, acestea se
vor contopi.
Relaţia de calcul este:
2
⎛ ∧

k ⎜ ni − ni ⎟
⎝ ⎠
χ2 =∑ ∧
. (6.2)
i =1
ni

73
Calculul se desfăşoară tabelar (tabelul 6), după modelul testării
normalităţii distribuţiei empirice a diametrelor de bază exemplificate
anterior.

Tabelul 6. Exemplu de aplicare a testului χ


2

2
∧ ⎛ ∧

xi ni ⎜ ni − ni ⎟
ni ⎝ ⎠

ni
1 2 3 4
20 0 0
24 0 1
0,071
28 4 4
32 9 9
36 18 16 0,250
40 32 23 3,522
44 21 26 0,962
48 21 25 0,640
52 17 19 0,211
56 11 12 0,083
60 5 6
64 4 2 0,444
68 2 1
TOTAL 144 144 6,183

ƒ se însumează ultima coloană şi se obţine χ2exp.


ƒ din tabele se extrage χ2teoretic în funcţie de probabilitatea de
transgresiune (pragul de semnificaţie) q= 0,05 şi numărul gradelor de
libertate f.
f = k − n −1, (6.3)
în care :
k - numărul claselor rămase după eventuala grupare a claselor extreme;
n - numărul momentelor luate în calcul la determinarea distribuţiei
teoretice:
n = 1 la distribuţia Poisson şi binomială,
n = 2 la distribuţia normală,
n = 4 la distribuţia Charlier tip A,
n = 0 atunci când se compară două distribuţii empirice.

74
Dacă χ2exp≤χ2teoretic⇒ se acceptă ipoteza nulă care
consideră că între distribuţiile comparate nu sunt diferenţe
semnificative.
Dacă χ2exp>χ2teoretic⇒ nu există concordanţă între cele două
distribuţii şi se respinge ipoteza nulă.

Pentru exemplul considerat, χ exp


2
= 6,183 , χ teoretic
2
= 11,070
(pentru probabilitatea de transgresiune 5% şi 5 grade de libertate).
χ exp
2
< χ teoretic
2
, ceea ce înseamnă că distribuţia experimentală este bine
ajustată de distribuţia teoretică normală (se acceptă ipoteza nulă).
6.4 Examinarea semnificaţiei diferenţei dintre dispersii
Prin compararea dispersiilor se pot scoate în evidenţă
particularităţile colectivităţilor cercetate (omogenitatea lor). Se aplică,
deci, un test de egalitate sau de omogenitate.
6.4.1 Compararea unei dispersii experimentale (s2) cu o
dispersie teoretică cunoscută (σ2)
Etapele testării în acest caz sunt:
ƒ se determină varianţa experimentală s2 în cadrul unei probe extrase din
colectivitatea studiată;
ƒ se face raportul s2/σ2;
ƒ se determină f=N-1 (numărul gradelor de libertate);
ƒ din tabele se extrage χ2teoretic în funcţie de pragul de semnificaţie q şi
de f;
ƒ se calculează raportul χ2/f.

Dacă s2/σ2≤χ2/f⇒ diferenţa dintre dispersii este nesemnificativă.


Dacă s2/σ2>χ2/f⇒ diferenţa dintre dispersii este semnificativă.

6.4.2 Verificarea semnificaţiei diferenţei dintre două dispersii


experimentale
În acest caz se foloseşte testul Fisher (F). Aplicarea se face în
mai multe etape:
ƒ se determină varianţele s12 şi s22 corespunzătoare celor două
colectivităţi de volum egal sau diferit (N1 şi N2);

75
ƒ se determină valoarea teoretică a lui F în funcţie de probabilitatea de
transgresiune q şi f1=N1-1 şi f2=N2-1 (din tabele);
s2
ƒ se compară Fteoretic cu Fexperimental= 12 , cu condiţia Fexperimental≥1
s2
(întotdeauna varianţa mai mare se află la numărător).

Dacă Fexperimental≤Fteoretic⇒ diferenţa dintre cele două


dispersii este nesemnificativă (reprezintă, ambele, estimaţii ale
aceleiaşi dispersii teoretice σ2).
Dacă Fexperimental >Fteoretic⇒ diferenţă semnificativă între
dispersii.

6.4.3 Verificarea omogenităţii mai multor dispersii


În această situaţie se poate aplica testul Hartley (H):
ƒ se calculează dispersiile s12, s22, ..., sn2 ale celor n colectivităţi egale ca
volum (N) şi se identifică dispersia maximă şi cea minimă;
s2
ƒ se determină H exp = max 2
;
s min
ƒ se calculează numărul gradelor de libertate f=N-1;
ƒ în funcţie de probabilitatea de transgresiune (q), numărul gradelor de
libertate (f) şi numărul de probe comparate (n) se extrage din tabele
valoarea Hteoretic.

Dacă Hexp≤Hteoretic⇒ probele sunt omogene, deci


dispersiile analizate se consideră estimaţii ale aceleiaşi
dispersii teoretice generale (σ2).
Dacă Hexp>Hteoretic⇒ eşantioanele nu sunt omogene din
punct de vedere al varianţelor, (nu provin din aceeaşi populaţie
sau populaţia nu este omogenă şi necesită stratificarea).

76
6.5 Teste de conformitate. Compararea mediilor
6.5.1 Intervalul de încredere al mediei aritmetice
Datorită variabilităţii individuale şi a volumului variabil al
probelor extrase din populaţiile studiate, în practică valoarea determinată
a mediei aritmetice trebuie însoţită de intervalul de încredere cores-
punzător probabilităţii de transgresiune acceptate (5%, 1% sau 0,1%).
Modul de determinare a intervalului de încredere diferă după cum
abaterea standard teoretică a populaţiei din care s-a extras eşantionul este
sau nu cunoscută.
În cazul când se cunoaşte σ (sau când există un număr mare de
observaţii: N>100), abaterea standard a mediei aritmetice se calculează în
acest caz cu relaţia cunoscută:
σ
sx = . (6.4)
N
Intervalul de încredere va fi:
(x ± u ⋅ s ) .
x
(6.5)

Pentru u egal cu 1,96, 2,58 sau 3,29 există o siguranţă


statistică (probabilitate de acoperire) de 95%, 99% sau, respectiv,
99,9% ca adevărata medie a populaţiei studiate (μ) să se găsească
în intervalul de încredere calculat cu relaţia anterioară.

În practică există puţine situaţii în care se cunoaşte cu anticipaţie


valoarea teoretică a abaterii standard. Pentru unele caracteristici
biometrice au fost stabilite, totuşi, valori orientative ale coeficientului de
variaţie (σ%). Se poate aproxima astfel abaterea standard:
x ⋅σ %
σ ≈ , (6.6)
100
în care x este media aritmetică experimentală.
Pot fi utilizate valori ale abaterii standard obţinute prin cercetări
anterioare, efectuate în condiţii similare.
În cazul când abaterea standard teoretică nu se cunoaşte, în
locul variabilei normale normate u se utilizează valoarea lui t (testul
Student). Limitele intervalului de încredere vor fi definite de expresia:
s
x ± t ⋅ sx = x ± t ⋅ . (6.7)
N
t se extrage din tabele în funcţie de probabilitatea de transgresiune
q şi de numărul gradelor de libertate f=N-1.

77
Deci, spre deosebire de cazul anterior, coeficientul de
multiplicare a erorii mediei aritmetice se determină nu numai în funcţie
de probabilitatea de transgresiune ci şi de numărul de observaţii din
cadrul probei. Metoda se foloseşte şi atunci când N≤100 (pentru probe de
volum mic). Pentru un număr mare de observaţii, intervalul determinat
prin această metodă se suprapune peste intervalul determinat prin
folosirea lui u.

Pentru a avea o anumită acoperire statistică, intervalul de


încredere al mediei aritmetice se măreşte în cazul unui număr
mic de unităţi N în probă. De asemenea, intervalul de încredere
se extinde pe măsură ce scade probabilitatea de transgresiune.

6.5.2 Compararea a două medii aritmetice


Se întâlnesc situaţii, în lucrările curente, când este necesară
compararea a două sau mai multe medii rezultate prin luarea în
considerare a unor colectivităţi diferite (eşantioane diferite extrase din
aceeaşi populaţie de volum mare sau din populaţii diferite). O condiţie ce
trebuie îndeplinită este aceea a normalităţii populaţiilor considerate.
Problema se rezolvă diferit, după cum dispersiile aproximează
aceeaşi varianţă σ2 a populaţiei întregi.
Este necesară o primă etapă, testul Fisher (F), pentru stabilirea
semnificaţiei diferenţei dintre varianţele celor două probe:
s12
Fexp = 2 ≥ 1 . (6.8)
s2
Fexp se compară cu Fteoretic luat din tabele în funcţie de proba-
bilitatea de transgresiune q (cu valorile obişnuite 5% şi 1%) şi de numă-
rul gradelor de libertate pentru probele comparate (f1=N1-1; f2=N2-1).

Dacă Fexp≤Fteoretic 5% ⇒ diferenţa între cele două dispersii este


nesemnificativă;
Dacă Fteoretic 5%<Fexp≤Fteoretic 1% ⇒ există o diferenţă
semnificativă între dispersiile celor două eşantioane;
Dacă Fexp>Fteoretic 1% ⇒ există o diferenţă distinct
semnificativă între cele două probe din punct de vedere al
variaţiei caracteristicii analizate.

78
Etapa a doua constă în aplicarea testului t (Student) pentru
compararea mediilor aritmetice ale celor două probe ( x1 şi x 2 ).
Dacă la prima etapă a rezultat o diferenţă nesemnificativă între
varianţele s12 şi s 22 , se poate calcula o varianţă medie s 2 ca medie
ponderată în raport cu numărul gradelor de libertate pentru cele două
probe:
s 2 ⋅ f + s 22 ⋅ f 2
s2 = 1 1 . (6.9)
f1 + f 2
Abaterea standard medie va fi:
s= s2 , (6.10)
iar valoarea experimentală a testului t se obţine cu relaţia:

x1 − x 2
t exp = . (6.11)
1 1
s⋅ +
N1 N 2
Dacă la prima etapă a rezultat o diferenţă cel puţin semnificativă
între varianţele s12 şi s 22 nu este permis calculul unei varianţe medii, ci se
determină direct texp cu relaţia:

x1 − x 2
t exp = . (6.12)
s12 s2
+ 2
N1 N 2
şi se calculează corecţia c:
s12
N1
c= , (6.13)
s12 s2
+ 2
N1 N 2

în care s12 este varianţa care s-a aflat la numărătorul lui Fexp în prima
etapă.
În ambele situaţii, tteoretic se extrage din tabele în funcţie de
probabilitatea de transgresiune (q=5%) şi numărul gradelor de libertate
pentru ansamblul format din cele două probe.
În primul caz:
f = f1 + f 2 = N1 + N 2 − 2 , (6.14)

79
iar în cel de-al doilea:
1
f = . (6.15)
c2
+
(1 − c ) 2

f1 f2

texp≤ tteoretic⇒ diferenţă nesemnificativă între mediile aritmetice


ale celor două probe;
texp> tteoretic⇒ diferenţă semnificativă între medii.

6.6 Compararea efectului a două tratamente prin metoda cuplurilor


În practică se întâlnesc două situaţii diferite:
• când unităţile cercetate sunt omogene din punct de vedere al
procedeului utilizat (tratamentului), se împart în două grupe egale şi
fiecare se consideră ca selecţie extrasă din aceeaşi populaţie. Modul
de calcul este identic cu cel aplicat la compararea mediilor.
• atunci când unităţile cercetate nu sunt omogene, se extrag perechi de
valori (cupluri) şi se studiază efectul celor două procedee (tratamente)
în paralel, într-o formă tabelară ca în figura 19.

Numărul Procedeul (tratamentul)


Diferenţe
perechii A B di2
di=xi1-xi2
(cuplului) xi1 xi2

Figura 19. Model de tabel pentru aplicarea metodei cuplurilor

Etapele de lucru sunt:


ƒ se grupează unităţile statistice în n cupluri de valori;
ƒ se calculează, pentru fiecare pereche, di şi di2;
ƒ se determină ∑d i şi ∑d i
2
;
ƒ se calculează media diferenţelor:

d=
;
∑d i
(6.16)
n
ƒ se determină dispersia şi abaterea standard pentru aceste diferenţe:
(∑ d ) 2

∑d
i
i
2

s d2 = n ; sd = s d2 ; (6.17)
n −1

80
ƒ se calculează :
d
t exp = ⋅ n; (6.18)
sd
ƒ se compară cu tteoretic extras din tabele în funcţie de probabilitatea de
transgresiune (q=5%) şi numărul gradelor de libertate f=n-1.

Dacă texp≤ tteoretic⇒ diferenţa între cele două procedee este


nesemnificativă;
Dacă texp> tteoretic⇒ cele două procedee (tratamente) diferă
semnificativ.

Procedeul prezentat are avantajul că studiind perechile de unităţi


se elimină variabilitatea din cadrul populaţiei (sursă de erori
întâmplătoare) şi rămân numai abaterile datorate procedeelor diferite
aplicate.
6.7 Examinarea semnificaţiei diferenţei dintre două proporţii
În situaţia în care se pune problema comparării a două proporţii
de manifestare a unui fenomen analizat în cadrul unor eşantioane de
volum N1 şi N2, pentru testarea semnificaţiei diferenţei dintre acestea se
procedează în modalitatea prezentată în continuare.
Presupunem că în proba de volum N1 se observă fenomenul
studiat în a1 cazuri, iar în proba de volum N2, de a2 ori.
Proporţiile rezultate sunt:
a a
p1 = 1 şi p 2 = 2 . (6.19)
N1 N2
Pentru întreaga populaţie:
a + a2
p= 1 . (6.20)
N1 + N 2
Se aplică testul u:
p1 − p 2
u exp = . (6.21)
⎛ 1 1 ⎞
p(1 − p )⎜⎜ + ⎟⎟
N
⎝ 1 N 2 ⎠

În cazul unor eşantioane de volum mic (N< 30) se aduc corecţii


proporţiilor calculate:
1 1
p1 ' = p1 − ; p2 ' = p2 + . (6.22)
2 N1 2N 2

81
uexp se compară cu uteoretic la o anumită probabilitate de
transgresiune.

Dacă uexp≤ uteoretic⇒ diferenţă nesemnificativă între proporţii;


Dacă uexp> uteoretic⇒ diferenţă semnificativă între proporţii.

82
7. COMPARAREA MAI MULTOR PROBE PRIN ANALIZA
VARIANŢEI
Asupra unei colectivităţi pot acţiona simultan mai mulţi factori ce
generează o anumită fluctuaţie a valorilor caracteristicii cercetate,
fluctuaţie redată printr-o dispersie mai mare sau mai mică. Pentru
evidenţierea influenţei fiecărui factor asupra variaţiei indicatorilor
statistici se utilizează analiza varianţei sau analiza dispersională.

Analiza varianţei ca metodă statistică are drept scop


scindarea dispersiei totale în categorii de variaţie, în vederea
stabilirii celor mai importanţi factori ce influenţează fenomenul
studiat.

Varianţa totală este formată din suma varianţelor datorate


factorilor luaţi în studiu, pe de o parte, şi dintr-o varianţă reziduală a
cărei cauzalitate nu este cunoscută în momentul analizei, pe de altă parte.
Varianţa reziduală se datorează acţiunii unor factori neluaţi în
considerare, unor erori de măsurare etc. Aceasta se foloseşte ca unitate de
măsură pentru examinarea semnificaţiei celorlalte componente ale
varianţei totale.
Condiţii de aplicare a analizei varianţei sunt:
ƒ probele considerate trebuie să fie omogene;
ƒ constituirea probelor trebuie să fie făcută randomizat (extragerea la
întâmplare a unităţilor din populaţie);
ƒ probele trebuie să fie extrase din populaţii normale sau aproape
normal distribuite;
ƒ numărul observaţiilor trebuie să fie suficient de mare, astfel încât să
intre sub incidenţa legii numerelor mari.
7.1 Ecuaţia analizei varianţei
Presupunem că se compară I probe (eşantioane) egale, fiecare
având J unităţi (indivizi). Se admite că probele provin din populaţii
normal distribuite şi cu aceeaşi abatere standard (σ) a caracteristicii
studiate; s-a verificat, deci, faptul că varianţele calculate pentru cele I
probe sunt omogene (aproximează aceeaşi varianţă generală σ2).
Eşantioanele au fost extrase randomizat şi independent unele faţă de
altele.
Scopul analizei este acela de a testa dacă cele I probe diferă
statistic unele faţă de altele (mai exact, dacă există cel puţin două probe

83
care diferă măcar semnificativ între ele) şi, eventual, de a ordona probele
în funcţie de un anumit criteriu.
Notaţiile efectuate pentru această analiză sunt:
i - eşantioanele; i=1, ..., I ;
j - unităţile (indivizii) fiecărui eşantion; j=1, ..., J;
xij - valoarea caracteristicii studiate pentru unitatea j din proba i.
Pentru fiecare eşantion i se poate scrie:
xij = xi + eij , cu j=1, ..., J (7.1)
xi reprezintă media aritmetică a valorilor caracteristicii studiate,
în eşantionul i, iar eij este abaterea faţă de media xi a fiecărei valori
individuale xij.
Considerând X , media tuturor valorilor caracteristicii studiate (a
celor I⋅ J valori xij), se poate scrie:
x ij = X + E ij , (7.2)
în care Eij este abaterea fiecărei valori individuale xij faţă de media
generală X .
Din relaţiile anterioare se obţine:
( )
Eij = xij − X = xi − X + (xij − xi ) = xi − X + eij , (7.3) ( )
iar prin ridicare la pătrat:
E ij2 = xi − X ( )
2
(
+ eij2 + 2 ⋅ eij ⋅ xi − X . ) (7.4)
Însumând pătratele erorilor pentru toate cele I⋅ J valori:
( ) + ∑∑ e ( )
I J I J I J I J

∑∑ Eij2 = ∑∑ xi − X + 2 ⋅ ∑∑ eij ⋅ xi − X .
2 2
ij (7.5)
i =1 j =1 i =1 j =1 i =1 j =1 i =1 j =1

Ultimul termen al sumei se mai poate scrie:

[ ( ) ( ) ( )]
I ⎡ ⎤
( )
I J
2 ⋅ ∑ ei1 xi − X + ei 2 xi − X + ... + eij xi − X = 2 ⋅ ∑ ⎢ xi − X ⋅ ∑ eij ⎥ = 0 ,
i =1 i =1 ⎣ j =1 ⎦
pentru că:
ƒ pentru fiecare i, deci pentru fiecare probă, ( xi − X ) este constantă, iar
J
ƒ ∑e
j =1
ij = 0 (una dintre proprietăţile mediei aritmetice).

Se obţine:
( ) + ∑∑ e
I J I I J

∑∑ Eij2 = J ⋅ ∑ xi − X
2 2
ij . (7.6)
i =1 j =1 i =1 i =1 j =1

Aceasta este ecuaţia analizei varianţei, care mai poate fi scrisă şi


în forma:
Q = QF +QE , (7.7)

84
Ecuaţia analizei varianţei arată că:
Suma pătratelor abaterilor totale (Q) poate fi împărţită în
două componente aditive:
• QF , o sumă a pătratelor abaterilor factoriale sau interpopulaţionale
(între probe) şi
• QE, o sumă a pătratelor abaterilor reziduale sau intrapopulaţionale
(în interiorul probelor).

După modul de grupare a observaţiilor, analiza varianţei poate fi:


9 simplă: când valorile individuale se grupează după un singur criteriu
(monofactorială);
9 dublă: când valorile individuale se grupează după două criterii
(bifactorială);
9 multiplă: multifactorială.

Atunci când se cercetează concomitent doi sau mai mulţi


factori se urmăreşte atât acţiunea izolată a fiecăruia cât şi
interacţiunea lor.

Importanţa analizei varianţei constă în:


9 permite evaluarea eficacităţii diverselor procedee experimentale prin
stabilirea intensităţii reale a factorilor ce generează variabilitatea;
9 permite determinarea corectă a valorilor experimentale ale indicilor
statistici şi a erorilor acestora.
7.2 Analiza simplă a varianţei
Desfăşurarea calculelor are loc în funcţie de modul de organizare
a lucrărilor experimentale, implicând o anumită metodă de prelucrare a
datelor. Pentru analiza simplă a varianţei cu număr egal de observaţii în
grupe se parcurg etapele prezentate în continuare.

Pentru număr inegal, modul de aplicare a metodei este deosebit


doar în ceea ce priveşte calculul sumei pătratelor abaterilor

Prima etapă constă în pregătirea datelor pentru analiza varianţei


(tabelul 7).

85
Tabelul 7. Prelucrarea primară a datelor experimentale
J
Proba
xij Ni = J Ti = ∑ xij xi
i j =1

1 x11, x12, x13, . . . , x1J N1 = J T1 x1


2 x21, x22, x23, . . . , x2J N2 = J T2 x2
... ... ... ... ...
I I
TOTAL ⎯ N = ∑Ni = I ⋅ J G = ∑Ti x (*)
i =1 i =1

(*)
se poate calcula media mediilor numai dacă la finalul analizei varianţei se
poate afirma că nu sunt diferenţe semnificative între probe.
Etapa a doua este chiar analiza simplă a varianţei desfăşurată
tabelar (tabelul 8).
Observaţii:
9 pentru calculul lui QF pentru grupe inegale se raportează Ti2 la Ni;
G2
9 c este o corecţie egală cu .
N
Tabelul 8. Analiza simplă a varianţei
Sursa de Suma pătratelor
Gradele de libertate Varianţe Test F
variaţie abaterilor
I
Ti 2 QF s F2
între probe
(factorială)
QF = ∑ −c fF = I − 1 s F2 = Fexp =
i =1 J fF s E2
QE
reziduală QE = Q − QF fE = f − fF = N − I s E2 =
fE
I J
Totală Q = ∑∑ xij2 − c f = N −1 -
i =1 j =1

Valorile lui Fteoretic se extrag din tabele în funcţie de probabilitatea


de transgresiune (5% şi 1%) şi de numărul gradelor de libertate fF şi fE.

Fexp ≤ Fteoretic0,05 ⇒ nu există diferenţe semnificative între probe;


Fteoretic0,05 <Fexp ≤ Fteoretic0,01 ⇒ există diferenţe semnificative între probe
Fexp > Fteoretic0,01 ⇒ între probe există diferenţe distinct semnificative.

86
În ultimele două cazuri, concluzia este că există cel puţin două
probe care diferă semnificativ, respectiv distinct semnificativ. Aceste
diferenţe vor fi puse în evidenţă în cea de a treia etapă, şi anume:
aplicarea testului t pentru analiza semnificaţiei diferenţelor dintre
medii. Se completează tabelul 9.

Tabelul 9. Analiza semnificaţiei diferenţelor


dintre medii
xi Diferenţe (d) faţă de proba ...
Proba
4 1 3 ...
4 x4 - x 4 − x1 x 4 − x3 ...
1 x1 - x1 − x 3 ...
3 x3 - ...
... ... ...
se aranjează în ordine descrescătoare a mediilor

Pentru probabilităţile de transgresiune uzuale (5%, 1% şi 0,1%) se


calculează diferenţele limită (DL) cu relaţia:
DL = s d ⋅ t , (7.8)
în care abaterea standard a diferenţelor (sd) este:
2
s d = s E2 ⋅ , (7.9)
J
iar dacă probele nu sunt de volum egal:
⎛ 1 1 ⎞
s d = s E2 ⋅ ⎜⎜ + ⎟⎟ cu i, k = 1, …, I. (7.10)
⎝ Ni Nk ⎠
Valoarea lui t se ia din tabele în funcţie de probabilitatea de
transgresiune şi de numărul gradelor de libertate, fE. Se analizează pe
rând diferenţele d din tabel. Semnificaţia se marchează în tabelul cu
diferenţele experimentale.

d ≤ DL0,05 ⇒ diferenţa d este nesemnificativă;


DL0,05 < d ≤ DL0,01 ⇒ diferenţa d este semnificativă (notaţie *)
DL0,01< d ≤ DL0,001 ⇒ diferenţa d este distinct semnificativă (notaţie **);
d > DL0,001 ⇒ diferenţa d este foarte semnificativă (notaţie ***).

87
8. ANALIZA CORELAŢIEI
Caracteristic fenomenelor şi proceselor studiate de biostatistică
este faptul că acestea sunt rezultatul acţiunii unui mare număr de factori
(variabile), unii principali, alţii secundari, unii esenţiali, alţii
nesemnificativi, unii măsurabili, alţii nemăsurabili.

Analiza corelaţiei este o metodă statistică prin care se


cercetează şi se exprimă existenţa, tipul şi intensitatea
interdependenţei dintre două sau mai multe variabile aleatoare
prin intermediul unor indicatori statistici (coeficientul de
corelaţie, raportul de corelaţie).

8.1 Tipuri de legături între variabile


Termenul corelaţie este folosit pentru a defini interdependenţa
(legătura) între variabilele observate în populaţii statistice. Este sinonim
cu legitate statistică sau legătură statistică. Etimologic, termenul
“corelaţie” provine din latină (corelatio = în relaţie cu) şi a fost folosit în
biologie de Charles Darwin cu sensul de “variabilă corelativă”. În
statistică a fost preluat de Galton cu semnificaţia de raporturi reciproce
între anumite caracteristici.
Legătura dintre două sau mai multe caracteristici poate fi (figura 20):
ƒ funcţională;
ƒ statistică (stohastică).
În cazul dependenţei funcţionale, unei anumite valori a variabilei
independente x îi corespunde o singură valoare a variabilei dependente y.
În cazul legăturii statistice, unei valori x pentru variabila
independentă îi corespund mai multe valori y care admit o medie
reprezentativă.

Figura 20. Diferenţierea dintre o legătură funcţională şi una statistică

88
După numărul caracteristicilor a căror interdependenţă o studiază,
corelaţia poate fi simplă sau multiplă.
Corelaţia simplă exprimă legătura dintre două caracteristici dintre
care una este considerată variabila independentă (x), iar cea de-a doua,
variabila dependentă de prima (y).
Corelaţia multiplă exprimă dependenţa statistică între o variabilă
dependentă (rezultativă) şi mai multe variabile independente (factoriale).
Atunci când tipul legăturii dintre două caracteristici este greu de
stabilit datorită numărului redus de observaţii sau când aceste
caracteristici sunt exprimate în unităţi calitative, dependenţa statistică se
poate exprima prin corelaţia de rang.

Importanţa analizei corelaţiei constă în faptul că pune în


evidenţă natura legăturii cercetate şi intensitatea ei.

Se consideră o colectivitate statistică reprezentată prin carac-


teristicile X şi Y pentru care, în urma determinărilor experimentale, s-au
obţinut valorile înregistrate într-un tabel de forma:
X x1, x2, x3, ..., xn
Y y1, y2, y3, ..., yn
Repartiţia empirică a variabilelor X şi Y se analizează pe cale
grafică într-un sistem de axe ortogonal în care se reprezintă punctele de
coordonate (xi, yi). Ansamblul acestor puncte se numeşte câmp de
corelaţie sau nor statistic, iar graficul în întregime – corelogramă (figura
21).
Dacă punctele Mi (xi, yi) sunt distribuite de-a lungul unei fâşii
care, în general, urmează o curbă determinată, se poate afirma că între
mărimile respective există o dependenţă sau o legătură corelativă.
Cu cât norul statistic (câmpul de corelaţie) este mai îngust cu atât
legătura dintre variabilele studiate este mai puternică.
Într-un caz particular, această legătură corelativă se poate
transforma în dependenţă funcţională, atunci când punctele câmpului de
corelaţie se situează strict pe o anumită curbă sau dreaptă.
Problema care se pune este de a exprima numeric gradul de
dependenţă dintre cele două variabile (gradul de apropiere de o
dependenţă funcţională).

89
Figura 21. Câmp de corelaţie în două situaţii diferite de interdependenţă a
variabilelor
Din modul de dispunere a grupului de puncte (nor statistic) se
poate aprecia sensul legăturii (figura 22). Aceasta poate fi directă
(pozitivă), atunci când X şi Y cresc sau descresc simultan, şi inversă
(negativă), atunci când la modificarea într-un sens a variabilei X, Y se
modifică în sens contrar.

Figura 22. Observarea grafică a sensului corelaţiei dintre variabile


În cazul în care între X şi Y nu există nici un fel de dependenţă,
norul statistic va fi împrăştiat.
În foarte multe situaţii, din observarea fenomenelor naturale sau
sociale, fără a cunoaşte natura exactă a acestora şi nici cauzele
manifestării unei anumite caracteristici, se pot trage concluzii foarte
importante prin examinarea corelaţiei dintre acestea şi alte evenimente.
În astfel de cazuri, analiza corelaţiei poate aduce contribuţii valoroase
deoarece este o metodă de cercetare a fenomenelor care se bazează pe
descompunerea unui întreg în elementele lui componente şi analiza
relaţiilor statistice dintre acestea.
Atunci când se utilizează mai multe variabile se poate distinge o
corelaţie parţială, când se consideră pentru moment constante unele
variabile, şi o corelaţie totală, atunci când se iau în considerare variaţiile
tuturor mărimilor variabile. Se poate determina, astfel, ponderea
diverşilor factori la realizarea unui fenomen de masă.

90
În silvicultură, legăturile dintre fenomene sau caracteristici sunt
legături statistice. Deşi nu au caracter funcţional, determinarea acestora
prezintă o importanţă deosebită pentru că prin cunoaşterea valorilor unei
caracteristici se pot determina valorile altei caracteristici (cu o anumită
aproximaţie) fără a efectua asupra acesteia din urmă măsurători
costisitoare sau foarte dificile (de exemplu, diametrul la 0,5 h în funcţie
de d -diametrul la 1,30 m-, pentru arbori).
Corelaţia constatată între două variabile, dar care nu are nici o
semnificaţie cauzală se numeşte corelaţie aparentă sau falsă. Este
imprudent să se interpreteze corelaţia în termeni de cauzalitate fără a
cunoaşte în profunzime fenomenele studiate. Corelaţia este doar o
reflectare a legăturilor cu caracter complex existente între fenomenele de
masă.

Statistica nu poate oferi informaţii despre cauzalitatea


legăturilor dintre două sau mai multe variabile.

Corespondenţa dintre variabile poate rezulta, de cele mai multe


ori, dintr-o legătură nemijlocită între fenomene. În alte cazuri, două
fenomene se pot modifica (în acelaşi sens sau în sensuri opuse) ca urmare
a modificării unui al treilea factor, fără ca între primele două să existe o
legătură cauzală (de exemplu: diametrul şi înălţimea într-un arboret
echien depind de dezvoltarea biocenozei respective care influenţează
printr-o multitudine de factori modificarea celor două caracteristici direct
intercorelate).
O a treia situaţie este cea a unui paralelism întâmplător în modul
de variaţie a două sau a mai multor fenomene. Se citează deseori
exemplul tipic al unui cercetător care a înregistrat frecvenţa cuiburilor de
barză reperate într-o suburbie a Londrei şi, în paralel, frecvenţa naşterilor
în aceeaşi suburbie, pentru o anumită perioadă. Datele au arătat că
perioada cu cea mai mare frecvenţă pentru una dintre variabile
corespunde unei frecvenţe ridicate şi pentru cealaltă. Statistic, corelaţia
între cele două fenomene s-a dovedit ridicată. Nu se poate vorbi, însă, la
modul serios, de o relaţie cauză-efect în acest caz.
Asemenea situaţii practice atrag atenţia asupra necesităţii
diferenţierii legăturilor cauzale de legăturile formale. Se poate trece de
la o relaţie statistică determinată empiric la o relaţie cauzală numai prin
cunoaşterea temeinică a domeniului studiat.

91
8.2 Coeficientul de corelaţie
Indicatorul statistic care dă măsura intensităţii legăturii corelative
dintre două variabile este coeficientul de corelaţie liniară (coeficientul
Bravais-Pearson).
8.2.1 Proprietăţile coeficientului de corelaţie
Proprietăţile coeficientului de corelaţie sunt:
ƒ notaţie: ρ pentru populaţia întreagă şi r pentru un eşantion;
ƒ este indicatorul statistic care exprimă numeric intensitatea legăturii
liniare dintre două sau mai multe variabile;
ƒ exprimă gradul dispersiei valorilor caracteristicii rezultative y în jurul
dreptei ce reprezintă funcţia de corelaţie (dreapta de regresie); cu cât
această dispersie este mai mare, cu atât coeficientul de corelaţie este
mai mic în modul, şi invers;
ƒ ia valori în intervalul [-1,1]; cu cât este mai apropiat de 1 sau de -1 cu
atât corelaţia este mai puternică;
ƒ dacă ρ (sau r) = ±1, corelaţia este perfectă (mai exact, legătura
corelativă se transformă într-o legătură funcţională);
ƒ dacă ρ (sau r) = 0, nu există corelaţie (variabilele luate în considerare
nu depind între ele);
ƒ r este coeficient de corelaţie empiric (se referă la distribuţii empirice,
nu teoretice) şi estimează, doar, valoarea lui ρ.
Atunci când numărul observaţiilor este mic, pentru studierea
legăturii corelative între două caracteristici se foloseşte un tabel de tipul
celui prezentat deja (tabelul anterior). Dacă numărul datelor experimentale
este mare, acestea trebuie să fie grupate pe clase, atât după caracteristica
X, cât şi după caracteristica Y. Rezultă astfel distribuţia empirică
bidimensională într-un tabel de corelaţie (tabelul din figura 23).

Figura 23. Forma generală a unui tabel de corelaţie

92
Studiul unui ansamblu bidimensional de date experimentale nu
trebuie sa se limiteze la o analiza numerică automată, ci trebuie să-şi
sprijine concluziile şi pe o analiză grafică atentă. Situaţiile prezentate în
figura 24 atenţionează asupra pericolului interpretării legăturii statistice
dintre două caracteristici numai prin valoarea coeficientului de corelaţie.

Figura 24. Situaţii improprii unei analize corecte a corelaţiei


În prima situaţie este clară necesitatea evidenţierii a două
subpopulaţii pentru care legătura corelativă între cele două variabile
analizate (x şi y) este total diferită.
În cea de-a doua, valoarea extremă izolată (B) generează un
coeficient de corelaţie cu valoare mare, dar între cele două variabile nu
există, în realitate, nici o legătură statistică.
8.2.2 Determinarea coeficientului de corelaţie pentru corelaţia
simplă
Se folosesc relaţiile de calcul:
σ xy
ρ= (pentru o populaţie) (8.1)
σ x ⋅σ y
s xy cov( xy )
sau: r= = (pentru o probă), (8.2)
sx ⋅ sy sx ⋅ sy
în care:
sx reprezintă abaterea standard a caracteristicii x;
sy- abaterea standard a caracteristicii y;
sxy sau cov(xy) - covarianţa (varianţa comună).
Pentru valori negrupate în clase, se cunoaşte că:
(∑ x ) 2
(∑ y )2

∑x 2

N
∑y 2

N
sx = şi s y = , (8.3)
N −1 N −1

93
iar covarianţa se obţine cu relaţia:

∑x⋅∑ y
s xy =
∑ (x − x ) ⋅ ( y − y ) ∑ xy − = N . (8.4)
N −1 N −1
Deci:
∑x⋅∑ y
∑ xy − N
r= N −1 =
(∑ x )2
(∑ y ) 2

∑x 2

N
∑y 2

N

N −1 N −1

N ⋅ ∑ xy − ∑ x ⋅ ∑ y
= (8.5)
[N ⋅ ∑ x 2
][
− (∑ x ) ⋅ N ⋅ ∑ y 2 − (∑ y )
2 2
]
Dacă se face gruparea în clase intervin frecvenţele distribuţiilor
marginale nx, ny şi frecvenţele distribuţiilor de clase nxy:
⎛ ⎞⎛ ⎞
N ∑ ∑ n xy ⋅ x ⋅ y − ⎜ ∑ n x ⋅ x ⎟⎜⎜ ∑ n y ⋅ y ⎟⎟
x y ⎝ x ⎠⎝ y ⎠
r = rxy = ryx = .
⎞ ⎤ ⎡ ⎞ ⎤
2
⎡ ⎛
2

⎢ N ∑ n x ⋅ x − ⎜ ∑ n x ⋅ x ⎟ ⎥ ⋅ ⎢ N ∑ n y ⋅ y − ⎜⎜ ∑ n y ⋅ y ⎟⎟ ⎥
2 2

⎢⎣ x ⎝ x ⎠ ⎥⎦ ⎢⎣ y ⎝ y ⎠ ⎥⎦

În practică, pe o scală de la [0,1], considerând coeficientul de


corelaţie în modul, se utilizează următoarele subintervale de interpretare:
- 0 ≤ r ≤ 0,200 – situaţie în care nu există o legătură între variabile;
- 0,200 < r < 0,500 – între variabile există o legătură slabă;
- 0,500 < r < 0,750 – legătura dintre variabile are intensitate medie;
- 0,750 < r < 0,950 – legătură puternică între cele două variabile;
- 0,950 < r < 1,000 – legătura dintre variabile este funcţională.
Exemplu de aplicare
Pentru arboretul luat în considerare în exemplificările anterioare,
dacă se analizează caracteristicile diametrul de baza (xi) şi înălţimea
arborilor (yi), se obţine distribuţia empirică bidimensională (tabelul de
corelaţie) următor:

94
Tabelul 10. Distribuţia empirică bidimensională pentru exemplul analizat
yi xi 28 32 36 40 44 48 52 56 60 64 68 ny
44 5 3 8
42 2 2 1 3 2 10
40 1 1 5 3 9 1 20
38 5 1 7 6 2 1 22
36 3 10 7 5 1 26
34 1 8 9 4 22
32 3 4 5 2 14
30 1 2 5 1 9
28 2 1 3 2 8
26 1 3 1 5
nx 4 9 18 32 21 21 17 11 5 4 2 144

Din calcule se obţine:


s xy cov( xy ) 31,4973
r= = = = 0,7965*** .
sx ⋅ s y sx ⋅ s y 8,7428 ⋅ 4,5228

8.2.3 Determinarea semnificaţiei coeficientului de corelaţie


Valoarea coeficientului de corelaţie r, calculat cu relaţiile
anterioare, reprezintă o măsură a intensităţii legăturii statistice între
variabilele considerate.

Este necesar să fie testată semnificaţia lui r, adică să se


determine dacă valoarea obţinută estimează într-adevăr valoarea
ρ a coeficientului de corelaţie pentru populaţia întreagă sau a
rezultat datorită unor erori de eşantionare.

Metoda 1: testul u folosind transformarea lui Fisher


Pentru normalizarea valorilor coeficienţilor de corelaţie, Fisher a
aplicat transformarea:
1 1+ r
z = ⋅ ln . (8.7)
2 1− r
În funcţie de valoarea lui z calculată pentru valoarea
experimentală a coeficientului de corelaţie r, se determină uexp cu relaţia:
z
u exp = , (8.8)
sz
în care abaterea lui z este:
1
sz = . (8.9)
N −3

95
uexp ≤ uteoretic 0,05 ⇒ r este nesemnificativ,
uteoretic 0,05 < uexp ≤ uteoretic 0,01 ⇒ r este semnificativ (notaţie *),
uteoretic 0,01 < uexp ≤ uteoretic 0,001 ⇒ r este distinct semnificativ (notaţie **),
uexp > uteoretic 0,001 ⇒ r este foarte semnificativ (notaţie ***).

Valoarea lui r poate fi mare în modul (apropiată de 1 sau de –1),


dar nesemnificativă, sau mică (mai apropiată de 0) şi semnificativă.
Aceasta depinde de numărul unităţilor statistice pentru care s-au
determinat valorile caracteristicilor studiate.
Limitele de încredere pentru coeficientul de corelaţie (intervalul
în care se află ρ) se determină în funcţie de limitele de încredere pentru z
(valori tabelate):
1
z ± u ⋅ sz = z ± u ⋅ , sau: (8.10)
N −3
1 ⎛1+ r ⎞ 1 1 ⎛1+ ρ ⎞
⋅ ln⎜ ⎟±u⋅ = ⋅ ln⎜⎜ ⎟. (8.11)
2 ⎝1− r ⎠ N − 3 2 ⎝ 1 − ρ ⎟⎠
Se determină cele două limite ale intervalului de încredere pentru
coeficientul de variaţie ρ.

Dacă 0 este cuprins între cele două limite ale intervalului


de încredere, indiferent de mărimea acestui interval nu poate fi
dovedită o corelaţie semnificativă.

Metoda 2 (expeditivă): testul u sau t fără transformare prealabilă


• pentru un număr mare de observaţii, se utilizează statistica u
pentru care se calculează o valoare experimentală:
r r
u exp = = ⋅ N (8.12)
sr 1− r2
şi se compară cu valoarea teoretică pentru probabilitatea de transgresiune
impusă;
• pentru un număr mic de observaţii, se determină texp cu relaţia:
r
t exp = ⋅ N −2 . (8.13)
1− r2

96
Valoarea obţinută se compară cu tteoretic extras din tabele în funcţie
de probabilitatea de transgresiune (q) şi de numărul gradelor de libertate
(f = N-2).
Au fost întocmite tabele din care se poate obţine direct valoarea
semnificativă a lui r pentru un anumit prag de semnificaţie şi în funcţie
de volumul probei.
Pentru coeficientul de corelaţie care exprimă legătura statistică
dintre diametrul de bază al arborilor şi înălţimea arborilor
( r = 0,7965*** ), valorile minime corespunzătoare pragurilor de semni-
ficaţie 5%, 1% şi 0,1% şi f = N − 2 = 144 − 2 = 142 grade de libertate
sunt (prin interpolare în tabelul din anexa V): 0,164; 0,214 şi, respectiv,
0,271. Coeficientul obţinut este foarte semnificativ şi s-a marcat
corespunzător.
8.2.4 Coeficientul de corelaţie a rangurilor
Determinarea coeficientului de corelaţie a rangurilor (rs)
presupune ca, în locul comparării valorilor caracteristicilor măsurabile
(diametru de bază, înălţime, lăţime a inelelor anuale etc.), să se ordoneze
diferitele variabile calitative (şi nu numai) utilizând numere de la 1 la N.
Aceste numere (ranguri) indică poziţiile unităţilor în şirul statistic al
fiecărei caracteristici.
Se obţin astfel două clasamente distincte pentru care se calculează
coeficientul de corelaţie a rangurilor cu relaţia:
N
6 ⋅ ∑ d i2
rs = 1 − i =1
, (8.14)
(
N ⋅ N 2 −1 )
în care:
N reprezintă numărul de perechi de valori care se compară,
d i2 - pătratul diferenţei de rang pentru fiecare pereche i.
Demonstraţie
În forma generală, coeficientul de corelaţie pentru valori
negrupate în clase are expresia:

r=
s xy
=
∑ (x − x ) ⋅ ( y − y ) , (8.15)
sx ⋅ s y ∑ ( x − x ) ⋅ ∑ ( y − y )
semnificaţia notaţiilor fiind cea menţionată anterior.
Dar rangurile, aşa cum s-a menţionat, reprezintă numere de la 1 la
N, atât pentru caracteristica x, cât şi pentru caracteristica y, deci:

97
N ⋅ ( N + 1)
N

∑i 2 N +1
x = y = i =1 = = . (8.16)
N N 2

N ⋅ (N + 1)
2 2
⎛ N + 1⎞
N

∑ (x − x ) = ∑ ( y − y ) = ∑ ⎟ = ∑i −
2 2
⎜i − =
2

i =1 ⎝ 2 ⎠ 4
N ⋅ ( N + 1) ⋅ (2 N + 1) N ⋅ ( N + 1) N ⋅ ( N + 1) ⋅ ( N − 1)
2
= − = . (8.17)
6 4 12
Se face apoi transformarea:
2 ⋅ (x − x )( y − y ) = (x − x ) + ( y − y ) − [(x − x ) − ( y − y )] = ( x − x ) + ( y − y ) − d 2
2 2 2 2 2

unde prin d s-a notat diferenţa (x - y).


Deci:
∑(x − x ) + ∑( y − y) − ∑d N ⋅ ( N + 1) ⋅ ( N −1) 1
2 2 2

∑(x − x)( y − y) = 2 12
= − ∑d 2
2
Înlocuind în relaţia coeficientului de corelaţie:
N ⋅ ( N + 1) ⋅ ( N − 1) 1
− ∑d 2 6⋅∑d 2
r= 12 2 = 1− = rs , (8.18)
N ⋅ ( N + 1) ⋅ ( N − 1)
12
N ⋅ N −1
2
( )
tocmai ceea ce trebuia demonstrat.
Avantajele folosirii coeficientului de corelaţie a rangurilor sunt:
ƒ elimină valorile absolute; nu se lucrează cu valorile reale pentru care
calculul este complicat;
ƒ expeditivitate a calculelor;
ƒ calculul lui rs implică întocmirea unui tabel în care se observă imediat
cuplurile discordante şi sensul decalajului (pozitiv sau negativ).
Dezavantajele utilizării lui rs sunt:
ƒ este mai puţin precis decât coeficientul de corelaţie obişnuit pentru că
înlocuieşte prin diferenţe egale variaţii efective diferite;
ƒ existenţa unor ranguri egale nu influenţează media aritmetică, dar
afectează simţitor varianţele; eroarea poate fi neglijată dacă asemenea
erori nu sunt prea numeroase, dar există şi artificii de notare a
rangurilor care diminuează aceste erori.
Exemplu de aplicare
Considerăm un eşantion format din 8 arborete, cu aceeaşi
proporţie majoritară de participare a bradului, pentru care se determină
două caracteristici: consistenţa şi procentul de uscare a arborilor de brad.
Interesează dacă există o legătură corelativă între cele două caracteristici.

98
Coeficientul de corelaţie a rangurilor se determină cu datele din
tabelul următor.
Tabelul 11. Calcule pentru determinarea coeficientului de
corelaţie a rangurilor
Consistenţa % Rangul
arbori
arboretelor d d2
x uscaţi după x după y
y
0,3 6 8 3 5 25
0,4 5 7 4 3 9
0,5 8 6 1 5 25
0,6 7 5 2 3 9
0,7 4 4 5 -1 1
0,8 3 3 6 -3 9
0,9 1 2 8 -6 36
1,0 2 1 7 -6 36
TOTAL 150

900
rs = 1 − = 1 − 1,786 = −0,786 * (8.19)
8 ⋅ (64 − 1)
Dacă se calculează coeficientul de corelaţie obişnuit, r, cu valorile
determinate în tabelul 12,
Tabelul 12. Calculul coeficientului de corelaţie r
pentru exemplul anterior
Consistenţa % arbori
arboretelor uscaţi xy x2 y2
x y
0,3 6 1,8 0,09 36
0,4 5 2,0 0,16 25
0,5 8 4,0 0,25 64
0,6 7 4,2 0,36 49
0,7 4 2,8 0,49 16
0,8 3 2,4 0,64 9
0,9 2 0,9 0,81 1
1,0 1 2,0 1,00 4
TOTAL 5,2 36 20,1 3,80 204

N ∑ xy − ∑ x ⋅ ∑ y
r= =
[N ∑ x 2 2
][
− (∑ x ) ⋅ N ∑ y − (∑ y )
2 2
]
99
8 ⋅ 20,1 − 5,2 ⋅ 36
= = −0,785 *, (8.20)
(8 ⋅ 3,8 − 27,04) ⋅ (8 ⋅ 204 − 1296)
se observă că valoarea acestuia este foarte apropiată de coeficientul de
corelaţie a rangurilor.
Testarea semnificaţiei coeficientului de corelaţie:
r 0,785
t exp = ⋅ N −2 = ⋅ 6 ≈3 (8.21)
1− r 2 0,620
În tabelul din anexa III, tteoretic(0,05; 6) = 2,447 şi tteoretic(0,01; 6) =
3,707. Aşadar, coeficientul de corelaţie este semnificativ, chiar şi pentru
acest volum redus al eşantionului.
Între cele două caracteristici există o corelaţie puternică (valoare
apropiată de – 1,000) şi inversă (valoarea negativă a coeficientului de
corelaţie semnifică faptul că pe măsură ce cresc valorile uneia dintre
caracteristici, scad valorile celeilalte caracteristici).

100
9. ANALIZA ÎN COMPONENTE PRINCIPALE (ACP)
Analiza în componente principale (ACP) este o metodă statistică
prin care se identifică parametrii specifici unui set multidimensional de
valori experimentale exprimându-le într-o formă care pune în evidenţă
similitudinile şi diferenţierile dintre variabilele luate în studiu.
Aplicaţia tradiţională a ACP este cea de reducere a dimensiunilor
setului de valori experimentale (tabelelor de contingenţă). Acest tip de
analiză statistică poate fi folosită pentru a determina câte dimensiuni
prezintă importanţă reală în interpretarea fenomenelor. Numărul de
dimensiuni este dedus intuitiv, diferit de semnificaţia strict matematică a
acestora, prin analiza nivelului variaţiei valorilor experimentale explicat
de diferite componente principale. Dacă există un număr redus de
componente care determină cea mai mare parte a variabilităţii valorilor
experimentale, atunci celelalte componente pot fi considerate ca fiind
variabile de „zgomot” (perturbaţie) pentru fenomenul studiat.
9.1 Consideraţii istorice
Analiza în componente principale este o metodă de analiză
statistică aplicată încă de la începutul secolului al XX-lea în scopul
determinării parametrilor ecuaţiilor de regresie multiple, al reducerii
dimensiunilor datelor şi pentru reducerea „zgomotului” informaţional.
K. Pearson (1901) introduce ACP în aplicaţiile biologice în
vederea reiterării analizei regresiei liniare într-o formă nouă.
H. Hotelling (1933) dezvoltă ACP pentru aplicaţii în psihometrie.
Karhunen şi Loeve generalizează, la mijlocul secolului trecut,
ACP în spaţiul infinit-dimensional şi în teoria probabilităţilor.
9.2 Principii de bază
Analiza multifactorială este deosebit de importantă în
interpretarea statistică a valorilor experimentale rezultate prin
înregistrarea observaţiilor pentru un număr mare de caracteristici sau
variabile. Fiecare dintre cele m variabile luate în considerare poate fi
considerată ca fiind o dimensiune diferită în hiperspaţiul m-dimensional.
Vizualizarea acestui hiperspaţiu este dificilă şi din acest motiv
obiectivul ACP este de a reduce multidimensionalitatea prin exprimarea
tuturor valorilor experimentale prin compunerea lor în raport cu anumite
variabile compozite. În plus, sintetizarea a două sau trei componente
principale poate fi redată grafic cu pierderi minime de informaţie
referitoare la fenomenul studiat.
O modalitate de a reduce în cadrul analizei statistice
multidimensionalitatea fenomenelor biologice constă în extragerea
componentelor principale, ceea ce constă într-o rotaţie a axelor în spaţiul

101
multidimensional. Această operaţie permite determinarea combinaţiilor
liniare (denumite componente principale) ale variabilelor iniţiale care să
sintetizeze o cantitate cât mai mare de informaţie (Dillon, W.R.,
Goldstein, M., 1984).
În situaţia în care m variabile X1, X2, …, Xm sunt corelate între ele,
informaţia pe care o transmit luate în ansamblu posedă un anumit grad de
redundanţă.
Prin ACP se pot constitui, din lista celor m variabile iniţiale, p noi
variabile neredundante, p < m .

Ideea de bază a ACP este aceea de a reduce numărul


mare de variabile iniţiale luate în considerare, dintre care multe
sunt puternic corelate între ele, la câteva variabile (sau
componente) necorelate (ortogonale una faţă de alta). Aceste
componente principale pot fi considerate „super-variabile”
integrate care explică cea mai mare parte din varianţa valorilor
experimentale.

ACP nu este altceva decât o recombinare liniară a variabilelor


iniţiale într-un nou set de variabile, de data aceasta ortogonale. Varianţa
iniţială este realocată în noi unităţi de măsură; din acest punct de vedere,
ACP poate fi considerată un caz particular al analizei factoriale.
Aplicarea ACP presupune îndeplinirea unor condiţii iniţiale, şi
anume:
9 întregul set de date este normal distribuit (se verifică normalitatea
prin teste specifice);
9 trebuie să se transforme datele (prin centrare sau standardizare) astfel
încât valorile diferitelor variabile să fie comparabile (figura 25); de
fapt, standardizarea implică egalizarea influenţelor variabilelor;
9 după centrarea valorilor experimentale prin folosirea momentului de
ordinul 1 (media aritmetică) întreaga informaţie necesară aplicării
ACP este conţinută de matricea covarianţelor.
Aşadar, este necesar să se exprime fiecare dintre valorile
experimentale observate sau măsurate sub formă de diferenţe faţă de
media aritmetică raportate la abaterea standard. Prin definiţie, aceste
valori standardizate au media 0 şi varianţa 1.

102
Figura 25. Efectul transformării valorilor experimentale
Determinarea componentelor principale presupune în continuare o
rotaţie de axe, transformare care facilitează interpretarea rezultatelor.

Scopul analizei în componente principale constă în


explicarea şi sintetizarea structurii varianţei înglobate într-un
set extins de variabile prin intermediul câtorva combinaţii
liniare al acestora.

ACP poate scoate în evidenţă anumite relaţii care nu au fost


identificate anterior şi dă posibilitatea interpretării lor.
Rezultatele ACP sunt frecvent utilizate în prelucrarea statistică
ulterioară pentru analiza regresiilor multiple, pentru analiza cluster şi în
studiul seriilor de timp multivariate.
9.3 Interpretarea algebrică a ACP
Analiza în componente principale se poate efectua pornind de la
setul iniţial de date experimentale, dar şi folosind direct matricea
covarianţelor sau matricea de corelaţie. Matricea de corelaţie se
utilizează atunci când caracteristicile studiate se exprimă în unităţi
diferite de măsură sau diferă foarte mult gradul de împrăştiere a valorilor
experimentale ale variabilelor analizate. Folosirea matricii de corelaţie
este echivalentă cu standardizarea variabilelor (transformarea lor în
variabile cu media 0 şi abaterea standard 1).
După cum se cunoaşte, relaţia covarianţei este foarte
asemănătoare cu cea a varianţei. Această similitudine se observă foarte
bine dacă se scrie varianţa în forma:

103
n

∑ (x i − x )( xi − x )
var( x) = i =1
, (9.1)
(n − 1)
covarianţa fiind:
n

∑ (x i − x )( y i − y )
cov( x, y ) = i =1
. (9.2)
(n − 1)
Covarianţa este, deci, determinată întotdeauna pentru două
dimensiuni (variabile).
Dacă se analizează un set de date experimentale cu mai mult de
două dimensiuni (variabile), este necesar să se calculeze mai multe
covarianţe. De exemplu, pentru un set de date tridimensional (pentru
variabilele x, y şi z) se calculează cov(x, y), cov(x, z) şi cov(y, z).
Generalizând, pentru un set de date m-dimensional se pot
m!
determina covarianţe diferite care aranjate matricial formează
2 ⋅ (m − 2)!
matricea covarianţelor:
Σ m×m = (ci , j , ci , j = cov( Dimi , Dim j ) ), (9.3)
în care Σ m×m este o matrice cu m linii şi m coloane (pătrată), iar Dimk
este dimensiunea (variabila) k.
Pentru exemplul cu trei variabile, matricea covarianţelor are 3
linii şi trei coloane:
⎛ cov( x, x) cov( x, y ) cov( x, z ) ⎞
⎜ ⎟
Σ = ⎜ cov( y, x) cov( y, y ) cov( y, z ) ⎟ . (9.4)
⎜ cov( z, x) cov( z, y ) cov( z , z ) ⎟
⎝ ⎠
Se observă că pe diagonala principală covarianţele sunt de fapt
varianţele caracteristicilor respective. De asemenea, datorită egalităţii
cov(a, b) = cov(b, a) , matricea este simetrică faţă de diagonala
principală. Matricea de corelaţie R cuprinde coeficienţii de corelaţie rij
pentru toate perechile formate din cele m variabile analizate.

ACP se bazează pe extragerea unor componente


necorelate, denumite componente principale, prin determinarea
eigenvectorilor matricii covarianţelor sau ai matricii de
corelaţie ale variabilelor iniţiale.

104
Sunt necesare câteva explicaţii legate de operatorii algebrei
matriciale şi de regulile specifice de utilizare.
Considerăm două variabile X1 şi X2, pentru care rezultă
următoarea matrice de corelaţie R:
⎛ 1,000 0,723⎞
R = ⎜⎜ ⎟⎟ . (9.5)
⎝ 0.723 1,000 ⎠
Această matrice are următoarele proprietăţi:
9 dacă R este inversabilă înseamnă că există o altă matrice pătratică R-1
care, prin înmulţire cu R generează matricea unitate I: R ∗ R −1 = I ;
⎛ 1 0⎞
9 matricea unitate de ordinul 2 este ⎜⎜ ⎟⎟ şi îndeplineşte, în algebra
⎝ 0 1⎠
matricială, multe din funcţiile valorii 1 din algebra clasică;
9 o matrice are matrice inversă numai şi numai dacă valoarea
determinantului ei este diferită de 0; în cazul general al unei matrici
⎛a b⎞
de ordinul 2 de forma ⎜⎜ ⎟⎟ , determinantul acesteia este
⎝c d⎠
a b
det( R) = ; condiţia de existenţă a matricii inverse este:
c d
a ⋅ d − b ⋅ c ≠ 0 ; pentru exemplul considerat matricea R admite
inversă pentru că det( R) = 1 ⋅ 1 − 0,723 ⋅ 0,723 = 0,477271 > 0 ;
9 fiecare matrice pătrată are o unică ecuaţie polinomială caracteristică
de acelaşi ordin cu cel al matricii (o matrice 2x2 are o ecuaţie
caracteristică pătratică, o matrice 3x3, una cubică ş.a.m.d.); Această
ecuaţie se obţine din următoarea proprietate a matricilor pătrate
inversabile:
det( R − λ ⋅ I ) = 0 , (9.5)
în care R este matricea iniţială m × m , I este inversa acesteia, iar λ
este un scalar (o matrice m × m cu o valoare constantă, λ, în fiecare
celulă);
9 o altă modalitate de exprimare a proprietăţii anterioare este cea de
egalare cu 0 a determinantului matricii R în care s-a scăzut λ din
elementele aflate pe diagonala principală, ceea ce în cazul general al
matricii de ordinul 2 înseamnă:
a−λ b
det = 0. (9.6)
c d −λ

105
Revenind la matricea de corelaţie R:
1 − λ 0,723
= 0 ⇔ (1 − λ ) − 0,723 2 = 0 ⇔ λ2 − 2λ + 0,477271 = 0 ⇒
2
det
0,723 1 − λ
⇒ λ1 = 1,723 ; λ 2 = 0,277 .
Valorile obţinute se numesc eigenvalori sau valorii proprii ale
matricii de corelaţie. Eigenvalorile sunt strâns legate de eigenvectori.
Ambii termeni sunt explicaţi în continuare.
Două matrici pot fi înmulţite dacă mărimea lor este compatibilă.
Eigenvectorii (vectorii proprii) sunt un caz particular al acestei operaţii.
Considerăm două exemple de multiplicare a unei matrici cu un
vector:
⎛ 3 4 ⎞ ⎛ 1 ⎞ ⎛15 ⎞ ⎛ 5⎞
⎜⎜ ⎟⎟ × ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = 3 × ⎜⎜ ⎟⎟ şi
⎝ 3 2 ⎠ ⎝ 3⎠ ⎝ 9 ⎠ ⎝ 3⎠
⎛ 3 4 ⎞ ⎛ 4 ⎞ ⎛ 24 ⎞ ⎛ 4⎞
⎜⎜ ⎟⎟ × ⎜⎜ ⎟⎟ = ⎜⎜ ⎟⎟ = 6 × ⎜⎜ ⎟⎟ .
⎝ 3 2 ⎠ ⎝ 3 ⎠ ⎝ 18 ⎠ ⎝ 3⎠
În al doilea exemplu, vectorul rezultant este un multiplu al
vectorului iniţial, pe când în primul exemplu nu se întâmplă acelaşi lucru.
⎛ 4⎞
Vectorul ⎜⎜ ⎟⎟ se numeşte vector propriu (eigenvector) al matricii pătrate
⎝ 3⎠
considerate. În reprezentare grafică, acesta este redat printr-o săgeată
trasată din origine (0, 0) până în punctul cu coordonatele (4, 3).
Matricea pătrată trebuie înţeleasă ca o matrice de transformare a
vectorului cu care se înmulţeşte într-un alt vector care îşi modifică poziţia
iniţială. Dacă este vorba despre un eigenvector, după înmulţire el va avea
aceeaşi direcţie, deci este o reflectare a lui însuşi; aceşti vectori se
autotransformă şi de aceea sunt denumiţi astfel (germ. eigen = propriu,
auto).
În al doilea exemplu prezentat anterior, vectorul iniţial se află pe
3
dreapta y = x , iar cel rezultat (sau oricare alt multiplu al acestuia,
4
pentru că nu are importanţă cât de lung este vectorul) se află pe aceeaşi
dreaptă, deci este un vector propriu al matricii de transformare.
Vectorii proprii au anumite proprietăţi care sunt folosite în
prelucrarea statistică a datelor prin analiza în componente principale.
În primul rând, vectorii proprii pot fi determinaţi numai pentru
matrici pătrate (dar, atenţie, nu orice matrice pătrată are eigenvectori).
Dacă o anumită matrice m × m are vectori proprii, atunci numărul total al
acestora este m (de exemplu, o matrice 4 × 4 are 4 eigenvectori).

106
În al doilea rând, toţi vectorii proprii ai unei matrici sunt
perpendiculari între ei în spaţiul m-dimensional. Este important acest
lucru pentru că datele experimentale pot fi exprimate nu numai în
sistemul ortogonal de axe x, y, z, …, ci şi în raport cu aceşti eigenvectori
perpendiculari.
Pentru a putea aplica analiza în componente principale este
necesar să se determine vectorii proprii standard. Un eigenvector
standard este cel a cărui mărime este egală cu unitatea. Modul de calcul
prin care se obţine un vector propriu standard pentru exemplul anterior
este prezentat în continuare.
⎛ 4⎞
( )
Mărimea vectorului propriu ⎜⎜ ⎟⎟ este 4 2 + 3 2 = 25 = 5 .
⎝ 3⎠
Împărţind vectorul iniţial la 5 se obţine un eigenvector cu
mărimea 1:
⎛ 4⎞ ⎛ 4 / 5⎞
⎜⎜ ⎟⎟ ÷ 5 = ⎜⎜ ⎟⎟ .
⎝ 3⎠ ⎝ 3 / 5⎠
Pentru matrici mai mari de 3 × 3 determinarea vectorilor proprii
se face prin aplicarea unor metode iterative pentru care există programe
de calcul specifice.
Eigenvalorile (valorile proprii) sunt acele valori care arată de câte
ori s-a majorat eigenvectorul după multiplicarea lui cu matricea pătrată.
⎛ 4⎞
Eigenvaloarea asociată eigenvectorului ⎜⎜ ⎟⎟ din exemplul anterior
⎝ 3⎠
este 6. Indiferent care multiplu al acestui eigenvector este considerat,
după înmulţirea matricii pătrate cu acesta se va obţine întotdeauna un
vector de 6 ori mai mare.
Presupunem că avem o populaţie pentru care sau măsurat m
variabile randomizate X1, X2, …, Xm. Este importantă menţiunea că aceste
variabile reprezintă cele m axe de coordonate ale unui sistem cartezian în
care se reprezintă valorile experimentale. Intenţia este cea de a pune în
evidenţă un nou sistem de m axe ortogonale, combinaţii liniare ale axelor
iniţiale, pe direcţiile celei mai mari variabilităţi. Aceasta se poate
concretiza prin rotaţia axelor iniţiale (figura 26).
Având matricea iniţială:
⎡ X1 ⎤
⎢X ⎥
X = ⎢ 2⎥, (9.7)
⎢ M ⎥
⎢ ⎥
⎣X m ⎦

107
cu matricea covarianţelor Σ şi eigenvalorile λ1 ≥ λ 2 ≥ L ≥ λ m , se pot
construi m combinaţii liniare necorelate:
⎧ Y1 = e11 ⋅ X 1 + e21 ⋅ X 2 + L + em1 ⋅ X m
⎪ Y = e ⋅ X + e ⋅ X + Le ⋅ X
⎪ 2 12 1 22 2 m2 m
⎨ (9.8)
⎪ ........................................................
⎪⎩Ym = e1m ⋅ X 1 + e2 m ⋅ X 2 + L + emm ⋅ X m
astfel încât varianţa noilor variabile Y1, Y2, …, Ym să fie cât mai mare
posibilă. Componentele principale reprezintă, de fapt, combinaţii liniare
ale variabilelor originale.

Figura 26. Rotaţia axelor componentelor iniţiale în scopul


evidenţierii celei mai mari variabilităţi
ACP a matricii de corelaţie R constă în transformarea variabilelor
brute X1, X2, …, Xm sau a celor standardizate X 1s , X 2s ,K, X ms în factorii
Y1, Y2, …, Ym prin intermediul unor combinaţii liniare ai căror coeficienţi
sunt elementele unei matrici ortogonale E obţinute prin descompunerea
spectrală a lui R.
Toate matricile simetrice pătrate, aşa cum este cazul matricii de
corelaţie R, se descompun după modelul:
R = E ⋅ Λ ⋅ E' , (9.9)
în care matricea E este ortogonală şi
⎡λ1 0 K 0 ⎤
⎢0 λ K 0 ⎥
Λ=⎢ 2 ⎥ (9.10)
⎢L L L L ⎥
⎢ ⎥
⎣ 0 0 K λm ⎦
este diagonală.

108
Matricea E este compusă din m vectori coloană, denumiţi
eigenvectori, iar ortogonalitatea acesteia se verifică prin îndeplinirea a
trei criterii:
- transpusa E’ a lui E este egală cu matricea inversă E-1, astfel încât
E ⋅ E' = I ;
- liniile lui E sunt ortogonale între ele şi cu norma egală cu unitatea;
- coloanele lui E sunt, de asemenea, ortogonale între ele şi cu norma
egală cu unitatea.
Dacă se pune condiţia ca diagonala matricii Λ să fie formată din
valori descrescătoare ( λ1 > λ 2 > K > λ m ), descompunerea anterioară,
denumită descompunere spectrală, este unică.
Vectorii coloană eα şi scalarii λα pot fi determinaţi pentru
α = 1, K, m prin ecuaţia vectorilor proprii:
R ⋅ eα = λα ⋅ eα , (9.11)
cu condiţia suplimentară, îndeplinită de matricile ortogonale, ca fiecare
eα să fie de normă unitate. eα sunt denumiţi vectori proprii (eigenvectori).
Componentele eik ale matricii E sunt componente principale.

Analistul încearcă să interpreteze primele câteva compo-


nente principale în funcţie de variabilele iniţiale.
ACP poate avea interpretări pertinente doar dacă există
un nivel ridicat al corelaţiei între caracteristicile analizate.

Componentele principale sunt alese în ordine descrescătoare a


importanţei lor astfel încât prima componentă să explice o cât mai mare
parte din varianţă, iar fiecare dintre următoarele componente să justifice
cât mai puţin din variabilitatea valorilor analizate.
Eigenvectorii arată gradul de participare a variabilelor iniţiale
(standardizate sau doar centrate) în determinarea fiecărei componente
principale. Aceşti vectori proprii sunt în esenţă coeficienţi de corelaţie,
fiind compuşi dintr-un set de valori care reprezintă, fiecare în parte,
influenţa, importanţa sau ponderea de explicitare a unei anumite variabile
într-o anumită componentă principală dată.
Eigenvalorile reprezintă contribuţia relativă a fiecărei
componente la explicarea variaţiei totale a datelor experimentale (sunt
mari pentru primele componente şi din ce în ce mai mici pentru
componentele subsecvente). Mărimea eigenvalorii indică importanţa
acestei componente în explicarea variaţiei totale şi se determină ca sumă

109
a pătratelor valorilor ce formează vectorul propriu corespunzător unei
variabile principale.
O valoare proprie mai mare de 1 indică faptul că acea componentă
principală pentru care a fost determinată acumulează o parte mai mare
din varianţă decât oricare dintre variabilele standardizate iniţiale şi acesta
reprezintă un criteriu de delimitare a componentelor principale care se
justifică a fi reţinute pentru interpretarea rezultatelor.
Odată calculate eigenvalorile pentru toate componentele trebuie
să se stabilească numărul componentelor principale suficiente pentru
sintetizarea informaţiei din setul de valori experimentale. Pentru
majoritatea aplicaţiilor se dovedeşte suficient un număr maxim de trei
sau patru componente principale care surprind varianţa datelor.
Presupunem că avem o populaţie statistică formată din N=122
arbori, pentru care s-au înregistrat valorile pentru variabilele: diametru de
bază, X1, înălţime, X2, şi densitatea aparentă convenţională a lemnului,
X3. Trebuie să se determine cele trei componente principale Y1, Y2 şi Y3.
Matricea covarianţelor pentru acest set de date (considerând că s-a
observat populaţia întreagă, deci cu numitorul relaţiilor de calcul N=122)
este:
⎡109,77151 32,13724 − 0,00363⎤
Σ = ⎢⎢ 32,13724 12,58750 − 0,00277 ⎥⎥ , (9.12)
⎢⎣ − 0,00363 − 0,00277 0,00015 ⎥⎦
pentru care se obţin perechile de valori proprii – vectori proprii:
⎡ 0,9576231 ⎤
λ1 = 119,43742 , e1 = ⎢⎢ 0,2880242 ⎥⎥ ; (9.13)
⎢⎣− 0,0000358⎥⎦
⎡− 0,2880242 ⎤
λ2 = 2,92159 , e2 = ⎢⎢ 0,9576230 ⎥⎥ ; (9.14)
⎢⎣ − 0,0005490 ⎥⎦
⎡− 0,0001239 ⎤
λ3 = 0,00014 , e3 = ⎢⎢ 0,0005360 ⎥⎥ . (9.15)
⎢⎣ 0,9999998 ⎥⎦
Deci componentele principale sunt:
Y1 = 0,9576231 ⋅ X 1 + 0,2880242 ⋅ X 2 − 0,0000358 ⋅ X 3 (9.16)
Y2 = −0,2880242 ⋅ X 1 + 0,9576230 ⋅ X 2 − 0,0005490 ⋅ X 3 (9.17)
Y3 = −0,0001239 ⋅ X 1 + 0,0005360 ⋅ X 2 + 0,9999998 ⋅ X 3 . (9.18)

110
Se poate observa că:
σ 11 + σ 22 + σ 33 = σ 12 + σ 22 + σ 32 = 109,77151 + 12,58750 + 0,00015 = 122,35916
= 119,43742 + 2,92159 + 0,00014 = λ1 + λ 2 + λ3 (9.19)
În cazul general, proporţia din varianţa totală a populaţiei
explicată de componenta principală de ordinul k este:
λk
m
. (9.20)
∑λ
i =1
i

Dacă poate fi atribuită o proporţie mare din varianţa populaţiei


unui număr relativ mic de componente principale, se pot înlocui cele m
variabile iniţiale prin aceste componente principale fără a pierde o
cantitate mare de informaţie.
Pentru situaţia concretă analizată, proporţia din varianţa totală a
populaţiei explicată de fiecare componentă principală este:
λ1 119,43742
3
= = 0,976122 = 97,6122% (9.21)
122,35916
∑λ
i =1
i

λ2 2,92159
3
= = 0,023877 = 2,3877% (9.22)
122,35916
∑λ
i =1
i

λ3 0,00014
3
= = 0,000001 = 0,0001% . (9.23)
122,35916
∑λ
i =1
i

Se observă influenţa nesemnificativă a celei de-a treia


componente principale.
Se pot calcula şi coeficienţii de corelaţie între variabilele originale
Xk şi componentele principale Yi cu formula generală:
e λ
ρ Yi X k = ik i , (9.24)
σ kk
valori frecvent utilizate pentru interpretarea componentelor principale Yi.
Dacă se standardizează variabilele se obţin:
X − μk X k − μk
Zk = k = . (9.25)
σ kk σ k2
Componentele principale pentru variabilele standardizate Zk pot fi
obţinute din eigenvectorii matricii de corelaţie, R, pentru că, în acest caz,
aceasta este identică cu matricea covarianţelor. Pentru exemplul anterior,

111
după standardizarea celor trei variabile X1, X2, X3, nu trebuie să se
pornească de la matricea Σ, ci de la matricea R:
⎡ 1,0000 0,8597 − 0,1125⎤

R = ⎢ 0,8597 1,0000 − 0,1249⎥⎥ . (9.26)
⎢⎣− 0,1125 − 0,1249 1,0000 ⎥⎦
Se obţin perechile valori proprii – vectori proprii:
⎡ 0,6942382 ⎤
λ1 = 1,8912753 , e1 = ⎢⎢ 0,6955431 ⎥⎥ ; (9.27)
⎢⎣− 0,1850757 ⎥⎦
⎡ 0,1381923 ⎤
λ2 = 0,9684802 , e2 = ⎢⎢ 0,1235436 ⎥⎥ ; (9.28)
⎢⎣0,9826698⎥⎦
⎡− 0,7063541⎤
λ3 = 0,1402445 , e3 = ⎢⎢ 0,7077830 ⎥⎥ , (9.29)
⎢⎣ 0,0103500 ⎥⎦
diferite de cele obţinute în primul caz.
Componentele principale sunt:
Y1 = 0,6942382 ⋅ Z 1 + 0,6955431 ⋅ Z 2 − 0,1850757 ⋅ Z 3 (9.30)
Y2 = 0,1381923 ⋅ Z 1 + 0,1235436 ⋅ Z 2 + 0,9826698 ⋅ Z 3 (9.31)
Y3 = −0,7063541 ⋅ Z 1 + 0,7077830 ⋅ Z 2 + 0,0103500 ⋅ Z 3 . (9.32)
În acest caz este îndeplinită relaţia:
σ 11 + σ 22 + σ 33 = σ 12 + σ 22 + σ 32 = 1,00 + 1,00 + 1,00 = 3,00 =
= 1,8912753 + 0,9684802 + 0,1402445 = λ1 + λ 2 + λ3 . (9.33)
Proporţia din varianţa totală explicată de fiecare componentă
principală este:
λ1 1,8912753
3
= = 0,6304 = 63,04% (9.34)
3,00
∑λ
i =1
i

λ2 0,9684802
3
= = 0,3228 = 32,28% (9.35)
3,00
∑λ
i =1
i

λ3 0,1402445
3
= = 0,0468 = 4,68% . (9.36)
3,00
∑λ
i =1
i

112
În această situaţie (atunci când ACP porneşte de la matricea de
corelaţie R), se constată că, pentru a calcula ponderea unei componente
principale (CP%) în variaţia totală, înseamnă, de fapt, să se efectueze
raportul procentual între valoarea proprie a acelei componente şi numărul
de variabile iniţiale (m):
eigenvaloare
CP% = ⋅ 100 (%). (9.37)
m
Se observă, din nou, influenţa nesemnificativă a celei de-a treia
componente principale.
Pentru a putea interpreta factorii obţinuţi, se determină
coeficienţii de corelaţie ( ρ Yi Z k = S ik ) dintre aceştia şi variabilele iniţiale,
coeficienţi ce se numesc saturaţii:
e λ 0,6942382 1,8912753
ρ Y1Z1 = 11 1 = = 0,9547 (9.38)
σ 11 1,000
e21 λ1 0,6955431 1,8912753
ρY Z = = = 0,9565 (9.39)
1 2
σ 22 1,000
e31 λ1 − 0,1850757 1,8912753
ρY Z = = = −0,2545 (9.40)
1 3
σ 33 1,000
e12 λ 2 0,1381923 0,9684802
ρY Z = = = 0,1360 (9.41)
2 1
σ 11 1,000
e22 λ 2 0,1235436 0,9684802
ρY Z = = = 0,1216 (9.42)
2 2
σ 22 1,000
e32 λ 2 0,9826698 0,9684802
ρY Z = = = 0,9671 (9.43)
2 3
σ 33 1,000
e13 λ3 − 0,7063541 0,1402445
ρY Z = = = −0,2645 (9.44)
3 1
σ 11 1,000
e23 λ3 0,7077830 0,1402445
ρY Z = = = 0,2651 (9.45)
3 2
σ 22 1,000
e33 λ3
0,0103500 0,1402445
ρY Z = = = 0,0039 . (9.46)
3 3
σ 33 1,000
Coeficienţii de corelaţie dintre variabilele iniţiale standardizate şi
componentele principale sunt sintetizaţi în matricea de corelaţie S,
denumită matricea de saturaţie (matricea de structură) în care fiecare

113
coloană este asociată unei variabile iniţiale şi fiecare linie unui factor
(unei componente principale), ca în tabelul 13.
Tabelul 13. Matricea de saturaţie
Z1 Z2 Z3
Y1 0,9547 0,9565 -0,2545
Y2 0,1360 0,1216 0,9671
Y3 -0,2645 0,2651 0,0039
Interpretarea valorilor din acest tabel este următoarea:
- prima componentă principală Y1 este o rezultantă a influenţei tuturor
primelor două variabile iniţiale, în pondere aproximativ egală,
- cea de-a doua componentă principală Y2 este o rezultantă a influenţei
variabilei Z3,
- a treia componentă principală Y3 este o rezultantă a influenţei
variabilelor Z1 şi Z2, dar cu pondere mai mică.
Există relaţiile matriciale:
1 1

S = R⋅E⋅Λ = E ⋅ Λ şi S ⋅ S ' = R ,
2 2
(9.47)
1
− 1
unde Λ 2
este matricea diagonală cu elemente .
λi
Matricea de saturaţie S are următoarele proprietăţi:
- suma pătratelor tuturor saturaţiilor pentru o variabilă Xk (sau Zk) este
m
egală cu 1 (ecuaţia ∑S
i =1
2
ik = 1 se poate interpreta ca o hipersferă cu

raza egală cu unitatea şi cu centrul în originea sistemului de


coordonate cu m dimensiuni, analog cu x 2 + y 2 = 1 , care este ecuaţia
cercului unitate în spaţiul bidimensional, sau x 2 + y 2 + z 2 = 1 , ecuaţia
sferei unitate în spaţiul tridimensional; aceasta se poate folosi pentru
realizarea cercului de corelaţie care este reprezentarea grafică prin
care se asociază fiecărei variabile Zk câte un punct de coordonate S ik
pe fiecare dintre axele i reţinute ca fiind componente principale);
pentru exemplul anterior:
0,9547 2 + 0,1360 2 + (− 0,2645) ≅ 1
2
(9.48)
0,9565 + 0,1216 + 0,2651 ≅ 1
2 2 2
(9.49)
(− 0,2545)2 + 0,96712 + 0,0039 2 ≅ 1 ;
(9.50)
- suma pătratelor tuturor saturaţiilor pentru un factor (componentă
principală) Yi este egală cu λi; în exemplul considerat:
0,9547 2 + 0,9565 2 + (− 0,2545) ≅ 1,8912753
2
(9.51)

114
0,1360 2 + 0,1216 2 + 0,96712 ≅ 0,9684802 (9.52)
(− 0,2645) 2
+ 0,2651 + 0,0039 ≅ 0,1402445 ;
2 2
(9.53)
m
- suma tuturor pătratelor saturaţiilor este egală cu ∑λ
i =1
i şi egală cu m

(numărul de variabile).

Se deduce de aici că ACP completă transformă variabilele


corelate în variabile necorelate conservând (menţinând
constantă) varianţa totală.

Dacă nu se iau în considerare toate componentele principale ci


λ1 + λ2 + L + λ p
numai primele p, valoarea este proporţia din varianţa
λ1 + λ2 + L + λm
totală explicată de primii p factori şi constituie măsura globală a calităţii
p
ACP. Valoarea h 2 = ∑ S ik2 , denumită „comunalitate” sau „comunitate”
i =1
este inferioară lui 1; h2 măsoară, de fapt, proporţia din varianţa
variabilelor Xk (sau Zk) explicată de primii p factori.
În cazul ACP pornind de la variabilele standardizate
(X − μ k )
Zk = k , importanţa relativă a variabilelor este modificată faţă de
σk
cea determinată fără standardizare.

Variabilele sunt supuse standardizării mai ales atunci


când se exprimă în unităţi de măsură sau la scări diferite.

Pe baza structurii elementelor constitutive ale componentelor


principale este posibil să se interpreteze primele câteva dintre acestea în
sensul efectului total sau al contrastului dintre grupele de variabile.
Corelaţia puternică dintre prima componentă principală şi una
dintre variabile arată că acea variabilă acţionează în direcţia maximului
variaţiei datelor.
O corelaţie puternică între o variabilă iniţială şi cea de-a doua
componentă principală, perpendiculară pe prima, arată următoarea (ca
mărime) sursă de variaţie a valorilor experimentale.

115
Această modalitate de interpretare poate continua şi pentru
următoarele componente principale reprezentative pentru cazul studiat.
Noul set de variabile ortogonale (factori, variabile latente,
componente principale) este introdus pentru eliminarea corelaţiei dintre
variabilele fenomenelor multifactoriale şi pentru a reduce dimensiunile
sistemului rezultant.

Dacă valorile coeficienţilor de corelaţie corespunzători


celor m variabile iniţiale sunt mici, este inutil să se aplice ACP
pentru că se vor obţine factori noi foarte apropiaţi de cei
iniţiali.

Dacă două variabile Xj şi Xk sunt foarte corelate (r foarte apropiat


de ± 1 ) trebuie să se analizeze dacă nu este mai bine să se elimine una
dintre ele (sau să se combine într-o singură variabilă) înainte de aplicarea
ACP. În exemplul de calcul anterior, se observă că primele două variabile
(diametrul şi înălţimea arborilor) sunt puternic corelate (r=0,8597***).
S-ar putea introduce în sistem variabila volum al arborilor care
este de fapt o combinaţie a celor două variabile.
9.4 Estimarea numărului de componente principale
ACP reduce dimensiunile setului de date prin combinarea liniară a
variabilelor iniţiale corelate şi obţinerea altor variabile, în număr mai
mic. Aceste noi variabile sunt liniar independente.
Reţinerea tuturor factorilor m echivalează cu păstrarea întregii
cantităţi de informaţie iniţială, ceea ce nu simplifică în nici un fel
structura corelativă a variabilelor analizate. Situaţia opusă (păstrarea unui
număr mic de factori) duce la explicarea unei proporţii prea mici din
varianţa totală şi reducerea excesivă a complexităţii structurii legăturilor
dintre variabile.
În general, sunt incluşi în analiză numai eigenvectorii care
corespund unor eigenvalori mai mari de 1,000, considerându-se
neglijabilă contribuţia celorlalţi la varianţa totală.
Trebuie să se aibă în vedere anumite criterii, unele fundamentate
statistic, altele doar empirice dar larg utilizate:
9 alegerea unei proporţii limită de explicare a varianţei, convenabilă din
punct de vedere al preciziei analizei, de exemplu 90% (criteriul
Joliffe);

116
9 păstrarea acelor valori proprii λi , K λ k care sunt mai mari decât media
λi + L + λ p
(criteriul Kaiser);
p
9 reprezentarea grafică descrescătoare a valorilor proprii λ ; deseori se
poate observa pe acest grafic un „cot” care marchează o modificare a
regimului descreşterii valorilor proprii; se păstrează factorii care au
valori proprii mai mari decât cea corespunzătoare acestui punct de pe
grafic (criteriul Cattell).
Reprezentarea grafică a eigenvalorilor corespunzătoare compo-
nentelor principale ilustrează rata modificărilor de amplitudine a
acestor valori proprii. Punctul în care curba reprezentată îşi modifică
evident panta indică numărul maxim de componente principale ce
trebuie luate în considerare.
9.5 Interpretarea geometrică a ACP
ACP construieşte noi variabile, artificiale, iar reprezentarea
grafică permite vizualizarea relaţiilor dintre variabile şi, eventual,
existenţa unor grupe de indivizi sau grupe de variabile iniţiale.
Corelaţiile sunt sintetizate în spaţiul multidimensional cu două
sau mai multe axe. Fiecare axă constituie o componentă principală şi
interesează poziţia variabilelor în raport cu aceste axe.

Componentele principale sunt eigenvectorii matricii


covarianţelor (sau ai matricii de corelaţie) şi, în reprezentare
grafică, axele principale ale unei hiperelipse (elipsoid p-
dimensional).

Geometric, combinaţiile liniare reprezintă o selecţie de axe ale


unui nou sistem de coordonate obţinut prin transformarea ortogonală a
sistemului iniţial. Noile axe (e1, e2, …, ep) reprezintă direcţiile cu maximă
variabilitate.
Considerând elipsoidul p-dimensional X T Σ −1 X = c 2 , componen-
tele principale definesc axele acestui elipsoid.
Demonstraţie:
Se cunoaşte că, dacă Σ este pozitivă şi definită, atunci există şi
−1
Σ şi:
Σ ⋅ e = λ ⋅ e ⇒ Σ −1 ⋅ e = (1 / λ ) ⋅ e . (9.54)

117
De asemenea, descompunerea spectrală a matricii Σ −1 este:
1 1
Σ −1 = e1e1T + L + e p e Tp . (9.55)
λ1 λp
Folosind această modalitate de descompunere se obţine:
c 2 = X T Σ −1 X = (e1T X ) + (e2T X ) + L + (e p X ) , (9.56)
1 2 1 2 1 T 2
λ1 λ2 λp
T T T
unde e X , e X , K , e X sunt componentele principale ale lui X.
1 2 p

Dacă se fac notaţiile:


Y1 = e1T X , Y2 = e2T X , …, Y p = e Tp X , (9.57)
se poate scrie:
1 1 1
c2 = Y12 + Y22 + L + Y p2 . (9.58)
λ1 λ2 λp
Această ecuaţie defineşte un elipsoid într-un sistem de coordonate
ale cărui axe sunt pe direcţiile vectorilor e1, e2, …, ep; elipsoidul are
semiaxele pe fiecare direcţie p egale cu c λ p .
În spaţiul multidimensional fiecare variabilă poate fi considerată
un vector (în reprezentare geometrică, o linie cu două caracteristici:
lungime sau mărime şi direcţie sau sens).
Legăturile statistice dintre variabile sunt bine puse în evidenţă în
matricea de corelaţie. Coeficienţii de corelaţie din această matrice pot fi
exprimaţi geometric prin cosinusul unghiului format de vectorii
corespunzători fiecărei perechi de variabile, lungimea acestor vectori
fiind măsura varianţei explicate (figura 27).

Figura 27. Reprezentarea vectorială a corelaţiei dintre două variabile (A şi B)


a) variabile cu coeficient de corelaţie r ∈ (0,1)
b) variabile perfect corelate negativ, r = −1
c) variabile perfect corelate pozitiv, r = 1
d) variabile necorelate (ortogonale), r = 0

118
Calitatea reprezentării depinde de proporţia varianţei explicate de
fiecare axă în parte. Variabilele situate în apropierea originii noului
sistem de coordonate se diferenţiază foarte puţin; cele de la periferie au o
influenţă mai mare. Vectorii mai apropiaţi denotă o legătură statistică mai
puternică între variabile.
Dacă variabilele analizate se află fiecare în apropierea a câte unei
axe diferite, nu este corelaţie între ele.
Pot fi comparate numai variabilele care se situează în apropierea
circumferinţei cercului sau suprafeţei sferei unitate (nu se poate interpreta
gradul de corelaţie a variabilelor aglomerate în zona centrală).
Rotaţia axelor permite obţinerea unor saturaţii apropiate de 1, -1
sau 0, ceea ce facilitează interpretarea factorilor obţinuţi.
Pentru cazul analizat anterior (simplist, de altfel, pentru că s-au
luat în considerare numai trei variabile), interpretarea grafică a ACP
(figura 28) duce la concluzia că se diferenţiază clar perechea de variabile
diametru-înălţime a arborilor, care se află în apropierea primei
componente principale, de variabila densitate a lemnului, aflată pe
direcţia celei de-a doua componente principale.

Figura 28. Reprezentarea grafică a analizei în componente principale


pentru exemplul considerat

119
Pentru setul de date analizat, între aceste două grupe de variabile
nu există legătură corelativă. Diametrul şi înălţimea explică partea cea
mai mare din variaţia valorilor experimentale.
Se mai observă, de asemenea, că în reprezentare grafică punctele
corespunzătoare diametrului şi înălţimii se găsesc foarte aproape. Aceasta
atenţionează asupra faptului că între cele două variabile corelaţia este
foarte puternică.
Cele N × m valori experimentale (m fiind numărul de variabile
iniţiale, iar N, volumul probei constituite sau al populaţiei în întregime)
pot fi reprezentate, în mod asemănător, printr-un nor de puncte în spaţiu,
fie prin intermediul scorurilor brute (atunci când ACP porneşte de la
matricea Σ ), fie prin intermediul scorurilor standardizate (când ACP
porneşte de la matricea R).
Se încearcă determinarea, pentru fiecare factor, a dreptei D pentru
care suma pătratelor distanţelor de la punctele individuale la dreaptă este
minimă (figura 29). Se cunoaşte că această dreaptă trebuie să treacă prin
centrul de greutate al norului statistic x = ( x1 , x 2 , K x p ) care, în cazul
valorilor standardizate, corespunde originii sistemului de coordonate.
Direcţia dreptei D este cea a primei componente principale, Y1,
pentru care varianţa proiecţiilor ortogonale ale punctelor pe dreaptă este
λ1 , prima valoare proprie a lui Σ (sau a lui R).

Figura 29. Direcţia primei componente principale


În mod asemănător, în loc să se proiecteze pe o dreaptă, norul de
puncte se poate proiecta pe un plan (P) astfel încât suma pătratelor
distanţelor de la fiecare punct la acesta să fie minimă (figura 30).

120
Figura 30. Planul primelor două componente principale

Acest plan este cel al primelor două componente principale Y1 şi


Y2, iar varianţa corespunzătoare este λ1 + λ 2 .
Se continuă similar pentru următoarele componente dintre cele p
reţinute.
9.6 Dezavantaje ale ACP
Una dintre ipotezele iniţiale ale metodei este aceea a liniarităţii
legăturii statistice dintre variabile. Este posibil ca legătura statistică
dintre anumite variabile să fie puternică dar neliniară (raportul de
corelaţie cu valoare peste 0,5, dar coeficientul de corelaţie mic); în
această situaţie ACP nu dă rezultate concludente.
Restricţia prin care axele de coordonate trebuie să fie
perpendiculare între ele, ceea ce înseamnă componente principale
necorelate, se concretizează într-un model matematic foarte diferit de cel
al relaţiilor specifice caracteristicilor biologice sau ecologice, frecvent
puternic intercorelate. Din păcate, componentele principale, care extrag
cea mai mare parte din variabilitatea variabilelor iniţiale, sunt de cele mai
multe ori dificil de interpretat.

121
Componentele principale sunt înţelese ca „supervariabile”,
idealizare şi abstractizare matematică ce le diferenţiază de variabilele
reale iniţiale şi aceasta duce la o interpretare dificilă a rezultatelor ACP.
În multe aplicaţii, numai prima componentă principală dă
informaţii despre modul de grupare a variabilelor, celelalte fiind
componente diferenţă care sunt de asemenea greu de explicat.
9.7 Concluzii sintetice asupra ACP
Pentru aplicarea ACP se calculează matricea covarianţelor (sau
cea de corelaţie) şi se determină apoi eigenvectorii şi eigenvalorile
acestei matrici. Este important să se reţină faptul că interesează să se
obţină eigenvectori standard (cu mărimea egală cu unitatea).
Următoarea etapă este cea de ordonare a vectorilor proprii în
sensul descrescător al eigenvalorilor ceea ce este echivalent cu aranjarea
componentelor în ordinea semnificaţiei lor.
Determinarea componentelor principale constă în compresia şi
reducerea dimensiunilor setului de date experimentale. Eigenvectorul cu
valoarea proprie cea mai mare este prima componentă principală care
redă cea mai puternică legătură statistică între variabilele iniţiale.
Următoarea componentă principală semnificativă este eigenvectorul cu
valoarea proprie imediat mai mică. Se continuă în acest mod până la
aflarea tuturor componentelor principale, ignorând ultimele componente
(cele cu semnificaţie redusă).
Astfel se vor reduce dimensiunile iniţiale ale setului de date: dacă
la început acesta a avut m dimensiuni, prin sortarea şi alegerea primilor p
eigenvectori, setul final de date va avea numai p dimensiuni.
Cu vectorii proprii selectaţi pentru componentele principale se
formează o matrice a vectorilor E (engl. Feature Vector). Aceşti
eigenvectori vor constitui, în ordinea semnificaţiei lor, coloanele matricii:
E = (e1e2 e3 K e p ) . (9.59)
Într-o ultimă etapă se poate obţine un set final de valori (engl.
Final Data) prin înmulţirea transpusei matricii vectorilor cu transpusa
matricii setului de date iniţiale ajustate:
FinalData = FeatureVector T × DataAdjust T (9.60)
T
FeatureVector este o matrice în care eigenvectorii sunt trecuţi pe
linii primul fiind cel mai semnificativ, iar DataAdjustT, tot o matrice în
care pe linii sunt trecute variabilele, iar pe coloane, valorile standardizate
corespunzătoare.
Matricea rezultat FinalData este matricea datelor iniţiale
exprimate numai prin cei p eigenvectori ai componentelor principale.

122
10. ANALIZA REGRESIEI
Aşa cum s-a prezentat anterior, coeficientul de corelaţie indică
intensitatea legăturii dintre două sau mai multe caracteristici şi este
utilizat în special pentru caracterizarea unei dependenţe liniare între
acestea.
Pentru a determina forma legăturii corelative trebuie aplicată
metoda de cercetare statistică denumită analiza regresiei.

Analiza regresiei este o metodă statistică prin care se


cercetează posibilitatea exprimării cu ajutorul unei ecuaţii a
legăturii dintre valorile medii ale unei variabile y (considerată
dependentă) şi valorile unei sau ale mai multor variabile
independente x, în cazul în care s-a observat, prin analiza
corelaţiei, existenţa unei asemenea legături.

Ecuaţia de regresie este o relaţie matematică prin care se exprimă


dependenţa dintre două sau mai multe variabile şi este de forma:
yˆ = f ( x1 , x 2 ,K, x n ) . (10.1)
Aceasta defineşte o curbă sau o suprafaţă de regresie şi are drept
scop să permită, pentru valorile date x1, x2, …, xn, calculul unei estimaţii
a lui y.
Termenul „regresie” a fost folosit de Galton care a aplicat prima
dată teoria corelaţiei la date biologice. Examinând dinamica
populaţiilor, acesta a constatat că în astfel de cazuri s-ar păstra un
echilibru dinamic dacă noile generaţii ar moşteni caracteristicile
părinţilor. Studiind înălţimea taţilor şi cea a fiilor, Galton a sesizat că fiii
se abat de la înălţimea medie mai puţin decît se abat taţii, deci că fiii
regresează spre valoarea medie. El a folosit termenul „linie de regresie”
pentru linia de legătură dintre înălţimile taţilor şi cele ale fiilor.
Termenul „regresie” nu este destul de potrivit pentru cele mai
multe tipuri de legături statistice (corelative) între variabile, dar continuă
să se păstreze în literatura de specialitate ca o simplă convenţie.
Ecuaţiile de regresie se folosesc atât pentru sintetizarea anumitor
cunoştinţe cât şi pentru efectuarea de interpolări sau, cu anumite
precauţii, extrapolări. Acestea prezintă rezultatul cercetării într-o formă
concentrată, înlocuind tabelele de calcul şi, din acest considerent, pot da
soluţii optime pentru automatizarea lucrărilor.

123
10.1 Succesiunea etapelor pentru analiza regresiei
Etapele de lucru în aplicarea analizei regresiei sunt:
ƒ stabilirea tipului de regresie,
ƒ determinarea parametrilor ecuaţiei de regresie,
ƒ evaluarea preciziei dreptei sau curbei de regresie (evaluarea preciziei
de estimare).
După forma lor, legăturile corelative pot fi liniare sau curbilinii.

Stabilirea tipului de regresie este o operaţie cu un grad


înalt de subiectivism, datorită faptului că nu există o metodă
riguros fundamentată care să asigure de la început soluţia
optimă.

Pentru lucrările curente se procedează astfel:


- se stabilesc variabilele (dependentă, independente),
- se culeg datele şi se formează tabelul de corelaţie,
- se reprezintă grafic valorile observate (toate, sau numai valorile medii
ale caracteristicii rezultative în cazul unui număr mare de observaţii),
- analizând câmpul de corelaţie sau linia poligonală se stabileşte forma,
sensul şi intensitatea legăturii dintre variabile (figura 31); în cazul
ordonării după o dreaptă, regresia este liniară, iar în cazul ordonării
după o curbă, regresia este curbilinie;

Figura 31. Stabilirea grafică a tipului de ecuaţie de regresie


a) regresie liniară stabilită pentru câmpul de corelaţie
b) regresie liniară stabilită pentru valorile medii
c) regresie curbilinie stabilită pentru valorile medii
- se face compensarea, grafic sau analitic; indiferent de modalitatea de
ajustare, aprecierea corectitudinii se face după criteriile generale:
ƒ suma algebrică a abaterilor să fie cât mai apropiată de 0 (în cazul
ideal, chiar egală cu 0),
ƒ suma pătratelor abaterilor să fie minimă.

124
10.2 Metode analitice de determinare a parametrilor ecuaţiilor de
regresie
Se consideră, pentru început, dreapta de regresie, exprimată prin
ecuaţia de regresie liniară simplă:
yˆ = a + b ⋅ x . (10.2)
În această ecuaţie, constanta b este definită de relaţia:
sy
b = b yx = r ⋅ (10.3)
sx
şi se numeşte coeficient de regresie al variabilei y în raport cu variabila x.
Similar, se poate scrie expresia coeficientului de regresie al
variabilei x în raport cu y:
s
bxy = r ⋅ x . (10.4)
sy
În sens geometric (figura 32), coeficientul de regresie reprezintă
panta dreptei de regresie:
b = tgθ . (10.5)
Constanta a (termenul liber) este distanţa de la originea sistemului
de coordonate la punctul de intersecţie al ordonatei cu dreapta de
regresie.

Figura 32. Interpretarea grafică a parametrilor dreptei de regresie


Determinarea ecuaţiei de regresie liniare simple constă, practic, în
determinarea coeficientului de regresie (b) şi a termenului liber (a).
b se determină din relaţia de definiţie:

125
∑x⋅∑ y
sy s xy sy s xy ∑ xy − N
b = b yx = r ⋅ = ⋅ = = (10.6)
sx sx ⋅ s y sx s x2 (∑ x )2
N
∑x 2

a se determină din condiţia ce se impune punctului M ( x , y ) de a
fi situat pe dreapta de regresie (acesta verifică ecuaţia dreptei):
y = a +b⋅ x ⇒ a = y −b⋅ x (10.7)
Dreapta definită de această ecuaţie are o asemenea poziţie încât
suma pătratelor abaterilor individuale faţă de dreaptă este minimă.
O altă posibilitate este cea de estimare a parametrilor a şi b prin
metoda celor mai mici pătrate, al cărui principiu de bază cere ca ecuaţia
de ajustare să fie astfel aleasă încât suma pătratelor abaterilor valorilor
observate (y) de la valorile calculate pe baza modelului ( ŷ ) să fie
minimă (figura 33). Altfel spus, suma erorilor de estimare trebuie să fie
cât mai redusă:
N
S = ∑ ( y − yˆ ) = minim,
2
(10.8)
i =1
unde i = 1, …, N reprezintă numărul perechilor de valori (xi, yi).

Figura 33. Reprezentarea grafică a pătratelor abaterilor valorilor


experimentale faţă de dreapta de regresie
Relaţia anterioară se mai poate scrie, în cazul unei drepte de
regresie:
N
S = ∑ ( y − a − b ⋅ x ) = minim.
2
(10.9)
i =1

126
Minimul poate fi determinat prin anularea derivatelor parţiale ale
lui S în raport cu a şi în raport cu b:
∂S ∂S
= =0 (10.10)
∂a ∂b
Se obţine sistemul de ecuaţii:
⎧ N
⎪ ∑ ( y i − a − b ⋅ xi ) = 0 ⎧
⇒ ⎨∑
⎪ i =1 ⎪ y = N ⋅a +b⋅∑x
⎨N (10.11)
⎪ x ⋅ ( y − a − b ⋅ x ) = 0 ⎪ ∑ xy = a ⋅ ∑ x + b ⋅ ∑ x 2
⎪⎩∑
i =1
i i i ⎩

Prima ecuaţie arată că suma algebrică a abaterilor între valorile


observate şi ordonatele corespunzătoare ale dreptei de regresie este nulă
(abaterile negative ale punctelor situate sub dreaptă compensează
abaterile pozitive ale punctelor de deasupra dreptei).
Prin împărţirea la N, se obţine:
y = a +b⋅ x , (10.12)
deci dreapta de regresie trece prin punctul M ( x , y ) .
Ecuaţia liniară determinată anterior este cea care exprimă
dependenţa variabilei y în raport cu x:
yˆ = a + b ⋅ x (10.13)

Spre deosebire de ecuaţiile funcţionale, din această relaţie


nu poate fi obţinută relaţia inversă (dependenţa lui x în raport
cu y). Deci, nu se poate scrie:
a 1
xˆ = − + ⋅ y
b b

Ecuaţia dreptei de regresie xˆ = f ( y ) se obţine prin procedeele


prezentate anterior şi reprezintă o altă dreaptă de regresie (figura 34) care
formează un unghi α cu dreapta yˆ = f ( x ) .
α este cu atât mai mare cu cât legătura corelativă este mai slabă (r
mai mic; câmpul de corelaţie mai dispersat). Dacă r = 0, cele două drepte
de regresie sunt perpendiculare şi paralele cu axele de coordonate. Pentru
r = 1 sau r = -1 dreptele de regresie se suprapun (relaţie funcţională).

127
Figura 34. Poziţia celor două drepte de regresie ce redau
forma legăturii între caracteristicile x şi y
10.3 Intervalul de încredere pentru ecuaţia de regresie
yˆ = a + b ⋅ x reprezintă numai o estimaţie pentru adevărata
dreaptă de regresie, pentru că se obţine pe baza unei mulţimi finite de
perechi de valori (x, y) observate.
Aşadar, valorile calculate ŷ sunt afectate de erori ( s yˆ ), dreapta
de regresie fiind caracterizată printr-un interval de încredere:
yˆ ± t ⋅ s yˆ , (10.14)
în care t este valoarea testului Student pentru pragurile de semnificaţie
stabilite (q) şi numărul gradelor de libertate f = N-2.
Eroarea de estimare se determină cu relaţia:
1 (x − x )
s yˆ = s y / x ⋅ + , (10.15)
N Qx
în care s x / y reprezintă abaterea standard a valorilor individuale ale
lui y faţă de dreaptă şi se determină cu relaţia:
N

∑ (y − yˆ i )
2
i
sx / y = i =1
, (10.16)
N −2
iar Qx (suma pătratelor abaterilor pentru variabila x) se
calculează:

128
2
⎛ k ⎞
k k
⎜ ∑ ni x i ⎟
Q x = ∑ ni ⋅ ( xi − x ) = ∑ ni xi2 − ⎝ i =1
2 ⎠ (10.17)
i =1 i =1 N
Deci, adevăratele valori medii ŷ vor fi cuprinse în intervalul
(figura 35):
[ ]
yˆ − t ⋅ s yˆ , yˆ + t ⋅ s yˆ (10.18)

Figura 35. Intervalul de încredere al dreptei de regresie


Analiza graficului arată că, pentru o anumită probabilitate de
transgresiune, valorile medii ale lui ŷ sunt încadrate între două curbe.

Amplitudinea intervalului de încredere este mai mare la


capete şi mai mică la mijlocul câmpului de corelaţie (datorită
informaţiilor mai puţine despre legătura corelativă la marginile
câmpului de corelaţie).

10.4 Regresia multiplă liniară


În cazul influenţei mai multor caracteristici factoriale asupra
variaţiei caracteristicii rezultative y, se folosesc ecuaţii de regresie
multiple. Cea mai simplă este ecuaţia de regresie multiplă liniară:
yˆ = a 0 + a1 ⋅ x1 + a 2 ⋅ x 2 + L + a n ⋅ x n (10.19)

129
Coeficienţii de regresie (a1, a2, a3, …, an) reflectă influenţa
caracteristicilor factoriale asupra caracteristicii rezultative şi se determină
prin metoda celor mai mici pătrate.
Parametrii ecuaţiei de regresie multiple liniare se determină prin
rezolvarea sistemului de n+1 ecuaţii cu n+1 necunoscute care rezultă din
metoda celor mai mici pătrate:
⎧ ∑ y = a 0 N + a1 ∑ x1 + a 2 ∑ x 2 + L + a n ∑ x n

⎪⎪ ∑ x1 y = a 0 ∑ x1 + a1 ∑ x1 + a 2 ∑ x1 x 2 + L + a n ∑ x1 x n
2

⎨ ∑ x 2 y = a 0 ∑ x 2 + a1 ∑ x1 x 2 + a 2 ∑ x 2 + L + a n ∑ x 2 x n (10.20)
2

⎪LLLLLLLLLLLLLLLLLLLLLLLL

⎪⎩ ∑ x n y = a 0 ∑ x n + a1 ∑ x1 x n + a 2 ∑ x 2 x n + L + a n ∑ x n
2

Se poate calcula, în acest caz, un coeficient de corelaţie multiplă


(R).
Ecuaţiile de regresie liniare pot fi utilizate şi pentru alte tipuri de
legături corelative, numai dacă variabilele respective pot fi liniarizate
prin transformări adecvate.

Trebuie, însă, să se ţină cont de faptul că, prin


transformare, variabilele îşi modifică intervalul de variaţie, ceea
ce duce la modificarea distribuţiei valorilor experimentale şi a
unor indicatori statistici.

Ecuaţiile de regresie trebuie să satisfacă anumite condiţii care să le


asigure valabilitatea pentru aplicare practică:
- să fie destul de sigure (precizie ridicată, probabilitate de acoperire
mare, valoare mare a coeficientului de determinare R2),
- să aibă o formă simplă (cea mai adecvată ecuaţie de regresie, dar şi
cea mai simplă ca formă matematică),
- să fie în concordanţă cu existenţa fizică a fenomenului studiat.

În orice model statistic erorile sunt inerente atât timp cât


acesta rezultă prin abstractizarea realităţii. Simplificarea
realităţii are drept scop obţinerea unor modele utilizabile în
practică.

130
Există multe tipuri de erori: erori de măsurare, erori de
eşantionare, erori de calcul, erori de specificaţie (datorate unei structuri
improprii a modelului, cum ar fi omiterea unei variabile foarte relevante),
erori de transferabilitate (se comit atunci când un model determinat
pentru o anumită zonă sau regiune geografică este aplicat într-o alta, total
deosebită), erori de agregare (realizate atunci când modelele statistice
sunt estimate la nivel de grup, iar aplicarea lor se face al nivel individual)
etc.
Dacă înlăturarea celorlalte categorii de erori este relativ simplă
prin organizarea corespunzătoare a cercetării şi interpretarea corectă a
rezultatelor obţinute, erorile de calcul şi cele de specificaţie se comit
frecvent din cauza importanţei scăzute ce li se dă şi a aplicării unor
metode de estimare inadecvate.
10.5 Tipuri de ecuaţii de regresie şi limitările acestora
Se poate considera că există două mari categorii de ecuaţii de
regresie:
- ecuaţii isometrice sau ecuaţii intrinsec liniare,
- ecuaţii allometrice (altele decât metrice) sau ecuaţii intrinsec neliniare.
Înainte de epoca microcalculatoarelor, ecuaţiile de regresie
neliniare erau mai puţin utilizate ca atare în lumea ştiinţifică; frecvent,
datele experimentale erau transformate prin substituiri de variabile astfel
încât să se obţină ecuaţii liniare pentru care prelucrarea în vederea
estimării parametrilor este mai simplă şi mai rapidă.
Această modalitate de lucru este depăşită şi nerecomandată pentru
analiza datelor din cauză că în urma liniarizării s-a observat o
distorsionare a erorilor reziduale şi a relaţiilor dintre variabile.
În analiza regresiei se utilizează frecvent funcţiile putere,
exponenţială, polinomială sau cele asimptotice, care pot fi liniarizate prin
transformări de variabile.
Funcţia putere de forma y = a ⋅ x −b este liniarizabilă prin logarit-
mare:
log y = log a − b ⋅ log x ⇔ y ' = a'−b ⋅ x' (10.21)
Funcţia exponenţială (curba de creştere sau de descreştere), cu
tipurile negative sau pozitive, este de forma y = a ⋅ b − x , liniarizabilă prin
transformarea:
log y = log a − (log b ) ⋅ x . (10.22)
Regresia polinomială
y = β 0 + β1 ⋅ x + β 2 ⋅ x 2 + β 3 ⋅ x 3 + K (10.23)

131
reprezintă un tip special pentru că nu este o ecuaţie neliniară în sensul
strict, chiar dacă panta este variabilă. Dezavantajul utilizării constă în
faptul că parametrii ecuaţiei de regresie rareori pot fi interpretaţi în
termeni biologici, astfel încât curba poate fi perfect estimată, dar rămâne
„artificială”.
Curbele asimptotice (logistică, Gompertz etc.) sunt ecuaţii
intrinsec liniare.
Evident, există şi ecuaţii neliniare care nu pot fi „liniarizate”, de
exemplu:
y = (a / b ) ⋅ x1 ⋅ x 2 + c ⋅ x3d (10.24)
Diagnosticarea ecuaţiilor de regresie se poate face prin procedee
diferite:
9 examinarea eficienţei modelului,
9 investigarea diferenţelor dintre punctele experimentale şi curba de
regresie
9 verificarea îndeplinirii ipotezelor analizei regresiei.
Cele mai utilizate diagnoze se bazează pe analiza reziduurilor
cere reprezintă deviaţiile valorilor individuale experimentale de la
valorile estimate prin ecuaţia de regresie.
Pentru forma generală a unei ecuaţii de regresie multiple:
yˆ = f ( x1 , x 2 ,K, x k ) + ε , (10.25)
termenul eroare ε este necunoscut pentru că adevăratul model este
necunoscut.
Odată determinaţi parametrii unei ecuaţii de regresie, pentru
fiecare unitate statistică i erorile de estimare sunt:
εˆi = y i − yˆ i (10.26)
în care:
yi este valoarea observată a caracteristicii y,
ŷ i este valoarea estimată după ecuaţia de regresie.

În modelarea statistică, transformările de variabile sunt


folosite frecvent pentru a demonstra compatibilitatea valorilor
experimentale cu ipotezele pe care se fundamentează procesul
de modelare, pentru liniarizarea legăturii statistice dintre două
sau mai multe variabile a căror relaţie este neliniară sau pentru a
modifica limitele de variaţie ale unor variabile.

Pentru un model corect ales, reziduurile se dispun randomizat în


jurul curbei sau suprafeţei de regresie. Pentru un alt tip de distribuţie

132
trebuie să se caute un alt model de ecuaţie de regresie, mai adecvat, sau
să se adauge noi variabile explicative.
Tipul de transformare ce se aplică determină modul în care este
afectată scara variabilelor netransformate.
Schimbările de variabile trebuie efectuate în mod iterativ,
urmărind permanent modificările pe care le produc. Compararea tipurilor
de ecuaţii de regresie trebuie să se facă în scara iniţială, netransformată, a
variabilei dependente.
De exemplu, transformările exponenţiale implică o structură
multiplicativă a erorilor în modelul de bază (iniţial) şi nu aditivă, aşa cum
este specifică unei ecuaţii liniare. Astfel, pentru ecuaţia de regresie de
bază:
y = a ⋅ e b⋅ x + ε , (10.27)
transformarea logaritmică înseamnă:
⎡ ⎛ ε ⎞⎤ ⎛ ε ⎞
ln y = ln(a ⋅ e b⋅ x + ε ) = ln ⎢a ⋅ e b⋅ x ⋅ ⎜1 + b⋅ x ⎟ ⎥
= ln a + b ⋅ x + ln⎜1 + b⋅ x ⎟
.
⎣ ⎝ a ⋅ e ⎠⎦ ⎝ a⋅e ⎠
Cu toate că modelul obţinut este într-adevăr liniar, forma
termenului eroare de estimare este total diferită de cea specifică ecuaţiilor
de regresie determinate prin metoda celor mai mici pătrate. De fapt,
termenul eroare este o funcţie de x, a şi b şi este, deci, de tip
multiplicativ.
Regula ce se desprinde din acest exemplu este aceea că termenul
eroare trebuie verificat întotdeauna, după efectuarea unei transformări de
variabilă, din punct de vedere al compatibilităţii cu condiţiile restrictive
ale modelului iniţial, în principal normalitatea erorilor.
Nu numai transformările prin logaritmare sunt folosite pentru
liniarizare, ci şi cele prin ridicare la o anumită putere (care restrâng
domeniul de variaţie a valorilor mici) sau prin extragerea rădăcinilor de
un anumit ordin (care restrâng domeniul de variaţie a valorilor mari).
Acestea se grupează într-o familie de transformări (tabelul 14)
frecvent aplicate în practică, reprezentată de funcţia putere (yp).
Tabelul 14. Familia de transformări yp
p 2 1/2 1/3 -1/2 -1
1 1
yp y2 y 3 y
y y

Limitările de aplicabilitate a ecuaţiilor de regresie obţinute prin


liniarizare sunt determinate de ipotezele restrictive de bază ale analizei
regresiei multiple, şi anume:

133
9 media abaterilor reziduale individuale este egală cu 0 (metodele
uzuale de estimare a coeficienţilor de regresie se bazează tocmai pe
această ipoteză),
9 abaterile reziduale se distribuie după legea normală,
9 varianţa abaterilor este constantă pe întreg domeniul de aplicabilitate a
ecuaţiei de regresie (pentru toate valorile experimentale ale
variabilelor independente),
9 variabilele factoriale nu sunt coliniare,
9 erorile de estimare nu se corelează cu nici una dintre variabilele
independente.
În general, transformarea unei variabile factoriale x are scopul de
a corecta neliniaritatea, iar transformarea variabilei dependente y se
aplică pentru a corecta inconstanţa varianţei sau pentru a obţine
normalizarea erorilor de estimare, ceea ce poate duce implicit şi la
creşterea liniarităţii.
Dacă erorile de estimare se distribuie după legea normală în
modelul iniţial, transformarea lui y poate duce, însă, la deformarea
distribuţiei erorilor.
Transformarea lui y implică schimbarea unităţii de măsură în care
se exprimă variabila dependentă, ceea ce face dificilă interpretarea
rezultatelor cu atât mai mult cu cât transformarea este mai complexă.
O altă situaţie des întâlnită şi prea puţin analizată este cea în care
unele variabile explicative sunt puternic corelate între ele, astfel încât
întregul set potenţiale variabile conţin informaţie redundantă.
Multicoliniaritatea se manifestă frecvent în ecuaţiile de regresie
multiple şi se observă atunci când variabilele explicative luate în
considerare într-o ecuaţie de regresie multiplă nu variază independent ci
sunt puternic corelate.
Este specifică variabilelor factoriale (nu se referă în nici un fel la
variabila rezultativă) şi favorizează următoarele manifestări negative:
9 efectul variabilelor explicative asupra celei dependente se confundă
(nu pot fi separate sau influenţate),
9 variabilele explicative coliniare sunt de sensuri contrare şi se
compensează reciproc,
9 un alt set de observaţii din populaţia iniţială ar putea genera
coeficienţi de regresie total diferiţi de cei determinaţi pe baza
eşantionului anterior.
În consecinţă, creşte incertitudinea în estimarea coeficienţilor
ecuaţiei de regresie, ale căror erori standard sunt foarte mari, astfel încât
pot deveni nesemnificativi.

134
Multicoliniaritatea este specifică ecuaţiei de regresie polinomiale
pentru că variabilele explicative sunt, de fapt, puteri ale aceleiaşi
variabile şi, evident, sunt foarte puternic corelate între ele.

Este recomandabil să se utilizeze cât mai puţine variabile


explicative într-o ecuaţie de regresie (numai acele variabile care
sunt bine corelate cu variabila rezultativă şi relativ necorelate
între ele).

Trebuie să se ia o decizie bazată pe analiză statistică în aşa fel


încât să se folosească acele variabile independente care duc la obţinerea
unei ecuaţii de regresie care să verifice în cea mai mare măsură ipotezele
formulate iniţial.
Transformările de variabile reprezintă un remediu pentru valorile
extreme, pentru deviaţiile de la normalitate şi favorizează liniarizarea şi
homoscedascitatea (constanţa erorilor). Trebuie, însă, să existe precauţie
în aplicarea transformărilor pentru că astfel devine dificilă interpretarea
noilor variabile.
Trebuie să se aplice următoarele reguli de transformare:
9 transformările variabilei dependente vor schimba distribuţia erorilor
de estimare în model; incompatibilitatea erorilor modelului cu o
anumită distribuţie teoretică poate fi remediată numai prin
transformarea variabilei dependente;
9 legătura statistică dintre variabila dependentă şi o anumită variabilă
independentă poate fi liniarizată uneori prin transformarea variabilei
factoriale, caz în care nu se modifică (de obicei) distribuţia erorilor de
estimare;
9 intervalele de încredere determinate pentru ecuaţia de regresie cu
variabile transformate trebuie să fie recalculate în unităţile de măsură
corespunzătoare modelului iniţial.

Procesul de transformare este un proces iterativ care


necesită şi o evaluare postcalcul.

Modelele neinterpretabile nu sunt de dorit, chiar dacă acestea


exprimă foarte bine legătura corelativă studiată. Sunt mai apreciate

135
ecuaţiile de regresie interpretabile, cu o altă formă decât cea polinomială,
chiar dacă nu ajung la acelaşi grad de ajustare.
10.6 Raportul de corelaţie
Folosirea coeficientului de corelaţie r şi a ecuaţiilor de regresie
liniare nu se justifică decât dacă există într-adevăr o dependenţă liniară
între caracteristici. În celelalte situaţii este recomandat să se utilizeze un
alt indicator statistic care ia în calcul mediile aritmetice corespunzătoare
unor benzi trasate pe diagrama de puncte (xi, yi), paralel cu axele de
coordonate (figura 36).
Acest indicator se numeşte raport de corelaţie şi se notează cu η.

Figura 36. Principiul de determinare a raportului de corelaţie


Ecuaţiile de regresie, în acest caz, nu mai sunt liniare. Metoda de
determinare a coeficienţilor de regresie este, însă, aceeaşi şi se aplică în
aceleaşi condiţii.
De exemplu, pentru o ecuaţie de regresie polinom de gradul n
(aplicabilă în unele situaţii bine justificate şi numai cu un grad n de
valoare mică), sistemul de ecuaţii ce rezultă din metoda celor mai mici
pătrate este:

⎪ ∑ y = a0 N + a1 ∑ x + a 2 ∑ x + L + a n ∑ x
2 n

⎪ xy = a
⎪∑ 0 ∑ x + a1 ∑ x + a 2 ∑ x + L + a n ∑ x
2 3 n +1

⎨ x2 y = a (10.29)
⎪∑ 0 ∑ x + a1 ∑ x + a 2 ∑ x + L + a n ∑ x
2 3 4 n+ 2

⎪ LLLLLLLLLLLLLLLLLLLLLLL
⎪ xn y = a
⎩∑ 0 ∑ x + a1 ∑ x + a 2 ∑ x n+ 2 + L + a n ∑ x 2n
n n +1

136
10.6.1 Determinarea raportului de corelaţie
Pentru banda paralelă cu ordonata, cu abscisa centrală (centrul
clasei) xi, se consideră media a ni valori y corespunzătoare lui x, conţinute
în această clasă. Dacă se notează prin y media generală a valorilor y şi
prin y xi media a ni valori y în clasa i după x (cu centrul corespunzător lui
xi), raportul de corelaţie are expresia:

η yx =
∑ n ⋅ (y − y )
i xi
2

=
Q
, (10.30)
∑ (y − y)
2
i
QT
în care:
Q este suma pătratelor abaterilor faţă de media între clase (între grupele
formate),
QT – suma pătratelor abaterilor pe total.
Se poate defini şi raportul de corelaţie al lui x în funcţie de y (al
corelaţiei inverse):

η xy =
∑ n ⋅ (x − x )
i yi
2

. (10.31)
∑ (x − x )
2
i

Se mai poate scrie:


s yx s xy
η yx = ; η xy = , (10.32)
sy sx
în care notaţiile reprezintă:
s y x - abaterea standard a mediilor de clasă pentru caracteristica y,
s y - abaterea standard a caracteristicii y,
s x y - abaterea standard a mediilor de clasă pentru caracteristica x,
s x - abaterea standard a caracteristicii x.

Raportul de corelaţie este cuprins în intervalul [0,1] .


Pentru η = 0 , între variabile există o independenţă totală, iar
pentru η = 1 între caracteristici există o legătură funcţională
(neliniară sau liniară).

În timp ce pentru o regresie riguros liniară:


η yx = η xy = r , (10.33)
pentru o regresie neliniară, întotdeauna:
η>r. (10.34)

137
Raportul de corelaţie multiplă (R) măsoară intensitatea legăturii
dintre o caracteristică rezultativă y şi două sau mai multe caracteristici
factoriale x1, x2, ..., xi.
Calculul raportului de corelaţie presupune identificarea formei
legăturii dintre variabile (determinarea ecuaţiei de regresie), determinarea
mediei aritmetice ( y ) a valorilor individuale yi şi calculul valorilor
ajustate ale variabilei rezultative ( ŷ i ). Relaţia de calcul este:
N

∑ (y − yˆ i )
2
i
R = 1− i =1
N
. (10.35)
∑ (y
i =1
i − y)
2

Pătratul raportului de corelaţie (R2), exprimat procentual, este


numit coeficient de determinare şi arată care este ponderea variaţiei
determinate de influenţa factorilor cuprinşi în model în variaţia totală a
variabilei rezultative.
10.6.2 Semnificaţia raportului de corelaţie
Testarea semnificaţiei raportului de corelaţie se face prin
aplicarea testului F.
N − k η2
Fexp = ⋅ , (10.36)
k −1 1−η 2
în care k reprezintă numărul de clase formate pentru caracteristica
factorială.
Fexp se compară cu Fteoretic extras din tabele pentru o anumită
probabilitate de transgresiune q şi pentru f1 = k-1 şi f2 = N-k.

dacă Fexp ≤ Fteoretic 0,05 ⇒ η este nesemnificativ,


dacă Fexp > Fteoretic 0,05 ⇒ η este semnificativ,
dacă Fexp > Fteoretic 0,01 ⇒ η este distinct semnificativ.

138
CALCULUL COEFICIENTULUI DE CORELAŢIE r, AL RAPORTULUI DE
CORELAŢIE ηyx ŞI AL RAPORTULUI DE CORELAŢIE ηxy
Tabelul 15.
28,0 32,0 36,0 40,0 44,0 48,0 52,0 56,0 60,0 64,0 68,0 ny xy ny (xy − x)2 ny ⋅ y ny ⋅ y 2 nxy ⋅ x ⋅ y n y ( yi − y ) 2
44,0 0 0 0 0 0 0 5 0 3 0 0 8 55,00 831,41 352,00 15488,0 19360,00 529,93
42,0 0 0 0 0 2 0 2 0 1 3 2 10 58,00 1740,93 420,00 17640,0 24360,00 376,86
40,0 0 0 1 1 0 5 3 9 0 1 0 20 52,00 1035,20 800,00 32000,0 41600,00 342,61
38,0 0 0 0 5 1 7 6 2 1 0 0 22 48,36 278,52 836,00 31768,0 40432,00 100,65
36,0 0 0 3 10 7 5 1 0 0 0 0 26 42,62 124,72 936,00 33696,0 39888,00 0,50
34,0 0 0 1 8 9 4 0 0 0 0 0 22 42,91 79,12 748,00 25432,0 32096,00 76,20
32,0 0 3 4 5 2 0 0 0 0 0 0 14 37,71 704,01 448,00 14336,0 16896,00 208,71
30,0 1 2 5 1 0 0 0 0 0 0 0 9 34,67 925,17 270,00 8100,0 9360,00 309,17
28,0 2 1 3 2 0 0 0 0 0 0 0 8 34,50 849,64 224,00 6272,0 7728,00 494,38
26,0 1 3 1 0 0 0 0 0 0 0 0 5 32,00 819,91 130,00 3380,0 4160,00 486,21

139
nx 4 9 18 32 21 21 17 11 5 4 2 144 44,81 7388,64 5164,00 188112,0 235880,00 2925,22
yx 28,00 29,11 31,67 34,63 35,43 37,24 40,47 39,64 42,40 41,50 42,00 35,86 y x ∑n y (xy − x)2 ∑ ny ⋅ y ∑ ny ⋅ y 2 ∑∑ n xy ⋅x⋅ y ∑n y ( yi − y ) 2
y y x y
2 2
n x ( y x − y ) 2 247,19 410,06 316,68 48,90 3,93 39,82 361,20 156,78 213,79 127,19 75,37 2000,90 ∑n x ( y x − y) R yx = 0,684
nx ⋅ x 112,00 288,00 648,00 1280,00 924,00 1008,00 884,00 616,00 300,00 256,00 136,00 6452,00 ∑ nx ⋅ x η yx = 0,827
x

nx ⋅ x 2 3136,0 9216,0 23328,0 51200,0 40656,0 48384,0 45968,0 34496,0 18000,0 16384,0 9248,0 300016,0 ∑ nx ⋅ x 2
x
nxy ⋅ x ⋅ y 3136,0 8384,0 20520,0 44320,0 32736,0 37536,0 35776,0 24416,0 12720,0 10624,0 5712,0 235880,0 ∑∑ n xy ⋅x⋅ y R xy2 = 0,676 R 2 = 0,634
x y
2 2
n x (xi − x ) 1129,71 1475,84 1395,68 738,99 13,63 214,29 879,92 1378,47 1154,36 1473,71 1075,96 10930,56 ∑n x ( xi − x ) η xy = 0,822 r = 0,797
11. ANALIZA SERIILOR DE TIMP
Seriile de timp, seriile cronologice sau seriile dinamice reprezintă
variaţia uneia sau a mai multor caracteristici în raport cu variabila timp.
Determinarea valorilor acestor caracteristici se face în momente diferite;
pentru simplificarea metodelor de prelucrare statistică este recomandabil
ca datele experimentale să fie obţinute la intervale egale de timp ( δt = 1 ).
Variabilele analizate în raport cu timpul pot fi discrete (de
exemplu: numărul de arbori) sau continue (de exemplu: temperatura).
Unitatea de timp luată în considerare este anul (cel mai frecvent)
dar şi luna, săptămâna, ziua, iar pentru evidenţierea anumitor
particularităţi ale unor fenomene, chiar ora sau minutul.
În funcţie de numărul variabilelor considerate, seriile de timp pot
fi unidimensionale, bidimensionale sau pluridimensionale.
11.1 Ajustarea unei serii cronologice
Din reprezentarea unei serii cronologice unidimensionale se
observă că aceasta se caracterizează prin componentele:
ƒ T: o variaţie de lungă durată (tendinţă seculară sau trend),
ƒ C: variaţie ciclică (variaţii ritmice care se repetă după o anumită
perioadă),
ƒ S: variaţie sezonieră, caz particular de variaţie periodică reprezen-
tând oscilaţii ale seriilor cronologice în funcţie de anotimpuri sau
grupe de luni sau zile,
ƒ R: variaţie reziduală (variaţii aleatoare sau accidentale).
Seriile cronologice pot avea un model aditiv ( T + C + S + R ) sau
un model multiplicativ ( T ⋅ C ⋅ S ⋅ R ). Pentru fenomenele din silvicultură
se aplică frecvent modelul aditiv al seriilor cronologice.
Modelul general nu este aplicabil în toate situaţiile. De exemplu,
dacă datele sunt înregistrate anual nu are sens considerarea unei
componente sezoniere. Dacă seria este analizată pentru o perioadă scurtă
de timp, se poate omite componenta ciclică. Uneori, pentru analiza
corelaţiei seriilor de timp trebuie să fie eliminat trendul, astfel încât să
poată fi puse în evidenţă numai variaţiile ciclice.

Ajustarea unei serii cronologice, similar ajustării


distribuţiilor, constă în aplicarea metodelor statistic-
matematice şi grafice adecvate pentru înlocuirea seriei
empirice cu o serie de valori calculate în vederea evidenţierii
caracterului legic şi regulat al fenomenelor analizate.

140
Metodele de ajustare pot fi grupate în: metode grafice, metode
mecanice şi metode analitice.
Metoda grafică constă în trasarea aproximativă a unei curbe sau
drepte de tendinţă pentru seria cronologică pe un grafic cu scară
aritmetică sau logaritmică.
Metodele de ajustare mecanică constă în aplicarea succesivă a
unor formule de calcul prestabilite care să modifice cea mai mare parte a
termenilor seriei cronologice (de exemplu, metoda mediilor mobile).
Metodele analitice de ajustare aplică metodele statistico-
matematice pentru aproximarea valorilor teoretice ale seriilor de timp
prin intermediul unor functii matematice. Cea mai utilizată este metoda
celor mai mici pătrate.
Uneori, înainte de ajustarea propriu zisă, în scopul obţinerii unor
curbe cu variaţii extreme estompate, se aplică metode de netezire prin
interpolarea valorilor seriei de timp. Această operaţie se bazează pe
ipoteza că variabila analizată în raport cu timpul este o variabilă continuă
şi constă în completarea termenilor lipsă (între valorile existente) într-o
serie cronologică. Se folosesc formule specifice de interpolare (Newton,
Lagrange etc.).
11.1.1 Ajustarea grafică prin procedeul punctelor mediane
Acest procedeu constă în unirea punctelor de maxim între ele şi a
celor de maxim între ele (figura 37). Pe ordonatele ce corespund unui
maxim sau minim se determină punctele A, B, C, …, echidistanţate faţă
de cele două linii ce unesc maximele şi minimele. Se obţine astfel linia
poligonală denumită „tendinţă generală”.

Figura 37. Ajustarea unei serii de timp prin procedeul punctelor mediane

141
11.1.2 Procedeul mediilor centrate
Se aplică atunci când tendinţa seriei cronologice pare rectilinie,
caz în care dreapta de tendinţă ar fi:
yˆ = a + b ⋅ t , (11.1)

cu b =
∑ ( y − y )⋅ (t − t )
i i i
şi a = y − b ⋅ t , (11.2)
∑ (t − t )
2
i i

în care:
y este media valorilor variabilei studiate y,
t este timpul mediu (mijlocul perioadei analizate).
Pentru simplificarea calculelor, b este pus sub forma:
∑ yi ⋅ t i − N ⋅ y ⋅ t = ∑i yi ⋅ t i − t ⋅ ∑i yi
b= i 2 (11.3)
∑i t i − N ⋅ t 2 ∑i t i2 − t ⋅ ∑i t i
În cazul în care data primei observaţii corespunde cu originea (t ia
succesiv valorile 0, 1, 2, …, N-1):
N ⋅ ( N − 1) N ⋅ ( N − 1) ⋅ (2 N − 1) N −1
∑i t i = 2 ; ∑i t i2 = 6
;t =
2
şi

N ⋅ N 2 −1 ( )
∑i i ∑i i
t 2
− t ⋅ t =
12
. (11.4)
Dacă tendinţa generală nu este liniară, dar poate deveni printr-o
schimbare de variabilă (de exemplu prin logaritmare: y '= log y ),
modalitatea de lucru este aceeaşi.
11.1.3 Procedeul mediilor mobile
Acest procedeu poate fi aplicat, după caz, în două variante:
ƒ medii mobile neponderate, atunci când fiecare observaţie este
înlocuită printr-o medie aritmetică calculată cu valoarea observată şi
cu cele vecine ei:
xi −1 + xi + xi +1 x + xi −1 + xi + xi +1 + xi + 2
xi ' = sau xi ' = i −2 . (11.5)
3 5
ƒ medii mobile ponderate, atunci când tendinţa este curbilinie (mediile
mobile calculate neponderat s-ar plasa în concavitatea curbei).
Procedeul Bloxham aplicat în această situaţie presupune înlocuirea lui
x + 2 ⋅ xi + xi +1
xi cu i −1 . Procedeul Spencer necesită înlocuirea lui xi cu
4
media ponderată a 15 valori, calculată cu relaţia:
1
⋅ (− 3 xi −7 − 6 xi −6 − 5 xi −5 + 3 xi − 4 + 21xi −3 + 46 xi − 2 + 67 xi −1 + 74 xi + 67 xi +1 + 46 xi + 2 + 21xi +3 + 3xi + 4 − 5 xi +5 − 6 xi + 6 − 3 xi + 7 )
320

142
11.1.4 Analiza componentelor seriilor cronologice
Trendul reprezintă principala componentă a unei serii de timp. În
vederea identificării tendinţei generale se folosesc metode de ajustare
analitică prin aplicarea metodei celor mai mici pătrate. Sunt estimaţi
astfel parametrii unor funcţii matematice adaptate la forma celei
empirice. Frecvent sunt utilizate pentru ajustare: dreapta, parabola,
exponenţiala, exponenţiala modificată, curba Gompertz, curba logistică.
Exista criterii, destul de subiective însă, de alegere iniţială a unei
funcţii teoretice. Practic, se recomandă analiza reprezentării grafice care
dă indicaţii importante în legătură cu caracterul tendinţei generale.
Pentru evidenţierea trendului, este de dorit ca seria cronologică să
se refere la o perioadă cât mai mare de timp.
Analiza componentei sezoniere a seriei cronologice presupune
stabilirea variaţiei determinate de succesiunea anotimpurilor (sezoanelor)
sau de repetarea unor particularităţi pe luni, trimestre sau chiar unităţi de
timp mai mici.
Sezonalitatea poate fi de tip constant (cu aproximativ aceeaşi
amplitudine) sau de tip variabil.
Analiza variaţiilor ciclice ale seriilor cronologice presupune
aplicarea unor metode statistico-matematice pentru identificarea acelor
componente ale unei serii de timp care se repetă la intervale egale.
Un termen al seriei de timp care depăşeşte ca valoare atât
termenul anterior cât şi cel următor se numeşte vârf sau maxim local.
Situaţia opusă reprezintă un minim local.
Se numeşte perioadă intervalul dintre două vârfuri succesive.
D'−T
Tendinţa ciclică este surprinsă de relaţia , în care D’
T
reprezintă datele brute corectate din punct de vedere al variaţiilor
sezoniere, iar T este trendul.
În cazul seriilor de timp bidimensionale, cele două variabile
continue (x şi y) sunt determinate pentru momentele ti şi pot fi
reprezentate pe acelaşi grafic prin două curbe: x = f (t ) şi y = g (t ) . Dacă
aceste curbe au punctele de extrem de acelaşi tip (minime, respectiv,
maxime) situate aproximativ pe aceeaşi abscisă, se numesc serii
sincrone. În alte situaţii, seriile sunt asincrone şi trebuie să se determine
faza de corelaţie sau abaterea de la sincronism.

143
11.2 Determinarea fazei de corelaţie

Faza de corelaţie reprezintă corecţia de timp care trebuie


aplicată absciselor unei serii dinamice în vederea realizării
sincronismului cu altă serie dinamică.

11.2.1 Cazul în care cele două caracteristici sunt exprimate în


sisteme diferite de unităţi de măsură
Se calculează coeficientul de corelaţie, r, al celor două serii,
xi = f (t i ) şi y i = g (t i ) . În acest scop, menţinând fixe valorile ti pentru
funcţia f (t i ) , se aplică diferite corecţii Δt k lui ti în funcţia g (t i ) şi se
obţin diferite valori ale coeficientului de corelaţie rk. Din mulţimea
coeficienţilor de corelaţie calculaţi se alege valoarea maximă. Pentru
rk = rmax va rezulta (Δt k )rmax = ϕ = faza de corelaţie.
Aşa cum se poate deduce, acest mod de lucru este laborios;
practic se procedează astfel:
ƒ se consideră că valorile xi, yi se obţin la intervale egale de timp (prin
interpolare se poate îndeplini această condiţie),
ƒ se alege arbitrar Δt 0 = N ⋅ δ t , în care δ t este pasul constant al
absciselor ti, iar N este un număr întreg. Valoarea Δt0 trebuie aleasă
astfel încât, aplicând-o la abscisele unei serii, extremele celor două
funcţii, xi şi yi, să coincidă ca poziţie.
ƒ se notează:
r0 = coeficientul de corelaţie când se aplică o corecţie
Δt = N ⋅ δ t = Δt 0 ,
r+ = coeficientul de corelaţie când se aplică o corecţie
Δt = ( N + 1) ⋅ δ t = Δt 0 + δ t ,
r_ = coeficientul de corelaţie când se aplică o corecţie
Δt = ( N − 1) ⋅ δ t = Δt 0 − δ t .
Pe un interval mic de variaţie a lui Δt, curba empirică a lui r poate
fi aproximată printr-un polinom de gradul II:
r = a ⋅ (Δt ) + b ⋅ Δt + c .
2
(11.6)
Se obţine sistemul:

144
⎧r− = a ⋅ [( N − 1) ⋅ δ t ]2 + b ⋅ [( N − 1) ⋅ δ t ] + c

⎨ r0 = a ⋅ (N ⋅ δ t ) + b ⋅ ( N ⋅ δ t ) + c
2
(11.7)
⎪r = a ⋅ [( N + 1) ⋅ δ t ]2 + b ⋅ [( N + 1) ⋅ δ t ] + c
⎩+
ƒ Prin rezolvarea sistemului se obţin:
r + r − 2⋅r
a= + − 2 0 ; (11.8)
2 ⋅ (δ t )
r − r − 2 ⋅ N ⋅ (r+ + r− − 2 ⋅ r0 )
b= + − ; (11.9)
2 ⋅δ t
c = r0 − a ⋅ ( N ⋅ δ t ) + b ⋅ N ⋅ δ t ,
2
(11.10)
ƒ r = rmax atunci când prima derivată a funcţiei (11.6) este egală cu 0.
Faza de corelaţie ϕ va fi:
b 2 ⋅ (δ t )
2
r − r − 2 ⋅ N ⋅ (r+ + r− − 2 ⋅ r0 )
ϕ =− =− ⋅ + − ⇒
2⋅a 2 ⋅ (r+ + r− − 2 ⋅ r0 ) 2 ⋅δ t
δt r+ − r−
⇒ ϕ = Δt 0 − ⋅ . (11.11)
2 r+ + r− − 2 ⋅ r0
11.2.2 Cazul în care cele două caracteristici sunt exprimate în
aceleaşi unităţi de măsură
Determinarea fazei de corelaţie se poate face fără a calcula
coeficienţii de corelaţie. Pe graficul celor două funcţii, xi = f (t i ) şi
y i = g (t i ) , se determină cu cât ar trebui deplasate abscisele punctelor
funcţiei yi pentru ca extremele să coincidă; dacă extremele nu sunt foarte
evidente, problema constă în a stabili sensul şi mărimea Δt 0 a translaţiei
unei funcţii astfel încât cele două curbe să devină paralele.
Se consideră că xi = f (t i ) îşi păstrează abscisele ti iniţiale, iar
pentru y i = g (t i ) se aplică acea corecţie Δt 0 determinată grafic şi devine
y i = g (t i + Δt 0 ) . Şi în acest caz Δt 0 trebuie considerat un număr întreg de
paşi δ t .
În continuare se determină sumele pătratelor abaterilor în trei
situaţii:
S 0 = ∑i ( xi − y i ) pentru y i = g (t i + N ⋅ δ t ) ,
2
(11.12)
S − = ∑i ( xi − y i ) pentru y i = g [t i + ( N − 1) ⋅ δ t ] şi
2
(11.13)
S + = ∑i ( xi − y i ) pentru y i = g [t i + ( N + 1) ⋅ δ t ].
2
(11.14)

145
Pentru o valoare Δt 0 = N ⋅ δ t apropiată de mărimea fazei de
corelaţie se poate scrie:
S = A ⋅ (Δt ) 2 + B ⋅ (Δt ) + C (11.15)
şi, după ce se pune condiţia ca S să fie minim, se obţine expresia fazei de
corelaţie:
B
ϕ =− , (11.16)
2⋅ A
ştiind că:
S + S− − 2 ⋅ S0
A= + ; (11.17
2 ⋅ (δ t )
2

S + − S − − 2 ⋅ N ⋅ (S + − S − + 2 ⋅ S 0 )
B= şi (11.18)
2 ⋅ (δ t )
C = S 0 − A ⋅ (Δt 0 ) − B ⋅ (Δt 0 ) .
2
(11.19)
Deci:
2 ⋅ (δ t )
2
S − S − − 2 ⋅ N ⋅ (S + + S − − 2 ⋅ S 0 )
ϕ= ⋅ + ⇒
2 ⋅ (S + + S − − 2 ⋅ S 0 ) 2 ⋅ (δ t )
δt S+ − S−
⇒ ϕ = Δt 0 − ⋅ . (11.20)
2 S+ + S− − 2 ⋅ S0
11.3 Autocorelaţia
În cazul unor serii de timp se observă că valorile xi se corelează
cu valorile xi+k. Această corelaţie dintre termenii aceleiaşi serii se
numeşte autocorelaţie şi este pusă în evidenţă prin compararea termen cu
termen a seriei iniţiale cu aceeaşi serie decalată cu k unităţi de timp.
Dezavantajul acestui tip de analiză statistică este acela că nu se
pot forma decât n − k cupluri de valori din cele n ale seriei întregi, ceea
ce poate constitui un impediment în cazul unei serii reduse.
În cazul general, mediile celor două serii astfel obţinute nu sunt
egale. De asemenea, nici abaterile standard.
Cu notaţiile:
1 n−k 1 n−k
x1 = ⋅ ∑ xi şi x k = ⋅ ∑ xi + k , (11.21)
n−k 1 n−k 1
relaţia coeficientului de corelaţie (autocorelaţie) de ordin k este:

146
n−k

∑ (x i − x1 )( xi + k − x k )
rk = 1
. (11.22)
n−k n−k

∑ (x − x1 ) ⋅∑ ( xi + k − x k )
2 2
i
1 1

Pentru a recunoaşte dacă o serie include cu adevărat un element


ciclic se foloseşte metoda corelogramei. În acest scop se calculează rk
pentru k = 1, 2, 3, 4, … şi se reprezintă într-o diagramă cu k în abscisă şi
rk în ordonată (figura 38). Punctele unite descriu o curbă denumită
„corelogramă”.

Figura 38. Reprezentare grafică a corelogramei

Dacă această corelogramă prezintă o alură oscilatorie care nu se


amortizează (amplitudinea se menţine constantă pentru valorile lui k din
ce în ce mai mari) se poate concluziona că există unul sau mai multe
elemente ciclice în serie.
Dacă forma este oscilatorie amortizată, autocorelaţia este
susceptibilă de a fi utilizată pentru prevederea unei valori xi a variabilei
pornind de la valorile xi-1, xi-2, … deja cunoscute prin determinarea unei
ecuaţii de regresie adecvate.
11.4 Analiza armonică a seriilor cronologice
Această metodă de analiză statistică se bazează pe ipoteza că o
serie de timp se comportă ca un ansamblu de unde. Admiţând că seria
este constituită dintr-un număr, posibil finit, de mici fluctuaţii şi cuprinde
o gamă continuă de lungimi de undă, se analizează distribuţia varianţei în
diferite intervale de frecvenţă într-un câmp continuu.
În esenţă, procedeul se bazează, deci, pe considerarea unei serii
cronologice ca o sumă a funcţiilor periodice de forma:

147
⎛ 2π ⎞ ⎛ 2π ⎞
u (t ) = sin ⎜⎜ ⋅ t ⎟⎟ şi v(t ) = cos⎜⎜ ⋅ t ⎟⎟ , (11.23)
⎝ Ti ⎠ ⎝ Ti ⎠
în care T1,2, …, n sunt perioadele acestor funcţii, perioade care se pot
determina prin alegerea unor funcţii periodice cunoscute cărora li se
atribuie valori succesive şi observarea modului de variaţie a acestora.
Se ajunge la o sumă a acestor funcţii care dă cea mai bună
aproximare a variaţiilor seriei analizate. Prin reprezentarea grafică a
analizei armonice se obţine periodograma.
Frecvent, presupunând seria de timp x = f (t ) , dacă
f (t + T ) = f (t ) pentru toate valorile lui t, aceasta se exprimă ca o serie
Fourier:
1 ∞
⎛ 360 ⋅ j ⋅ t 360 ⋅ j ⋅ t ⎞
xˆ = A0 + ∑ ⎜ A j ⋅ sin + B j ⋅ cos ⎟, (11.24)
2 j =1 ⎝ T T ⎠
în care T este perioada de oscilaţie, iar A0, Aj şi Bj sunt constante.
Pentru un set de date care furnizează un număr finit de valori x1,
x2, …, xn corespunzătoare observaţiilor efectuate la momentele t1, t2, …,
tn separate prin intervale egale de timp, forma funcţiei este:
xˆ i = x + ∑ A j ⋅ sin (i ⋅ ω j ) + ∑ B j ⋅ cos(i ⋅ ω j ) ,
n n
(11.25)
j =1 j =1

unde x este valoarea medie a variabilei xi pe perioada T (12 luni, 24 ore


etc.), i reprezintă numărul de ordine al unui element în seria cronologică
2π 2πj
studiată, iar pulsaţia ω j = = .
Tj T
Media x se calculează astfel:
x1 + x n
+ x 2 + L + x n −1
ƒ la seriile de moment: x = 2 , (11.26)
n −1
n

∑x i
ƒ la seriile cronologice de intervale: x = i =1
. (11.27)
n
Coeficienţii Aj şi Bj se estimează cu relaţiile:
Aˆ j = ⋅ ∑ ei ⋅ sin (i ⋅ ω j ) , Bˆ j = ⋅ ∑ ei ⋅ cos(i ⋅ ω j ),
2 n 2 n
(11.28)
n i =1 n i =1
e fiind abaterile valorilor individuale xi faţă de x ( e = xi − x ).
Seria (11.25) se mai poate scrie în forma:
xˆ i = x + ∑ α j ⋅ sin (i ⋅ ω j + ϕ j ) ,
n
(11.29)
j =1

148
Bj
în care α j = A 2j + B 2j , iar faza ϕ j = arctgşi se află în cadranul
Aj
corespunzător semnelor coeficienţilor Aj şi Bj conform reprezentării din
figura 39.

Figura 39. Convenţiile de semn pentru


valorile coeficienţilor Aj şi Bj

α 2j se numeşte amplitudine pătrată, iar importanţa ei constă în


faptul că măsoară descreşterea în suma pătratelor reziduurilor: cu cât este
mai mare această valoare, cu atât mai mare este contribuţia pe care
componenta armonică a frecvenţei ω j o aduce la variaţia lui xi .
11.5 Funcţii de creştere şi dezvoltare
Prin măsurarea succesivă, de preferinţă la intervale egale, a
caracteristicilor dendrometrice ale arborilor sau ale arboretului în
ansamblu, se obţin valori experimentale care, reprezentate grafic, redau
variaţia în raport cu timpul a acelor caracteristici sau dinamica
creşterilor; ajustarea printr-o curbă continuă generează curba de creştere.
Reprezentarea grafică a creşterilor acumulate duce la obţinerea
curbei de acumulare sau de dezvoltare. Aceasta are forma unui S alungit
şi este asemănătoare cu curba frecvenţelor cumulate a distribuţiilor
teoretice.
Dacă funcţia de dezvoltare este y = f ( x) , curba de creştere este
prima derivată y ' a acesteia (sau, invers, curba de dezvoltare se obţine
prin integrarea curbei creşterilor).
Creşterea medie se obţine prin raportarea creşterii cumulate la
⎛ f ( x) ⎞
perioada de timp analizată ⎜ ⎟.
⎝ x ⎠

149
În figura 40 s-a reprezentat curba de acumulare (a producţiei
totale) în partea superioară şi curbele creşterilor curente şi medii, în
partea inferioară.
Se pot pune în evidenţă grafic legăturile dintre aceste funcţii:
- maximul creşterii curente este atins întotdeauna înainte de cel al
creşterii medii;
- maximul curbei creşterii medii se realizează atunci când aceasta
intersectează curba creşterii curente; punctul de intersecţie corespunde
momentului în care curba de acumulare admite o tangentă care trece
prin originea sistemului de coordonate;
- maximul creşterii curente se atinge corespunzător punctului de
inflexiune al curbei de acumulare;
Relaţiile dintre aceste funcţii se demonstrează relativ simplu prin
aplicarea calculului diferenţial; ele sunt aplicabile în cazul analizei
creşterilor în diametru de bază, în înălţime, în suprafaţa de bază sau în
volum, atât pentru arbori individuali cât şi pentru arboretul echien în
ansamblu.

Figura 40. Legătura dintre curbele de creştere şi cea de acumulare

150
Pardé şi Bouchon (1988) prezintă mai multe modele utilizate
pentru exprimarea creşterii diverselor caracteristici dendrometrice ale
arborilor şi arboretelor:
- Duplat şi Tran-Ha:
a4
⎡ ⎛ x⎞ 3
a

−⎜ ⎟
⎢ ⎥
y = ( a 0 + a1 ⋅ x ) ⋅ ⎢1 − e ⎝ 2 ⎠
a
⎥ + a5 ⋅ x (11.30)
⎢ ⎥
⎣ ⎦
în care:
e este baza logaritmului natural,
a0 - parametru liber,
a1, ..., a5 - parametri constanţi pentru aceeaşi staţiune.
- Lundqvist şi Matérn:
a3

y = a1 + a 2 ⋅ e ( 4 )
5 a
x −a
(11.31)
unde:
e este baza logaritmului natural,
a1, ..., a5 - coeficienţi de regresie (a2, a3 şi a5 strict pozitivi).
Se observă că pentru a5=1 se obţine modelul lui Schumacher.
- Chapman - Richards:
⎡ 1
a3 ⋅( x − a4 ) 1− a5

y = a1 + a 2 ⋅ ⎢1 − e ⎥ (11.32)
⎢⎣ ⎥⎦
în care:
e este baza logaritmului natural,
a1, ..., a5 - coeficienţi de regresie (a3 < 0 şi a5 < 1).
Pentru a1=a4=a5=0 se obţine modelul logistic.
În cele trei modele, y reprezintă valoarea caracteristicii studiate,
determinată în funcţie de vârsta x.
În unele situaţii se poate folosi pentru ajustarea curbei creşterilor
şi modelul de forma:
a ⋅ x 3 + a2 ⋅ x 2 + a3 ⋅ x
y= 1 2 , (11.33)
x + a 4 ⋅ x + a5
cu aceeaşi semnificaţie a notaţiilor.

151
Bibliografie selectivă

Anonymous, 1991, CSS: STATISTICA, StatSoft Inc., Tulsa, U.S.A.


Anonymous, 1998, SPSS Base 8.0 Application Guide
Clocotici V., Stan A., 2000, Statistică aplicată în psihologie, Ed. Polirom,
Iaşi
Dodge Y., 1993, Statistique. Dictionnaire encyclopedique, Ed. Dunod, Paris
Giurgiu V., 1972, Metode ale statisticii matematice aplicate în silvicultură,
Ed.Ceres, Bucureşti
Giurgiu V., 1979, Dendrometrie şi auxologie forestieră, Ed.Ceres, Bucureşti
Houllier F., Gegout J.-C., 1994, Introduction a l’analyse des donnees,
ENGREF, Nancy
Leahu I., 1984, Metode şi modele structural-funcţionale în amenajarea
pădurilor, Ed. Ceres, Bucureşti
Lemoine B. et al., 1991, Etude de la loi de Weibull en vue de son ajustement
aux distributions en circonference de peuplements de Pin
maritime; în „Modelisation de la croissance et de la qualite des
bois en function de la sylviculture et de l’heredite”, INRA
Champenoux, Nancy
Mihoc Gh., Urseanu V., Ursianu E., 1982, Modele de analiză statistică, Ed.
Ştiinţifică şi enciclopedică, Bucureşti
Neuilly M., 1993, Modelisation et estimation des erreurs de mesure, Ed.
Lavoisier, Paris
Parde J., Bouchon J., 1988, Dendrometrie, ENGREF, Nancy
Philip M.S., 1994, Measuring Trees and Forests, CAB International, U.K.
Porojan D., 1993, Statistica şi teoria sondajului, Casa de editură şi presă
„Şansa” S.R.L., Bucureşti
Rondeux J., 1993, La mesure des arbres et des peuplements forestiers, Ed.
Lavoisier, Paris
Rotariu T. et al., 1999, Metode statistice aplicate în ştiinţele sociale, Ed.
Polirom, Iaşi
Todoran I.,1989, Răspunsuri posibile. Corelaţie şi prognoză, Ed. DACIA,
Cluj-Napoca
Tomassone R., Dervin C., Masson J.P., 1993, Biometrie. Modelisation de
phenomenes biologiques, Ed. Masson, Paris
Trebici V. et al., 1985, Mică enciclopedie de statistică, Ed. Ştiinţifică şi
enciclopedică, Bucureşti
Ţarcă M., 1998, Tratat de statistică aplicată, Ed. Didactică şi pedagogică,
Bucureşti

152
ANEXE

153
Distribuţia normală ANEXAI
III IV III IV III IV III IV III IV III IV III IV III IV III IV III IV
f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u) f(u)
u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,3989 0,0000 1,1968 0,3989 0,0120 1,1965 0,3989 0,0239 1,1956 0,3988 0,0359 1,1941 0,3986 0,0478 1,1920 0,3984 0,0597 1,1894 0,3982 0,0716 1,1861 0,3980 0,0834 1,1822 0,3977 0,0952 1,1777 0,3973 0,1070 1,1727
0,1 0,3970 0,1187 1,1671 0,3965 0,1303 1,1609 0,3961 0,1419 1,1541 0,3956 0,1534 1,1468 0,3951 0,1648 1,1388 0,3945 0,1762 1,1304 0,3939 0,1874 1,1214 0,3932 0,1986 1,1118 0,3925 0,2097 1,1017 0,3918 0,2206 1,0911
0,2 0,3910 0,2315 1,0799 0,3902 0,2422 1,0682 0,3894 0,2529 1,0560 0,3885 0,2634 1,0434 0,3876 0,2737 1,0302 0,3867 0,2840 1,0165 0,3857 0,2941 1,0024 0,3847 0,3040 0,9878 0,3836 0,3138 0,9727 0,3825 0,3235 0,9572
0,3 0,3814 0,3330 0,9413 0,3802 0,3423 0,9250 0,3790 0,3514 0,9082 0,3778 0,3604 0,8910 0,3765 0,3693 0,8735 0,3752 0,3779 0,8556 0,3739 0,3864 0,8373 0,3725 0,3947 0,8186 0,3712 0,4027 0,7996 0,3697 0,4106 0,7803
0,4 0,3683 0,4184 0,7607 0,3668 0,4259 0,7408 0,3653 0,4332 0,7206 0,3637 0,4403 0,7001 0,3621 0,4472 0,6793 0,3605 0,4539 0,6583 0,3589 0,4603 0,6371 0,3572 0,4666 0,6156 0,3555 0,4726 0,5940 0,3538 0,4785 0,5721
0,5 0,3521 0,4841 0,5501 0,3503 0,4895 0,5279 0,3485 0,4946 0,5056 0,3467 0,4996 0,4831 0,3448 0,5043 0,4605 0,3429 0,5088 0,4378 0,3410 0,5131 0,4150 0,3391 0,5171 0,3921 0,3372 0,5209 0,3691 0,3352 0,5245 0,3461
0,6 0,3332 0,5278 0,3231 0,3312 0,5309 0,3000 0,3292 0,5338 0,2770 0,3271 0,5365 0,2539 0,3251 0,5389 0,2309 0,3230 0,5411 0,2078 0,3209 0,5431 0,1849 0,3187 0,5448 0,1620 0,3166 0,5463 0,1391 0,3144 0,5476 0,1164
0,7 0,3123 0,5486 0,0937 0,3101 0,5495 0,0712 0,3079 0,5501 0,0487 0,3056 0,5504 0,0265 0,3034 0,5506 0,0043 0,3011 0,5505 -0,0176 0,2989 0,5502 -0,0394 0,2966 0,5497 -0,0611 0,2943 0,5490 -0,0825 0,2920 0,5481 -0,1037
0,8 0,2897 0,5469 -0,1247 0,2874 0,5456 -0,1454 0,2850 0,5440 -0,1660 0,2827 0,5423 -0,1862 0,2803 0,5403 -0,2063 0,2780 0,5381 -0,2260 0,2756 0,5358 -0,2455 0,2732 0,5332 -0,2646 0,2709 0,5305 -0,2835 0,2685 0,5276 -0,3021
0,9 0,2661 0,5245 -0,3203 0,2637 0,5212 -0,3383 0,2613 0,5177 -0,3559 0,2589 0,5140 -0,3731 0,2565 0,5102 -0,3901 0,2541 0,5062 -0,4066 0,2516 0,5021 -0,4228 0,2492 0,4978 -0,4387 0,2468 0,4933 -0,4541 0,2444 0,4887 -0,4692
1,0 0,2420 0,4839 -0,4839 0,2396 0,4790 -0,4983 0,2371 0,4740 -0,5122 0,2347 0,4688 -0,5257 0,2323 0,4635 -0,5389 0,2299 0,4580 -0,5516 0,2275 0,4524 -0,5639 0,2251 0,4467 -0,5758 0,2227 0,4409 -0,5873 0,2203 0,4350 -0,5984
1,1 0,2179 0,4290 -0,6091 0,2155 0,4228 -0,6193 0,2131 0,4166 -0,6292 0,2107 0,4102 -0,6386 0,2083 0,4038 -0,6476 0,2059 0,3973 -0,6561 0,2036 0,3907 -0,6642 0,2012 0,3840 -0,6720 0,1989 0,3772 -0,6792 0,1965 0,3704 -0,6861
1,2 0,1942 0,3635 -0,6925 0,1919 0,3566 -0,6986 0,1895 0,3495 -0,7042 0,1872 0,3425 -0,7093 0,1849 0,3354 -0,7141 0,1826 0,3282 -0,7185 0,1804 0,3210 -0,7224 0,1781 0,3138 -0,7259 0,1758 0,3065 -0,7291 0,1736 0,2992 -0,7318
1,3 0,1714 0,2918 -0,7341 0,1691 0,2845 -0,7361 0,1669 0,2771 -0,7376 0,1647 0,2697 -0,7388 0,1626 0,2623 -0,7395 0,1604 0,2549 -0,7399 0,1582 0,2475 -0,7400 0,1561 0,2402 -0,7396 0,1539 0,2328 -0,7389 0,1518 0,2254 -0,7378
1,4 0,1497 0,2180 -0,7364 0,1476 0,2106 -0,7347 0,1456 0,2033 -0,7326 0,1435 0,1960 -0,7301 0,1415 0,1887 -0,7274 0,1394 0,1815 -0,7243 0,1374 0,1742 -0,7209 0,1354 0,1670 -0,7172 0,1334 0,1599 -0,7132 0,1315 0,1528 -0,7088
1,5 0,1295 0,1457 -0,7043 0,1276 0,1387 -0,6994 0,1257 0,1317 -0,6942 0,1238 0,1248 -0,6888 0,1219 0,1179 -0,6831 0,1200 0,1111 -0,6772 0,1182 0,1044 -0,6710 0,1163 0,0977 -0,6646 0,1145 0,0911 -0,6580 0,1127 0,0846 -0,6511
1,6 0,1109 0,0781 -0,6441 0,1092 0,0717 -0,6368 0,1074 0,0654 -0,6293 0,1057 0,0591 -0,6216 0,1040 0,0529 -0,6138 0,1023 0,0468 -0,6057 0,1006 0,0408 -0,5975 0,0989 0,0349 -0,5891 0,0973 0,0290 -0,5806 0,0957 0,0233 -0,5720
1,7 0,0940 0,0176 -0,5632 0,0925 0,0120 -0,5542 0,0909 0,0065 -0,5452 0,0893 0,0011 -0,5360 0,0878 -0,0042 -0,5267 0,0863 -0,0094 -0,5173 0,0848 -0,0146 -0,5079 0,0833 -0,0196 -0,4983 0,0818 -0,0245 -0,4886 0,0804 -0,0294 -0,4789
1,8 0,0790 -0,0341 -0,4692 0,0775 -0,0387 -0,4593 0,0761 -0,0433 -0,4494 0,0748 -0,0477 -0,4395 0,0734 -0,0521 -0,4295 0,0721 -0,0563 -0,4195 0,0707 -0,0605 -0,4095 0,0694 -0,0645 -0,3995 0,0681 -0,0685 -0,3894 0,0669 -0,0723 -0,3793
1,9 0,0656 -0,0760 -0,3693 0,0644 -0,0797 -0,3592 0,0632 -0,0832 -0,3492 0,0620 -0,0867 -0,3392 0,0608 -0,0900 -0,3292 0,0596 -0,0933 -0,3192 0,0584 -0,0964 -0,3093 0,0573 -0,0994 -0,2994 0,0562 -0,1024 -0,2895 0,0551 -0,1052 -0,2797
2,0 0,0540 -0,1080 -0,2700 0,0529 -0,1106 -0,2603 0,0519 -0,1132 -0,2506 0,0508 -0,1156 -0,2411 0,0498 -0,1180 -0,2316 0,0488 -0,1203 -0,2222 0,0478 -0,1225 -0,2129 0,0468 -0,1245 -0,2036 0,0459 -0,1265 -0,1945 0,0449 -0,1284 -0,1854

154
2,1 0,0440 -0,1302 -0,1765 0,0431 -0,1320 -0,1676 0,0422 -0,1336 -0,1588 0,0413 -0,1351 -0,1502 0,0404 -0,1366 -0,1416 0,0396 -0,1380 -0,1332 0,0387 -0,1393 -0,1249 0,0379 -0,1405 -0,1167 0,0371 -0,1416 -0,1086 0,0363 -0,1426 -0,1006
2,2 0,0355 -0,1436 -0,0927 0,0347 -0,1445 -0,0850 0,0339 -0,1453 -0,0774 0,0332 -0,1460 -0,0700 0,0325 -0,1467 -0,0626 0,0317 -0,1473 -0,0554 0,0310 -0,1478 -0,0483 0,0303 -0,1483 -0,0414 0,0297 -0,1486 -0,0346 0,0290 -0,1490 -0,0279
2,3 0,0283 -0,1492 -0,0214 0,0277 -0,1494 -0,0150 0,0270 -0,1495 -0,0088 0,0264 -0,1496 -0,0027 0,0258 -0,1496 0,0033 0,0252 -0,1495 0,0092 0,0246 -0,1494 0,0148 0,0241 -0,1492 0,0204 0,0235 -0,1490 0,0258 0,0229 -0,1487 0,0311
2,4 0,0224 -0,1483 0,0362 0,0219 -0,1480 0,0412 0,0213 -0,1475 0,0461 0,0208 -0,1470 0,0508 0,0203 -0,1465 0,0554 0,0198 -0,1459 0,0598 0,0194 -0,1453 0,0641 0,0189 -0,1446 0,0683 0,0184 -0,1439 0,0723 0,0180 -0,1432 0,0762
2,5 0,0175 -0,1424 0,0800 0,0171 -0,1416 0,0836 0,0167 -0,1407 0,0871 0,0163 -0,1399 0,0905 0,0158 -0,1389 0,0937 0,0154 -0,1380 0,0968 0,0151 -0,1370 0,0998 0,0147 -0,1360 0,1027 0,0143 -0,1349 0,1054 0,0139 -0,1339 0,1080
2,6 0,0136 -0,1328 0,1105 0,0132 -0,1317 0,1129 0,0129 -0,1305 0,1152 0,0126 -0,1294 0,1173 0,0122 -0,1282 0,1194 0,0119 -0,1270 0,1213 0,0116 -0,1258 0,1231 0,0113 -0,1245 0,1248 0,0110 -0,1233 0,1264 0,0107 -0,1220 0,1279
2,7 0,0104 -0,1207 0,1293 0,0101 -0,1194 0,1306 0,0099 -0,1181 0,1317 0,0096 -0,1168 0,1328 0,0093 -0,1154 0,1338 0,0091 -0,1141 0,1347 0,0088 -0,1127 0,1355 0,0086 -0,1114 0,1363 0,0084 -0,1100 0,1369 0,0081 -0,1086 0,1375
2,8 0,0079 -0,1073 0,1379 0,0077 -0,1059 0,1383 0,0075 -0,1045 0,1386 0,0073 -0,1031 0,1389 0,0071 -0,1017 0,1390 0,0069 -0,1003 0,1391 0,0067 -0,0989 0,1391 0,0065 -0,0976 0,1391 0,0063 -0,0962 0,1389 0,0061 -0,0948 0,1388
2,9 0,0060 -0,0934 0,1385 0,0058 -0,0920 0,1382 0,0056 -0,0906 0,1378 0,0055 -0,0892 0,1374 0,0053 -0,0879 0,1369 0,0051 -0,0865 0,1364 0,0050 -0,0852 0,1358 0,0048 -0,0838 0,1351 0,0047 -0,0824 0,1345 0,0046 -0,0811 0,1337
3,0 0,0044 -0,0798 0,1330 0,0043 -0,0784 0,1321 0,0042 -0,0771 0,1313 0,0040 -0,0758 0,1304 0,0039 -0,0745 0,1294 0,0038 -0,0732 0,1285 0,0037 -0,0720 0,1275 0,0036 -0,0707 0,1264 0,0035 -0,0694 0,1254 0,0034 -0,0682 0,1243
3,1 0,0033 -0,0669 0,1231 0,0032 -0,0657 0,1220 0,0031 -0,0645 0,1208 0,0030 -0,0633 0,1196 0,0029 -0,0621 0,1184 0,0028 -0,0609 0,1171 0,0027 -0,0598 0,1159 0,0026 -0,0586 0,1146 0,0025 -0,0575 0,1133 0,0025 -0,0563 0,1120
3,2 0,0024 -0,0552 0,1107 0,0023 -0,0541 0,1093 0,0022 -0,0530 0,1080 0,0022 -0,0520 0,1066 0,0021 -0,0509 0,1052 0,0020 -0,0499 0,1039 0,0020 -0,0488 0,1025 0,0019 -0,0478 0,1011 0,0018 -0,0468 0,0997 0,0018 -0,0458 0,0983
3,3 0,0017 -0,0449 0,0969 0,0017 -0,0439 0,0955 0,0016 -0,0429 0,0941 0,0016 -0,0420 0,0927 0,0015 -0,0411 0,0913 0,0015 -0,0402 0,0899 0,0014 -0,0393 0,0885 0,0014 -0,0384 0,0871 0,0013 -0,0375 0,0857 0,0013 -0,0367 0,0843
3,4 0,0012 -0,0359 0,0829 0,0012 -0,0350 0,0815 0,0012 -0,0342 0,0801 0,0011 -0,0334 0,0788 0,0011 -0,0327 0,0774 0,0010 -0,0319 0,0761 0,0010 -0,0311 0,0747 0,0010 -0,0304 0,0734 0,0009 -0,0297 0,0721 0,0009 -0,0290 0,0707
3,5 0,0009 -0,0283 0,0694 0,0008 -0,0276 0,0681 0,0008 -0,0269 0,0669 0,0008 -0,0262 0,0656 0,0008 -0,0256 0,0643 0,0007 -0,0249 0,0631 0,0007 -0,0243 0,0618 0,0007 -0,0237 0,0606 0,0007 -0,0231 0,0594 0,0006 -0,0225 0,0582
3,6 0,0006 -0,0219 0,0570 0,0006 -0,0214 0,0559 0,0006 -0,0208 0,0547 0,0005 -0,0203 0,0536 0,0005 -0,0198 0,0524 0,0005 -0,0192 0,0513 0,0005 -0,0187 0,0502 0,0005 -0,0182 0,0492 0,0005 -0,0177 0,0481 0,0004 -0,0173 0,0470
3,7 0,0004 -0,0168 0,0460 0,0004 -0,0163 0,0450 0,0004 -0,0159 0,0440 0,0004 -0,0155 0,0430 0,0004 -0,0150 0,0420 0,0004 -0,0146 0,0410 0,0003 -0,0142 0,0401 0,0003 -0,0138 0,0392 0,0003 -0,0134 0,0382 0,0003 -0,0131 0,0373
3,8 0,0003 -0,0127 0,0365 0,0003 -0,0123 0,0356 0,0003 -0,0120 0,0347 0,0003 -0,0116 0,0339 0,0003 -0,0113 0,0331 0,0002 -0,0110 0,0323 0,0002 -0,0107 0,0315 0,0002 -0,0103 0,0307 0,0002 -0,0100 0,0299 0,0002 -0,0097 0,0292
3,9 0,0002 -0,0095 0,0284 0,0002 -0,0092 0,0277 0,0002 -0,0089 0,0270 0,0002 -0,0086 0,0263 0,0002 -0,0084 0,0256 0,0002 -0,0081 0,0249 0,0002 -0,0079 0,0243 0,0002 -0,0076 0,0237 0,0001 -0,0074 0,0230 0,0001 -0,0072 0,0224
4,0 0,0001 -0,0070 0,0218 0,0001 -0,0067 0,0212 0,0001 -0,0065 0,0207 0,0001 -0,0063 0,0201 0,0001 -0,0061 0,0195 0,0001 -0,0059 0,0190 0,0001 -0,0058 0,0185 0,0001 -0,0056 0,0180 0,0001 -0,0054 0,0175 0,0001 -0,0052 0,0170

III III IV IV
f(u)=f(-u) f(u) = - f(-u) f(u) =f(-u)
Distribuţia F (Fisher)
ANEXAII
Prag de semnificaţie: 0,05
f pentru
Grade de libertate (f) pentru numărătorul lui F
numitorul
lui F 1 2 3 4 5 6 7 8 9 10 11 12 15 20 25 30 40 50 75 100 200 500 ∞
1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 242,98 243,90 245,95 248,02 249,26 250,10 251,14 251,77 252,62 253,04 253,68 254,06 254,31
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,46 19,46 19,47 19,48 19,48 19,49 19,49 19,49 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,63 8,62 8,59 8,58 8,56 8,55 8,54 8,53 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,77 5,75 5,72 5,70 5,68 5,66 5,65 5,64 5,63
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,52 4,50 4,46 4,44 4,42 4,41 4,39 4,37 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,83 3,81 3,77 3,75 3,73 3,71 3,69 3,68 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,40 3,38 3,34 3,32 3,29 3,27 3,25 3,24 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,11 3,08 3,04 3,02 2,99 2,97 2,95 2,94 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,89 2,86 2,83 2,80 2,77 2,76 2,73 2,72 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,73 2,70 2,66 2,64 2,60 2,59 2,56 2,55 2,54
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,60 2,57 2,53 2,51 2,47 2,46 2,43 2,42 2,40
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,50 2,47 2,43 2,40 2,37 2,35 2,32 2,31 2,30
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,41 2,38 2,34 2,31 2,28 2,26 2,23 2,22 2,21
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,34 2,31 2,27 2,24 2,21 2,19 2,16 2,14 2,13
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,28 2,25 2,20 2,18 2,14 2,12 2,10 2,08 2,07
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,23 2,19 2,15 2,12 2,09 2,07 2,04 2,02 2,01
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,18 2,15 2,10 2,08 2,04 2,02 1,99 1,97 1,96
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,14 2,11 2,06 2,04 2,00 1,98 1,95 1,93 1,92
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,11 2,07 2,03 2,00 1,96 1,94 1,91 1,89 1,88
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,07 2,04 1,99 1,97 1,93 1,91 1,88 1,86 1,84
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,18 2,10 2,05 2,01 1,96 1,94 1,90 1,88 1,84 1,83 1,81
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,15 2,07 2,02 1,98 1,94 1,91 1,87 1,85 1,82 1,80 1,78
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,13 2,05 2,00 1,96 1,91 1,88 1,84 1,82 1,79 1,77 1,76

155
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,11 2,03 1,97 1,94 1,89 1,86 1,82 1,80 1,77 1,75 1,73
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,09 2,01 1,96 1,92 1,87 1,84 1,80 1,78 1,75 1,73 1,71
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,07 1,99 1,94 1,90 1,85 1,82 1,78 1,76 1,73 1,71 1,69
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,06 1,97 1,92 1,88 1,84 1,81 1,76 1,74 1,71 1,69 1,67
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,04 1,96 1,91 1,87 1,82 1,79 1,75 1,73 1,69 1,67 1,65
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,03 1,94 1,89 1,85 1,81 1,77 1,73 1,71 1,67 1,65 1,64
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,88 1,84 1,79 1,76 1,72 1,70 1,66 1,64 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,78 1,74 1,69 1,66 1,61 1,59 1,55 1,53 1,51
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,73 1,69 1,63 1,60 1,55 1,52 1,48 1,46 1,44
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,69 1,65 1,59 1,56 1,51 1,48 1,44 1,41 1,39
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,93 1,89 1,81 1,72 1,66 1,62 1,57 1,53 1,48 1,45 1,40 1,37 1,35
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,91 1,88 1,79 1,70 1,64 1,60 1,54 1,51 1,45 1,43 1,38 1,35 1,32
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,90 1,86 1,78 1,69 1,63 1,59 1,53 1,49 1,44 1,41 1,36 1,33 1,30
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,89 1,85 1,77 1,68 1,62 1,57 1,52 1,48 1,42 1,39 1,34 1,31 1,28
110 3,93 3,08 2,69 2,45 2,30 2,18 2,09 2,02 1,97 1,92 1,88 1,84 1,76 1,67 1,61 1,56 1,50 1,47 1,41 1,38 1,33 1,29 1,27
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,60 1,55 1,50 1,46 1,40 1,37 1,32 1,28 1,25
130 3,91 3,07 2,67 2,44 2,28 2,17 2,08 2,01 1,95 1,90 1,86 1,83 1,74 1,65 1,59 1,55 1,49 1,45 1,39 1,36 1,31 1,27 1,24
140 3,91 3,06 2,67 2,44 2,28 2,16 2,08 2,01 1,95 1,90 1,86 1,82 1,74 1,65 1,58 1,54 1,48 1,44 1,38 1,35 1,30 1,26 1,23
150 3,90 3,06 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,82 1,73 1,64 1,58 1,54 1,48 1,44 1,38 1,34 1,29 1,25 1,22
160 3,90 3,05 2,66 2,43 2,27 2,16 2,07 2,00 1,94 1,89 1,85 1,81 1,73 1,64 1,57 1,53 1,47 1,43 1,37 1,34 1,28 1,24 1,21
170 3,90 3,05 2,66 2,42 2,27 2,15 2,06 1,99 1,94 1,89 1,85 1,81 1,73 1,63 1,57 1,53 1,47 1,43 1,37 1,33 1,28 1,24 1,21
180 3,89 3,05 2,65 2,42 2,26 2,15 2,06 1,99 1,93 1,88 1,84 1,81 1,72 1,63 1,57 1,52 1,46 1,42 1,36 1,33 1,27 1,23 1,20
190 3,89 3,04 2,65 2,42 2,26 2,15 2,06 1,99 1,93 1,88 1,84 1,80 1,72 1,63 1,56 1,52 1,46 1,42 1,36 1,32 1,27 1,23 1,19
200 3,89 3,04 2,65 2,42 2,26 2,14 2,06 1,98 1,93 1,88 1,84 1,80 1,72 1,62 1,56 1,52 1,46 1,41 1,35 1,32 1,26 1,22 1,19
400 3,86 3,02 2,63 2,39 2,24 2,12 2,03 1,96 1,90 1,85 1,81 1,78 1,69 1,60 1,53 1,49 1,42 1,38 1,32 1,28 1,22 1,17 1,13
600 3,86 3,01 2,62 2,39 2,23 2,11 2,02 1,95 1,90 1,85 1,80 1,77 1,68 1,59 1,52 1,48 1,41 1,37 1,31 1,27 1,20 1,15 1,10
800 3,85 3,01 2,62 2,38 2,23 2,11 2,02 1,95 1,89 1,84 1,80 1,76 1,68 1,58 1,52 1,47 1,41 1,37 1,30 1,26 1,20 1,14 1,09
1000 3,85 3,00 2,61 2,38 2,22 2,11 2,02 1,95 1,89 1,84 1,80 1,76 1,68 1,58 1,52 1,47 1,41 1,36 1,30 1,26 1,19 1,13 1,08
∞ 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,51 1,46 1,39 1,35 1,28 1,24 1,17 1,11
Distribuţia t (Student) ANEXAIII
Grade de Prag de semnificaţie (test bilateral)
libertate (f) 0,10% 0,50% 1,00% 2,50% 5,00% 10,00% 20,00%
1 636,578 127,321 63,656 25,452 12,706 6,314 3,078
2 31,600 14,089 9,925 6,205 4,303 2,920 1,886
3 12,924 7,453 5,841 4,177 3,182 2,353 1,638
4 8,610 5,598 4,604 3,495 2,776 2,132 1,533
5 6,869 4,773 4,032 3,163 2,571 2,015 1,476
6 5,959 4,317 3,707 2,969 2,447 1,943 1,440
7 5,408 4,029 3,499 2,841 2,365 1,895 1,415
8 5,041 3,833 3,355 2,752 2,306 1,860 1,397
9 4,781 3,690 3,250 2,685 2,262 1,833 1,383
10 4,587 3,581 3,169 2,634 2,228 1,812 1,372
11 4,437 3,497 3,106 2,593 2,201 1,796 1,363
12 4,318 3,428 3,055 2,560 2,179 1,782 1,356
13 4,221 3,372 3,012 2,533 2,160 1,771 1,350
14 4,140 3,326 2,977 2,510 2,145 1,761 1,345
15 4,073 3,286 2,947 2,490 2,131 1,753 1,341
16 4,015 3,252 2,921 2,473 2,120 1,746 1,337
17 3,965 3,222 2,898 2,458 2,110 1,740 1,333
18 3,922 3,197 2,878 2,445 2,101 1,734 1,330
19 3,883 3,174 2,861 2,433 2,093 1,729 1,328
20 3,850 3,153 2,845 2,423 2,086 1,725 1,325
21 3,819 3,135 2,831 2,414 2,080 1,721 1,323
22 3,792 3,119 2,819 2,405 2,074 1,717 1,321
23 3,768 3,104 2,807 2,398 2,069 1,714 1,319
24 3,745 3,091 2,797 2,391 2,064 1,711 1,318
25 3,725 3,078 2,787 2,385 2,060 1,708 1,316
26 3,707 3,067 2,779 2,379 2,056 1,706 1,315
27 3,689 3,057 2,771 2,373 2,052 1,703 1,314
28 3,674 3,047 2,763 2,368 2,048 1,701 1,313
29 3,660 3,038 2,756 2,364 2,045 1,699 1,311
30 3,646 3,030 2,750 2,360 2,042 1,697 1,310
35 3,591 2,996 2,724 2,342 2,030 1,690 1,306
40 3,551 2,971 2,704 2,329 2,021 1,684 1,303
45 3,520 2,952 2,690 2,319 2,014 1,679 1,301
50 3,496 2,937 2,678 2,311 2,009 1,676 1,299
55 3,476 2,925 2,668 2,304 2,004 1,673 1,297
60 3,460 2,915 2,660 2,299 2,000 1,671 1,296
70 3,435 2,899 2,648 2,291 1,994 1,667 1,294
80 3,416 2,887 2,639 2,284 1,990 1,664 1,292
90 3,402 2,878 2,632 2,280 1,987 1,662 1,291
100 3,390 2,871 2,626 2,276 1,984 1,660 1,290
110 3,381 2,865 2,621 2,272 1,982 1,659 1,289
120 3,373 2,860 2,617 2,270 1,980 1,658 1,289
130 3,367 2,856 2,614 2,268 1,978 1,657 1,288
140 3,361 2,852 2,611 2,266 1,977 1,656 1,288
150 3,357 2,849 2,609 2,264 1,976 1,655 1,287
160 3,352 2,847 2,607 2,263 1,975 1,654 1,287
170 3,349 2,844 2,605 2,261 1,974 1,654 1,287
180 3,345 2,842 2,603 2,260 1,973 1,653 1,286
190 3,342 2,840 2,602 2,259 1,973 1,653 1,286
200 3,340 2,838 2,601 2,258 1,972 1,653 1,286
400 3,315 2,823 2,588 2,250 1,966 1,649 1,284
600 3,307 2,817 2,584 2,247 1,964 1,647 1,283
800 3,303 2,815 2,582 2,246 1,963 1,647 1,283
1000 3,300 2,813 2,581 2,245 1,962 1,646 1,282
∞ 3,290 2,807 2,576 2,241 1,960 1,645 1,282
0,05% 0,10% 0,50% 1,00% 2,50% 5,00% 10,00%
f
Prag de semnificaţie (test unilateral)

156
Distribuţia χ2 ANEXAIV
Grade de Pragul de semnificaţie
libertate 1% 3% 5% 10% 20%
1 6,635 5,024 3,841 2,706 1,642
2 9,210 7,378 5,991 4,605 3,219
3 11,345 9,348 7,815 6,251 4,642
4 13,277 11,143 9,488 7,779 5,989
5 15,086 12,832 11,070 9,236 7,289
6 16,812 14,449 12,592 10,645 8,558
7 18,475 16,013 14,067 12,017 9,803
8 20,090 17,535 15,507 13,362 11,030
9 21,666 19,023 16,919 14,684 12,242
10 23,209 20,483 18,307 15,987 13,442
11 24,725 21,920 19,675 17,275 14,631
12 26,217 23,337 21,026 18,549 15,812
13 27,688 24,736 22,362 19,812 16,985
14 29,141 26,119 23,685 21,064 18,151
15 30,578 27,488 24,996 22,307 19,311
16 32,000 28,845 26,296 23,542 20,465
17 33,409 30,191 27,587 24,769 21,615
18 34,805 31,526 28,869 25,989 22,760
19 36,191 32,852 30,144 27,204 23,900
20 37,566 34,170 31,410 28,412 25,038
21 38,932 35,479 32,671 29,615 26,171
22 40,289 36,781 33,924 30,813 27,301
23 41,638 38,076 35,172 32,007 28,429
24 42,980 39,364 36,415 33,196 29,553
25 44,314 40,646 37,652 34,382 30,675
26 45,642 41,923 38,885 35,563 31,795
27 46,963 43,195 40,113 36,741 32,912
28 48,278 44,461 41,337 37,916 34,027
29 49,588 45,722 42,557 39,087 35,139
30 50,892 46,979 43,773 40,256 36,250
40 63,691 59,342 55,758 51,805 47,269
50 76,154 71,420 67,505 63,167 58,164
60 88,379 83,298 79,082 74,397 68,972
70 100,425 95,023 90,531 85,527 79,715
80 112,329 106,629 101,879 96,578 90,405
90 124,116 118,136 113,145 107,565 101,054
100 135,807 129,561 124,342 118,498 111,667

157
Valori limită semnificative ale coeficientului de corelaţie ANEXAV
Grade de Prag de semnificaţie (test bilateral)
libertate (f) 0,10% 0,50% 1,00% 2,50% 5,00% 10,00% 20,00%
1 1,000 1,000 1,000 0,999 0,997 0,988 0,951
2 0,999 0,995 0,990 0,975 0,950 0,900 0,800
3 0,991 0,974 0,959 0,924 0,878 0,805 0,687
4 0,974 0,942 0,917 0,868 0,811 0,729 0,608
5 0,951 0,906 0,875 0,817 0,754 0,669 0,551
6 0,925 0,870 0,834 0,771 0,707 0,621 0,507
7 0,898 0,836 0,798 0,732 0,666 0,582 0,472
8 0,872 0,805 0,765 0,697 0,632 0,549 0,443
9 0,847 0,776 0,735 0,667 0,602 0,521 0,419
10 0,823 0,750 0,708 0,640 0,576 0,497 0,398
11 0,801 0,726 0,684 0,616 0,553 0,476 0,380
12 0,780 0,703 0,661 0,594 0,532 0,458 0,365
13 0,760 0,683 0,641 0,575 0,514 0,441 0,351
14 0,742 0,664 0,623 0,557 0,497 0,426 0,338
15 0,725 0,647 0,606 0,541 0,482 0,412 0,327
16 0,708 0,631 0,590 0,526 0,468 0,400 0,317
17 0,693 0,616 0,575 0,512 0,456 0,389 0,308
18 0,679 0,602 0,561 0,499 0,444 0,378 0,299
19 0,665 0,589 0,549 0,487 0,433 0,369 0,291
20 0,652 0,576 0,537 0,476 0,423 0,360 0,284
21 0,640 0,565 0,526 0,466 0,413 0,352 0,277
22 0,629 0,554 0,515 0,456 0,404 0,344 0,271
23 0,618 0,543 0,505 0,447 0,396 0,337 0,265
24 0,607 0,534 0,496 0,439 0,388 0,330 0,260
25 0,597 0,524 0,487 0,430 0,381 0,323 0,255
26 0,588 0,515 0,479 0,423 0,374 0,317 0,250
27 0,579 0,507 0,471 0,415 0,367 0,311 0,245
28 0,570 0,499 0,463 0,409 0,361 0,306 0,241
29 0,562 0,491 0,456 0,402 0,355 0,301 0,237
30 0,554 0,484 0,449 0,396 0,349 0,296 0,233
35 0,519 0,452 0,418 0,368 0,325 0,275 0,216
40 0,490 0,425 0,393 0,346 0,304 0,257 0,202
45 0,465 0,403 0,372 0,327 0,288 0,243 0,190
50 0,443 0,384 0,354 0,311 0,273 0,231 0,181
55 0,424 0,367 0,339 0,297 0,261 0,220 0,172
60 0,408 0,352 0,325 0,285 0,250 0,211 0,165
70 0,380 0,327 0,302 0,264 0,232 0,195 0,153
80 0,357 0,307 0,283 0,247 0,217 0,183 0,143
90 0,338 0,290 0,267 0,234 0,205 0,173 0,135
100 0,321 0,276 0,254 0,222 0,195 0,164 0,128
110 0,307 0,263 0,242 0,212 0,186 0,156 0,122
120 0,294 0,253 0,232 0,203 0,178 0,150 0,117
130 0,283 0,243 0,223 0,195 0,171 0,144 0,112
140 0,273 0,234 0,216 0,188 0,165 0,139 0,108
150 0,264 0,227 0,208 0,182 0,159 0,134 0,105
160 0,256 0,220 0,202 0,176 0,154 0,130 0,101
170 0,249 0,213 0,196 0,171 0,150 0,126 0,098
180 0,242 0,207 0,190 0,166 0,146 0,122 0,095
190 0,236 0,202 0,185 0,162 0,142 0,119 0,093
200 0,230 0,197 0,181 0,158 0,138 0,116 0,091
400 0,164 0,140 0,128 0,112 0,098 0,082 0,064
600 0,134 0,114 0,105 0,091 0,080 0,067 0,052
800 0,116 0,099 0,091 0,079 0,069 0,058 0,045
1000 0,104 0,089 0,081 0,071 0,062 0,052 0,041
5000 0,047 0,040 0,036 0,032 0,028 0,023 0,018

158

S-ar putea să vă placă și