Sunteți pe pagina 1din 72

STATISTICĂ ÎN ECOLOGIE

1. Obiectul disciplinei

Prezentarea, cunoaşterea şi însuşirea metodelor statistice utilizate în prelucrarea


datelor experimentale.

2. Desfăşurarea disciplinei

Curs 2 ore / săptămână


Laborator 2 ore / săptămână

3. Programa analitică a cursului

3.1 Elemente de probabilităţi

 Introducere. Definiţia clasică a


probabilităţii----------------------------------2 ore
 Formule şi scheme clasice de
probabilitate------------------------------------2 ore
 Variabile
aleatoare----------------------------------------------------------------2 ore
 Repartiţii clasice
discrete---------------------------------------------------------2 ore
 Repartiţii clasice
continue--------------------------------------------------------4 ore
 Legea numerelor
mari-------------------------------------------------------------2 ore

3.2 Elemente de statistică

 Populaţie
statistică-----------------------------------------------------------------2 ore
 Reprezentarea datelor
statistice--------------------------------------------------2 ore
 Corelaţie şi
regresie---------------------------------------------------------------2 ore

1
 Teoria
selecţiei---------------------------------------------------------------------2 ore
 Ipoteze
statistice-------------------------------------------------------------------2 ore
 Teste
statistice---------------------------------------------------------------------4 ore

4. Tematica laboratorului

 Microsoft
Word--------------------------------------------------------------------2 ore
 Microsoft
Excel--------------------------------------------------------------------4 ore
 Microsoft Power
Point------------------------------------------------------------2 ore
 Formule şi scheme clasice de
probabilitate------------------------------------2 ore
 Repartiţii clasice
discrete---------------------------------------------------------2 ore
 Repartiţii clasice
continue--------------------------------------------------------4 ore
 Reprezentarea datelor
statistice--------------------------------------------------2 ore
 Corelaţie şi
regresie---------------------------------------------------------------2 ore
 Teoria selecţiei.
Aplicaţii---------------------------------------------------------2 ore
 Ipoteze
statistice-------------------------------------------------------------------2 ore
 Teste statistice.
Aplicaţii---------------------------------------------------------4 ore

5. Bibliografie

 Mihoc Gh., Micu N., Teoria Probabilităţilor şi Statistică Matematică,


Editura Didactică şi Pedagogică, Bucureşti, 1980.
 Ciucu G., Craiu V., Introducere în Teoria Probabilităţilor şi Statistică
Matematică, Editura Didactică şi Pedagogică, Bucureşti, 1971.
 Obreja G., Gheorghe Fl., Teste Statistice de Volum Mic, Editura
Universităţii din Piteşti, 1999.

2
 Drăghicescu I., Probabilităţi – Statistică – Investigaţie, Editura I.N.I.,
Bucureşti, 2000.
 Gotelli N., Ellison A., A Primer of Ecological Statistics, Sinauer
Associates, Inc. Publishers Sunderland, Massachusetts U.S.A., 2004.

6. Evaluare

Prezenţă la curs-----------------------------------------------------------------------------10%
Prezenţă şi activitate la laborator--------------------------------------------------------20%
Verificare pe parcurs----------------------------------------------------------------------20%
Temă de casă – proiect-------------------------------------------------------------------20%
Examen final-------------------------------------------------------------------------------30%

Cursul nr. 1 Statistică în ecologie

Introducere. Generalităţi

Statistica matematică este una din ramurile moderne ale matematicii care se
ocupă cu gruparea, analiza şi interpretarea datelor referitoare la anumite
fenomene, precum şi cu unele previziuni privind producerea lor viitoare.
Utilizarea statisticii matematice este foarte importantă în dezvoltarea unor
metode ştiinţifice adecvate de analiză şi decizie asupra unor situaţii despre care
avem date obţinute fie prin observare, fie prin măsurare.
Ideea de bază a statisticii este aceea a prelungirii (extrapolării) concluziilor trase
din materialul investigat (de obicei limitat) asupra colectivităţii generale din care
a provenit materialul.
Analiza şi decizia se bazează pe datele experimentale obţinute fie prin observare,
fie prin măsurare.

3
Un fenomen de masă nu poate fi cunoscut, în ansamblul său, cercetând fiecare
element al acestuia. De obicei, se extrag un anumit număr de elemente pentru a fi
cercetate, utilizând apoi metode adecvate de obţinere a informaţiilor necesare.
Partea extrasă dintr-un întreg trebuie să fie o „copie micşorată” a întregului, în
sensul conservării la un anumit nivel al proprietăţilor de bază ale acestuia, cu
anumite toleranţe. Aceasta este inferenţa statistică.
Statistica – deşi este privită ca metodă de investigare a unor mari mulţimi de date
– este esenţială tocmai în acele situaţii în care din mulţimea respectivă nu se pot
obţine decât puţine elemente observate.
Statistica operează cu eşantioane extrase aleator din populaţiile supuse
investigării, cu scopul de a modela comportarea unei anumite caracteristici a
populaţiei respective.
Statistica matematică este fundamentată de teoria probabilităţilor.
Teoria probabilităţilor a apărut şi s-a dezvoltat din necesităţi practice.
Cronologic, teoria probabilităţilor nu este nici dintre cele mai vechi şi nici dintre
cele mai noi teorii matematice.
Desigur, jocurile de noroc se practică de mii de ani, dar evaluarea şanselor de
câştig ale unui jucător într-un anumit moment al jocului s-a făcut multă vreme
mai târziu sau sau pe baza experienţei acumulate la masa de joc.
Dezvoltarea jocurilor de noroc, diversificarea şi complexitatea lor au creat tot
mai multe probleme de evaluarea şanselor, probleme a căror rezolvare depăşea
capacitatea de a raţiona a jucătorilor, atrăgând atenţia unor mari matematicieni ca
Pascal, Fermat, Bernoulli şi alţii.
În anul 1654, cavalerul de Mere, om de spirit şi amator de jocuri de noroc, s-a
adresat lui lui Pascal.
În acea perioadă se practica un joc mult mai vechi în care banca paria la mize
egale, cu orice jucător că acesta va obţine cel puţin o dată faţa cu şase puncte în
patru aruncări ale unui zar.
Cavalerul de Mere a observat din propia sa experienţă că sunt mai multe şanse de
câştig dacă se pariază ca din patru aruncări să apară cel puţin una cu şase puncte,
decât dacă se pariază ca din 24 aruncări a două zaruri să apară cel puţin o dată
dubla de şase.
De Mere a constatat că într-o serie lungă de pariuri de acest fel, în primul caz
frecvenţa de câştig este mai mare decât ½, deci numărul jocurilor câştigate este
mai mare decât numărul jocurilor pierdute, rezultatul fiind un câştig pentru
jucător, în timp ce în al dolea caz, rezultatul final este o pierdere pentru jucător.
De Mere a constatat că această observaţie contrazice calculul matematic,
deoarece 4 faţă de 6 (numărul cazurilor posibile când se aruncă un zar) este în
acelaşi raport cu 24 faţă de 36 (numărul cazurilor posibile când se aruncă două
zaruri) şi deci şansele de câştig în ambele cazuri ar trebui să fie egale.
De Mere a pus această problemă lui Pascal (1632 – 1664), care a rezolvat-o
introducând definiţia probabilităţii unui eveniment. Prima probabilitate este mai

4
mare decât ½, în timp ce a doua este mai mică decât ½, ceea ce corespunde exact
cu constatarea lui De Mere. Prima probabilitate este mai mare decât ½, în timp ce
a doua este mai mică decât ½, ceea ce corespunde cu constatarea lui De Mere.
Fie A evenimentul ca aruncând de 4 ori un zar să obţinem cel puţin o dată 6
puncte.
Fie B evenimentul ca aruncând de 24 ori două zaruri să apară cel puţin o dată
dubla şase.
La fiecare aruncare a două zaruri sunt 36 de cazuri posibile. În cele 24 de
aruncări avem (36)24 cazuri posibile.
La fiecare aruncare a celor două zaruri sunt 35 de cazuri din cele 36 posibile în
care nu apare dubla de şase, iar în cele 24 de aruncări avem (35)24.
Probabilitatea ca aruncând de 24 de ori două zaruri să nu apară dubla de şase de
(35/36)24.
Atunci, avem:

P(B)=1 – (35/36)24 = 0,4914... , P(A)=1 – (5/6) 4 =


0,5177...

O altă problemă pe care cavalerul De Mere a pus-o celebrului matematician


Blaise Pascal era o problemă cunoscută mai demult cunoscută şi care stârnise
multe controverse: problema împărţirii mizei în cazul în care un joc se întrerupe,
din motive obiective, înainte de sfârşitul său. În funcţie de situaţia existentă în
momentul întreruperii ?
Pascal a precizat că pentru ca împărţirea să fie echitabilă, partea care revine
fiecărui jucător trebuie să fie proporţională cu probabilitatea ca să fi câştigat
jocul dacă acesta ar fi fost dus până la capăt.
La puţin timp după aceasta, Pascal a început să corespondeze în legătură cu
aceste probleme, cu un alt mare matematician al timpului, Pierre Fermat (1601 –
1665).
O dată stârnit interesul de lucrările lui Pascal şi Fermat, teoria probabilităţilor
cunoaşte o dezvoltare rapidă.
Menţionăm lucrările lui Bernoulli (1654 – 1705) care dă prima formă a legii
numerelor mari, generalizată mai târziu de Poisson, Borel, Kolmogorov.
Moivre (1667 – 1754) începe primele observaţii asupra legii normale, care va fi
studiată ulterior temeinic de Gauss (1777 – 1885).
Prin lucrările lui Laplace (1749 – 1829) teoria probabilităţilor ia o mare
răspândire.
Urmează o nouă perioadă de dezvoltare dominată de lucrările lui Cebâşev (1821
– 1894), Leapunov (1857 – 1918), Markov (1856 – 1922) care au constituit o
contribuţie importantă.
Perioada modernă începe cu axiomatizarea acestei discipline de către A. N.
Kolmogorov.

5
6
Definiţia clasică a probabilităţii

1.1 Câmp de evenimente

Definiţie. Se numeşte experienţă în teoria probabilităţilor, orice act care poate fi repetat în
condiţii date.
Definiţie. Se numeşte experienţă aleatoare orice experienţă care fiind repetată în aceleaşi
condiţii conduce la rezultate diferite.
Definiţie. Se numeşte probă, rezultatul unei experienţe aleatoare.
Probele unei experienţe se mai numesc şi cazuri posibile ale experienţei.
Definiţie. Se numeşte eveniment, orice situaţie legată de o experienţă, despre care putem
spune că s-a produs sau nu, după efectuarea experienţei.
Prin eveniment se întelege realizarea sau nerealizarea unei probe (de exemplu, obţinerea
feţei cu numărul 3 la aruncarea unui zar constitue un eveniment).
Definiţie. Se numeşte eveniment aleator, un rezultat posibil al unei experienţe aleatoare.
Exemplu. Să considerăm experienţa aruncării unui zar şi să presupunem că ne punem
întrebarea dacă vom obţine o faţă cu un număr par de puncte. În acest caz, experienţa
constă în aruncarea zarului, proba este rezultatul care se obţine la sfârşitul experienţei, iar
evenimentul care ne interesează constă în apariţia unui număr par de puncte.
Evenimentul se realizează dacă se obţine una din probele 2,4,6 şi nu se realizează în caz
contrar. De aici rezultă că evenimentul se poate realize în trei probe.
Dacă în cazul aceleiaşi experienţe ne interesează apariţia feţei cu un punct, suntem în
prezenţa unui eveniment care se poate realiza printr-o singură probă.
Definiţie. Evenimentul care poate fi realizat printr o singură probă, se numeşte eveniment
elementar.
Definiţie. Evenimentul care poate fi realizat prin două sau mai multe probe se numeşte
eveniment compus.
Definiţie. Se numeşte spaţiu de selecţie, mulţimea evenimentelor elementare asociate
experienţei respective.
Definiţie. Se numeşte eveniment sigur, notat cu Ω, evenimentul care se realizează cu
certitudine la fiecare efectuare a experienţei.
Definiţie. Se numeşte eveniment imposibil, notat cu Ø, evenimentul care nu se realizează
la nici o efectuare a experienţei.
Exemple. La aruncarea unuizar, apariţia uneia din feţele 1,2,3,4,5,6
este evenimentul sigur.
Extragerea unei bile de culoare albă dintr-o urnă cu bile negre este evenimentul
imposibil.
Definiţie. Se numeşte evenimentul contrar evenimentului A şi se notează cu A ,
evenimentul a cărui realizare constă în nerealizarea lui A .
Exemplu. Fie o urnă cu bile albe şi negre. Dacă notăm cu A evenimentul care constă
în extragerea unei bile albe, A este evenimentul care constă în extragerea unei bile
negre. Realizarea unuia este echivalentă cu nerealizarea celuilalt.
Evenimentul sigur constă în nerealizarea evenimentului imposibil şi reciproc.

7
A =A , Ω= A∪A , Ω= Φ

Definiţie. Două evenimente se numesc compatibile dacă se pot realiza


simultan, ceea ce înseamnă există cel puţin un rezultat care favorizează pe
fiecare din aceste evenimente. În caz contrar se numesc incompatibile.
Exemplu. Să considerăm experienţa aruncării unui zar şi să notăm cu A
evenimentul care constă în apariţia feţei cu 1, 2, 3 puncte, iar cu B
evenimentul care constă în apariţia uneia din feţele 2, 3, 5. Evenimentele A
şi B sunt compatibile, deoarece dacă vom obţine ca rezultat al experienţei
faţa 2 sau 3, înseamnă că s-au realizat ambele evenimente.
Observaţie. Evenimentele contrare sunt incompatibile.
În general, un număr finit de evenimente A1 , A2 ,....., An sunt compatibile
dacă se pot realiza simultan, ceea ce înseamnă că există o probă care realizează
fiecare din aceste evenimente. În caz contrar, evenimentele A1 , A2 ,....., An
sunt incompatibile.
Observaţie. Dacă evenimentele A1 , A2 ,....., An sunt compatibile două câte
două, nu înseamnă că ele sunt compatibile în totalitatea lor.
Exemplu. Considerăm experienţa aruncării unui zar cu următoarele
evenimente : A1 apariţia feţei cu un sau 2 puncte, A2 apariţia feţei cu 2 sau
3 puncte, A3 apariţia feţei cu 3 sau 4 puncte. A1 este compatibil cu A2 ,
A2 este comatibil cu A3 , dar nu sunt compatibile în totalitatea lor.
Definiţie. Se spune că evenimentul A implică evenimentul B , dacă B se
realizează de fiecare dată când se realizează A . Se notează A ⊂ B .
Exemplu. Considerăm experienţa aruncării unui zar şi notăm cu A
evenimentul care constă în apariţia feţelor cu 2 sau 4 puncte, iar cu B
evenimentul care constă în apariţia feţei cu un număr par de puncte. În acest
caz A implică B .
Observaţie. Dacă A implică B şi B implică A , atunci A = B .
Orice eveniment implică evenimentul sigur.
Evenimentul imposibil implică orice eveniment.
Evenimentele pot fi reprezentate ca mulţimi, ceea ce înseamnă că atunci când
ne fixăm atenţia asupra unui eveniment, este vorba despre o parte din
mulţimea probelor experienţei.
Considerând experienţa aruncării unui zar şi notând A cu evenimentul care
constă în apariţia feţelor cu 1,2 sau 5 puncte, identificăm acest eveniment cu
mulţimea probelor care îl realizează :
A = {1,2,5}
Evenimentul A este o submulţime a mulţimii {1,2,3,4,5,6} probelor ataşate
experienţei.

Operaţii cu evenimente.
Reuniunea. Fiind date două evenimente A şi B , numim reuniunea lor,
evenimentul care se realizează atunci când cel puţin unul din evenimentele A
, B se realizează. Notăm: A ∪ B .
8
Intersecţa. Fiind date două evenimente A şi B , numim intersecţia lor,
evenimentul care se realizează atunci când evenimentele A , B se realizează
simultan. Notăm: A ∩ B .
Observaţie. Două evenimente A , B sunt incompatibile dacă A ∩ B = Φ .
Observaţie. Operaţiile de reuniune şi intersecţie se extind pentru orice număr
finit de evenimente.
Fiind date n evenimente A1 , A2 ,...., An putem scrie:

n n

 A = A ∪ A ∪ ....∪ A
i=1
i 1 2 n , A = A ∩ A ∩ ....∩ A
i=1
i 1 2 n

Diferenţa. Numim diferenţa evenimentelor A şi B , evenimentul care constă



în realizarea lui A şi nerealizarea lui B . Notăm: .
A\ B = A ∩ B
Fie E mulţimea tuturor evenimentelor elementare corespunzătoare unei
experienţe.
Definiţie. Se numeşte câmp de evenimente, perechea {E , K } , unde E este
evenimentul sigur, iar K este familia tuturor submulţimilor lui E , care
satisface proprietăţile :
1) ∀A ⊂ E , A ∈K , atunci A ∈ K
n
2) Dacă Ai ∈ K ,1 ≤ i ≤ n , atunci  Ai ∈ K
i =1

3) Φ ∈ K .
Observaţie. Un câmp de evenimente este format din mulţimea tuturor
submulţimilor lui E , la care se adaugă E şi Φ .
Din definiţia de mai sus derivă câteva proprietăţi ale câmpului de evenimente
{E , K } , astfel :
1) E ∈ K
n n
2) Fiind date Ai ,1 ≤ i ≤ n,  Ai ,  Ai verifică legile lui De Morgan.
i =1 i =1
n
3) Dacă Ai ∈ K ,1 ≤ i ≤ n atunci  Ai ∈ K .
i =1

4) Fiind date A, B ∈K , atunci


A ∪ A = A, A ∩ A = A, A ∪ B = B ∪ A, A ∩ B = B ∩ A , iar relaţiile
A ⊂ B , A ⊃ B , A ∪B = B , A ∩B = A sunt echivalente.
5) Fiind date A, B ∈K atunci A ∩ B ⊂ A ⊂ A ∪ B
6) A = A, ∀A ∈K
7) Φ ∪ A = A, Φ ∩ A = Φ, ∀A ∈ K
8) Fiind date A, B, C ∈K au loc relaţiile :
A ∩ ( B ∩ C ) = ( A ∩ B ) ∩C
A ∪ ( B ∪ C ) = ( A ∪ B ) ∪C
A ∩ ( B ∪C ) = ( A ∩ B) ∪ ( A ∩C )
A ∪ ( B ∩C ) = ( A ∪ B) ∩ ( A ∪C )

9
9) Fiind date A, B ∈K au loc relaţiile :
A ∪ B = A ∪( B ∩ A ), B = ( A ∩ B ) ∪( A ∩ B )
10) Fiind date A, B ∈K , relaţiile A ∩B = Φ, A ⊂ B , B ⊂ A sunt
echivalente.
Fie o experienţăcu n evenimente egal posibile (evenimentele considerate au
aceeaşi şansă de a se realiza) şi A un eveniment oarecare ataşat experienţei,
care se poate realiza prin n probe, m ≤ n .
Definiţie. Se numeşte frecveţa (probabilitatea) evenimentului A , notată cu
P ( A) , numărul :

m nr. cazuri favorabile


P ( A) = =
n nr. cazuri posibile
Numărul P ( A) reprezintă definiţia clasică a probabilităţii şi are următoarele
proprietăţi:
1) 0 ≤ P( A) ≤1
2) P(Φ) = 0, P ( E ) =1
3) Dacă A ∩ B = Φ atunci P( A ∪ B) = P( A) + P( B)
4) P( A ) =1 −P ( A)
5) P( A ∪ B) = P( A) + P( B ) − P( A ∩ B)

Generalizare (formula lui Poincaré sau principiul includerii-excluderii):


n n n

P(A1 ∪ … ∪ An) = ∑P ( Ai ) – i∑, j=1P( Ai ∩ A j ) + i,∑j,k= P1 ( Ai ∩ Aj ∩ Ak ) –….


i =1 i< j i< j < k

+ (-1)n P(A1 ∩ …∩ An).

6) P(B \ A) = P(B) − P( A ∩ B)
Dacă A ⊂ B, P(B \ A) = P(B) − P(A)
Definiţie. Tripletul {E , K , P} se numeşte camp finit de probabilitate.
Observaţie. Dacă A1 , A2 ,....., An sunt evenimente incompatibile, atunci

P ( A1 ∪ A2 ∪.... An ) = P ( A1 ) + P ( A2 ) + ..... + P ( An )

2. Definiţia axiomatică a probabilităţii

Definiţia clasică a probabilităţii poate fi acceptată numai în cazul când


numărul cazurilor posibile este finit. Dacă numărul evenimentelor elementare
10
este infinit (Card E = ∞ ), atunci există evenimente pentru care probabilitatea
în sensul clasic nu are nici un înţeles. Din acest motiv, Kolmogoroff a introdus
teoria axiomatică a probabilităţii.
Definiţie. Fiind dată o mulţime E , o familie K de submulţimi (numite
evenimente) ale lui E , se numeşte câmp borelian sau σ - câmp, dacă :
1) E ∈ K
2) Pentru orice A ∈ K şi A ∈ K
3) Dacă { Aα }, Aα ∈ K , α ∈ N * este o familie numărabilă de evenimente

atunci A α ∈K .
α =1
De aici se desprind următoarele consecinţe :
n
1) Dacă Ai ∈ K ,1 ≤ i ≤ n , atunci  Ai ∈ K
i =1

2) Φ∈K

3) Dacă { Aα }, α ∈ N , Aα ∈ K
*
atunci A α ∈K .
α =1
Observaţie. Proprietăţile 1-10 ale câmpului finit de evenimente sunt valabile şi
în cazul câmpului borelian.
Definiţie. Fiind dat un σ -câmp K , se numeşte probabilitate funcţia P : K →
R, cu următoarele proprietăţi :
1) P ( A) ≥ 0 pentru orice A ∈ K
2) Dacă { Aα }, Aα ∈ K este o familie numărabilă de evenimente distincte
∞ ∞
( Ai ∩ A j = Φ, i ≠ j ) atunci P (  A ) = ∑ P( A )
α =1
α
α =1
α

3) P( E ) =1.
Definiţie. Tripletul ( E , K , P) se numeşte câmp infinit de probabilitate.
Observaţie.Proprietăţile 1-6 de la definiţia clasică a probabilităţii sunt valabile
şi în plus avem :
1) P( A ∪ B) ≤ P( A) + P( B)
2) Dacă A ⊂ B atunci P( A) ≤ P ( B )

3) Dacă An ∈ K , n ∈ N , An + 1 ⊂ An , A n = Φ atunci lim P ( An ) = 0 .
n →∞
n=1

11
Cursul nr. 2 Statistică
în ecologie

Formule şi scheme clasice de probabilitate.

Probabilităţi condiţionate

Definiţie. Probabilitatea evenimentului A condiţionată de

evenimentul B , notată P ( A \ B) sau PB ( A) este dată de relaţia :

P( A ∩ B)
P( A \ B) = dacă P( B) ≠ 0
P( B)

Formula înmulţirii probabilităţilor

Teoremă. Dacă A1 , A2 ,....., An sunt n evenimente astfel încât

probabilitatea realizării simultane este diferită de zero,


P ( A1 ∩ A2 ∩..... ∩ An ) ≠ 0 , atunci
P( A1 ∩ A2 ∩..... ∩ An ) = P( A1 ) P( A2 / A1 ) P( A3 / A1 ∩ A2 ).... P( An / A1 ∩ A2 ∩... An −1 )

Demonstraţie. Folosind probabilităţile condiţionate, avem:


12
P ( A1 ) = P ( A1 )
P ( A1 ∩ A2 )
P ( A2 / A1 ) =
P ( A1 )
P ( A1 ∩ A2 ∩ A3 )
P ( A3 / A1 ∩ A2 ) =
P ( A1 ∩ A2 )
.......... .......... .......... .......... .......... .......... ........
P ( A1 ∩ A2 ∩ ..... ∩ An −1 ∩ An )
P ( An / A1 ∩ A2 ∩ ..... ∩ An −1 ) =
P ( A1 ∩ A2 ∩ ...... ∩ An −1 )

pe care înmulţindu-le membru cu membru se obţine formula de mai

sus.

Exemplu. O urnă conţine 4 bile albe şi 6 bile negre. Se cere

probabilitatea ca extrăgând de trei ori câte o bilă (fără a pune bila

extrasă înapoi), să obţinem la prima extragere o bilă albă, iar la

următoarele extrageri cîte o bilă neagră.

Formula probabilităţii totale

Definiţie. O mulţime de evenimente formează un sistem complet de

evenimente dacă acestea sunt incompatibile două câte două şi

reuniunea lor este evenimentul sigur.

Teoremă. Dacă A1 , A2 ,....., An formează un sistem de evenimente,

atunci pentru orice eveniment A , avem :


P ( A) = P ( A1 ) P ( A / A1 ) + P ( A2 ) P ( A / A2 ) + ..... P ( An ) P ( A / An )

Demonstraţie. Se ştie că o mulţime de evenimente formează un

sistem complet de evenimente dacă acestea sunt incompatibile două

câte două, iar reuniunea lor este evenimentul sigur. Cu alte cuvinte,

13
din aceste evenimente se realizează cu certitudine unul şi numai

unul.

Un eveniment A nu se poate realiza decât împreună cu unul şi numai

unul din evenimentele A1 , A2 ,....., An , ceea ce înseamnă că


A = ( A ∩ A1 ) ∪ ( A ∩ A2 ) ∪ ...... ∪ ( A ∩ An )

iar
P( A) = P ( A ∩ A1 ) + P( A ∩ A2 ) + ....... + P ( A ∩ An )

Conform regulii înmulţirii probabilităţilor, avem :


P ( A ∩ Ak ) = P ( Ak ) P ( A / Ak )

care înlocuite mai sus, conduc la demonstrarea formulei.

Exemplu. Fie trei urne conţinând bile albe şi negre, după cum

urmează :
U 1 (3a,2n) , U 2 (6 a , 2 n ) , U 3 (3a,7 n)

Dintruna din aceste urne se extrage la întâmplare o bilă. Care este

probabilitatea ca bila extrasă să fie albă ?

Formula lui Bayes

Teoremă. Dacă A1 , A2 ,....., An formează un sistem complet de

evenimente, atunci pentru orice eveniment A , avem :


P ( Ai ) P ( A / Ai )
P ( Ai / A) =
P ( A1 ) P ( A / A1 ) + P ( A2 ) P ( A / A2 ) + ..... + P ( An ) P ( A / An )
i = 1,2,...., n

Demonstraţie. Aplicând formula înmulţirii probabilităţilor, se

obţine:
14
P ( A ∩ Ai ) = P ( A) P ( Ai / A)
P ( Ai ∩ A) = P ( Ai ) P ( A / Ai )

De aici rezultă că
P ( Ai ) P ( A / Ai )
P ( Ai / A) =
P ( A)

Pentru calculul lui P ( A) aplicăm formula probabilităţii totale:


P ( A) = P ( A1 ) P ( A / A1 ) + P ( A2 ) P ( A / A2 ) + ..... + P ( An ) P ( A / An )

şi înlocuind, se obţine:
P ( Ai ) P ( A / Ai )
P ( Ai / A) =
P( A1 ) P ( A / A1 ) + P( A2 ) P ( A / A2 ) + .... + P ( An ) P ( A / An )

care se mai poate scrie


P ( Ai ) P ( A / Ai )
P ( Ai / A) = n

∑ P( A ) P( A / A )
i =1
i i

Exemplu. Fie două urne care conţin bile albe şi negre: . Din aceste

urne s-a extras o bilă albă. Care este probabilitatea ca bila să fi fost

extrasă din prima urnă ?

Schema lui Bernoulli

În urma efectuării unei experienţe poate să apară evenimentul cu

probabilitatea p sau contrariul său cu probabilitatea q=1-p.

Se repetă experienţa de n ori în condiţii identice. Probabilitatea ca în

cele n experienţe evenimentul A să apară de k ori este


P ( n, k ) = C nk p k q n −k .

15
Exemplu. Se aruncă o pereche de zaruri de şase ori. Care este

probabilitatea ca exact de patru ori să obţinem un total de şapte

puncte ?

Schema lui Bernoulli cu mai multe stări

În urma efectuării unei experienţe pot apărea evenimentele


s
A1 , A2 ,....., As cu probabilităţile p1 , p 2 ,...., p s , ∑ p k = 1.
k =1

Se repetă experienţa de n ori. Probabilitatea ca în cele n experienţe

evenimentele A1 , A2 ,....., As să apară respectiv de m1 , m 2 ,...., m s ori

este

s
n!
P (n; m1 , m 2 ,....., m s ) =
m1!m 2 !...... m s !
p1m1 p 2m2 ....... p sms cu ∑mk = n.
k =1

Exemplu. Se aruncă un zar de 5 ori. Care este probabilitatea ca de

două ori să obţinem faţa cu un punct, de două ori faţa cu două puncte

şi o dată nici una din aceste două feţe ?

Exemplu. Probabilităţile ca diametrul unei piese de maşină să fie

între limite mai mici, respectiv mai mari decât cele admisibile sunt

0.005 şi 0.10, iar probabilitatea ca diametrul unei piese să fie între

limite admisibile este de 0.85.

16
Din întreg lotul se extrag la întâmplare 100 piese. Care este

probabilitatea între piesele alese, 5 să fie cu diametrul mai mic, iar 5

cu diametrul mai mare decât cel admis ?

Schema lui Poisson

Se fac n experienţe independente. În urma experienţei de rang k

poate să apară evenimentul A cu probabilitatea pk sau A cu

probabilitatea q k =1 − p k , k =1,2,....., n.

Probabilitatea ca în cele n experienţe evenimentul A să se realizeze

de m ori, cu m < n , este coeficientul lui xm din polinomul


p ( x ) = ( p1 x + q1 )( p 2 x + q 2 ).....( p n x + q n )

unde pi = P ( Ai ), q i = 1 − pi , i = 1,2,..., n .

Exemplu. Se consideră urnele : U 1 (10 a,4b), U 2 (5a,3b), U 3 ( 2a,6b) .

Care este probabilitatea ca lund la întâmplare câte o bilă din fiecare

urnă să obţinem 2 bile albe şi una neagră ?

Exemplu. Se experimentează 4 prototipuri de aparate, câte unul din

fiecare prototip. Probabilitatea ca un prototip să corespundă este 0.8,

0.7, 0.9 şi respectiv 0.85.

Se cere probabilitatea ca toate cele 4 aparate experimentate să

corespundă.

Schema bilei nerevenite

17
O urnă conţine a bile albe şi b bile negre. Din această urnă se se

extrag n bile fără a pune bila extrasă înapoi în urnă, n ≤ a +b .

Probabilitatea ca α din bilele extrase să fie albe şi β negre


(α + β = n) este dată de
C aα C bβ
Pa ,b (α , β ) =
C aα++bβ

Considerăm o urnă care conţine biele de m culori: a1 de culoare c1

, a2 de culoare c2 , …, a de culoare
m cm . Se extrag n bile

deodată sau una câte una fără întoarcerea bilei extrasă din urnă.

Probabilitatea de a obţine α1 bile de culoare c1 , α2 bile de

culoare c2 , …, α bile de culoare


m cm (α1 + α 2 + .... + α m = n) este
α2
C aα11 C a2 ......C aαmm
α + α + ......+ α
C a1 + a221+ ......+ amm

Exemplu. Într-un lot de 100 piese, 6 piese au defecte remediabile, 4

piese sunt rebuturi, iar restul sunt piese bune. Din acest lot au fost

luate la întâmplare 10 piese. Care este probabilitatea ca din aceste

piese 7 să fie bune, 2 să aibă defecte remediabile şi una să fie rebut.

18
Cursul nr. 3 Statistică în ecologie

Variabile aleatoare

Frecvent, în viaţa de toate zilele, întâlnim mărimi alecăror valori se

schimbă sub influenţa unor factori întâmplători. Mărimile care iau

valori la întâmplare sunt legate de anumite experienţe aleatoare.

Definiţie. O mărime asociată unei experienţe aleatoare şi care ia

valori la întâmplare, în funcţie de rezultatul experienţei, se numeşte

variabilă aleatoare.

De aici se poate desprinde concluzia că o variabilă aleatoare

reprezintă o corespondenţă între mulţimea rezultatelor posibile ale

unei experienţe aleatoare şi mulţimea numerelor reale.

Definiţie. Fiind dat un câmp de probabilitate ( E , K , P) , funcţia


X : E → R, măsurabilă ( ( ∀) y ∈R : X −1
( y) ∈E ) se numeşte variabilă

aleatoare.

Observaţie. Unele variabile aleatoare pot lua un număr finit de

valori, iar altele pot lua orice valoare dintrun interval.

Definiţie. O variabilă aleatoare este discretă dacă mulţimea valorilor

sale este o mulţime discretă (finită sau numărabilă).

Observaţie. Dacă mulţimea valorilor unei variabile aleatoare este

finită, variabila aleatoare se numeşte simplă.

19
Definiţie. Ovariabilă aleatoare este continuă dacă mulţimea valorilor

sale este o submulţime a lui R.

Variabile aleatoare discrete

Ţinând seama de faptul că valorile unei variabile aleatoare sunt

influenţate de cauze aleatoare, iar unele valori pot apărea mai des

decât altele, rezultă că o variabilă aleatoare este mult mai bine

precizată dacă se cunoaşte şi probabilitatea cu care este luată fiecare

valoare.
 x1 ... x n  n
X: 
 p ... p   , unde pi = P(X=xi)≥0, (∀) i =1, n şi ∑ pi =1
 1 n  i =1

sau
 x1 ... x n ...  ∞
X: 
 p ... p ...   , unde pi = P(X=xi)≥0, (∀) i ≥1 şi ∑ pi =1
 1 n  i =1

Operaţii cu variabile aleatoare discrete


 x1 ... x n   y1 ... y nm 
Pentru X : 
 p ... p   ,Y: 
 p ... p 
 şi a ∈ R avem:
 1 n   1 n 

 a + x1 ... a + x n 
- a+X : 
 p 
 1 ... pn  

 a ⋅ x1 ... a ⋅ x n 
- a∙X : 
 p ... p  
 1 n 

 x1 + y1 ... x n + y m 
- X+Y :  p nm 
 , unde pij=P({X=xi} ∩ {Y=yi})
 p11 ... 
indep
= P({X=xi})∙P({Y=yi}) = pi ∙ qi
 x1 ⋅ y1 ... x n ⋅ y m 
- X∙Y :  
 p11 ... p nm 

- X n = X n-1 ∙ X, pentru n≥2.


20
Media unei variabile aleatoare discrete este
n
M [ X ] = ∑xi pi ,
i =1

Dispersia sa este
n
D 2 ( X ) = ∑( xi −M [ X ]) 2 pi
i =1
= M[X 2] – M 2[X] ,

iar abaterea medie pătratică este


D[ X ] = D 2 ( X )

Variabile aleatoare continue

Definiţie: Se numeşte funcţie de repartiţie a variabilei aleatoare X,

funcţia F : R → [0,1],

F ( x) =P( X <x)
= P({ω / X(ω)<x}) = (P◦X-1)(x).

Proprietate: Funcţia F este funcţie de repartiţie dacă


a) F(–∞) = xlim
→− ∞
F ( x ) = 0 şi F(∞) = lim F ( x) =1
x →∞

l i m F ( x) = F ( x0 )
b) F este continuă la stânga (adică: (∀) x0 ∈ R : x→ x0 )
x< x0

c) F este nedescrescătoare pe R (adică (∀) x1 , x 2 ∈ R, x1 < x 2 :

F(x1)≤F(x2) )
21
Definiţie: Spunem că X are o densitate de repartiţie dacă există f

: R → [0,∞) astfel încât


x
F ( x) =
−∞
∫ f (t ) dt ,

unde F este funcţia de repartiţie a variabilei aleatoare X.

Proprietate: Funcţia f este densitate de repartiţie dacă


a) f(x)≥0, (∀) x ∈R

b)

∫ f ( x) dx =1
−∞

Observaţii:
1) F’(x) = f(x)

2)
b

∫ f ( x) dx = F (b) − F (a) = P(a < X ≤ b)


a

Pentru X variabilă aleatoare continuă cu funcţia de densitate f

(se scrie X~f(x)) se definesc


- media lui X:
M [ X ] =∫xf ( x ) dx
R = R∫x dF ( x) (dacă această integrală este

convergentă)
- dispersia lui X:

22
= R∫( x −M [ X ])
def 2
dF ( x ) prop
D 2 [ X ] = ∫( x −M [ X ])
R
2
f ( x ) dx
= M[X

2
] – M2[X].

Cursul nr. 4 Statistică


în ecologie

. Repartiţii clasice discrete

1. Repartiţia uniformă discretă pe {1,2,…, n} are tabloul de

repartiţie
 1 2 ... n 
X: 
1 / n 1 / n ... 1 / n 


Atunci media variabilei X este


n( n +1) 1
M[X] = 1∙1/n + 2∙1/n + … + n∙1/n = (1+2+…+n)/n = 2

n
n +1
= 2
.

Pentru calculul dispersiei, vom folosi proprietatea D2[X] = M[X2] –

M2[X]. Variabila X2 are tabloul de repartiţie


 12 22 ... n2 
X2 :  
1 / n 1/ n ... 1/ n
 

de unde rezultă că media variabilei X2 este

23
M[X2] = 12∙1/n + 22∙1/n + … + n2∙1/n = (12+22+…+n2)/n =
n( n +1)( 2n +1) ( n +1)( 2n +1)
6n
= 6

şi deci dispersia variabilei X este

D2[X] = M[X2] – M2[X] = (n+1)(2n+1)/6 – (n+1)2/4 = (n2–1)/12

Exemplu. Considerăm experienţa aruncării unui zar. Fie X variabila

aleatoare asociată acestui experiment, reprezentând număru de

puncte obţinute în urma aruncării zarului. Tabloul se prezintă astfel:

 1 2 ... 6 
X: 
1 / 6
 1/ 6 ...

1/ 6

2. Repartiţia binomială de parametri n∈ N * şi p∈ (0,1) are tabloul

de repartiţie
 k 
X:  k k n −k 

 C n p (1 − p)  k =0,n

Media variabilei X este


n n
n!
M[X]= ∑k ⋅ C nk p k (1 − p) n −k = ∑k ⋅ k!(n − k )! p k (1 − p) n −k =
k =0 k =1

n n
(n −1)! k ' =k −1
= n ∑(k −1)! (n − k )! p k (1 − p) n −k = n ∑C nk −−11 p k (1 − p) n −k =
k =1 k =1

n −1 n −1
= n ∑C nk −' 1 p k '+1 (1 − p) n −1−k ' = np ∑C nk −' 1 p k ' (1 − p) n −1−k ' ;
k ' =0 k ' =0

n
Cum ( a + b) n = ∑C nk a n −k b k rezultă că M[X] = np(1–p+p)n-1 = np.
k =0

Pentru calculul dispersiei folosim tot proprietatea D2[X] = M[X2] –

M2[X]. Variabila X2 are tabloul de repartiţie


24
 k2 
2  
X :  C k p k (1 − p ) n − k 
 n  k = 0, n

de unde rezultă că media variabilei X2 este


n n
M[X2] = ∑k 2 ⋅ C nk p k (1 − p) n −k = ∑k 2 ⋅ C nk p k (1 − p) n −k =
k =0 k =1

n
= ∑(k 2 − k + k ) ⋅ C nk p k (1 − p) n −k =
k =1

n n
= ∑k (k −1) ⋅ C nk p k (1 − p) n −k + ∑k ⋅ C nk p k (1 − p) n −k =
k =1 k =1

n
= ∑k (k −1) ⋅ C nk p k (1 − p) n −k + M[X] =
k =2

n
n!
∑ k (k −1) k!(n − k )! p k (1 − p) n −k + np =
k =2

n
(n − 2)!
= n( n −1) ∑
( k − 2 )! ( n − k )!
p k (1 − p ) n −k + np k ' ==k −2
k =2

n −2
= n( n −1) ∑ C nk −' 2 p k '+2 (1 − p) n −2 −k ' + np =
k ' =0

n −2
n( n −1) p 2 ∑ C nk −' 2 p k ' (1 − p) n −2 −k ' + np =
k ' =0

= n(n–1)p2(1–p+p)n-2 + np = n2p2 – np2 + np,

şi deci dispersia variabilei X este

D2[X] = M[X2] – M2[X] = n2p2 – np2 + np – n2p2 = np(1-p).

Exemplul 1. (Schema lui Bernoulli sau schema bilei cu revenire): Fie

o urnă cu bile albe şi bile negre. Se extrage pe rând câte o bilă, apoi

se pune la loc. Care este probabilitatea ca repetând procesul de n ori,

să se extragă k bile albe, ştiind că p este probabilitatea ca la o


25
extragere să se obţină bilă albă (p se poate estima ca fiind numărul

bilelor/numărul total de bile).

Răspuns: C nk p k (1 − p) n−k

Exemplul 2. În urma efectuării unei experienţe, poate apare

evenimentul A cu probabilitatea p sau A cu probabilitatea 1–p. Dacă

se repetă experienţa de n ori în condiţii identice, care este

probabilitatea ca evenimentul A să apară de k ori.

Răspuns: C nk p k (1 − p) n−k

3. Repartitia geometrică de parametru p ∈ (0,1) are tabloul de

repartiţie
 k 
X:  k 
 (1 − p ) p k∈N

Media variabilei X este


∞ ∞
M[X] = n∑
∈N
k (1 − p ) p k
= (1 − p ) ∑kp k = (1 − p) ∑kp k
k =0 k =1

Dar, seria geometrică este


∞ p <1
1
1 + p + p 2 + ... + p n + ... = ∑p k =
1− p
.
k =0

Derivând se obţine
∞ p <1
1
1 + 2 p + ... + np n −1 + ... = ∑kp k −1 =
k =1 (1 − p ) 2

şi înmulţind relatia cu p se obţine


∞ p <1
p
p + 2 p 2 + ... + np n + ... = ∑kp k =
k =1 (1 − p ) 2

26
Revenind,
p p
M[X] = (1-p) (1 − p) 2 = 1 − p

Pentru calculul dispersiei folosim tot proprietatea D2[X] = M[X2] –

M2[X]. Variabila X2 are tabloul de repartiţie


 k2 
2  
X:  (1 − p ) p k 
 k ∈N

de unde rezultă că media variabilei X2 este



M[X2] = n∑
2
(1 − p ) p k (1 − p ) ∑k 2 p k
∈N
k
= .
k =0

Dar, după cum am vazut în calculul mediei


∞ p <1
p
p + 2 p 2 + ... + np n + ... = ∑kp k =
k =1 (1 − p ) 2

şi derivând încă o dată


∞ p <1
(1 − p ) 2 + 2 p (1 − p )
1 + 2 2 p + ... + n 2 p n −1 + ... = ∑k 2 p k −1 = /∙p
k =1 (1 − p ) 4

∞ p <1
p ( p +1)
=> p + 2 2 p 2 +... + n 2 p n +... = ∑k 2 p k =
(1 − p ) 3
k =1

de unde
p ( p +1) p ( p +1)
M[X2] = (1 − p ) =
3
(1 − p ) (1 − p ) 2

Revenind,
2 2 2
p ( p +1) p2 p
D [X] = M[X ] – M [X] = (1 − p ) 2 – (1 − p ) 2 = (1 − p) 2 .

Exemplu. Fie X variabila aleatoare ce reprezintă numărul de trageri la

ţintă până la prima nimerire. Notăm cu p probabilitatea de a nu

nimeri ţinta şi q=1–p probabilitatea de a nimeri la ţintă.


27
Valorile posibile ale variabilei aleatoare X sunt 1, 2, …, n, după cum

ţinta este nimerită la prima tragere, la a doua tragere, …, la a n-a

tragere. Atunci

P(X=1) = q = 1–p

P(X=2) = pq (la prima tragere nu s-a nimerit ţinta, dar la a doua

tragere da şi

P(AB)=P(A)P(B), dacă A şi B sunt independente)

….

P(X=k) = pqk-1

4. Repartiţia Poisson de parametru λ>0 are tabloul de repartiţie


 k 
 k 
X:  λ ⋅ e − λ 
 k!  k∈ N

Media variabilei X este


∞ ∞ ∞
λk λk λk λk
M[X] = ∑ k ⋅ k! ⋅ e −λ = e −λ ∑ k ⋅ k! = e −λ ∑k ⋅ k! = e −λ ∑(k −1)! =
k ∈N k =0 k =1 k =1


λk −1
λe −λ ∑ =
k =1
( k −1)!


k ' =k −1 λk '
λe −λ ∑
= k '!
k ' =0

Dar seria exponenţială este


∞ k
λ λ2 λn λ
1+ + +... + +... ∑ = eλ,
1! 2! n! k =0
k!

de unde rezultă că media variabilei aleatoare X este

28
M[X] = λe–λeλ = λ.

Pentru calculul dispersiei folosim tot proprietatea D2[X] =

M[X2] – M2[X].

Variabila X2 are tabloul de repartiţie


 k2 
2
 k 
X : λ −λ 
 ⋅e 
 k!  k ∈N

de unde rezultă că media variabilei X2 este


∞ ∞
λk λk λk
M[X2] = ∑ k 2 ⋅ k! ⋅ e −λ = e −λ ∑k 2 ⋅ k! = e −λ ∑(k 2 − k + k ) ⋅ k! =
k ∈N k =1 k =1

∞ ∞ ∞
λk λk λk
= e −λ ∑k (k −1) ⋅ k! + e −λ ∑k ⋅ k! = e −λ ∑ k (k −1) ⋅ k!
+ M[X] =
k =1 k =1 k =2

∞ ∞
λk λk −2 k ' =k − 2

λk '
= e −λ ∑ (k − 2)! +λ= e −λλ2 ∑ (k − 2)! +λ =
e −λλ2 ∑ k '! +
k =2 k =2 k ' =0

λ=

= e–λλ2eλ + λ = λ2 + λ.

Revenind,

D2[X] = M[X2] – M2[X] = λ2 + λ – λ2 = λ.

Observaţii.

1. Legea Poisson descrie spre exemplu repartiţia numărului de

aparitii ale unui eveniment oarecare într-un interval de timp, daca

este cunoscut numărul mediu de aparitii ale evenimentului în

29
unitatea de timp şi dacă momentele apariţiilor evenimentului sunt

independente.

2. Legea Poisson se mai numeşte şi “legea evenimentelor rare”:

presupunem că se efectuează n probe independente şi în fiecare din

aceste probe, A are probabilitatea de realizare p mică în raport cu

numărul n de apariţii ale probelor, care este mare; notând cu X

variabila aleatoare ce reprezintă numărul de apariţii a evenimentului

A în n probe, atunci X are repartiţie binomiala, cu

P(X=k) = C nk p k (1 − p) n−k .

Notând np = λ => n = λ/p p → 0, λ = ct


   
→ ∞ şi trecând la limită după n în

relaţia de mai sus se obţine


λk − λ
lim C nk p k (1 − p ) n − k = e .
n →∞ k!

3. În situaţiile în care se efectuează un număr mare de probe asupra

unui eveniment A de probabilitate p, aceeaşi în fiecare probă, mică în

comparaţie cu numărul probelor, numărul de apariţii ale

evenimentului A are repartitie Poisson.

Cursul nr. 5 Statistică în ecologie

Repartiţii clasice continue

30
1. Repartiţia uniformă pe (a,b) are funcţia de densitate
 1
 , x ∈ ( a, b)
f(x) = b − a

0, x ∈ (a, b)

Media variabilei aleatoare X ce are funcţia de densitate f(x) este


b
1
M[X] = R∫xf ( x ) dx ∞ b x2
= ∫−∞ xf ( x ) dx = ∫a x
b −a
dx = 1
b −a

2
a
=
a +b
2

Pentru calculul dispersiei folosim tot proprietatea D2[X] = M[X2] –

M2[X], unde
2 ∞ b 1
M[X2] = R∫x f ( x) dx = ∫−∞x 2 f ( x)dx = ∫a x 2 b − a dx =
b 2
x3 + ab + b 2
1
b −a

3
a
=a 3

şi deci
2
+ b2 ( a + b) 2 ( a − b) 2
2
D [X] = M[X ] – M [X] 2 2
= a + ab
3
– 4
= 12 .

Exemplu. Presupunem că într-o statie de autobuz,

vehiculele trec din 3 în 3 minute. Timpul t de aşteptare

al unui calador în staţie este o variabilă aleatoare

repartizată uniform pe intervalul [0, 3].

2. Repartiţia exponenţial negativă de parametru λ>0 are funcţia de

densitate

λ ⋅ e −λx , x > 0
f(x) = 

0, x ≤ 0

31
Media variabilei aleatoare X ce are funcţia de repartiţie f(x)

este
∞ ∞ ∞ ∞
M[X]= ∫−∞xf ( x ) dx = ∫0 x ⋅ λe −λx dx = ∫0 x ( −e −λx )' dx = x ( − λe − λx )
0

– ∫0 ( −e −λx ) dx

Cum

∞ ⋅0 x ∞/ ∞ 1
lim x ( −e −λx ) = − lim = − lim = 1/∞ = 0
x →∞ λ>0 x → ∞ e λx L 'Hospital x → ∞ λe λx

rezultă că

∞ e −λx
M[X] = 0 – 0 + λ∫ e −λx dx = − = –0 + 1/λ = 1/λ
0 λ
0

Pentru calculul dispersiei folosim tot proprietatea D2[X] = M[X2] –

M2[X], unde
2 ∞ 2 ∞ 2
M[X2]= R∫x f ( x ) dx
= ∫0 x ⋅ λe −λx dx = ∫0 x ( −e −λx )' dx =

2 x (−e −λx ) dx

x 2 (−λe−λx
)
0 – ∫0

Cum

∞ ⋅0 x2 ∞/ ∞ 2x ∞/ ∞ 1
lim x 2 ( −e −λx ) = − lim = − lim = − lim
x →∞ λ>0 x →∞ e λx L 'Hospital x → ∞ λe λx L 'Hospital x →∞ λ2 e λx

= 1/∞ = 0

rezultă că
∞ 2 ∞ 2 2
M[X2] = 0 – 0 + 2 ∫0 xe −λx dx = ∫ xλe −λx dx = λ M[X] =
λ 0 λ2

Revenind,
2 1 1
D2[X] = M[X2] – M2[X] = − = λ2 .
2 2
λ λ

Exemplu. Variabila aleatoare X ce reprezintă durata de functionare a

unei lămpi are repartiţie exponential negativă.

32
3. Repartiţia normală (Gauss) de parametri m>0 şi σ∈ R

(X~N(m,σ2)) are funcţia de densitate


( x −m ) 2
1 −
f(x) = ⋅e 2σ2
σ 2π

Media variabilei aleatoare X ce are funcţia de repartiţie f(x)

este
( x −m ) 2
∞ ∞ − y = ( x − m) / σ
M[X]= ∫−∞xf ( x ) dx = 1
∫ xe 2σ2 dx =
σ 2π −∞

∞ y2
1 −
∫(σy +m)e
σ 2π −∞
2 σdy =

∞ ∞
σ 2 m −y 2 / 2
= ∫ ye − y / 2 dy + ∫e dy
2π −∞ 2π −∞

∞ ∞ ∞
σ 2 m −y 2 / 2 σ −y 2 / 2
= ∫ ye − y / 2 dy + ∫e dy = ∫(−e )' dy +
2π −∞ 2π −∞ 2π −∞


2m −y 2 / 2

∫e dy =
0


−σe −y
2
/2 2m 2m 2m
= 2π
+ 2π
I =0–0+ 2π
I = 2π
I
−∞

Dar
∞ 2
∞ 2
∞∞ 2
+y 2 ) / 2
I∙I = ∫e −x /2
dx ∙ ∫e −y /2
dy = ∫ ∫e −( x dxdy ,
0 0 00

unde se face schimbarea de variabilă


x = r cos t 
r = x 2 + y 2

 x = r sin t
=> 

 t = arctg y / x

Jordanianul schimbării de variabile este

33
∂x ∂x
cos t −r sin t
J = ∂r ∂t
= =r
∂y ∂y sin t r cos t
∂r ∂t

Deci
π/ 2 ∞ π/ 2 ∞
2 2 π ∞ π
I∙I = ∫ ∫ re −r /2
drdt = ∫dt ∙ ∫re −r /2
dr =2 ∙ −e −r 2 / 2 



0 =2
0 0 0 0

De unde
π
I= 2

Revenind,
2m π
M[X] = 2π 2
=m

Analog, dispersia variabilei aleatoare X este


( x −m ) 2
def ∞ ∞ − y = ( x − m) / σ
2
D [X] = ∫−∞( x −m)
2
f ( x) dx = 1
∫ ( x − m)
2
e 2σ2 dx =
σ 2π −∞

y2 ∞
1
∞ − σ2 2 −y 2 / 2
= σ 2π −∞
2
∫σ y e
2 2 σdy = 2π −∞
∫y e dy =

∞ ∞ ∞
σ2 σ2
2
−y 2 / 2 −σ2 e −y /2
−y 2 / 2
= 2π −∞
∫ y (−e )' dy = 2π
– 2π −∞
∫−e dy =
−∞


2σ2 −y 2 / 2 2σ2 2σ2 π
=0–0+ 2π
∫e dy = 2π
I = 2π 2
= σ2.
0

Cursul nr. 6 Statistică în


ecologie

Repartiţii clasice continue

34
Cursul nr. 7 Statistică în
ecologie

Elemente de statistică matematică

Statistica matematică este una din ramurile moderne ale matematicii

care se ocupă cu gruparea, analiza şi interpretarea datelor referitoare

la anumite fenomene, precum şi cu unele previziuni privind

producerea lor viitoare.

Utilizarea statisticii matematice este foarte importantă în dezvoltarea

unor metode ştiinţifice adecvate de analiză şi decizie asupra unor

situaţii despre care avem date obţinute fie prin observare, fie prin

măsurare.

Ideea de bază a statisticii este aceea a prelungirii (extrapolării)

concluziilor trase din materialul investigat (de obicei limitat) asupra

colectivităţii generale din care a provenit materialul.

Analiza şi decizia se bazează pe datele experimentale obţinute fie

prin observare, fie prin măsurare.

Un fenomen de masă nu poate fi cunoscut, în ansamblul său,

cercetând fiecare element al acestuia. De obicei, se extrag un anumit

35
număr de elemente pentru a fi cercetate, utilizând apoi metode

adecvate de obţinere a informaţiilor necesare.

Partea extrasă dintr-un întreg trebuie să fie o „copie micşorată” a

întregului, în sensul conservării la un anumit nivel al proprietăţilor

de bază ale acestuia, cu anumite toleranţe. Aceasta este inferenţa

statistică.

Statistica – deşi este privită ca metodă de investigare a unor mari

mulţimi de date – este esenţială tocmai în acele situaţii în care din

mulţimea respectivă nu se pot obţine decât puţine elemente

observate.

Statistica operează cu eşantioane extrase aleator din populaţiile

supuse investigării, cu scopul de a modela comportarea unei anumite

caracteristici a populaţiei respective.

Orice studiu statistic are două componente: obiectul şi scopul.

Obiectul poate fi orice colectivitate, proces, fenomen etc. care poate

furniza informaţii ce prezintă interes.

Scopul este determinat de interesul cunoaşterii anumitor

caracteristici ale colectivităţii, procesului, fenomenului studiat, a

diferitelor sale componente, dezvoltări sau evoluţii.

În raport de obiectul studiului statistic, se disting patru tipuri de

statistici:

36
 Statistici descriptive, al căror principal scop este

descrierea caracteristicilor unei mulţimi de date.

În urma observării unei colectivităţi care face obiectul unui studiu,

se obţine o mulţime de date. Rolul statisticii descriptive este de a

colecta, grupa şi sistematiza datele de observaţie.


 Statistici inferenţiale, care pe baza studiului realizat pe o

parte a unei colectivităţi, prin extrapolare, conduce la

concluzii pentru întreaga colectivitate.


 Sratistici corelaţionale, care stabilesc dacă există relaţii

între două mulţimi de observaţii.


 Statistici predictive, care pe baza unor metode şi procedee

specifice, utilizând informaţiile disponibile privind un proces,

fenomen etc. fac previziuni asupra evoluţiei lor viitoare.

Exemple.

1. Pentru un râu, un studiu statistic are ca obiect prezenţa unor

substanţe poluante într-un interval de timp, iar scopul este acela

de a pune în evidenţă unele caracteristici ale acestora: numele

substanţei, concentraţia, provenienţa etc.

2. Frecvent se face sondarea opiniei publice privind diferite

evenimente. Colectivitatea fiind foarte mare, se face poate afla

opinia fiecărei persoane, motiv pentru care se alege o colectivitate

mică, reprezentativă, care devine obiect de studiu în locul

37
colectivităţii din care provine. Concluziile obţinute sunt apoi

extrapolate asupra întregii colectivităţi.

3. Studiul comportamentului efectuat pe diferite grupe de vieţuitoare

evidenţiază faptul că între comportamentul lor şi apartenenţa la

diferite specii sau mediului în care trăiesc există o anumită

dependenţă.

Populaţie statistică

Statistica matematică se ocupă cu gruparea, analiza şi interpretarea

datelor referitoare la anumite fenomene, precum şi cu unele

previziuni privind producerea lor viitoare.

Într-o cercetare statistică distingem două etape:

 culegerea şi înregistrarea datelor cu privire la fenomenul

respectiv;

 analiza şi interpretarea datelor culese.

Noţiunea fundamentală în statistică este aceea de populaţie.

Definiţie. Se numeşte populaţie statistică orice mulţime care face

obiectul unei analize statistice.

Elementele unei populaţii statistice se numesc unităţi statistice.

Definiţie. Trăsătura comună tuturor elementelor unei populaţii

statistice se numeşte caracteristică.

Exemple.

38
1. Mulţimea studenţilor dintr-un an de studiu reprezintă o

populaţie statistică, fiecare student este o unitate statistică, iar

nota obţinută la un anumit examen este caracteristica

studiată.

2. Mulţimea peştilor dintr-o crescătorie formează o populaţie

statistică, iar greutatea constituie o caracteristică.

Observaţie. O caracteristică poate fi calitativă sau cantitativă.

Exemplu. Mulţimea locuitorilor unui oraş formează o populaţie

statistică.

Caracteristicile: greutate, înălţime, vârstă sunt caracteristici

cantittative, deoarece pentru fiecare individ se materializează printr-

un număr.

Caracteristicile: culoarea ochilor, culoarea pielii, culoarea părului,

apartenenţa politică, apartenenţa confesională sunt calitative.

Caracteristicile cantitative pot fi:

 discrete, ceea ce înseamnă o mulţime numărabile de

valori( numai valori întregi);

 continue, ceea ce înseamnă o mulţimea valorilor este un

interval finit de numere reale.

În funcţie de una sau mai multe caracteristici, populaţia statistică

poate fi împărţită în clase.

39
Din punct de vedere matematic, o populaţie statistică este o parte a

unei mulţimi E ={ A1 , A2 ,...., An } . Submulţimile Ai (i =1,2,....., n) se

numesc clase. Unităţile statistice care compun aceeaşi clasă sunt

alese pe baza unei relaţii R.


x Ry , de exemplu x şi y au aceeaţi înălţime ( x ∈ Ai şi y ∈ Ai )

Se verifică dacă R este o relaţie de echivalenţă.

Relaţia de echivalenţă definită pe o mulţime sau populaţie statistică

reprezintă caracteristica populaţiei.

Selecţia

În cazul când datele sunt culese de la fiecare unitate statistică a unei

populaţii, atunci avem o enumerare completă.

Enumerarea completă este adeseori greu de practicat, ţinând seama

de costuri, timp şi probleme de organizare. Din aceste considerente

se practică selecţia.

Pentru a cunoaşte o anumită caracteristică a unei populaţii nu se

cercetează toate unităţile care o compun, ci numai un număr restrâns

dintre acestea.

Procedeul prin care se obţin date privind populaţia totală pornind de

la informaţii incomplete se numeşte inferenţă.

Rezultatele cercetării statistice pe baza unor selecţii sunt afectate de

erori, care depind de modul în care se face selecţia.

Selecţia trebuie să îndeplinească condiţiile:

40

să fie reprezentativă, ceea ce înseamnă că structura selecţiei este

identică cu a populaţiei respective sau diferă puţin de aceasta;

elementele alese să aibă egală probabilitate de a face parte din

selecţie;

volumul de selecţie trebuie să fie mare;

unităţile statistice care compun populaţia să fie cât mai omogene.

Există domenii în care enumerarea completă este posibilă, dar din

punct de vedere teoretic şi practic, utilizarea cercetării selective

prezintă următoarele avantaje:

 cercetarea selectivă este mult mai operativă deoarece scurtează

timpul pentru culegerea şi prelucrarea datelor;

 costul şi problemele de organizarea selecţiei sunt incomparabil

mai mici;

 se poate face un studiu aprofundat asupra problemelor care

prezintă interes.

Metodele statistice se utilizează în cele mai diverse domenii:

sociologie, biologie, ecologie, medicină,economie, industrie,

agricultură, economie, administraţie etc.

41
Cursul nr. 9 Statistică în ecologie

Reprezentarea datelor statistice

Reprezentarea datelor statistice se poate face în două moduri: prin

tabele statistice şi prin grafice.

Tabelele statistice poate fi:

 simple, întocmite pe baza simplei centralizări a datelor

statistice, reprezentând populaţia negrupată;

 pe grupe, ce reprezintă populaţia despărţită în grupe omogene

după o singură caracteristică;

 combinate, ce reprezintă populaţia despărţită în grupe omogene

după două sau mai multe caractreristici.

Graficele (diagramele statistice) reprezintă tot o formă de prezentare

a datelor statistice, având avantajul că oferă o imagine mai sugestivă

a fenomenelor cercetate decât tabelul.

Cele mai utilizate diagrame statistice sunt histogramele şi

poligoanele frecvenţe.

Fie P o populaţie şi notăm cu f o caracteristică a sa.

Caracteristica f asociază fiecărei unităţi statistice x din populaţia


P o valoare f ( x) , determinată în general prin măsurători.

42
Definiţie. Mulţimea {( x, f ( x )), x ∈P} ordonată după valorile lui x , se

numeşte repartiţie empirică a caracteristicii f pe populaţia P sau

serie statistică.

Definiţie. Numărul k reprezentând unităţile statistice (indivizii) din

mulţimea { x x ∈P, f ( x ) =k } se numeşte frecvenţă absolută a lui k şi

se notează cu fk .

Cu alte cuvinte, numărul indivizilor (unităţilor statistice)dintro

populaţie pentru care caracteristica ia o aceeaşi valoare se numeşte

frecvenţă absolută a valorii respective.

Dacă valorile distincte ale caracteristicii sunt x1 , x 2 ,...., x m , atunci

frecvenţele absolute se notează cu f 1 , f 2 ,...., fm şi reprezintă

numărul unităţilor statistice care corespund acelor valori.

Fie n numărul unităţilor statistice ale unei populaţii P şi


m
f 1 , f 2 ,..., f m frecvenţe absolute, atunci ∑ f k =n .
k =1

Exemplu. Într-o pădure sunt 12 specii de animale sălbatice. Numărul

femelelor din fiecare specie este de 5, 12, 25, 5, 12, 25, 18, 12, 14, 7,

25,18.

În acest caz, populaţia statistică este reprezentată de cele 12 specii

din pădurea respectivă, iar caracteristica de numărul femelelor, ca în

tabelul următor:

43
xk 5 7 12 14 18 25
fk 2 1 3 1 2 3

Mulţimea perechilor ( x k , f k ), constituie o serie statistică:


6
{( 5,2), (7,1), (12 ,3), (14 ,1), (18 ,2), ( 25 ,3)} , iar ∑ f k = 12 .
k =1

Observaţie. Ca regulă generală, valorile x1 , x 2 ,...., x p ale

caracteristicii respective se scriu în tabel în ordine crescătoare.

Definiţie. Se numeşte frecvenţă relativă a valorii x k , k =1,2,..., m

fk
numărul pk =
n
, k = 1,2,...., m .

Pentru exemplul de mai sus, frecvenţele relative se scriu astfel:

xk 5 7 12 14 18 25
fk 2/10 1/10 3/10 1/10 2/10 3/10

Observaţiile (discrete sau continue) efectuate asupra unei

caracteristici a unei populaţii statistice se repartizează în subintervale

ale intervalului maxim de variaţie, numite clase de valori.

44
Clasele de valori sunt utile atunci când volumul de date este mare.

Clasele de valori au aceeaşi lungime, eventual cu excepţia ultimei

clase.

Repartiţiile de frecvenţă se reprezintă grafic prin histograme sau

poligoane de frecvenţă

Histograma se construieşte astfel:

 pe axa absciselor se trec intervalele de valori,

respectându-se principiul că intervalele egale să fie

reprezentate prin distanţe egale;

 pe axa ordonatelor se construieşte scara frecvenţelor,

respectându-se principiul proporţionalităţii între frecvenţe;

 din limitele fiecărui interval se ridică apoi câte o

perpendiculară pe axa absciselor, ale cărei extremităţi se

unesc printr-o linie, formând mai multe dreptunghiuri ale

căror suprafeţe sunt proporţionale cu frecvenţele

corespunzătoare intervalului respectiv.

Exemplu. Considerăm seria statistică de mai sus: (5,2);(7,1),(12,3);

(14,1);(18,2);(25,3) şi o vom reprezenta prin clase de valori şi apoi

printr-o histogramă.

Clasa de valori Frecvenţa


5 - 10 3
10 - 15 4
15 - 20 2
45
20 - 25 3

4
3

2
1
5 10 15 20 25

Poligonul frecvenţelor se construieşte astfel:

 pe axa absciselor se trec intervalele de valori,

respectându-se principiul că intervalele egale să fie

reprezentate prin distanţe egale;

 în mijlocul fiecărui interval se ridică segmente verticale

proporţionale cu frcvenţele absolute sau relative ale

claselor corespunzătoare;

 extremităţile acestor segmente se unesc printr-o linie

poligonală;

Valori caracteristice ale unei serii statistice

Definiţie. Se numeşte valoare centrală a unei clase, media

aritmetică a extremităţilor acelei clase.

46
Presupunând că o clasă are extremităţile xi şi x i +1 ,

valoareacentrală este dată de ( xi + xi +1 ) / 2.

Fie X o caracteristică având seria statistică {( x k , f k )}, k =1,2,..., m .

Definiţie. Media aritmetică a variabilei X este dată de numărul:


m

x f + x 2 f 2 + ... + x m f m ∑x k fk
x= 1 1 = k =1

f 1 + f 2 + ... + f m n

unde n = ∑ fk reprezintă numărul unităţilor statistice ale populaţiei.


k =1

Observaţie.

1. Numărul x reprezintă media ponderată a valorilor variabilei X

2. Dacă în formula mediei utilizăm frecvenţele relative p k , k =1,2,..., m

seobţine:
m
fk m
x =∑ = ∑ xk p k
k =1 n k =1

ceea ce înseamnă că media aritmetică a caracteristicii X coincide

cu valoarea medie a variabilei

 x1x2. . .xm.  . . . .
 
 p1 p2. . .pm. . . .
47
Observaţie.Tabloul de mai sus reprezintă repartiţia unei variabile

statistice.

Exemplu.

Definiţie. Se numeşte amplitudinea unei serii statistice, diferenţa

între cea mai mare şi cea mai mică valoare a caracteristicii.

Fie x max = max{ x1 , x 2 ,...., x m } şi x min = min{ x1 , x 2 ,....., x m } , amplitudinea

este dată de numărul a = x max − x min şi reprezintă lăţimea benzii în care

se află valorile x1 , x 2 ,....., x m .

Definiţie. Se numeşte abatere a unei valori xi , i =1,2,..., m a

caracteristicii, numărul d i = xi − x .

Definiţie. Se numeşte dispersie a unei variabile statistice, numărul


m
σ 2 = ∑ ( xk − x ) 2 p k
k =1

Dispersia caracterizează gradul de împrăştiere a valorilor în jurul

mediei.

Definiţie. Se numeşte modul al unei serii statistice valoarea

caracteristicii căreia îi corespunde cea ami mare frecvenţă.

Definiţie. Se numeşte mediana unei serii statistice valoarea

caracteristicii care împarte volumul populaţiei în două părţi egale.

Exemplu. Se verifică greutatea pentru 50 pachete de zahăr de 1000 g

fiecare, numerotate de la 1 la 50. Câmpul de toleranţă admis pentru

fiecare este de 995 – 1005 grame. Repartiţia empirică pentru o

singură caracteristică este dată în tabelul următor:


48
Greutatea Nr. pachete
992 1
993 2
994 1
995 3
996 2
997 4
998 7
999 8
1000 12
1001 4
1002 2
1003 1
1004 2
1005 1

Cursul nr. 10 Statistică în


ecologie

Corelaţie şi regresie

Studiul unor fenomene şi procese presupune luarea în consideraţie a

două sau mai multe caracteristici.

49
Exemplu.Repartiţia a 25 studenţi după notele la informatică şi la

statistică este prezentată în tabelul următor:


Nr. student Nota la informatică Nota la statistică
1 8 9
2 6 7
3 5 7
4 8 8
5 3 4
6 10 9
7 6 7
8 9 8
9 4 5
10 8 8
11 4 5
12 7 7
13 9 10
14 3 4
15 10 9
16 7 8
17 8 8
18 3 4
19 7 8
20 5 6
21 9 10
22 6 6
23 7 8
24 7 6
25 10 10
26 6 7
27 7 5
28 8 8
29 4 6
30 9 8

Considerăm separat pe cele două caracteristici şi avem seriile

statistice următoare:
50
Nota la informatică 3 4 5 6 7 8 9 10
Frecvenţa 3 3 2 4 7 5 3 3

Nota la statistică 4 5 6 7 8 9 10
Frecvenţa 3 3 5 4 5 3 3

3 4 5 6 7 8 9 10
X:
4 3/30
5 3/30
6 2/30
7 84/30 97/30105/30 3/30 3/30
Y:
3/30 3/30 5/30 4/30 5/30 3/30 3/30

Folosind aceste serii statistice se pot introduce variabilele statistice

corespunzătoare notate cu X şi respectiv Y , astfel:

Cele două variabile statistice considerate simultan constituie

componentele unui vector bidimensional V = ( X ,Y ) .

Se poate scrie:

x   yj 
X :  i , i = 1,2,...., m Y : , j = 1,2,...., n
q 
 pi   j 

De exemplu, gruparea datelor de mai sus după cele două

caracteristici conduce la un tabel cu două intrări.


51
Nota la informatică Total

Nota la statistică 1 9 87 6 5 4 3 2 1

0
10 1 2 0 0 0 0 0 0 0 0 3
9 1 00 0 0 0 0 0 0 3

8 2 0 53 1 0 0 0 0 0 9

7 0 04 0 0 0 0 0 0 4

6 0 0 00 3 2 0 0 0 0 5

5 0 0 00 0 0 2 1 0 0 3

4 0 0 00 0 0 1 2 0 0 3

3 0 0 00 0 0 0 0 0 0 0

2 0 0 00 0 0 0 0 0 0 0

1 0 0 00 0 0 0 0 0 0 0

0
Total 3 3 5 7 4 2 3 3 0 0 30

Se observă că 3 studenţi au obţinut nota 7 la informatică şi 8 la

statistică, 2 studenţi au obţinut nota 5 la informatică şi 6 la statistică,

nici-un student nu a obţinut 10 la statistică şi 8 la informatică.

52
În cazul unui studiu statistic după mai multe caracteristici, se

utilizează vectori aleatori multidimensionali V = ( X 1 , X 2 ,....., X n ) în

care fiecare componentă X i , i =1,2,..., n este o variabilă statistică

având repartiţia:

 Xik
Xi  ,: i= 1,2 n . . . , cu condiţia ∑ pi
ml

 pi 
k =1,2,..., ml
k
=1
k =1

 k
Reluând exemplul de mai sus, datele se pot grupa într-un tabel având

pe orizontală notele de la informatică, iar pe verticală notele la

statistică. Se vor marca celulele unde există cupluri de note la

informatică şi statistică.
x
y 3 4 5 6 7 8 9 10
4 2* 2*
5 2* * 3*
6 * * * * 4*
7 * 2* * * 5*
8 3* 5* 2* 10*
9 * 2* 3*
10 * 2* 3*
2* 3* 2* 3* 6* 7* 3* 4*

53
Analiza unei populaţii se realizează studiind una sau mai multe

caracteristici. Se pune problema dacă între aceste caracteristici există

sau nu vreo legătură.

Analiza de regresie şi corelaţie realizează studiul

existenţei/inexistenţei unei relaţii de dependenţă între diferitele

caracteristici.

Regresia indică existenţa şi tipul dependenţei între două sau mai

multe caracteristici ale unei populaţii.

Regresia. Noţiunea de regresie a fost introdusă de statisticianul

englez Galton, care studiind relaţia dintre înălţimea părinţilor şi cea a

copiilor a constatat că părinţii foarte înalţi au copii înalţi, în timp ce

părinţii scunzi au copii scunzi dar mai puţin scunzi decât părinţii.

Corelaţia exprimă gradul de dependenţă dintre caracteristicile

considerate, evaluându-l printr-un număr care se numeşte coeficient

de corelaţie.

Covarianţa exprimă variaţia simultană a datelor studiate.

Regresia liniară

Fie X = ( x1 , x 2 ,...., x n ) şi Y = ( y1 , y 2 ,...., y n ) două caracteristici după

care se studiază o populaţie. Punctele de coordonate


( x k , y k ), k =1,2,..., n se reprezintă într-un sistem de cartezian. În cazul

în care între cele două caracteristici există o corelaţie, poziţia

punctelor poate sugera o figură geometrică cunoscută (o dreaptă, o

54
curbă etc.) care constituie imaginea grafică a unei funcţii. Problema

care se puneeste să determinăm funcţia respectivă astfel încât ea să

aproximeze cât mai bine punctele reprezentate. Curba obţinută se

numeşte curbă de regresie. În cazul când curba respectivă ia forma

unei drepte avem o dreaptă de regresie sau regresie liniară.

Determinarea funcţiei liniare care se reprezintă printr-o dreaptă de

regresie, se poate realiza prin metoda celor mai mici pătrate.

Metoda celor mai mici pătrate.

Considerăm caracteristicile reprezentate prin punctele de coordonate


( x k , y k ), k =1,2,..., n .

Metoda celor mai mici pătrate constă în a determina funcţia f : R →R

astfel încât suma


n

∑[ f ( x
k =1
k ) − y k ]2

să fie minimă.

În cazul regresiei liniare, funcţia f : R →R este f ( x) = ax + b , ceea ce

înseamnă că trebuie să determinăm coeficienţii a şi b astfel încât


n

∑[ax
k =1
k + b − y k ] 2 = min

Pentru aceasta considerăm funcţia F : R2 → R definită prin


n
F (a, b) = ∑ ( ax k + b − y k ) 2
k =1

şi rezolvăm sistemul:
55
 ∂F n
 ∂ a = 0  ∑ (a xk + b − y k ) xk = 0
 k=1
 ⇒ n
 ∂F = 0  (a x + b − y ) = 0
 ∂ b  ∑k = 1 k k

echivalent cu

 n 2 n n

 a ∑ x k + b∑ x k = ∑ x k y k
 k=1 k=1 k=1
 n n
 a x + n b= y
 ∑k = 1 k ∑k = 1 k

Pentru rezolvarea sistemului se notează d k = xk − x , k =1,2,...., n şi se

obţine soluţia:
n n n
a = ∑ d k y k / ∑ d k2 , b = (∑ y k ) / n , k =1,2,....., n
k =1 k =1 k =1

unde x = (∑ x k ) / n este media aritmetică.


k =1

Exemplu.

Coeficientul de corelaţie.

Calculul coeficientului de corelaţie se face în cazul populaţiilor în

care se studiază două caracteristici. Fie X = ( x1 , x 2 ,...., x n ) şi


Y = ( y1 , y 2 ,...., y n ) două caracteristici după care se studiază o

populaţie.

Coeficientul de corelaţie se calculeatuză astfel:


n n n
r = [∑ (x k − x )( y k − y )] / ∑( x k − x ) 2 ∑( y k − y ) 2
k =1 k =1 k =1

56
1 n 1 n
unde x= ∑ xk
n k =1
, y= ∑ yk
n k =1
.

Cu cât coeficientul de corelaţie este mai apropiat de valoarea 1, cu

atât dependenţa este mai mare. Dacă r se apropie de 0 înseamnă că

dependenţa este foarte mică.

Cursul nr.11 Statistică în ecologie

Ipoteze statistice

În ştiinţă, dar şi în alte domenii se foloseşte frecvent cuvântul ipoteză,


care este sinonim cu presupunere.
În statistică, ipoteza este una din cele mai utilizate tehnici. De regulă se
studiază un esantion şi concluziile, prin extapolare, se face ipoteza că pot fi
extinse la întreaga populaţie.
De exempu, se studiază un eşantion dint-o populaţie şi se constată că o
anumită caracteristică este repartizată normal. Se poate emite ipoteza că pentru
întreaga populaţie caracteristica respectivă este repartizată normal.
În multe situaţii ipoteza se bazează pe două eşantioane, prin compararea
acestora, concluziile fiind diferite.
Exemple.
1. Performanţele a două grupe de atleţi, una formată din negri, iar alta din albi
sunt diferite, rezultatele grupului de negrii fiind mai bune.
Ipoteza: performanţele atleţilor depind de rasă.
2. Bărbaţii din nordul Europei sunt mai înalţi decât cei din sud.
Ipoteză: înălţimea depinde de climă.
3. Rezultatele studenţilor din mediul rural sunt mai bune decât ale celor din
mediul urban.
Ipoteză: situaţia şcolară este specifică localităţii.

57
Estimarea parametrilor

Statistica matematică îşi propune ca pe baza rezultatelor obţinute

pentru o selecţie, acestea să poată fi generalizate la nivelul întregii

populaţii din care a fost făcută selecţia.

Caracteristicile unei populaţii pot conţine unul sau mai mulţi

parametri necunoscuţi, iar pe baza unei selecţii se pune problema

estimării acestora.

Estimarea unui parametru constă fie în a obţine o mărime care este

apropiată de valoarea reală a parametrului necunoscut, fie în a obţine

nişte limite (internal de încredere) în interiorul cărora, cu o anumită

probabilitate, se află mărimea reală a parametrului necunoscut.

Fie X o variabilă aleatoare care are funcţia de repartiţie F ( x, θ) .

Forma funcţională a funcţiei de repartiţie F ( x, θ) este specificată,

58
însă este un parametru real a cărui valoare adevărată θ0 este

necunoscută. Valoarea θ0 aparţine unei mulţimi de valori reale Θ ,

numit spaţiul parametrilor. Pentru a găsi o valoare care să

aproximeze pe, folosim o selecţie de forma:

X 1 = x1 , X 2 = x 2 ,....., X n = x n


Se pune problema găsirii unei funcţii θ( x1 , x 2 ,...., x n ) care să poată fi

luată ca valoare a parametrului θ .



Definiţie. Funcţia θ( x1 , x 2 ,...., x n ) se numeşte funcţie de estimaţie

sau estimator.

Definiţie. Se spune că θ ( x1 , x 2 ,...., x n ) este un estimator consistent al

lui , dacă θ ( x 1 , x 2 ,...., x n ) converge în probabilitate la θ , adică


lim P (| θ ( x1 , x 2 ,...., x n ) −θ |< ε ) = 1
n →∞

Definiţie.

M [θ ( x1 , x 2 ,....., x n )] = θ + α( n), lim α( n) = 0
n →∞

lim D 2 [θ ( x1 , x 2 ,....., x n )] = 0
n →∞

59

Definiţie. Spunem că θ ( x1 , x 2 ,...., x n ) este o estimaţie absolut corectă

a lui θ , dacă


M [θ( x1 , x 2 ,....., x n )] =θ

lim D 2 [θ ( x1 , x 2 ,....., x n )] = 0
n →∞


Definiţie. Spunem că θ ( x1 , x 2 ,...., x n ) este o estimaţie nedeplasată a

lui θ , dacă


M [θ( x1 , x 2 ,....., x n )] =θ

În caz contrar avem o estimaţie deplasată.

Intervale de încredere

Definiţie. O pereche de funcţii θ1 =θ1 ( x1 , x 2 ,...., x n ) ,


θ2 =θ2 ( x1 , x 2 ,...., x n ) este interval de încredere pentru θ , dacă

1) θ1 ( x1 , x 2 ,...., x n ) ≤θ2 ( x1 , x 2 ,...., x n ), [θ1 , θ2 ] ∈Θ pentru orice

selecţie x1 , x 2 ,...., x n

60
2) P[θ1 ≤ θ ≤ θ 2 ] = β

Observaţie. Condiţia 2 indică faptul că intervalul cu limitele


θ1 şi θ2 acoperă valorile adevărate ale lui θ cu probabilitatea β

. Cu cât intervalul [θ1 , θ2 ] este mai mic (tinde la zero) şi β se

apropie de 1, cu atât mai mult intervalul dă o aproximaţie mai bună

despre θ .

Definiţie. Intervalul [θ1 , θ2 ] se numeşte interval de încredere, iar β

se numeşte prag de încredere.

Ipoteze şi teste statistice

În ştiinţă, dar şi în alte domenii se foloseşte frecvent cuvântul

ipoteză, care este sinonim cu presupunere.

În statistică, ipoteza este una din cele mai utilizate tehnici. De regulă

se studiază un esantion şi concluziile, prin extapolare, se face ipoteza

că pot fi extinse la întreaga populaţie.

De exempu, se studiază un eşantion dint-o populaţie şi se constată că

o anumită caracteristică este repartizată normal. Se poate emite

61
ipoteza că pentru întreaga populaţie caracteristica respectivă este

repartizată normal.

În multe situaţii ipoteza se bazează pe două eşantioane, prin

compararea acestora, concluziile fiind diferite.

Exemple.

1. Performanţele a două grupe de atleţi, una formată din negri, iar

alta din albi sunt diferite, rezultatele grupului de negrii fiind mai

bune.

Ipoteza: performanţele atleţilor depind de rasă.

2. Bărbaţii din nordul Europei sunt mai înalţi decât cei din sud.

Ipoteză: înălţimea depinde de climă.

3. Rezultatele studenţilor din mediul rural sunt mai bune decât ale

celor din mediul urban.

Ipoteză: situaţia şcolară este specifică localităţii.

Definiţie. O ipoteză statistică este o presupunere asupra uneia sau

mai multor repartiţii ce caracterizează anumite populaţii sau mai

precis asupra unuia sau mai mulţi parametri ai unor astfel de

repartiţii sau asupra tipului repartiţiilor.

Observaţie. Ipoteza statistică este o presupunere asupra populaţiei şi

nu asupra selecţiei.

Presupunerea se cheamă ipoteză deoarece se referă la o situaţie care

poate fi adevărată sau nu.

62
Să considerăm o repartiţie dată prin funcţia de densitate care depinde

de un parametru θ şi să verificăm ipoteza conform căreia θ are

valoarea θ0 .

Notăm această ipoteză astfel: H : θ = θ0 .

Să presupunem că în afară de valoarea θ0 , parametrul θ mai poate

avea şi una din valorile θ1 , θ2 , ...

Definiţie. Ipotezele H 0 : θ = θ0 , H1 : θ = θ ,... se numesc ipoteze

admisibile.

Ipoteza H0 se numeşte ipoteză nulă, iar orice altă ipoteză

admisibilă se numeşte ipoteză alternativă.

Definiţie. Metodele pentru verificarea ipotezelor statistice se numesc

teste statistice.

Definiţie. Un test statistic pentru o ipoteză H sau o ipoteză alternativă


NH este o regulă ce divide spaţiul de selecţie R n în două regiuni W

şi W = R n -W astfel că dacă vectorul de selecţie


X ′ = ( X 1 , X 2 ,...., X n ) ∈W atunci se respinge ipoteza H (adică se

acceptă NH ); dacă X ′ ∈W , atunci se acceptă H .

Definiţie. Regiunea W se numeşte regiune critică.

Testarea ipotezelor poate să conducă la respingerea lui H când ea

este adevărată (eroare de gradul I) sau la acceptarea lui H când ea

este falsă (eroare de gradul II).

Probabilităţile acestor erori se notează astfel:

63
P ( NH / H ) = P ( X ′ ∈W / H ) = α
P ( H / NH ) = P ( X ′ ∈W / NH ) = β

Probabilitatea π = 1 − β = P ( NH / NH ) = P ( X ′ ∈W / NH ) = P ( X ′ ∈W / NH )

se numeşte puterea testului.

Fiind dată o eroarea α este posibil să găsim multe regiuni critice

astfel ca P( X ′ ∈ W / H ) ≤ α .

În general, prezintă interes acea regiune critică pentru care eroarea

de gradul doi este cea mai mică.

Testul χ2 (hi-pătrat)

Fie X o variabilă aleatoare şi F ( x, λ) funcţia sa caracteristică în ipoteza


nespecificată H ( în sensul că λ este un parametru necunoscut).
Fie ∆ o partiţie a mulţimii valorilor luin X :
∆ = ∆1 ∪ ∆ 2 ∪ ... ∪ ∆ i , ∆i ∩ ∆ j = Φ , i ≠ j , 1≤i ≤l
şi o selecţie X 1 , X 2 ,...., X n asupra lui X.
Notăm cu pi = P ( X ∈ ∆i / H ) şi νi numărul de valori de selecţie aparţinând lui
∆i .
Presupunem că n este un număr suficient de mare astfel încât
np i (λ) ≈ cons tan t , 1 ≤ i ≤ l .
Notăm cu λ̂estimaţia lui λ determinată de condiţia:

l
(ν i − npi (λ )) 2 ˆ ˆ
χ2 = ∑ = min cu pˆ i = pi (λ) = ∆∫ dF ( x, λ)
i =1 npi (λ ) i

Dacă χ 2 < χα2 ,l −c −1 atunci se acceptă ipoteza H ; în caz contrar se respinge


ipoteza H ( c este dimensiunea parametrului vectorial λ ).
Testul χ2 este util pentru a verifica ipoteza H că funcţia de repartiţie a
variabilei X este F ( x, λ) , cu parametrul λ necunoscut.
Testul χ 2 are o formă simplă când ipoteza H este complet specificată în
sensul că nu există parametrul λ de estimat.
64
În acest caz, construcţia testului ℵ2 se face în mod asemănător:

pi = ∫ dF ( x ) (ν i − npi ) 2
l

, χ =∑
2
∆i i =1 np i

În esenţă, testul χ2 constă în următoarele:


Să presupunem că X reprezintă caracteristica de calitate a unui produs al
cărui comportament îl studiem. Efectuăm măsurători asupra acestei
caracteristici. Înregistrăm datele precum şi frecvenţele lor de apariţie şi
construim histograma. Aceasta ne sugerează un anumit tip de distribuţie având
funcţia de repartiţie F ( x;θ) , θ fiind un parametru necunoscut.
Ne propunem să verificăm ipoteza statistică H 0 : X → F ( x, θ ) cu alternativa
H 1 : X → F ( x, θ ) .
Presupunem că s-au făcut n măsurători x1 , x 2 ,...., x n asupra caracteristicii
X . Intervalul valorilor posibile ale lui X îl împărţim în k intervale
disjuncte D1 , D2 ,..., Dl , Dk = ( x k −1 , x k ) , 1 ≤ k ≤ l .
Notăm cu

pk = P{X ∈ Dk | dacă H0 este adevărată }

Această probabilitate se mai scrie

p k = P ( x k −1 ≤ X < x k ) = F ( x k ; θ ) − F ( x k −1 , θ )
Să presupunem că în intervalul Dk au fost observate nk valori, adică
l
n = ∑ nk .
k =1

Repartiţia presupusă conţine un parametru necunoscut care trebuie estimat din


datele eşantionului x1 , x 2 ,..., x n , motiv pentru care p k nu pot fi cunoscute
exact, ci numai estimaţii ale lor.
Dacă numărul de parametri necunoscuţi este r , atunci se demonstrează că

l
( ni − np i ) 2
χ calculat
2
=∑
i =1 npi

urmează la limită o repartiţie χ2 cu l − r −1 grade libertate.


Dacă χc2 ≤ χl2−r −1 ( extras din tabele) se acceptă ipoteza H0 , altfel se
acceptă ipoteza H1 .

În practică, aplicarea testului χ2 se relizează astfel: caracteristicile datelor de


observaţie se scriu într-un tabel de contigenţă care conţine m lini l1 , l 2 ,..., l m

65
şi n coloane k1 , k 2 ,..., k n , corespunzătoare numărului posibilităţilor de
care sunt susceptibile caracteristicile cărora li se aplică testul.

X k1 k2 kn
Y
lm f 11 f 12 ...... f 1n n

∑f
j =1
1j

l2 f 21 f 22 ...... f 2n n

∑f
j =1
2j

..... ...... ...... ...... ...... ......

lm f m1 f m2 ...... f mn n

∑f
j =1
mj

m m
...... m m
N = ∑(∑ f ij )
n

∑ f i1
i =1
∑ fi2
i =1
∑ f in
i =1 i =1 j =1

Prin f ij am notat frecvenţele observate ale datelor din eşantionul respectiv.


Cu ajutorul acestor frecvenţe se calculează frcvenţele teoretice f ijt , astfel:
m n

∑ f ik ∑ f lj
i =1 j =1
f lkt =
N
iar numărul gradelor de libertate este r = ( m −1)( n −1) .

Testul se calculează cu formula:

m n ( f ij − f ijt ) 2
χ 2
calculat = ∑∑
i =1 j =1 f ijt

Dacă χcalculat
2
< χtabel
2
pentru r grade de libertate, atunci se acceptă ipoteza
H0 , altfel se respinge.

Exemplu. La un examen s-au prezentat un număr 170 persoane: 80 fete şi 90


băieţi, obţinând următoarele rezultate:
 fetele: 38 note mai mici decât 5
24 note de 5 şi 6
18 note de 7, 8, 9, 10.
 băieţii: 32 note mai mici decât 5
36 note de 5 şi 6
22 note de 7, 8, 9, 10.
Diferenţele existente privind rezultatele sunt în raport de sex ?
66
Se pot face ipotezele:

H0 = diferenţele care apar între rezultatele fetelor şi cele ale băieţilor


sunt întâmplătoare.
H 1 = diferenţele existente sunt dependente de sex.

Datele de observaţie sunt consemnate într-un tabel cu trei linii şi două coloane.
Deasupra diagonalei fiecărui dreptunghi se scriu frecvenţele observate, iar sub
diagonala frecvenţele calculate.
Pentru note considerăm caracteristica X, cu trei posibilităţi: note slabe , note
satisfăcătoare şi note bune + foarte bune.
Pentru sex considerăm caracteristica Y cu două variante: sex feminin, sex
masculin.

X fete băieţi
Y
38 32 70
n1
32,9 37,1
24 36 60
n2
28, 31,
2 8
18 22 40
n3 18, 21,2
8
80 90 170

Frecvenţele teoretice se calculează astfel:


(70x80)/170=32,9 ; (70x90)/170=37,1
Se obţine:

5,12 5,12 4,2 2 4,2 2 0,8 2 0,8 2


χ2 = + + + + + = 2,73
32 ,9 37 ,1 28 ,2 31,8 18 ,8 21,2

Se caută valoarea în tabel în funcţie de numărul gradelor de libertate.


Cuvântul libertate se referă la posibilitatea reală a unei măsurători de a varia în
cadrul unei serii de date, iar cuvântul grad face referire la limitele acestei
variaţii.
Dacă tabelul are m linii şi n coloane, atunci numărul gradelor de libertate este
(m-)x(n-1).
În cazul de faţă numărul gradelor de libertate este 2 şi valoarea
corespunzătoare din tabel este 4,60.

67
Deoarece χ2 =2,73<4,60 se acceptă ipoteza nulă H0 , ceea ce înseamnă că
rezultatele obţinute un sunt dependente de sex.

Exemplu. La un concurs sportiv, 320 de tineri au obţinut următoarele


rezultate :
 băieţii : 70 medalii de bronz, 80 medalii de argint şi 50 medalii de aur.
 Fetele : 10 medalii de bronz, 70 medalii de argint, 40 medalii de aur.
Diferenţele existente privind rezultatele sunt în raport de sex ?
Aplicând testul se obţine χ2 =37,16 >9.21, ceea ce înseamnă că se respinge
ipoteza nulă. Rezultatele obţinute sunt dependente de sex.

Testul Student

Testul Student se utilizează pentru verificarea unor ipoteze statistice asupra


mediilor unor caracteristici de calitate ce urmează repartiţia normală.
Una dintre cele mai simple ipoteze alternative asupra mediei unei populaţii
normale N ( µ, σ ) este următoarea:
µ = µ0 ′ ″
H0 : , H 1 : µ > µ0 , H 1 : µ ≠ µ0

în cazul în care dispersia este necunoscută.


Media populaţiei normale N ( µ, σ ) poate reprezenta calitate a medie a unui
produs, iar H 0 se poate interpreta ca o ipoteză asupra calităţii medii.
Student (pseudonimul lui William Gosset 1876-1937) a studiat repartiţia
statisticii
x −µ
t=
s/ n
cunoscută sub numele de repartsau t sau repartiţia Student.
Pentru un număr mic de selecţii ( n < 30 ), densitatea ei de repartiţie se apropie
cea normală.
µ = µ0 ″
Verificarea ipotezei statistice H0 : cu alternativa H 1 : µ ≠ µ0 , unde
caracteristica de calitate X urmează legea N ( µ, σ ) , σ fiind necunoscută,
se efectuează astfel:
1 n
 se calculează media de selecţie x = ∑ xi
n i =1
şi dispersia de selecţie

1 n
s2 = ∑
n − 1 i =1
( xi − x ) 2 , unde x1 , x 2 ,...., x n sunt măsurări asupra caracteristicii

X ;
x − µ0
 se calculează statistica testului t calculat = .
s/ n

68
Decizia privind ipoteza H0 se ia astfel: se acceptă H0 dacă
t calculat ≤t t
n −1,1−
2
ε . Valoarea n−1,1−
2
ε se extrage din tabele.

Teste de comparaţie. Testul t. Testul Z.

Testele t şi Z sunt teste de comparare a mediilor. Ele se aplică pentru


eşantioane independente selectate aleatoriu din populaţii repartizate normal.

Testul t se bazează pe pe repartiţia Student cu n-1 grade de libertate şi se


aplică pentru compararea valorilor medii a două eşantioane având volumele
mai mici decât 30.
Fie două eşantioane de volum n1 şi respectiv n2 , {x1 , x 2 ,..., x n } şi
1

{ y1 , y 2 ,...., y n2 } , atunci numărul t se determină cu ajutorul formulei

n1 n2

∑ (x
i =1
i − m1 ) + ∑ ( y j − m2 )
2

j =1
s =
2

n1 + n2 − 2

unde m1 şi m2 sunt mediile celor două mulţimi de valori, iar n1 + n2 − 2


reprezintă numărul gradelor de libertate.

Testul Z se aplică pentru compararea valorilor medii a două eşantioane de


volum mai mare decât 30.
Numărul Z se calculează cu ajutorul formulei

m1 − m 2
Z= ∑(x i − m1 ) 2 ∑ (x i − m2 ) 2
σ 21 σ 2
2
, σ 12 = i , σ 22 = i
+ n1 n2
n1 n2

Elemente de teoria sondajelor

Şansele ca un studiu statistic să reflecte cât mai bine realitatea sunt cu atât mai
mari cu cât studiul respectiv tinde să cuprindă întreaga populaţie. Acest lucru
este dificil şi uneori chiar imposibil.
Evenimente, procese, fenomene şi activităţi din natură şi societate care
necesită studii statistice sunt de cele mai multe ori aşa de numeroase şi/sau
complexe încât nu pot fi studiate prin examinarea fiecărei unităţi statistice.
Henry Poincare spunea: Slăbiciunea noastră nun e permite să îmbrăţişăm tot
universal şi suntem obligaţi să-l descompunem în bucăţi.
69
De aici rezultă că într-o mulţime de situaţii, studiul lor statistic nu este posibil
decât pentru o parte a acestora, iar pe baza rezultatelor obţinute să putem trage
concluzii pentru tot întregul.
Procedeele prin care pornind de la studierea unui număr restrâns de unităţi ale
unei populaţii statistice se pot obţine rezultate privind întreaga populaţie se
numesc procedee inferenţiale.
Numărul restrâns de unităţi statistice supuse analizei se numeşte eşantion, iar
obţinerea lor din populaţia statistică se numeşte sondaj.
Rezultatele obţinute prin analizarea sondajului respectiv sunt extrapolate la
întreaga populaţie, cu condiţia ca eşantionul să fie reprezentativ.
Un eşantion este reprezentativ pentru o populaţie statistică dacă:
 reprezintă la scară redusă structura populaţiei respective ;
 păstrează caracteristicile populaţiei din care a fost extras ;
 sugerează legea de repartiţie ce caracterizează populaţia ;
 poate fi utilizat pentru estimarea sau determinarea diferiţilor parametri ai
legiii respective.
Reprezentativitatea unui eşantion este acceptabifaţă de valorile reale.lă în
determinarea indicatorilor de structură ai populaţiei se înregistrează abateri de
cel mult 5%.
În general, eşantioane diferite conduc la rezultate diferite, ceeace înseamnă o
fluctuaţie a reprezentativităţii lor.
În analiza statistică se recomandă ca eşantioanele să fie aleatorii.

Tipuri de sondaje

Eşantioanele extrase dintr-o populaţie statistică trebuie să respecte următoarele


cerinţe:
 să fie obţinute la întâmplare;
 eşantioanele de acelaşi volum să aibe aceleaşi şanse de a fi prelevate din
populaţia respectivă;
 unităţile populaţiei respective
să aibe aceeaşi şansă de a aparţine oricărui eşantion.
 numărul de unităţi ce compun eşantionul să fie suficient de mare pentru
ca el să fie reprezentativ.

Se disting următoarele tipuri de sondaje:

 sondaje aleatoare, situaţie în care constituirea eşantionului se face la


întâmplare, prin extragerea la întâmplare a unităţilor din populaţia respectivă.
Fiecare din unităţile populaţiei are aceeaşi şansă de a aparţine eşantionului. Se
utilizează în situaţiile în care populaţiile au ungrad ridicat de omogenitate.
Un exemplu în acest sens este o analiză de apă, sânge etc.

70
 sondaje dirijate, se utilizează atunci când se au în vedere anumite
criterii prestabilite privind modalităţile de selectare a unităţilor statistice care
compun eşantionul. Pentru anumite populaţii, un eşantion aleatoriu nu ar fi
reprezentativ datorită neomogenităţii caracteristicii studiate.
Un exemplu în acest sens este sondajul de opinie în care pentru asigurarea unei
reprezentativităţi corespunzătoare este necesar să fie incluse toate categoriile
sociale.

 sondajul mixt reprezintă o combinaţie a caracteristicilor celor două tipuri


de sondaje, ceea ce înseamnă că eşantionul se constituie prin alegerea aleatoare
a diferitelor unităţi statistice din părţi ale populaţiei formate după criterii
prestabilite.
Se utilizează în studiul unei populaţii în care anterior alegerii unităţilor
statistice trebuie avută în vedere o împărţire a acesteia după anumite criterii.
Un exemplu îl constituie studiul nivelului intelectual dint-o comunitate în care
anterior alegerii persoanelor trebuie realizată o împărţire după studii, profesie
etc.

O altă clasificare a sondajelor poate fi făcută astfel :

 sondaj nerepetat, ceea ce înseamnă că selecţia unei unităţi statistice se


poate face o singură dată, fără a repune unitatea statistică respectivă înapoi în
populaţia de unde a fost extrasă;
 sondaj repetat, ceea ce înseamnă că unităţile statistice care au aparţinut
unui eşantion se repun în populaţia respectivă şi pot face parte dintr-un alt
eşantion.

Din punct de vedere matematic, o populaţie statistică este o mulţime A, iar un


eşantion este o submulţime a sa B.
O unitate statistică aparţine mulţimii A, dar poate să aparţină şi mulţimii B
dacă a fost selectată în eşantionul respectiv.
Numărul unităţilor dintr-un eşantion se numeşte volum de selecţie.
Unui eşantion (selecţii) i se poate ataşa seria statistică şi variabila statistică
corespunzătoare, o repartiţie care poate fi una din legile clasice de probabilitate
sau apropiată de ele, pentru care se pot calcula diferite caracteristici numerice
precum media, dispersia etc.
Caracteristicile numerice care se calculează relativ la un eşantion
(submulţimea B) reprezintă media, dispersia etc. empirice sau de selecţie.
Caracteristicile numerice care se calculează relativ la întreaga populaţie
(mulţimea A) reprezintă media, dispersia etc. teoretice.

Erori de sondaj

Diferenţele între valorile teoretice şi cele empirice sunt erori produse în


procesal de selecţie al eşantioanelor.
71
Distingem următoarele tipuri de erori:
 erori grosolane, care se datorează unor mari greşeli de observare,
măsurare, determinare etc.
 erori sistematice, care se produc repetat şi pot fi identificate şi înlăturate.
 erori aleatoare, care se produc fără cauze precise.

72