Documente Academic
Documente Profesional
Documente Cultură
DUMITRU ENE
STATISTICĂ ECONOMICĂ
BUCUREŞTI , 2005
CUPRINS
Cuvânt înainte
CAP. 1 CALCULUL PROBABILITĂŢILOR
BIBLIOGRAFIE GENERALĂ
Conţinut :
1.1 Evenimente şi probabilităţile lor
1.1.1 Evenimente
1.1.2 Probabilităţile evenimentelor
1.1.3 Probabilităţile condiţionate ale evenimentelor
1.2 Variabile aleatoare
1.2.1 Densitatea de probabilitate şi funcţia de repartiţie
1.2.2 Indicatori numerici
1.2.3 Funcţia caracteristică
1.3 Vectori aleatori
1.3.1 Densitatea de probabilitate şi funcţia de repartiţie
1.3.2 Indicatori numerici
1.4 Variabile aleatoare clasice discontinue
1.4.1 Variabila binomială
1.4.2 Variabila hipergeometrică
1.4.3 Variabila Poisson
1.5 Variabile aleatoare clasice continue
1.5.1 Variabila uniformă
1.5.2 Variabilele exponenţială, Weibull, Erlang
1.5.3 Variabila normală
1.5.4 Variabilele Hi Patrat, Student, Fisher
A. Variabila Hi Patrat (χ 2)
B. Variabila Student(t)
C. Variabila Fisher (F)
1.5.5 Vectorul aleatoriu normal
1.6 Legi-limită
1.7 Rezumat
1.8 Întrebări
1.9 Bibliografie
Un experiment este aleator dacă rezultatele sale nu pot fi prevăzute cu exactitate, fiind
sub influenţa întâmplării.
Exemple:
1) Apariţia unei feţe la aruncarea monezii;
2) Apariţia unei feţe la aruncarea zarului;
3) Apariţia unei bile albe la extragerea din urnă cu bile albe şi negre.
Totalitatea rezultatelor posibile ale unui experiment aleator se numeşte spaţiu de
evenimente elementare şi se notează cu Ω.
Mulţimea părţilor (submulţimilor) lui Ω se notează cu P(Ω).
Exemple:
1) La aruncarea monezii avem Ω = {stemă, ban};
2) La aruncarea zarului avem Ω = {1, 2, 3, 4, 5, 6};
Dacă mulţimea Ω este finită sau numărabilă (şir), orice submulţime A ⊆ Ω se numeşte
eveniment.
Dacă mulţimea Ω este nenumărabilă (de exemplu Ω = R), vom numi evenimente numai
submulţimile A ⊆ Ω a căror familie formează o σ – algebră K ⊆ P(Ω) care se defineşte prin
condiţiile:
1) Ω ∈ К
2) Ai ∈ К pentru i ∈ I ⇒ U
Ai ∈Κ
i∈I
3) A ∈ К ⇒ CA ∈ К
CA se numeşte eveniment contrar cu A şi se mai notează cu Ā.
Exemplu: Dacă A = “apariţia unei feţe pare la aruncarea zarului” atunci CA = “
apariţia unei feţe impare la aruncarea zarului”.
Ω ca eveniment, se numeşte evenimentul sigur iar CΩ = Ø se numeşte evenimentul
imposibil.
Incluziunea A ⊆ B se numeşte implicare a evenimentului B de către evenimentul A:
realizarea lui A determină realizarea lui B.
Exemplu. Dacă A = “apariţia feţei 6 la aruncarea zarului” şi B = “apariţia unei feţe
pare la aruncarea zarului” avem A ⊆ B.
Egalitatea A = B se numeşte echivalenţă a evenimentelor A şi B şi are loc dacă A ⊆ B şi
B ⊆ A.
Evenimentul B este elementar dacă A ⊆ B ⇒ A = Ø sau A = B.
Exemple
1) Apariţia unei anumite feţe la aruncarea unei monezi sau zar este eveniment elementar;
2) Apariţia unei bile albe la extragerea din urnă a unei bile este eveniment elementar.
Dându-se două evenimente A şi B, reuniunea lor se notează cu A B şi se citeşte “A
sau B” fiind un eveniment compus care se realizează dacă se realizează măcar unul dintre
evenimentele A, B.
Dându-se două evenimente A şi B, intersecţia lor se notează A B şi se citeşte
“A şi B” fiind un eveniment compus care se realizează dacă ambele evenimente A, B se
realizează.
Exemplu
Fie A evenimentul că becul 1 funcţionează la un moment dat şi B evenimentul că becul 2
funcţionează în acelaşi moment.
A B este evenimentul că trece curentul prin circuitul paralel care conţine
becurile 1 şi 2.
A B este evenimentul că trece curentul prin circuitul serie care conţine becurile
1 şi 2.
Evenimentele A, B sunt incompatibile dacă nu se realizează simultan adică A
B = Ø.
În caz contrar A şi B se numesc compatibile.
Exemple de evenimente incompatibile
1) Apariţia de feţe diferite la o aruncare cu moneda sau zarul;
2) Apariţia de culori diferite la extragerea unei bile din urnă.
Exemple de evenimente compatibile
1) Nimerirea unei ţinte de doi trăgători care ochesc asupra ei;
2) Funcţionarea la un moment dat a două becuri într-un circuit electric.
Fie К o σ
- algebră de evenimente din P(Ω).
O funcţie P : К → R+ se numeşte probabilitate dacă:
1) P(Ω) = 1
2) P
Ai = ∑P(Ai ) pentru orice familie (Ai) i ∈ I cu Ai ∈ К, incompatibile câte
i∈I i∈I
două.
Tripleta {Ω, К, P} se numeşte câmp de probabilitate.
Fie p(i) numere negative de sumă 1 care se corespund bijectiv cu evenimentele elementare
ωi ⊆ Ω (i ∈ N). Definim P(ωi) = p(i) şi pentru orice eveniment A ∈ P(Ω) luăm
P ( A) = ∑ p(i) .
ωi⊆A
Funcţia P astfel definită este probabilitate în sensul definiţiei de mai sus.
1
În particular dacă Ω = {ω1, …, ωm} şi p( i ) = pentru orice i ∈ {1, …, m} vom avea
m
nr. cazuri favorabile evenimentului A
P ( A) =
nr.cazuri egal posibile
Aceasta este definiţia clasică a probabilităţii unui eveniment.
Exemple
1
1) P( stema ) = = 50% ;
2
1
2) P ( faţă dată la zar ) = = 16, 7% ;
6
3) Fie urna U cu 7 bile albe şi 3 bile negre.
7
P ( bilă extrasă albă) = = 70%
10
Definiţia clasică a probabilităţii nu se aplică dacă:
1) moneda este deformată;
2) zarul nu are feţele egale (este paralelipiped);
3) bilele din urnă nu au acelaşi diametru, căci în aceste cazuri evenimentele
elementare nu sunt egal posibile.
Evenimentele A şi B se numesc independente dacă
P(A B) = P(A) . P(B) şi dependente în caz contrar.
Exemple de evenimente independente
1) Apariţiile unor feţe la aruncarea simultană a două monezi sau zaruri care nu se
ciocnesc;
2) Apariţiile unor feţe la două aruncări succesive a unei monezi sau zar;
3) Apariţiile a două bile la extrageri simultane din două urne diferite;
4) Apariţia a două bile albe la două extrageri succesive dintr-o urnă cu bila revenită.
Exemple de evenimente dependente
Apariţia a două bile albe la două extrageri succesive din urnă cu bila nerevenită.
Teorema 1.1.
Avem proprietăţile:
1) P(Ā) = 1 – P(A) pentru orice A ∈ К;
2) P(A1 … An) = [P(A1) + … + (An)] - [P(A1 A2) + … + P(An-1
n
An)] +… + (-1) P(A1 … An) pentru orice evenimente A1, …,
An∈К
3) 0 < P(A) < 1 pentru orice A ∈ К; P(Ø) = 0; P(Ω) = 1
4) P(A1 … An) > P(A1) + … + (An) – n + 1 (Boole)
Demonstraţie
1) A Ā = Ø şi A Ā = Ω deci P(A Ā) = P(Ω) = 1
deci conform axiomei 2) din definiţia probabilităţii :
P(A) + P(Ā) = 1 deci P(Ā) = 1 – P(A)
2) Vom demonstra egalitatea pentru n = 2 şi apoi aplicăm inductia după n.
Evenimentele A1 şi Ā1 A2 sunt incompatibile şi A1 (Ā1 A2) = A1
A2 deci conform axiomei 2) a probabilităţii, avem:
P(A1) + P(Ā1 A2) = P(A1 A2) (1)
Evenimentele A1 A2 şi Ā1 A2 sunt incompatibile şi (A1 A2)
(Ā1 A2) = A2 deci conform axiomei 2) a probabilităţilor avem:
P(A1 A2) + P(Ā1 A2) = P(A2) (2)
Scăzând egalitatea (2) din (1) obţinem:
P(A1) - P(A1 A2) = P(A1 A2) – P(A2) sau :
P(A1 A2) = P(A1) + P(A2) - P(A1 A2) (3)
Dacă A şi B sunt incompatibile (A B = Ø) din (3) reobţinem axioma 2) a
probabilităţii :
P(A1 A2) = P(A1) + P(A2) (4)
3) P(A) > 0 şi P(Ω) = 1 conform axiomei 1) a probabilităţii.
Dacă A1 ⊆ A2 egalitatea (2) devine:
P(A1) + P(Ā1 A2) = P(A2) sau
P(A2) – P(A1) = P(Ā1 A2) > 0 deci
A1 ⊆ A2 implică P(A1) < P(A2)
În particular A ⊆ Ω deci P(A) < P(Ω) = 1
De asemenea Ø = Ω deci conform punctului 1) avem P(Ø) = 1 – P(Ω) = 0
4) Vom demonstra inegalitatea pentru n = 2 apoi aplicăm inductia după n.
Avem P(A1 A2) = P(A1) + P(A2) – P(A1 A2) > P(A1) + P(A2) – 1 = P(A1) +
P(A2) - 2 + 1
Dacă A1, A2 sunt independente avem conform definiţiei egalitatea P(A1 A2)
.
= P(A1) P(A2). Q.E.D.
Exemple
1) Se aruncă 2 monezi care nu se ciocnesc.
Se cere:
a) Probabilitatea P1 să iasă 2 steme;
b) Probabilitatea P2 să nu iasă nici o stemă;
c) Probabilitatea P3 să iasă cel puţin o stemă.
Soluţie
Fie evenimentele:
1) A1 = “apariţia stemei pe prima monedă” şi A2 = “apariţia stemei pe a doua monedă”
1 1 1
2) A1 şi A2 sunt independente deci P1 = P(A1 A2) = P( A1 ) ⋅ ( A 2 ) = ⋅ = .
2 2 4
1 1 1
b) P2 = P(Ā1 Ā2) = P(Ā1) . P(Ā2) = ⋅ = .
2 2 4
3
c) P3 = 1 – P2 = .
4
2) Se aruncă 2 zaruri care nu se ciocnesc.
Se cere:
a) Probabilitatea P1 să iasă o anumitä dublă;
b) Probabilitatea P2 ca suma punctelor să fie cuprinsă între 2 şi 4;
c) Probabilitatea P3 ca produsul punctelor să fie cuprins între 3 şi 5.
Soluţie
a) Fie A1 evenimentul că iese o faţă dată pe primul zar şi A2 evenimentul că iese aceeaşi
faţă pe al II-lea zar. Evenimentele A1, A2 sunt independente deci P1 = P(A1 A2) = P(A1)
1 1 1
P(A2) = ⋅ = ;
6 6 36
b) Avem 2 = 1 + 1; 3 = 1 + 2 = 2 + 1; 4 = 1 + 3 = 2 + 2 = 3 + 1 deci conform definiţiei
6 1
clasice a probabilităţii avem P2 = = ;
36 6
7
c) Avem 3 = 1 . 3 = 3 . 1; 4 = 1 . 4 = 2 . 2 = 4 . 1; 5 = 1 . 5 = 5 . 1 deci P3 = .
36
3) Se dau două urne U1 cu 7 bile albe şi 3 bile negre şi U2 cu 4 bile albe şi 6 bile negre. Se
extrage câte o bilă din fiecare urnă.
Se cere:
a) Probabilitatea P1 ca ambele bile să fie albe;
b) Probabilitatea P2 ca bilele să fie de aceeaşi culoare;
c) Probabilitatea P3 ca bilele să fie de culori diferite.
Soluţie
a) Fie evenimentele: A1 = “apariţia unei bile albe din urna U1” şi A2 = “apariţia unei bile
albe din urna U2”. Evenimentele A1 şi A2 sunt independente deci: P1 = P(A1 A2) = P(A1)
7 4
.
P(A2) = ⋅ = 28% ;
10 10
b) Evenimentele A1 A2 şi Ā1 Ā2 sunt incompatibile deci
P2 = P[(A1 A2) (Ā1 Ā2)] = P(A1 A2) + P(Ā1
7 4 3 6
Ā2) + P(A1) . P(A2) + + P(Ā1) . P(Ā2) = ⋅ + ⋅ = 46%
10 10 10 10
c) P3 = 1 – P2 = 54%
4) Două becuri au probabilităţile de nedefectare :
P(A1) = 0.8; P(A2) = 0.9
Se cere:
a) Probabilitatea P1 ca prin circuitul serie al celor 2 becuri să treacă curentul;
b) Probabilitatea P2 ca prin circuitul paralel al celor 2 becuri să treacă curentul.
Soluţie
Evenimentele A1, A2 sunt compatibile şi independente.
a) P1 = P(A1 A2) = P(A1) . P(A2) = 0.8 x 0.9 = 72%;
b) P2 = P(A1 A2) = P(A1) + P(A2) – P(A1) . P(A2) = 0.8 + 0.9 – 0.72 = 98%
5) Doi ochitori lovesc o ţintă cu probabilităţile P(A1) = 0.7; P(A2) = 0.8
Se cere:
a) Probabilitatea P1 a lovirii ţintei dacă trag simultan amândoi asupra ei;
b) Probabilitatea P2 a lovirii ţintei dacă primul ochitor execută două focuri succesive
asupra ei;
c) Probabilitatea P3 a lovirii ţintei dacă al II-lea ochitor execută două focuri succesive
asupra ei.
Soluţie
A1, A2 sunt evenimente compatibile şi independente.
a) P1 = P(A1 A2) = P(A1) + P(A2) – P(A1) . P(A2) = 0.7 + 0.8 – 0.7 . 0.8 = 94%;
b) P2 = P(A1 A1) = P(A1) + P(A1) – (PA1) . P(A1) = 0.7 + 0.7 – 0.7 . 0.7 = 91%;
c) P3 = P(A2 A2) = P(A2) + P(A2) – P(A2) . P(A2) = 0.8 + 0.8 – 0.8 . 0.8 = 96%.
6) Un soi de grâu îndeplineşte condiţiile de calitate cu probabilităţile: P(MMB standard) =
0.96; P(putere de germinare standard) = 0.97; P(umiditate standard) = 0.92
Se cere probabilitatea îndeplinirii standardelor pentru cele trei condiţii.
Soluţie. Condiţiile din enunţ sunt dependente deci P(A1 A2 A3) >
P(A1) + P(A2) + P(A3) – 3 + 1 = 0.96 + 0.97 + 0.92 – 2 = 0.85 = 85%.
Pentru a descrie influenţa realizării unui eveniment A1 asupra realizării unui eveniment A2
se foloseşte probabilitatea condiţionată.
P (A 1 A 2 )
Raportul se numeşte probabilitatea lui A2 condiţionată de A1 şi se
P (A 1 )
notează PA1(A2) sau P(A2/A1).
Observăm că dacă A1 şi A2 sunt independente, avem :
P(A1 A2) = P(A1) . P(A2) deci P(A2) = P(A2).
De asemenea dacă A1 implică pe A2 (A1 ⊆ A2) atunci A1 A2 = A1 deci P(A1
A2) = PA1) aşa că PA1(A2) = 1.
Relaţia de definiţie P(A1 A2) = P(A1) . PA1(A2)
se extinde prin inductie după n:
P(A1 … An) = P(A1) . PA1(A2) . . . PA1 …
An-1(An)
(5)
Teorema 1.2. Dacă Ω = A1 … An cu A1, …, An ∈ К şi Ai sunt incompatibile câte
două, pentru orice B ∈ К avem :
1) (Formula probabilităţii totale):
P(B) = P(A1) . PA1(B) + … + P(An) . PAn(B) (6)
2) (Formula Bayes):
P( Aj) ⋅ PAj ( B)
PB ( Aj) =
P( A1 ) ⋅ PA1 ( B) + ... + P( A n ) ⋅ PAn ( B)
(7)
pentru orice j = 1, …, n
Demonstraţie
1) Din relaţia Ω = A1 … An rezultă:
B = (A1 B) … (An B)
A1, …, An fiind incompatibile câte două şi A1 B, …, An B vor fi
incompatibile câte două.
Din axioma 2) a probabilităţii rezultă:
P(B) = P(A1 B) + … + P(An B)
Dar P(Aj B) = P(Aj) . PAj(B) ; (j = 1, …, n)
deci rezultă relaţia (6) din enunt:
P(B) = P(A1) . PA1(B) + … + P(An) . PAn(B)
2)Avem:
45 44 43
⋅ ⋅ = 72.7%
50 49 48
2) O urnă conţine 12 bile albe şi 8 bile negre.
Se extrag succesiv din urnă 3 bile cu bila nerevenită. Care este probabilitatea ca bilele
extrase să fie în ordine: albă, neagră, albă?
Soluţie. Fie evenimentul A1 = “prima bilă extrasă este neagră”; A2 = ” a doua bilä extrasä
este neagrä”; A3 = “a treia bilă extrasă este albă”.
Relaţia (5) se scrie:
P(A1 A2 A3) = P(A1) . PA1(A2) . PA1 A2(A3) =
12 8 11
⋅ ⋅ = 15.4%
20 19 18
3) Se dau urnele U1 cu 12 bile albe şi 8 bile negre, U2 cu 10 bile albe şi 10 bile negre şi U3
cu 6 bile albe şi 14 bile negre.
a) Se extrage o bilă dintr-o urnă. Care este probabilitatea ca ea să fie albă?
b) Se extrage o bilă dintr-o urnă şi se constată că este albă. Din ce urnă provine bila
extrasă?
Soluţie
Fie evenimentele Ai = “bila extrasă provine din urna Ui” (i = 1,2,3) şi B = “bila extrasă
este albă”.
a) Relaţia (6) se poate scrie:
P(B) = P(A1) . PA1(B) + P(A2) . PA2(B) + P(A3) . PA3(B) =
1 12 1 10 1 6 12 10 6 28
= ⋅ + ⋅ + ⋅ = + + = = 46.7%
3 20 3 20 3 20 60 60 60 60
b) Relaţia (7) se scrie pentru j = 1:
P(A1 ) ⋅ PA1 (B)
12 28 12
PB (A1 ) = : = =
= 42.8%
P(B) 60 60 28
10 6
Analog PB(A2) = = 35.7 % ; PB(A3) = = 21.5%
28 28
Deci este mai probabil că bila albă extrasă să provină din urna U1.
4) Se dau urnele U1 cu 12 bile albe şi 8 bile negre şi U2 cu 6 bile albe şi 14 bile negre.
Din U1 în U2 se transferă o bilă apoi se extrage o bilă din U2.
a) Care este probabilitatea ca bila extrasă din U2 să fie albă?
b) Ştiind că bila extrasă din U2 a fost albă, ce culoare avea bila transferată?
Soluţie. Fie evenimentele A1 = “bila transferată din U1 în U2 a fost albă”, A2 = “bila
transferată din U1 în U2 a fost neagră”; B = “bila extrasă din U2 este albă”.
a) Relaţia (6) pentru n = 3 se scrie:
P(B) = P(A1) . PA1(B) + P(A2) . PA2(B) =
12 7 8 6 84 48 132
= ⋅ + ⋅ = + = = 31.4%
20 21 20 21 420 420 420
b) Relaţia (7) pentru j = 1 se scrie:
P(A1 ) ⋅ PA1 (B) 84 132 84
PB(A1) = = : = = 63.6%
P(B) 420 420 132
48
Analog PB(A2) = = 36.4% deci este mai probabil că bila transferată din U1 în U2 a
132
fost albă.
5) Trei boli la bovine au probabilităţile P(A1) = 0.45; P(A2) = 0.36; P(A3) = 0.19
Aceste boli modifică un parametru sanguin cu probabilităţile PA1(B)=0.23; PA2(B)=0.41;
PA3(B)=0.75
a) Care este probabilitatea ca o vacă bolnavă de una din cele trei boli să aibă parametrul
sanguin modificat?
b) La o vacă se constată că parametrul sanguin este modificat de una din cele trei boli.
Care din boli a provocat modificarea?
Soluţie
Fie evenimentele Ai = “vaca s-a îmbolnăvit de boala cu nr. i” (i = 1,2,3); B = “vaca are
parametrul sanguin modificat”.
a) Conform relaţiei (6) pentru n = 3 avem:
P(B) = P(A1) . PA1(B) + P(A2) . PB(A2) + P(A3) . PA3(B) = 0.45 . 0.23 + 0.36 . 0.41 + 0.19 .
0.75 = 0.1035 + 0.1476 +0.1425 = 39.36%
b) Relaţia (7) pentru j = 1 devine:
P(A1 ) ⋅ PA1 (B) 0.1035
PB (A1 ) = = = 26.3%
P(B) 0.3936
0.1476 0.1425
Analog PB(A2) = = 37.5% ; PB(A3) = = 36.2% deci este mai
0.3936 0.3936
probabil că boala nr. 2 a modificat parametrul sanguin.
O variabilă aleatoare este o funcţie X: Ω→R astfel că {ω / X(ω)∈ B}∈К pentru orice
mulţime boreliană B ⊆ P(R).Dacă mulţimea valorilor variabilei aleatoare X este numărabilă (şir
finit sau infinit): x1, x2, …, xn, … atunci {X = xi} sunt evenimente şi cunoaşterea lui P(X = xi) =
f(xi) (i =1,2,3,…) permite calculul lui P(X ∈ B) = Σ f(xi) unde însumarea se face după valorile lui
i pentru care xi ∈ B.
Funcţia xi → f(xi) (i ∈ N) se numeşte densitatea de probabilitate a variabilei aleatoare X.
Avem:
1 = P(Ω) = ∑ f(x i )
i∈N
Dacă mulţimea valorilor variabilei aleatoare X este nenumărabilă, densitatea de
b
probabilitate este o funcţie reală f(x) > 0 astfel că P(a < X < b) = = ∫f(x)dx
a
+∞
În particular 1 = P( −∞ ≤ X ≤ ∞) = ∫ f(x)dx
−∞
În acest caz P(X ∈B) = ∫ f(x)dx
B
Observăm că orice constantă a ∈ R este formal o variabilă aleatoare X cu valoarea a şi
P(X = a) = 1.
O variabilă aleatoare cu mulţimea valorilor numărabilă se numeşte discontinuă iar o
variabilă aleatoare cu mulţimea valorilor nenumărabilă se numeşte continuă.
Exemple de variabile aleatoare discontinue
1) Cu codificarea 1 = “stema”, 0 = “banul”, variabila aleatoare X: 0 1
½ ½
este asociată aruncării unei monezi;
2) La aruncarea unui zar avem variabila aleatoare X: 1 2 3 4 5 6
1/6 1/6 1/6 1/6 1/6 1/6
aleatoare X: 0 1 2
9/25 12/25 4/25
Variabilele de la punctele 1) şi 2) se numesc uniforme deoarece toate valorile au aceeaşi
probabilitate (densitatea de probabilitate este funcţie constantă) iar variabila de la punctul 3) nu
este uniformă.
m x ∈, [ x2 ; 4 ]
4) Fie funcţia f ( =x )
0 i nr e s t
f(x) este densitatea de probabilitate a unei variabile aleatoare continue dacă
+∞ +∞ 4
∫ f(x) =1 şi f(x, y) ≥ 0
−∞
deci ∫ mxdx = 1
-∞
sau ∫ mxdx
2
= 1 adică
4 −2
2 2
1
m. = 1 deci m = 6 . Este vizibil că f(x) > 0.
2
Funcţia reală F(x) = P(X < x) se numeşte funcţia de repartiţie a variabilei aleatoare X.
… + [F(xn) – F(xn+1)] + … adică F(x1) = F(x1) - lim F (xn ) aşa că lim F (xn ) = 0 .
xn → − ∞ xn → − ∞
Relaţia lim F (xn ) = 1 se demonstrează în mod analog.
xn → ∞
2) Fie şirul crescător xn cu limita x0.
Fie evenimentele A = “X < x0”; A0 = “X < x1”; An = “xn < X < xn+1” (n∈N).
Avem Ai Aj = Ø pentru i ≠ j şi A = A0 A1 A2 … An … deci
P(A) = P(A0) + P(A1) + … + P(An) + …
adică F(x0) = F(x1) + [F(x2) – F(x1)] + … + [F(xn) – F(xn-1)] + …
x1, . . .n . . . . . x
Dacă X este variabilă aleatoare discontinuă cu repartiţia
, ea are funcţia de
p1, . . n. . . . . p
repartiţie :
0 ,x < x1
P1 ,x1 < x < x2
F(x) = ………………..
P1 + … + pn-1, xn-1 < x < xn
1 , xn < x
Dacă X este variabilă aleatoare continuă cu densitatea de probabilitate f(x), X are funcţia
x
de repartiţie F(x) = ∫f(t)dt .
−∞
Reciproc, avem F’(x) = f(x).
Pe graficul lui f(x), F(x) este aria de sub grafic aflată în stânga ordonatei lui x:
f(x)
F(x)
Exemple x
1) Pentru variabila aleatoare discontinuă X cu repartiţia :
0 x
1 2 4 6 10
X: ave avem densitatea de probabilitate:
0.11 0.42 0.30 0.07 0.10
0.11 ,x=1
0.42 ,x=2
f(x) = 0.30 ,x=4
0.07 ,x=6
0.10 , x = 10 0 ,x<1
0 în rest 0.11 ,1<x<2
0.53 ,2<x<4
şi funcţia de repartiţie: F(x) = 0.83 ,4<x<6
0.90 , 6 < x < 10
1 , 10 < x
Avem P(1.5 < X < 7.4) = F(7.4) – F(1.5) = 0.90 – 0.11 = 69%
P(X < 5.8) = F(5.8) = 83%; F(3.4 < X) = 1 – F(3.4) = 1 – 0.53 = 47%
2) Pentru variabila aleatoare continuă X cu densitatea de probabilitate :
x
, x ∈ [ 2; 4] x
f(x) = 6 avem funcţia de repartiţie F(x) = ∫f(t)dt
0 în rest −∞
x
Pentru x < 2 avem F(x) = ∫ 0dt = 0
−∞
x x
t t 1 2
Pentru 2 < x < 4 avem F(x) = ∫ dt = ∫ dt = (x − 4) iar pentru
−∞ 6 2 6 12
x 4
t t
x > 4 avem ∫−∞ 6 ∫2 6dt = 1
dt =
1
P(2.3 < X < 3.6) = F(3.6) – F(2.3) = [(3.62 − 4) − (2.32 − 4)] = 63.9% ;
12
1 2
P(X < 3) = F(3) = (3 − 4) = 42.7%
12
1
P(2.5 < X) = 1 – F(2.5) = 1 - (2.52 − 4) = 81.2%
12
Două variabilele aleatoare X1, X2 se numesc independente dacă
P(X1 ∈ B1 şi X2 ∈ B2) = P(X1 ∈ B1) . P(X2 ∈ B2)
În particular dacă X1, X2 sunt variabile aleatoare discontinue, X1, X2 sunt independente
dacă pentru orice x1, x2 ∈ R evenimentele “X1 = x1” şi X2 = x2” sunt independente adică P(X1 = x1
şi X2 = x2) = P(X1 = x1) . P(X2 = x2)
Exemple
1) Aruncarea a două monezi sau zaruri care nu se ciocnesc, dau naştere la variabile
aleatoare independente;
2) Extragerea a câte unei bile albe din două urne dau naştere la variabile aleatoare
independente.
Între variabilele aleatoare independente se fac operaţiile aritmetice obişnuite.
Fie de exemplu variabilele aleatoare discontinue independente X şi Y cu repartiţiile
p i pi a p
a xai xi ± y j
X : respectiv
X ± :Y
;
pi p ⋅
i j q
xi y j X x i /y j
X⋅Y : :
p .q ;
Y p .q (yj ≠ 0)
i j i j
Dacă X este variabilă aleatoare continuă cu densitatea de probabilitate f(x), atunci se arată
că variabila aleatoare Y = φ(X) unde φ este o funcţie bijectivă şi derivabilă, va avea densitatea de
probabilitate:
g(y) = f[φ-1(y)] . [ϕ (y) ]'
−1
Exemplu
Se dă variabila aleatoare X cu densitatea de probabilitate :
x
f(x) = , x ∈[0, 2]
2
0 , în rest
Se cere densitatea de probabilitate a variabilelor Y = 2X + 3;Y = e4X;Y = ln(X + 1)
Soluţie
y−3 1
a) Y = 2X + 3 ⇒ ϕ (y) = [ϕ -1 (y)]' =
−1
; aşa că
2 2
y-3
, x ∈ [3; 7]
g(y) = 8
0 , în rest
lny 1
b) Y = e ⇒ ϕ (y) = [ϕ -1 (y)]' =
4X −1
; aşa că :
4 4y
lny
, y ∈[1; e 8 ]
g(y) = 32y
0 , în rest
e 2y - e y
, y ∈[0; ln3]
g(y) = 2
0 , în rest
x i
Dacă X este discontinuă cu repartiţia X : (i ∈N) atunci
pi
M(X) = ∑xp
i∈N
i i
1
2) Mediana Me(X) este definită de relaţia: F(Me) =
2
∫ [x − M(X)] f(x)dx
2
4) Varianţa V(X) = M[(X – M(X))2] =
−∞
x
, x ∈[2; 4]
f(x) = 6 avem :
0 , în rest
∞ 4 4
x 1 2 x3 4 1 3
∫−∞ xf(x)dx =∫2 x 6 dx = 6 ∫2 x dx = 18 2 = 18 (4 − 2 ) = 3.11
3
M(X) =
x2 − 4
F(x) = pentru x ∈ [2; 4] deci
12
x2 − 4 1
= ⇒ Me(X) = 10 = 3.16; Mo(X) = 4 căci f(x) este crescătoare .
12 2
V(X)=
∞ 4 4
x 1
∫−∞ − =∫2 − ⋅ = ∫ (x 3 −6.22x 2 +3.112 x) =
2 2
[x M(X)] f(x)dx (x 3.11) dx
6 6 2
1 x4 x3 2 x 4
2
= − 6.22 + 11 ⋅ = 0.6543; σ(X) = 0.6543 = 0.81
6 4 3 2 2
0.81
c(X) = = 26%
3.11
Proprietăţile mediei M(X) în raport cu operaţiile cu variabile aleatoare, sunt date de:
Teorema 1.2
Avem proprietăţile:
1) M(a) = a
2) M(X + a) = M(X) + a
3) M(aX) = aM(X)
4) M(X + Y) = M(X) + M(Y)
5) Dacă X, Y sunt independente, avem :
M(X . Y) = M(X) . M(Y)
Demonstraţie
Relaţiile rezultă prin calcul direct pentru variabile discontinue :
x ... x m y ... yn
X: 1 ; Y : 1 şi se generalizează pentru variabile continue
p1 ... p m q1 ... qn
folosind liniaritatea integralelor Q.E.D.
Proprietăţile variantei V(X) în raport cu operaţiile cu variabile aleatoare sunt date de:
Teorema 1.3
Avem proprietăţile:
1) V(a) = 0
2) V(X + a) = V(X)
3) V(aX) = a2V(X)
4) V(X) = M(X2) – M2(X)
5) X, Y = independente ⇒ V(X + Y) = V(X) + V(Y)
Demonstraţie
Relaţiile rezultă prin calcul direct (folosind şi teorema 2.2) pentru variabile discontinue :
x ... x m y1 ... yn
X: 1 ; Y : şi se generalizează pentru variabile continue folosind
p1 ... p m q1 ... qn
liniaritatea integralelor Q.E.D.
Fie X o variabilă aleatoare cu media M(X) şi varianţa V(X) si fie ε > 0.
Dacă cunoaştem funcţia de repartiţie F(x) avem P(M(X) – ε < X < M(X) + ε) =
P( X − M(x) < ε ) = F[ M(x) + ε ] − F[ M(x) − ε ] .
În caz contrar aplicăm inegalitatea Cebâşev valabilă pentru ε > σ (X), dată de:
Teorema 1.4
V(X)
P ( X − M(X) < ε ) ≥ 1 −
ε2
Demonstraţie
x1,. . . nx. . . . . ,
Fie variabila aleatoare discontinuă X cu repartiţia
X :
p1,. . .pn. . . . . ,
Fie I = {i/1 ≤ i ≤ n, x i − M(X) > ε} deci :
n
P ( X − M(X)ε< )1= − ∑
P x ( iM(X)
− ε> =)1 −∑
p i
i =1 i∈I
n
Avem V(X) = ∑ [ x i − M(X) ] pi ≥ ∑ [ xi − M(X) ] pεi ≥ p∑
2 2 2
i aşa că:
i =1 i∈I i∈I
V(X)
1− ≤ 1 − ∑p i = P( X − M(X) < ε ) . Demonstraţia când X este variabilă aleatoare
ε2 i∈I
continuă se face la fel ca mai sus, înlocuind sumele cu integrale. Q.E.D.
Exemple
1) Se dă variabila aleatoare discontinuă X cu repartiţia :
1 2 4 6 10
X: şi cu M(X) = 3.57; V(X) = 6.3651;
0.11 0.42 0.30 0.07 0.10
σ (X) = 2.52. Se cere o margine inferioară pentru P ( X − 3.57 < 3)
Soluţie. Conform inegalităţii Cebâşev cu ε = 3 σ (X) avem:
V(X) 6.3651
P ( X − 3.57 < 3) ≥ 1 − 2
=1− = 29.3% .
ε 9
2) Pentru variabila aleatoare continuă X cu densitatea de probabilitate
X
, X ∈ [ 2; 4]
f(X) = 6
0 , în rest
σ
şi cu M(X) = 3.11;V(X) = 0.6543; (X) = 0.81
ϕ (t ) = ∑ e
itx j
pj
j∈N
+∞ +∞ +∞ +∞
ϕ (t) = ∫ e f(x)dx ≤ ∫ e f(x)dx = ∫ ∫ f(x)dx = 1
itx
itx
cos tx + i sin tx f(x)dx ≤
−∞ −∞ −∞ −∞
−itX
ϕ( −t) = M(e ) = M(cos tX - i sin tX) =ϕ(t)
2) Variabila aleatoare aX are funcţia caracteristică :
∞
M(e i a t X ) = ∫e
i(at)x
f(x)dx = ϕ(at)
−∞
3) X + Y are funcţia caracteristică:
ϕ (t) = M(eit(X+ Y) ) = M(ei t X .eitY ) = M(eit X ).M(ei t Y ) căci X, Y sunt
independente deci φ(t) = φ1(t) . φ2(t)
4) Derivăm funcţia caracteristică de k ori:
∞ ∞
ϕ (t) = ∫ (ix) e f(x)dx = i ∫xe
(k) k itx k k itx
f(x)dx deci
−∞ −∞
∞
ϕ (k) (0) = i k ⋅ ∫ x f(x)dx = i M(X
k k k
) Q.E.D.
−∞
Inversarea transformatei Fournier permite exprimarea în mod unic a densităţii de
probabilitate f(x) a variabilei aleatoare X cu ajutorul funcţiei caracteristice φ(t):
1 ∞ −i t x
f(x) = ∫e ϕ(t)dt
2π −∞
Teorema 2.5 transferă proprietăţile lui φ(t) la f(x):
+
∞
1) f(x) > 0; ∫f(x)dx =1
−∞
2) Dacă variabila aleatoare X are densitatea de probabilitate f(x), variabila aX are
densitatea af(x).
3) Dacă variabilele aleatoare independente X, Y au densităţile de probabilitate f1(x), f2(x),
atunci variabila aleatoare X+Y are ca densitate de probabilitate produsul de convoluţie al lui
+∞ +∞
−∞
Exemple
1 2 4
1) Fie variabila aleatoare discontinuă X cu repartiţia X:
0.1 0.6 0.3
Să se afle funcţia caracteristică φ(t)
Soluţie. ϕ (t) = eit × 0.1 + e 2it × 0.2 + e 4it × 0.3
2) Fie variabila aleatoare continuă X cu densitatea de probabilitate
x
, x ∈ [ 2; 4]
f(x) = 6 Se cere funcţia caracteristică φ(t)
0 în rest
Soluţie
+∞
1 4 itx 1 4 4
ϕ (t) = ∫ e i t x f(x)dx =
6 ∫2 6 ∫2
e xdx = x cos t x dx + i ∫ x sin tx dx =
−∞ 2
=
1
6t 2
[
(1 − 4it ) e 4it − (1 − 2it ) e 2it ]
Fie spaţiul euclidian Rn şi σ - algebra mulţimilor boreliene B ⊆ P(R ) adică cea mai
n
mică σ - algebră de submulţimi ale lui R care conţine toate intervalele din R .
n n
x1 _ m_x _
Variabila marginală X are repartiţia
X: m
media: M(X) = ∑x i p i şi varianţa:
p1 _ pm_ _
i =1
m
V(X) = ∑ x i 2 p i − M(X) 2
i =1
y1 _ Yn_ _
Variabila marginală Y are repartiţia
Y: n
media: M(Y) = ∑y j q j şi
j=1
n
q1 _ qn_ _
varianţa: V(Y) = ∑y j q j − M(Y)
2 2
j =1
Exemplu. La tragerea la ţintă, orice lovitură este caracterizată de perechea (X, Y) unde X
este abaterea în direcţie faţă de centrul O al ţintei şi Y este abaterea în înălţime faţă de centrul O
al ţintei iar rij = P(X = xi şi Y = yj); i, j ∈ N este probabilitatea ca o lovitură să aibă abaterea în
direcţie xi şi în înălţime yj.
Dacă mulţimea valorilor vectorului aleator Z = (X, Y) este nenumărabilă atunci vectorul
aleator se numeşte continuu şi densitatea sa de probabilitate este o funcţie reală f(x, y) > 0
bd
astfel că P(a < X < b şi c < Y < d) = ∫∫f(x, y)dxdy .
a c
+∞ +∞
În particular 1 = P(X ∈R si Y ∈R) = ∫ ∫ f(x, y)dxdy
- ∞ −∞
m 2xy , ∈x [ 2 ;] 4
Exemplu. Fie funcţia f ( xy ,=) y ∈ [ 1 ;] 3 şi f(x,y) este densitatea de probabilitate al
0 i nr e s t
+∞ +∞
vectorului aleator continuu Z = (X, Y) dacă ∫ ∫ f(x, y) =1 şi f(x,y) > 0 deci
−∞−∞
+∞ +∞ 4 3
2
∫ ∫ mx ydxdy =1 sau m ∫ x 2 dx ⋅ ∫ ydy = 1 deci
−∞ − ∞ 2 1
56 3
m⋅ ⋅ 4 =1 aşa că m = . Vizibil f(x,y) > 0.
3 224
Funcţia de repartiţie a vectorului aleator Z = (X, Y) este F(x, y) = P(X < x şi Y < y).
Ca şi în cazul variabilei aleatoare (teorema 2.1.) se demonstrează:
Teorema 2.6
Avem proprietăţile:
1) F(x, y) ia valori în [0; 1];
−∞ −∞
224 −
−∞
3∞ 2− ∞
0 , x < 2 sau y < 1
1
adică: F(x, y) = (x 3 − 23 )(y 2 − 12 ) în rest
448
1 , x > y si y > 3
Pe graficul suprafeţei z = f(x, y), densitatea de probabilitate f(x, y) este cota punctului de
abscisă x şi ordonată y iar funcţia de repartiţie F(x, y) este volumul de sub suprafaţa z = f(x, y)
aflat în semispaţiul Z > 0 şi în stânga planelor X = x şi Y = y.
Teorema 1.7
Variabilele aleatoare X, Y din componenţa vectorului aleator Z = (X, Y) sunt
independente dacă şi numai dacă F(x, y) = F1(x) . F2(y) sau dacă şi numai dacă
f(x, y) = f1(x) . f2(y)
Demonstraţie
X, Y sunt independente dacă şi numai dacă evenimentele “X < x” şi Y < y” sunt
independente dacă şi numai dacă P(X < x şi Y < y) = P(X < x) . P(Y < y) dacă şi numai dacă F(x,
y) = F1(x) . F2(y) de unde prin derivare parţială în raport cu x, y obţinem F”xy(x, y) = F’1(x) .
F’2(y) adică f(x, y) = f1(x) . f2(y). Q.E.D.
În afară de funcţia de repartiţie F(x, y), vectorul aleator Z = (X, Y) are şi următorii
indicatori numerici:
1) Vectorul medie M(Z) = (M(X), M(Y)) unde
+∞ +∞
M(X) = ∫ xf 1 (x)dx; M(Y) = ∫ yf 2 (y)dy
−∞ −∞
x1 _ m_x _
Dacă X, Y sunt discontinue, de exemplu dacă
X: şi
p1 _ pm_ _
y1 _ yn_ _
Y: avem:
m
M(X) = ∑x i p i ;
n
M(Y) = ∑y jq j
j =1
q1 _ qn_ _
i =1
C X ( C X ) Y ( , X) ,
2) Matricea de covarianţă :
C =( Z )
C X ( C Y ) Y ( , Y) ,
Aici C(X, Y) este covarianţa variabilelor aleatoare X, Y dată de relaţia de definiţie:
C(X, Y) = M[(X – M(X) . (Y – M(Y)].
Dacă X, Y sunt discontinue, avem:
m n
C(X, Y) = ∑∑(x i − M(X)) ⋅ (y j − M(Y)) ⋅ rij
i =1 j =1
unde rij = P(X = xi şi Y = yj)
Dacă X, Y sunt continue avem:
+∞ +∞
C(X, Y) = ∫ ∫ (x − M(X) ⋅ (y − M(Y)) ⋅ f (x, y)dx dy
−∞ −∞
Este vizibil că C(X,Y) = C(Y,X)
De asemenea avem:
m +∞
C(X, X) = V(X) = ∑(x i − M(X)) 2
⋅ pi = ∫ (x − M(X)) ⋅ f1 (x)dx respectiv:
i =1 −∞
n +∞
C(Y, Y) = V(Y) = ∑(y j − M(Y)) 2
⋅qj = ∫ (y − M(Y)) ⋅ f 2 (y)dy
j =1 −∞
Observăm că eroarea pătratică totală :
m n
SPA(x, y) = ∑ (x − x i ) ⋅ pi + ∑ (y − y j ) 2 ⋅ q j
2
este minimă pentru x = M(X), y =
i =1 j=1
M(Y), valoarea minimului fiind urma V(X) + V(Y) a matricii de covarianţă C(Z).
2) Funcţia de regresie Y = g(X)
În cazul vectorului aleator discontinuu Z = (X,Y) definim mediile condiţionate:
n
M c (x i ) = M X = x i (Y) = ∑ y jrij se defineşte prin relaţiile: g(xi) = MX=xi (Y)
j =1
În cazul vectorului aleator continuu Z = (X,Y) definim mediile condiţionate:
+∞
Mc(xi) = MX=Xi(Y) = ∫ yf(x, y)dy iar funcţia de regresie va fi:
−∞
g(x) = Mc(x)
4) Coeficientul de corelaţie liniară al variabilelor aleatoare X,Y este definit de relaţia:
C(X, Y) C(X, Y)
ρ(X, Y) = =
V(X) ⋅ V(Y) σ(X) ⋅ σ(Y)
Proprietăţile covarianţei C(X,Y) în raport cu operaţiile cu variabile aleatoare, sunt date de:
Teorema 1.8
Avem proprietăţile:
1) C(a,b) = 0
2) C(X + a, Y + b) = C(X,Y)
3) C(aX, bX) = abC(X,Y)
1
4) C(X,Y) = M(X . Y) – M(X) . M(Y) = [ V(X + Y) − V(X) − V(Y) ]
2
5) Dacă X,Y sunt variabile aleatoare independente atunci C(X,Y) = 0 adică X,Y sunt
necorelate liniar.
Dacă X,Y sunt variabile aleatoare normale este adevărată şi reciproca.
Demonstraţie
Relaţiile 1) – 4) rezultă prin calcul direct, folosind teoremele 2.2 şi 2.3 şi definiţia lui
C(X,Y).Dacă X = Y, din teorema 1.8 reobţinem teorema 1.3.
Să demonstrăm punctul 5) din enunţ.
Dacă X,Y = variabile aleatoare independente, conform teoremelor 2.2 şi 2.3 avem M(X .
Y) = M(X) . M(Y) respectiv V(X + Y) = V(X) + V(Y) deci conform punctului 4) din enunţ, avem
C(X.Y) = 0 adică X, Y nu sunt corelate liniar. Reciproca pentru X, Y = variabile aleatoare
normale va fi demonstrată în teorema 3.10.
Dacă X, Y nu sunt variabile aleatoare normale, reciproca afirmaţiei de la punctul 5) din
enunţ, nu este adevărată: există variabile necorelate liniar care sunt dependente.
Exemplu
Pentru vectorul aleator discontinuu Z = (X, Y) cu repartiţia
Y 1 3 Suma p
X
1 0.4 0 0.4
2 0.1 0.5 0.6
Suma q 0.5 0.5 1
Teorema 1.9
Avem proprietăţile:
1) ρ(a, b) = 0
2) ρ(X + a, Y + b) = ρ(X,Y)
3) ρ(aX, bY) = ρ(X, Y)
4) ρ(X, Y) ≤1; ρ(X, Y) =1; dacă şi numai dacă X,Y sunt dependente funcţional
liniar: Y = aX + b
5) Dacă X, Y sunt variabile aleatoare independente atunci ρ(X, Y) = 0 adică X, Y sunt
necorelate liniar.
6) Dacă X, Y sunt variabile aleatoare normale, este adevărată şi reciproca.
Demonstraţie
Relaţiile 1) – 3) rezultă prin calcul direct, folosind teoremele 2.3, 2.8 şi definiţia lui ρ(X,
C(X, Y)
Y) = . Din relaţiile 2) – 3) rezultă:
V(X) ⋅ V(Y)
X − M(X) Y - M(Y)
ρ(X, Y) = C
σ(X) ,
σ(Y)
Relaţia 5) din enunţ rezultă din relaţia 5) a teoremei 2.8 şi din definiţia lui ρ(X, Y).
Să demonstrăm punctul 4) din enunţ.
σ σ
Avem V[ (Y) . X - (X) . Y] > 0, relaţie în care folosim teoremele 2.2, 2.3, 2.8 şi
obţinem: σ (X) σ (Y) - σ (X) σ (Y)
2 . 2 . .
C(X,Y) > 0 sau
C(X, Y)
≤1
σ(X)σ(Y)
În mod analog relaţia V[ σ (Y) .
X+ σ (X) .
Y] > 0 conduce la relaţia ρ(X, Y) > - 1 deci
ρ(X, Y) ≤1
Dacă ρ(X, Y) =1
să arătăm că Y = aX + b.
Fie funcţia E(a, b) = M[(Y – aX – b)2]
Folosind teoremele 2.2, 2.3, 2.8, avem:
E(a, b) = V(Y) + a2V(X) – 2a ρ(X, Y) . (X) σ σ
(Y) + [M(Y) – aM(X) - b]2
Pentru a minimiza funcţia E(a, b), anulăm derivatele sale parţiale în raport cu a, b:
σ(Y)
a = ρ(X, Y) ; b = M(Y) − aM(X)
σ(X)
.
deoarece C(X,aX + b) = M[X(aX + b)] – M(X) M(aX + b) =
= aM(X2) – aM2(X) = aV(X)
Dacă a > 0 avem ρ(X, aX + b) = 1 iar dacă a < 0 avem ρ(X, aX + b) = -1
a se numeşte coeficientul de regresie liniară iar b se numeşte termenul liber al regresiei.
Exemplu
Fie vectorul aleator discontinuu Z = (X, Y) cu repartiţia:
Y 1 2 0 Suma p
X
1 0.5 0.1 0 0.6
2 0 0 0.4 0.4
Suma q 0.5 0.1 0.4 1
Variabila aleatoare binominală este variabilă aleatoare cu un număr finit de valori având
ca model schema bilei revenite. Această schemă este un caz particular al unei scheme mai
generale, numită schema lui Poisson care constă în următoarele:
Se dau n urne: U1 cu a1 bile albe şi b1bile negre, Un cu an bile albe şi bn bile negre. Se
extrag n bile, câte una din fiecare urnă (extrageri independente). Probabilitatea de a extrage o
bilă albă din urna Uj este : pj =(aj / (aj +bj ) iar probabilitatea de a extrage o bilă neagră din urna
Uj este qj = 1- pj (1≤ j ≤ n).
Teorema 1.10
Probabilitatea ca din n bile să obţinem k bile albe (k=0,1,….,n) şi restul negre, este
coeficientul lui tk în produsul (p1t+q1)….(pnt +qn) este :
Pn , k = ∑ pi1 ...pik qik +1 ....qin
Demonstraţie
Fie Aj evenimentul extrageii unei bile albe din urna Uj şi Äj evenimentul extragerii unei
bile negre din urna Uj (1≤ j≤ n).
Obţinerea a k bile albe şi n-k bile negre când se extrage câte o bilă din fiecare din cele n
urne, constă în realizarea unui eveniment de forma:
An,k = Ai1∩…..∩Aik∩ A ik+1∩…..∩ A in
unde i1,….., in este o permutare a indicilor 1,…n. Cum evenimentele Aj, A j sunt independente
câte două, avem:
P(An,k)=pi1….pikqik+1….qin
Evenimentele An,k fiind incompatibile câte două, probabilitatea Pn,k a obţinerii a k bile albe
şi n-k bile negre în schema Poisson, va fi:
Pn,k = Σ pi1….pikqik+1…..qin
pentru toate permutările i1,..in ale indicilor 1,….,n adică chiar coeficientul lui tk în produsul
(p1t+q1)….(pnt+qn) Q.E.D.
Schema lui Poisson se aplică când se urmăreşte ca în experimente independente să apară
de k ori un eveniment A, dacă se cunosc probabilităţile diferite de realizare a sa în cele n
experimente.
Schema bilei revenite se obţine ca un caz particular din schema lui Poisson când urnele
U1,…,Un au un conţinut identic în bile albe şi negre:
a1=…..=an= a şi b1=….bn=b
În aces caz extragerea simultană a câte unei bile din cele n urne identice U cu a bile albe
şi b bile negre este echivalentă cu extragerea succesivă a n bile dintr-o singură urnă U cu a bile
albe şi b bile negre, punând bila înapoi în urnă după fiecare extragere, pentru ca urna U să fie
identică la fiecare din cele n extrageri succesive.
Avem p1=…..=pn=p şi q1=….qn=q=1- p, deci Pn,k este coeficientul lui tk în produsul (pt+q)
…(pt+q)=(pt+q)n adică:
Schema bilei revenite se aplică când se urmăreşte ca în n repetări independente ale unui
experiment, să apară de k ori un eveniment A, dacă se cunoaşte probabilitatea sa de realizare în
acel experiment.
Aruncările repetate de monezi şi zaruri se supun schemei bilei revenite, dând naştere la
evenimente independente.
Formula combinărilor este:
n(n − 1)...(n − k + 1) n!
Cnk = (kn ) = = = Cnn −k
1.2...k k !(n − k )!
Funcţii EXCEL pentru aranjamente,permutări şi combinări :
a) Aranjamente de n obiecte luate cîte k :
Ank=n(n-1)…(n-k+1)= n! / (n-k)!
Funcţia EXCEL : = PERMUT(n,k)
b) Permutări de k obiecte:
Pk = 1.2….k = k!
Funcţia EXCEL : = FACT(k)
c) Combinări de n obiecte luate cîte k :
Cnk = ( nk ) = Ank / Pk = n!/ k!(n-k)!
Funcţia EXCEL : = COMBIN(n,k)
Teorema 1.11
Dacă X,Y sunt variabile binomiale independente de tip B(n1,p) şi respectiv B(n2,p), atunci
X + Y este variabilă binomială de tip B(n1+n2,p).
Demonstraţie
Conform teoremei 2.5 , X+Y are funcţia caracteristică (peit+q)n1.(peit+q)n2
=(peit +q)n1+n2 deci X+Y este variabilă binomială B(n1+n2,p) Q.E.D.
Valorile f(k) din formula (1) se obţin prin calcul direct pentru n<30 iar pentru n≥30
variabila binomială se poate aproxima cu cea normală (Teorema 3.14 (Moivre-Laplace) de mai
jos).
Observăm că f(k) din formula (1) este termenul general al dezvoltării binomului 1=(q+p)n,
de unde şi denumirea de variabilă binomială.
Dacă urna U are a1 bile de culoarea 1,…,am bile de culoarea m şi extragem succesiv n bile
cu bila revenită, dorim să apară k1 bile de culoarea 1,…,km bile de culoarea m, deci avem
variabila aleatoare polinomială cu densitatea de probabilitate:
n!
f ( k1 ,...km ) = p1 k1 ... pm km
k1 !...km !
(k1,…,km=0,1,….n; k1+…+km=n)
Pentru m=2 reobţinem variabila aleatoare binominală.
Exemple:
1) Se aruncă o monedă de n=5 ori. Care este probabilitatea să apară stema de k=2 ori ?
Soluţie
Aruncările succesive ale monedei sunt independente deci se supun legii binomiale.
1 1
Acum p = , q = 1 − p = , n = 5, k = 2 deci conform relaţiei (1) avem:
2 2
1 1 5.4 1 5
f (2) = C5 2 ( )2 ( )3 = . 5 = = 31.2%
2 2 1.2 2 16
Funcţii EXCEL : = BINOMDIST(2,5,0.5,FALSE) = 31.2%
= BINOMDIST(2,5,0.5,TRUE) =50%
5
Numărul mediu de bile albe va fi: M(X)=np= = 2.5 bile albe şi abaterea standard a
2
1 1 5
numărului de bile albe va fi σ ( x) = npq = 5. ⋅ = = 1.1 bile albe.
2 2 2
2) Se aruncă un zar de n=4 ori. Care este probabilitatea să apară faţa nr. 6 de k=2 ori?
Soluţie
Aruncările succesive ale zarului sunt independente deci se supun legii binomiale.
1 5
Avem p = , q = 1 − p = , n = 4, k = 2 deci conform relaţiei (1) avem:
6 6
1 2 5 2 4.3 52 52 25
f (2) = C ( ) ( ) =
2
4 . 4 = 3 = = 11.6%
6 6 1.2 6 6 216
Funcţii EXCEL : = BINOMDIST(2,4,1/6,FALSE) = 11.6%
= BINOMDIST(2,4,1/6,TRUE) =98.4%
4
Numărul mediu de feţe nr. 6 apărute va fi M ( x) = np = = 0.7 bile iar abaterea standard
6
20 5
a numărului de feţe nr.6 apărute va fi σ ( x) = npq = = = 0.7 bile
36 3
3) Se dă o urnă U cu a=6 bile albe şi b = 14 bile negre. Se extrag succesiv n=4 bile cu bila
revenită. Care este probabilitatea să obţinem k=2 bile albe ?
Soluţie
6 14
Avem p = , q =1 − p = , n = 4, k = 2 deci conform formulei (1) avem:
20 20
6 14 4.3 32.7 2
f ( 2) = C 4 2 ( ) 2 ( ) 2 = . = 26 .5%
20 20 1.2 10 4
Funcţii EXCEL : = BINOMDIST(2,4,0.3,FALSE) = 26.5%
= BINOMDIST(2,4,0.3,TRUE) =91.6%
Teorema 1.12
Probabilitatea ca din n bile extrase să apară k bile albe (k=0,1,…,n) în cadrul schemei
bilei nerevenite este:
Cak .Cbn−k
Pn ,k =
Can+b
Demonstraţie:
Din a bile albe se pot forma Cak grupe distincte de câte k bile albe în fiecare grupă iar din
b bile negre se pot forma Cbn-k grupe distincte cu n-k bile negre în fiecare grupă.
Extragerea culorilor albă şi neagră fiind independente, numărul cazurilor favorabile în
schema bilei nerevenite este Cka.Cbn-k. Din a+b bile se pot forma Ca+bn grupe distincte cu n bile în
fiecare grupă, deci numărul cazurilor egal posibile în schema bilei nerevenite este Ca+bn. Conform
Cak .Cbn −k
definiţiei clasice a probabilităţii avem: Pn , k = Q.E.D.
Can+b
În concluzie, densitatea de probabilitate a variabilei hipergeometrice H(a,b,n) este:
C ak .Cbn − k
f (k ) =
C an+b
Un calcul comod pentru f(k) se face cu formulele de recurenţă:
Cn a (a − 1)....(a − n + 1)
f (0) = na = ; (k = 0)
Ca +b (a + b)(a + b − 1)....(a + b − n + 1)
(a − k + 1)(n − k + 1)
f ( k ) = f ( k − 1). ; (k = 1,2,......n)
(b − n + k ).k
Funcţia de repartiţie hipergeometrică este :
k
Cah .Cbn −h
F (k ) = ∑
h =0 Can+b
i i
deci V(X) = M(X )-M (X) = λ
2 2
Teorema 1.13
Dacă X,Y sunt variabile Poisson de tip PO (λ 1 ) respectiv PO(λ 2) atunci X+Y este
variabilă Poisson de tip PO ( λ 1+ λ 2).
Demonstraţie
Conform teoremei 2.5. X+Y are funcţia caracteristică
it it it
ϕ (t ) = ϕ1 (t )ϕ 2 (t ) = eλ1 ( e −1) .eλ2 ( e −1) = e( λ1 +λ2 )( e −1) deci X+Y este variabilă Poisson de tip
PO(λ 1+ λ 2) Q.E.D.
Teorema 1.14
Variabila Poisson se obţine din variabila binomială dacă n∞,p0 şi np = λ .
Demonstraţie
Avem :
(np ) k 1 k − 1 (1 − p )n λk − λ
Cnk p k q n −k = (1 − )....(1 − ). care tinde catre e
k! n n (1 − p) k k!
1 k −1
deoarece (1- )...(1 − ) → 1, (1 − p) k → 1 şi (1-p) n = [(1 − p ) −1/ p ]−np → e− λ .
n n
Rezultă că modelul aproximativ al variabilei Poisson este schema bilei revenite aplicată
unei urne foarte bogate iar cu foarte puţine bile albe şi din care se extrag succesiv cu bila revenită
un număr de n foarte mare de bile. Din acest motiv variabila Poisson se mai numeşte variabila
evenimentelor rare.
Repartiţia Poisson se găseşte des în agricultură: numărul gemenilor, numărul animalelor
cu tare genetice şi numărul celulelor iradiate cu particule α, β sunt evenimente rare.
Exemplu
Numărul mediu de miei la 100 oi este de 120 miei, Care este probabilitatea ca o oaie să
fete 2 miei ?
Soluţie
1.22 −1.2
Avem λ =1.2 şi k=2 deci f (2) = e = 21.7 %.
2!
Funcţii EXCEL : = POISSON(2,1.2,FALSE)=21.7%
= POISSON(2,1.2,TRUE) = 87.9%
p1 _ pn_ _
xi = x1 dacă 0 < γi < p1
xi = x2 dacă p1 < γi < p1 + p2
…………………………………….
xi = xk dacă p1 + … + pk-1 < γi < p1 + … + pk
……………………………………………………….
xi = xn dacă p1 + … + pn-1 < γi < 1
Dacă X este variabilă aleatoare discontinuă cu un şir infinit de valori, din condiţia 0 < pi <
∞
1 şi ∑p i =1 rezultă că numai pentru un număr finit de valori xi avem pi > ε cu 0 < ε < 1 deci
i =1
vom lua în calcul numai aceste valori.
Dacă X este variabilă aleatoare continuă, din relaţia F(xi) = γi (i = 1, …, m) rezultă xi ca
funcţie de γi.
cu proprietăţile :
1) Γ(1)=1; Γ(1/2)= π ;
2) Γ(n+1) = n!;
3) Γ(x+1) = x Γ(x)
C) Dacă X1,….Xn sunt variabile aleatoare exponenţiale, independente câte două şi toate
de parametru λ, atunci X=X1+…+Xn este variabilă Erlang cu densitatea de
probabilitate :
λn
f ( x) = x n −1e− λ x ;( x ≥ 0)
(n − 1)!
n −1 (λx ) j
−λ. x
Funcţia de repartiţie este F ( x) =1 − e .∑
j =0 j!
Fie T variabila aleatoare pozitivă a timpului de funcţionare fără defecţiuni a unui element
constructiv al unei maşini agricole.
Notăm cu F(t) funcţia de repartiţie şi cu f(t) densitatea de probabilitate a variabilei
aleatoare T.
Fiabilitatea elementului constructiv considerat este probabilitatea funcţionării lui fără
defecţiuni în intervalul de timp [0, t] adică:
R(t) = P(T > t) = 1 – F(t)
Teorema 2.1. se transcrie pentru R(t) astfel:
1) R ia valori între 0 şi 1; R(0) = 1; lim R (t ) = 0 ;
t →∞
2) R este continuă la stânga: lim R(t ) = R(t ) ;
t ↑ t0
0
Avem 0 t
t
P(T > t + Δt ) R ( t + Δt )
P( T > t ) ( t < T < t + Δt ) =1 − =1 − deci:
P(T > t ) R (t )
P( T > t ) ( t < T < t + Δt ) R ( t + Δt ) − R ( t ) 1
=− ⋅ deci trecând la limită pentru Δt → 0
Δt Δt R (t )
obţinem:
t
R ' (t) f (t)
λ( t ) = − = . Reciproc, avem: ∫ λ (s ) ds
R ( t ) 1 − F( t ) R ( t ) =e 0
Graficul ritmului de defectare are forma:
λ (t)
I II
IIIII III
0 tr tu t
Mp(T) = ∫R
0
p (t )dt .
σ 2t 2
Funcţia caracteristică este iµt −
2 deci conform teoremei 2.5. avem:
ϕ (t ) = e
ϕ '(0) ϕ (0)''
M (X ) = = µ ; M ( X 2 ) = 2 = µ 2 + σ 2 deci V(X) = M ( X 2 ) − M 2 ( X ) = σ 2
i i
Variabila normală X are notaţia X=N(μ, σ).
Din graficul densităţii de probabilitate f(x) a variabilei normale se confirmă cele 2 legi ale
erorilor accidentale, găsite de Gauss:
1) Legea simetriei: Numărul valorilor care se abat sub media μ este egal cu numărul
valorilor care se abat peste media μ;
2) Legea concentrării: Abaterile mici de la media μ sunt numeroase iar abaterile mari de
la media μ sunt rare.
Dacă pe verticala lui μ lăsăm să cadă boabe de cereale, boabe de nisip sau pietricele ,
acestea se ciocnesc şi se rostogolesc formând o grămadă care are în secţiune verticală profilul de
curbă normală de mai sus.
Teorema 1.15
Dacă X1, X2 sunt variabile aleatoare normale de tip N(μ1,σ 1) şi respectiv N(μ2,σ 2),
independente între ele, atunci variabila aleatoare a1X1+a2X2 este o variabilă aleatoare normală de
tip N(a1µ 1+a2 μ2 ; (a12σ 12+a22σ 22)1/2).
Demonstraţie
Variabila aleatoare a1X1+a2X2 are conform teoremei 2.5. funcţia caracteristică:
a12σ12t 2 a22σ 22t 2 ( a 2 σ 2 + a 22 σ 22 ) t 2
ϕ 1(a1t1)ϕ 2(a2t2)= ia1µ1t − . ia µ
2 2 t − =e i ( a1µ1 + a2 µ2 ) t − 1 1
e 2
e 2 2
deci a1X1+a2X2 este variabilă aleatoare normală de tip N(a1μ1+a2μ2; a12σ 12 + a22σ 22 ) Q.E.D.
Legătura între variabila normală X=N(μ, σ ) şi variabila normală redusă U=N(0,1) este
x −µ
dată de relaţia U = respectiv X = μ+Uσ .
σ
Funcţia de repartiţie a variabilei normale reduse U=N(0,1) este
t2
1 u −
F (u ) =
2π
∫−∞ e 2 dt
Valorile lui F(u) pentru u ≥0 se găsesc în tabela 1 din Anexă iar pentru u <0 avem:
F(u)=1-F(-u).
Graficul lui F(u) are forma:
A. Variabila Hi Patrat (χ 2)
Dacă X1,….,Xn sunt variabile aleatoare N(0,1) independente câte două, atunci variabila X
definită de relaţia: X 2 = X 12 + .... + X n2 se numeşte variabilă hi pătrat (X2) cu n grade de
libertate.
Ea are densitatea de probabilitate:
1
f ( x) = n x n / 2−1e − x / 2 ;( x ≥ 0)
n
2 2 Γ( )
2
n
Funcţia caracteristică este φ(t)=(1-2it) −2 deci conform teoremei 2.5. avem M(X)=
ϕ '(0) ϕ "(0)
= n; M ( X 2 ) = 2 = n2 + 2n aşa că :
i i
V(X)=M(X2)-M2(X)=2n
Teorema 1.17
Dacă X1, X2 sunt variabile hi patrat cu n1 grade de libertate respectiv n2 grade de libertate,
atunci X1+X2 este variabilă hi patrat cu n1+n2 grade de libertate.
Demonstraţie
Conform teoremei 2.5. variabila aleatoare X1+X2 are funcţia caracteristică
n1 n2 n1 +n2
− − −
ϕ (t ) = (1 − 2it ) 2 .(1 − 2it ) 2 = (1 − 2it ) 2 deci este variabilă hi patrat cu n1+n2 grade de
libertate. Q.E.D.
Variabila hi pătrat cu n grade de libertate este un caz particular al variabilei Gama
generalizate din această secţiune, punctul 3.2.6
Dacă X este variabilă hi pătrat cu n grade de libertate (n≥30) atunci variabila
(U + 2n − 1) 2
2 X 2 − 2n − 1 ≈ U unde U = N (0,1) de unde rezultă că variabila X = este
2
aproximativ variabilă hi pătrat cu n grade de libertate pentru n≥30.
Valorile lui χα2 date de relaţia P( χ 2 > χα2 ) = α se obţin din tabela 3 din Anexă.
Funcţia EXCEL : = CHIINV(P,GL) dă valoarea χα2 pentru care
P( χ 2 > χα2 ) = α
Valorile lui tα /2 şi tα date de relaţiile P(t>tα /2) = P(t>tα )=α , se obţin din tabela 2 din
Anexă . Pentru n ≥30 variabila Student este bine aproximată de variabila normală N(0,1).
Variabilele normală redusă, hi pătrat, Student sunt cazuri particulare ale variabilei Fisher
X cu (n1,n2) grade de libertate astfel:
- Variabila U este X cu n1 =1; n2 = ∞
- Variabila hi pătrat este X cu n1 = n;n2 = ∞
- Variabila Student este X1/2 cu n1=1;n2=n.
Aici X = N ( µ1 , σ 1 ), Y = N ( µ2 , σ 2 ) şi ρ = ρ (X,Y)
Avem vectorul medie M(Z) = ( µ1 ; µ 2 ) şi matricea de covarianţă
σ 12 σ 1σ 2
C(Z) = 2
σ 2σ 1 σ 2
Graficul lui z= f(x,y) este o suprafaţă în spaţiu în formă de clopot cu deschiderea în jos,
1
cu vârful clopotului în punctul: M ( µ1 ; µ 2 ; )
2πσ 1σ 2 1 − ρ 2
1 ρ
Avem M(W) = ( 0; 0); C(W) =
ρ 1
Dacă Z = (X, Y) cu X = N ( µ1 , σ 1 ), Y = N(µ2 ,σ 2 ) iar W = (U,V) cu U = V = N (0,1)
avem relaţiile de legătură:
X − µ1 Y-µ2
U= ; V=
σ1 σ2
Am văzut în teorema 2.8 punctul 5) că în general variabilele necorelate liniar pot fi
dependente.
Teorema 1.18
Dacă variabilele aleatoare normale X, Y sunt necorelate liniar, ele sunt independente.
Demonstraţie
Dacă variabilele normale sunt necorelate liniar avem ρ = 0 deci:
1 x−µ 1 2 y−µ 2 2
1 − [(
σ1
) +(
σ2
) ]
f ( x, y ) = e 2 =
2πσ 1σ 2
1 x − µ 1 )2 1 y −µ 2 2
1 − (
σ1 1 − (
σ2
)
= e 2 . e 2 = f1 ( x) f 2 ( y )
2π 1σ 1 2πσ 2
deci conform teoremei 2.7. rezultă că X, Y sunt variabile aleatoare independente. Q.E.D.
1.6 Legi limită
Demonstraţie
Deoarece X1,…Xn sunt independente câte două, conform teoremei 2.2. avem:
M ( X 1 ) + ... + M ( X n )
M(X)=
n
iar conform teoremei 2.3, avem:
V ( X 1 ) + ... + V ( X n ) nT 2 T 2
V(X) = ≤ 2 =
n n n
Aplicând inegalitatea Cebâşev din teorema 2.4, avem:
V (X ) T
P(│X-M(X)│<ε )≥1- ≥ 1 − 2 = Pε
ε 2
nε
Dar lim Pε = 1 deci lim P( X-M(X) < ε ) = 1
n →∞ n→∞
Din expresia lui Pε rezultă numărul minim de variabile aleatoare care asigură evenimentului
│X-M(x)│<ε ) o probabilitate de realizare superioară lui Pε şi anume:
T2
n= . Q.E.D.
ε 2 (1 − Pε )
Legea numerelor mari a lui Cebâşev arată că media unui număr mare de variabile
aleatoare independente câte două şi cu abateri – standard mărginite, îşi pierde caracterul de
variabilă aleatoare, stabilindu-se în jurul mediei sale.
În particular, media a n măsurători independente ale unei însuşiri cantitative X se
stabilizează , când volumul măsurătorilor creşte.
Exemplu:
Câte măsurători trebuie făcute pentru ca greutatea ouălelor să fie cuprinsă între 49 g şi 51
g cu o încredere de cel puţin 99 %, dacă toleranţa maximă admisă la greutatea ouălelor este
T=1g ?
Soluţie:
12
Avem T = 1 g, ε =1g, Pε =0.99 deci n = = 100 măsuratori.
1 × 0.01
Dacă în legea numerelor mari a lui Cebâşev luăm variabilele aleatoare X1=….=Xn
1 0 X + ... + X n
=( p q
) ,independente câte două, X= 1 ia valori de forma k/n = f şi M(X) = p;
n
V(X) = pq≤T2 deci relaţia:
V (X )
P(│X-M(X)<ε )≥ 1 − 2 de mai sus devine:
ε
pq
P(│f-p │<ε )≥1- 2 = Pε
nε
Cum lim Pε = 1 rezultă:
n∞
lim P(│f-p │<ε )=1 deci am demonstrat :
n∞
Din expresia lui Pε rezultă numărul minim de experienţe independente care asigură
evenimentului │f-p│<ε o probabilitate de realizare superioară lui Pε :
p (1 − p )
n= 2
ε (1 − Pε )
Legea numerelor mari a lui Bernoulli arată că frecvenţa f de apariţie a unui eveniment în n
experienţe independente care este în fond media a n valori a unei însuşiri calitative X, se
stabilizează în jurul probabilităţii p de realizare a evenimentului.
Prin urmare, în cazul unui număr mare de experienţe independente, probabilitatea p
(constantă şi cunoscută înaintea experienţelor) începe să fie confirmată de frecvenţa f (variabilă şi
cunoscută după experienţe).
Exemplu:
Care este numărul minim de aruncări ale unei monezi pentru ca frecvenţa de apariţie a
stemei să fie cuprinsă între 45 % şi 55 % cu o încredere de cel puţin 90 % ?
Soluţie:
Avem p = 1/2 = 50 %; ε =5 % = 0.05, Pε = 90 % = 0.90
P (1 − p ) 0.5(1 − 0.5)
deci n= 2
= =1000 aruncări
ε (1 − Pε ) 0.05 2.(1 − 0.90 )
Dacă X1,…..,Xn sunt variabile aleatoare independente şi suma lor X=X1+….+Xn satisface
condiţia:
3 3
M ( X 1 − M ( X1 ) ) + .... + M ( X n − M ( X n ) )
lim =0
n →∞ σ ( X )3
X − M (X )
atunci funcţia de repartiţie a variabilei aleatoare normate tinde către funcţia de
σ ( x)
repartiţie F(x) a variabilei normale reduse N (0,1) când n∞ . (fără demonstraţie)
Cu alte cuvinte, dacă valorile a n variabile aleatoare independente , vor fi mici în raport cu
suma lor, atunci această sumă are o repartiţie normală când n∞.
1 0
Dacă în teorema 1.22 luăm variabilele aleatoare independente X1=….=Xn =( p q )
deci X = X1+….+Xn este variabilă binomială, condiţia din enunţul teoremei 1.22 este îndeplinită
deoarece M(Xi) = pq aşa că M (│Xi-M(Xi)│3) sunt finite şi egale între ele deci:
n
∑ [M ( X
3
− M ( X i ) )] 3 3
i
nM ( X i − p ) M ( Xi − p )
i =1
= = →0
σ ( X )3 ( npq )3 n p3 q3
pentru n ∞ deci rezultă:
1.7 Rezumat
În acest capitol se prezintă definiţia unui eveniment , clasificarea evenimentelor şi exemple,
definiţia axiomatică şi clasică a probabilităţii , definiţia probabilităţii condiţionate , formulele
probabilităţii totale şi Bayes , variabilă aleatoare pentru care se descrie funcţia de repartiţie şi
densitatea de probabilitate, media , varianţa şi funcţia caracteristică .
Deasemenea se prezintă noţiunea de vector aleator pentru care se descrie covarianţa şi
coeficientul de corelaţie liniară , variabilele aleatoare clasice discontinue între care remarcăm
variabilele binomială şi Poisson ,variabilele aleatoare continue între care remarcăm variabilele
exponenţială , normală , hi patrat ,Student şi Fisher precum şi vectorul aleator normal.
Capitolul se încheie cu legile limită : Cebâşev , Bernoulli şi teorema limită-centrală.
1.8 Întrebări
1. Ce este un eveniment şi ce operaţii se fac cu evenimente ?
2. Care este definiţia clasică a probabilităţii şi ce proprietîţi are probabilitatea ?
3. Cum se aplică formula probabilităţii totale şi formula Bayes la diagnosticul bolilor la
animale ?
4.Enumeraţi proprietăţile funcţiei de repartiţie şi densităţii de probabilitate a unei variabile
aleatoare .
5. Enumeraţi proprietăţile mediei şi varianţei unei variabile aleatoare .
6. Enumeraţi proprietăţile covarianţei şi coeficientului de corelaţie liniară pentru
pentru un vector aleator .
7. Unde se aplică variabilele discontinue binomială şi Poisson ?
8. Unde se aplică variabilele continue exponenţială , normală , hi patrat ,Student şi Fisher ?
9. Ce importanţă practică au legile-limită Cebâşev şi Bernoulli ?
1.9 Bibliografie
1.D.Ene , M.Drăghici, I.N. Alecu “ Statistică aplicată în agricultură “ Ed.Ceres,2003
2.M.Iosifescu şi col. “ Mică enciclopedie de statistică “ Ed.Ştiinţif.şi Enciclop,,1985
3. Anuarul statistic al României , 1990 -2003
CAPITOLUL 2
Conţinut :
Populaţia statistică este o mulţime de exemplare care aparţin aceleiaşi familii şi care fac
obiectul cercetării statistice.
Cercetarea statistică poate fi completă sau exhaustivă (pentru toate exemplarele
populaţiei) de tip referendum sau recensământ sau poate fi parţială sau selectivă de tip sondaj
(eşantion, probă, sondaj de opinie) (pentru o parte reprezentativă din exemplarele populaţiei).
Exemple de populaţii statistice în agricultură: plantele unei culturi într-o parcelă,
animalele unei ferme zootehnice, maşinile agricole care deservesc o suprafaţă arabilă, fermele
vegetale sau zootehnice dintr-un judeţ, unităţile de prelucrare a produselor agricole (mori, fabrici
de ulei, zahăr, produse lactate, mezeluri, abatoare, etc.), magazinele care comercializează produse
alimentare, reţeaua de case de agroturism, reţeaua de unităţi de alimentaţie publică, etc.
Fiecare exemplar al populaţiei statistice are o serie de însuşiri cantitative (măsurabile)
sau calitative (atributive) notate X, Y, Z, … sau X1, X2, …, Xn pe care le vom numi în continuare
şi caractere.
Pentru populaţiile statistice din agricultură, însuşirile admit şi alte clasificări:
- după natură: însuşiri biologice, tehnologice, economice, ecologice;
- după modul de exprimare numerică: însuşiri bivalente (0 sau 1), întregi şi reale
(fracţionare);
- după modul de apreciere: însuşiri primare (numai măsurabile) şi însuşiri derivate
(măsurabile sau calculabile);
- după gradul de generalitate: însuşiri individuale (proprii fiecărui element al
populaţiei) şi colective (proprii unor grupe de elemente ale populaţiei).
Exemple: consumul mediu de motorină pe ha, consumul mediu de furaje pe cap de vacă,
profitul mediu pe lună al unei unităţi de agroturism, etc.
În agricultură, omul nu poate controla în totalitate factorii de producţie sau de vânzare a
produselor agricole, de aceea însuşirile precedente sunt parţial sau total sub influenţa întâmplării
(hazardului) fiind de fapt în fiecare moment, variabile aleatoare iar în timp, procese aleatoare
(vezi cap. 2).
Acţiunea întâmplării asupra însuşirilor (caracterelor) în agricultură se concretizează în
variabilitatea valorilor acestora în spaţiu, timp, structură, etc. variabilitatea poate fi
accidentală (involuntară) sau sistematică(cu o cauză precisă).
Variabilitatea accidentală este presupusă a fi o variabilă normală cu media 0 şi
abaterea – standard σ (vezi cap. 1)
Exemplu
Pe un ha cu porumb există N = 75.000 plante recoltabile din care extragem un sondaj de n
= 75 plante reprezentative.
n 75
Cota de reprezentare este = =1 : 1000 plante.
N 75000
Un sondaj se poate efectua în două feluri:
I. Static: se fac măsurători simultane la un moment dat pe n exemplare extrase din
populaţie obţinându-se astfel repartiţia în spaţiu a însuşirii X analizată prin datele de sondaj.
II. Dinamic: se fac măsurători consecutive în n momente de timp succesive pe
acelaşi exemplar al populaţiei statistice, obţinându-se astfel evoluţia în timp a însuşirii X
analizată prin datele de sondaj.
Tehnica de efectuare a unui sondaj, depinde de compoziţia populaţiei în raport cu
însuşirea X.
Avem situaţiile:
a) Populaţia este omogenă în raport cu însuşirea X adică orice valoare a lui X este în
mod egal probabil proprie fiecărui exemplar al populaţiei.
În acest caz se efectuează un sondaj simplu repetat sau nerepetat.
Sondajul simplu repetat se efectuează prin extragerea suscesivă a exemplarelor din
populaţie şi revenirea în populaţie a fiecărui exemplar după măsurarea însuşirii X (schema bilei
revenite). Avantajul acestui tip de sondaj este că extragerile din populaţie sunt independente iar
dezavantajul este că la controlul calităţii produselor, orice exemplar chiar dacă este rebut, trebuie
întors în populaţie.
Sondajul simplu nerepetat se efectuează prin extragerea simultană a exemplarelor din
populaţie şi revenirea acestora în populaţie (dacă nu sunt rebuturi) după efectuarea tuturor
măsurătorilor pe ele relativ la însuşirea X (schema bilei nerevenită).
Dezavantajul acestui tip de sondaj este că extragerile din populaţie sunt dependente. Dacă
volumul de sondaj n este relativ mare rezultatele obţinute prin sondajul simplu repetat sau
nerepetat sunt aproximativ aceleaşi.
b) Populaţia este neomogenă în raport cu însuşirea X dar se poate împărţi în k straturi
omogene în raport cu X, volumul straturilor fiind N1, … Nk. Evident avem N1 + …+ Nk = N. În
acest caz se efectuează un sondaj stratificat care constă în k sondaje simple, repetate sau
nerepetate, din straturi cu volumele de sondaj din straturi n1, …, nk. Evident avem n1+ …+ nk = n.
Prezentăm câteva tipuri de sondaj stratificat:
n
a. Sondaj tipic: n1 = ... = n k = ;
k
n1 n n N N
b. Sondaj proporţional: = ... = k = deci n1 = n 1 ,..., n k = n k
N1 Nk N N N
n1 n n
Sondaj optim: = ... = k = deci
N kσ k ∑ N iσ i
c.
N1σ 1
N1σ1 N σ
n1 = n ,..., n k = n k k
∑ Niσi ∑ Niσi
Aici σ
1, … σ
k sunt abaterile standard ale exemplarelor din straturi în raport cu
N1 N
În cazul unei populaţii infinite → p1 ,..., k → p k deci pentru tipurile de sondaj
N N
stratificat precedent, avem:
n
a. Sondaj tipic: n1 = … = nk = ;
k
b. Sondaj proporţional: n1 = np1, …, nk = npk
p1σ1 p σ
c. Sondaj optim: n1 = n ,..., n k = n k k .
∑ pi σi ∑ pi σi
Exemplu
O turmă de ovine de volum N = 1000 capete are structura N1 = 700 mioare, N2 = 250
miei, N3 = 50 berbeci.
Pentru analiza însuşirii X = lungimea firului de lână efectiv din sondaj de n = 60 ovine.
Ştiind că abaterile – standard în straturi sunt σ 1 =1 cm; σ 2 = 0.8 cm şi σ 3 = 2 cm, se cer
1
X12 + ... + X 2n 2
- media pătratică: X2 =
n
Avem X a ≤ X g ≤ X .
Dacă X1,…,Xn sunt depuse în celulele A1:An din coloana A în EXCEL
media X este dată de funcţia EXCEL scrisă în celula B1 : = AVERAGE(A1: An) ,
media geometrică X g este dată de funcţia EXCEL scrisă în celula B2 : = GEOMEAN (A1:An)
iar media armonică X a este dată de funcţia EXCEL scrisă în celula B3 : = HARMEAN
(A1:An) .
II. Mediana Me este acea valoare faţă de care jumătate din numărul valorilor de sondaj
sunt mai mici ca ea şi cealaltă jumătate din numărul valorilor de sondaj sunt mai mari ca ea.
Aranjăm datele de sondaj în ordine crescătoare: x1 < x2 < … < xn.
1
Dacă n = număr par avem Me = x k + x k −1 iar dacă n = număr impar avem
2
2 2
Me = X k +1
.
2
Mediana Me este mai stabilă faţă de media X la valori de sondaj foarte mici faţă de
restul valorilor de sondaj, deoarece ia în calcul numărul de valori de sondaj nu şi mărimea
valorilor de sondaj.
În plus, SMA(X) = X1 − X + ... + X n − X este minimă pentru X = Me.
Aici SMA este prescurtarea pentru suma modulelor abaterilor. Mediana primei jumătăţi a
datelor de sondaj crescătoare, se numeşte cuartila întâia Q1 . Me = Q2. Analog Q3 pentru a doua
jumătate a datelor .
2
xi − ∑
X
( xi − X)
2 ∑ n este variaţia pătratică totală SPA = Σ (xi - X )
∑
2
V =S =2
=
n −1 n −1
raportată la numărul gradelor de libertate GL = n – 1.
Datele de sondaj X1, …, Xn sunt independente dar satisfac o relaţie de dependenţă:
Σ xi = n . X şi de aceea avem GL = n – 1 .
IV. Abaterea - standard
∑( xi − X)
2
S= este principalul indicator valoric al variabilităţii fiind o abatere
n −1
mijlocie a datelor de sondaj faţă de media lor X .
Calităţi ale abaterii-standard
1) Abaterea standard este mărginită (cuprinsă între abaterea minimă amin şi cea maximă
amax a datelor de sondaj faţă de media lor X .
Defecte ale abaterii-standard
2) Abaterea standard S este legată de o unitate de măsură (aceeaşi ca şi pentru media X )
deci nu permite comparaţii între caractere.
Pentru comparaţii se poate folosi abaterea standard procentuală
a −S
Sp = max ∈ [ 0;1] .
a max − a min
3) Abaterea standard este sensibilă la înmulţirea sau împărţirea datelor de sondaj conform
teoremei 2.2.
4) Abaterea standard singură nu poate aprecia intensitatea variabilităţii datelor de
sondaj.
Exemplu
Fie o populaţie statistică de plante de porumb la recoltarea pe suprafaţa de 1 ha cu
volumul populaţiei N = 75000 plante recoltabile.
Fie X = greutatea boabelor pe plantă la recoltare (g).
Efectuăm un sondaj de n = 10 plante reprezentative deci cota de reprezentare este
n
=1 : 7500 plante.
N
Datele de sondaj se aranjează în
ordine crescătoare în tabelul alăturat. Xi Xi- X (Xi- X )2 Xi − X
Avem indicatorii de sondaj: S
500
I) X= = 50 g/plantă
10 40 -10 100 -1.43
II) Me = [48; 51] deci 42 -8 64 -1.14
Me = 49.5 g/plantă 45 -5 25 -0.71
448 45 -5 25 -0.71
III) S2 = = 49.8 g 2
10 − 1 48 -2 4 -0.29
IV) S = 49.8 = 7 g / plantă 51 1 1 0.14
7 54 4 16 0.57
V) C= = 14%
50 57 7 49 1.00
58 8 64 1.14
2.2.2. Cazul sondajului de volum 60 10 100 1.43
mare (n > 30) 500 0 448 -
În acest caz se face gruparea
datelor de sondaj în clase de valori astfel: se fixează numărul k de clase de valori care nu trebuie
să fie nici prea mic, deoarece se şterg trăsături esenţiale ale datelor de sondaj, nici prea mare,
deoarece se pun în evidenţă trăsături neesenţiale ale datelor de sondaj.
Acest număr k de clase de valori se poate calcula cu una din formulele k < 5 log n, k = 1 +
3.322 log n sau se folosesc recomandabil orientative de mai jos.
Spre deosebire de media X care dă tendinţa centrală a datelor de sondaj ,modul Mo dă tendinţa
sa principală ,numindu-se din acest motiv , valoare dominantă sau principală. Există date de
sondaj cu mai multe moduri(plurimodale).
Dacă datele de sondaj negrupate X1,…,Xn sunt depuse în celulele A1: An din
coloana în EXCEL şi cel puţin două din aceste valori sunt egale ,modul Mo este
dat de funcţia EXCEL scrisă în celula B10 : = MODE (A1:An ).
4
1 k X −X 1k
B = ∑ ni i = ∑ ni Ui
4
n i =1 S n i =1
n2
Skew = .A
(n − 1)(n − 2)
este dat de funcţia EXCEL scrisă în coloana B11 : = SKEW(A1:An)
iar coeficientul de boltire ajustat(numit Kurtozis) :
n 2 (n − 1) 3(n − 1)2
Kurt = .B −
(n − 1)(n − 2)(n − 3) (n − 2)(n − 3)
este dat de funcţia EXCEL scrisă în coloana B12 : = KURT(A1:An).
Exemple
1)Frecvenţele relative f1,…,fk ale datelor de sondaj de volum mare,grupate în clasele de valori
C1,…,Ck cu centrele de clase x1,…,xk definesc structura sondajului pe clase de valori .
2) Fie k ramuri ale unei unităţi economice şi fie C1,…,Ck cheltuielile totale
(productive şi neproductive) anuale ale ramurilor.Cheltuielile totale anuale
ale întregii unităţi sunt C = C1+…+Ck
Numerele f1=C1/ C ,…,fk = C1/ C definesc structura de cheltuieli a unităţii pe ramuri .
In mod analog , fie V1,…,Vk veniturile totale anuale ale ramurilor şi fie
V = V1+…+Vk total anual al unităţii .
Numerele f1 = V1/ V ,…, fk = Vk/ V definesc structura de venituri a
unităţii pe ramuri .
Concentrarea unei structuri de date este tendinţa de creştere a ponderii
fi a unei componente în detrimentul celorlalte,inclusiv micşorarea numărului k de componente .
Concentrarea structurii este maximă dacă fi = 1 şi fj = 0 pentru j≠ i.
Diversificarea structurii de date este tendinţa de egalizare valorică a
ponderilor f1,…,fk ale celor k componente ale structurii, inclusiv prin mărirea numărului k de
componente .
Diversificarea structurii este maximă dacă f1=…= fk = 1/k .
Media valorilor f1,…,fk este f‾ = 1/k iar abaterea-standard a valorilor
f1,…,fk este :
S=
∑f i
2
−1
deoarece ∑ f i = 1
k −1
Pentru concentrarea maximă avem S= 1 / (k)1/2 iar pentru diversificarea
maximă avem S = 0 .
Abaterea-standard corectată :
∗
k ∑ fi 2 − 1
S = k .S = ∈ [0;1]
k −1
este un indicator al concentrării structurii pe componente şi se poate exprima în
procente.
Entropia structurii este dată de relaţia :
k
H =− ∑ f .l og
i=1
i f
2 i
k
1
H∗ = − ∑ fi .l og2 fi
l og 2 k i =1
B0 = g − B1 . f = =
k k ∑ fi 2 − 1
legătura funcţională liniară între
cele două structuri ,dată de relaţia : g = B0 + B1.f
Avem R=1 dacă B1>0 şi R=-1 dacă B1<0 .
Dacă R = 0 ,cele două structuri nu sunt corelate liniar .
Exemplu
Dacă (f1,…,fk) este structura de venituri sau cheltuieli a unei unităţi
economice în anul de bază şi (g1,…,gk ) este structura de venituri sau cheltuieli a aceleiaşi unităţi
în anul curent , R măsoară gradul de stabilitate a structurii în timp .
Dacă caracterul X are numai valori întregi, datele de sondaj de volum mare (n > 30) se pot
grupa pe valori distincte Xi cu frecvenţele absolute ni sau se poate alege un număr de clase k
astfel ca lungimea l a claselor să fie număr întreg deci şi limitele claselor să fie numere întregi.
Exemplu
Fie o populaţie statistică de plante de porumb la recoltare de pe 1 ha cu volumul
populaţiei N = 75000 plante recoltabile. Pentru a studia greutatea boabelor pe plantă X în grame,
efectuăm un sondaj reprezentativ de n = 50 plante deci cota de reprezentare
n 50
= =1 : 1500 plante.
N 75000
Date de sondaj în grame:
50; 45; 40; 48; 47; 53; 49; 56; 58; 60; 42; 48; 49; 51; 54; 53; 46; 49; 48; 46; 55; 59; 52;
44; 48; 43; 49; 51; 50; 52; 44; 55; 43; 49; 47; 50; 54; 56; 59; 49; 48; 51; 50; 51; 47; 46; 42; 53;
51.
Să se grupeze datele în k = 5 clase de valori, să se reprezinte grafic histograma, poligonul
frecvenţelor, cumulata şi să se calculeze indicatorii statistici de la punctul I) – VII).
Soluţie
Numărul de clase este k = 5 , lungimea unei clase de valori este :
60 − 40
l = = 4g .
5
Clase Centre clase Frecvenţe ni Frecvenţe n*i Frecvenţe Frecvenţe f*i
Xi fI
Sub 44 g 42 g 5 plante 5 plante 0.10 0.10
[44 – 48 g) 46 9 14 0.18 0.28
[48 – 52 g) 50 21 35 0.42 0.70
[52 – 56 g) 54 9 44 0.18 0.88
peste 56 g 58 6 50 0.12 1.00
Graficele sunt:
Histograma :
Poligonul frecvenţelor :
Cumulata :
I) Media de sondaj:
1
X = ( 5 × 40 + 9 × 46 + 21 × 50 + 9 × 54 + 6 × 58 ) = 50.16 g/plantă
50
II) Mediana de sondaj Me = 50 g
III) Modul de sondaj Mo = 50 g
IV) Abaterea standard de sondaj:
1
5( 4 2 −) ( ) .1 6 ( − 21 50) +( .16 9)− 5 4 ( 50.1 6 +6 ) 6= 5 8− 5 0.1
2 2 2 2 2
S= 50.16 9 46 + 50 50 + −
4 9
4
= 4.5 g/plantă. Corecţia Shepard: S ' = S 2 − = 4.46 g
12
4.5
V) Coeficientul de variabilitate de sondaj: C= = 9%
50.16
VI) Coeficientul de asimetrie de sondaj:
1
3 ( ) 6 (− 9 4 6 ) 5 0 .1+( 6 2 1) − 5 0 ( 5 0 .1 6 ) + 9( 5 4 5 0−6 ).1 6==0.008
3 3 3 3 3
A= 5 4 2 5 0 .1 6 5 8+ 5 0 .1 − +
5 0× 4 .5
VII) Coeficientul de boltire de sondaj:
1
4 ( ) 6 (− 9 4 6 ) 5 0 .1+( 6 2 1) − 5 0 ( 5 0 .1 6 ) + 9( 5 4 5 0−6 ).1 6=2.416 5 8+ 5 0 .1
4 4 4 4 4
B= 5 4 2 5 0 .1 − +
5 0× 4 .5
VIII) Coeficientul de concentrare de sondaj:
∗
5 ( 0.102 + 0.182 + 0.422 + 0.182 + 0.122 ) − 1
S = = 28.6 %
5 −1
Desigur indicatorii X , Me, S, c puteau fi calculaţi şi din cele n = 50 valori de sondaj
înainte de gruparea datelor.
Dacă X este însuşire calitativă (atributivă), facem convenţia:
1, Exemplarul i are însuşirea X
xi =
0, în rest
Efectuăm un sondaj de volum n deci datele de sondaj vor fi un număr de n cifre egale cu 0
k
sau cu 1. Fie k numărul cifrelor Xi = 1 (1 < k < n). Media de sondaj devine f = ∈[0;1] ,
n
numindu-se frecvenţă de sondaj.
Indiferent de volumul de sondaj n, datele de sondaj se împart în 2 clase:
C = {xi/xi = 1} cu k valori şi C = {xi/xi = 0} cu n – k valori.
Exemplu
Într-un miniincubator avem o populaţie statistică de N = 1000 ouă. Efectuăm un sondaj
reprezentativ de n = 50 ouă şi găsim k = 6 ouă neeclozionate. Să se calculeze frecvenţa de sondaj
a ouălor neeclozionate.
Soluţie
k 6
f= = = 12%
n 50
Exemple de însuşiri calitative (atributive) în agricultură
- ecloziune ouă culoare, culoare ouă, rezistenţa la manipulare ouă;
- viabilitate purcei sugari, pui de o zi;
- stare de gestaţie la animale;
- stare de profitabilitate a unei societăţi agricole.
Fie o populaţie statistică pe care o studiem din punct de vedere al însuşirii cantitative X.
Dacă însuşirea X ia valori întregi, datele unui sondaj extras din populaţie la momentele de
timp t1, t2, …, tn sunt valori instantanee x1, …, xn măsurate în acele momente de timp.
Dacă însuşirea X ia valori reale, datele unui sondaj extras din populaţie în intervalele de
timp [t1, t2), [t2, t3), …, [tn-1, tn] sunt valori medii x1, …, xn măsurate în acele intervale de timp cu
lungimile t2-t1, t3-t2, …, t n – t n – 1 .
Exemplu
X = efectivul anual de vaci al unei ferme zootehnice se măsoară prin valori instantanee (la
31 decembrie al anului calendaristic).
X = producţia anuală de lapte al vacilor dintr-o fermă zootehnică se măsoară prin valori
medii pe perioada 1 ianuarie – 31 decembrie a anului calendaristic sau pe perioada medie de
lactaţie normală de 308 zile.
Măsurătorile sunt echidistante dacă t2–t1 = t3–t2 = … = tn-tn-1 şi neechidistante în caz
contrar.
Exemplu de măsurători echidistante
Producţia de lapte a vacilor se controlează echidistant din 28 în 28 zile astfel că într-o
lactaţie normală de 308 zile se efectuează 11 controale ale producţiei de lapte.
Prezentarea grafică a datelor de sondaj de evoluţie instantanee se face prin poligonul
valorilor în raport cu axele (ti, xi) iar a datelor de sondaj de evoluţie se face prin cronograma în
raport cu axele ([ti, ti+1), xi).
Indicatori statistici de sondaj de evoluţie
I) Media cronologică
Dacă X se măsoară prin valori instantanee x1, …, xn la momentele de timp t1, …, tn
avem:
x1 ( t 2 − t1 ) + x 2 ( t 3 − t 2 ) + ... + x n − 1 ( t n − t n − 1 )
(1) X C =
t n − t1
Dacă X se măsoară prin valori medii x1, …, xn în intervalele de timp [t1, t2), [t2, t3), …, [tn-1,
tn] avem:
x1 + x 2
( t 2 − t1 ) + x 2 + x 3 ( t 3 − t 2 ) + ... + x n −1 + x n ( t n − t n −1 )
(2) X = 2 2 2
m
t n − t1
În cazul măsurătorilor echidistante în timp, avem t2 - t1 = t3 – t2 =, …,= t n – t n – 1 = d şi t n
– t1 = (n – 1 ).d deci :
X1 + X 2 + ...X n −1
(3) XC = respectiv:
n −1
X1 X
+ X 2 + ... + X n −1 + n
(4)
Xm = 2 2
n −1
( x 2 − x1 )( t 2 − t1 ) + ( x 3 − x 2 )( t 3 − t 2 ) + ... + ( x n − x n −1 )( t n − t n −1 )
(5) D =
t n − t1
Se cer X , D, I.
Soluţie
1 1
X 1 + X 2 + ... + X n −1 + X n
kg
X = 2 2 = 66.4
n −1
X n − X1 log X n − log X 1
D= = 13 kg; log I = = 0.178 deci I = =100.178 =1.57
n −1 n −1
Medii
tj 28 56 84 112 140 168 196 224 252 280 cronologice
Repetiţia C X Ci
1 3 12 26 42 60 78 94 104 117 120 66.4
2 3 13 27 43 61 78 94 106 115 118 66.4
3 3 12 25 41 59 77 94 109 118 122 66.4
4 4 13 27 43 61 77 92 104 112 115 65.4
5 3 12 25 41 59 78 96 111 121 125 67.4
Medii sondaj 3.2 12.4 26 42 60 77.6 94 107.4 116.6 120 X =66.
Xj 4
X C=66.4
I. În multe situaţii întâlnim caractere Z compuse din produse ale altor caractere X,Y :
Z=X.Y cu valori diferite : Z0=X0.Y0 respectiv Z1=X1.Y1 .
Exemple:
- Cheltuielile cu o resursă = consumul de resursă x costul unităţii de resursă ;
- Venitul din vânzarea unui produs agricol = producţia fizică x preţul de vânzare ;
- Venitul dim muncă = productivitatea muncii(venit pe muncitor) x nr. muncitori .
În acest caz putem calcula :
D(Z)=Z1- Z0 ; I(Z)= Z1/ Z0 ; R(Z)=D(Z) / Z0 .
Avem relaţiile :
I(Z)=I(X.Y)=I(X).I(Y) ; R(Z)=R(X.Y)=I(X).I(Y)-1
Avem şi mărimile :
- produsul mediu : PM(Z) = Z0 = X0.Y0
- produsul marginal : PD(Z) = (X1- X0).(Y1 – Y0) = D(X).D(Y)
- elasticitatea produsului : EP(Z) = PD(Z) / PM(Z) = R(X).R(Y)
II. În multe situaţii întâlnim caractere Z compuse din rapoarte(rate) ale altor caractere X,Y :
Z=X /Y cu valori diferite : Z0=X0 / Y0 respectiv Z1=X1 / Y1 .
Exemple:
- Rata profitului = Profit / Cheltuieli ;
- Costul unităţii de produs = Cheltuieli cu produsul / Producţia fizică ;
- Rata şomajului = Număr şomeri / Număr persoane active .
În acest caz putem calcula :
D(Z)=Z1 - Z0 ; I(Z)= Z1/ Z0 ; R(Z)=D(Z) / Z0 .
Avem relaţiile :
I(Z)=I(X /Y)=I(X) / I(Y) ; R(Z)=R(X / Y)=I(X) /I(Y)-1
Avem şi mărimile :
- rata medie : PM(Z) = Z0 = X0 / Y0
- rata marginală : PD(Z) = (X1- X0) / (Y1 – Y0) = D(X) / D(Y)
- elasticitatea ratei : EP(Z) = PD(Z) / PM(Z) = R(X) / R(Y)
Indicii statistici sunt numere relative rezultate din compararea valorilor unui indicator
statistic la diferite momente de timp,în locuri diferite sau în categorii diferite în raport cu un
criteriu.
Indicii calculaţi la momente diferite de timp, se numesc indici ai dinamicii.
Indicii calculaţi în locuri diferite, se numesc indici teritoriali.
Indicii calculaţi în categorii diferite în raport cu un criteriu,se numesc indici calitativi.
În calculul indicilor se aleg două momente de timp/locuri/categorii :
1) Momentul de timp/locul/categoria de bază (de referinţă) , notată cu 0 .
2) Momentul de timp/locul/categoria curentă ,notată cu 1
Pentru elemente omogene se calculează indici elementari(individuali) iar
pentru elemente neomogene se calculează indici sintetici (de grup) .
Calităţi şi defecte ale indicilor
1. Sunt mărimi mărginite pozitive.
2. Nu au unităţi de măsură deci se pot compara între ei.
3. Nu sunt sensibili la înmulţirea şi împărţirea datelor.
4. Indicii sintetici se pot calcula numai pentru cheltuieli şi venituri .
Exemplul 1
Fie trei resurse R1 (motorină în litri/ha ) , R2 (îngrăşăminte chimice NPK în Kg/ha ) şi R3
(apă de irigaţie în m3/ha ).
Baza este anul 2000 iar anul curent este anul 2003.
Qi (unităţi de resursă/ha ) este consumul de resursă Ri ,Ci (lei/unitate de resursă ) este costul
resursei Ri iar CHi=Qi .Ci (milioane lei/ha) este suma cheltuită cu resursa Ri .
A. Indici individuali :
- pentru consumuri :
IQ (R1) =Q11 / Q10 =110 / 120 = 0.92
IQ (R2) = Q21 / Q20 = 220 / 210 = 1.05
IQ (R3) = Q31 / Q30 = 800 / 1000 = 0.80
IQ = [IQ(R1). IQ(R2). IQ(R3)]1 / 3 = 0.916
- pentru costuri :
IC (R1 ) = C11 / C10 = 18000 / 12000 = 1.50
IC (R2) = C21 / C20 = 8000 / 6000 = 1.33
IC (R3) = C31 / C30 = 500 / 300 = 1.60
IC = [IC(R1). IC(R2). IC(R3)]1 / 3 = 1.494
- pentru cheltuieli :
ICH (R1) = (Q11C11) / (Q10C10) = 1.98 / 1.44 = 1.375
ICH (R2) = (Q21C21) / (Q20C20) = 1.76 /1.26 = 1.40
ICH (R3) = (Q31C31) / (Q30C30) = 0.40 /0.30 = 1.33
ICH = [ICH(R1). ICH(R2). ICH(R3)]1 / 3 = 1.368
Observaţii :
i) Indicele Laspeyres este medie aritmetică ponderată a indicilor individuali I(Ri) cu ponderile :
Ui = (Qi0Ci0) / ( ΣQi0Ci0) deci Σ Ui = 1.
- pentru consumuri :
IL(Q) = Σ IQ(Ri).Ui
- pentru costuri :
IL(C) = Σ IC(Ri).Ui
ii) Indicele Paasche este medie armonică ponderată a indicilor individuali I(Ri)
cu ponderile : Vi = (Qi1Ci1) / (Σ Qi1Ci1) deci ΣVi = 1 :
- pentru consumuri :
[ 1 / IP(Q) ] = Σ [ 1 / IQ(Ri ) ]. Vi
- pentru costuri :
[ 1 / IP(C) ] = Σ [ 1 / IC(Ri ) ]. Vi
iii) Indicele total este produsul indicilor Laspeyres şi Paasche :
IT (CH)= IL(Q).IP(C) = IL(C).IP(Q)
Observaţii :
iv) Pentru indicii 7) - 9) avem relaţia : ISV = ISF.IVS
v) Cu notaţiile Wi0 = Ci0 / (ΣCi0) deci ΣWi0 = 1 respectiv Wi1 = Ci1 / (ΣCi1) deci ΣWi1 = 1 ,
indicii 7) - 9) capătă forma de indici agregaţi :
ISV = (ΣQi1Wi1) / (ΣQi0Wi0) analog cu indicele total IT de la punctul 1)
ISF = (ΣQi1Wi1) / (ΣQi0Wi1) analog cu indicele Paasche IP(Q) de la punctul 3)
IVS = (ΣQi0Wi1) / (ΣQi0Wi0) analog cu indicele Laspeyres IL(C) de la punctul 2)
Exemplul 2
Fie trei produse : T1(Grâu) ; T2(Porumb) ; T3(Floarea soarelui).
Baza este anul 2000 iar anul curent este 2003.
Yi este producţia fizică a produsului Ti (Kg/ha) , Di este preţul de vânzare al unităţii de
producţie fizică a produsului Ti (lei/kg) iar Vi=Yi.Di este venitul obţinut din vânzarea
produsului Ti (milioane lei/ha).
A) Indici individuali :
- pentru producţii :
IY(T1) = Y11 / Y10 = 3500/3000 = 1.17
IY(T2) = Y21 / Y20 = 6000/5000 = 1.20
IY(T3) = Y31 / Y30 = 2000/1800 = 1.11
IY = [IY(T1). IY(T2). IY(T3)]1 / 3 = 1.159
- pentru venituri :
IV(T1) = Y11D11 / Y10D10 = 14/6 = 2.33
IV(T2) = Y21D21 / Y20D20 = 24/12.5 = 1.92
IV(T3) = Y31D31 / Y30D30 = 24/18 = 1.33
IV = [IV(T1). IV(T2). IV(T3)]1 / 3 = 1.814
Exemplul 3
Fie trei societăţi comerciale : S1(Vegetală) ; S2(Zootehnie) ;S3(Procesare produse
agrozootehnice).
Baza este anul 2000 iar anul curent este 2003.
NI este numărul de muncitori în ramura Si , Pi este productivitatea muncii în ramura Si
(milioane lei venit/muncitor) iar Wi=Ni.Pi este venitul din forţa de muncă în ramura Si (milioane
lei/an).
A) Indici individuali :
- pentru număr de muncitori :
IN(S1) = N11/N10 = 8/10 = 0.80
IN(S2) = N21/N20 = 12/15 = 0.80
IN(S3) = N31/N30 = 16/20 = 0.80
IN = [IN(S1). IN(S2). IN(S3)]1 / 3 = 0.800
- pentru productivităţi :
IP(S1) = P11/P10 = 15/10 = 1.50
IP(S2) = P21/P20 = 7/6 = 1.17
IP(S3) = P31/P30 = 12/10 = 1.20
IP = [IP(S1). IP(S2). IP(S3)]1 / 3 = 1.281
- pentru venituri :
IV(S1) = N11P11/N10P10 = 120/100 = 1.20
IV(S2) = N21P21/N20P20 = 84/90 = 0.93
IV(S3) = N31P31/N30P30 = 192/200 = 0.96
IW = [IW(S1). IW(S2). IW(S3)]1 / 3 = 1.024
Veniturile din forţa de muncă W sunt un indicator complex bifactorial de forma W = N.P
Variaţia veniturilor în timp este absolută :Δ(W)=ΣNi1Pi1 - ΣNi0Pi0
sau relativă : IT(V) = (ΣNi1Pi1) / ΣNi0Pi0
Aceste variaţii absolute sau relative , se pot descompune în componente cu
metoda restului/câtului nedescompus .
Variaţiile absolute sunt :
Δ(W)=ΣNi1Pi1 - ΣNi0Pi0 = 6
Δ(N)=ΣNi1Pi0 - ΣNi0Pi0 = - 78
Δ(P)=ΣNi0Pi1 - ΣNi0Pi0 = 105
Δ(N∩P)=( ΣNi1Pi1 - ΣNi1Pi0 ) - ( ΣNi0Pi1 - ΣNi0Pi0 ) = - 21
Verificare : Δ(W) = Δ (N) + Δ (P) + Δ ( N∩P )
Coeficienţii de importanţă pentru repartizarea restului nedescompus
Δ ( N∩P ) în mod proporţional cu influenţa independentă a factorilor ,vor fi:
α (N) = Δ(N) / (Δ(N) + Δ( P )) = - 2.889
α (P) = Δ(P) / (Δ(N) + Δ( P )) = 3.889
deci α(N) + α ( P ) = 1
Recalculăm variaţiile absolute astfel :
Δ*(N) = Δ(N) + α(N).Δ(N∩P) = - 17.331
Δ*(P) = Δ(P) + α(P).Δ(N∩P) = 23.331
Verificare : Δ(W) = Δ*(N) + Δ*(P)
− pe produs : I p =
∑ I j ⋅ U (0)
j
=
∑ I j ⋅ U(0)
j
;
∑ Uj (0)
Up (0)
− pe subgrupă : Is =
∑I ⋅ U
p
(0)
p
=
∑I p ⋅ Up(0)
;
∑U (0)
p Us(0)
− pe grupă : I =
∑I ⋅ U = ∑I ⋅ U
s
(0)
s s
(0)
s
;
∑U
g (0) (0)
s U g
∑U (0)
g
5.4 Rezumat
5.5 Întrebări
5.6 Bibliografie
CAP.3
ESTIMAŢII / TESTE ÎN POPULAŢII NORMALE
Obiective : Însuşirea de către studenţi a metodei intervalelor de încredere pentru estimaţii / teste
parametrice (medii, abateri-standard şi probalilităţi) în una şi două
populaţii normale .
Conţinut :
Cuvinte cheie : estimaţie corectă şi absolut corectă ,ipoteză simplă / compusă unilaterală
şi bilaterală ,funcţia de putere a testului , interval de încredere , diferenţă limită .
Fie o populaţie statistică de volum N, care este normală N(μ,σ) în raport cu însuşirea X.
Efectuăm un sondaj de n valori independente x1, .....,xn care au media de sondaj
X =
∑ xi şi abaterea standard de sondaj S = 1 ∑( xi − X ) 2 .
n n −1
X şi S se schimbă de la un sondaj la altul, fiind variabile aleatoare independente cu
următoarele medii şi varianţe:
Pentru sondajul simplu repetat avem:
1) M ( X ) = µ ; V ( X ) =
σ2
;
n
σ 2
2) M(S 2 )=σ 2 ; V(S 2 )= ;
2n
Rezultă de aici M ( X ) = µ ; lim
n →∞
( )
V X = 0 , deci X este o estimaţie absolut corectă
pentru μ.
De asemenea M(S2)=σ2; lim V ( S 2 ) = 0 deci S este o estimaţie absolut
n →∞
corectă pentru σ.
Pentru sondajul simplu nerepetat avem:
M( X )=μ; V ( X ) =
σ2 σ2
3) − ;
n N
N σ2 σ
4) M(S2)= σ 2 ; V(S2)= − ;
N −1 2n 2 N
Rezultă de aici că M( X )=μ; limn →∞
( )
V X = 0 , deci şi în acest caz X este estimaţie
N
absolut corectă pentru μ. De asemenea M(S2)= σ2 ; lim V ( S ) = 0 , deci S este
N −1 n →∞
estimaţie corectă pentru σ.
Pentru populaţii infinite (N→∞), expresiile precedente în cazul sondajului simplu repetat
de la punctele 1), 2) coincid cu cele din cazul sondajului nerepetat de la punctele 3), 4). Dacă X
este însuşire calitativă, X =f (frecvenţa valorii X în sondaj) se schimbă de la un sondaj la altul şi
p (1 − p )
M(f)=p; V(f)= deci f este o estimaţie absolut corectă pentru p.
n
În cazul sondajului stratificat se efectuează sondaje simple (repetate sau nerepetate) de
volume n1,......,nk (n1+........+nk=n) din straturile numărul 1,.........,k de volume N1,......,Nk ;
(N1+.......+Nk=N), găsindu-se mediile de sondaj din straturi X 1,......, X k.
n1 x 1 + ⋅ ⋅ ⋅ ⋅ ⋅ + n k x k
5) Media sondajului stratificat va fi: X =
n
H este
adevărată 1-α α
Testul cu funcţia de putere Π(W, θ)=maximă, se numeşte cel mai puternic test.
Se demonstrează:
Lema Neyman-Pearson
Testul ipotezei nule H:θ=θ0 faţă de ipoteza alternativă simplă H :θ=θ1 este cel mai
puternic test dacă zona critică W a testului satisface condiţia:
f ( x, θ0 ) f ( x, θ0 )
≤ k dacă x ∈W şi ≥ k dacă x ∈W .
f ( x, θ1 ) f ( x, θ1)
1 1 1 2 1 2 σ2
V (X ) = V ( x1 ) + ⋅ ⋅ ⋅ ⋅ ⋅ + V ( x n ) = σ + ⋅ ⋅ ⋅ ⋅ ⋅ + σ = .
n2 n2 n2 n2 n
X −µ
Mai departe, n fiind variabilă N(0,1) şi conform teoremei 6.2 de mai jos,
σ
( n − 1) S 2 fiind variabilă χ2 cu n-1 grade de libertate, variabila
σ 2
( n − 1) S 2
X −µ σ2 X −µ este variabilă Student cu n-1 grade de libertate. Q.E.D.
t= n= = n
σ n −1 S
Din teorema 3.1 rezultă:
P (−tα 2 ≤ t ≤ tα 2 ) = 1 − α ,adică intervalul de încredere pentru μ:
(1) ( )
P µ ∈ X − δ α / 2 ; X + δα / 2 = 1 − α unde δ α / 2 =
S
n
tα / 2 este diferenţa limită.
Din tabela 2 din Anexă , conform relaţiei P ( t 〉tα / 2 ) = α , pe linia a n-1 grade de libertate
şi coloanele α= 0.05; 0.01 şi 0.001 găsim valorile critice t2.5% ; t0.5% ; t0.05% cu ajutorul
cărora găsim trei intervale de încredere pentru μ de forma:
cu încrederea 95% ;
1)µµ ∈
2) ∈[[XX −−δδ0.5% ;; XX ++δδ0.5% ]]
2.5% 2.5%
cu încrederea de 99% ;
3) µ ∈ [ X − δ 0.05% ; X + δ 0.05% ] cu încrederea de 99.9% .
Teorema 3.2
Mărimea χ 2 =
( n − 1) S 2 este variabilă hi pătrat cu n-1 grade de libertate.
σ2
Demonstraţie:
( n − 1) S 2
2 2
x −X xn − X x −X
Avem χ = 2
= 1 + ⋅ ⋅ ⋅ ⋅ ⋅ + şi cum ui = i sunt variabile
σ σ σ σ
2
N(0,1), independente câte două, χ2 este variabilă hi pătrat cu n-1 grade de libertate (căci avem
x −X x −X
relaţia de dependenţă 1 + ⋅⋅⋅⋅⋅ + n = 0 ) Q.E.D.
σ σ
Din teorema 3.2 rezultă:
( n − 1) S 2 2
P χ2 α ≤ ≤ χα = 1 − α adică intervalul de încredere
1− σ 2
2 2
pentru σ:
n −1 n −1
( 2) P σ ∈ S ; S = 1−α .
χ 2
α χ 2
α
1−
2 2
Reciproc, dându-se :
n −1 n −1
.S = δ α' / 2 şi .S = δα'' / 2
χα / 2
2
χ1−α / 2
2
rezultă :
2 2
δ ' δ ''
n1 = α / 2 .χα2 / 2 + 1 şi n2 = α / 2 .χ12−α / 2 + 1
S S
α=0.99; 1-α=0.999 găsim valorile χ cu ajutorul cărora găsim trei intervale de încredere pentru
2
α
2
σ de forma:
n −1 n −1
1)σ ∈ .S ; .S
χ 0.025% χ0.975%
2 2
cu încrederea de 95% ;
n −1 n −1
2)σ ∈ .S ; .S
χ 0.005 χ 0.995
2 2
cu încrederea de 99% ;
n −1 n −1
3)σ ∈ .S ; .S
χ 0.0005 χ 0.9995
2 2
cu încrederea de 99.9%.
n −1 n −1
Ipoteza H:σ=σ0 se acceptă dacă: σ 0 ∈ S; S şi se respinge în caz contrar după
χ 0.025 χ 0.975
2 2
cum urmează:
a) σ ≠ σ 0 semnificativ dacă totuşi:
n −1 n −1 n −1 n −1
σ 0 ∈ 2 S; S U S ; S ;
χ 0.005 χ0.025 χ0.975 χ0.995
2 2 2
b) σ ≠ σ 0 distinct semnificativ dacă totuşi:
n −1 n −1 n −1 n −1
σ 0 ∈ 2 S; S U S ; S ;
χ 0.0005 χ 0.005 χ0.995 χ0.9995
2 2 2
c) σ ≠ σ 0 foarte semnificativ dacă:
n −1 n −1
σ0 < S sau σ 0 > S.
χ 0.0005
2
χ 0.9995
2
Exemplu:
Fie X greutatea viţeilor (kg). Dintr-un sondaj de n=50 viţei găsim X =64.9kg; S=2.33kg.
a) Se cer intervale de încredere cu riscurile α=5%; 1%; 0.1% pentru μ şi testerea ipotezelor
H:μ=65kg; H:μ=67kg.
b) Se cer intervale de încredere cu riscurile α=5%; 1%; 0.1% pentru σ şi testarea ipotezelor
H:σ=2.5kg; H:σ=3.3kg.
Soluţie:
a) Pe linia a n-1=49GL şi coloanele α=0.05; α=0.01; α=0.001 găsim în tabela 2 din Anexă,
valorile critice t2.5%=2.01; t0.5%=2.68; t0.05%=3.50 deci înlocuind în formula (1) găsim
intervalele de încredere pentru μ:
1) µ ∈ [64.2 Kg ;65.6 Kg ]
3) µ ∈ [63.8 Kg ;66 Kg ]
2) µ ∈ [64 Kg ;65.8Kg ]
cu încrederile de 95 % ; 99 % ; 99.9%.
1)σ ∈ [2 Kg ; 2.9 Kg ]
cu o încredere de 95 %;
2)σ ∈ [1.9 Kg ;3.2 Kg ]
cu o încredere de 99%;
(3) [
P( p ∈ f − δ α 2 ; f + δ α 2 ]) = 1 − α
f (1 − f )
unde δα 2 = uα 2 este diferenţa limită.
n
Fie două populaţii statistice normale N(μ1, σ1) şi respectiv N(μ2, σ2) faţă de caracterul
cantitativ X.
Extragem un sondaj simplu repetat de n1 exemplare din prima populaţie cu n1 valori de
1 n1
X
sondaj independente X11, X12, ..... , 1n1 şi calculăm media de sondaj 1X = ∑ X1i respectiv
n1 i =1
1 n1
( )
2
abaterea standard de sondaj: S1 = ∑ 1i 1 .
n1 − 1 i =1
x − X
Extragem un sondaj simplu repetat de n2 exemplare din a II-a populaţie,cu n2 valori de sondaj
independente X21,X22,..... , X 2n2 şi calculăm media de sondaj:
1 n2
X2 = ∑ X 2i
n2 i =1
si respectiv abaterea-standard de sondaj :
1 n2
( )
2
S2 = ∑
n2 − 1 i =1
x2 i − X 2 .
( n1 − 1) S12 + ( n2 − 1) S 22
Fie S =
n1 + n2 − 2
S12 S 22 1 S1 1 S 22
2 2 2
şi n* = + : ⋅ + deci min ( n1 − 1; n2 − 1) ≤ n* ≤ n1 + n2 − 2 .
n
1 n 2 n − 1 n
1 n − 1 n2
1 2
Teorema 3.4
t=
(
X 2 − X 1 − ( µ 2 − µ1 ) )
Dacă σ1=σ2 mărimea 1 1 este variabilă Student cu n1+n2-2 grade
S +
n1 n2
de libertate.
Dacă σ 1 ≠ σ 2 mărimea :
( X 2 − X 1 ) − ( µ2 − µ1 )
t=
S12 S22
+
n1 n2
este aproximativ variabilă Student cu n* grade de libertate .
Demonstraţie:
(
X 2 − X 1 este variabilă normală cu media : M X 2 − X 1 = M X 2 − M X 1 = µ 2 − µ1 ) ( ) ( )
σ 12 σ 22
( )
şi varianţa V X 2 − X 1 = V X 2 + V X 1 = ( ) ( ) +
n1 n2
deoarece cele două sondaje se presupun independente deci şi X 1 , X 2 sunt variabile aleatoare
independente.
u=
(
X 2 − X 1 − ( µ 2 − µ1 ) )
Rezultă că σ 12 σ 22 este variabilă N(0;1). Înlocuind pe σ1=σ2 cu S,
+
n1 n2
t=
(X 2 )
− X 1 − ( µ 2 − µ1 )
conform teoremei 6.1, 1 1 este o variabilă Student cu n1+n2-2 grade
+ S
n1 n2
de libertate. Cea de-a doua afirmaţie din enunţ o admitem fără demonstraţie Q.E.D.
Din teorema 3.4 rezultă: P ( −tα 2 ≤ t ≤ tα 2 ) = 1 − α adică intervalul de încredere
pentru μ2-μ1:
( ( ) (
P µ 2 − µ1 ∈ X 2 − X 1 − δ α 2 ; X 2 − X 1 + δα 2 = 1 − α
) )
1 1
unde δ α 2 =S + ⋅ tα 2 este diferenţa limită.
n1 n 2
Din tabela 2 din Anexă, conform relaţiei P ( t > tα 2 ) = α găsim tα/2 cu n1+n2 -2 GL pentru
α=5%; 1%; 0.1% deci trei intervale de încredere pentru μ2-μ1 cu încrederile 1-α=95%; 99%;
99.9%:
1) µ 2 − µ1 ∈ [( X 2 − X1 ) − δ 2.5% ;( X 2 − X1 ) + δ2.5% )]
cu încrederea de 95%;
2) µ 2 − µ1 ∈ [( X 2 − X 1 ) − δ 0.5% ;( X 2 − X 1 ) + δ0.5% ]
cu încrederea de 99%;
3) µ 2 − µ1 ∈ [( X 2 − X1 ) − δ 0.05% ;( X 2 − X1 ) + δ0.05% ]
cu încrederea de 99.9% .
Ipoteza H:μ1=μ2 se acceptă dacă şi numai dacă :
( ) ( )
0 ∈ X 2 − X 1 − δ 2.5% ; X 2 − X 1 + δ 2.5% şi se respinge în caz contrar.
În cazul sondajelor dependente de volum n1=n2=n vom forma diferenţele d1=x21-
σ2 S
2) ∈ [0; 2 . F1% ]
σ1 S1
cu încrederea de 99%;
σ2 S
3) ∈ [0; 2 . F0.1% ]
σ1 S1
cu încrederea de 99.9% .
S2
Ipoteza H:σ1=σ2 se acceptă dacă 1 ∈ 0; F5% şi se respinge în caz contrar astfel:
S1
S2
1. σ2 >σ1 semnificativ dacă totuşi 1 < F1% ;
S1
S2
2. σ2 >σ1 distinct semnificativ dacă totuşi 1 < F0.1% ;
S1
S2
3. σ2 >σ1 foarte semnificativ dacă 1 > F0.1% .
S1
Soluţie:
S=
( n1 − 1) S12 + ( n2 − 1) S 22
adică S=2.42kg.
n1 + n2 − 2
Din tabela 2 din Anexă, pe linia a 20+30-2=48GL şi coloanele lui α=0.05; 0.01; 0.001
1 1
găsim: t2.5%=2.01; t0.5%=2.68; t0.05%=3.50 . Mărimea δ α 2 =S + ⋅ tα 2 devine:
n1 n 2
δ2.5%=0.7∙2.01=1.41;
δ0.5%=0.7 ∙2.68=1.88;
δ0.05%=0.7 ∙3.50=2.45 .
Din formula (2) avem intervalele de încredere pentru μ2-μ1 cu încrederile 1-α=95%; 99%;
99.9%:
1) µ 2 − µ1 ∈ [1.69 Kg ;3.51Kg ]
cu o încredere de 95%;
2) µ 2 − µ1 ∈ [0.22 Kg ;3.98 Kg ]
cu o încredere de 99%;
3) µ 2 − µ1 ∈ [−0.35Kg ; 4.55Kg ]
cu o încredere de 99.9% .
Fie două populaţii statistice normale în care însuşirea calitativă X apare cu probabilităţile
p1 şi p2.
Efectuăm două sondaje simple repetate de volume n1 şi n2. Fie k1 exemplare din primul
sondaj în care însuşirea X are valoarea 1 şi k2 exemplare din al doilea sondaj în care însuşirea X
k1 k2
are valoarea 1 deci avem frecvenţele de sondaj f 1 = respectiv f 2 = .
n1 n2
n1 f 1 + n2 f 2
Frecvenţa sondajelor reunite este f = .
n1 + n2
Teorema 3.6
u=
( f 2 − f1 ) − ( p 2 − p1 )
Pentru n1, n2 →∞, p1 (1 − p1 ) p 2 (1 − p 2 ) este variabilă normală redusă N(0,1).
+
n1 n2
Demonstraţie:
k1 şi k2 sunt valori ale unor variabile binomiale iar
k 1 1
M ( f 1 ) = M 1 = M ( k1 ) = ⋅ n1 p1 = p1
n1 n1 n1
şi analog M ( f 2 ) = p 2 aşa că M ( f 2 − f 1 ) = M ( f 2 ) − M ( f 1 ) = p 2 − p1 .
k1 1 1 p1 (1 − p1 )
De asemenea V ( f 1 ) = V = 2 V ( k1 ) = 2 n1 p1 (1 − p1 ) = aşa că
n1 n1 n1 n1
p1 (1 − p1 ) p 2 (1 − p 2 )
V ( f 2 − f1 ) = V ( f 2 ) + V ( f1 ) =+ .
n1 n2
Conform teoremei-limită centrală 1.14 din secţiunea 1.3, variabila normată:
u=
( f 2 − f1 ) − M ( f 2 − f1 ) = ( f 2 − f1 ) − ( p 2 − p1 )
σ ( f 2 − f1 ) p1 (1 − p1 ) p 2 (1 − p 2 )
+
n1 n2
este variabilă normală redusă N(0,1). Q. E.D.
Din teorema 3.6 rezultă: P( − uα 2 ≤ u ≤ uα 2 ) = 1−α deci un interval de încredere
pentru p2 – p1:
(
(6) P p2 − p1 ∈ ( f2 − f1 ) − δ α 2 ; ( f2 − f1 ) + δα 2 )
= 1 − α
1 1
unde δ α 2 f ( 1 − f ) + ⋅ uα 2 este diferenţa limită.
=
n1 n2
Din tabela 1 din Anexă , conform relaţiei: P ( u < uα 2 ) = 1 − α găsim u2.5%=1.96;
u0.5%=2.58; u0.05%=3.29, deci trei intervale de încredere pentru p2-p1 cu încrederile 1-α=95%; 99%;
99.9%:
1) p2 − p1 ∈ [( f2 − f1 ) − δ 2.5% ;( f2 − f1 ) + δ2.5% ]
cu încrederea de 95% ;
2) p2 − p1 ∈ [( f2 − f1 ) − δ 0.5% ;( f2 − f1 ) + δ0.5% ] cu încrederea de 99%;
3) p2 − p1 ∈ [( f2 − f1 ) − δ 0.05% ;( f2 − f1 ) + δ0.05% ]
cu încrederea de 99.9% .
Ipoteza H:p1=p2 se acceptă dacă : 0 ∈ ( f 2 − f1 ) − δ 2.5% ; ( f2 − f1 ) + δ 2.5% . În caz contrar
ipoteza H se respinge după cum urmează:
a) p1 ≠p2 semnificativ dacă totuşi:
0 ∈ ( f 2 − f1 ) − δ 0.5% ; ( f2 − f1 ) − δ 2.5% U ( f2 − f1 ) + δ2.5% ; ( f2 − f1 ) + δ0.5%
b) p1 ≠p2 distinct semnificativ dacă totuşi:
0 ∈ ( f 2 − f1 ) − δ 0.05% ; ( f2 − f1 ) − δ0.5% U ( f2 − f1 ) + δ0.5% ; ( f2 − f1 ) + δ0.05%
c) p1 ≠p2 foarte semnificativ dacă:
0 < ( f 2 − f1 ) − δ 0.05% sau 0 > ( f 2 − f1 ) + δ 0.05% .
Exemplu:
Fie X= ecloziunea ouălelor de găină la incubator. Se fac măsurători pe două rase de găini,
găsindu-se la primul sondaj de n1=3000 ouă din prima rasă, frecvenţa ouălelor eclozionate
f1=85% şi la al doilea sondaj de n1=2000 ouă din a doua rasă, frecvenţa ouălelor eclozionate
f2=90%.
Să se găsească intervale de încredere pentru diferenţa p1-p2 a probabilităţilor de ecloziune
pentru toate ouălele din care fac parte cele 3000 ouă din primul sondaj faţă de toate ouălele din
care fac parte cele 2000 ouă din al doilea sondaj şi să se testeze ipoteza H:p1=p2 .
Soluţie:
n1 f 1 + n 2 f 2
Avem f = = 87% aşa că :
n1 + n2
1 1
δα 2 = 0.87 (1 − 0.87 ) + ⋅ uα 2 = 0.0097 uα 2 . si cum u2.5%=1.96 ; u0.5%=2.58;
3000 2000
u0.05%=3.29 rezultă δ2.5%=1.9%; δ0.5%=2.5%; δ0.05%=3.2%.
Avem intervale de încredere pentru p2-p1 cu încrederile 1-α=95%, 99%; 99.9% :
1) p2 − p1 ∈ [3.1%;6.9%]
cu încrederea de 95%;
2) p2 − p1 ∈ [2.5%;7.5%]
cu încrederea de 99%;
3) p2 − p1 ∈ [1.8%;8.2%]
cu încrederea de 99.9% .
De exemplu pentru intervalul mic cu 1-α=95% avem concluzia:
Diferenţa necunoscută p2-p1 a probabilităţilor eclozionării pentru toate ouălele din care fac
parte cele 2000 din rasa de găini nr. 2 faţă de toate ouălele din care fac parte cele 3000 ale rasei
de găini nr. 1 este cuprinsă între 3.1% şi 6.9% în favoarea rasei nr.2, cu o încredere de 95%.
Există semiriscul ca această diferenţă să fie mai mică de 3.1% în favoarea rasei nr. 2, atunci
când sondajul din rasa de găini nr. 1 a fost cel mai neperformant iar sondajul din rasa de găini nr.
2 a fost cel mai performant sub aspectul ecloziunii ouălelor.
Ipoteza H:p1=p2 se respinge deoarece 0 = p 2 − p1 ∉ [ 3.1%;6.9%] şi anume p1 ≠p2 foarte
semnificativ deoarece 0<1.8%.
Teorema 3.7
Pentru n → ∞, mărimea:
(f − pi(0) )
2
( ni − n 'i )
2
k k
χ =∑ = n∑
2 i
i =1 n 'i i =1 pi(0)
este variabilă hi patrat cu k – 1 grade de libertate.
Demonstraţie:
Valorile n1, …, nk sunt pentru n → ∞, valori ale unor variabile aleatoare Poisson
(secţiunea 3.1.) independente, cu mediile şi varianţele egale cu n1' = np 1(0 ) ,..., n (k0) deci
n1 − np1( 0) n k − np (k0)
variabilele normate u1 = ,..., u k = sunt variabile independente între ele cu
np1( 0) np (k0)
media 0 şi varianţa 1.
Conform teoremei limită centrală 1.14, pentru n → ∞, variabilele aleatoare independente
între ele, u1, …, uk tind către variabila normală redusă N(0, 1) deci la limită, mărimea:
(n − ni' ) (f − pi(0) )
2
k k k
χ = ∑u = ∑ = n∑
i i
2 2
i ' (0)
este variabilă hi patrat cu k – 1 grade de
i =1 i =1 ni i =1 pi
libertate (se pierde un grad de libertate datorită relaţiei de dependenţă n1 +… + nk = n.
Uneori numărul de grade de libertate este mai mic decât k – 1: dacă X este variabilă
binomială sau Poisson avem k – 2 grade de libertate, datorită relaţiei de dependenţă n1 + … + nk =
n, n1x1 + … +nkxk = n . x iar la variabila X = N(0,1) avem k – 3 grade de libertate, datorită
relaţiilor de dependenţă n1 + … + nk = n, n1x1 + … + nkxk = n . x , n1(x1 - x )2 + … + nk(xk - x )2
= (n – 1) . S2 . Q.E.D.
Din teorema 7.1 rezultă testul hi patrat de concordanţă într-o populaţie normală:
Comparăm mărimea:
k ( f − p )
( ni − n 'i )
2 (0)
k
χ =∑ = n∑
2 i i
i =1 n 'i i −1 pi(0)
cu variabile criticeχ 0.05
2
; χ 0.01
2
; χ 0.001
2
extrase în tabela 6 pe linia a k – 1 grade de libertate.
Dacă χ 2 < χ 0.05
2
, H se acceptă deci pi concordă cu valorile ipotetice p i( 0) .
În caz contrar H se respinge după cum urmează:
a) Dacă χ ∈ χ0.05;
2 2
χ ) atunci pi ≠
2
0.01 p i( 0 ) semnificativ;
Exemplu:
Încrucişând după schema alăturată un soi
de porumb de floricele P1 cu boabe albe şi netede P1 P2
cu un soi P2 cu boabe albastre şi zbârcite, s-au
obţinut în generaţia F2 665 boabe albastre şi netede
F1
210 boabe albastre şi zbârcite, 240 boabe albe şi
netede şi 85 boabe albe şi zbârcite. B1 B2
Să se testeze raportul de segregare 9 : 3 : 3:1
al combinaţiilor de caractere precedente.
F2
Soluţie.
Numărul total de boabe este n = 665 + 210 + 240 + 85 = 1200.
Frecvenţele aşteptate sunt n’i = n . pi
9
n’1 = 1200 . boabe albastre şi netede
16
3
n’2 = 1200 . boabe albastre şi zbârcite
16
9
n’3 = 1200 . boabe albe şi netede
16
1
n’4 = 1200 . boabe albe şi zbârcite
16
9 3 1
Avem ipoteza H : p1 = , p 2 = p3 = , p 4 =
16 16 16
( ni − n 'i )
2
k
χ =∑ 2
devine pentru k = 4:
i =1 n 'i
( 665 − 675) ( 210 − 225 ) ( 240 − 225) ( 85 − 75)
2 2 2 2
χ = 2
+ + + = 3.48
675 225 225 75
raportul de segregare 9 : 3 : 3 : 1.
În cazul însuşirii X calitative, avem două clase : C în care însuşirea X este prezentă cu
frecvenţa n1 = nf şi C în care X este absentă cu frecvenţa n2 = n(1-f).
Avem frecvenţele aşteptate n’1 = np şi n’2 = n(1-p) aşa că:
( n1 − n '1 ) ( n2 − n '2 ) n ( f − p )
2 2 2
χ =
2
+ = cu k = 2 – 1 = 1 GL. De aici rezultă testul hi
n '1 n '2 p (1− p)
patrat al ipotezei H : p = p0 faţă de alternativa H : p ≠ p0:
n ( f − p0 )
2
Se compară: χ = 2
cu valorile critice:
p0 ( 1 − p0 )
χ 0.05
2
= 3.84; χ 0.01
2
= 6.63; χ 0.001
2
= 10.80 pentru 1 GL extrase din tabela 3 din Anexă şi
se ia decizia ca mai sus.
Exemplu
Fie X = leucoza vacilor. Într-o fermă cu n = 100 vaci s-a găsit f = 2%. Să se testeze
ipoteza H : p = 1% faţă de H : p ≠ 1%
Soluţie. Pentru n = 100; f = 0.02; p0 = 0.01 găsim:
( 0.02 − 0.01)
2
Y D1 Dk Sume
X linii
C1 n11 n1k s1
Ch nh1 nhk sh
Sume t1 …………………...tk n
coloane
Dacă însuşirile X, Y sunt independente, avem P(x∈Ci şi y∈Dj) = P(x∈Ci) . (y∈Dj) adică
nqi rj
pij = qi .rj de unde npij = .
n
Dar n.pij = n’ij şi n.qi = si; n.rj = tj deci frecvenţele aşteptate n’ij ale perechilor (x, y) cu x ∈
si t j
Ci şi y ∈ Dj vor fi date de relaţia nij' = ; (i = 1, …, h; j = 1, …, k) şi se vor trece în tabela de
n
contingenţă h x k în dreapta lui nij în paranteze.
Verificăm ipoteza H : X, Y = independente faţă de alternativa H : X, Y =
dependente.
Ca şi teorema 3.7 se demonstrează:
Teorema 3.8
h k (n − n ' )2
χ =∑ ∑
2 ij ij
' este variabilă hi patrat cu (h – 1) (k – 1) GL.
i =1 j =1 nij
De aici rezultă testul hi patrat de independenţă al însuşirilor X, Y într-o populaţie
normală:
Comparăm pe χ2 din enunţul teoremei 7.3 cu χ 0.05 ; χ 0.01 ; χ 0.001 extrase din tabela 3 a
2 2 2
Clase X
Viţei 20(12.5) 5(7.5) 0(5) 25
scunzi
Viţei potriviţi 10(5) 10(6) 5(4) 20
Viţei înalţi 0(2.5) 0(1.5) 5(1) 5
Suma coloană 25 15 10 n = 50
Soluţie
si t j
Frecvenţele aşteptate n’ij din paranteze au fost calculate cu relaţia nij' =
n
25 × 25
De exemplu n11 = = 12.5
'
50
( 20 − 12.5) ( 5 − 7.5 ) ( 0 − 5) ( 5 − 10 ) ( 10 − 6 )
2 2 2 2 2
Avem χ 2 = + + + + +
12.5 7.5 5 10 6
( 5 − 4 ) ( 0 − 2.5) ( 0 − 1.5 ) ( 5 − 1)
2 2 2 2
+ + + + = 35.8
4 2.5 1.5 1
Din tabela 3 a Anexei, pe linia cu (h – 1)(k – 1) = (3 – 1)(3 – 1) = 4 GL şi coloanele α =
0,05; 0,01; 0,001 găsim valorile critice: χ 0.05 = 9.49; χ 0.01 = 13.28; χ 0.001 = 18.50 .
2 2 2
Cum χ = 35.8 > χ 0.001 rezultă că H se
2 2
respinge deci X, Y sunt dependente foarte
semnificativ.
Exemplul 2
Clase X
Ouă 10(7.5) 15(15) 5(7.5) 30
albe
Ouă bej 5(7.5) 15(15) 10(7.5) 30
Suma coloană 15 30 15 n = 60
Cum χ = 3.33 < χ 0.05 = 5.99 , ipoteza H se acceptă deci X, Y sunt independente.
2 2
Exemplul 3
Fie X = leucoza vacilor, Y = tratament pentru leucoză vaci, se face un sondaj într-o fermă
cu n = 100 vaci, datele obţinute se clasifică după X, Y şi se obţine tabela de contingenţă 2x2:
Clase X
Vaci 88(81) 2(9) 90
vindecate
Vaci nevindecate 2(9) 8(1) 10
Suma coloană 90 10 n = 100
( 88 − 81) ( 2 − 9) ( 2 − 9) ( 8 − 1)
2 2 2 2
χ =
2
+ + + = 60.5
81 9 9 1
Din tabela 3 a Anexei , pe linia a (h – 1)(k – 1) = (2 – 1)(2 – 1) = 1 GL şi coloanele α =
0.05; 0.01; 0.001 găsim valorile critice χ 0.05 = 3.84; χ0.01 = 6.63; χ0.001 = 10.80 ;
2 2 2
Cum χ = 60.5 > χ 0.001 = 10.80 , H se respinge deci X, Y sunt dependente foarte
2 2
semnificativ.
3.6.3 Testele normalităţii prin asimetrie şi boltire
Exemplu
Ci Xi ni
Su 61 kg 7
b 62 63 10
[62 – 64) 65 18
[64 – 66) 67 9
[66 – 68) 69 6
peste 68 kg
Avem:
1
3 ( )− 10 ( 63+ 64.9
) −( 18 65 ) +64.9
( ) 64.9
( + 6) 69
3 3 3 3 3
A= 7 61 64.9 9− 67 − 64.9 + −
50× 2.3
= 0.02
1
4 ( )− 10 ( 63+ 64.9
) −( 18 65 ) +64.9
( ) 64.9
( + 6) 69
4 4 4 4 4
B= 7 61 64.9 9− 67 − 64.9 + −
50× 2.3
= 2.46
Din tabela 9 a Anexei , pentru n = 50 avem valorile critice A0.05 = 0.533; A0.01 = 0.787
Avem A = 0.02 < A0.05 = 0.533 deci populaţia din care a fost extras sondajul ,este normală
pe orizontală.
Din tabela 9 a Anexei , pentru n = 50 avem valorile critice B0.99 = 1.95; B0.95 = 2.13
respectiv B0.05 = 4.01; B0.01 = 4.92
Avem B = 2.46 ∈ [B0.95; B0.05] deci populaţia din care a fost extras sondajul, este normală
pe verticală.
3.7 Rezumat
În acest capitol se prezintă conceptele de estimaţie corectă şi absolut corectă a
parametrilor pentru una sau două populaţii(medii , abateri-standard şi probabilităţi) ,de
ipoteză statistică simplă sau compusă , unilaterală sau bilaterală.
Se prezintă metoda de estimare prin intervale de în credere pentru parametrii precedenţi , testul
hi patrat de concordanţă , de independenţă a două
caractere X , Y şi de normalitate a unei populaţii în raport cu un caracter.
3.8 Întrebări
1. Ce este o estimaţie corectă respectiv absolut corectă al unui parametru din populaţie ?
2. Ce este o ipoteză statistică simplă sau compusă , unilaterală sau bilaterală ?
3. Ce este funcţia de putere a testului ?
4. Ce este un interval de încredere ?
5.Cum de aplică testul hi patrat de concordanţă în genetica mendeliană ?
6.Cum se folosesc tabelele de contingenţă în testarea independenţei a două caractere?
7.Cum se testează normalitatea unei populaţii în raport cu un caracter prin asimetrie şi
boltire ?
3.9 Bibliografie
1.D.Ene , M.Drăghici, I.N. Alecu “ Statistică aplicată în agricultură “ Ed.Ceres,2003
2.M.Iosifescu şi col. “ Mică enciclopedie de statistică “ Ed.Ştiinţif.şi Enciclop,,1985
3. Anuarul statistic al României , 1990 -2008
CAPITOLUL 4
Conţinut :
Produsele agricole de origine vegetală sau animală sunt destinate în principal consumului
uman,consumului zootehnic şi ca materie primă pentru industrie .
Produsele de consum uman pot fi consumate direct(alimente proaspete)
sau după prelucrare/conservare(făină,mălai,zahăr,ulei,brânzeturi,mezeluri,
băuturi,etc).
Calitatea alimentelor destinate consumului uman este un complex de însuşiri
fizice,chimice,biologice şi estetice care trebuie îndeplinite faţă de anumite baremuri (standarde)
astfel ca să asigure la nivel optim nevoile omului.
Aceleasi cerinţe se impun şi pentru produsele de consum zootehnic (furaje
proaspete sau prelucrate/conservate).
Materiile prime pentru industrie(alimentară,textilă,energetică,cosmetică,etc )privesc
standarde de calitate asupra capacităţii de prelucrare sau conservare în vederea satisfacerii la
nivel optim a cerinţelor ca produse finite (alimente,îmbrăcăminte,încălţăminte,biogaz,produse
fitofarmaceutice si cosmetice,etc).
Maşinile agricole pentru producţia vegetală sau zootehnică trebuie să aibă capacităţi
funcţionale şi de economicitate privind combustibilii conform unor standarde care să le permită
amortizarea cheltuielilor de fabricaţie şi obţinerea de profit în urma utilizării lor .
Cel mai important indicator de calitate al masinilor agricole este siguranţa lor în
funcţionare(fiabilitatea) care trebiue să îndeplinească bareme de timp privind funcţionarea fără
defecţiuni la exploatarea în condiţii reale .
Controlul calităţii produselor agricole şi a fiabilităţii masinilor agricole are caracter oficial
si cheltuielile necesare acestui control se amortizează prin vandabilitatea crescută pe piaţa internă
şi mai ales cea externă.
Controlul calităţii si fiabilităţii în agricultură se face în toate etapele procesului de
producţie cât şi la recepţia produselor sau masinilor agricole.
Acest control poate fi exhaustiv(pentru toate produsele sau masinile) sau selectiv (prin
sondaj) .
Utilitatea statisticii în controlul calităţii şi fiabilităţii rezultă din faptul că agricultura este
un domeniu de predilecţie al acţiunii întâmplării(hazardului)
prin variabilitatea genetică a plantelor sau animalelor şi prin variabilitatea condiţiilor de mediu în
care acestea trăiesc.
Astfel orice însuşire cantitativă (măsurabilă) sau calitativă(atributivă) X este o variabilă
aleatoare în jurul standardului de calitate.
Timpul T de funcţionare fără defecţiuni al unei maşini agricole este tot o variabilă
aleatoare calitativă în jurul standardului de calitate.
Dacă X este însuşire cantitativă(măsurabilă) trebuie ca M(X)=μ şi V(X)<W2 iar dacă X
este însuşire calitativă(atributivă) trebuie ca frecvenţa sa de apariţie relativă fn(X) să tindă către
probabilitatea P.
1 n
xi = ∑ xij
n j =1
abaterile-standard de sondaj:
1 n
si = ∑ ( xij − xi )2
n − 1 j =1
precum şi media totală :
1 m n
x= ∑∑ xij
mn i =1 j =1
respectiv abaterea-standard totală :
m n
1
s= ∑∑
mn − 1 i =1 j =1
( xij − x) 2
În acest caz în rolul lui M vom lua mediile de sondaj xi sau medianele de sondaj Mei iar în
rolul lui D vom lua abaterile-standard de sondaj si sau amplitudinile de sondaj ai
Avem de verificat prin control al calităţii , ipoteza H: μ= μ0 faţă de alternativa Ĥ: μ≠ μ0
respectiv H: σ= σ0 faţă de alternativa H: σ> σ0 .
Mediile sondajelor x1,…,xm sunt variabile aleatoare normale N(μ0, σ0/√n ) deci vom lua :
σ0 σ0
LCI ( x) = µ 0 − uα / 2 ; LCS ( x) = µ0 + uα / 2 (1)
n n
Mărimile (n-1)si2 / σ02 sunt variabile aleatoare χ2 cu n-1 GL deci vom lua :
χ12−α / 2 χα2 / 2
LCI ( s ) = .σ 0 ; LCS ( s ) = .σ 0 (2)
n −1 n −1
Pentru controlul calităţii abaterii-standard se foloseşte numai LCS .
Amplitudinea unui sondaj de volum n , notată a = xmax – xmin este variabilă aleatoare deci
este variabilă aleatoare şi raportul w = a/σ .
Mediaw are valorile date de tabela 15 din Anexă.
Un estimator al lui σ este σˆ= a /w deci limitele de control pentru medie din relaţiile
(1) devin :
a a
LCI ( x) = x − 3 ⋅ ; LCS ( x) = x + 3 ⋅ (3)
n ⋅w n ⋅w
Notăm :
3
δ =
n ⋅w
cu valori în tabela 15 din Anexă, deci limitele de control pentru medie devin :
σ ( w) σ ( w)
LCI (a ) = a − 3. .a ; LCS (a ) = a + 3. .a (5)
w w
Cu notaţiile :
σ ( w) σ ( w)
D1 = 1 − 3. ; D2 = 1 + 3.
w w
care au valori în tabela 15 din Anexă, limitele de control pentru a ,capătă forma:
Exemplu
Sondaj
Pentru n =4 , din tabela 15 din Anexă, avem δ = 0.729 deci relaţiile (4) devin:
am am
LCI ( x ) = x − 3. ; LCS ( x) = x + 3. (7bis)
w w
Aici w se culege din tabela 15 din Anexă pentru n = 2 iar am este
media diferenţelor succesive aim =| x i – x i – 1 | numite amplitudini mobile.
Exemplu
10.8
|xi-xi-1| - 0.5 0.4 0.5 1.1 0.3 0.2 1.9 0.7 0.8 am=
0.71
Din tabela 15 din Anexă , pentru n=2 valori în amplitudinile mobile , avem
w =1.128 deci :
LCI(x)=10.8 – 3 .(0.71/1.128)=8.91
LCS(x)=10.8 + 3 .(0.71/1.128)=12.69
În acest caz vom avea un singur parametru M în rolul căruia vom lua fie numărul di de
exemplare-rebut din sondajul nr. i , fie frecvenţa rebuturilor fi = di / n din sondajul nr. i ;
(i=1,2,…,m).
di este variabilă binomială adică :
k1 (α )
α
P (d ≤ k1 (α )) = ∑C
k =0
k
n p0k (1 − p0 )n −k ≤ 1 −
2
Fie k2(α) cel mai mare număr natural pentru care avem :
n
α
P (d ≥ k2 (α )) = ∑
k = k2 (α )+1
Cnk p0k (1 − p0 )n −k ≤ 1 −
2
Avem :
Din păcate , limitele (7) implică calcule laborioase deaceea pentru n ≥40
şi p0 ≤0.1 , variabila binomială poate fi aproximată cu variabila normală.
a) Fişa de control pentru frecvenţa rebuturilor (fişa p )
p0 (1 − p0 ) p (1 − p0 )
LCI ( p0 ) = p0 − 3. ; LCS ( p0 ) = p0 + 3. 0 (8)
n n
fi 0.03 0.05 0.02 0 0.04 0.07 0.0 0.03 0.02 0.06 f=0.04
8
0.04 × 0.96
LCI ( p0 ) = 0.04 − 3 = 0.04 − 0.059 = 0 deci LCI(p0 ) = 0
100
0.04 × 0.96
LCS ( p0 ) = 0.04 + 3 = 0.04 + 0.059 = 0.099 ; 0.10
100
b)
Se observă că toate valorile fi nu depăşesc limita superioară LCS(p0) deci X corespunde la
controlul calităţii în cursul procesului de producţie ca proporţie a rebuturilor .
Exemplu
D
Fie un lot de N produse din care D au defecte şi fie p = proporţia acestor defecte.
N
Efectuăm un control selectiv al calităţii produselor astfel:extragem din lot
n
un sondaj de n produse (factorul de sondaj este N
) şi le controlăm, găsind δ
produse defecte.
Dacă δ ≤ c , lotul se acceptă ca fiind corespunzator calităţii X controlate,iar dacă δ > c ,
lotul se respinge ca fiind necorespunzator calităţii X controlate.In lotul respins se înlocuiesc
produsele defecte cu altele bune.
Probabilitatea de acceptare a lotului ca funcţie de p (proporţia produselor defecte în
intregul lot) se notează cu L(p) şi se numeste caracteristica operativă a controlului de calitate.
Graficul său are forma:
α = 1 − L( p 0 ) este eroarea de ordin I, adică probabilitatea respingerii unui lot cu
defecte putine,deci este riscul furnizorului.
β = L( p1 ) este eroarea de ordin II, adică probabilitatea acceptării unui lot cu defecte
multe,deci este riscul beneficiarului.
p 0 se va numi calitate de acceptare, iar p 1 calitate limită admisă.
Controlul calitatii revine deci la verificarea ipotezei H : p < p 0 faţă de alternativa
H : p > p1 .
c
Evident L ( p ) = Pδ( ≤c ) = ∑P δ( =d ).
d =0
Pδ( =d ) = = .
CDN CNN p
δ δ D
Prin calcul rezultă că ca variabila aleatoare,are media M = şi varianţa
n n N
δ 1 N − n D ( N − D) δ
V = ⋅ ⋅ deci este o estimaţie absolut corectă pentru proporţia reală
n n N −1
2
N n
D
p= de produse defecte ale lotului,deoarece:
N
δ D δ
M = ,iar lim V = 0 .
n N n →∞
n
Pentru α ,β daţi, trebuie să aflăm pe n şi c astfel ca:
L ( p 0 ) = 1α;
− L p( 1 ) β= ,
adică:
c CdN⋅p1 ⋅ CnN−( 1d−p0 )
∑
d =0 C NN⋅p0
= 1α− ;
d =0
∑ Cdn ⋅ pd0 ⋅ ( 1 − p0 )
d =0
= 1α− ;
c
∑C ⋅ p1d ⋅ ( 1 − pβ
1)
n −d
d
n = .
d =0
n
2)Dacă p şi sunt mult mai mici ca 1, avem:
N
c
λd
L ( p ) ≈ ∑ ⋅ e− λ
d = 0 d!
n
unde λ = n⋅p = D , deci n şi c satisfac ecuaţiile:
N
( n ⋅ p 0 ) − n ⋅p 0
d
c
∑
d =0 d!
⋅e = 1α− ;
( n ⋅ p1 )
d
c
∑d =0 d!
⋅ eβ− n⋅p1 = .
Teorema 4.1
1 + ori.
2
Dacă Tmin este limita inferioară admisă pentru valorile lui X, lotul este
acceptat dacă la sondajul efectuat găsim media:
X ≥ Tmin + cσ⋅ , ceea ce duce la aceleaşi valori ca mai sus pentru n şi c.
Fie T limita (superioară sau inferioară) pentru valorile lui X.
Tμ− 0 Tμ− 1
Fie 1− F = p0 ; F = p1 , aşa că:
σ σ
μ 0 = T − Up 0 ⋅ σ; μ1 = T + Up1 ⋅ σ
Tμ− 0 μ −T
deoarece U p0 = ; Up1 = 1
σ σ
Verificarea ipotezei H : p < p0 faţă de alternativa H : p > p1 devine: H :μ < μ 0
faţă de alternativa H :μ > μ 1 iar valorile din teorema 7.1 devin:
( U α +U βσ) U⋅ (αμ− 1 U
⋅ βμ− 0 −U ) U(
α T
β )
n = ;=c (2)
2T σ− ( σ+
1 )
0 σ ⋅ (U α+ U β )
Exemple:
1)Se controlează X=greutatea unui lot de pui livraţi(kg) pentru care limita inferioară de
calitate este Tmin = 1kg. Dacă se ştie că σ = 0.1kg şi se dau α =3%; β =7%;
p 0 = 1%; p1 = 4% , să se determine volumul n al sondajului şi limita de acceptare Tmin + cσ⋅
pentru media de sondaj X .
Solutie:
Din tabela 1 a Anexei, obţinem F ( U3% ) = 97% = 0.9700 deci
U 3% = 1.88; F ( U7% ) = 93% = 0.9300 deci U 7% = 1.48; F ( U1% ) = 99% = 0.9900 deci
U1% = 2.33; F ( U4% ) = 96% = 0.9600 deci U 4% = 1.75.
Din relaţiile de mai sus obţinem: μ0=0.767 Kg ; μ1=1.175 Kg.
Înlocuind aceste valori în relaţia (1) găsim:
n=34; c=2 deci Tmin + cσ = 1.2kg .
Lotul se acceptă dacă dintr-un sondaj de n=34 de pui livraţi,greutatea medie al acestora
este de cel puţin 1.2 kg.
σ σ
de unde rezultă: μ 0 = Tmax − Up 0 ⋅ σ; μ1 = Tmax + Up1 ⋅ σ .
β P 1− β
1) < n1 < , în care caz se continuă măsurătorile;
1α− P n 0 α
Pn 1 β
2) < , în care caz se ia decizia acceptării ipotezei H :μ < μ 0 ;
Pn 0 1α−
Pn 1 1β−
3) > , în care caz se ia decizia acceptării ipotezei alternative H :μ > μ 1 .
Pαn0
Populaţia fiind presupusă normală şi datele de sondaj independente,avem:
∑ ( xμi − 0 ) ∑ ( xμi − 1 ) 2
2
1 − 1 −
= Pn 1 =
2 2
Pn 0 e 2σ şi e 2σ ,
( ) ( )
n n
2π ⋅ σ 2π ⋅ σ
de unde rezultă:
∑ ( xμi − 0 ) 2 − ∑x ( i−
μ 1 )2
Pn 1
=e .
2
2σ
Pn 0
Pn 1 μ1 − μ 0 nμ( 0 +μ )
= ∑ x i −
1
aşa că avem: ln 2
Pn 0 σ 2
Cu notaţiile:
μ 0 +μ1 σ2 β σ2 1-β
a= ;b= 0 ln < =0; b 1 ln >0 (3)
2μ μ 1 α1 − 0 −μ μ −α 1 0
cazurile 1)-3) de mai sus,prin logaritmare în baza e,duc la :
Teorema 4.2
Avem cazurile:
1) a.n + b0 < ∑ x i < a.n + b1 , în care caz se continuă măsuratorile;
2) ∑ x i < a.n + b0 , în care caz se acceptă ipoteza H :μ < μ 0 ;
3) ∑ x i > a.n + b1 , în care caz se acceptă ipoteza alternativa H :μ > μ 1 .
Practic, se reprezintă grafic dreptele x = a.n + b0 şi x = a.n + b1 ,
în sistemul de axe cu abscisa n şi ordonata ∑x i şi se continuă măsuratorile până când
punctul de coordonate ( n ;∑ x )i trece prin una din zonele 2 sau 3:
După n=7 măsuratori,avem ∑ x i < a.n + b0 , deci se acceptă H,aşa că lotul se respinge
la controlul calităţii deoarece X este limitată inferior.
Exemplu:
10.12
Rezultă că c=9 şi n= = 167 .
2 ⋅ 0.03
Lotul se acceptă dacă dintr-un sondaj de n=167 de ouă ,cel mult c=9 ouă sunt
neeclozionate.
1,
dacă al i-lea produs din sondaj este defect faţă de însuşirea X
Fie: x i = în caz contrar
0,
deci dacă x i sunt independente, ∑x i este variabilă binominală de parametri
p = P( x i ) = 1 şi n.
Controlul de calitate revine la verificarea ipotezei H : p < p 0 faţă de alternativa
H : p > p1 .
In cazul nostru avem:
unde k = ∑ xi este numărul produselor din sondaj care sunt rebuturi faţă de însuşirea
calitativă X.
k n −k
P p 1 − p1 Pn 1 p1 1 − p1
Avem n 1 = 1 ⋅ ,deci: ln P = k .ln p + ( n − k ) .ln 1 − p .
Pn 0 p0 1 − p0 n0 0 0
Teorema 4.4
Avem cazurile:
1) a.n + b0 < k < a.n + b1 , în care caz se continuă masuratorile;
2) k < a.n + b 0 , în care caz se acceptă ipoteza H;
3) k > a.n + b1 , în care caz se acceptă alternativa H .
Practic,se reprezintă grafic dreptele x = a.n + b0 şi x = a.n + b1 în sistemul de axe cu
abscisa n şi ordonata k = ∑ xi şi se continuă măsurătorile până când punctul de
coordonate (n,k) trece în una din zonele 2 sau 3.
Acceptarea ipotezei H duce la acceptarea lotului la controlul calităţii,deci zona 2 este
zona de acceptare a lotului în timp ce acceptarea alternativei H duce la respingerea lotului la
controlul de calitate,deci zona 3 este zona de respingere a lotului.
Exemplu:
N xi 0.5n-0.63 k = x1 + K + x n 0.5n+0.72
1 0 -0.13 0 1.22
2 1 0.37 1 1.72
3 1 0.87 2 2.22
4 0 1.37 2 2.72
5 0 1.87 2 3.22
6 1 2.37 3 3.72
7 0 2.87 3 4.22
8 0 3.37 3 4.72
După n=8 pui controlaţi se acceptă ipoteza H,deci lotul se acceptă la controlul calităţii.
Dacă pentru produsele agricole destinate consumului este important controlul statistic al
calităţii lor in raport cu diferite însuşiri X, măsurabile sau atributive, pentru maşinile agricole
este important controlul statistic al siguranţei în functionare sau al fiabilitatii lor.
Definiţia fiabilităţii a fost dată în secţiunea 1.2
Fiabilitatea este o însuşire calitativă(atributivă) pentru care p 0 şi p 1 sunt înlocuiţi
cu T0 (timpul mediu de funcţionare fără defecţiuni acceptat), respectiv T1 (timpul mediu de
funcţionare fără defecţiuni limită admis),deci trebuie verificată ipoteza H : t > T0 faţă de
alternativa H : t < T1 , unde avem T0 >T1 spre deosebire de p 0 < p1 la însuşirile X
atributive.
In cadrul testului simplu al controlului fiabilităţii, pentru α;β;T0 ;T1 daţi,trebuie găsite
numărul de defecţiuni acceptate c şi timpul de acceptare t c al lotului la controlul fiabilităţii.
Lotul este acceptat dacă:
a)timpul de funcţionare până la apariţia a c defecţiuni este t ≥ t c sau
b)numărul de defecţiuni apărute în timpul de funcţionare t c este k ≤ c .
In caz contrar lotul se respinge la controlul fiabilităţii.
2t c
Se poate arăta că t = 2 cu 2(c+1) grade de libertate.
χp
2t c 2t c
Pentru t = T0 avem: T0 = , iar pentru t = T1 avem: T1 = 2 , de unde rezultă:
χ1α−
2
χβ
Teorema 4.5
T0 2 T
Avem t c = χ1α− = 1 χβ 2 cu 2(c+1) grade de libertate.
2 2
Vom căuta în tabela 3 din Anexă ,pentru câte grade de libertate, adică 2(c+1), avem
T0 χ 2
−
1α ≈ T1 χβ 2
, deci obţinem pe c, apoi din teorema 8.5 obţinem pe t c .
Exemplu:
160
De aici rezultă că c=19; t c = 26.51 = 2120 ore.
2
In concluzie,lotul se acceptă dacă timpul de funcţionare până la defectarea a 19 maşini
este de cel puţin 2120 ore sau dacă numărul de maşini care s-au defectat după 2120 ore de
funcţionare este de cel putin 19 maşini.
In caz contrar,lotul se respinge la controlul fiabilităţii.
lungime t,este: P ( k ) = e .
k!
k
1 t
Cu λ = avem: −t .
τ
τ P( k) = e τ
k!
τ este timpul mediu între apariţia a două defecţiuni consecutive.
Fie Pn 0 probabilitatea de a obţine datele de sondaj t 1 , , t n în cazul că ipoteza H
este adevarată şi Pn 1 probabilitatea de a obţine datele de sondaj t 1 , , t n în cazul că
alternativa H este adevarată. Avem:
k k
t t
−t −t , deci:
T T1 e T1
Pn 0 = o e T0 ; Pn 1 =
k! k!
k 1 1
Pn 1 T0 − t T1 − T0
= e ,
Pn 0 T1
Pn 1 T 1 1
de unde: ln = k .ln o − t − .
Pn 0 T1 T1 T0
Avem cazurile:
β P 1− β
1) ≤ n1 ≤ , în care caz se continuă măsurătorile;
1α− P n 0 α
Pn 1 β
2) < , în care caz se acceptă ipoteza H;
Pn 0 1α−
Pn 1 1β−
3) > , în care caz se acceptă ipoteza alternativa H .
Pαn0
1 1 β 1 −β
− ln ln
T1 T0 1α− α
Cu notatiile: a= ; b 0= ;b =1 (5)
T0 T0 T
ln ln ln 0
T1 T1 T1
prin logaritmare in baza e,cazurile 1)-3) de mai sus conduc la :
Teorema 4.6
Avem cazurile:
1) a.t + b0 < k < a.t + b1 , în care caz se continuă măsurătorile;
2) k < a.t + b 0 , în care caz se acceptă ipoteza H;
3) k > a.t + b1 , în care caz se acceptă ipoteza alternativă H .
Exemplu:
Pentru controlul fiabilităţii unor staţii pentru epurarea dejecţiilor la porci, avem
α =5%;β =10%.
Să se verifice ipoteza H: t>4 luni faţă de alternativa H : t <1 lună prin control
secvenţial.
Soluţie:
Avem α = 5%;β = 10%;T0 = 4;T1 = 1 , deci conform formulelor (5) găsim:
a = 0.54; b 0 = −1.62; b1 = 2.08 .
Tabelul de calcul cu datele de sondaj t i şi sumele k = ∑ ti ,este:
t ti 0.54t-1.62 k = t1 + K K + tn 0.54t+2.08
1 0 -1.08 0 2.62
2 1 -0.54 1 3.16
3 0 0 1 3.70
4 0 0.54 1 4.24
5 1 1.08 2 4.78
6 0 1.62 2 5.32
7 0 2.16 2 5.86
Se acceptă ipoteza H: t>4 luni după t=7 luni de funcţionare deci lotul de staţii de epurare se
4.3 Rezumat
Se prezintă controlul simplu şi secvenţial al controlului statistic de recepţie pentru însuşiri cantitative, caliative
şi fiabilitate.
4.4 Întrebări
4.5 Bibliografie
1.D.Ene , M.Drăghici, I.N. Alecu “ Statistică aplicată în agricultură “ Ed.Ceres,2003
2.M.Iosifescu şi col. “ Mică enciclopedie de statistică “ Ed.Ştiinţif.şi Enciclop,,1985
3. Anuarul statistic al României , 1990 -2008
CAPITOLUL 5
Conţinut :
Cuvinte cheie : analiza varianţei nebalansată completă / ierarhică, model cu efecte fixe /
aleatoare,componente de varianţă,blocuri complete randomizate, patrate şi dreptunghiuri latine.
Datele relative la Y, din aceste sondaje le numim repetiţii (replicate) şi le notăm cu Y(i,j)
(i=1,......., m; j=1,.........., p(i)).
Forma generală a modelului liniar este:
Y(i, j)= µ +α x (i)+e(i, j)
unde e(i, j) sunt variabilele aleatoare normale, independente câte două, cu media zero şi varianţa
σ2(E).
Orice variantă X(i) a lui X trebuie să modifice pe µ (i) nu şi pe σ.
Această condiţie se verifică prin ipoteza H: σ (1)2=..........= σ (m)2 faţă de
alternativa Ĥ: σ (1)2≠.........≠ σ (m)2 cu ajutorul testului Bartlett:
1 p (i )
Fie mediile de sondaj în cadrul variantelor
MY (i ) = ∑ Y (i, j ) şi varianţele de
p (i ) j =1
∑( p(i) − 1)
i =1
Marimea:
m
1
χ 2
B=
[∑( p (i ) −1) ln S2E- ∑( p (i ) −1) SY(i)2]
C i =1
respectiv:
α x( ) ,1 . . α x. ( m.) . . ,
α x =
p() ,1 . . p.( m). . . . ,
m
m
Notaţie : pT= ∑ p (i )
i =1
Calcule:
a) SPA şi GL:
m p (i ) m p (i )
b) S2:
2
S X=SPAX/(m-1); S2E=SPAE/(pT-m)
c)F:
FX=S2X/S2E>1 cu [m-1; pT-m]GL
Sursa de SPA GL S2 F
variaţie
X SPAX m-1 S2X FX
E SPAE pT-m S2E -
T SPAT pT –1 - -
Raportul Fisher FX se compară cu valorile critice F0.05; F0.01; F0.001 extrase din
tabelele 4,5,6 din Anexă pentru perechile de grade de libertate corespunzătoare şi se acceptă sau
se respinge ipoteza formulată mai sus.
M(S2E)= σ 2(E)
Avem estimatorii:
σ *2(E)= S2(E); σ *2(X)= (S2X-S2E)/a(1,1),
m
1
unde a(1,1)=
m −1
[pT-(1/pT). ∑
i =1
p2(i)]
p(1)=.........=p(m)=p; pT=mp şi
p m
a(1,1)= ∑ α 2x (i), pentru modelul cu efecte fixe;
m − 1 i =1
şi
a(1,1)=p, pentru modelul cu efecte aleatoare;
M(S2E)= σ 2(E)
Teorema 9.2
Demonstraţie:
2)X, Y= independente => MY(i) nu depinde de X(i), deci sunt egale între ele adică
MY(i)=MY (i=1,.....,m) aşa că SPAX =0 ,deci Ic=0, adică X, Y=necorelate.
3)X, Y= dependente funcţional (Y=f(x)) dacă şi numai dacă lui X(i) îi corespunde un
singur Z(i) adică Y(i,j) sunt egale între ele pentru orice j=1,....., p deci Y(i,j)=MY(i) (j=1,.......,
p) aşa că SPAX=SPAT ceeace are loc dacă şi numai dacă Ic=1. Q.E.D.
Exemplu:
X=proteină digestivă (PD) în raţia vacilor cu lapte ; Y=producţia lunară de lapte (litri)
într-o anumită lună a ciclului de lactaţie .
Luăm m=3 variante ale factorului X:
X1(1100g/zi) (doza-martor); X2(1200g/zi); X3(1300g/zi).
Aceste variante le aplicăm la câte p=4 repetiţii ale factorului Y.
Avem tabelul cu date:
Etape de calcul:
a) SPA şi GL:
m p
Testul Tukey
A B C
1 X1 X2 X3
2 300 330 366
3 314 338 362
4 306 342 370
5 308 350 370
unde e(i,j,k) sunt variabile aleatoare normale, independente două câte două cu media 0 şi
varianţa σ 2(E).
Reunim toate subpopulaţiile care corespund variantei X(i) fixate pentru orice j=1,....., n.
Exemplarele din această reuniune vor avea faţă de caracterul Z media:
n
Avem ∑j =1
α Y(j)=0.
Cantitatea:
α X.Y(i,j)= µ (i,j)-µ X(i)-µ Y(j)+µ se numeşte efectul principal al interacţiunii
variantei X(i) cu varianta Y(j).
După modul de alegere al subpopulaţiilor după X şi Y, avem trei tipuri de
modele :
a) Model cu efecte fixe
În acest caz ambii factori X, Y definesc efecte constante α X(i), α Y(j), α X.Y(i,j).
Ipotezele care se verifică sunt:
1) HX: µ X(1)=...........=µ X(m)=µ faţă de alternativa HX:
µ X(1)≠...........≠µ X(m)≠ µ sau sub altă formă: HX: α X(i)=0 faţă de alternativa HX: α X(i) ≠0.
2) HY: µ Y(1)=...........=µ Y(n)= µ faţă de alternativa HY:µ Y(1)≠...........≠µ Y(n)≠ µ
sau sub altă formă: HY: α Y(j)=0 faţă de alternativa: HY: α Y(j) ≠0.
3) HX.Y: µ (i,j)= µ X(i)+ µ Y(j) faţă de alternativa HX.Y: µ (i,j) ≠ µ X(i)+ µ Y(j)
sau sub altă formă: HX.Y: α X.Y(i,j)=0 faţă de alternativa: HX.Y: α X.Y(i,j) ≠0.
În acest caz ambii factori definesc efecte aleatoare : α X(i) sunt variabile aleatoare N(0;
σ 2(α X)), α Y(j) sunt variabile aleatoare N(0; σ 2(α Y)), iar α X.Y(i,j) sunt variabile aleatoare N(0;
σ 2(α X.Y)).
În cazul celor trei modele, datele împreună cu calculele de sume si medii ale repetiţiilor pe
variante (X,Y), X, Y şi pe total se trec în tabelul care urmează:
Notaţii:
CALCULE:
a) SPA şi GL:
m n p (i , j ) m n p (i , j )
grade de libertate;
m n m n
i =1 j =1 i =1 j =1
libertate;
m m
SPAX= ∑ px(i)[MZX(i)-MZT] = ∑ 2
S2X(i)/px(i)-S2T/pT cu GLX=m-1 grade de
i =1 i =1
libertate;
n n
libertate;
m n m n m
SPAX.Y= ∑∑ p(i,j)[MZ(i,j)-MZx(i)-MZY(j)+MZT] = ∑∑ S (i,j)/p(i,j)- 2 2
∑
i =1 j =1 i =1 j =1 i =1
n
grade de libertate;
m n p (i , j ) m n p (i , j ) m n
b) S2 :
c) F:
FX=S2X/S2E>1 cu [m-1;pT-q]GL
FY=S Y/S E>1
2 2
cu [n-1;pT-q]GL
FX.Y=S X.Y/S E>1 cu
2 2
[q-m-n+1;pT-q]GL
Sursa de SPA GL S2 F
variaţie
X SPAX m-1 S2X FX
2
Y SPAY n-1 SY FY
X.Y SPAX.Y q-m-n+1 S2X.Y FX.Y
2
E SPAE pT-q SE -
T SPAT pT-1 - -
Rapoartele Fisher FX, FY, FX.Y se compară cu valorile critice F0.05; F0.01; F0.001 extrase din
tabelele 4,5,6 din Anexă, pentru perechile de grade de libertate corespunzătoare şi se acceptă sau
se resping ipotezele formulate mai sus.
m − 1 i =1 p X (i ) j =1 pT i =1 j 1=
1 n 1 m
[∑ (∑
1 m
a(2,1)= p2(i,j))- (∑ p2X(j))]
n − 1 j =1 pY ( j ) i =1 pT i =1
1 1 n
a(2,2)= [ pT − (∑ p2Y(i))]
n −1 pT j =1
1 n 1 m
[∑ (∑ 1 m n
a(2,3)= p (i,j))- (∑
2
∑ p (i,j))]2
n − 1 j =1 pY ( j ) i=1 pT i =1 j 1=
n −1
a(3,1)= - a (2, 1)
q − m − n +1
m −1
a(3,2)= - a (1, 2)
q − m − n +1
1 m n n
1 m
a(3,3)= [ pT − ∑
1
(∑ 2
p (i,j))- ∑ (∑ p2(i,j))+
q − m − n +1 i =1 p X ( i ) j =1 j =1 pY ( j ) i =1
1 m n
(∑∑ p2X(j))]
pT i =1 j =1
Avem estimatorii:
σ *2(E)=S2E
σ *2 ( α X ) S 2 X − S 2E
−1 2
σ *2 = σ *2 ( αY ) = A ⋅ S
Y − S 2
E
* 2 S 2 − S 2
σ X .Y ( α X ⋅Y ) X .Y E
Exemplu:
MZY(1)=15.17
MZT=15.67
MZX(2)=1
5.65
(X3, Y1) 16.1; 16.3 MZ(3, 1)=16.2
MZY(2)=16.17
a) SPA şi GL:
m n p
SPA T = ∑∑∑[ Z (i, j , k ) − MZ T ] 2 = 10 .2268 cu GL T =mnp-1=11GL
i =1 j =1 k =1
m n
SPA ( X ,Y ) = p ∑∑[ MZ (i, j ) − MZ T ] 2 = 9.9868 cuGL ( X ,Y ) =mn-1=5GL
i =1 j =1
m
SPA X = np ∑[ MZ X (i ) − MZ T ] = 6.8468 cu GL X =m-1=2GL
i =1
n
SPAY = mp ∑[ MZ Y ( j ) − MZ T = 1.9200 cu GL Y =n-1=1GL
j =1
SPA X ⋅Y = SPA ( X ,Y ) − SPA X − SPA Y = 1.2200 cu GL X ⋅Y = GL ( X ,Y ) − GL X − GL Y = 2GL
SPA E = SPA T − SPA ( X ,Y ) = 0.2400 cu GL E = GL T − GL ( X ,Y ) = 6GL
b) S2 :
SPA X SPAY
S X2 = = 3.4234 ; SY2 = = 1.9200
GL X GLY
SPA X ⋅Y SPAE
S X2 ⋅Y = = 0.61; S E2 = = 0.04
GL X ⋅Y GLE
c) F:
S X2
FX = 2 = 85.585 cu (2;6) GL
SE
SY2
FY = = 48 cu (1;6) GL
S E2
S X2 ⋅Y
FX ⋅Y = = 15.25 cu (2;6) GL
S E2
Din tabelele Fisher 4,5,6 din Anexă ,găsim valorile critice pentru (2;6) GL : F0.05 = 5.14
; F0.01 =10 .92 ; F0.01 = 27 ;
Cum FX > F0.001 se acceptă ipoteza H adică µ X (1), µ X (2), µ X (3) diferă
foarte semnificativ între ele adică influenţa variaţiei lui X asupra variaţiei lui Z este foarte
semnificativă deci Fx = 85 .585 * * * .
Cum F0.01 < FX ⋅Y < F0.001 se acceptă ipoteza H adică influenţa variaţiei interacţiunii
X ⋅ Y asupra variaţiei lui Z este distinct semnificativă deci FX ⋅Y = 15 .25 * * .
Din tabelele Fisher 4,5,6 din Anexă, găsim valorile critice pentru (1,6) GL : F0.05=5.99,
F0.01 =13 .74 ; F0.001 = 35 .51 .
Cum FY > F0.001 se acceptă ipoteza H deci µY (1), µY (2) diferă foarte
semnificativ între ele adică influenţa variaţiei lui Y asupra variaţiei lui Z este foarte semnificativă
deci FY = 48 * * * .
A B C D
1 X1 X2 X3
2 Y1 14 15 16.1
3 14.2 15.4 16.3
4 Y2 15.2 16 16.9
5 15.6 16.2 17.1
Deschidem fereastra TOOLS în care activăm opţiunea DATA ANALYSIS
Aici activăm opţiunea ANOVA:TWO-FACTOR WITH REPLICATION
în care declarăm blocul de celule cu date A1:D5 şi numărul p=2 de repetiţii
(replicate).
Rezultatele se găsesc fie în foaia de calcul Nr. 2 ,fie tot în foaia de calcul Nr.1, prin
declararea ca celule de rezultate , a altor celule decât cele din blocul de date A1:D5
Notaţii:
m n (i ) m
pT = ∑∑ p (i , j ); nT = ∑ n(i ).
n (i )
p x (i ) = ∑ p (i , j );
i =1 j =1 j =1
i =1
Calcule:
a) SPA şi GL:
m n (i ) p (i , j ) m n ( i ) p (i , j )
S 2T
SPAT = ∑∑ ∑ [Z (i , j , k ) − MZ T ]2 = ∑∑ ∑ Z 2 (i , j , k ) − cu
i =1 j =1 k =1 i =1 j =1 k =1 pT
GLT = pT − 1 grade de libertate;
m
S 2 X (i ) S 2T m
SPAX = ∑ pX (i )[ MZ X (i ) − MZT ] = ∑ − 2
cu GL X = m − 1 grade
i =1 i =1 p X ( i ) pT
de libertate;
m n(i )
S 2 Y (i, j ) m S 2 X (i ) m n(i )
SPAY ∑∑ p (i, j )[ MZ Y (i, j ) − MZ X (i )] = ∑∑ −∑2
cu
i =1 j =1 i =1 j =1 p (i, j ) i =1 p X (i )
i =1 j =1 k =1 i =1 j =1 k =1 i =1 j =1 p (i, j )
= SPA T − SPA X − SPA Y cu GLE = pT − nT = GLT − GLX − GLY
b) S2 :
SPA X SPAX SPAE
S2X = ; S 2Y = ; S E =
2
m −1 nT − m; pT − nT
c) F:
2
S X S 2Y
FX = 2 > 1 cu [m − 1; nT − m]GL; FY = 2 cu [ nT − m; pT − m]GL .
S Y S E >1
Datele de la punctele a)-c) se trec în tabelul:
Sursa de SPA GL S2 F
Variaţie
X SPA X m-1 S2X FX
Y SPA Y nT − m S 2Y FY
E SPA E pT − nT S 2E -
T SPA T pT − 1 - -
M (S 2 ) σ 2 (α X ) σ 2 (α Y ) σ2 (E)
M (S 2 X ) a(1,1) a(1,2) 1
M (S 2Y ) 0 a(2,2) 1
M (S 2 E ) 0 0 1
Avem estimatorii:
σ *2 ( E ) = S 2 E ;
SY2 − S E2
σ (αY ) =
*2
a(2, 2)
S 2 X − a (1, 2)σ *2 (α Y ) − S 2 E
σ (α X ) =
*2
a(1,1)
M (S 2 ) σ 2 (α X ) σ 2 (α Y ) σ2 (E)
M (S 2 X ) np p 1
M (S 2Y ) 0 p 1
M (S 2 E ) 0 0 1
Exemplu
3
Fie X=genotip vier; Y=genotip scroafă şi Z=greutatea la fătare a purceilor (Kg); luăm
m=2 variante X = X 1 ( martor ), X 2 (elită) şi luăm n=2 subvariante Y pentru fiecare
variantă X: Y11 (martor), Y12 (elită) respectiv Y21 (martor), Y22 (elită).
Pentru fiecare variantă X şi fiecare subvariantă Y luăm câte p=3 repetiţii Z (purcei
rezultaţi din încrucişarea variantelor paterne cu subvariantele materne). Avem tabelul cu date:
Etape de calcul:
a) SPA şi GL:
m n p
SPA T = ∑∑∑[ Z (i, j , k ) − MZ T ] 2 = 0.25 cu GL T =mnp-1=11 GL;
i =1 j =1 k =1
m n
SPA Y = p ∑∑[ MZ Y (i, j ) − MZ X (i )] 2 = 0.03 cu GL Y =m(n-1)=2 GL;
i =1 j =1
m
SPA X = np ∑[ MZ X (i ) − MZ T ] 2 = 0.12 cu GL X =m-1=1 GL;
i =1
SPA E = SPAT − SPA X − SPAY = 0.10 cu GLE = GLT − GLX − GLY = 8GL .
b)S2 :
SPA X SPAY SPA E
S2X = = 0.1200 ; S 2 Y = = 0.0150 ; S 2 E = = 0.0125 .
GL X GLY GL E
c)F:
S2X
FX = 2 = 8 cu (1;2) GL
SY
S 2Y
FY = 2 = 1.2 cu (2;8) GL
S E
Din tabelele Fisher 4,5,6 din Anexă,pentru (1;2) GL avem valorile critice
F0.05 =18 .51; F0.01 =98 .5; F0.001 = 998 .5.
Cum FX > F0.05 rezultă că influenţa variaţiei lui X asupra variaţiei lui Z este
nesemnificativă.
Din tabelele Fisher 4,5,6 din Anexă,pentru (2;8) GL avem valorile critice
F0.05 = 4.46 ; F0.01 = 8.65 ; F0.001 =18 .41 .
Cum FY > F0.05 rezultă că influenţa variaţiei lui Y asupra variaţiei lui Z este
nesemnificativă.
4
E 0.10 8 0.0125 -
T 0.25 11 - -
Etape de calcul:
a) SPA şi GL
m l 2
S2X
FX = 2 > 1 cu [m-1;(m-1)(l-1)]GL
SE
S2B
FB = 2 > 1 cu [l-1;(m-1)(l-1)]GL
SE
Valorile precedente se trec în tabelul sintetic de analiză a varianţei:
Sursa de SPA GL S2 F
Variaţie
X SPAX m-1 S2 F XX
B SPAB l-1 S 2 FB
B
E SPAE (m-1)(l-1) S 2 -
E
T SPAT ml-1 - -
Valorile FX şi FB se compară cu valorile critice F0.05, F0.01 şi F0.001 extrase din tabelele
4,5,6 din Anexă, pentru perechile de grade de libertate corespunzătoare.
Se acceptă sau se resping ipotezele:
(X3;B2) 20
Etape de calcul:
a) SPA şi GL:
c) F:
S2X
FX = 2 = 19 cu (2 ; 2) GL
SE
S2B 1 S2E
FB = 2 < 1 deci = = 9.02 cu (2 ; 1) GL
SE FB S2B
Din tabelele Fisher 4,5,6 din Anexă,pentru (2 ; 2) GL avem valorile critice F0.05 = 19,
F0.01 = 99 şi F0.001 = 999.
Cum F0.05 = FX < F0.01 influenţa variaţiei lui X asupra variaţiei lui Y este semnificativă,
aşadar FX = 19*.
Cum FB < 1 influenţa variaţiei blocului B asupra variaţiei lui Y este nesemnificativă.
SPA X SPA B
AX = = 94.4%; A B = = 0.6%
SPA T SPA T
A E = 1-A X -A B = 5%
A B C D
1 X1 X2 X3
2 B1 15 17 19
3 B2 14 18 20
Exemple:
A B A B C A B C D
B A C A B D A B C
B C A C D A B
B C D A
Două sau mai multe pătrate latine l x l se pot alipi după linii sau după coloane dând
naştere la un dreptunghi latin.
Exemple:
A B A B C D
B A B A D C
C D
D C
Planul în
Planul în pătrate latine rezultă din combinarea a două planuri în blocuri complete
randomizate, blocurile primului plan fiind liniile pătratelor iar blocurile celui de al doilea
plan fiind coloanele pătratelor.
Numărul l al repetiţiilor fiecărui bloc-linie este egal cu numărul repetiţiilor fiecărui
bloc-coloană şi este divizor al numărului m al variantelor factorului X.
Randomizarea variantelor factorului X, notate cu X(1), …, X(m) puse în locul literelor
latine, se asigură prin faptul că în fiecare pătrat latin fiecare variantă a lui X se aplică odată şi
numai odată repetiţiei din fiecare linie şi din fiecare coloană.
Desemnăm fiecare repetiţie printr-o căsuţă în care notăm varianta aplicată X(i) şi
răspunsul la ea Y(i;j;k).
9
Etape de calcul:
a) SPA şi GL:
m l l 2
b) S2:
10
Sursa de SPA GL S2 F
variaţie
X SPAX m-1 S2X FX
L SPAL l-1 S2L FL
C SPAC l-1 SC2 FC
E SPAE (l–1)[m( l–1)-2] S2E -
T SPAT ml2-1 - -
Valorile FX, FL şi FC se compară cu valorile critice F0.05, F0.01 şi F0.001 extrase din
tabelele 4,5,6 din Anexă, pentru perechile de grade de libertate corespunzătoare.
e ( %) =
(
S2E2 GL E2 + 1 ) : S ( GL + 1)
2
E1 E1
( GL E2 + 3) ( GL + 3)
E1
2 2
unde Sşi
E1 S E2 sunt varianţele erorilor celor două planuri experimentale iar
GLşi
E1 GL E2 sunt gradele de libertate ale acestora.
Exemplu:
C1 C2 C1 C2
L1 X1 X2 L1 X3 X4
10 12 13 14
L2 X2 X1 L2 X4 X3
12 12 15 16
Etape de calcul:
a) SPA şi GL:
SPAT = 26 cu GLT = 7 GL;
SPAX = 19 cu GLX = 3 GL;
SPAL = 4.5 cu GLL = 16 GL;
SPAC = 2 cu GLC = 1 GL;
SPAE = SPAT-SPAX-SPAL-SPAC = 0.5 cu GLE = GLT-GLX-GLL-GLC = 2 GL;
b) S2 :
SPA X SPAL SPA C SPAE
S2X = = 6.33; S2L = = 4.5;SC2 = = 2; S2E = = 0.25
GL X GLL GLC GLE
c) F:
2
S
FX = X
2
= 25.32 cu (3 ; 2) GL
SE
2
S
FL = L
2
= 18 cu (1 ; 2) GL
SE
12
SC2
FC = 2 = 8 cu (1 ; 2) GL
SE
Din tabelele Fisher 4,5,6 din Anexă,pentru (3 ; 2) GL avem valorile critice F0.05 = 19.6,
F0.01 = 99.17 şi F0.001 = 999.20.
Cum F0.05 = FX < F0.01 influenţa variaţiei lui X asupra variaţiei lui Y este semnificativă,
aşadar FX = 25.32*.
Din tabelele Fisher 4,5,6 din Anexă,pentru (1 ; 2) GL avem valorile critice F0.05 =
18.51,F0.01 = 98.50 şi F0.001 = 998.50
Cum FL, FC < F0.05 influenţa variaţiei lui L şi C asupra variaţiei lui Y este
nesemnificativă.
Tabelul sintetic de analiză a varianţei este:
e ( %) =
(
S2E2 GL E2 + 1 ) : S ( GL + 1) = 2.4 = 240%
2
E1 E1
( GL E2 + 3) ( GL + 3)
E1
Aşadar planul pătratelor latine este de 2.4 ori mai eficient ca planul blocurilor
complete randomizate.
5.5 Rezumat
În acest capitol se prezintă analiza varianţei mono şi bifactorială (completă şi ierarhică)
nebalansată în populaţii omogene. Se prezintă şi planurile experimentale(blocuri complete
randomizate,patrate şi dreptunghiuri latine) în populaţii neomogene care se valorifică prin
analiza varianţei polifactorială balansată .
5.6 Întrebări
13
5.7 Bibliografie
1.D.Ene , M.Drăghici, I.N. Alecu “ Statistică aplicată în agricultură “ Ed.Ceres,2003
2.M.Iosifescu şi col. “ Mică enciclopedie de statistică “ Ed.Ştiinţif.şi Enciclop,,1985
3. Anuarul statistic al României , 1990 -2008
CAPITOLUL 6
Conţinut :
SX SY
CX = .100(%); CY = .100(%)
X Y
Definiţiile, calităţile şi defectele acestor indicatori proprii au fost date în secţiunea 5.2.
b) Indicatorii de sondaj de legătură între caractere:
1
V) Covarianţa de sondaj: SXY =
n −1
∑( X i − X )( Yi − Y ) ;
Dacă X1,…,Xn sunt depuse în celulele A1:An din coloana A în EXCEL iar
Y1,…,Yn sunt depuse în celulele B1:Bn din coloana B , atunci covarianţa Sxy
este dată de funcţia EXCEL scrisă în celula C1 : = COVAR((A1:An),(B1:Bn))
iar coeficientul de corelaţie liniară R este dat de funcţia EXCEL scrisă în
celula C2 : = CORREL((A1:An),(B1:Bn))
Valorea lui Sxy poate fi obţinută în EXCEL şi prin deschiderea ferestrei TOOLS
în care activăm opţiunea COVARIANCE în care declarăm celulele A1:An ,
B1:Bn în care se găsesc datele. Valoarea lui Sxy se obţine fie în foaia de calcul Nr.2 fie tot în
foaia de calcul Nr.1 în care se găsesc datele ,prin declararea ca celule de rezultate a altor
celule decât cele din blocul de date A1:Cn .
Coeficientul de corelaţie liniară R se obţine exact ca şi Sxy , dacă în DATA
ANALYSIS activăm opţiunea CORRELATION .
Uneori mai importante decât valorile Xi, Yi ale însuşirilor X, Y sunt rangurile lor în
ordonarea după mărime.
În cazul însuşirilor X, Y calitative se cunosc numai asemenea ranguri în clasificarea
după un anumit criteriu.
Notăm cu d diferenţa rangurilor a două însuşiri X, Y ale aceluiaşi exemplar,
coeficientul de corelaţie a rangurilor într-un sondaj de n perechi de ranguri, capătă forma:
6(d12 + ... + d n2 )
R = 1−
n(n 2 − 1)
Privind perechea de caractere X, Y ca un vector Z = (X, Y), acesta are indicatorii de
sondaj:
1) Vectorul – medie de sondaj: M(Z) = ( X , Y )
2) Matricea de covarianţă de sondaj:
S2X SX
C(Z) = Y
S S2
Y Y X
3) Matricea de corelaţie liniară de sondaj:
1 R
L( Z ) =
R 1
VII) Coeficienţii de regresie liniară de sondaj:
16
SX Y
2 d a cr ae g r eessi tace u t e r lmi be e(nBr0 ≠ 0)
B1 = SX
X Y / X d a cr ae g r eessi tafea r tae r ml iebne( Br = 0 )
∑ i i ∑ i 0
Calităţi
1) Coeficienţii B0, B1 au valori mărginite:
Sy Sy Sy Sy
B1 ∈ − ; ; B0 ∈ Y − ⋅ X; Y + ⋅ X
SX SX SX SX
Defecte
2) B0 şi B1 au unităţi de măsură deci nu permit comparaţii între perechi de caractere;
3) B0 este sensibil la codificarea datelor iar B1 la înmulţirea şi împărţirea datelor;
4) Prognoza valorilor Y făcută pe baza dreptei de regresie Y = B0 + B1X este
aproximativă.
Dacă X1,…,Xn sunt depuse în celulele A1:An din coloana A în EXCEL iar
Y1,…,Yn sunt depuse în celulele B1:Bn din coloana B , atunci coeficientul de regresie liniară
B1 este dat de funcţia EXCEL scrisă în celula C3 : = SLOPE((A1:An),(B1:Bn)) iar termenul
liber al regresiei B0 este dat de funcţia EXCEL scrisă în celula C4 : = INTERCEPT((A1:An),
(B1:Bn))
Pentru prognoza valorii Y(0) = B0 + B1.X(0) se foloseşte funcţia EXCEL scrisă
În celula C5 : = FORECAST (X(0) , (A1:An),(B1:Bn)).
Fundamentarea afirmaţiilor din secţiunea 10.1 se bazează pe teoremele care urmează:
Teorema 6.1
1) Dreapta de regresie Y = B0 + B1X are coeficienţii daţi de relaţiile:
S XY
2 pt. B0 ≠ 0
B1 = S X
X Y / X 2 pt. B = 0
∑ i i ∑ i 0
( n − 1) ( 1 − R 2 )
δα = SY ⋅ tα ; n - 2 GL
2 n ( n − 2) 2
Demonstraţie
1) Dacă regresia este cu termen liber (B0 ≠ 0) vom minimiza variaţia reziduală cu
necunoscutele B0, B1:
SPAY.X = (y1 – B1x1 – B0)2 + … + (yn – B1xn – B0)2 = minim
(metoda celor mai mici pătrate)
Anulând derivatele parţiale ale lui SPAY.X în raport cu B1, B0, obţinem sistemul de
ecuaţii normale cu necunoscutele B1, B0:
18
B1 ∑ x i2 + B0 ∑ x i = ∑ x i yi
B1 ∑ x i + n B0 = ∑ yi
SXY
Eliminând B0 între cele două ecuaţii normale, găsim B1 = , apoi din a II-a ecuaţie
S2X
normală împărţită cu n, găsim B0 = Y -B1. X
Ecuaţia dreptei de regresie se scrie Y = ( Y − B1X ) + B1 ⋅ X adică
Y - Y = B1(X - X ) deci dreapta de regresie Y = B0 + B1X trece prin centrul de
greutate ( X , Y ) al norului de puncte {(xi, yi) ; (i = 1, …, n}.
Dacă regresia este fără termen liber (B0 = 0) avem variaţia reziduală minimă:
SPAY.X = (y1- B1x1)2 + … + (yn – B1xn)2 = minim.
Anulând derivata lui SPAY.X în raport cu B1, găsim ecuaţia normală necunoscuta B1:
B1 ∑X i2 = ∑X i Yi de unde B1 = ∑X i Yi / ∑X i2 .
σ 2Y⋅X
2) Avem M(Y – B0 – B1X) = M(Y) – B0 – B1M(X) = 0 şi V(Y – B0 – B1X) =
n
Y − B 0 − B1X
deci variabila normată n este variabilă N(0, 1).
σ Y⋅X
( n − 2 ) SY2⋅ X
Variabila este variabilă χ 2 cu n – 2 GL, independentă de variabila N(0,
σ Y2⋅ X
Y − B0 − B1X
1) notată n . De aici rezultă că :
σ Y⋅X
( n − 2 ) SY2⋅ X
Y − B0 − B1 X σ Y2⋅ X Y − B0 − B1 X este variabilă student cu n –
t= n: = n
σ Y ⋅X n−2 SY ⋅ X
2 GL.
(
De aici rezultă: P −tα ≤ t ≤ tα
2 2
) = 1 − α adică intervalul de încredere pentru
Y – B0 – B 1X:
P Y ∈ B0 + B1 X − δ α ; B0 + B1 X + δα = 1 − α
2
2
SY ⋅ X
unde δ α = tα / 2;( n − 2)GL este diferenţa limită.
2 n
Ţinând cont de demonstraţia teoremei 10.2 avem:
S 2
Y ⋅X = = =
n−2 n−2 n−2
( n − 1) ( 1 − R 2 )
δα = ⋅ SY ⋅ tα / 2;( n −2)GL
2 n ( n − 2)
19
Y D+
D
D
Y
D- D-
0 X X
Teorema 6.2
S XY
1) Coeficientul de corelaţie liniară este dat de relaţia: R = ;
S X ⋅ SY
2
2) Aporturile variaţiei lui X, E la variaţia lui Y sunt A X = rXY ; AE = 1-AX
R
3) t = n − 2 este variabilă Student cu n – 2 grade de libertate.
1 − R2
Demonstraţie
SXY
1) Dacă B1 = ; B0 = Y - B1 . X se verifică prin calcul relaţia:
S2X
∑ ( Yi − Y ) = ∑ ( B1X i + B0 − Y ) + ∑ ( Yi − B1X i − B0 ) 2 adică:
2 2
SPAY ⋅ X
R = 1− (2)
SPAY
∑( B X + B −Y )
2
SPAR 1 i 0
R= =
∑( Y −Y )
2
SPAY
i
SXY
şi înlocuind pe B1 = ; B0 = Y - B1 X
S2X
S XY
(conform teoremei 10.1) rezultă prin calcul: R =
S X ⋅ SY
Observăm că:
2
SPAXY
SPAY ⋅ X = ( 1 − R 2 ) ⋅ SPAY = 1 − ⋅ SPAY adică:
SPAX ⋅ SPAY
2
SPA XY
SPA Y ⋅ X = SPA Y − (3)
SPA X
21
Ţinând cont de relaţia (2) relaţia (1) se scrie: SPAY = R .SPAY + ( 1 − R ) .SPAY
2 2
3)
sau 1 = R + ( 1 − R )
2 2
Dar S R2 =
SPAR R 2 ⋅ SPAY
= şi SY2⋅ X = SPAY ⋅ X =
( 1 − R 2 ) SPAY deci
1 1 n−2 n−2
R2 1
avem: F = : cu (1; n-2) GL şi conform secţiunii 3.2
1− R n − 2
2
R
t= F = n−2 este variabilă Student cu n – 2 GL.
1 − R2
B1
t= n−2
2
Avem : S Q.E.D.
− B12
Y
2
S X
SY SX
Avem B1 = R de unde R = B1 aşa că valorile Yai calculate din dreapta de
SX SY
regresie Y = Y + B1(X - X ) conform relaţiei:
Teorema 6.3
Demonstraţie
( )
1) Ya = M (Ya) = M Y + B1 X − X = Y + B1 ⋅ M X − X = Y ( )
( ) ( )
SYa2 = V ( Ya) = V Y + B1 X − X =B1 2. V X −X =B1 2. V( X) =R 2 V⋅( Y) =R 2 S⋅Y2
S X ,Ya = C ( X , Ya ) = M ( X ⋅ Ya ) − M ( X ) ⋅ M (Ya) = M [ X Y + B1 ( X 2 − X ⋅ X )] − X ⋅ Y =
C( X ,Y )
= XY + B1 M ( X 2 ) − M 2 ( X ) − X ⋅ Y = B1 ⋅ V ( X ) = ⋅ V ( X ) = S XY
V (X )
C ( X , Ya ) B1 ⋅ V ( X )
RX ,Ya = = =1
V ( X )V (Ya ) V ( X ) ⋅ B12 .V ( X )
2) Yc = M (Yc) = M [Y + (Y − Ya )] = Y + M (Y ) − M (Ya ) = Y + Y − Y = Y
Avem Yc + Ya = Y + Y deci V (Yc) + V (Ya ) = V (Y ) aşa că
V (Yc) = V (Y ) − V (Ya) = V (Y ) − B12 ⋅ V ( X )
S (Y )
Dar B1 = ρ ( X , Y ) ⋅ deci B1 ⋅ V ( X ) = ρ ( X , Y ) ⋅ V (Y )
2 2
S(X )
aşa că V (Yc) = 1 − ρ 2 ( X , Y ) ⋅ V (Y ) = ( 1 − R2 ) ⋅ SY2
S X ,Yc = C( X , Yc) = C X , Y +( Y −Ya) =C[ X , Y −Ya
] =C( X , Y ) − ( X , Ya)
C S=XY S−XY 0=
C ( X , Yc )
RX ,Yc = ρ ( X , Yc) = = 0 . Q.E.D.
V ( X ).V (Yc)
Teorema 6.4
δα = 2 uα / n −3
şi
2
(1 + R ) + (1 − R )e 2
23
−2 uα / n − 3
(1 + R ) − (1 − R )e 2
δ 'α = −2 uα / n −3
2
(1 + R ) + (1 − R )e 2
( 1 − R ) ( n − 1) S + n X S
2 2 2
δα =
X
⋅ Y ⋅t
n ( n − 2)
α / 2;( n − 2) GL
2 SX
(Fără demonstraţie)
tα
R= 2
= Rα / 2
tα + n − 2
2
Valorile critice Rα 2 pentru α = 0.05; 0.01; 0.001 şi n – 2 GL sunt date de tabela 10 din
Anexă.
Decizia asupra ipotezei H se ia astfel:
Dacă R < R0.025 ipoteza H se acceptă: ρ = 0 deci X, Y nu sunt corelate liniar în
populaţie.
În caz contrar avem cazurile:
a) R0.025 ≤ R < R0.005 deci X, Y sunt corelate liniar semnificativ;
1 1 +ρ" 1
N ln ; (z’, z” = independente) deci z’ – z” este
2 1 −ρ" n2 −3
1 1
variabilă N 0; + aşa că
n1 - 3 n 2 − 3
z '−
z"
u =
1 1
+
n1 −3 n 2 −
este variabilă N(0, 1).
Din tabela 11 din Anexă, obţinem transformatele Fisher z’ şi z” ale lui R’, R” apoi
calculăm pe u din relaţia precedentă şi îl comparăm cu valorile critice u0.025=1.96; u0.005=2.58;
u0.0005=3.29
Decizia se ia ca la punctul 1).
Exemple
25
xi 70 68 71 72 69 66 70 67 71 72
yi 55 54 56 60 54 50 56 53 56 58
Soluţie
Se reprezintă grafic norul de puncte cu coordonatele (xi, yi) cu unul din produsele
informatice EXCEL ,TCWIN .
Forma alungită a norului de puncte indică o dependenţă liniară. Deoarece pentru talia
X = 0 avem greutatea Y = 0, regresia este fără termen liber.
Calcule:
∑( x − X )
2
38.40
= 4.27 = 2.07 cm
i
SX = =
n −1 10 − 1
∑( y − Y )
2
67.60
= 7.51 = 2.74 kg
i
SY = =
n −1 10 − 1
Coeficienţii de variabilitate:
2.07 2.74
CX = ⋅ 100 = 3% ; CY = ⋅ 100 = 5%
69.6 55.2
Covarianţa S XY =
∑( x
i −X ) ( y − Y ) = 47.80 = 5.31 cm x kg
i
n −1 10 − 1
S XY 5.31
R= = = 0.938
S X ⋅ SY 2.07 × 2.74
AE = 12%
Ax = 88%
Concluzie: 88% din variaţia lui Y este datorată variaţiei lui X, restul de 12% se
datoreşte variaţiei altor factori necontrolaţi numiţi Eroare.
Pentru coeficientul de corelaţie liniară necunoscut ρ între X, Y în populaţie, avem
intervalele de încredere:
[0.801; 0.982] cu încrederea de 95%;
[0.688; 0.989] cu încrederea de 99%;
[0.504; 0.994] cu încrederea de 99.9%.
Intervalul cel mai mic [0.801; 0.982] cu încrederea de 95% are următoarea
interpretare:
Coeficientul de corelaţie necunoscut ρ între talia şi greutatea tuturor viţeilor din care
fac parte cei 10 ai sondajului, este cuprins între 0.801 şi 0.982 cu o încredere de 95%.
Există semiriscul 2.5% ca acest coeficient ρ să fie mai mic ca 0.801 atunci când
sondajul extras din populaţie a fost intens corelat liniar (în sondaj sunt viţei scunzi şi slabi
respectiv viţei înalţi şi graşi).
În mod analog există semiriscul 2.5% ca, coeficientul ρ să fie mai mare ca 0.982
atunci când sondajul extras din populaţie a fost slab corelat liniar (în sondaj sunt viţei de
toate categoriile: scunzi şi slabi, scunzi şi graşi, înalţi şi slabi, înalţi şi graşi).
Ipoteza H : ρ = 0.9 se acceptă deoarece ρ = 0.9 ∈ [0.801; 0.911].
B1 =
∑x yi 38467 0.793 kg crestere greutate
i
==
∑x 2
48480
i 1 cm crestere talie
B0 = 0 kg (regresie fără termen liber).
Ţinând cont de relaţia : β 1= ρ .(σ Y/σ X) intervalul cel mai mic [0.676; 0.911] cu
încrederea de 95% are următoarea interpretare:
Coeficientul de regresie liniară necunoscut β1 între X şi Y în populaţia din care
provine sondajul este cuprins între 0.676 şi 0.911 cu încrederea de 95%.
Există semiriscul 2.5% ca acest coeficient β1 să fie mai mic de 0.676 atunci când
sondajul extras din populaţie a fost intens corelat liniar sau variabilitatea caracterului Y
raportată la variabilitatea caracterului X este relativ mare în populaţie.
În mod analog există semiriscul 2.5% ca acest coeficient β1 să fie mai mare ca 0.911
atunci când sondajul extras din populaţie a fost slab corelat liniar sau variabilitatea
caracterului Y raportată la variabilitatea caracterului X este relativ mică în populaţie.
Ipoteza H : β1 = 0.7 se acceptă deoarece β1 = 0.7 ∈ [0.676; 0.911].
( n − 1) ( 1 − R 2 )
Relaţia: δ α = ⋅ SY ⋅ tα / 2;(n − 2)GL
2 n ( n − 2)
( 10 − 1) ( 1 − 0.9382 )
devine: δ α = × 2.74 × 2.31 = 0.736
2 10 ( 10 − 2 )
Ecuaţia dreptei de regresie cu fâşia de încredere Y = B0 + B1 X ± δ α 2 devine Y =
0.793X + 0.736.
Cu ajutorul acestei ecuaţii se pot face prognoze cu asigurarea de 95% astfel:
Pentru X = 75 cm avem valorile aşteptate:
60.211 kg (Maxima)
Ya = 0.793 x 75 + 0.736 = 59.475 kg (Media)
59.739 kg (Minima)
Pentru talia viţeilor Xa = 75 cm ,ne aşteptăm ca greutatea viţeilor din care provine
sondajul să fie cuprins între [58.739 kg; 60.211 kg] cu o încredere de 95%.
Există semiriscul 2.5% ca această greutate să fie sub 58.739 kg atunci când sondajul a
fost ales performant ca greutate.
În mod analog există semiriscul 2.5% ca această greutate să fie peste 60.211 kg atunci
când sondajul a fost ales neperformant ca greutate.
X a = 75 cm
Ipoteza H : se acceptă deoarece Ya = 60 kg ∈[58.739; 60.211].
Ya = 60 kg
Valorile aşteptate Ya ale lui Y se calculează cu relaţia Ya = 0.793X iar valorile
corectate Yc ale Y sunt date de relaţia:
Yc = Y + ( Y − Ya )
Avem tabelul:
Soluţie
Pentru R’= 0.938 avem din tabela 11 din Anexă, transformata Fisher z’= 1.7220 iar
pentru R”= 0.865 din aceeaşi tabelă, avem transformata Fisher z”=1.3132
ti 6 8 3 1 7 10 5 9 4 2
gi 6 8 4 1 7 10 5 9 3 2
di 0 0 1 0 0 0 0 0 1 0
di2 0 0 1 0 0 0 0 0 1 0
6∑ di2
Coeficientul de corelaţie a rangurilor R = 1 − devine R = 0.988 cu 10 – 2 =
n ( n 2 − 1)
8 GL.
Valorile critice pentru n – 2 = 8 GL din tabela sunt R0.05 = 0.632; R0.01 = 0.765; R0.001
= 0.872.
29
Cum R = 0.988 > R0.001 = 0.872, corelaţia rangurilor după talie şi greutate a tuturor
viţeilor din care fac parte cei 10, este foarte semnificativă.
Există cazuri când pentru caracterul Y avem observaţii multiple deci datele de sondaj
au forma:
xi yij yi
x1 y11 _________y1p y1
x2 y21 _________y2p y2
. .
. .
. .
xn yn1 _________ynp yn
În acest caz se poate face corelaţia şi regresia liniară între valorile xi şi mediile y i şi
pe de altă parte se poate face analiza varianţei monofactorilaă balansată între valorile xi şi
valorile yij.
Variaţia totală a valorilor Y este:
( )
n p
SPAY = ∑∑ yij − Y cu np – 1 GL
i =1 j =1
( )
n 2
SPAR = p ∑ B0 + B1 X i − Y cu 1 GL
i =1
i =1 j =1
= (np-2) GL
30
SPAE SPAX
Ic = 1 − = (8)
SPAY SPAY
Rezultă de aici:
SPAR = R2 . SPAY cu 1 GL
SPAY.X = (1 – R2) . SPAY cu np – 2 GL
respectiv:
SPAX =Ic2 . SPAY cu n – 1 GL
SPAE = (1 – Ic2) . SPAY cu n(p – 1) GL
De asemenea:
SPAA = (Ic2 – R2) . SPAY cu n – 2 GL
Prin împărţire cu SPAY, relaţia (6) devine:
1 = R2 + (Ic2 – R2) + (1 – Ic2) (9)
Din relaţia SPAA = (Ic2 – R2) . SPAY rezultă: 0 < R < Ic (10)
Reunind teorema 1.9 din secţiunea 1.2 şi teorema 5.2 din secţiunea 5.1,
obţinem:
Teorema 6.5
S R2 1 R2 1
FR = 2 : = : cu [1; np – 2] GL
SY ⋅ X np − 2 1 − R np − 2
2
R
De aici rezultă că t R = FR = np − 2
1 − R2
S A2 n−2 I c2 − R 2 n−2
FA = 2 : = : cu [n – 2; n(p – 1)] GL
S E n( p − 1) 1 − Ic2
n( p − 1)
Ecuaţia dreptei de regresie între valorile xi şi y i cu fâşia de încredere se stabileşte ca
secţiunea 10.1.1 pe baza relaţiei: y = B0 + B1x + δ α 2
S XY
unde B1 = ; B0 = Y -B1 ⋅ X ;
S X2
(n − 1)(1 − R 2 )
δα = ⋅ SY ⋅ tα / 2;( n −2)GL
2 n(n − 2)
Exemplu
Fie X = proteina digestibilă (kg) în raţia vacilor de lapte; Y = producţia lunară de lapte
(hectolitri). Avem n = 8 variante de proteină digestibilă aplicate la câte p = 3 vaci cu lapte.
Date de sondaj:
Xi Yij Yi Y ai ∆Yi
1 4.5; 4.5; 4.8 4.6 5.361 -0.761
1.05 5; 5; 5.3 5.1 5.629 -0.529
1.10 5.4; 5.3; 5.5 5.4 5.897 -0.497
1.15 6; 5.9; 6.1 6.0 6.165 -0.165
1.20 6.3; 6.3; 6.6 6.4 6.433 -0.033
1.25 6.9; 7; 7.1 7.0 6.701 0.299
1.30 7.5; 7.4; 7.6 7.5 6.969 0.531
1.35 7.9; 8.1; 8 8.0 7.237 0.763
i =1 j =1
8
SPAR=3 ∑ ( ya i − Y ) = 8.384
2
i =1
8
SPAA= 3∑ ( y i − ya i ) = 6.254
2
i =1
32
8 3
i =1 j =1
Rezultă SPAX=SPAR+SPAA=14.638 şi
SPAY.X=SPAA+SPAE=22.068
SPAR SPAX
Rezultă R= = 0.525; I c = = 0.693
SPAY SPAY
Testele ipotezelor
a) HX:η =0 faţă de HX: η ≠0
I c2 n −1
FX= : = 2.112 cu (7;16)GL
1 − I c n( p − 1)
2
Din tabelele 4,5,6 din Anexă, avem valorile critice pentru (7;16) GL astfel:
F0.05=2.66; F0.01=3.04;F0.001=6.50
Cum FX<F0.05 , se acceptă ipoteza Hx: η = 0
R2 1
FR= : = 8.371 cu [1;22] GL
1 − R np − 2
2
tR= FR =2.893 cu 22 GL
Din tabela Student 2 din Anexă,avem pentru 22 GL, valorile critice t0.05=2.07;
t0.01=2.82; t0.001=3.79. Cum tR ∈ [t0.01; t0.001] ipoteza HR: ρ = 0 se respinge deci ρ ≠
0 distinct semnificativ.
I c2 − R 2 n − 2
FA = : = 1.050
1 − I c2 np − 1
cu (6;16) GL.
Din tabelele Fisher 4,5,6 din Anexă, pentru (6;16) GL ,avem valorile critice
F0.05=2.74; F0.01=4.20; F0.001=6.81
Cum FA<F0.05 ipoteza HA: ρ= η se acceptă.
Funcţia de regresie este Y=B1X adică y=5.361X.
1 n
Avem S 2 Y = ∑ (Y i − Y ) = 0.93
2
n i =1
Lăţimea fâşiei de încredere cu α =0.05 este
(8 − 1)(1 − 0.5252 )
δ 2.5 % = × 0.964 × 2.45 = 0.768
8(8 − 2)
deci Y=0.5361X± 0.768
Exemple
1) X=precipitaţii în săptămâna t=i
Y = talia plantei în săptămâna următoare t’=i+1
Exemplu
X=proteina digestibilă în raţia unei vaci cu lapte (g/zi) în 11 zile consecutive
Y=producţia zilnică de lapte (litri/zi) în 11 zile consecutive.
Date de sondaj:
Xi 1000 1020 1040 1060 1080 1100 1120 1140 1160 1180 1200
Yi 9.6 9.6 9.7 9.8 9.9 9.9 9.9 10.1 10.3 10.4 10.6
Yi+1 9.6 9.7 9.8 9.9 9.9 9.9 10.1 10.3 10.4 10.6 -
Aplicând corelaţia şi regresia liniară între valorile (xi, yi+1) pentru primale n=10 zile,
obţinem:
Mediile: MX=1090 g/zi ; MY’=10.02 l/zi
Abaterile standard: SX=60.553 g/zi; SY,=0.322 l/zi
Covarianţa: SXY,=18.889 g x l/zi
Coeficientul de cross-corelaţie liniară: R=0.967
Coeficienţii de cross-regresie liniară:
B0=4.405; B1=0.005
Lăţimea fâşiei de încredere δ 2.5% =0.063;
Ecuaţia de cross-regresie este :Yt+1=B0+B1.Xt± δ α /2
Rc2 d −1
F= : (2)
1 − Rc n − d
2
35
R2 1
F= : (3)
1− R n − 2
2
R
este variabilă Fisher cu (1;n-2) GL, deci t= F = n−2 este
1− R 2
XT.X.B=XT.Y
Dacă matricea simetrică XT.X de ordin m+1 este nesingulară (det(XT.X)≠ 0), sistemul
de ecuaţii normale are soluţie unică scrisă matricial:
B=(XT.X)-1.XT.Y
36
În cazul regresiei polinomiale fără termen liber (B0=0) ecuaţiile normale au forma:
Rc2 m −1
Fp = : (5)
1 − Rc n − m
2
cu (m-1;n-m)GL
Exemplu:
xi yi yai ∆ yi
0 15 15.28 -0.28
30 17 16.80 0.20
60 20 19.23 0.77
90 22 22.32 -0.32
120 25 25.80 -0.80
150 29 29.40 -0.40
180 34 32.88 1.12
37
Variaţia totală este SPAY=742.4, iar variaţia reziduală este SPAY.X=3.025 aşa că
SPAY . X
raportul de corelaţie va fi : Rc= 1 − =0.99796.
SPAY
Raportul Fisher Fp are forma (4) (regresia este cu termen liber) şi pentru n=10; m=3
capătă valoarea Fp=488.7 cu (3;6) GL.
Valorile critice Fisher din tabelele 4,5,6 din Anexă, cu (3;6) GL sunt: F0.05=4.76;
F0.01=9.78; F0.001=23.70.
Cum Fp=488.7> F0.001=23.70, corelaţia polinomială în populaţia din care provine
sondajul este foarte semnificativă.
în care avem 2k+1 parametri de regresie necunoscuţi T0, S1, C1,...., Sk,Ck.
Sistemul cu d= k+1 ecuaţii normale cu necunoscutele Y0, S1, C1,......., Sk,Ck dă
aceste valori astfel:
T0= MY
2 n 2 n
S1= ∑ yi sin xi ; C1= ∑ yi cos xi
n i =1 n i =1
...................................................……
2 n 2 n
Sk= ∑ i
n i =1
y sin kxi ; C k = ∑ yi cos kxi
n i =1
cu (2k ; n-2k-1 ) GL
Prin regresia trigonometrică se ajustează date cu caracter periodic (ciclic) mai ales
când x este timpul măsurat sezonier (în secunde , minute, ore, zile, săptămâni, luni, trimestre,
semestre, ani, decenii, secole, milenii).
De exemplu în cazul X=timpul, Y poate fi caracter meteorologic (precipitaţii, căldură,
lumină, secete, inundaţii, îngheţuri, grindină,etc.) sau geologic (cutremure, alunecări de teren)
sau biologic (cicluri de reproducţie şi lactaţie, serii la îngrăşat pentru animale domestice,
perioade de vegetaţie pentru plantele de cultură) sau economic (perioade de avânt economic şi
de recesiune).
Exemple :
1)X=timpul în luni
Y=temperatura medie lunară a aerului în perioada 1901-1990 la staţia meteo
Bucureşti-Filaret (0C).
Z=precipitaţiile medii lunare în perioada 1901-1990 la staţia meteo Bucureşti-Filaret
(m3/ha).
Date de sondaj:
Luna X Temperatura Y Precipitaţii Z
1 -2.4 406
2 -0.3 340
3 5.2 374
4 11.6 444
5 16.9 681
6 20.6 860
7 22.8 578
8 22.3 512
9 17.8 391
10 11.8 411
11 5.5 485
12 0.4 411
a) Funcţia de regresie trigonometrică pentru temperatura medie lunară Y cu
k=2 armonice are coeficienţii:
T0=MY=11.01667 oC
S1= - 6.5409; C1= - 10.5161;
S2= - 0.4908; C2= - 0.5500.
Valorile echidistante xi, valorile din cerc xci = i.(2π /12), valorile observate yi, cele
aşteptate yai = T0 + [s1.sin(xci) + c1.cos(xci)] + [s2.sin(2.xci) + c2.cos(2.xci)]
şi diferenţele ∆ yi=yi-yai sunt :
xi Xci Yi yai ∆ yi
1 0.5235989 -2.4 -2.06 -0.34
2 1.047198 -0.3 -0.06 -0.24
3 1.570797 5.2 5.03 0.17
39
Variaţia totală este SPAY=2381.04, variaţia reziduală este SPAY.X=1.148, deci raportul
de corelaţie trigonometrică dat de relaţia (1) va fi Rc=0.999759
Raportul Fisher este dat de relaţia (6) şi pentru n=12; k=2 capătă valoarea : Ft=3629
cu (4; 7)GL.
Valorile critice Fisher din tabele 4,5,6 din Anexă, cu (4;7)GL sunt F0.05=4.12;
F0.01=7.85; F0.001=17.19
Cum Ft=3629 >F0.001=17.19, corelaţia trigonometrică în populaţia din care provine
sondajul, este foarte semnificativă.
Media de sondaj de evoluţie este :
Y1 Y
+ Y2 + ... + Yn −1 + n
MYc = 2 n = 12.10 C
n −1
Ritmul mediu valoric D = (Yn – Y1 ) / (n – 1 ) şi ritmul mediu procen-
tual I = ( Yn / Y1 )1/n nu sunt relevante (vezi exemplul b) care urmează).
xi xci zi zai ∆ zi
1 0.5235989 406 411.25 - 5.25
2 1.047198 340 334.75 5.25
3 1.570797 374 379.25 - 5.25
4 2.094395 444 438.75 5.25
5 2.617994 681 686.25 - 5.25
6 3.141593 860 854.75 5.25
7 3.665192 578 583.25 - 5.25
8 4.188791 512 506.75 5.25
40
Variaţia totală este SPAZ=3142985, variaţia reziduală este SPAZ.X=331, deci raportul
de corelaţie trigonometrică dat de relaţia (6) este : Rc==0.9999474
Raportul Fisher Ft dat de relaţia (1) ,pentru n=12, k=5 capătă valoarea Ft=950.9893
cu (10; 1) GL.
Valorile critice Fisher pentru (10;1) GL extrase din tabelele 4,5,6 din Anexă, sunt
F0.05=241.9; F0.01=6056; F0.001=605600
Cum F0.05 < Ft <F0.01, corelaţia trigonometrică în populaţia din care provine sondajul
este semnificativă.Media de sondaj de evoluţie este:
y=[B0+B1x+.......+Bmxm]+[T0+S1sinx+C1cosx+........+Sksinkx+Ckcoskx]
a)Partea polinomială din prima paranteză pătrată din membrul doi, este neperiodică şi
se numeşte tendinţă (trend), coeficienţii B0, B1, ........, Bm, se stabilesc ca în secţiunea 10.3.1
de mai sus, prelucrând datele primare (xi, yi) (1≤ i ≤ n).
Valorile aşteptate ale regresiei polinomiale sunt date de relaţia
yapi= B0+B1xi+.......+Bmxim, iar ∆ ypi=yi-yapi.
Testarea ipotezei H: ρcp=0 faţă de alternativa H: ρcp≠ 0 adică a inexistenţei sau a
existenţei trendului polinomial în populaţia din care face parte sondajul, se face cu raportul
Fisher dat de relaţia (4) :
Fp=[Rcp2/(1-Rcp2 ]: [m/(n-m-1)], care are (m; n-m-1) GL.
Aici raportul de corelaţie polinomială Rcp are forma din relaţia (1):
SPAY . X
Rcp= 1 − ,
SPAY
n n
SPAY= ∑ ( yi − y ) ;SPAY.X= ∑ ( yi − yapi ) .
2 2
cu
i =1 i =1
b) Partea trigonometrică din a doua paranteză pătrată din membrul doi al
funcţiei de regresie de mai sus ,este periodică şi se numeşte parte ciclică sau sezonieră,
coeficienţii T0, S1, C1,........, Sk, Ck se stabilesc ca în secţiunea 10.3.2 de mai sus, prelucrând
datele reziduale (xi; ∆ ypi) de la regresia polinomială, unde ∆ ypi=yi-yapi (1≤ i ≤
n).
Valorile aşteptate ale regresiei trigonometrice sunt date de relaţia :
yati=T0+S1sin xi+C1cos xi+........+Sksin kxi+Ckcos kxi.
Diferenţele ∆ ypti = ∆ ypi – yati are forma ∆ ypti=yi-yapi - yati .
Valorile aşteptate ale regresiei polinomial-trigonometrice sunt:
yapti= yapi + yati , aşa că ∆ ypti=yi - yapti .
Testarea ipotezei H: ρct=0 faţă de alternativa H:ρct ≠ 0, adică a inexistenţei sau a
existenţei părţii ciclice în populaţia din care face parte sondajul, se face cu raportul Fisher dat
de relaţia (6) şi anume :
Ft=[(Rct)2/(1-(Rct)2 )]: [2k/(n-2k-1)] cu (2k; n-2k-1) GL.
41
Aici raportul de corelaţie trigonometrică are forma din relaţia (1) şi anume:
SPADY . X
Rct= 1 −
SPADY
n
unde SPADY= ∑ (∆ypi − ∆ypi ) 2
i =1
n
şi SPADY.X= ∑ (∆ypi − yati )
2
i =1
Exemplul 1 :
X=timpul (zile trecute de la data fătării)
Y=producţia zilnică de lapte de vacă (litri/zi)
Date de sondaj:
xi 28 56 84 112 140 168 196 224 252 280 308
yi 15 18 20 21 22 19 16 12 8 4 2
a) Regresia polinomială:
Pentru funcţia polinomială alegem gradul m=3, deci y= B0+B1x+B2x2+B3x3.
Sistemul de 4 ecuaţii normale are ca soluţii coeficienţii de regresie:
B0=7.61776; B1=0.28246; B2=- 0.00166; B3=0.0000022.
Valorile echidistante xi, valorile în cerc xci = i.(2π / 11), valorile observate yi, valorile
aşteptate yapi = B0+B1 .xi +B2 xi 2 +B3 xi 3 ale regresiei polinomiale şi diferenţele ∆ ypi=yi-
yapi se găsesc în tabelul de mai jos.
Avem SPAY=478.182; SPAY.X=5.481, deci Rcp=0.994252 cu (3; 7)GL.
Valoarea Fisher este Fp=201.22, iar valorile critice din tabelele 4,5,6 din Anexă,
pentru (3;7) GL sunt: F0.05=4.35; F0.01=8.45; F0.001=18.77
Cum Fp=201.22>F0.001=18.77, corelaţia polinomială este foarte semnificativă în
populaţia din care provine sodajul.
b) Regresia trigonometrică :
Perechile de valori (xi; ∆ ypi) din tabelul de mai jos se prelucrează cu regresia
trigonometrică cu k=2 armonice, deci: ∆ yp=S0+(S1sinx+C1cosx)+(S2sin2x+C2cos2x.)
Conform secţiunii 10.3.2 de mai sus, avem coeficienţii de regresie trigonometrică:
T0=0.00000217
S1= -0.0548; C1= -0.2158;
S2= 0.3089; C2= 0.7362;
Valorile aşteptate ale regresiei polinomial-trigonometrice
yapti =[ B0+B1 .xi +B2 xi 2 +B3 xi 3 ] + [ T0 +s1.sin(xci) +c1.cos(xci)+
+ s2.sin(2.xci)+c2.cos(2.xci)]
şi diferenţele ∆ ypti=yi-yapti se găsesc în tabelul de mai jos:
Exemplul 2:
X= timpul (zile trecute de la data ecloziunii ouălelor de găină)
Y=greutate pui broiler (grame)
Date de sondaj:
xi 0 7 14 21 28 35 42 49 56
yi 21 92 213 378 580 791 1005 1220 1432
a) Regresia polinomială :
Luăm m=3, deci:
B0=19.74748; B1=6.16912; B2=0.63531; B3= - 0.0052885
Valorile echidistante xi, valorile în cerc xci = i.(2π /9), valorile observate yi,
valorile aşteptate yapi = B0+B1 .xi +B2 xi 2 +B3 xi 3 ale regresiei polinomiale şi diferenţele
∆ ypi=yi-yapi se găsesc în tabelul de mai jos.
SPAY=2057641; SPAY.X=108; Rcp=0.9999738 cu (3; 5)GL;
Fp=31804.948***
F0.05=5.41; F0.01=12.06; F0.001=33.20<Fp
Corelaţia polinomială în populaţia din care provine sondajul este foarte
semnificativă.
b) Regresia trigonometrică :
Luăm k=2 armonice, deci:
T0= - 0.00007354;
S1= -0.4810; C1= -0.7903;
S2=4.0881; C2=1.6168
Valorile aşteptate ale regresiei polinomial-trigonometrice
yapti =[ B0+B1 .xi +B2 xi 2 +B3 xi 3 ] + [ T0 +s1.sin(xci) +c1.cos(xci)+
+ s2.sin(2.xci)+c2.cos(2.xci)]
şi diferenţele ∆ ypti=yi-yapti se găsesc în tabelul de mai jos:
6.3 Rezumat
În acest capitol se prezintă corelaţia şi regresia liniară , unele corelaţii şi regresii
reductibile la cea liniară precum şi corelaţiile şi regresiile neliniare exemplificate prin
corelaţiile şi regresiile polinomială, trigonometrică , polinomial-trigonometreică. şi cu
polinoame ortogonale .
6.4 Întrebări
1. Ce sunt coeficientul de corelaţie liniară şi coeficienţii de regresie liniară ?
2. Ce sunt raportul de corelaţie neliniară şi coeficienţii de regresie neliniară ?
3. Ce este autocorelaţia şi cross-corelaţia seriilor de timp ?
4. Ce avantaje prezintă corelaţia şi regresia polinomial-trigonometrică ?
6.5 Bibliografie
1.D.Ene , M.Drăghici, I.N. Alecu “ Statistică aplicată în agricultură “ Ed.Ceres,2003
2.M.Iosifescu şi col. “ Mică enciclopedie de statistică “ Ed.Ştiinţif.şi Enciclop,,1985
3. Anuarul statistic al României , 1990 -2003
CAPITOLUL 7
CORELAŢIA ŞI REGRESIA ÎNTRE M + 1 CARACTERE
Obiective : Însuşirea de către studenţi a conceptelor de corelaţie şi regresie liniară multiplă liniară,liniarizabilă
şi neliniară precum şi analiza componentelor principale în corelaţia liniară
multiplă .
Conţinut :
7.5 Rezumat
7.6 Întrebări
7.7 Bibliografie
Fie X, Y, Z trei caractere ale exemplarelor unei populaţii. Efectuăm un sondaj de n exemplare din
populaţie şi obţinem triplete de valori (xi,yi,zi) (i=1,…,n).
Reprezentând în spaţiul R3 faţă de sistemul de axe 0xzy cele n triplete se vor corespunde cu n puncte în
spaţiu care vor forma un nor. După forma acestui nor, funcţia de regresie va fi liniară (norul are formă turtită ca
o scoică) sau neliniară (norul are altă formă decât în cazul liniar).
Din datele de sondaj (xi,yi,zi) (i=1,…,n) calculăm următorii indicatori statistici de sondaj:
a) Vectorul mediilor: ( X ,Y , Z ) unde:
1 1 1
X = MX =
n
∑ xi , Y = MY = ∑ yi , Z = MZ =
n n
∑ zi
S2X SXY SXZ
b) Matricea simetrică de covarianţă: S = SYX SY2 SYZ
SZX SZY S2Z
1
( 1
) ( 1
) ( )
2
unde varianţele sunt: S2X =
n-1
∑ xi − X ; SY2 =
n-1
∑ yi − Y ; S2Z =
n-1
∑ zi − Z
iar covarianţele sunt:
S2XY =
1
n-1
(
∑ xi − X ) ( y −Y ); S
i
2
XZ =
1
n-1
(
∑ xi − X ) ( z − Z ); S
i
2
YZ =
1
n-1
(
∑ yi − Y ) ( z − Z );
i
1 RXY RXZ
T = RYX 1 RYZ
R RZY 1
ZX
SXY S S
unde RXY = ∈ [ -1;1] ; R XZ = XZ ∈ [ -1;1] ; R YZ = YZ ∈ [ -1;1]
SX ⋅ SY SX ⋅ SZ SY ⋅ SZ
Funcţia de regresie liniară multiplă are forma: Z = B0 + B1 X + B2 Y unde coeficienţii de regresie liniară
multiplă B0, B1, B2 sunt daţi de:
Teorema 7.1
Dacă regresia este fără termen liber (B0=0) B1 şi B2 sunt soluţiile sistemului liniar:
B1 ∑ xi2 + B2 ∑ xi yi = ∑ xi zi
B1 ∑ xi yi + B2 ∑ yi = ∑ yi zi
2
45
( n − 1) ( 1 − RZ2. XY )
2) Lăţimea fâşiei de încredere este δα = ⋅ SZ ⋅ tα unde RZ . XY este
2 n ( n − 3) 2
; (n −3)GL
1) Dacă regresia este cu termen liber (B0=0) vom minimiza variaţia reziduală cu necunoscutele B0, B1,
B2:
SPA Z ⋅ XY = ( z1 − B1 x1 − B2 y1 − B0 ) + L + ( zn − B1 xn − B2 yn − B0 )
2 2
= minim.
Anulând derivatele parţiale ale lui SPA Z.XY în raport cu B1, B2, B0, obţinem sistemul de ecuaţii normale cu
necunoscutele B1, B2, B0:
B1 ∑ xi2 + B2 ∑ xi yi + B0 ∑ xi = ∑ xi zi
B1 ∑ xi yi + B2 ∑ yi + B0 ∑ yi = ∑ yi zi
2
B
1 ∑ xi + B2 ∑ yi + nB0 = ∑ zi
Din a 3-a ecuaţie avem: B0 =
∑z i
− B1
∑x i
− B2
∑y i
şi înlocuim în primele două ecuaţii pe B0, după
nn n
B1S X + B2 SXY = SXZ
2
Anulând derivatele parţiale ale lui SPA Z.XY în raport cu B1 şi B2, găsim sistemul de ecuaţii normale cu
B1 ∑ xi2 + B2 ∑ xi yi = ∑ xi zi
necunoscutele B1 şi B2:
B1 ∑ xi yi + B2 ∑ yi = ∑ yi zi
2
2) Avem M(Z-B0-B1X-B2Y)=M(Z)-B0-B1M(X)-B2M(Y)=0 şi
σ Z2 . XY ( Z-B0 -B1 X-B2 Y )
V ( Z-B0 -B1 X-B2 Y ) = deci variabila normată n
n σ Z . XY
este variabilă N(0,1).
( n − 3) S2Z . XY
Variabila este variabila hi pătrat cu n-3 GL, independentă de variabila N(0,1) notată cu
σ Z2 . XY
( Z-B0 -B1 X-B2 Y )
n . De aici rezultă că:
σ Z . XY
( Z-B0 -B1 X-B2 Y ) ( n − 3) S2Z. XY Z-B0 -B1 X-B2 Y
t= n: = n
σ Z . XY σ2
Z . XY SZ . XY este
n−3
variabilă Student cu n-3 GL.
De aici rezultă:
(
P −tα ≤ t ≤ tα
2 2
) = 1−α adică intervalul de încredere pentru Z-B0 -B1 X-B2 Y :
SZ . XY
unde δα = ⋅ tα ;( n −3)GL
este diferenţa limită.
2 n 2
S 2
Z . XY = = =
n−3 n−3 n−3
( n − 1) ( 1 − RZ2. XY )
δα = ⋅ SZ ⋅ tα
2 n ( n − 3) 2
; (n −3)GL
z P +
P -
z P
y
0
y
x
x
P + : Z = B0 +B1 X+B2 Y+δ α
2
Teorema 7.2
A ( X,Y ) = RZ2. XY ;
A X = A( X,Y ) − A ( Y ) = RZ2. XY − RZY
2
;
A Y = A( X,Y ) − A ( X ) − = RZ2. XY − RZX
2
;
A X⋅Y = A ( X,Y ) − AX − AY = RZX
2
+ RZY
2
− RZ2. XY ;
A E = 1 − A( X,Y ) = 1 − RZ2. XY
RZ2. XY 2
3) F( X,Y ) = : este variabilă Fisher cu [2; n-3] GL
1 − RZ . XY n − 3
2
RZX .Y RZY . X
tX = n − 2 şi tY = n − 2 sunt variabile Student cu n-2 GL.
1 − RZX2
.Y 1 − RZY 2
.X
Demonstraţie:
1) B0, B1, şi B2 sunt daţi de teorema 11.1, pct. 1); se verifică prin calcul relaţia:
∑( z ) =∑ ( B x +B y ) + ∑( z
n n n
− B1 xj − B2 yj -B0 )
2 2 2
j −Z 1 j 2 j + B0 − Z j
j =1 j =1 j =1
∑ ( B x +B y + B )
2
SPA R 1 j 2 j 0 −Z
deci conform relaţiei (1) avem: RZ . XY = =
∑( z − Z )
2
SPA Z
j
Înlocuind pe B1, B2 şi B0 daţi de teorema 10.1 pct. 1) în această expresie, rezultă prin calcul:
2
RZX + RZY
2
− 2 RZX RZY RXY
RZ . XY = .
1 − RXY
2
∑( z − Z ) = ∑( B x + B y ) + ∑( z − B x − B y
2 2
− B0 ) (4)
2
i 1 i 2 0 + B0 − Z i 1 i 2 0
SPA Z . XY
RZX .Y = 1 − (5)
SPA Z .Y
48
∑ ( B x +B y + B )
2
SPA RX 1 i 2 0 0 −Z
deci conform relaţiei (3) avem: RZX .Y = =
∑( z − Z )
2
SPA Z .Y
i
şi înlocuind pe B1, B2 şi B0 cu valorile lor din teorema 11.1 punctul 1), găsim prin calcul:
1 − RZ2. XY RZX − RZY RXY
RZX .Y = 1 − = (6)
1 − RZY (1− R ) (1− R )
2
2 2
ZY XY
TYZ
Cu ajutorul complemenţilor algebrici din T* avem: RZX .Y = −
TYY ⋅ TZZ
RZX .Y = ±1 ⇔ RZ . XY = 1
Observăm că: 1 − RZ . XY
2
= ( 1 − RZY
2
) ( 1 − RZX2 .Y ) de unde rezultă:
RZX .Y = 0 ⇔ RZ . XY = RZY
LXZ
Cu ajutorul complemenţilor algebrici din L* avem: RZY . X = −
LXX ⋅ LZZ
RZY . X = ±1 ⇔ RZ . XY = 1
Observăm că: 1 − RZ . XY
2
= ( 1 − RZX
2
) (1− R )2
ZY . X de unde rezultă:
RZY . X = 0 ⇔ RZ . XY = RZX
∑( z )
2
SPA Z i −Z
3) Avem varianţa totală: S2Z = = ,
GL Z n −1
∑( B x )
2
SPA R 1 i + B2 yi + B0 − Z
varianţa regresiei totale: S2R = = şi
GL R 2
49
∑ ( z -B x − B2 yi − B0 )
2
SPA Z . XY i 1 i
varianţa reziduală: S 2
Z . XY = = .
GL Z . XY n−3
S2R
Rezultă variabila Fisher F( X,Y ) = 2 cu (2; n-3) GL.
SZ . XY
SPAZ . XY ( 1 − RZ . XY ) SPA Z aşa că:
2
SPA R RZ2. XY ⋅ SPA Z
Dar S =
2
R = şi SZ .XY =
2
=
2 2 n−3 n−3
2
RZ . XY 2
F( X,Y ) = : cu (2; n-3) GL
1 − RZ . XY n − 3
2
∑( z )
2
SPA Z .Y i −Z
Avem varianţa parţială (când Y=constant): S2Z .Y = =
GL Z .Y n−2
varianţa regresiei parţiale după X (când Y=constant):
∑( B x )
2
SPA RX 1 i + B2 y0 + B0 − Z
S2RX = = şi
GL RX 1
∑ ( z -B x − B2 y0 − B0 )
2
SPA Z . XY i 1 i
varianţa reziduală : S 2
Z . XY = = .
GL Z . XY n−3
S2RX
Rezultă variabila Fisher FX = cu (1; n-3) GL.
S2Z . XY
SPAZ . XY ( 1 − RZX .Y ) SPA Z .Y aşa că:
2
.Y ⋅ SPA Z .Y
2
SPA RX RZX
Dar:S = 2
RX = şi SZ .XY =
2
=
1 1 n−3 n−3
2
RZX .Y 1 RZX .Y
FX = : cu (1; n-3) GL deci: tX = n − 3 este variabilă Student cu n-3
1 − RZX
2
.Y n − 3 1 − R 2
ZX .Y
GL.
RZY . X
În mod analog tY = n − 3 este variabilă Student cu n-3 GL .
1 − RZY
2
.X
Q.E.D.
Între coeficienţii de corelaţie parţiali şi coeficienţii de regresie liniară multiplă există relaţiile:
SZ .Y S
B1 = RZX .Y ⋅ ; B2 = RZY . X ⋅ Z . X
S X .Y SY . X
care generalizează relaţia de la corelaţia liniară simplă între X şi Y:
SY
B1 = R ⋅ .
SX
Ecuaţia planului de regresie se poate scrie şi sub forma: (
Z − Z = B1 X − X + B2 Y − Y .) ( )
În continuare vom aborda testele pentru corelaţia liniară multiplă în populaţie.
1) Coeficientul de corelaţie liniară multiplă total de sondaj RZ.XY este variabil de la un sondaj la altul în
jurul coeficientului de corelaţie total necunoscut ρZ.XY din populaţie.
Testul ipotezei H: ρZ.XY=0 faţă de alternativa H : ρ Z . XY ≠ 0 se face pe baza teoremei 11.2 punctul 3) astfel:
50
RZ2. XY 2
Calculăm F( X,Y ) = : cu (2; n-3) GL. Din tabelele 4,5,6 din Anexă, pentru (2; n-3) GL
1 − RZ . XY n − 3
2
extragem valorile critice F0.05; F0.01; F0.001. Decizia asupra ipotezei H se ia astfel: dacă F(X,Y) < F0.05 ipoteza H se
acceptă: ρZ.XY =0 deci Z şi perechea (X,Y) nu sunt corelate liniar în populaţie. În caz contrar avem cazurile:
a) F0.05 ≤ F(X,Y) < F0.001 deci Z şi (X,Y) sunt corelate liniar semnificativ.
b) F0.01 ≤ F(X,Y) < F0.001 deci Z şi (X,Y) sunt corelate liniar distinct semnificativ.
c) F(X,Y) ≤ F0.001 deci Z şi (X,Y) sunt corelate liniar foarte semnificativ.
2) Coeficienţii de corelaţie liniară multiplă parţiali de sondaj RZX.Y şi RZY.X sunt variabili de la un sondaj la
altul în jurul coeficienţilor de corelaţie parţiali necunoscuţi ρZX.Y şi respectiv ρZY.X din populaţie.
Testul ipotezei H: ρZX.Y=0 faţă de alternativa H : ρ ZX .Y ≠ 0 se face pe baza teoremei 11.2 punctul 3) astfel: se
RZX .Y
calculează tX = n − 3 cu n-3 GL. Din tabela 2 din Anexă, pentru n-3 GL extragem valorile
1 − RZX
2
.Y
critice t0.025; t0.0025; t0.0005
Decizia asupra ipotezei H se ia astfel: dacă tX < t0.025 , ipoteza H se acceptă: ρZX.Y=0 deci Z şi X nu sunt corelate
liniar în populaţie pentru Y=constant.
În caz contrar avem cazurile:
a) t0.025 ≤ tX < t0.0025 deci Z şi X sunt corelate liniar semnificativ când Y=constant
b) t0.0025 ≤ tX < t0.0005 deci Z şi X sunt corelate liniar dinstinct semnificativ când Y=constant
c) tX ≥ t0.0005 deci Z şi X sunt corelate liniar foarte semnificativ când Y=constant
Exemplu:
xi 142 141 142 143 146 140 142 143 142 144
yi 3.8 3.3 4 4.1 4.4 3 3.9 4 3.7 4.2
zi 110 109 112 114 118 106 111 112 110 115
Să se calculeze şi să se testeze RZ.XY , RZX.Y , RZY.X , să se alcătuiască diagrama aporturilor şi să se calculeze planul
de regresie z = B1 x + B2 y ± δ 2.5% (regresie fără termen liber :B0 = 0 ) şi să se efectueze prognoza lui Z
pentru X = 150 cm; Y = 45 cm.
Soluţie:
1) Vectorul mediilor este ( X = 142.5 cm; Y = 3.84 cm; Z = 111.7 Kg )
S2X = 2.722 SXY = 0.622 SXZ = 5.389
Matricea de covarianţă este: S = SYX = 0.622 SY = 0.176 SYZ = 1.324
2
RZ2. XY 2
RZ . XY = 0.9812 F( X,Y ) = : devine F( X,Y ) = 90.47 cu (2 ; 7) GL
1 − RZ . XY n − 3
2
Din tabelele 4,5,6 din Anexă, avem F0.05 = 4.74; F0.01 = 9.55; F0.001.= 21.69 pentru (2 ; 7) GL.
Avem F(X,Y) = 90.47 > F0.001 = 21.69 deci corelaţia liniară multiplă între greutatea în viu a porcilor şi perechea de
factori formată din lungimea carcasei şi grosimea stratului de grăsime la greabăn, este foarte semnificativă deci
RZ . XY = 0.9812***
.
Coeficienţii de corelaţie multiplă parţiali:
RZX − RZY RXY
RZX .Y = devine RZX .Y = 0.8328
(1− R ) (1− R )
2
ZY
2
XY
RZY . X
tY = n−3 devine tY = 1.26 cu 7 GL.
1 − RZY
2
.X
Din tabela 2 din Anexă,pentru 7 GL găsim: t0.025 = 2.36; t0.005 = 3.50; t0.0005.= 5.41
Cum t0.005 = 3.50 < tX < t0.005 = 5.41 corelaţia liniară parţială între greutatea în viu a porcilor şi lungimea carcasei
când grosimea stratului de grăsime este constantă, este distinct semnificativă deci RZX .Y = 0.8328**
Cum tY < t0.025 = 2.36, corelaţia liniară între greutatea în viu a porcilor şi grosimea stratului de grăsime când
lungimea carcasei este constantă, este nesemnificativă deci RZY . X = 0.4297
Aporturi:
A ( X,Y ) = RZ2. XY = 0.982 = 96.3%
A X = RZ2. XY − RZY
2
= 8.4%
A Y = RZ2. XY − RZX
2
= 2.2%
A X⋅Y = A ( X,Y ) − AX − AY = 85.7%
A E = 1 − A ( X,Y ) = 3.7%
Variaţia totală a greutăţii în viu a porcilor fiind considerată 100%, 8.4% din ea se datoreşte variaţiei lungimii
carcasei, 2.2% din ea se datoreşte variaţiei grosimii stratului de grăsime, 85.7% din ea se datoreşte variaţiei
interacţiunii între lungimea carcasei şi grosimea stratului de grăsime iar restul de 3.7% se datoreşte variaţiei altor
factori necontrolaţi numiţi Eroare care au fost relativ constanţi pentru cele 10 exemplare din sondaj.
3) Planul de regresie: Z = B1 X + B2 Y
52
adică de unde:
B1 ∑ x i yi +B2 ∑ yi = ∑ yi zi 5477.6 × B1 +149.04 × B2 = 4301.2
2
Pentru α = 5% din tabela 2 din Anexă, avem t0.005 = 2.36 pentru 7 GL aşa că δ 2.5% = 0.55 Kg.
Planul de regresie cu fâşia de încredere va fi: Z = 0.6441X + 5.1858Y ± 0.55 .
Prognoză pentru X = 70 cm; Z = 4.5 cm:
Valoarea aşteptată a lui Z va fi:
119.45 Kg (Minima)
Za = ( 0.6441 × 70 ) + ( 5.1858 × 4.5 ) ± 0.55 = 119.95 Kg (Media)
120.50 Kg (Maxima)
La o lungime a carcasei de 70 cm şi la o grosime a stratului de grăsime de 4.5 cm, ne aşteptăm ca greutatea în
viu a tuturor porcilor din care provin cei 10, să fie cuprinsă între 119.45 Kg şi 120.50 Kg cu o încredere de 95%.
Există semiriscul 2.5% ca această greutate să fie mai mică de 119.45 Kg atunci când cei 10 porci ai sondajului au
fost aleşi cei mai performanţi ca greutate.
În mod simetric, există semiriscul 2.5% ca această greutate să fie mai mare ca 120.50 Kg atunci când cei 10
porci ai sondajului au fost aleşi cel mai puţin performanţi ca greutate.
În tabelul de mai jos se găsesc valorile xi, yi, valorile aşteptate zi, valorile aşteptate zai şi diferenţele ∆ zi = zi –
zai:
xi yi zi zai ∆ zi
62 3.8 110 111.173 -1.173
61 3.3 109 107.936 1.064
62 4 112 112.210 -0.210
63 4.1 114 113.373 0.627
66 4.4 118 116.861 1.139
60 3 106 105.736 0.264
62 3.9 111 111.692 -0.692
63 4 112 112.854 -0.854
62 3.7 110 110.655 -0.655
64 4.2 115 114.536 0.464
Fie X(1), X(2),...,X(m),Y notaţiile pentru m+1 caractere ale exemplarelor unei populaţii. Efectuăm un sondaj de
n ansambluri de valori (x1i,x2i,...,xmi,yi) ; (i=1,…,n).
Din aceste date calculăm următorii indicatori statistici de sondaj:
2 2
S2X i X j =
1 n
∑
n-1 k =1
( )(
xik − X i x jk − X j ; S2X iY =
1 n
)
∑ xij − Xi yj − Y
n-1 j =1
( )( )
c) Matricea simetrică de corelaţie liniară de ordin m+1:
n
−2∑ x1 j ( y j − B0 − B1 x1 j − ... − Bm xmj ) = 0
j =1
................................................................
n
−2∑ xmj ( y j − B0 − B1 x1 j − ... − Bm xmj ) = 0
j =1
n
−2∑ ( y j − B0 − B1 x1 j − ... − Bm xmj ) = 0
j =1
sau:
54
n 2 n n n
B
1 ∑ x1j + ... + B m ∑ x x
1 j mj +B 0 ∑ x 1j = ∑ x1 j y j
j =1 j =1 j =1 j =1
................................................................................
n n n n
(6)
1 ∑ mj 1 j + + m ∑ mj + 0 ∑ mj = ∑
2
B x x ... B x B x xmj yj
j =1 j =1 j =1 j =1
n n n
1∑ 1j
B x + ... + B m ∑ mj x + n B 0 = ∑ yj
j =1 j =1 j = 1
Acesta este sistemul de m+1 ecuaţii normale al regresiei liniare multiple cu m+1 necunoscute B0, B1,…,Bm.
Fie matricea cu n linii şi m+1 coloane:
B1
x11 x21 ...... xm1 1
M
X= ...... ...... ...... ...... ...... şi fie vectorul-coloană al necunoscutelor B = respectiv
Bm
x1n x2 n ...... xmn 1
B0
y1
vectorul-coloană al termenilor liberi Y = M
y
n
Dacă rang (X T
⋅ X ) = m + 1 adică det ( X T ⋅ X ) ≠ 0
B= ( X T ⋅ X )
−1
sistemul (7) are soluţia matricială: ⋅ XT ⋅ Y
Sistemul (6) se poate aduce la forma:
B = Y − B X − ... − B X
0 1 1 m m
1 n 1 n 1 n
B1 ⋅ ∑
n j =1
x1 j + ... + Bm ⋅ ∑ xmj + B0 = ∑ y j
n j =1 n j =1
(9)
n
Ecuaţia (9) se înmulţeste cu ∑x
j =1
1j în ambii membri şi rezultatul se scade din prima ecuaţie a sistemului (6)
n
,obţinând prima ecuaţie a sistemului (8),….., ecuaţia (9) se înmulţeşte cu ∑x
j =1
mj în ambii membri şi rezultatul
se scade din a m-a ecuaţie a sistemului (6), obţinând a m-a ecuaţie a sistemului (8).
În cazul regresiei fără termen liber (B0=0) sistemul de ecuaţii normale are forma:
55
n n n
1B ∑ x 2
1j + ... + B m ∑ x x
1 j mj = ∑ x1 j y j
j =1 j =1 j =1
.............................................................. (10)
n n n
B1 ∑ xmj x1 j + ... + Bm ∑ xmj2 = ∑ xmj y j
j =1 j =1 j =1
( n − 1) ( 1 − RY2⋅ X ,..., X ) ⋅S
δα = 1 m
⋅ tα (11)
n ( n − m − 1)
Y ; (n −m −1) GL
2 2
În particular pentru k =m avem coeficientul de corelaţie liniară multiplă total între Y şi toate caracterele
X1,…,Xm :
Ca şi în demonstraţia teoremei 7.2, testarea coeficientului de corelaţie liniară total în populaţie adică
verificarea ipotezei H : ρY ⋅ X i ,..., X i = 0 faţă de alternative H : ρY ⋅ X i ,..., X i ≠ 0 se face cu variabila Fisher:
1 k 1 k
56
RY2⋅ X i ,..., X i k
F( i1 ,...,ik ) = 1 k
: cu ( k ; n − k − 1) GL (14)
1− R 2
Y ⋅ X i1 ,..., X ik n − k −1
(k = 1,2,…,m).
Conform relaţiei (5) din demonstraţia teoremei (11.2), definim coeficientul de corelaţie liniară multiplu
parţial între Y şi X i1 ,..., X ik când restul de caractere X j1 ,..., X jm − k sunt constanţi:
SPAY ⋅ X1 ,..., X m 1 − RY2⋅ X1 ,..., X m
RYX i ,..., X i = 1− = 1− (15)
⋅ X j1 ,..., X jm − k
1 k
SPAY ⋅ X j ,..., X j 1 − RY2⋅ X j ,..., X j
1 m−k 1 m−k
Ca şi în demonstraţia teoremei 7.2, testarea coeficientului de corelaţie liniară parţial în populaţie adică
verificarea ipotezei: H : ρYX i ,..., X i ⋅ X j1 ,..., X jm − k = 0 faţă de alternativa H : ρYX i ,..., X i ⋅ X j ,..., X j ≠ 0 se face cu
1 k 1 k 1 m −k
variabila Fisher:
2
RYX i ,..., X i ⋅ X j1 ,..., X jm − k k
F( i1 ,...,ik ) = 1 k
:
1− R 2
YX i1 ,..., X ik ⋅ X j1 ,..., X jm − k n − m −1 ; (k = 1,2,…,m) (16)
cu ( k ; n − m − 1) GL
În continuare vom calcula aporturile variaţiei caracterelor X1,…,Xm şi interacţiunii acestora la variaţia lui
Y stabilite de ENE DUMITRU în lucrările 42 şi 48 (vezi Bibliografia).
a) Calculăm aporturile totale ale variaţiei caracterelor X i1 ,..., X ik la variaţia lui Y cu relaţia:
A = RY2⋅ X i ,..., X i (17)
( X i1 ,..., X ik ) 1 k
m
Pe baza acestei relaţii calculăm 2 -1 aporturi totale:
1
C aporturi ale câte unui factor:
m
A ( X1 ) ,..., A ( X m )
C 2m aporturi ale ansamblurilor a 2 factori:
A ( X1 ; X 2 ) ,..., A ( X m −1 ; X m )
................................
C km aporturi ale ansamblurilor a k factori:
A ( X1 ,..., X k ) ,..., A ( X m −k +1 ,..., X m )
.......................................
C mm = 1 aporturi ale ansamblurilor a m factori:
A( X1 ,..., X m )
Cel de al 2m-lea aport total este aportul erorii:
A E = 1- A ( X1 ,..., X m )
b)Aporturile parţiale ale variaţiei factorilor X i1 ,..., X ik şi interacţiunilor lor când restul factorilor
X j1 ,..., X jm − k sunt constanţi, la variaţia lui Y ,vor fi date de relaţiile:
57
A X i ⋅...⋅ X i = − A X ,..., X +
1 k
( j1 jm − k )
+ A X , X ,..., X + ... + A X , X ,..., X −
( i1 j1 jm − k ) ( ik j1 jm − k )
(18)
− A X , X , X ,..., X + ... + A X , X X ,..., X +
( i1 i2 j1 jm − k ) ( ik −1 ik j1 jm − k )
+... + ( −1)
k −1
A X ,..., X
( 1 m)
În membrul drept al acestei relaţii, în prima paranteză pătrată avem C0k = 1 , aporturi totale cu m-k factori, în a
doua paranteză pătrată avem C1k aporturi totale cu m-k+1 factori, în a treia paranteză pătrată avem Ck2 aporturi
totale cu m-k+2 factori, etc., în ultima paranteză pătrată avem C kk = 1 aporturi totale cu m factori. În total în
membrul drept al relaţiei (18) avem în cele k+1 paranteze pătrate, un număr de 2k aporturi totale.
Mai departe avem:
adică:
A X1 ⋅...⋅ X m = A ( X1 ) + ... + A ( X m ) −
− A( X1 , X 2 ) + ... + A ( X m −1 , X m ) +
+ A( X1 , X 2 , X 3 ) + ... + A ( X m −2 , X m −1 , X m ) + (19)
+... + (−1) m A ( X1 ,..., X m −1 ) + A( X 2 ,..., X m ) +
m +1
+( −1) A
( X1 ,..., X m )
Pe baza relaţiilor (18) şi (19) calculăm 2m-1 aporturi parţiale în care se descompune A ( X1 ,..., X m ) :
C1m aporturi parţiale, ale câte unui factor (k=1)cu relaţia (18):
A ( X1 ) ,..., A ( X m )
C 2m aporturi parţiale ale interacţiunilor a câte 2 factori (k=2) cu relaţia (18):
A ( X1 ⋅ X 2 ) ,..., A ( X m −1 ⋅ X m )
................................
C km aporturi parţiale ale interacţiunilor a câte k factori, cu relaţia (18):
A ( X1 ⋅...⋅ X k ) ,..., A ( X m −k +1 ⋅...⋅ X m )
.......................................
C mm = 1 aporturi parţiale ale interacţiunii celor m factori, cu relaţia (19):
A X1 ⋅...⋅ X m
Cel de al 2m-lea aport este :
58
A E = 1- A ( X1 ,..., X m )
În final se întocmeşte diagrama aporturilor parţiale ale variaţiei factorilor X 1 ,..., X m şi a interacţiunilor lor câte
2,3,…,m , la variaţia lui Y presupusă a fi egală cu 100%.
Exemplu:
x1 210 215 200 220 218 225 230 226 206 220
x2 2080 2100 2000 2150 2120 2210 2300 2230 2050 2160
x3 315 320 300 340 325 370 400 380 310 350
y 42 44 40 50 46 55 60 58 41 52
Se calculează:
1) Vectorul mediilor:
- bifactoriali:
59
TX1 X 2Y
RY ⋅ X1 X 2 = 1 − unde:
TX1 X 2
1 0.9735 0.9443
TX1 X 2Y = 0.9735 1 0.9748 = 0.002581
0.9443 0.9748 1
0 0.9735
TX1 X 2 = = 0.052298
0.9735 1
Rezultă RY.X1X2 =0.975012
Analog
- trifactorial:
TX1 X 2 X 3Y
RY ⋅ X1 X 2 X 3 = 1 −
TX1 X 2 X 3
- monofactoriali:
Valorile critice Rα pentru 8 GL din tabela 10 din Anexă,sunt 0.632; 0.765; 0.872 deci cei trei coeficienţi sunt
2
foarte semnificativi.
- bifactoriali:
RY ⋅ X1 X 2 = 0.971; RY ⋅ X1 X 3 = 0.992; RY ⋅ X 2 X 3 = 0.894
RX2 i X j 2
F( X , X ) = : cu [ 2; n-3] GL dă:
i j
1 − RX i X j n − 3
2
- trifactoriali:
60
RY2⋅ X1 X 2 X 3 3
RY ⋅ X1 X 2 X 3 = 0.977; F( X1 , X 2 , X 3 ) = : = 333.834
1− R 2
Y ⋅ X1 X 2 X 3 n−4
Din tabelele 4,5,6 din Anexă, avem valorile critice Fα cu [3; 6] GL:
F0.05 = 8.94; F0.01 = 27.91;F0.001 = 132.8 deci:
RY ⋅ X1 X 2 X 3 = 0.997***
- monofactoriali:
1 − RY2⋅ X1 X 2 X 3
RYX 1 ⋅ X 2 X 3 = 1 − = 0.985 .
1 − RY2⋅ X 2 X 3
În mod analog RYX 2 ⋅ X1 X 3 = 0.791 şi RYX 3 ⋅ X1 X 2 = 0.946 toţi cu n-4=6 GL.
Din tabela 10 din Anexă, avem valorile critice Rα pentru 6 GL: R0.025 = 0.707; R0.005 = 0.834;R0.0005 = 0.925
2
- bifactoriali:
1 − RY2⋅ X1 X 2 X 3
RYX 1 X 2 ⋅X 3 = 1 − = 0.837
1 − RYX
2
3
2
RYX 2
FX i . X j = k ⋅Xi X j
: cu [ 2; n-4] GL
1− R 2
YX k ⋅ X i X j n−4
Din tabelele 4,5,6 din Anexă, avem valorile critice Fα cu [2; 6] GL: F0.05 = 19.33; F0.01 = 99.30; F0.001 = 999.30
Rezultă :
FX1.X2 =7.02 ; FX1.X3 =21.58 ;FX2.X3 =51.33 cu (2;6) GL deci :
RYX 1 ⋅ X 2 X 3 = 0.837; RYX 2 ⋅ X1 X 3 = 0.937* şi RYX 3 ⋅ X1 X 2 = 0.972*
A X1 = A ( X 2 , X 3 ) + A( X1 , X 2 , X 3 ) = 0.014879 ; 1.5%;
A X 2 = A( X1 , X 3 ) + A( X1 , X 2 , X 3 ) = 0.011080 ; 1.1%;
A X 3 = A( X1 , X 2 ) + A( X1 , X 2 , X 3 ) = 0.043954 ; 4.4%
- bifactoriale :
A X 1 . X 2 = − A ( X 3 ) + A ( X 1 , X 3 ) + A ( X 2 , X 3 ) − A ( X1 , X 2 , X 3 ) =
= −0.011089 = −1.1%;
A X 1 . X 3 = − A ( X 2 ) + A ( X1 , X 2 ) + A ( X 3 , X 2 ) − A ( X1 , X 2 , X 3 ) =
= −0.014466 = −1.4%;
A X 2 . X 3 = − A ( X 1 ) + A ( X 2 , X1 ) + A ( X 3 , X 1 ) − A ( X1 , X 2 , X 3 ) =
= −0.047838 = 4.8%
- trifactorial:
A X 1 . X 2 . X 3 = A ( X 1 , X 2 , X 3 ) − A ( X 1 ) − A ( X 2 ) − A ( X 3 ) − A ( X1 , X 2 ) − A ( X1 , X 3 ) − A ( X 2 , X 3 ) =
= 0.892426 = 89.3%
Aportul erorii:
A E = 1 − A( X1 , X 2, X 3 ) = 0.00539798 = 0.5%
1∑ 1j + 2 ∑ 1j 2j + 3 ∑ 1j 2j = ∑
2
B x B x x B x x x1 j yj
j = 1 j = 1 j = 1 j = 1
n n n n
1∑ 2 j 1j + 2∑ 2j + 3∑ 2j 3j = ∑
2
B x x B x B x x x2 j y j
j = 1 j = 1 j = 1 j = 1
n n n n
B1 ∑ x3 j x1 j + B2 ∑ x3 j x2 j + B3 ∑ x3 j = ∑ x3 j y j
2
j =1 j =1 j =1 j =1
adică:
471686B1+4651190B2+742590B3=106477
4651190B1+45868400B2+7323800B3=1050040
742590B1+7323800B2+1172750B3=168560
0.4258 g creştere greutate boabe
de unde: B1 =
1 cm creştere talie
când suprafaţa foliară şi numărul de boabe pe plantă sunt constante.
−0.0644 g creştere greutate boabe
B2 =
1 cm 2 creştere suprafaţă foliară
când talia şi numărul de boabe pe plantă sunt constante.
0.2761 g creştere greutate boabe
B3 =
1 bob creştere nr. boabe pe plantă
62
( n − 1) ( 1 − RY2⋅ X X X ) ⋅S
δα = 1 2 3
⋅ tα ⇒
n ( n − 3)
Y ; (n − 4) GL
2 2
( 10 − 1) ( 1 − 0.997 )
⇒ δ 2.5% = × 52.844 × 2.45 = 0.49 g
10 ( 10 − 3)
Ecuaţia funcţiei de regresie liniară cu fâşia de încredere δ 2.5% este:
Y= 0.4258X1- 0.0644X2+0.2761X3 ± 0.49
Prognoză:
Pentru X 1 = 235 cm; X2 = 2350 cm 2 ; X3 = 420 boabe avem greutatea aşteptată a boabelor pe plantă:
64.20 g ( Minima )
Ya = ( 0.4258 × 235 ) − ( 0.0644 × 2350 ) + ( 0.2761 × 420 ) ± 0.49 = 64.69 g ( Media )
65.18 g ( Maxima )
În tabelul de mai jos, se găsesc valorile x1i ,x2i,x3i ,valorile observate yi
valorile aşteptate yai şi diferenţele : Δyi = yi - yai :
Fie X1 ,X 2 ,...,X m , Y notaţiile pentru m+1 caractere ale exemplarelor unei populaţii.
Efectuăm un sondaj de n ansambluri de valori ( x1i , x2i ,..., xmi , yi ) ; ( 1 ≤ i ≤ n ) . Funcţia de regresie neliniară
multiplă are forma: Y= f ( X 1 , X 2 ,..., X m ; B1 , B2 ,..., Bd )
unde B1,B2,…,Bd sunt d coeficienţi de regresie neliniară multiplă necunoscuţi care vor fi determinaţi prin
metoda celor mai mici patrate (variaţia reziduală a datelor de sondaj este minimă):
n
SPAY ⋅ X1 ,..., X m = ∑ y j − f ( x1 j , x2 j ,..., xmj ; B1 , B2 ,..., Bd ) = minim.
2
j =1
Derivatele parţiale ale acestei variaţii reziduale în raport cu B1,B2,…,Bd trebuie să fie nule:
∂SPAY ⋅ X1 ,..., X m ∂SPAY ⋅ X1 ,..., X m ∂SPAY ⋅ X1 ,..., X m
= 0, = 0,..., = 0,
∂B1 ∂B2 ∂Bd
Am obţinut sistemul de ecuaţii normale care este neliniar şi care furnizează pe B1,B2,…,Bd.
Raportul de corelaţie neliniară multiplă se calculează cu formula:
63
SPAY ⋅ X1 ,..., X m
Rc = 1 −
SPAY
Testarea acestui raport se face cu variabila Fisher:
( Rc )
2
d −1
F= : cu [ d -1; n − d ] GL
1 − ( Rc ) n−d
2
X11,…,Xm 1 ; Y1
……………….
X1n,…,Xm n ; Yn
m
p n j
n
∑ ∑ ij ∑ il
i=1 j=1
B
l =1
(x )
+ B 0 ⋅ n = ∑
l =1
yl
În cazul regresiei fără termen liber (B0=0) avem m.p parametri necunoscuţi Bij daţi de m.p ecuaţii :
m
p n k
n
(4) ∑ ∑ Bij ∑ (x il ) ⋅ (x hl ) = ∑ (xhl ) ⋅ yl ;(h = 1,..., m; k = 1,..., p)
i=1 j=1 l =1
j
l =1
k
b) După calculul celor m.p+1 parametri de regresie Bij şi B0 , vom calcula raportul de corelaţie neliniară Rc
cu formula cunoscută :
SPA Y⋅X1 ...X m n
(5) Rc = 1− ; SPAY = ∑ (y l − y) 2
SPA Y l =1
iar SPAY.X1…Xm este dată de relaţia (2) în care Bij , B0 sunt daţi de sistemul liniar (3) sau (4).
R c2 d-1
F= : este variabilă Fisher cu (d-1;n-d) grade de libertate
1 − R c n-d
2
R c2 m⋅p
(6) F= : este variabilă Fisher cu (m ⋅ p;n-m ⋅ p-1) grade de libertate
1 − R c n-m ⋅ p-1
2
R c2 m ⋅ p-1
(7) F= : este variabilă Fisher cu (m ⋅ p-1;n-m ⋅ p) grade de libertate
1 − R c n-m ⋅ p
2
Cazuri particulare
I. Pentru m=1 ; p=1 obţinem corelaţia şi regresia liniară monofactorială (vezi secţiunea 6.1)
II. Pentru m=1 obţinem corelaţia şi regresia polinomială monofactorială (vezi secţiunea 6.2)
III. Pentru p=1 obţinem corelaţia şi regresia liniară polifactorială (vezi secţiunea 7.2)
Exemplu
Luăm m =3 factori şi n=12 măsurători iar regresia este cu termen liber deci luăm p=3 .
X1 = Azotat de amoniu(Kg/Ha)
X2 = Superfosfat(Kg / Ha)
X3 = Sare potasică(Kg / Ha)
Y = Grâu (Kg / Ha)
Date de pe n = 12 parcele experimentale :
X1 0 40 80 120 160 200 240 280 320 330 350 400
X2 0 30 60 90 120 150 180 210 240 250 260 270
X3 0 10 20 30 40 50 60 70 80 90 95 100
Y 1500 1700 1900 2200 2400 2700 3100 3600 4000 3700 3500 3000
Rezultate :
a) Coeficienţii de regresie polinomială sunt :
B11 = -438.795 (coeficientul lui X1)
B12 = -0.571 (coeficientul lui X12)
B13 = 0 (coeficientul lui X13)
b) Variaţia pătratică reziduală a lui Y după X1,X2,X3 este E =10080.91 iar variaţia pătratică totală a lui Y este
SPAY = 7742504 deci conform relaţiei (5) raportul de corelaţie neliniară este Rc = 0.99935
Din relaţia (6) rezultă F = 170.77 cu (9;2) grade de libertate.Din tabelele 4,5,6 pentru
(9;2) GL avem valorile critice F5% =19.38 ; F1% = 99.39 ; F0.1% =999.4
Deoarece F1% < F < F0.1% , corelaţia polinomială multiplă este distinct semnificativă deci
Rc = 0.99935* *
7.4 CORELAŢIA ŞI REGRESIA CUBICĂ MULTIPLĂ CU INTERACŢIUNI
PENTRU CAZUL A M+1 CARACTERE
7.4 Corelaţia şi regresia cubică multiplă cu interacţiuni pentru cazul a m+1
caractere
m m m m
Y = ∑ B3i X + ∑∑ B2ij X i X j + ∑ B1i Xi + B0
i
3
i =1 i =1 j =1 i =1
Avem coeficienţii de regresie necunoscuţi B3i, B2ij, B1i şi B0 în număr egal cu d=m+m2+m+1=(m+1)2.
Datele de sondaj au forma ( x1l ,..., xml ; yl ) ; ( 1 ≤ l ≤ m ) .
Ecuaţiile normale care dau coeficienţii de regresie necunoscuţi, vor avea forma:
m
n 3 3 m m n m n
∑
i =1
B3i ∑ xil xhl
l =1
∑∑ 2ij ∑ xil xjl xhl
+
i =1 j =1
B
l =1
3
∑ 1i ∑ xil xhl
+
i =1
B
l =1
3
+
n n
+ B0 ∑ xhl3 = ∑ xhl3 yl
l =1 l =1
unde 1 ≤ h ≤ m;
m
n 3 m m n m n
∑
i =1
B3i ∑ xil xhl xkl + ∑∑ B2 ij ∑ xil xjl xhl xkl + ∑ B1i ∑ xil xhl xkl +
l =1 i =1 j =1 l =1 i =1 l =1
n n
+ B0 ∑ xhl xkl = ∑ xhl xkl yl unde ( 1 ≤ h; k ≤ m ) ;
l =1 l =1
m
n 3 m m n m n
∑
i =1
B3i ∑ xil xhl
l =1
∑∑ 2ij ∑ xil xjl xhl
+
i =1 j =1
B
l =1
∑ 1i ∑ xil xhl
+
i =1
B
l =1
+
n n
+ B0 ∑ xhl = ∑ xhl yl unde 1 ≤ h ≤ m
l =1 l =1
m
n 3 m m n m n
∑
i =1
B3i ∑ il
x + ∑∑ 2ij ∑
l =1 i =1 j =1
B
l =1
xil x jl ∑ 1i ∑ xil
+
i =1
B
l =1
+
n
+ ( n ) B0 = ∑ yl
l =1
SPAY ⋅ X1 ,..., X m
Rc = 1 −
SPAY
x1i x2i yi
0 0 3
5 10 4
5 15 4.8
5 20 6.3
10 10 5.8
10 15 6.7
10 20 7.4
15 10 8.5
15 15 9.2
15 20 9.4
20 10 9.7
20 15 9.9
20 20 10
Rezultate :
1)Vectorul mediilor:
3)Tabel cu valorile x1i, x2i, valorile observate yi, valorile aşteptate yai şi diferenţele Δyi :
x1i x2i yi Yai ΔyI
0 0 3 3 0
5 10 4 3.89 0.11
5 15 4.8 5.04 -0.24
5 20 6.3 6.97 0.13
10 10 5.8 5.82 -0.02
10 15 6.7 6.64 0.06
67
Valoarea Fisher: F = : 2
1 − ( Rc ) n − + 5m + 2
2 2
m
2
cu m=2 şi n=13 devine : F=356.6
Valorile critice din tabelele 4,5,6 din Anexă ,cu [7; 5] GL sunt:
F0.05=3.97; F0.01=7.46 şi F0.001=16.21 deci Rc=0.999* * *
7.5 Rezumat
În acest capitol se prezintă corelaţia şi regresia multiplă :liniară şi neliniară.
Se calculează aporturile factorilor în corelaţia liniară multiplă.
7.6 Întrebări
1.Ce sunt coeficienţii de corelaţie liniară multipli totali şi cum se testează ei ?
7.7 Bibliografie
1.D.Ene , M.Drăghici, I.N. Alecu “ Statistică aplicată în agricultură “ Ed.Ceres,2003
2.M.Iosifescu şi col. “ Mică enciclopedie de statistică “ Ed.Ştiinţif.şi Enciclop,,1985
3. Anuarul statistic al României , 1990 -2008