Sunteți pe pagina 1din 13

”There are three kinds of lies: lies, damned lies and statistics.


Mark Twain

12
Statistica descriptiva

Recunoasterea formelor

Dezvoltarea tehnologiei a condus la generarea unui volum imens de date.


Aceste date de volum urias ascund informatie care trebuie extrasa si utilizata
pentru a facilita avansul in domeniile respective. Deep learning, data mining,
data science sau big data sunt domenii noi care au aparut si s-au dezvoltat
pe masura ce a avansat tehnologia sistemelor de calcul. In aceste circumstante,
analiza formelor a devenit in ultimii ani unul dintre cele mai active domenii
de cercetare. Intr-o lume in care inteligenta artificiala sau masinile autonome
sunt deja o realitate, apare necesitatea recunoasterii obiectelor prin intermediul
formelor sale.
Cea mai naturala metoda de modelare matematica a unei forme pare a fi cea
in care conturul formei este exprimat prin intermediul unei curbe plane inchise

1
𝑐 : [𝑎, 𝑏] → R2 , 𝑐(𝑎) = 𝑐(𝑏). O forma trebuie sa fie invarianta la translatii:
oriunde este mutata forma pe ecran va avea acelasi contur. Trebuie sa avem
o invarianta la scalari: daca marim imaginea, conturul va ramane neschimbat.
In acelasi timp si o invarianta la rotatii este de dorit: evident rotind un contur
acesta nu se deformeaza. Prin urmare, din punct de vedere matematic, o forma
este de fapt reprezentata printr-o multime de curbe

[𝑐] = {𝑣 + 𝑟𝐴𝑐 : 𝑣 ∈ R2 , 𝑟 ∈ 𝑅+ si 𝐴 o matrice de rotatie}

unde 𝑣 este vectorul care realizeaza translatia, 𝑟 scaleaza si 𝐴 roteste conturul.


Am omis invarianta la reparametrizari, care poate fi rezolvata considerand acea
parametrizare a curbei pentru care ‖𝑐′ (𝑡)‖ = 1. In cuvinte, definitia de mai sus
spune ca prin forma intelegem o curba inchisa 𝑐, impreuna cu orice alta curba
obtinuta prin translatarea acesteia, scalarea, rotirea sau reparametrizarea ei.
Clasele de resturi, modulo 3 de exemplu, sunt construite dupa acelasi principiu

1 = {1 + 3𝑘 : 𝑘 ∈ Z}
̂︀

Stim ca in clasa lui 1 se afla toate numerele intregi care dau restul 1 prin im-
partire la 3. Tradus matematic inseamna o multime infinita de numere intregi
obtinute translatand, pe axa numerelor reale, numarul 1 cu vectori de lungime
3𝑘 unitati, 𝑘 ∈ Z.
In ilustratia de mai jos siluetele a 10 masini sunt afisate. Aceste siluete sunt
inregistrate de catre o camera fixa la unghiuri de 0∘ , 50∘ , 90∘ si respectiv 180∘ .
Marcile carora le corespund sunt: Avalon, Camry, Jeep93, Jeep99, Maxima,
MazdaMPV, Mitsubishi, Sentra, Tacoma, TaurusSE96 si Civic4dr.

Daca putem defini o functie 𝑑 care sa calculeze distante intre contururi,


masurand cat de mult difera doua curbe inchise, atunci problema identificarii
obiectelor pare usor de solutionat. Nu trebuie decat sa gasim valorile cele mai

2
mici ale expresiei 𝑑 ([𝑐] 𝑡𝑒𝑠𝑡 , [𝑐] 𝑏𝑎𝑧𝑎 𝑑𝑒 𝑑𝑎𝑡𝑒 ). O astfel de functie distanta este,
in general, foarte sensibila la variatii ale curbelor si returneaza si multe rezul-
tate nesatisfacatoare. Cele mai apropiate contururi pot apartine unor modele
diferite, ducand la erori in clasificarea siluetelor noi.

In practica pentru identificarea formelor se recurge deseori la o abordare


care presupune crearea unor modele statistice si probabiliste. Sa presupunem
ca avem doar doua populatii de siluete, apartinand unor marci notate 𝑀1 si 𝑀2 .
Acestea au fost obtinute prin observarea si inregistrarea unor siluete apartinand
acestor marci. Din punctul de vedere al unei camere de supraveghere, de exem-
plu, anumite siluete vor aparea mai des decat altele si ideea este sa construim
un model probabilist prin definirea unor densitati de probabilitate 𝑓 (𝑥, 𝜃1 ) si
𝑔(𝑥, 𝜃2 ), care sa conduca la probabilitati mari pentru siluetele cele mai frecvente
si respectiv probabilitati mici pentru cele mai putin frecvente. Daca revenim
la ilustratia cu cele 10 marci de masini, vor fi memorate siluete din diverse
alte unghiuri. Aceste densitati sunt apoi estimate, de exemplu putem estima
parametrii necunoscuti prin metoda verosimilitatii maxime, si vom obtine esti-
matorii 𝜃1⋆ si 𝜃2⋆ . Acest proces de estimare a densitatilor se numeste learning.
Apoi, dupa ce am obtinut un model probabilist pentru fiecare populatie
de siluete, apare problema clasificarii unei siluete 𝑦, nou aparute, in una din-
tre aceste doua clase (populatii). Problema generala presupune evident mai
multe clase existente (cladire, silueta umana, masina, etc) dar ne rezumam
aici la testarea apartenentei unei siluete 𝑦 la cel doua clase de masini 𝑀1 si
𝑀2 . Deaorece in practica ambele densitati de probabilitate pot fi considerate
gaussiene, cu parametrii diferiti 𝜃1⋆ si 𝜃2⋆ , aceasta testare se poate face prin tes-
tul raportului de verosimilitate. Mai precis, se definesc doua ipoteze

𝐻1 : silueta apartine marcii 𝑀1 cu distributia data de 𝑓 (𝑥, 𝜃1⋆ )

𝐻2 : silueta apartine marcii 𝑀2 cu distributia data de 𝑔(𝑥, 𝜃2⋆ )


si raportul de verosimilitate
𝐿(𝜃1⋆ , 𝑦)
𝜆=
𝐿(𝜃2⋆ , 𝑦)
unde 𝐿 este functia de verosimilitate corespunzatoare unei selectii. Se respinge
ipoteza 𝐻1 daca 𝜆 < 1 si se accepta daca 𝜆 > 1.

3
Statistica descriptiva

∙ investigarea statistica consta in a studia o caracteristica comuna a unei


multimi de elemente de aceeasi natura, numita populatie
∙ caracteristica comuna a indivizilor populatiei este masurata de o variabila
aleatoare 𝑋
∙ elementele unei populatii se numesc generic, indivizi.
∙ scopul investigatiei statistice este de a extrage informatii despre caracter-
istica populatiei, investigand doar un esantion constand din 𝑛 indivizi (volumul
esantionului), selectati la intamplare.

Remarca
Observand sau masurand caracteristica indivizilor dintr-un esantion, se
obtine un sir de valori, 𝑥1 , 𝑥2 . . . 𝑥𝑛 , interpretate ca valori de observatie
asupra variabilei aleatoare 𝑋. Se considera ca rezultatul investigarii unui
individ este independent de cele ale investigarii celorlalti, de aceea valorile
inregistrate 𝑥1 , 𝑥2 . . . 𝑥𝑛 sunt interpretate ca valori de observatie asupra
unui sir de variabile aleatoare, 𝑋1 , 𝑋2 . . . 𝑋𝑛 independente si identic dis-
tribuite ca variabila aleatoare 𝑋, ce modeleaza caracteristica investigata.

∙ in multe din aplicatiile statisticii matematice se presupune ca variabila


aleatoare 𝑋 are o distributie cunoscuta ce depinde de anumiti parametrii ne-
cunoscuti 𝜃

=⇒ vom studia metode de estimare a acestor parametrii in sectiunile


urmatoare ale fisei
∙ daca 𝒫 este o populatie supusa investigarii statistice, din punct de vedere al
unei caracteristici, atunci perechea (𝑋, 𝑓 (𝑥, 𝜃)) (sau (𝑋, 𝑝(𝑥, 𝜃)) in cazul discret)
se numeste model statistic
∙ daca (𝑋, 𝑓 (𝑥, 𝜃)) este modelul statistic asociat unei variabile aleatoare
atunci vectorul aleator (𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) se numeste selectie aleatoare
∙ o functie reala continua de aceste variabile, 𝑌 = 𝑔(𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) este o
variabila aleatore numita statistica
∙ distributia de probabilitate a variabilei 𝑌 se numeste distributia de selectie
a statisticii

Masuri descriptive ale datelor statistice

∙ pentru analiza datelor statistice pot fi utilizate diferite tehnici de reprezentare


grafica insa pentru o analiza detaliata este nevoie de asocierea unor valori nu-
merice reprezentative (indicatori statistici) acestor date
∙ in cele ce urmeza datele referitoare la o caracteristica a unei populatii vor
fi afisate sub forma
𝑋 : 𝑥1 , 𝑥2 , . . . , 𝑥𝑛
si o vom numi serie statistica simpla

4
∙ media de selectie 𝑥
¯ este
𝑥1 + 𝑥2 + . . . + 𝑥𝑛
𝑥
¯=
𝑛
2
∙ dispersia de selectie 𝑠 este definita prin
𝑛
1 ∑︁
𝑠2 = ¯)2
(𝑥𝑖 − 𝑥
𝑛 − 1 𝑖=1
∙ deviatia standard 𝑠, este evident

⎸ 𝑛
⎸ 1 ∑︁
𝑠=⎷ ¯ )2
(𝑥𝑖 − 𝑥
𝑛 − 1 𝑖=1

∙ coeficientul de variatie 𝑐𝑣
𝑠
𝑐𝑣 =
𝑥
¯
∙ abaterea medie absoluta 𝑒𝑋
𝑛
1 ∑︁
𝑒𝑋 = |𝑥𝑖 − 𝑥
¯|
𝑛 𝑖=1
∙ mediana 𝑀 𝑒 impune ca valorile observate sa fie ordonate crescator si
atunci ⎧
⎨𝑥 𝑛+1
⎪ 2
, 𝑛 impar
𝑀𝑒 =
⎩ 𝑥 𝑛2 +𝑥 𝑛2 +1

2 , 𝑛 par
∙ cuartilele 𝑄1 ,𝑄2 = 𝑀 𝑒 si 𝑄3 impart seria statistica in patru parti cu
efective egale (dupa ordonare) iar abaterea cuartilica 𝑄 = 𝑄3 − 𝑄1
=⇒ daca n este impar atunci 𝑄2 = 𝑀 𝑒 si se adauga 𝑀 𝑒 la ambele jumatati
formate, apoi 𝑄1 este mediana primei jumatati si 𝑄3 a celei de-a doua
∙ amplitudinea absoluta 𝜔𝑋
𝜔𝑋 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
∙ momentele centrate de ordin k 𝜇𝑘
𝑛
1 ∑︁
𝜇𝑘 = ¯)𝑘
(𝑥𝑖 − 𝑥
𝑛 𝑖=1
∙ coeficientul de asimetrie al lui K. Pearson (skewness) 𝛽1
𝜇3 𝜇3
𝛽1 = 2 3 = 3
(𝑠 ) 𝜇2
∙ coeficientul de asimetrie a lui R. Fisher 𝛾1
√︀
𝛾 1 = 𝛽1
∙ coeficientul de aplatizare Pearson (kurtosis)
𝜇4
𝛽2 = 2
𝜇2
∙ coeficientul de aplatizare a lui Fisher
𝛾 2 = 𝛽2 − 3

5
Metode de estimare a parametrilor
∙ distributia lui 𝑋 depinde uneori de un parametru necunoscut, notat 𝜃, in
context general
∙ spre exemplu, o distributie binomiala 𝐵𝑖𝑛(𝑛, 𝑝) depinde de parametrii 𝑛 si
𝑝, notam 𝜃 = (𝜃1 , 𝜃2 ) = (𝑛, 𝑝), iar una exponentiala 𝐸𝑥𝑝(𝜆) de parametrul 𝜃 = 𝜆
∙ vom incepe sa prezentam metode de estimare a parametrilor repartiti-
ilor variabilelor aleatoare: metoda momentelor, metoda verosimilitatii maxime,
metoda intervalelor de incredere, metoda celor mai mici patrate

Metoda momentelor

∙ metoda momentelor este o metoda de estimare a parametrilor unei distribu-


tii corespunzatoare variabilei 𝑋, care masoara caracteristica comuna populatiei
statistice 𝒫
∙ metoda este bazata pe presupunerea ca momentele esantionului sunt esti-
matori buni pentru momentele corespunzatoare populatiei.
∙ pentru o populatie 𝒫 momentele 𝑀𝑘 de ordin 𝑘 sunt definite prin expresiile
⎧ ∫︁∞

𝑥𝑘 · 𝑓 (𝑥)𝑑𝑥, daca 𝑋 este continua






−∞
𝑀𝑘 (𝑋) = 𝑀 (𝑋 𝑘 ) =


⎪ ∑︁
𝑥𝑘𝑖 · 𝑝𝑖 , daca 𝑋 este discreta




𝑖∈𝐼

∙ momentele de ordin 𝑘 ale esantionului, notate 𝑚𝑘 , pentru un esantion de


volum 𝑛 sunt
𝑛
1 ∑︁ 𝑘
𝑚𝑘 = 𝑋
𝑛 𝑖=1 𝑖
∙ estimarea prin metoda momentelor pur si simplu presupune egale cele
doua tipuri de momente 𝑀𝑘 = 𝑚𝑘 si urmareste apoi aflarea parametrilor lipsa
(distributia trebuie sa aiba momente finite)
∙ metoda momentelor presupune urmatorii pasi

1. vrem sa estimam un parametru 𝜃


2. calculam momente de ordin mic 𝑀𝑘 ca functii de 𝜃
3. realizam un sistem de ecuatii pornind de la presupunerea ca momentele
populatiei 𝑀𝑘 sunt egale cu cele ale esantionului 𝑚𝑘 , si exprimam din
aceste ecuatii parametrul ca functii de momentele esantionului 𝑚𝑘 .

Exemplu
Fie 𝑋1 , 𝑋2 , . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-
nomiala 𝑋 ∼ 𝐵𝑖(𝑛0 , 𝑝) cu parametrii 𝑛0 si 𝑝. Vom estima acesti parametri
folosind metoda momentelor.

6
Deoarece

𝑀 (𝑋) = 𝑛0 · 𝑝 (vezi fisa variabile aleatoare discrete)

si
𝐷2 (𝑋) = 𝑛0 𝑝(1 − 𝑝)
obtinem:

𝑀2 (𝑋) = 𝑀 (𝑋 2 ) = 𝐷2 (𝑋) + 𝑀 (𝑋)2 = 𝑛0 𝑝(1 − 𝑝) + 𝑛20 𝑝2 ,

putem scrie 𝑛0 𝑝(1 − 𝑝) = 𝑀2 (𝑋) − 𝑀 (𝑋)2 .


Egaland
(︂ )︂
𝑋1 + 𝑋2 + . . . + 𝑋𝑛
𝑀 (𝑋) = 𝑚1 =
𝑛

si
𝑋12 + 𝑋22 + . . . + 𝑋𝑛2
(︂ )︂
𝑀2 (𝑋) = 𝑚2 =
𝑛
se poate observa ca
𝑚2 − 𝑚21
1−𝑝=
𝑚1
astfel
𝑚1 + 𝑚21 − 𝑚2
𝑝⋆ =
𝑚1
poate fi folosit ca un estimator pentru parametrul 𝑝.
In acelasi context

𝑚1 𝑚21
𝑛⋆0 = = .
𝑝 𝑚1 + 𝑚21 − 𝑚2
este un estimator, obtinut prin metoda momentelor, pentru 𝑛0 .

Metoda verosimilitatii maxime

∙ se supune investigatiei statistice o caracteristica a unei populatii, masurata


de o variabila aleatoare 𝑋, a carei densitate de probabilitate 𝑓 (𝑥, 𝜃) depinde de
un parametru necunoscut 𝜃
∙ se investigheaza un esantion de volum 𝑛 si se inregistreaza valorile de
observatie 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 , care vor fi considerate ca fiind valori ale unor variabile
independente 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 cu aceasi distributie ca si 𝑋
∙ se defineste functia de verosimilitate

𝐿(𝜃) = 𝑓 (𝑥1 , 𝜃) · 𝑓 (𝑥2 , 𝜃) · . . . · 𝑓 (𝑥𝑛 , 𝜃)

iar metoda verosimilitatii maxime presupune ca estimatorul 𝜃⋆ al lui 𝜃 (uneori


notat 𝜃)
̂︀ este acea valoare care maximizeaza functia de verosimilitate 𝐿
∙ se foloseste des notatia 𝜃⋆ = arg max 𝐿(𝜃)
𝜃

7
∙ daca 𝑋 este discreta atunci datorita independentei variabilelor 𝑋1 , 𝑋2 , . . . 𝑋𝑛
functia de verosimilitate este

𝐿(𝜃) = 𝑃 (𝑋1 = 𝑥1 ) · 𝑃 (𝑋2 = 𝑥2 ) · . . . · 𝑃 (𝑋𝑛 = 𝑥𝑛 )

asadar 𝜃⋆ este acea valoare care maximizeaza probabilitatea de aparitie a valo-


rilor observate 𝑥1 , 𝑥2 , . . . , 𝑥𝑛
∙ in formula de mai sus fiecare probabilitate va depinde de parametrul 𝜃
chiar daca nu este specificat acest lucru
∙ daca 𝑋 este continua si 𝐿 este derivabila atunci putem gasi usor valorile
𝜃⋆ , care maximizeaza 𝐿, cautand printre punctele critice ale lui 𝐿
𝜕𝐿
=0 (ecuatia de verosimilitate)
𝜕𝜃
∙ de obicei se aplica urmatorul truc: punctele care maximizeaza 𝐿(𝜃) se
afla printre cele care maximizeaza ln 𝐿(𝜃), care insa are o expresie mai usor de
manevrat
𝑛
𝜕𝐿 𝜕 ln 𝐿 ∑︁ 𝜕 ln 𝑓 (𝑥𝑖 , 𝜃)
=0 =⇒ =0 ⇐⇒ =0
𝜕𝜃 𝜕𝜃 𝑖=1
𝜕𝜃

∙ daca 𝜃 = (𝜃1 , 𝜃2 ) atunci ecuatia anterioara devine


⎛ ⎞
𝑛
∑︁ 𝜕
∇𝜃 ln 𝑓 (𝑥𝑖 , 𝜃) = 0 unde ∇𝜃 = ⎝ 𝜕𝜃1 ⎠ este gradientul
𝜕
𝑖=1 𝜕𝜃2

Exemplu
Consideram o populatie formata dintr-un tip de circuite. Presupunem ca
stim deja ca o caracterista a populatiei (de exemplu durata de viata a cir-
cuitelor) este modelata printr-o variabila aleatoare 𝑋 care are o distributie
exponentiala de parametru 𝜆, insa nu cunoastem acest parametru. Putem
sa-l aproximam folosind metoda verosimilitatii maxime. Facem o selectie
𝑥1 , 𝑥2 , . . . , 𝑥𝑛 din acea populatie (masurand durata de viata) si reamintim
ca o distributie exponentiala are densitatea de probabilitate
{︃
𝜆𝑒−𝜆𝑥 , 𝑥 ≥ 0
𝑓 (𝑥, 𝜆) =
0, in rest

Folosim notatiile de mai sus si notam cu 𝜃 = 𝜆 parametrul care trebuie


estimat. Construim functia de verosimilitate

𝐿(𝜃) = 𝑓 (𝑥1 , 𝜃) · 𝑓 (𝑥2 , 𝜃) · . . . · 𝑓 (𝑥𝑛 , 𝜃) = 𝜃𝑒−𝜃𝑥1 · 𝜃𝑒−𝜃𝑥2 · . . . · 𝜃𝑒−𝜃𝑥𝑛

iar dupa logaritmare ecuatia de verosimilitate devine


𝑛 𝑛
∑︁ 𝜕 ln 𝑓 (𝑥𝑖 , 𝜃) 𝑛 ∑︁
= − 𝑥𝑖 = 0
𝑖=1
𝜕𝜃 𝜃 𝑖=1

8
𝑛
asadar 𝜃⋆ = ∑︀
𝑛 si prin urmare inversa mediei selectiei este un estimator
𝑥𝑖
𝑖=1
de verosimilitate maxima pentru 𝜆. 

Probleme rezolvate

Problema 1. Calculaţi cuartilele 𝑄1 , 𝑄2 , 𝑄3 pentru următoarea serie


statistica simplă

𝑋 : 1, 2, 5, 7, 11, 21, 22, 23, 29

şi abaterea cuartilică.

Solutie: Facem mai ı̂ntâi observaţia că mediana 𝑀 𝑒 coincide cu cuartila 𝑄2 .


Valorile seriei sunt deja ordonate crescator, deci nu mai trebuie sa le ordonam,
inainte de a identifica mediana.
Deoarece seria statistică dată are un număr impar de termeni (9 mai exact),
vom folosi formula corespunzătoare pentru a determina cuartila 𝑄2 şi avem
𝑥 9+1 = 𝑥5 = 11 ⇒ 𝑀 𝑒 = 𝑄2 = 11.
2

Mai departe pentru a determina prima cuartilă ţinem cont de seria statistică
simplă
1, 2, 5, 7, 11
care are tot un număr impar de termeni şi obţinem
𝑥 5+1 = 𝑥3 = 5 ⇒ 𝑄1 = 5.
2

Analog procedăm pentru a treia cuartilă ţinând cont de seria statistică simplă
11, 21, 22, 23, 29
care are tot un număr impar de termeni şi rezultă
𝑥 5+1 = 𝑥3 = 22 ⇒ 𝑄3 = 22.
2

Atunci rezultă că abaterea cuartilică este


𝑄 = 𝑄3 − 𝑄1 = 22 − 5 = 17.

Problema 2. Fie seria statistică

𝑋 : 1, 5, 4, 20, 3, 16.

Determinaţi:
a) Amplitudinea absolută 𝜔𝑋 .
b) Abaterea medie absoluta 𝑒𝑋 .
c) Dispersia de selectie 𝑠2 .
d) Deviatia standard 𝑠.
e) Coeficientul de variaţie 𝑐𝑣.

9
Solutie: a) Amplitudinea absolută 𝜔𝑋 este

𝜔𝑋 = 𝑥max − 𝑥min = 20 − 1 = 19.

b) Abaterea medie absoluta 𝑒𝑋 se obţine astfel


|1 − 𝑥| + |5 − 𝑥| + |4 − 𝑥| + |20 − 𝑥| + |3 − 𝑥| + |16 − 𝑥|
𝑒𝑋 = ,
6
unde media 𝑥 este
1 + 5 + 4 + 20 + 3 + 16
𝑥= = 8, 16.
6
Atunci rezultă
𝑒𝑋 ≃ 6, 55.
c) Dispersia de selectie este
6
1 ∑︁ 2
𝑠2 = (𝑥𝑖 − 𝑥)
6 𝑖=1
1 (︀
7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842
)︀
=
6
= 51, 138 ≃ 51.

d) Deviatia standard rezultă imediat de mai sus


√ √
𝑠 = 𝑠2 = 51 = 7, 14 ≃ 7.

e) Din cele de mai sus, rezultă coeficientul de variaţie


𝑠
𝑐𝑣 = = 0, 8578.
𝑥

Problema 3. Fie 𝑋1 , 𝑋2 , ..., 𝑋𝑛 variabile aleatoare normal distribuite cu


media 𝑚 si dispersia 𝜎 2 . Care sunt estimarile date de metoda momentelor
pentru media 𝑚 si dispersia 𝜎 2 ?

Solutie: Momentele de ordin 1 si 2, corespunzatoare lui 𝑋, sunt date prin


𝑀1 (𝑋) = 𝑀 (𝑋) = 𝑚 si 𝑀2 (𝑋) = 𝑀 (𝑋 2 ) = 𝑚2 + 𝜎 2 , intrucat prin definitie
𝜎 2 = 𝑀 (𝑋 2 ) − 𝑀 (𝑋)2 . Ramane sa afisam momentele esantionului, si anume
𝑛 𝑛
1 ∑︁ 1 ∑︁ 2
𝑚1 = 𝑋𝑖 si 𝑚2 = 𝑋
𝑛 𝑖=1 𝑛 𝑖=1 𝑖

apoi metoda momentelor presupune sa le consideram egale

𝑀1 = 𝑚1 si 𝑀 2 = 𝑚2

Pentru a obtine estimatorii pentru 𝑚 si 𝜎 2 prin metoda momentelor, va trebui


sa exprimam acesti parametrii ca functii de 𝑚1 si 𝑚2 . Se obtine imediat
𝑛
⋆ 1 ∑︁
𝑚 = 𝑋𝑖
𝑛 𝑖=1

10
si
𝑛
𝑛
(︃ 𝑛
)︃2 ∑︀ ¯ 2
(𝑋𝑖 − 𝑋)
⋆2 1 ∑︁ 1 ∑︁ 𝑖=1
𝜎 = 𝑋𝑖2 − 𝑋𝑖 =
𝑛 𝑖=1
𝑛 𝑖=1
𝑛

Se poate constata ca estimatorul obtinut prin metoda momentelor pentru 𝜎 2 nu


este nedeplasat (vezi curs), caci 𝑀 (𝜎 ⋆ 2 ) ̸= 𝜎 2 . Un estimator elementar pentru
𝜎 2 , care sa fie nedeplasat, se construieste usor prin
𝑛
∑︀ ¯ 2
(𝑋𝑖 − 𝑋)
⋆2 𝑖=1
𝜎 =
𝑛−1
si formula trimite la dispersia de selectie 𝑠2 .

Probleme propuse

Problema 1. 𝑋1 , 𝑋2 , . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝒫, a carei


caracteristica comuna este masurata de 𝑋 cu o distributie Poisson, adica cu
functia de probabilitate
{︃ 𝑘
𝜆 −𝜆
𝑒 , daca 𝑘 = 0, 1, . . .
𝑝(𝑘, 𝜆) = 𝑃 (𝑋 = 𝑘) = 𝑘!
0, altfel

Estimati parametrul 𝜆 folosind metoda momentelor.

Problema 2. Fie (𝑋1 , 𝑋2 , . . . 𝑋𝑛 ) o selectie aleatoare a unei variabile aleatoare


𝑋 cu densitatea de probabilitate
{︃
(2𝜃 + 1)𝑥2𝜃 , 0 ≤ 𝑥 ≤ 1
𝑓 (𝑥, 𝜃) =
0, in rest

Aflati un estimator de verosimilitate maxima a lui 𝜃.

Problema 3. Pentru seria statistica

𝑋 : 1, 1, 2, 2, 2, 1, 3, 1, 2, 4

aflati dispersia de selectie, coeficientii Pearson de asimetrie si aplatizare, cuar-


tilele si coeficientul de variatie.

Problema 4. Folositi metoda verosimilitatii maxime pentru a estima media 𝑚


si dispersia 𝜎 2 unei selectii aleatoare 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 normal si identic distribuite
cu 𝑋.

11
12
Bibliografie

[1] R. Negrea. Note de curs MS, 2020.


[2] E. Petrisor. Note de curs Probabilitati si statistica, 2016.
[3] A. Srivastava si E. Klassen Functional and Shape Data Analysis, Springer-
Verlag, New York, 2016.

S-ar putea să vă placă și