Documente Academic
Documente Profesional
Documente Cultură
”
Mark Twain
12
Statistica descriptiva
Recunoasterea formelor
1
𝑐 : [𝑎, 𝑏] → R2 , 𝑐(𝑎) = 𝑐(𝑏). O forma trebuie sa fie invarianta la translatii:
oriunde este mutata forma pe ecran va avea acelasi contur. Trebuie sa avem
o invarianta la scalari: daca marim imaginea, conturul va ramane neschimbat.
In acelasi timp si o invarianta la rotatii este de dorit: evident rotind un contur
acesta nu se deformeaza. Prin urmare, din punct de vedere matematic, o forma
este de fapt reprezentata printr-o multime de curbe
1 = {1 + 3𝑘 : 𝑘 ∈ Z}
̂︀
Stim ca in clasa lui 1 se afla toate numerele intregi care dau restul 1 prin im-
partire la 3. Tradus matematic inseamna o multime infinita de numere intregi
obtinute translatand, pe axa numerelor reale, numarul 1 cu vectori de lungime
3𝑘 unitati, 𝑘 ∈ Z.
In ilustratia de mai jos siluetele a 10 masini sunt afisate. Aceste siluete sunt
inregistrate de catre o camera fixa la unghiuri de 0∘ , 50∘ , 90∘ si respectiv 180∘ .
Marcile carora le corespund sunt: Avalon, Camry, Jeep93, Jeep99, Maxima,
MazdaMPV, Mitsubishi, Sentra, Tacoma, TaurusSE96 si Civic4dr.
2
mici ale expresiei 𝑑 ([𝑐] 𝑡𝑒𝑠𝑡 , [𝑐] 𝑏𝑎𝑧𝑎 𝑑𝑒 𝑑𝑎𝑡𝑒 ). O astfel de functie distanta este,
in general, foarte sensibila la variatii ale curbelor si returneaza si multe rezul-
tate nesatisfacatoare. Cele mai apropiate contururi pot apartine unor modele
diferite, ducand la erori in clasificarea siluetelor noi.
3
Statistica descriptiva
Remarca
Observand sau masurand caracteristica indivizilor dintr-un esantion, se
obtine un sir de valori, 𝑥1 , 𝑥2 . . . 𝑥𝑛 , interpretate ca valori de observatie
asupra variabilei aleatoare 𝑋. Se considera ca rezultatul investigarii unui
individ este independent de cele ale investigarii celorlalti, de aceea valorile
inregistrate 𝑥1 , 𝑥2 . . . 𝑥𝑛 sunt interpretate ca valori de observatie asupra
unui sir de variabile aleatoare, 𝑋1 , 𝑋2 . . . 𝑋𝑛 independente si identic dis-
tribuite ca variabila aleatoare 𝑋, ce modeleaza caracteristica investigata.
4
∙ media de selectie 𝑥
¯ este
𝑥1 + 𝑥2 + . . . + 𝑥𝑛
𝑥
¯=
𝑛
2
∙ dispersia de selectie 𝑠 este definita prin
𝑛
1 ∑︁
𝑠2 = ¯)2
(𝑥𝑖 − 𝑥
𝑛 − 1 𝑖=1
∙ deviatia standard 𝑠, este evident
⎯
⎸ 𝑛
⎸ 1 ∑︁
𝑠=⎷ ¯ )2
(𝑥𝑖 − 𝑥
𝑛 − 1 𝑖=1
∙ coeficientul de variatie 𝑐𝑣
𝑠
𝑐𝑣 =
𝑥
¯
∙ abaterea medie absoluta 𝑒𝑋
𝑛
1 ∑︁
𝑒𝑋 = |𝑥𝑖 − 𝑥
¯|
𝑛 𝑖=1
∙ mediana 𝑀 𝑒 impune ca valorile observate sa fie ordonate crescator si
atunci ⎧
⎨𝑥 𝑛+1
⎪ 2
, 𝑛 impar
𝑀𝑒 =
⎩ 𝑥 𝑛2 +𝑥 𝑛2 +1
⎪
2 , 𝑛 par
∙ cuartilele 𝑄1 ,𝑄2 = 𝑀 𝑒 si 𝑄3 impart seria statistica in patru parti cu
efective egale (dupa ordonare) iar abaterea cuartilica 𝑄 = 𝑄3 − 𝑄1
=⇒ daca n este impar atunci 𝑄2 = 𝑀 𝑒 si se adauga 𝑀 𝑒 la ambele jumatati
formate, apoi 𝑄1 este mediana primei jumatati si 𝑄3 a celei de-a doua
∙ amplitudinea absoluta 𝜔𝑋
𝜔𝑋 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛
∙ momentele centrate de ordin k 𝜇𝑘
𝑛
1 ∑︁
𝜇𝑘 = ¯)𝑘
(𝑥𝑖 − 𝑥
𝑛 𝑖=1
∙ coeficientul de asimetrie al lui K. Pearson (skewness) 𝛽1
𝜇3 𝜇3
𝛽1 = 2 3 = 3
(𝑠 ) 𝜇2
∙ coeficientul de asimetrie a lui R. Fisher 𝛾1
√︀
𝛾 1 = 𝛽1
∙ coeficientul de aplatizare Pearson (kurtosis)
𝜇4
𝛽2 = 2
𝜇2
∙ coeficientul de aplatizare a lui Fisher
𝛾 2 = 𝛽2 − 3
5
Metode de estimare a parametrilor
∙ distributia lui 𝑋 depinde uneori de un parametru necunoscut, notat 𝜃, in
context general
∙ spre exemplu, o distributie binomiala 𝐵𝑖𝑛(𝑛, 𝑝) depinde de parametrii 𝑛 si
𝑝, notam 𝜃 = (𝜃1 , 𝜃2 ) = (𝑛, 𝑝), iar una exponentiala 𝐸𝑥𝑝(𝜆) de parametrul 𝜃 = 𝜆
∙ vom incepe sa prezentam metode de estimare a parametrilor repartiti-
ilor variabilelor aleatoare: metoda momentelor, metoda verosimilitatii maxime,
metoda intervalelor de incredere, metoda celor mai mici patrate
Metoda momentelor
Exemplu
Fie 𝑋1 , 𝑋2 , . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-
nomiala 𝑋 ∼ 𝐵𝑖(𝑛0 , 𝑝) cu parametrii 𝑛0 si 𝑝. Vom estima acesti parametri
folosind metoda momentelor.
6
Deoarece
si
𝐷2 (𝑋) = 𝑛0 𝑝(1 − 𝑝)
obtinem:
si
𝑋12 + 𝑋22 + . . . + 𝑋𝑛2
(︂ )︂
𝑀2 (𝑋) = 𝑚2 =
𝑛
se poate observa ca
𝑚2 − 𝑚21
1−𝑝=
𝑚1
astfel
𝑚1 + 𝑚21 − 𝑚2
𝑝⋆ =
𝑚1
poate fi folosit ca un estimator pentru parametrul 𝑝.
In acelasi context
𝑚1 𝑚21
𝑛⋆0 = = .
𝑝 𝑚1 + 𝑚21 − 𝑚2
este un estimator, obtinut prin metoda momentelor, pentru 𝑛0 .
7
∙ daca 𝑋 este discreta atunci datorita independentei variabilelor 𝑋1 , 𝑋2 , . . . 𝑋𝑛
functia de verosimilitate este
Exemplu
Consideram o populatie formata dintr-un tip de circuite. Presupunem ca
stim deja ca o caracterista a populatiei (de exemplu durata de viata a cir-
cuitelor) este modelata printr-o variabila aleatoare 𝑋 care are o distributie
exponentiala de parametru 𝜆, insa nu cunoastem acest parametru. Putem
sa-l aproximam folosind metoda verosimilitatii maxime. Facem o selectie
𝑥1 , 𝑥2 , . . . , 𝑥𝑛 din acea populatie (masurand durata de viata) si reamintim
ca o distributie exponentiala are densitatea de probabilitate
{︃
𝜆𝑒−𝜆𝑥 , 𝑥 ≥ 0
𝑓 (𝑥, 𝜆) =
0, in rest
8
𝑛
asadar 𝜃⋆ = ∑︀
𝑛 si prin urmare inversa mediei selectiei este un estimator
𝑥𝑖
𝑖=1
de verosimilitate maxima pentru 𝜆.
Probleme rezolvate
Mai departe pentru a determina prima cuartilă ţinem cont de seria statistică
simplă
1, 2, 5, 7, 11
care are tot un număr impar de termeni şi obţinem
𝑥 5+1 = 𝑥3 = 5 ⇒ 𝑄1 = 5.
2
Analog procedăm pentru a treia cuartilă ţinând cont de seria statistică simplă
11, 21, 22, 23, 29
care are tot un număr impar de termeni şi rezultă
𝑥 5+1 = 𝑥3 = 22 ⇒ 𝑄3 = 22.
2
𝑋 : 1, 5, 4, 20, 3, 16.
Determinaţi:
a) Amplitudinea absolută 𝜔𝑋 .
b) Abaterea medie absoluta 𝑒𝑋 .
c) Dispersia de selectie 𝑠2 .
d) Deviatia standard 𝑠.
e) Coeficientul de variaţie 𝑐𝑣.
9
Solutie: a) Amplitudinea absolută 𝜔𝑋 este
𝑀1 = 𝑚1 si 𝑀 2 = 𝑚2
10
si
𝑛
𝑛
(︃ 𝑛
)︃2 ∑︀ ¯ 2
(𝑋𝑖 − 𝑋)
⋆2 1 ∑︁ 1 ∑︁ 𝑖=1
𝜎 = 𝑋𝑖2 − 𝑋𝑖 =
𝑛 𝑖=1
𝑛 𝑖=1
𝑛
Probleme propuse
𝑋 : 1, 1, 2, 2, 2, 1, 3, 1, 2, 4
11
12
Bibliografie