Documente Academic
Documente Profesional
Documente Cultură
curs 1
Statistica este stiinta care se ocupă cu descrierea si analizarea
numerică a fenomenelor de masă. Ea studiază latura cantitativă a
fenomenelor, legile statistice manifestându-se sub formă de tendinte.
Biostatistica interesează aplicarea statisticii fenomenelor biologice,
incluzând biologia umană, medicina si sănătatea publică. Statistica este o
ramură a matematicii aplicate dezvoltată din teoria probabilitătilor si este
fundamentată pe toate stiintele experimentale: fizica, biologia, sociologia,
chimia, etc.
Prelucrarea datelor statistice cu ajutorul unor formule matematice
ne ajuta să întelegem fenomenele mai putin evidente.
Observatiile sunt transformate în înregistrări numerice iar statistica
este instrumentul matematic ideal pentru analiza lor.
Variabile aleatoare. Distribuţii
O variabilă aleatoare este o cantitate care ia valori diferite sau mulţimi de valori cu
probabilităţi variabile.
Un tabel, grafic sau expresie matematică dând probabilităţi cu care o
variabilă aleatoare ia diferite valori sau mulţimi de valori se numeşte distribuţia
variabilei aleatoare.
O distribuţie indică pentru o populaţie de observaţii frecvenţele relative cu
care diferite valori sau mulţimi de valori aleatoare apar. Când vorbim despre medie,
varianţă, deviaţie standard, mod sau orice altă statistică descriptivă a distribuţiei, ne
referim la întreaga populaţie de observaţii.
Media populaţiei
Varianţa populaţiei 2
Deviaţia
standard a populaţiei
Media eşantionului
Varianţa eşantionului S2
Deviaţia standard a S
eşantionului
Mărimea eşantionului n
Statistică descriptivă
Indicând, măsurile limită ale fiecărei clase, adică cea mai mică si cea mai mare măsură
înaintea apartenentei la clasă, tinând cont de precizia măsurătorii.
Indicând ceea ce se numeste “limitele reale” ale fiecărei clase, adică cea mai mică
si cea mai mare dintre valorile teoretice ale variabilei în această clasă; de altfel, limita
superioară a unei clase si limita inferioară a clasei următoare coincid, ca de exemplu
valoarea 10.5 pentru clasele (0.5 .. 10.5) si (10.5 .. 20.5).
Indicând valoarea care se găseste exact în centrul clasei, numită “punct median” al
clasei, si care este dată de semisuma limitelor unei clase.
Grupând datele în clase, se remarcă asimilarea tuturor valorilor unei clase la o valoare
unică, aceea a punctului median (în acest mod, se face reducerea la cazul unei
variabile discontinue).
Efectivul F al unei valori (sau al unei clase) reprezintă frecventa absolută, adică
numărul de aparitii ale acestei valori (sau efectivul clasei) în ansamblul distribuit.
Dacă dorim să comparăm serii statistice comportând un număr diferit de cazuri, se va
raporta frecventa absolută la numărul n de cazuri, numit efectivul total, care
reprezinta seria studiată. Se defineste frecventa relativă, sau frecventa propriu-zisă a
valorilor considerate, ca fiind
fr = F / n
Numărul total n de cazuri se defineste ca fiind suma efectivelor fiecărei valori Fi.
Suma frecventelor relative va fi egală cu 1.
Diagrama frecventelor
0 22 0.01 1
1 112 0.06 6
2 285 0.15 15
3 470 0.25 25
4 513 0.27 27
5 320 0.17 17
6 132 0.07 7
7 23 0.01 1
15,00% 17,00%
400 0,2
procentuală
320
Frecvenţă
285
300 7,00%
0,15
6,00%
200 132 0,1
1,00% 112 1,00%
100 22 23 0,05
0 0
0 1 2 3 4 5 6 7
Număr de băieţi
Măsuri Limitele Puncte Efective
limită reale mediane
40-44 39.5 – 44.5 42 5
45-49 44.5 – 49.5 47 12
50-54 49.5 – 54.5 52 31
55-59 54.5 – 59.5 57 31
60-64 59.5 – 64.5 62 16
65-69 64.5 – 69.5 67 3
70-74 69.5 – 74.5 72 2
100
31.00% 31.00%
35 31 31 0.35
30 0.3
Frecventa procentuala
25 0.25
Frecventa absoluta
16.00%
20 12.00% 16 0.2
15 12 0.15
5.00%
10 3.00% 2.00% 0.1
5
5 3 2 0.05
0 0
40-44 45-49 50-54 55-59 60-64 65-69 70-74
Clase de greutate
Principalele tipuri de diagramă de frecvente
Plecând de la valoarea cea mai mică (prima din ordinea tabelului ) se adună
succesiv frecventele fiecărei valori (sau clase); prin urmare, pentru fiecare valoare se
consideră nu numai frecventa sa proprie, ci suma acestei frecvente cu a tuturor
valorilor inferioare. În acest mod se obtine o distributie de frecvente numita
distributia frecventelor cumulate
Clasificarea datelor
Reprezentarea datelor
A, A, B, B, C, C, C, D, D, E, F.
Mediana va fi elementul încercuit.
Exemplul 2: Avem seria de valori:
61 , 49 , 53 , 61 , 74 , 82.
Aranjăm elementele în ordine ascendentă:
35 , 49 , 53 , 61 , 74 , 82.
Mediana se calculează făcând media aritmetică a celor două valori din
mijlocul şirului:
c) Modulul:
Este valoarea care are frecvenţa cea mai mare din setul de
observaţii.
Exemplu: Avem mulţimea de valori:
A, O, O, B, B, AB, AB, A, A, O, O, O, AB, B, O, B, A, O, AB, O, O, B,
O, A.
Valoarea A are 5 apariţii.
Valoarea B are 5 apariţii.
Valoarea AB are 4 apariţii.
Valoarea O are 10 apariţii. Aceasta va fi modulul seriei de valori.
Măsuri ale împrăştierii sau variabilităţii
Măsurile valorii centrale nu ne dau nici o indicaţie privind împrăştierea sau
variabilitatea într-un set de observaţii.
Exemplu: Să considerăm că avem două comunităţi A şi B; media valorii luata in studiu
in cele doua comunităţi este aceeaşi, însă distribuţiile valorilor (împrăştierea acestora)
este diferită
Pentru a se putea caracteriza gradul de împrăştiere ale valorilor unei serii de valori, se
defineşte o mărime specială, numită deviaţie standard.