Sunteți pe pagina 1din 59

Statistica descriptiva

Cursul 1.2
Statistica - definitii

• Populaţie – ansamblu foarte mare de valori aleatoare ale


aceleasi marimi.

• Unitate statistica - element al populatiei.

• Caracter statistic - proprietate a unitatii statistice a populatiei.

• Caracter calitativ sau categorial – proprietate care nu este


masurata; ex.: culoare, profesie.

• Caracter cantitativ - proprietate care poate fi masurata, ex.:


lungime, masa.
Tipuri de variabile

Calitative Cantitative

nominale ordinale discrete continue

mai multe categorii


ordonare
numerice

neîntrerupt

Caz particular: variabilele binare care pot fi nominale sau ordinale


Variable calitative

Variabile binare:
• acceptat / respins
• placut / neplacut
• perisabil / neperisabil
• cap / pajură
• bolnav/ sanatos
• masculin / feminin
Variable calitative
Variabile nominale: ordine de apariţie nu este
importantă!
• Grupa sanguina: 0, A, B, AB,
• Starea civila: casatorit, celibatar, vaduv, etc.
• Profesia: inginer, medic, ospatar, etc.

Datele se măsoară pe scala nominal.

Prin măsurare datele se identifică se încadrează în


grupe/clase/categorii pe baza unui criteriu, fără a
specifica dacă o categorie este mai bună săau mai
importantă decât alta.
Scala nominala
Caracteristicile măsurate stabilesc daca variabila se incadreaza intr-o
clasa sau nu.

Exemplu: un sondaj analizează tipul de fructe achizitionate


săptămânal de cumparatori intr-un supermarket.

Se notează merele cu 1, portocalele cu 2, perele cu 3, bananele cu 4,


piersicile cu 5.

Variabila fructe se măsoara cu scala nominală, deoarece variabila


fructe se incadreaza intr-o categorie pe baza denumirii fructelor.

Pentru a facilita introducerea si prelucrarea datelor într-o bază de


date, se utilizează coduri.

Exercitiul 1 Sortati pe categorii fructele achizitionate saptamanal


intr-un supermarket. Date sunt in fisierul excel 1 - sheet 1.
Scala nominala

Exercitiul 2 Responsabilul relatiilor cu publicul dintr-un


supermarket doreste sa imbunatateasca relatiile dintre
cumparatori si magazin. In acest scop efectueaza un
sondaj al cauzelor nenultumirilor cumparatorilor ale carui
rezultate sunt prezentate in fisierul excel 1 - foaia 3. Pe
baza acestui sondaj propuneti un plan de crestere a
gradului de satisfactie al clientiilor supermarketului.
Variable calitative

• Variabile ordinale:
ordinale ordinea conteaza

• stadiul cancerului: I, II, III sau IV


• ordinea nasterii: primul, al doilea, al treilea, etc
• calificative: A, B, C, D, F,
• clasificarea universitatilor,
• frecventa unei actiuni: întotdeauna, de obicei, de
multe ori, o dată, aproape niciodată, niciodată,
• categorii de vârsta: 10 - 20, 20 - 30, etc.
Scala ordinală
Scala ordinală se aplică datelor a căror ordine de apariţie
într-un șir de date este importantă.

În funcție de o caracteristică, scala împarte variabilele în


clase/grupe între care se stabilesc relaţii de ordine.

Masuratorile indică poziţia variabilei într-o serie ordonată, dar


nu şi mărimea diferenţei dintre două poziţii ale scalei.

Valorile atribuite pe scală sunt numere de ordine denumite


ranguri, între care se determină relaţii de inegalitate: a < b
sau a > b.
Exemple de utilizare a scalei ordinale

Avizul Comportament Calitate servicii Calitate


produse
Dezacord total Total ineficient Foarte Slabă
nemulţumit
Dezacord Ineficient Destul de Destul de slabă
nemulţumit
Nici acord nici Destul de Neutru Bună
dezacord eficient
De acord Eficient Mulţumit Forte bună
Cu totul de acord Foarte eficient Foarte mulţumit Excelentă

Exercitiul 3. Determinati cum este apreciata de catre consumatori


calitatea unui produs care se doreste sa se introduca pe piata.
Datele sunt in fisierul excel 1 sheet 2.
Variable cantitative

Variabile numerice - utilizeaza in calcule


aritmetice.

– timp,
– lungime,
– masa,
– concentratie
Variable cantitative

• Variabile discrete – au un numar limitat de


valori

• numărul de automobile vandute într-un an,


• numarul linilor de fabricatie,
• diametrele standardizate,
• indicatiile unui zar,
• numarul de determinari
Variable cantitative

• Variabile continue - iau orice valoare într-un


interval definit.

• durata de supraviețuire a unor celule,


• timpul,
• tensiune arterială,
• viteza unei masini,
• veniturile.
Scala de interval
Scala de interval se aplică variabilelor numerice pentru
stabilirea relaţiei de ordine şi pentru măsurarea intervalului
dintre valori; valorile numerice se pot însuma sau scădea.

Scala nu are punct de origine unic, iar unitatea de măsură


este diferită. De ex.: la măsurarea temperaturii scala
Fahrenheit şi scala Celsius au origini si unitati de măsură
diferite: scala Celsius, 00C este egală cu 320 F.

• Ex.: Se propune următorul chestionar: Ştiţi în ce constă


sortarea gunoiului menajer? Dacă distanţele dintre două
intervale consecutive sunt egale, alegeți nivelul pe care îl
apreciaţi între limitele scalei următoare:
Foarte bine = 5 4 3 2 1 = foarte puţin
Scala raport
Scala raport este scala numerică in care două valori măsurate
se află în acelaşi raport una faţă de cealaltă, indiferent de
unitatea de măsură ,.

Punctul de origine al scalei este fix şi reprezintă absenţa


caracteristicii.

Scala include punctul zero şi unitatea de măsură se alege


arbitrar.

Cu rezultatele măsurătorilor se efectueaza operații matematice.

De ex. o persoană de 70 kg este de două ori mai grea decât o


persoană de 35 kg, indiferent de unitatea de măsură utilizată,
iar punctul de origine al scalei este egal cu zero indiferent de
instrumentul de măsură utilizat sau sistemul de unităţi.
Statistica - definitii

Studiul statistic se efectueaza pe un esantion sau proba.


proba
Statistica

Observatii:

• Studiul se efectueaza pe un fragment al realităţii.


realităţii

• Datele obţinute reprezintă o selecţie pe baza cărora se


formulează, concluzii generale.
generale

• Seturile studiate prezinta variabilitate naturala.


• Prelucrarea si interpretarea datelor se face prin metodele
statisticii matematice.

Exercitiul 4 Solutionati problemele din fisierul word anexat.


Statistica
• Generalităţile deduse statistic sunt adevărate în “medie”,
deoarece evidenţiază comportamentul esantionului.
• Statistica matematică este un instrument de lucru pentru
specialist.
specialist
• Datele se obtine in regim programat si neprogramat.
• Regimul programat este o strategie de obtinere a informatilor
maxime dintr-un set cu un numar minim de date; efortul financiar
este minim.
• Accesibilitatea calculatoarelor si a programelor specializate:

 permite înregistrarea şi prelucrarea unui volum mare de date,


 vizualizarea evoluţiei fenomenelor in timp real.
Organizarea datelor

 Organizarea datelor:
datelor

• tabele,
• grafice.

 Analiza se face pe baza caracteristicilor statistice:


statistice

 caracteristici de pozitionare,
 caracteristici de dispersie, imprastiere

 Interpretarea caracteristicilor statistice – concluzii


despre esantiomul de date.
Statistica - definitii

Tabel – se utilizeaza pentru stocarea variabilelor cantitative:


• volum mic de date – enumerarea datelor intr-o ordine
prestabilita,
• volum mare de date – se organizeaza in functie de
valorile posibile si frecventa de aparitie a acestora in
populatie sau esantion.

Populatie: 121 de pompe defecte, variabila statistica:


statistica debitul pompei

Debit, m3/h 1 3 5 7 9 11 13 15
Numar pompe 7 11 16 17 26 31 11 2
Graficele frecventei unei variabile

Definiţie:
Definiţie reprezentări 2D si 3D a unui set de date care se
caracterizeaza prin:

simplitate,
identificarea rapidă a tendinţelor şi a caracteristicilor analizate,
transmiterea informaţiilor sub formă uşor de reţinut.

Clasificare:

–Graficul cu bare - utilizate pentru pentru a evidentia frecvența


sau procentul aparitiei fiecarei categorii.
–Histograma
–Diagrama radiala
–Diagrama Box
Grafice cu bare verticale

35 35

30 30

25 25
frecventa

frecventa
20 20

15 15

10 10

5 5

0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
3 3
Debit, m /h D ebit, m /h

Pentru variabile discrete Pentru variabile continue


Grafice cu bare orizontale
16

14

12

10
Debit, m /h
3

0
0 5 10 15 20 25 30 35
frecventa
Diagrama radiala

Diagrama “radiala” (pie) – diagrama de frecvente.


Histograma

Pentru variabile continue evidentiaza forma distribuției


variabilelor, tendinta central a datelor, amplitudinea,
domeniul de variație.
Histograma pentru variable continue

Debit, m3/h Numar pompe


40

0- 2 7 35

2-4 11 30

25

4-6 16

numar
20

6-8 17 15

10

8 - 10 26 5

10 - 12 31 0
0 2 4 6 8 10 12 14 16
D ebit
12 - 14 11
14 - 16 2
Histograma
Histograma pentru variable continue

60 60

50 50

40 40

numar
30
numar

30

20
20

10
10

0
0 0 2 4 6 8 10 12 14 16
0 2 4 6 8 10 12 14 16
D ebit
D ebit

Lungimea clasei egala 4 Lungimea clasei egala 2

Prea putina informatie!!!


Histograma Histogram of univariate sample - skewed tendency
Histogram of univariate sample - bimodal tendency
0.04

0.04

0.03
0.03

Density
Density

0.02
0.02

0.01
0.01

0.00 0.00

20 40 60 80 0 20 40 60 80
measurement scale measurement scale
Histograme ale aceluiasi set de date, dar cu dimensiune diferita a
claselor.

Se recomanda:
utilizarea histogramelor pentru un set cu n > 70 de date,
numarul de clase k se aproximeaza cu formula lui Strugel:
Histograma pentru variable continue
0 2 4 6 8 10 12 14 16

99.5
98
n 90
70
50
30
10
2
0.5

0.01
40
35
n
30
25
20
15
10 Histograma + curba cumulata
5
0
0 2 4 6 8 10 12 14 16
Debit
Histograma pentru variable continue

Histograma cu clase inegale.


Histograma pentru variable continue
Alegerea unui furnizor

Exercitiu: O firma are oferte de materii prime de la doi furnizori.


Managerul ii solicita controlorului de calitate saii recomande un
furnizor. La calitate egala, acesta alege durata de livrare ca si
criteriu de selectie. Datele colectate sunt prezentate in fisierul
excel 2 Histograma comparatie – sheet 2.
Curba de distributie
40

%
30

20

10

0
0 2 4 6 8 10 12 14 16 18
Debit

Curba de distributie experimentala.


Histograma pentru variable continue

Exercitiul 5.
5 Trasati histogrameledatelor din fisierele excel 2
histograme si excel 3 histograme.
Diagrama cumulata pentru variabile
discrete

140 1.0

120
0.8
valoare cumulativa

100

frecventa
0.6
80

60 0.4

40
0.2
20

0.0
0
0 2 4 6 8 10 12 14 16
0 2 4 6 8 10 12 14 16
D ebit
Debit
Cuartile

25% 25% 25% 25%

Q1 Q2 Q3
Cuartila este
Cuartila oricare din cele trei valori ce împart un set ordonat de
date în patru părți cu numar de variabile egal.

• Prima cuartila, Q1, este valoarea pentru care 25% din


observații sunt mai mici și 75% sunt mai mari.
• Q2 este egala cu mediana: 50% sunt mai mici, 50% sunt mai
mari.
• Q3 - numai 25% din observații sunt mai mari decât a treia
cuartila.
Intervalul intercuartic

mediana
Q1 Q2 Q3 maxim
minim
25% 25% 25% 25%
25

15 35 49 65 94

intervalul intercuartilic
= 65 – 35 = 30
Diagrama Box
Diagrama Box

Exercitiul 6.
6 Trasati diagrama Box pentru datele din fisierul excel
2 histograme.
Curba de distributie ideala

Concluzii:

 Rezultatele măsuratorilor
repetate ale unei unitati
statistice (mărime), în condiţii
identice, se caracterizeaza
printr-o lege de distributie
sau de repartiţie.

 Legea pe care se
fundamentează metodele de Legea de distributie normala
prelucrare a unitatilor statistice
este legea de repartiţie
normală.
normală
Proprietăţile repartiţiei normale

• Simetria - erorile aleatorii


de semne diferite au
aceeasi frecventa.

• Concentraţia - erorile
aleatoare:
o mici în valoare
absolută au frecventa
mai mare;
mare
o mari au frecventa
mica de aparitie.
Caracteristici de pozitionare

Media aritmetică a esantionului de date statistice {x1, x2,…xn} este


prin denitie suma acestor date impartita la numarul datelor:

N
 xi
x  i 1
N
  xi  x   0
N
Proprietate:
i 1

populatiei 
Media aritmetică a populatiei:
Caracteristici de pozitionare

Daca datele sunt prezentate sub forma unei serii de distributie


(fara grupare in clase), media aritmetica este:

1 k k
x   xi  ni N   ni
N i 1 i 1

Media aritmetica pentru serie statistica grupata pe clase:

1 k
x   ci  n i
N i 1

Pentru o variabila statistică definită prin clase, valorile xi se


inlocuiesc cu centrle claselor, ci.
Caracteristici de pozitionare

 Mediana:
Mediana valoarea variabilei pentru care jumatate din
variabile au mai mici ca ea si jumatate mai mari ca ea:

♦ dacă n este impar: M e  x ( n 1) / 2


♦ dacă n este par: M e  1  x n / 2  x n / 21 
2

 Valoarea centrată a şirului de date:

1
x c   x max  x min 
2
Caracteristici de pozitionare

Moda sau modul:


modul valoarea variabilei cu frecventa cea mai
mare.
mare
Caracteristici de pozitionare
Caracteristici de dispersie

Dispersia - parametru important ce caracterizează împrăştierea


datelor faţă de medie.
Dispersia unei serii statistice (xi, ni) este media pătratelor
abaterilor faţă de medie :
k

 n (x  x )
i i
2

σ 
2 i 1
k

n i 1
i

Pentru o variabila statistică definită prin clase, valorile xi se


inlocuiesc cu centrle claselor, ci.
Caracteristici de dispersie

• dispersia esantionului:
esantionului

• dispersiei a populaţiei:
populaţiei

• abaterea medie pătratică:


pătratică
Caracteristici de dispersie

• amplitudinea: R  xmax  xmin

s
variaţie Cv 
• coeficientul de variaţie: 
x

Curbe cu aceeaşi medie, dar cu


împrăştieri diferite ale rezultatelor
(coeficient de variatie diferit).
Caracteristici de dispersie
2

 y
• coeficientul de asimetrie:
asimetrie 1    3
 s2 

Coeficientul de asimetrie:

•pozitiv cu o „coada lungă” a distribuţiei in partea valorilor pozitive,


•negativ cu o „coada lungă” a distribuţiei in partea valorilor
negative.
Caracteristici statistice

Parametrii statistici de tendinţă şi de împrăştiere se


utilizează pentru:

• a elimina măsurătorile afectate de erori grosolane,


grosolane

• a demonstra distribuţia normală a erorilor de măsurare,

• a verifica caracterul aleatoriu al variabilelor,

• a estima erorile de măsurare şi propagarea acestora,


acestora

• a determina condiţiile favorabile de măsurare.


măsurare
Eliminarea datelor afectate de erori
grosolane

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

mediana = 3 mediana = 3
media = 3 media = 4
1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5

Observatie: Valoarea medie este afectată de valorile


extreme.
Eliminarea datelor afectate de erori
grosolane

Set A
x = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 3.338

Set B
x = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.926

Set C

x = 15.5
s = 4.570
11 12 13 14 15 16 17 18 19 20 21
Eliminarea datelor afectate de erori
grosolane

Pentru replicate, o valoare care diferă mult de


media lor aritmetică rezulta:

• dintr-o citire greşită,


• dintr-o eroare de calcul,
• din cauze necunoscute.

Eliminarea valorilor afectate de erori grosolane


se face pe baza testelor statistice.
statistice
Teste pentru eliminarea valorilor anormale

x n  x n 1
• Testul Irwin: 
s

xn  x
• Testul Romanovski: t  n
s
n 1


xn  x
• Testul Grubbs:
Grubbs 
2
n n  
  x i  x 
n  1 i 1  
Verificarea normalităţii repartiţiei datelor

• Repartiţia normală este simetrică;


simetrică repartiţiile empirice
pot fi asimetrice ca urmare a ponderii de valori mai mari
sau mai mici decât media.

• Repartiţia normală se defineste pe domeniul - , + ;


orice abatere finită de la medie are o probabilitate mai
mare ca zero.

• Repartiţia normală are un singur maxim;


maxim este
unimodala; repartiţiile empirice pot fi multimodale.
multimodale

• Repartiţia normală nu este universal valabilă.


valabilă
Verificarea normalităţii repartiţiei datelor
Regula 3 

Indiferent de valorile lui  si :


oaria dintre  -  si  +  este 68% din aria
totala;
oaria dintre  - 2 si  + 2 este 95% din aria
totala;
oaria dintre  - 3 si  + 3 este 99.7% din aria
totala.

Aproape toate valorile se încadrează în regula trei .


Regula 3 

68% din
date

95% din date

99.7% din date