Sunteți pe pagina 1din 17

Statistică neparametrică

Curs 1, Februarie 2015


Titular de curs: Conf.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Statistică neparametrică
 Planul cursului
 Curs 1 – Introducere
 Curs 2,3,4 - Indicatori statistici neparametrici
 Curs 5,6,7 – Teste statistice neparametrice
 Curs 8,9,10 – Regresia logistică
 Curs 11 – Recapitulare

 Nota finală:
 60% nota de la examen
 30% proiect + referat
 10% prezenţă şi activitate seminar

 Bibliografie
 Andrei T., Stancu S. – Statistică. Teorie şi aplicaţii. Ed. ALL, Bucureşti, 1995
 Boboc C. – Analiză statistică multidimensională, Ed.Meteor Press, 2007
 Opariuc-Dan C. – Statistică aplicată în ştiinţele socio-umane. Vol.II, 2011
Introducere
 Parametric versus non-parametric
 O potenţială sursă de erori în analizele statistice este utilizarea
necorespunzătoare a metodelor parametrice în cazul unor date
neparametrice

 Principalul mod în care poate fi făcută distincţia între necesitatea utilizării


metodelor parametrice versus neparametrice este următoarea:
 În cazul scalelor nominale sau ordinale se folosesc întotdeauna statistici şi
metode neparametrice
 În cazul scalelor de interval sau de raport se folosesc în general statistici şi
metode parametrice
 În cazul în care metodele parametrice pornesc de la ipoteza că datele sunt
distribuite normal, atunci trebuie verificată normalitatea datelor În cazul în care
aceasta nu este verificată se folosesc metodele neparametrice.
 Exemplu: poate fi verificat dacă Skewness este aproximativ 1 şi Kurtosis este
aproximativ 1
Noţiuni şi notaţii
preliminare
Noţiuni şi notaţii preliminare
Variabile statistice (I)

1. după modul de exprimare:


 variabile calitative: exprimate prin cuvinte, cu care se precizează
apartenenţa la o categorie sau o modalitate a unei mulţimi finite de
observaţii
 variabile cantitative (numerice): exprimate prin numere, mulţimea
observaţiilor putând fi infinită

2. după cardinalul mulţimii  a observaţiilor:


 variabile binare (alternative): 10, da, nu etc
 variabile cu un număr finit de valori
 variabile cu un număr infinit de valori
Noţiuni şi notaţii preliminare
Variabile statistice (III)
3. după conţinutul variabilei:
 variabile de timp (cronologice)
 variabile de spaţiu:
 exprimate prin funcţii de spaţiu
 variabile atributive:
 sunt definite printr-o funcţie atributivă

4. după structura algebrică S cu care este înzestrată mulţimea


observaţiilor şi tipul de scală de măsurare:
 variabile calitative nominale:
 doar relaţia de identitate/nonidentitate (=/) ce asigură diferenţierea reciprocă a
elementelor
 variabile calitative ordinale:
 mulţime finită de modalităţi înzestrată cu o structură de ordine totală ()
 variabile cantitative măsurabile pe scală de interval
 mulţime finită sau infinită de modalităţi înzestrată cu o structură de ordine totală
 variabile cantitative măsurabile pe scală de raport
 structură de corp ordonat şi scală de raport
ANALIZA UNIVARIATĂ
ANALIZA UNIVARIATĂ
 examinează distribuţia variantelor de răspuns pentru o variabilă
observată
 permite descrierea eşantionului
 probleme abordate:
 sintetizarea datelor: gruparea datelor în clase omogene
 reprezentarea grafică: sintetizarea grafică a variabilei observate
 analiza tendinţei centrale: dacă ar trebui să rezumăm seria de observaţii printr-
o singură valoare, cea mai “tipică”, cea mai reprezentativă
 analiza variabilităţii: care e dispersia observaţiilor în jurul acestei tendinţe
centrale
 inferenţa: compararea valorilor observate cu una sau mai multe valori
predeterminate
ANALIZA UNIVARIATĂ
VARIABILE NOMINALE

 Sintetizarea datelor:
 sunt determinate frecvenţele de apariţie în datele observate ale fiecărei variante posibile a variabilei
studiate
 Reprezentarea grafică:
 se utilizează diagrama prin coloane pentru reprezentarea frecvenţelor absolute
 se utilizează diagrama de structură pentru reprezentarea grafică a structurii populaţiei observate

Care sunt preferinţele dvs cu


privire la site-urile de job-uri? 80 72

70 www.ej
60 altele
Frecv. % 12% obs.ro
60 48%
www.ejobs.ro 72 48 50

www.bestjobs.ro 60 40 40

altele 18 12 30
18
www.be
stjobs.r
o
total 150 100 20
40%
10

0
www.ejobs.ro www.bestjobs.ro altele
ANALIZA UNIVARIATĂ
VARIABILE NOMINALE

 Tendinţa centrală
 Modul: varianta cea mai des întâlnită (cu frecvenţa maximă)
 Variabilitatea
 Procentul numărului de observaţii corespunzător fiecărei modalităţi calculat sub diverse
baze
ANALIZA UNIVARIATĂ
VARIABILE ORDINALE

 Sintetizarea datelor:
 sunt determinate frecvenţele de apariţie în datele observate ale fiecărei variante posibile a
variabilei studiate
 Reprezentarea grafică:
 se utilizează diagrama prin coloane pentru reprezentarea frecvenţelor absolute
 se utilizează diagrama de structură pentru reprezentarea structurii populaţiei observate
 Tendinţa centrală
 Mediana: valoarea ce împarte populaţia studiată în două părţi egale
 când seria are un număr impar de valori: valoarea (n+1)/2 este mediana
 când seria are un număr par de valori: media valorilor n/2 şi n/2+1 este mediana

Care este părerea dvs cu privire la site-ul www.ejobs.ro?


Frecv. % n/2=75
Proasă 34 22,7
Neutră 22 14,6 Mediana = “Bună”
Bună 52 34,7
“Mai mult de 50% din populaţie au o părere
Foarte bună 42 28 cel puţin bună despre site.
ANALIZA UNIVARIATĂ
VARIABILE ORDINALE

 Variabilitatea:
 Fractilele: împărţirea populaţiei în categorii de efective egale (cele mai frecvente sunt
curtilele şi decilele)

Care este părerea dvs cu privire la site-ul www.ejobs.ro?


Frecv. % n/4=37,5 3n/4=112,5
Proasă 34 22,7
Neutră 22 14,6 Q1 = “Neutră” Q3 = “Foarte bună”
Bună 52 34,7
Sub 25% din populaţie are o părere proastă
Foarte bună 42 28 despre site şi peste 25% au o părere foarte bună.
ANALIZA UNIVARIATĂ
VARIABILE CANTITATIVE

 Sintetizarea datelor:
 sunt grupate datele pe intervale de variaţie
 mărimea intervalului de variaţie:
x  x min
h  max
r

 Reprezentarea grafică:
 se utilizează histograma pentru reprezentarea distribuţiei variabilei
 se utilizează diagrama de structură pentru reprezentarea structurii populaţiei
observate
ANALIZA UNIVARIATĂ
VARIABILE CANTITATIVE

Intervale Frecvenţe
0-20 5
Câte ore aţi navigat pe Intervale Frecvenţe
20-40 10
10-35 10
internet luna trecută? 40-60 9
35-60 10
60-80 8
40 70 40 30 60-85 12
80-100 5
80 130 90 80 85-110 5
100-120 2
20 60 30 40 110-135 3
120-140 1
100 20 20 50 12

70 70 50 30 10

60 90 70 110
8

40 10 70 90
6

30 50 80 60
4
30 40 60 20
50 120 100 50
2

0
20.0 40.0 60.0 80.0 100.0 120.0 140.0

NR.ORE
ANALIZA UNIVARIATĂ
VARIABILE CANTITATIVE
 Tendinţa centrală:
 Media: valoarea medie a valorilor observate
 Valoarea medie este mai sensibilă ca alţi indicatori ai tendinţei centrale (modulul sau
mediana) de prezenţa “observaţiilor extreme”

x
 xi
n
 Media nu se situează în centrul eşantionului decât dacă distribuţia este simetrică
 În cazul unei disimetrii puternice modulul poate fi mai reprezentativ pentru ansamblul
eşantionului
 În cazul distribuţiilor multimodale (întâlnite în cazul studiilor de opinie când populaţia
este polarizată în jurul a 2 extreme) puţine valori sunt apropiate de medie
 Modulul: valoarea cea mai des întâlnită în serie
 Mediana: valoarea care împarte seria în două
ANALIZA UNIVARIATĂ
VARIABILE CANTITATIVE
 Variabilitatea:
 Amplitudinea: A=x n max-xmin
 xi  x 2
 Dispersia: s x2  i 1
n 1
 sx
2
 Abaterea medie pătratică: s x
 0,1
sx
 Coeficientul de variaţie: cv  (cv<30% - date omogene)
x
 Compararea distribuţiei observate cu distribuţia normală
n

 x  x 
3
i

 Simetria (Skewness): CAS  i 1

n  s x 
3

 Valorile în jurul mediei: Skewness = 0


 Valorile concentrate în jurul valorilor cele mai slabe: Skewness > 0
 Valorile concentrate în jurul valorilor cele mai mari: Skewness < 0

 Concentrarea (Kurtosis):

 Concentrarea observaţiilor – curbă ascuţită (leptocurtica) : Kurtosis > 0


 Slaba concentrare a observaţiilor – curbă aplatizată (platicurtica) : Kurtosis < 0
ANALIZA UNIVARIATĂ
VARIABILE CANTITATIVE

Timpul mediu de navigare pe internet


a fost de 55,75 ore în luna anterioară.

cv=29,71/58,75=50,57%  date neomogene


Valorile sunt concentrate în jurul timpilor
mici de navigare pe internet

Există o slabă concentrare a observaţiilor,


curba find ascuţită

S-ar putea să vă placă și