Sunteți pe pagina 1din 51

CURSUL 1

PRELUCRAREA DATELOR
EXPERIMENTALE
SOCIOMETRIE PRACTICĂ

Motto:
”Tot ceea ce există în realitate, există într-o anumită cantitate.
Pentru a cunoaște realitatea, trebuie să o abordăm în egală
măsură sub aspect cantitativ și calitativ”
Edward Lee Thorndike, 1874-1949
NOŢIUNI INTRODUCTIVE

1. Definirea statisticii
2. Concepte de bază
3. Gruparea datelor
DEFINIREA STATISTICII

Statistica este ştiinţa colectării, clasificării, prezentării, interpretării datelor numerice


şi folosirii acestora pentru formularea concluziilor, a deciziilor şi a funcţiilor de
analiză, comunicare, conducere, comandă sau control.
Statistica descriptivă se ocupă cu colectarea, clasificarea, stocarea şi prezentarea
datelor, utilizând indicatori cantitativi.
Statistica inferenţială (inferential statistics) se ocupă cu interpretarea datelor oferite
de statistica descriptivă şi cu folosirea acestora pentru a formula concluzii şi
decizii.
Relaţia dintre statistică şi probabilităţi
Fie două urne: una probabilistă şi una statistică.
În cazul urnei probabiliste ştim că ea conţine 5 bile albe, 5 bile negre şi 5 bile roşii;
problema este să calculăm şansa ca extrăgând o bilă, aceasta să fie albă.
În cazul urnei statistice nu cunoaştem care este combinaţia de bile din urnă.
Extragem un eşantion din urnă şi pe baza analizei eşantionului extrapolăm
rezultatele la nivelul urnei.
Probabilitatea pune întrebarea şansei ca ceva (un eveniment) să se întâmple atunci
când se cunosc posibilităţile (se cunoaşte populaţia).
Statistica ne cere să extragem un eşantion, apoi să facem predicţii asupra
populaţiei pe baza informaţiei furnizate de eşantion.
SCURT ISTORIC
John Graunt (1620 - 1674) publică, în1662, articolul “Natural and Political Observations
on the Bills of Mortality”, primele tabele de viaţă şi de moarte, începutul
demografiei;
William Petty (1623-1687) introduce conceptul de „aritmetică politică” definit ca studiul
fenomenelor social-economice „prin intermediul cifrelor, al măsurilor şi greutăţilor”;
Gottfried Achenwall (1719-1772) utilizează pentru prima dată termenul de statistică,
întemeind şcoala descriptivă germană de statistică;
Karl Friedrich Gauss (1777-1855) astronom, matematician şi fizician german,
adezvoltat teoria numerelor şi funcţiile de distribuţiile;
Ecuaţia curbei normale a fost publicată, în 1733, de către Abraham de Moivre iar
lucrările acestuia au fost dezvoltate ulterior de Pierre Simon de Laplace şi Karl
Friedrich Gauss;
Gauss
Frédéric Le Play (1806-1870) introduce, în analiza sociologică, indicatori cantitativi de
analiză;
Adolphe Quételet (1796-1874) aplică teoria probabilităţilor la studiul fenomenelor
sociale, introducând conceptul de „statistică morală”;
Începutul secolului al XX-lea marchează începutul statisticii moderne, odată cu apariţia
lucrărilor lui Karl Pearson (creatorul statisticii inferenţiale sau inductive) şi Ronald
Aylmer Fisher (a elaborat teoria formulării concluziilor din datele observate). Alte
nume de referinţă în fundamentarea statisticii sociale sunt: C.E. Spearman, G.U.
Yule, M.G. Kendall, A.A. Markov.
Markov
STATISTICA ÎN PSIHOLOGIE. PSIHOMETRIE

1. Christian von . Wolf,


Wolf în 1732 defineşte un domeniu al aplicaţiilor
matematice în psihologie, pe care l-a numit (“psihometrie”);
psihometrie
2. Francis Galton (1882-1911) este iniţiatorul şcolii psihometrice engleze;
3. Karl Pearson (1857-1936), antropolog şi psiholog, introduce analiza de
corelaţie;
4. Charles E. Spearman (1863-1945), student al lui Wundt, iniţiază
analiza bifactorială a inteligenţei;
5. E.H. Weber (1795-1878) şi G.T. Fechner (1801-1887) aplică statistica
în psihofiziologie; psihofiziologia studiază relaţia dintre stimul şi
răspuns;
6. Raymond B. Cattel (1905-1988) fundamentează teoria factorială a
personalităţii;
7. Ronald A. Fisher (1890-1962), geniu al statisticii, introduce analiza de
varianţă.
În România: Florian Ştefănescu Goangă (1881-1958), Nicolae
Mărgineanu (1905-1980), Gheorghe Zapan (1897-1976) entropie
taxiologică, Octav Onicescu, statistica informaţională.
STATISTICA ŞI CALCULATORUL

Statistica studiază aspectele cantitative ale fenomenelor


de masă. Între fenomenele de masă există două tipuri de
relaţii:
- Relaţii de tip determinist sau funcţional în cadrul
cărora, pe măsură ce se produce cauza, se manifestă şi
efectul;
- Relaţii de tip stochastic (statistic) care se manifestă
diferit de la o unitate la alta, în cadrul cărora legea se
manifestă ca tendinţă, ea putând fi cunoscută şi verificată
doar la nivelul ansamblului.
Cele mai cunoscute softuri statistice sunt: Excel, Access,
Minitab, Biomed (program biomedical), SAS (Sistem de
analiză statistică), IBM Scientific Subroutine Packages şi
SPSS (pachet statistic pentru ştiinţele sociale).
COMPONENTELE STATISTICII

Sub raport metodologic, statistica include un sistem de metode, în special cantitative,


fundamentate epistemologic.
Statistica s-a născut din necesităţi practice, evoluţia sa către ştiinţă realizându-se în
următoarele etape:
a) Statistica descriptivă;
b) Statistica analitică:
analitică aritmetică; probabilistică; informaţională; sistemică.
În prezent, statistica dispune de metode specifice şi de o teorie generală.
Cultura statistică devine tot mai mult o componentă a culturii generale, iar gândirea
statistică un instrument de analiză şi interpretare a fenomenelor.
Apărută din nevoia de a surprinde cantitativ fenomenele social-economice, statistica şi-a
extins aria de investigaţie şi în domeniul social: statistica matematică; statistica
biologică; statistica economică; statistica socială; statistica psihologică-psihometrie;
statistica juridică-jurimetrie.
Sub raport metodologic,
metodologic statistica are două componente:
1. statistica descriptivă reprezintă componenta clasică a statisticii, care are ca obiect
de studiu descrierea statistică; ea descrie datele aşa cum sunt, numeric sau grafic;
2. statistica inductivă sau inferenţială analizează datele experimentale şi susţine
concluzii (inferenţe) cu privire la o populaţie, pe baza datelor unui eşantion extras din
populaţie. Este parametrică şi neparametrică.
Din perspectivă psihologică,
psihologică statistica se clasifică în trei categorii: statistica descriptivă;
statistica matematică; statistica psihologică.
DEFINIŢII, CONCEPTE ŞI NOŢIUNI

Populaţie
1. Colectivitate statistică – populaţie, un grup de
persoane, obiecte, evenimente, caracteristici, ce
reprezintă subiectul investigaţiei statistice. Are
caracter obiectiv, finit, delimitată după conţinut, Eşantion
spaţiu şi timp; are caracter dinamic sau static;
2. Eşantion este o submulţime a unei populaţii;
3. Variabilă de răspuns (simplu variabilă) este o Selecţie-eşantion, volumul
caracteristică (de obicei numerică) ce prezintă selecţiei e nr.de rezultate
interes în cazul fiecărui element al populaţiei Oameni-sondaj, volumul
studiate; sondajului nr.de subiecţi

4. Data este "valoarea" unei variabile de răspuns în cazul unui element al populaţiei
sau eşantionului;
5. Valoarea unei variabile de răspuns în cazul unei populaţii sau a unui eşantion
constituie un set de date;
6. O activitate planificată, în urma căreia se obţine un set de date, se numeşte
experiment sau sondaj;
7. Parametrul este o caracteristică numerică a unei populaţii
8. O statistică este o caracteristică numerică a unui eşantion
DEFINIŢII, CONCEPTE ŞI NOŢIUNI

9. Unitate statistică - element constitutiv al colectivităţii;


10. Caracteristică statistică - variabilă statistică - variabilă
aleatoare, criteriu pe baza căruia sunt caracterizate unităţile
statistice, reprezentând însuşirile, trăsăturile sau atributele
acestora (note, vârstă, sex, culoarea ochilor, înălţime, etc)
11. Frecvenţă absolută: numărul de unităţi la care se
înregistrează aceeaşi variantă (exemplu: 30 de studenţi au
obţinut nota 7);
12. Frecvenţa relativă – pondere: cât reprezintă o anumită
frecvenţă absolută din totalul frecvenţelor (exemplu, din 200
de studenţi, 40 au obţinut nota 9, reprezentând 20%);
13. Gruparea: Alegerea numărului de grupe depinde de gradul
de variaţie a fiecărei caracteristici, corelat cu scopul grupării:
- Gruparea evidenţiază tipurile calitative;
- Gruparea evidenţiază sistematizarea datelor.
EXEMPLIFICĂRI CONCEPTE

1.Colectivitate statică: un stoc existent la un moment dat. Exemple:


- Populaţia României la 2 aprilie 2015;
- Stocul de produse al diviziei de automatizări din compania Siemens, la
02.04.2015;
- Numărul de pacienţi ai cabinetului X, la data de 02.04.2015;
- Repartiţia pe divizii a angajaţilor la data de 02.04.2015;

2. Colectivitate dinamică: un proces, o evolutie pe o perioadă de timp.


Exemple:
- Cheltuielile de consum ale populaţiei României, în anul 2014, şi
repartiţia lor pe luni;
- Veniturile cabinetului X, în perioada 2010-2014;
- Evoluţia numărului de angajaţi ai companiei Siemens, pe divizii şi
localităţi, în perioada 2005-2015;
- Evoluţia numărului de studenţi de la Universitatea Titu Maiorescu, pe
facultăţi, în perioada 2000-2015;
2. UNITATEA STATISTICĂ
Reprezintă elementul de bază al populaţiei investigate.
A. simplă: o persoană, obiect, fenomen;
B. complexă: un grup de unităţi simple (subansamblu
independent)  familie, echipă, companie;
Datele sunt înregistrate pentru fiecare unitate statistică.
O unitate statistică formează o Bază de date iar caracteristicile
formează structura bazei de date (BD);
Structura BD reprezintă totalitatea atributelor asociate unei
înregistrări.
3. CARACTERISTICA STATISTICĂ, VARIABILA

Reprezintă o proprietate, un atribut al unităţii statistice. Exemple:


Vârsta, cifra de afaceri, preţul unui bun, culoarea ochilor,
înălţimea, răspunsul la o întrebare din chestionar, sexul,
starea civilă, profesia, locul naşterii, domiciliul, etc.
Variază de la o unitate statistică la alta;
• Variante - mărimi distincte ale unei variabile într-o colectivitate;
• Frecvenţa - numărul unităţilor statistice cu aceeaşi variantă
(valoare a caracteristicii)
Totalitatea proprietăţilor formează structura B.D;
caracteristica reprezintă totalitatea atributelor ce
caracterizează o înregistrare a bazei de date.
Pot fi de tip numeric, alfanumeric, imagine, sunet, dată
calendaristică, logică, etc
3. TIPURI DE VARIABILE

1. Variabilă cronologică, de tip dată calendaristică;


2. Variabilă teritorială, spaţiu, regiune, ţară, judeţ, localitate;
3. Variabilă atributivă:
3.1. Calitativă, exprimată în cuvinte - profesia, poziţia faţă
de o situaţie, aprcieri, culoare;
3.1.1.Alternativă (binară)= două forme de
manifestare (urban-rural, admis-respins, on-off,
adevărat-fals, etc);
3.1.2.Nealternativă
3.2. Cantitativă, numerică
3.2.1.Discretă, se obţine prin numărare; valori întregi
(nr. copii pe familie, nr. de falimente/an, rangul,
înălţimea, nr. pacienţi);
3.2.2.Continuă, se obţine prin măsurare; utilizată în
tehnică.
MĂSURAREA ÎN PSIHOLOGIE

Măsurarea în psihologie este operaţia prin care se atribuie numere variabilelor


discrete sau continue, obţinute în timpul evaluării;
Caracteristica ce reprezintă un obiectiv al operaţiei de măsurare este
obiectivitatea, ceea ce presupune independenţa rezultatelor măsurătoeii de
persoana care realizează măsurătoarea preum şi izomorfism între faptele
studiate şi numerele asociate acestor fapte;
Măsurarea în psihologie este:
-directă: vârstă, greutate, înălţime, culoarea ochilor; timp de răspuns;
-indirectă:temperatura, QI; starea de atenţie sau contemplare, de relaxare
sau stres, nivelul empatiei, capacitate cognitivă;
Măsurarea psihologică, în sens larg, de atribuirea de numere rezultatelor
obţinute, este definită prin tipurile de scale utilizate ce caracterizează patru
niveluri ale măsurării:
- Scale nominale sau calitatative - clasifică sau repartizează datele după
nume sau categorii disjuncte – Nivelul nominal;
- Scale ordinale, valori simple ordonate, relaţii de ordine totală – Nivelul
ordinal;
- Scale de interval – Nivelul de interval;
- Scale raport.
GRUPAREA STATISTICĂ A DATELOR

Este operaţia de separare a unităţilor colectivităţii în


subansambluri omogene, după o caracteristică de
grupare:
-Variabile calitative  clasificate pe variante
-Variabile cantitative
 grupate pe variante (când sunt puţine valori distincte)
 grupate pe intervale de variaţie egale (A moderat, variaţie
uniformă)
 grupate pe intervale de variaţie neegale (A mare, variaţie
neuniformă).
Amplitudinea variaţiei:
A= Xmax – Xmin
GRUPARE PE INTERVALE EGALE DE VARIAŢIE

Amplitudinea variaţiei: A=Xmax-Xmin;


h=A/k, pentru funcţii continue, unde k=Nr.grupe;
h=(A+1)/k, pentru funcţii discrete, unde k=Nr.grupe.
k=Nr.grupe
1. Nr. de grupe, k:
a. Ales după mărimea colectivităţii, scopul analizei; în
general: 5-20 grupe;
b. Calculat cu formula lui Sturges: k=1+3.322 lg(n),
unde: n = volumul colectivităţii, nr.de rezultate.
2.Mărimea unui interval de grupare:
h = A/k,
A/k funcţii continui, sau h=(A+1)/k,A+1)/k funcţii discrete.
3.Definirea intervalelor (pornind de la Xmin şi adunând repetat h
până se ajunge la Xmax):
xmin - xmin+h ; xmin+h - xmin+2h ; xmin+2h – xmin+3h , etc.
4.Numărul unităţilor care aparţin fiecărui interval se numesc
frecvenţe absolute.
Gruparea angajaţilor companiei Siemens, după vârstă:
Vârsta: 22, 25, 29, 30, 30, 31, 32, 34, 45, 61.

1.Amplitudinea variaţiei Grupe după Număr de


A=61-22=39 vârstă* persoane
2.Nr. grupe ales: k=4 (ani) (frecvenţă
absolută)
3.Mărimea intervalului de
grupare [22-32) 16
h=A/k=9.75≈10 [32-42) 32
[42-52) 41
4.Intervalele de variaţie
[52-61] 11
(col.1) şi frecvenţele
absolute (col.2) Total 100
*Limita inferioară inclusă în interval
Gruparea pe intervale neegale de variaţie:
când A este mare şi variaţia este neuniformă.

Ex. Companii de servicii pe clase de mărime, după nr.de


salariaţi, în 2014:
Clasa de mărime Nr de firme
(persoane)
0-9 24799
10-49 4211
50-249 1194
250 şi peste 168
Total 30372
Sursa: Anuarul statistic al României, 2014
PREZENTAREA DATELOR
1.SERII STATISTICE
2.TABELE
3.GRAFICE
1. SERII STATISTICE
reprezintă şiruri de date, ordonate, rezultate din grupare

1.1. Serii cronologice (de timp) : prezintă valorile unei


caracteristici în unităţi de timp succesive.
Exemplu. Vânzările lunare de automate programabile, în
2014
Luna Mar Apr Mai Jun Jul Aug Sept ...

Producţia (mii Euro) 35 51 60 59 62 63 63 ...

1.2.Serii teritoriale: prezintă variaţia în spaţiu a


valorilor unei caracteristici statistice.
Exemplu. Vânzarea automatelor programabile pe regiuni, în 2014
Regiunea Nord Sud Est Vest Total
Nr. automobile 860 750 300 90 2000
1.3.Serii (distribuţii) de frecvenţe
- rezultă din gruparea datelor în funcţie de o variabilă:
-cantitativă (ex.distribuţia salariaţilor după venit) sau
-calitativă (ex. distribuţia salariaţilor după profesie).
- sunt formate din două şiruri corelate:
1. variantele/ intervalele de variaţie
2. frecvenţele (absolute/relative).
• Frecvenţele absolute ni = numărul de observaţii incluse
într-un interval de variaţie.
• Frecvenţele relative ni* = ponderea frecvenţelor
absolute corespunzătoare grupelor, în total (în suma
tuturor frecvenţelor).

* ni * ni
n  n   100
 ni  ni
i i%
Distribuţii de frecvenţe absolute şi relative

Exemplu: distribuţia angajaţilor după salariu


Salariu 765- 810- 856- 901- 946-
Total
(EUR) 809 855 900 945 990
Număr de
angajaţi (ni) 8 14 8 6 4 40

Ponderea
angajaţilor 0,2 0,350 0,2 0,15 0,1 1,00
(n*i)
Ponderea
angajaţilor 20 35,0 20 15 10 100
(n*i%)
2.TABELE
Toate seriile statice sunt prezentate în tabele.

Elemente:
titlul general, titlurile interne, unităţile de măsură a
datelor, sursa datelor, note explicative.

Tipuri:
– Tabele simple – pentru date grupate după o
singură variabilă
– Tabele bidimensionale (cu dublă intrare) -
pentru date grupate după două variabile simultan.
Distribuţia angajaţilor după vechimea în muncă şi salariu

Vechimea Salariu (EUR) Total


în muncă după
720- 765- 810- 855- 900- 945-
(ani) vechime
765 810 855 900 945 990

2-8 4 2 - - - - 6
8-14 - 2 3 - - 5
14-20 - 3 5 - - - 8
20-26 - - 5 5 4 - 14
26-32 - - 1 1 1 1 4
32-38 - - - 1 - 2 3
Total
după 4 7 14 7 5 3 40
salariu
3.GRAFICE
• Evidenţiază, într-o formă sugestivă
distribuţia valorilor, tendiţele de evoluţie,
legăturile dintre variabile sau structura
colectivităţii.
• Elemente:
• titlul, coordonatele (X şi Y), scara de
reprezentare, legenda, sursa datelor,
note explicative.
• Fiecare punct al graficului este definit în
funcţie de coordonatele sale.
3.1.Pictograma foloseşte simboluri pentru a reprezenta
informaţia statistică.
• Variante: a) simboluri multiplicate
b) simboluri proportionale
• sugestive, uşor de înţeles, dar cu nivel mai redus de
precizie

a) Pictogramă cu simboluri multiplicate


b) pictogramă cu simboluri proporţionale
3.2. Grafice prin coloane = valorile variabilei sunt
reprezentate grafic prin coloane cu baze egale şi înălţimea
proporţională cu mărimea variabilei.

Coloane simple – una pentru fiecare grupă


Coloane multiple (grupate) –compară variabile diferite
pentru aceleaşi grupe.
Coloane de structură - compară structura grupelor
3.3.Benzi •Simple
•Grupate
•De structură

Ex.Distribuţia elevilor unei şcoli după desertul preferat


(benzi grupate)
Piramida vârstelor
3.4.Cercuri de structură
• sectoarele cercului reprezintă proporţiile grupelor
colectivităţii
• Etape:
1.Se calculează frecvenţa relativă a fiecărei
grupe.
2.Se înmulţesc frecvenţele cu 360 pentru a
obţine dimensiunile sectoarelor în grade.
3.Se delimitează sectoarele cercului şi se
colorează/haşurează diferit.
Student response to the poll
'Should the college adopt student uniforms?'
Cercurile proporţionale arată simultan dimensiunea şi structura.
3.5. Cronograma –> pentru serii cronologice
- Valorile variabilei sunt măsurate pe OY, iar pe OX se trec
unităţile de timp
- arată variaţia în timp şi tendinţa de evoluţie, dar imaginea
poate fi distorsionată de alegerea scării de reprezentare.

Ex. Evoluţia costurilor de producţie


(aceleaşi date, scări de reprezentare diferite)

originea diferită de zero


3.6.Corelograma (scatterplot)
• identifică legăturile dintre variabile: variabila independentă pe axa
OX, variabila dependentă pe axa OY
• originea graficului este întotdeauna zero (0,0).
• fiecare unitate statistică e reprezentată printr-un punct; punctele
nu sunt unite
Cartogramă:

PIB/locuitor
in 2004 (% din
media UE 27)
pe regiuni

Source: Eurostat Regional Yearbook


3.7. Grafice pentru distribuţii de frecvenţe
Histograma
- fiecare grupă e reprezentată printr-o coloană cu
suprafaţa proporţională cu frecvenţa absolută a
grupei respective
- atunci când caracteristica reprezentată grafic are
variaţie continuă, coloanele sunt lipite
- când variaţia e discretă, există spaţii între coloane
Ex. Distributia muncitorilor după producţia zilnică
(histogramă)
nr. muncitori

producţie (buc)
Poligonul frecvenţelor se obţine unind vârfurile coloanelor
histogramei.
Ex. Distributia muncitorilor după producţia zilnică (histogramă şi
poligonul frecvenţelor)
nr. muncitori

producţie (buc)
Curbele frecvenţelor cumulate (crescător/
descrescător)

• Frecvenţa cumulată crescător a unei grupe este


numărul de unităţi statistice cu valori sub limita
superioară a intervalului de variaţie.
-> pentru reprezentarea grafică se
folosesc limitele superioare ale intervalelor de
grupare.

• Frecvenţa cumulată descrescător a unei grupe este


numărul de unităţi statistice cu valori peste limita
inferioară a intervalului de variaţie.
-> pentru reprezentarea grafică se
folosesc limitele inferioare ale intervalelor de
grupare
Productia Număr Frecvenţe cumulate
(buc) de Crescător Descrescător
angajaţi
(ni)

0 1 3 4

sub 120 10 10 200


120-140 18 28 190
140-160 23 51 172
160-180 38 89 149
180-200 51 140 111
200-220 40 180 60
220-240 15 195 20
240 şi peste 5 200 5
Ex. Curbele frecvenţelor cumulate

225
200
175
150
nr. muncitori

125
100
75
50
25
0
100 120 140 160 180 200 220 240 260
producţia (buc.)
Selectarea tipului de grafic
– cerc sau coloană de structură pentru descrierea
componentelor colectivităţii (structura)
– coloane/ benzi pentru compararea unor variabile
diferite pentru aceleaşi grupe, pt serii de timp şi
teritoriale
– cronograma pentru serii de timp
– corelogramă pentru evidenţierea legăturii dintre
două variabile
– histogramă, poligonul frecvenţelor şi curbele
frecvenţelor cumulate pentru distribuţii de
frecvenţe
Erori de reprezentare grafică

Prea multe
variabile
Variatie nesemnificativă:

Fig. Numărul adulţilor tineri care fac drumeţii săptămânale,


după vârstă, 1996 - 2002
Incorect: Corect:

lipsă

origine incorectă a graficului


Valori absolute, nedeflaţionate (fig.1) în locul mărimilor relative (fig.2

1.Cheltuieli guvernamentale, 2.Ponderea cheltuielilor guvernamentale


1930-1980 în PIB, 1930-1980

S-ar putea să vă placă și