Sunteți pe pagina 1din 85

UNIVERSITATEA TITU MAIORESCU

FACULTATEA DE INFORMATICĂ

MASTER ȘTIINȚA DATELOR ȘI INTELIGENȚĂ ARTIFICIALĂ

STATISTICA DESCRIPTIVĂ ȘI INFERENȚIALĂ

Autor:
Prof.univ.dr.ing.Titi PARASCHIV

Bucureşti
Ianuarie 2023 1
CONSIDERAȚII PRIVIND STATISTICA
Bertrand Russell definește matematica drept “Știința în care nu se știe despre ce se
vorbește și în care nu se știe dacă ceea ce se spune este adevărat sau nu”.
1. Nu se știe despre ce se vorbește: Este adevărat, pentru că este o știință abstractă. Nu
vorbim la matematică despre relații concrete, ci doar despre relații între numere.
2. Nu se știe dacă ceea ce se spune este adevărat sau nu: Este adevărat, pentru că
matematica nu caută adevărul ca filosofia ci stabilește relații care sunt corecte sau nu.

m1  m 2 Relația este corectă în fizica clasică, dar nu este corectă în fizica relativistă.
F = K Algebra stabilește relații cantitative ale fenomenelor statice, ea nu măsoară
r2 evoluția lor în timp. Pentru acest lucru aU apărut noi ramuri ale matematicii:
calculul diferențial, calculul integral.
dS dV d 2S U  U  U 
V= , _a = = 2 GradU = U = i+ j+ k
dt dt dt x y z
Operația inversă derivării este integrala a cărei valoare este aria de sub curbă.
Statistica măsoară, fenomene în care cauzalitatea nu poate fi reliefată. S-a aplicat în:
- Studiul jocurilor de noroc;
- Termodinamică la studiul mișcării stohastice a moleculelor;
- Fizica cuantică care a impus apariția mecanicii statistice.
În fizica cuantică, principiul incertitudinii (Werner Heisenberg, 1927 la Göttinger, cu Max Born)
spune că viteza și poziția electronului se potrivesc într-un mod, limitat de toleranța cuantei lui
Planck, de aceea se numește și principiul toleranței. Principiul incertitudinii ne spune că întreaga
cunoaștere este limitată, adevăr confirmat și de teorema de incompletitudine a lui Gödel.
Creierul are nevoie de entropie, adică de incertitudine, pentru că el recreează realitatea din felii
incerte.
CONSIDERAȚII PRIVIND STATISTICA
- Statistica mobilității: Tramvaie, număr de călători. Facem legătura între numărul
călătorilor și frecvența garniturilor și spunem că putem realiza o distribuție inteligentă;
- Statistica producției;
- Statistica pieței care face o relație stocastică între cerere și ofertă.
Statistica ne dă o cunoaștere cantitativă a fenomenelor sociale. Conceptul de fericire
este legat de venit, dar nu putem afirma că cel care are un venit lunar de 6000 de
Euro este de 3 ori mai fericit decât cel care are 2.000 Euro.
Ce face ca statistica să fie folosită în sociologie, economie, psihologie sau
lingvistică?
Statistica nu mai este o știință a calității, ci și o știință a structurii.
Matematica modernă nu studiază cantități independente, ci structuri, structura de
grup, inel, corp, lattice, spațiu de probabilitate, spațiu topologic sau varietate
diferențială. Adunarea, scăderea, înmulțirea și împărțirea caracterizează numerele
prin proprietățile lor ca exprimând cantități. Ordinea numerelor, însă nu este cantitativă
ci structurală de aceea, scalele, în statistică, sunt numerice sau nenumerice. Statistica
este și un instrument de a observa și cuantifica și caracteristici necantitative, de aceea
este importantă nu numai în analiza cantitativă, ci și în luarea deciziei.
O națiune ce se dorește însemnată este cea care realizează un spațiu ospitalier
pentru imaginație și toleranță, adică incertitudine creatoare. Trădarea spiritului uman
înseamnă împietrirea minții și transformarea națiunii într-un regiment de fantome,
ascultătoare sau supuse la cazne. Creierul are nevoie de entropie, de un spațiu al
libertății adică de incertitudine, pentru că el recrează realitatea din felii incerte..
CONSIDERAȚII PRIVIND STATISTICA
Karl Popper, care este unul din filozofii care și gândește, propune 2
experimente imaginare:
 Experimentul 1: Toate fabricile, mașinile și uneltele din lume sunt
distruse dar ne rămân cărțile și bibliotecile; după multă muncă și bătaie de cap,
totul se poate reconstitui.
 Experimentul 2: Toate fabricile, mașinile, uneltele și cărțile din lume
sunt distruse împreună cu bibliotecile fizice și online. Omenirea ar trebui să-și
reia istoria de mii de ani, fără să o poată reconstitui. În cărțile de știință sunt
adunate rezultatele agrimensorilor egipteni, a contabililor babilonieni, cea a lui
Thales, Arhimede, Pitagora, Euclid, Leibnitz, Newton și Gauss și cea a tuturor
oamenilor de știință din ziua de azi.
În cărți sunt nu doar reușitele, ci și nereușitele: Ghicitorii, astrologii, alchimiștii,
numerologii, cititorii în stele au propus soluții neadevărate dar și munca lor a
condus la apariția astronomilor, chimiștilor, specialiștilor în teoria numerelor,
matematica economiei, adică cercetările operaționale.
Știința datelor se întemeiază o nouă paradigmă, așa cum a făcut mecanica,
termodinamica, automatizarea, fizica atomică sau mecanica cuantică. În Știința
Datelor ipoteza este corectă datele privind comportamentul obiectelor,
exploatarea lor corectă conduce la rezultate corecte, dar nu adevărate, pentru că
ele nu aduc certitudine, ci sunt adevărate cu un grad de încredere. Statistica
este instrumentul cel mai puternic de cercetare a faptelor sociale.
DEFINIȚII ALE STATISTICII

Statistica este ştiinţa colectării, clasificării, prezentării,


interpretării datelor numerice şi folosirii acestora pentru formularea
deciziilor şi a funcţiilor de analiză, comunicare, conducere,
comandă sau control.
Statistica descriptivă se ocupă cu colectarea, clasificarea,
stocarea şi prezentarea datelor, utilizând indicatori cantitativi.
Statistica inferenţială se ocupă cu interpretarea datelor
oferite de statistica descriptivă şi cu folosirea acestora pentru a
generaliza rezultatele de la eșantion, la nivelul populației.
Relaţia dintre statistică şi probabilităţi
Probabilitatea pune întrebarea şansei ca ceva (un eveniment)
să se întâmple atunci când se cunosc posibilităţile (se cunoaşte
populaţia).
Statistica ne cere să extragem un eşantion, apoi să facem
predicţii asupra populaţiei, pe baza informaţiei furnizate de
eşantion.
John Graunt (1620 - 1674) publică, în1662, articolul “Natural and Political
Observations on the Bills of Mortality”, primele tabele de viaţă şi de moarte,
marchează începutul demografiei;
William Petty (1623-1687) introduce conceptul de „aritmetică politică” definit ca
studiul fenomenelor social-economice „prin intermediul cifrelor, al măsurilor
şi greutăţilor”;
Gottfried Achenwall (1719-1772) utilizează, pentru prima dată, termenul statistică,
întemeind şcoala descriptivă germană de statistică;
Karl Friedrich Gauss (1777-1855) astronom, matematician şi fizician german, a
dezvoltat teoria numerelor şi funcţiile de distribuţiile;
Ecuaţia curbei normale a fost publicată, în 1733, de către Abraham de Moivre iar
lucrările acestuia au fost dezvoltate ulterior de Pierre Simon Laplace şi Karl
Friedrich Gauss;
Frédéric Le Play (1806-1870) introduce, în analiza sociologică, indicatori cantitativi
de analiză;
Adolphe Quételet (1796-1874) aplică teoria probabilităţilor la studiul fenomenelor
sociale, introducând conceptul de „statistică morală” și omul mediu;
Începutul secolului al XX-lea marchează începutul statisticii moderne, odată cu
apariţia lucrărilor lui Karl Pearson (creatorul statisticii inferenţiale sau
inductive) şi Ronald Aylmer Fisher (a elaborat teoria formulării concluziilor
din datele observate). Alte nume de referinţă în fundamentarea statisticii
sociale sunt: C.E. Spearman, G.U. Yule, M.G. Kendall, A.A. Markov.
ȘTIINȚE METRICE, METRII

1. Christian von . Wolf, în 1732, defineşte un domeniu al aplicaţiilor


matematice în psihologie, pe care l-a numit (“psihometrie”);
2. Francis Galton (1882-1911) este iniţiatorul şcolii psihometrice engleze,
eugenist, antropolog;
3. Karl Pearson (1857-1936), antropolog şi statistician, introduce analiza de
corelaţie;
4. Charles E. Spearman (1863-1945), student al lui Wundt, iniţiază analiza
bifactorială a inteligenţei;
5. E.H. Weber (1795-1878) şi G.T. Fechner (1801-1887) aplică statistica în
psihofiziologie; psihofiziologia studiază relaţia dintre stimul şi răspuns;
6. Raymond B. Cattel (1905-1988) fundamentează teoria factorială a
personalităţii;
7. Ronald A. Fisher (1890-1962), geniu al statisticii, introduce analiza de
varianţă.
În România: Nicolae Mărgineanu (1905-1980), psihometria, Gheorghe
Zapan (1897-1976) entropie taxiologică, Octav Onicescu, statistica
informaţională, Nicholas Georgescu-Roegen, Gheorghe Mihoc, Mircea
Dragoș Biji, Dionisie Pop Marțian, George Ciucu.
STATISTICA ŞI INFORMATICA

Statistica studiază aspectele cantitative ale fenomenelor de


masă.
Între fenomenele de masă există următoarele tipuri de relaţii:

1. Relaţii de tip determinist sau funcţional în cadrul cărora,


pe măsură ce se produce cauza, se manifestă şi efectul;

2. Relaţii de tip stochastic (statistic) care se manifestă diferit


de la o unitate la alta, în cadrul cărora legea se manifestă
ca tendinţă, ea putând fi cunoscută şi verificată doar la
nivelul ansamblului.

Cele mai cunoscute softuri statistice sunt:


Excel, Access, Minitab, Biomed (program biomedical), SAS
(Sistem de analiză statistică), SSP, PSPP, R, SPSS.
Noi vom utiliza SPSS și R.
COMPONENTELE STATISTICII

În prezent, statistica dispune de metode specifice şi de o teorie


generală proprie.
Cultura statistică devine tot mai mult o componentă a culturii
generale, iar gândirea statistică - un instrument de analiză şi
interpretare a fenomenelor.
Apărută din nevoia de a surprinde cantitativ fenomenele social-
economice, statistica şi-a extins aria de investigaţie şi în domeniul
social: statistica matematică; statistica biologică; statistica economică;
statistica socială; statistica psihologică-psihometrie; statistica juridică-
jurimetrie, statistica în DS.
Sub raport metodologic, statistica are două componente:
1. statistica descriptivă - componenta clasică a statisticii, care are ca
obiect de studiu descrierea statistică; ea descrie datele aşa cum sunt,
numeric sau grafic;
2. statistica inductivă sau inferenţială analizează datele
experimentale şi susţine concluzii (inferenţe) cu privire la o populaţie, pe
baza datelor unui eşantion extras din populaţie.
Este parametrică şi neparametrică.
COMPONENTELE STATISTICII

STATISTICĂ DESCRIPTIVĂ STATISTICĂ DESCRIPTIVĂ Vs STATISTICĂ INFERENȚIALĂ


STATISTICĂ INFERENȚIALĂ

Cum pot Cum pot folosi


Poziția relativă Care este forma Cum arată demonstra o eșantionul pentru
Punctele curbei de răspândirea teorie privind a face predicții
a punctelor comune comportamentul
de date distribuție scorurilor datelor despre populație

POZIȚIE TENDINȚA VARIAȚIE TESTAREA


DISTRIBUȚIE IPOTEZELOR ESTIMARE
CUANTILE CENTRALĂ DISPERSIE
Mediană

Amplitudine

Testul Z
Varianță
Asimetria

Abatere standard

Intervale de încredere
Parametri
Testul T
Cuartile

Modul

Boltirea
Medie
Decile

Percentile

Range
Decile
DEFINIŢII, CONCEPTE ŞI NOŢIUNI
Populaţie

Selecţie-eşantion, volumul selecţiei e nr.de rezultate oameni sondaj;


Volumul sondajului este dat de numărul de respondenți; Eşantion

1.Colectivitate statistică – populaţie, un grup de persoane, obiecte,


evenimente, caracteristici, ce reprezintă subiectul investigaţiei statistice. Are
caracter obiectiv, finit, delimitată după conţinut, spaţiu şi timp; are caracter
dinamic sau static;
2. Eşantion este o submulţime a unei populaţii;
3. Variabilă de răspuns (simplu variabilă) este o caracteristică (de obicei
numerică) ce prezintă interes în cazul fiecărui element al populaţiei studiate;
4. Data este "valoarea" unei variabile de răspuns în cazul unui element al
populaţiei sau eşantionului;
5. Valoarea unei variabile de răspuns, în cazul unei populaţii sau a unui
eşantion, constituie un set de date;
6. O activitate planificată, în urma căreia se obţine un set de date, se
numeşte experiment sau sondaj;
7. Parametrul este o caracteristică numerică a unei populaţii;
8. O statistică este o caracteristică numerică a unui eşantion.
DEFINIŢII, CONCEPTE ŞI NOŢIUNI

9. Unitate statistică - element constitutiv al colectivităţii;


10. Caracteristică statistică - variabilă statistică - variabilă
aleatoare, criteriu pe baza căruia sunt caracterizate unităţile
statistice, reprezentând însuşirile, trăsăturile sau atributele
acestora (note, vârstă, gen, culoarea ochilor, înălţime, etc)
11. Frecvenţă absolută: numărul de unităţi la care se
înregistrează aceeaşi variantă (exemplu: 30 de studenţi au
obţinut nota 7);
12. Frecvenţa relativă – pondere: cât reprezintă o anumită
frecvenţă absolută din totalul frecvenţelor (exemplu, din 200 de
studenţi, 40 au obţinut nota 9, reprezentând 20%);
13. Gruparea: Alegerea numărului de grupe depinde de
gradul de variaţie a fiecărei caracteristici, corelat cu scopul
grupării:
- Gruparea evidenţiază tipurile calitative;
- Gruparea evidenţiază sistematizarea datelor.
UNITATEA STATISTICĂ

Reprezintă elementul de bază al populaţiei investigate.


A. simplă: o persoană, obiect, fenomen;
B. complexă: un grup de unităţi simple (subansamblu
independent) → familie, echipă, companie;
Datele sunt înregistrate pentru fiecare unitate statistică.
O unitate statistică formează o Bază de date iar
caracteristicile formează structura bazei de date (BD);
Structura BD reprezintă totalitatea atributelor asociate
unei înregistrări.
În studiile psihologice, unitatea statistică este dată de
respondenți iar caracteristicile sunt de două tipuri:
- de identificare – vârstă, gen, pregătire, ocupație;
- de investigare – răspunsurile la itemi.
3. CARACTERISTICA STATISTICĂ, VARIABILA

Reprezintă o proprietate, un atribut al unităţii statistice.


Exemple:
Vârsta, cifra de afaceri, preţul unui bun, culoarea ochilor,
înălţimea, răspunsul la o întrebare din chestionar, sexul, starea
civilă, profesia, locul naşterii, domiciliul, etc.
Variază de la o unitate statistică la alta;
• Variante - mărimi distincte ale unei variabile într-o colectivitate;
• Frecvenţa - numărul unităţilor statistice cu aceeaşi variantă
(valoare a caracteristicii)
Totalitatea proprietăţilor formează structura B.D;
Caracteristica reprezintă totalitatea atributelor asignate unei
înregistrări a bazei de date.
Caracteristicile pot fi de tip numeric, alfanumeric, imagine,
sunet, dată calendaristică, logică, etc
MĂSURAREA ÎN SOCIOȘTIINȚE

Măsurarea în psihologie este operaţia prin care se atribuie numere variabilelor


discrete sau continue, obţinute în timpul evaluării;
Obiectivitatea operaţiei de măsurare presupune independenţa rezultatelor
măsurătorii de persoana sau contextul în care realizează măsurătoarea
precum şi izomorfism între faptele studiate şi numerele asociate acestor
fapte;
Măsurarea în psihologie este:
-directă: vârstă, greutate, înălţime, culoarea ochilor; timp de răspuns;
-indirectă: temperatura, QI; starea de atenţie sau contemplare, de relaxare
sau stres, nivelul empatiei, capacitate cognitivă;
Măsurarea psihologică, în sens larg, de atribuirea de numere rezultatelor
obţinute, este definită prin tipurile de scale utilizate ce caracterizează patru
niveluri ale măsurării:
1. Scale nominale sau calitatative - clasifică sau repartizează datele
după nume sau categorii disjuncte – Nivelul nominal;
2. Scale ordinale, valori simple ordonate, relaţii de ordine totală – Nivelul
ordinal;
3. Scale de tip interval – Nivelul de interval;
4. Scale de tip raport.
POPULAȚIA ȘI PROCEDEE STATISTICE

Procedeele statistice sunt de două tipuri:


1. Descriptive, atunci când prelucrările statistice se fac
pentru întreaga populație;
2. Inferențiale, atunci când prelucrările statistice se
efectuează asupra unui eșantion, iar concluziile sunt extrapolate la
nivelul întregii populații.

Populația de referință a inferenței poate fi:


- Reală – exemplu evaluarea studenților făcută de
profesori, analizată pe un eșantion și extrapolată la nivelul
facultății (eșantionul și populația sunt reale);
- Abstractă – eșantionul este real, populația este
abstractă, ex. evaluarea efectului substanțelor etnobotanice
asupra populației. Se face studiul pe un eșantion de consumatori
apoi se extrapolează asupra unei populații de consumatori din
viitor, care, presupunem că, vor consuma etnobotanice. Poplulația
este abstractă.
POPULAȚIA ȘI PROCEDEE STATISTICE

Concluziile inferenței se fundamentează pe argumente


logico-raționale indirecte care sunt ipoteze asumate:
- Reprezentativitatea eșantioanelor aleatorii;
- Particularitățile distribuției de eșantionare;
- reguli privind deciziile referitoare la rezultatul
obținut.
Ipotezele asumate înseamnă că inferența conduce la
rezultate cu un anumit grad de certitudine, exprimată
probabilistic, de aceea inferența are două componente:
1. Estimarea caracteristicilor unei populații prin
procesarea datelor obținute pe un eșantion;
2. Testarea ipotezelor statistice care ne oferă
informații privind gradul de încredere al valorilor obținute pe
eșantion.
INDICATORI ȘI PARAMETRI

Indicatorii statistici extrapolați la nivelul populației se numesc


parametri.
În statistică indicatorii au notații diferite față de parametri.
Asumarea indicatorilor ca fiind valori ale populației depinde de
reprezentativitate care nu este perfectă de aceea indicatorii
statistici estimează parametrii populației cu o eroare numită eroare
de estimare:
 Indicatorul statistic = Parametrul + Eroarea
 Intervalul de încredere indică precizia cu care indicatorul
eșantionului estimează parametrul populației.
 Numim populație statistică sau simplu populație mulțimea
elementelor care au cel puțin o caracteristică în comun. Trebuie să
facem clar distincție între populație în statistică și populație în
demografie. Noțiunea de element trebuie ințeleasă într-un sens
larg, nu pur matematic. Un element poate fi o persoană, un lucru,
un fapt, un animal, o familie, o mașină, etc.
 Noțiunea de caracteristică se referă la o proprietate care este
comună tuturor elementelor ce compun o populație.
INDUCȚIE SAU INFERENȚĂ

Se numește eșantion un subansamblu al unei populații.


Eșantionul este reprezentat de mulțimea elementelor
(respondenților, subiecților, participanților) selectate din populația
supusă măsurării.
Rezultatele măsurătorilor efectuate asupra eșantionului se
procesează și rezultă indicatorii statisticii descriptive.
Extrapolarea rezultatelor măsurătorilor efectuate pe eșantion, la
nivelul întregii populații se numește inducție sau inferență
statistică.
Modul în care se realizează eșantionul garantează
reprezentativitatea acestuia la nivelul populației și în consecință,
garantează calitatea rezultatelor inferenței.
Dintr-o populație pot fi extrase mai multe eșantioane
reprezentative, adică nu există unicitate de eșantion în raport cu
o populație. Prelevarea eșantioanelor se face prin mai multe
metode pe care le enumerăm, fără a le detalia, nefiind obiectul
studiului nostru.
OBIECTIVELE STATISTICII DESCRIPTIVE

1. Culegerea, clasificarea şi prezentarea datelor statistice în


scopul descrierii fenomenelor investigate;
2. Calculul şi interpretarea indicatorilor ce caracterizează
distribuţia în ansamblul său;
3. Calculul şi interpretarea indicatorilor ce caracterizează
variaţia (împrăştierea) valorilor distribuţiei;
4. Calculul şi interpretarea indicatorilor ce caracterizează
forma grafică a distribuţiei;
5. Calculul şi interpretarea indicatorilor ce determină
legăturile dintre elementele ce compun distribuţia.
CATEGORII DE INDICATORI

1. INDICATORI AI TENDINŢEI CENTRALE (MĂRIMI MEDII):


Valori tipice, reprezentative, care descriu distribuţia în
întregul său;
2. INDICATORI AI VARIAŢIEI (ÎMPRĂŞTIERII):
Descriu caracteristica de împrăştiere a valorilor distribuţiei;
3. INDICATORI AI FORMEI DISTRIBUŢIEI:
Studiază formei curbei de reprezentare grafică a
distribuţiei;
4. INDICATORI AI CONCENTRĂRII ŞI DIVERSIFICĂRII:
5. INDICATORI AI SERIILOR CRONOLOGICE (DINAMICII):
6. INDICATORI AI LEGĂTURILOR DINTRE ELEMENTELE
DISTRIBUŢIEI (PROCESE ȘI FENOMENE):
Indicatori ai legăturilor dintre dintre elementele ce compun
distribuţia.
CLASIFICAREA INDICATORILOR
1. INDICATORI AI TENDINŢEI CENTRALE:
a. Media, aritmetică, geometrică, armonică, pătratică;
b. Mediana;
c. Modulul.
2. INDICATORI AI VARIAŢIEI (ÎMPRĂŞTIERII):
a. Amplitudinea: absolută, relativă, procentuală, cumulată;
b. Abaterea: medie, mediană, standard, quartilă, interquartilă;
c. Dispersia (varianţa); abaterea medie pătratică;
d. Coeficientul de variaţie.
3. INDICATORI AI FORMEI DISTRIBUŢIEI:
a. Simetrie (skewness);
b. Boltire (kurtosis);
4. INDICATORI AI CONCENTRĂRII ŞI DIVERSIFICĂRII:
a. Curba de concentrare; b. indicele Hirschman, Gini – Struck
5. INDICATORI AI SERIILOR CRONOLOGICE (DINAMICII):
a. Indicatori absoluți, b. Indicatori relativi; c. indicatori medii
6. INDICATORI AI LEGĂTURILOR DINTRE PROCESE ŞI FENOMENE:
a. Regresie; b. Corelaţie; c. Asociere.
1. INDICATORI AI TENDINŢEI CENTRALE. MEDIILE

Indicatorii tendinţei centrale sunt valori tipice care


concentrează într-un număr esenţa unui set de date.
1. Media este valoarea cea mai reprezentativă a
colectivităţii. Media aritmetică, geometrică, armonică,
pătratică;
2. a. Mediana. b. Quantilele: Quartilele(Q1, Me, Q3),
Decilele(D1-D9) şi Centilele(C1-C99); Jumătate din unităţile
colectivităţii au valori mai mari decât mediana
3. Modul (modulul) este valoarea cu frecvenţa cea mai
mare într-o colectivitate.
Într-o distributie normală (simetrică) indicatorii tendinţei
centrale (media, mediana şi modul) au aceeaşi valoare.
2. INDICATORI AI VARIAȚIEI

A. Indicatori simpli ai variaţiei:


a. Amplitudinea:
- absolută a variaţiei;
- relativă, procentuală, cumulată a variaţiei;
b. Abaterile individuale:
- absolute;
- relative, medii, mediane, standard, quartile, interquartile;
B. Indicatori sintetici ai variaţiei:
a. Abaterea madie liniară;
b. Dispersia (varianţa);
c. Abaterea medie pătratică;
d. Intervalul mediu de variaţie;
e. Coeficientul de variaţie.
C. Indicatori ai variaţiei în sistemul medianei:
a. Intervalul interquartilic;
b. Abaterea interquartilică;
c. Coeficientul de variaţie interquartilică;
d. Abaterea interdecilică;
E. Coeficientul de variaţie interdecilică.
3. ALȚI INDICATORI

3. INDICATORI AI FORMEI DISTRIBUŢIEI:


A. Asimetria – Indicatori ai asimetriei:
a. Asimetria în mărime absolută;
b. Coeficienţi de asimetrie:
b1. Coeficientul Yule;
b2. Coeficientul de asimetrie Pearson;
b3. Coeficientul de asimetrie Fisher.
B. Boltirea – Indicatori ai boltirii:
a. Coeficientul de boltire Pearson;
b. Coeficientul de boltire Fisher.
4. INDICATORI AI CONCENTRĂRII ŞI DIVERSIFICĂRII:
- Curba de concentrare
- indicele Hirschman, Gini – Struck
5. INDICATORI AI SERIILOR CRONOLOGICE (DINAMICII):

a. Indicatori absoluţi:
- nivelul absolut;
- modificarea absolută:
- cu baza fixă; - cu baza în lanţ;
b. Indicatori relativi:
- Indicele dinamicii:
- cu baza fixă;
- cu baza în lanţ;
- Ritmul dinamicii:
- cu baza fixă;
- cu baza în lanţ;
- Valoarea absolută a unui procent de creştere (reducere):
- cu baza fixă;
- cu baza în lanţ;
c. Indicatori medii:
- Nivelul mediu;
- Media cronologică simplă;
- Media cronologică ponderată.
6. ALTI INDICATORI

INDICATORI AI LEGĂTURILOR DINTRE (PROCESE ȘI


FENOMENE) VARIABILE STATISTICE:
1. Metoda tabelului de contingență;
2. Covarianța;
3. Graficul de corelație;
4. Curba de regresie;
5. Raportul sau coeficientul de corelație
CURBA NORMALĂ (GAUSS)
Densitatea de repartiție a funcției normale continue este:

( x −μ )2
f (x ) = = N(x, μ, σ )
1
e 2σ 2
σ  2π
Proprietațile distribuției normale:
1. Are formă de clopot în care cea mai mare parte a valorilor se concentrează în zona
centrală (medie);
2. Este simetrică, de aceea, de fiecare parte a mediei, se află jumatate din valorile
distribuției.
3. Linia curbei este asimptotică la   pe axa OX;

4. Are un punct de extrem unde f (x ) = 0 și două puncte de inflexiune, unde: f ,, (x ) = 0


,
CURBA NORMALĂ STANDARDIZATĂ
LEGEA NUMERELOR MARI
TEOREMA LIMITĂ CENTRALĂ
PROBLEMELE INFERENȚEI

Putem deduce media și abaterea standard a unei


populații pornind de la media și abaterea standard a unui
eșantion de marime N extras din această populație?
Media populației este doar aproximativ egală cu cea a
eșantionului, ea fiind legată de intervale de încredere. Sunt
doua tipuri de probleme:
a. Determinarea mediei aproximative (impuse)
căreia îi corespunde un interval de încredere;
b. Determinarea intervalului de încredere care
corespunde unei aproximări.
PRINCIPIUL TESTELOR STATISTICE
Scopul procesării datelor îl reprezintă confirmarea sau infirmarea unei ipoteze. În
statistică există teste care compară medii, proporții, varianțe sau corelații. Testarea
presupune formularea a două ipoteze contrare, care vor fi testate alternativ.
Ipoteza de nul H0, presupune că fenomenul studiat se datorează unor factori
întâmplători și nu sistematici (eșantioane aleatorii).
Ipoteza alternativă H1, presupune că fenomenul studiat nu se datorează fluctuațiilor
de eșantionare, ci unor factori manipulați sau studiați.
Testele statistice verifică întotdeauna ipoteza H0, care, fie se păstrează, fie se
respinge.
Menținerea sau respingerea H0, este legată de riscul de eroare care se numește:
- prag de semnificațe; - prag de probabilitate; - prag de încredere.
De obicei, pragul acestui risc se fixează la max. 5%.
Distingem două tipuri de teste statistice:
- Teste parametrice a căror formulare se sprijină pe legile probabilității, care cer
ca distribuțiile studiate să aibă anumite caracteristici;
- Teste neparametrice, care nu cer respectarea acestor caracteristici.
Caracteristicile cerute de testele parametrice sunt:
- Distribuția normală; - Datele să provină dintr-o scală de intervale; - Varianțele
mediilor să fie omogene.
Testele neparametrice nu impun condiții de normalitate și omogenitate a dispersiilor,
ele sunt independente de distribuție.
INDICATORII TENDINŢEI CENTRALE

TENDINŢA CENTRALĂ

Medie
Medie
Medie Mediană
Mediană
Mediană Modul
Modul
Modul

n
 xi
x = i =1
Centrul valorilor Valoarea cea mai
ordonate frecventă
n
- descriu localizarea unor valori particulare
Cuartilele sunt 3 valori care împart şirul valorilor ordonate în 4 părţi cu
nr. egal de termeni.

25% 25% 25% 25%

Xmin Xmax
Q1 Q2 Q3
Prima cuartilă Q1 separă primele 25% din valori de celelalte 75% =>
LQ1=0,25 (n+1)
A doua cuartilă (Q2) este mediana.
A treia cuartilă Q3 separă primii 75% din termeni de următorii 25% =>
LQ3=0,75 (n+1)
MODULUL (MOD)

=valoarea care apare cel mai frecvent.

0 1 2 3 4 5 6

Mo = 3

-distribuţiile pot fi și bimodale sau fără mod:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
Fără Modul
Bimodal: 9 și 12
DISTRIBUȚIE DE FRECVENȚE

a. Unimodală;
b. Bimodală;
c. Multimodală
Avantajul modulului: poate fi utilizat şi pentru variabile
calitative. Ex. Cea mai solicitată culoare la tricouri.
Dezadvantajul modului: nu ia în calcul toate valorile; nu este
stabil
In distribuţiile perfect simetrice, media, mediana şi modul au
aceeaşi valoare. Curba lui Gauss

Asimetrie Simetrie Asimetrie


Media < Mediana Media = Mediana Media > Mediana
Descrierea datelor

Tendința centrală Variatia

Media Amplitudine

Mediana Abateri individuale

Modul Dispersie

Deviatia standard

Coeficient de variatie
TIPURI DE DISTRIBUȚII

a. Distribuții cu tendință centrală diferită;


b. Distribuții cu variabilitate diferită;
c. Distribuții cu tendință centrală și variabilitate diferite.
1. Amplitudinea variaţiei este diferenţa dintre valorile
extreme (xmax şi xmin).
Amplitudinea absolută:
A = xmax − xmin
- se exprimă în unitatea de măsură a variablei X.
- pentru date grupate se calculează ca diferenţă între limita
superioară a ultimei grupe şi limita inferioară a primei
grupe.
 Amplitudinea relativă permite comparaţii între variabile
diferite:

A
A % = 100
x - media aritmetică.
x
2. Abaterile individuale de la medie măsoară distanţa fiecărei
unităţi statistice faţă de media colectivităţii.

Abaterile individuale absolute (di)

di = xi − x
Abaterile individuale relative (di%)

di
di(%) =  100
x
3. Abaterea intercuartilică
AQ = Q3 −Q1
Exemplu:

Mediana
X Q1 (Q2) Q3 X maxim
minim
25% 25% 25% 25%

12 30 45 57 70

AQ= 57 – 30 = 27
- arată împrăştierea tuturor valorilor variabilei → sintetizează într-
un număr toate abaterile individuale absolute.
- măsoară variatia faţă de o valoare reprezentativă (media).
1. Abaterea medie liniară este media aritmetică a tuturor abaterilor
individuale absolute di (indiferent de semn):
- date negrupate:

 x −x i
d= i=1
n
2. Dispersia este media abaterilor individuale ridicate la pătrat:
n
 date negrupate : _
 (x i − x )2

σ = i=1
2

n
 date grupate, frecvenţe absolute :

k _
 i
(x − x )2
 ni
σ2 = i=1
k

n
i=1
i

 date grupate,frecvenţe relative :

( )
k
σ =  xi − x  n
2 2 *
i
i=1
Media=Mediana=Modulul
X=Me=Mo
Me
X
Mo

Modulul≤Mediana≤Media
Mo≤Me≤X
Mo
Me
X
Media≤Mediana≤Modulul
X≤Me≤Mo
Asimetrie la stânga O Asimetrie la dreapta

-1,0 -0,3 -0,1 +0,1 +0,3 +1,0


Moderat
asimetrică

Moderat
asimetrică
BOLTIREA. INDICATORII BOLTIRII

Curba
Leptocurtica

Curba
mezocurtica

Curba
platicurtica
II. CLASIFICAREA RELAŢIILOR (LEGĂTURILOR) STATISTICE
1. După numărul caracteristicilor luate în consideraţie:
- relaţii simple;
- relaţii multiple;
2. După modul de exprimare a caracteristicilor incluse în analiză:
- relaţii exprimate numeric (relaţii de corelaţie sau corelaţie statistică);
- relaţii exprimate prin cuvinte (relaţii de asociere);
3. După direcţia relaţiilor, distingem:
- relaţii directe – variaţia valorilor caracteristicilor factoriale este aceeaşi cu variaţia
caracteristicilor rezultative. Dacă , rezultă sau , rezultă ; altfel spus, dacă creşte atunci creşte iar
dacă scade atunci scade;
- relaţii inverse – variaţia valorilor caracteristicilor factoriale este inversă variaţiei
caracteristicilor rezultative. Dacă , rezultă sau , rezultă ; altfel spus, dacă creşte atunci scade iar
dacă scade atunci creşte;
4. După expresia analitică a relaţiilor, distingem:
- Relaţii liniare;
- Relaţii neliniare, de forma:
- Parabolă: ;
- Hiperbolă: ;
- Exponenţială: ;
- Logaritmică: .
5. După timpul în care se realizează relaţiile:
- Relaţii sincrone (concomitente), procese paralele;
- Relaţii asincrone (cu decalaj), procese seriale.
După timpul în care se realizează, relaţiile studiază inerţia sistemelor, timpul ce se scurge de la
cauză la efect:
- Dacă t = ct, atunci relaţiile sunt sincrone, paralele sau simultane;
- Dacă t1<t2, atunci relaţiile sunt asincrone, seriale sau succesive.
III. METODE DE STUDIU A RELAȚIILOR DINTRE FENOMENE

A. METODE NEPARAMETRICE
1. Tabelul de asociere, coeficientul de asociere şi coeficientul de
contingenţă;
2. Coeficientul de concordanţă Fechner;
3. Coeficientul de corelaţie
3.1 Coeficientul de corelaţie reciprocă (pearson);
3.2 Coeficientul de corelaţie a rangurilor:
3.2.1 Coeficientul de corelaţie a rangurilor al lui Spearman;
3.2.2 Coeficientul de corelaţie a rangurilor al lui Kendall;

B. METODE PARAMETRICE
1. Corelaţia simplă, covarianţa şi coeficientul de corelaţie simplă;
2. Covarianţa;
3. Coeficientul de corelaţie pentru serii de frcvenţe;
4. Regresia;
5. Coeficientul de corelaţie multiplă.
METODE DE CERCETARE
Informatiile privind o colectivitate se pot obţine prin:
- cercetare totală;
- cercetare selectivă.
Cercetarea selectivă este preferabilă atunci când:
- populatia este prea mare sau se modifică rapid;
- localizarea unor unităţi ale populatiei este necunoscută;
- informatia se obţine prin metode distructive (ex. controlul calităţii
produselor);
- cercetarea totală este prea costisitoare, laborioasă, îndelungată;
- resursele alocate studiului nu o permit.
Observație: Este cea mai utilizată metodă în tehnică, sociologie,
psihologie.
Sondajul este o metodă statistică de obţinere a informaţiilor referitoare la o
colectivitate prin investigarea directă a unei părţi din aceasta
(eşantion).
Etape:
1. Descrierea eşantionului: alegerea unităţilor care formează
eşantionul şi calcularea indicatorilor statistici pentru eşantion.
2. Inferenţa: extinderea rezultatelor prelucrării eşantionului asupra
colectivităţii totale.
INFERENȚA STATISTICĂ

I. Descrierea eșantionului

Eșantion

Eșantion
Populatie
Indicatori
statistici
calculați
Parametri
estimați
(pe baza
eșantionului)

II. Inferenţa populaţiei cu ajutorul rezultatelor eşantionului


SONDAJUL STATISTIC

Utilizarea sondajului:
- Controlul calităţii producţiei
- Analiza consumului populatiei
- Cercetări de marketing
- Psihologie, sociologie, demografie
- Sondaje electorale.

Avantaje:
1. Mult mai ieftin şi mai rapid decât observarea totală;
2. Erori mai uşor de detectat şi înlăturat;
3. Pot fi înregistrate mai multe variabile;
4. Înlocuieşte cercetarea totală pentru controlul distructiv al
calitaţii productiei, testarea noilor medicamente etc.
CONCEPTE DE BAZĂ
1. Populaţia totală (N)
2. Eşantionul (n)
- Indicatori statistici pentru eşantion:
(valori calculate)
- Indicatori statistici pentru colectivitatea totală:
(parametri estimaţi).
Un eşantion este reprezentativ pentru populatia totală dacă surprinde
trăsăturile ei esenţiale.
Conditii:
- unităţile eşantionului să fie alese aleator;
- eşantionul să fie suficient de mare;
- selectarea independentă a unităţilor.
Procedee de selecție:
1. Selecţie aleatoare;
2. Selectie dirijată;
3. Selecţie mixtă.
TIPURI DE ERORI

EROAREA = abaterea care există între valoarea unui parametru (de


exemplu, media) calculat prin prelucrarea datelor din eşantion şi
valoarea acestuia dacă ar fi fost prelucrate datele de la toate
unităţile colectivităţii
1. Erori de înregistrare: erori comune tuturor tipurilor de observare
(totală sau parţială)
2. Erori de reprezentativitate - specifice cercetării prin sondaj.
2.1 Sistematice pot fi evitate dacă se respectă întocmai principiile
teoriei selecţiei.
2.2 Întâmplătoare - inevitabile.
- Erori efective
- Erori probabile: eroarea medie şi eroarea limită de
reprezentativitate).
Eşantioanele care se pot forma din aceeasi colectivitate generală au
medii diferite.
Distribuţia acestor medii de selecţie tinde către modelul
distribuţiei normale, indiferent de forma de distribuţie a
variabilei pentru care se face cercetarea=> tendinţa erorilor de
reprezentativitate de a urma aceeaşi lege.
SONDAJ Ș INTERVALE DE ÎNCREDERE

Selecția aleatoare simplă, cea mai utilizată în domeniul


social, este folosită pentru colectivităţi omogene.
Eşantionul este format din unităţi simple care se extrag din
colectivitatea generală, prin selecţie aleatoare
repetată/nerepetată.
Din cauza erorilor specifice, sondajul nu furnizează
valoarea reală a parametrului căutat (de ex. media), ci
un interval de încredere în care se află (cu o anumită
probabilitate) valoarea reală.
Acest interval este delimitat de media eşantionului +/-
eroarea limită şi este caracterizat printr-o anumită
probabilitate ce se poate calcula după teorema lui
Cebâșev.
83
REEVALUAREA TEOREMEI LUI THOMAS BAYES
Paradigmele statisticii sunt:
1. Paradigma frecventistă. Reprezentanți: Daniel Bernoulli (nepotul lui Jacob, fiul lui
Johan, frate cu Nicolaus și Johan II). Legea numerelor mari:
Pentru un număr mare de experimente, frecvența de apariție a unui eveniment este
egală cu probabilitatea;
2. Paradigma verosimilității. Reprezentant R.A.Fisher, inferența bazată pe un
eșantion. Metoda verosimilității maxime;
3. Paradigma bayesiană. Reprezentanți: Thomas Bayes, P.S.Laplace, Bruno de
Finetti. Se bazează pe teorema lui Bayes.
Primele două paradigme formează paradigma clasică iar cea de-a treia reprezintă
paradigma lui Bayes privind inferența statistică și probabilitatea.
P(B/A)  P(A )
P(A/B) P(B) = P(B/A) P(A) P(A/B) =
P(B)
unde:
- P(A/B) este probabilitatea lui A condiționată de B, adică probabilitatea condiționată
de apariție a evenimentului A având în vedere că B este adevărat;
- P(B/A) este probabilitatea condiționată de apariție a lui B având în vedere că A este
adevărat;
- P(A) și P(B) sunt probabilitățile ca A și B să apară independent unul de celălalt
(probabilitate marginală);
84
REEVALUAREA TEOREMEI LUI THOMAS BAYES
Bayes definește probabilitatea nu în sensul de calculare a frecvenței apariției unui
eveniment, ci ca o “credință parțială”, “un raport între valoarea la care ar trebui
calculată o așteptare, în funcție de întâmplarea unui eveniment, și valoarea
lucrului asteptat, după ce s-a intamplat”.
Contrar regulilor consacrate ale științei, aceasta este o definiție subiectivă, nu
necesită analiza unor evenimente repetabile, dar trebuie ca evenimentele
respective să fie “observabile”, pentru că altfel nu pot fi considerate ca
“întâmplându-se”.
Fiecare om are “un mic Thomas Bayes în creier”, în sensul că totul, de la structura
sistemului nervos, până la funcționarea neuronilor, poate fi explicat prin teoria
bayesiană.
Atunci când o persoană este pusă în fața unei situații pe care nu a mai
experimentat-o, despre care nu are decât anumite date, aceasta poate anticipa
anumite comportamente doar pe baza unui mecanism de gândire bayesian, care
nu face referire la experiențele anterioare ale persoanei respective, nici la
raționamente.
Materia cenușie “țese” permanent un fel de “pânză” făcută din “formule
bayesiene”, în formă de piramidă, în vârful acesteia aflându-se ceea ce numim
“gândire”, în care primează “credința” că un anume eveniment se va desfășura
într-un anume fel, și nu raționamentul bazat pe experiență.
Neuronii trimit impulsuri înainte de percepția prin simțuri a unui eveniment, tocmai
pentru că sistemul nervos este pe cale sa “prezică” ceea ce se va întâmpla.
SONDAJ Ș INTERVALE DE ÎNCREDERE

S-ar putea să vă placă și