Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE INFORMATICĂ
Autor:
Prof.univ.dr.ing.Titi PARASCHIV
Bucureşti
Ianuarie 2023 1
CONSIDERAȚII PRIVIND STATISTICA
Bertrand Russell definește matematica drept “Știința în care nu se știe despre ce se
vorbește și în care nu se știe dacă ceea ce se spune este adevărat sau nu”.
1. Nu se știe despre ce se vorbește: Este adevărat, pentru că este o știință abstractă. Nu
vorbim la matematică despre relații concrete, ci doar despre relații între numere.
2. Nu se știe dacă ceea ce se spune este adevărat sau nu: Este adevărat, pentru că
matematica nu caută adevărul ca filosofia ci stabilește relații care sunt corecte sau nu.
m1 m 2 Relația este corectă în fizica clasică, dar nu este corectă în fizica relativistă.
F = K Algebra stabilește relații cantitative ale fenomenelor statice, ea nu măsoară
r2 evoluția lor în timp. Pentru acest lucru aU apărut noi ramuri ale matematicii:
calculul diferențial, calculul integral.
dS dV d 2S U U U
V= , _a = = 2 GradU = U = i+ j+ k
dt dt dt x y z
Operația inversă derivării este integrala a cărei valoare este aria de sub curbă.
Statistica măsoară, fenomene în care cauzalitatea nu poate fi reliefată. S-a aplicat în:
- Studiul jocurilor de noroc;
- Termodinamică la studiul mișcării stohastice a moleculelor;
- Fizica cuantică care a impus apariția mecanicii statistice.
În fizica cuantică, principiul incertitudinii (Werner Heisenberg, 1927 la Göttinger, cu Max Born)
spune că viteza și poziția electronului se potrivesc într-un mod, limitat de toleranța cuantei lui
Planck, de aceea se numește și principiul toleranței. Principiul incertitudinii ne spune că întreaga
cunoaștere este limitată, adevăr confirmat și de teorema de incompletitudine a lui Gödel.
Creierul are nevoie de entropie, adică de incertitudine, pentru că el recreează realitatea din felii
incerte.
CONSIDERAȚII PRIVIND STATISTICA
- Statistica mobilității: Tramvaie, număr de călători. Facem legătura între numărul
călătorilor și frecvența garniturilor și spunem că putem realiza o distribuție inteligentă;
- Statistica producției;
- Statistica pieței care face o relație stocastică între cerere și ofertă.
Statistica ne dă o cunoaștere cantitativă a fenomenelor sociale. Conceptul de fericire
este legat de venit, dar nu putem afirma că cel care are un venit lunar de 6000 de
Euro este de 3 ori mai fericit decât cel care are 2.000 Euro.
Ce face ca statistica să fie folosită în sociologie, economie, psihologie sau
lingvistică?
Statistica nu mai este o știință a calității, ci și o știință a structurii.
Matematica modernă nu studiază cantități independente, ci structuri, structura de
grup, inel, corp, lattice, spațiu de probabilitate, spațiu topologic sau varietate
diferențială. Adunarea, scăderea, înmulțirea și împărțirea caracterizează numerele
prin proprietățile lor ca exprimând cantități. Ordinea numerelor, însă nu este cantitativă
ci structurală de aceea, scalele, în statistică, sunt numerice sau nenumerice. Statistica
este și un instrument de a observa și cuantifica și caracteristici necantitative, de aceea
este importantă nu numai în analiza cantitativă, ci și în luarea deciziei.
O națiune ce se dorește însemnată este cea care realizează un spațiu ospitalier
pentru imaginație și toleranță, adică incertitudine creatoare. Trădarea spiritului uman
înseamnă împietrirea minții și transformarea națiunii într-un regiment de fantome,
ascultătoare sau supuse la cazne. Creierul are nevoie de entropie, de un spațiu al
libertății adică de incertitudine, pentru că el recrează realitatea din felii incerte..
CONSIDERAȚII PRIVIND STATISTICA
Karl Popper, care este unul din filozofii care și gândește, propune 2
experimente imaginare:
Experimentul 1: Toate fabricile, mașinile și uneltele din lume sunt
distruse dar ne rămân cărțile și bibliotecile; după multă muncă și bătaie de cap,
totul se poate reconstitui.
Experimentul 2: Toate fabricile, mașinile, uneltele și cărțile din lume
sunt distruse împreună cu bibliotecile fizice și online. Omenirea ar trebui să-și
reia istoria de mii de ani, fără să o poată reconstitui. În cărțile de știință sunt
adunate rezultatele agrimensorilor egipteni, a contabililor babilonieni, cea a lui
Thales, Arhimede, Pitagora, Euclid, Leibnitz, Newton și Gauss și cea a tuturor
oamenilor de știință din ziua de azi.
În cărți sunt nu doar reușitele, ci și nereușitele: Ghicitorii, astrologii, alchimiștii,
numerologii, cititorii în stele au propus soluții neadevărate dar și munca lor a
condus la apariția astronomilor, chimiștilor, specialiștilor în teoria numerelor,
matematica economiei, adică cercetările operaționale.
Știința datelor se întemeiază o nouă paradigmă, așa cum a făcut mecanica,
termodinamica, automatizarea, fizica atomică sau mecanica cuantică. În Știința
Datelor ipoteza este corectă datele privind comportamentul obiectelor,
exploatarea lor corectă conduce la rezultate corecte, dar nu adevărate, pentru că
ele nu aduc certitudine, ci sunt adevărate cu un grad de încredere. Statistica
este instrumentul cel mai puternic de cercetare a faptelor sociale.
DEFINIȚII ALE STATISTICII
Amplitudine
Testul Z
Varianță
Asimetria
Abatere standard
Intervale de încredere
Parametri
Testul T
Cuartile
Modul
Boltirea
Medie
Decile
Percentile
Range
Decile
DEFINIŢII, CONCEPTE ŞI NOŢIUNI
Populaţie
a. Indicatori absoluţi:
- nivelul absolut;
- modificarea absolută:
- cu baza fixă; - cu baza în lanţ;
b. Indicatori relativi:
- Indicele dinamicii:
- cu baza fixă;
- cu baza în lanţ;
- Ritmul dinamicii:
- cu baza fixă;
- cu baza în lanţ;
- Valoarea absolută a unui procent de creştere (reducere):
- cu baza fixă;
- cu baza în lanţ;
c. Indicatori medii:
- Nivelul mediu;
- Media cronologică simplă;
- Media cronologică ponderată.
6. ALTI INDICATORI
TENDINŢA CENTRALĂ
Medie
Medie
Medie Mediană
Mediană
Mediană Modul
Modul
Modul
n
xi
x = i =1
Centrul valorilor Valoarea cea mai
ordonate frecventă
n
- descriu localizarea unor valori particulare
Cuartilele sunt 3 valori care împart şirul valorilor ordonate în 4 părţi cu
nr. egal de termeni.
Xmin Xmax
Q1 Q2 Q3
Prima cuartilă Q1 separă primele 25% din valori de celelalte 75% =>
LQ1=0,25 (n+1)
A doua cuartilă (Q2) este mediana.
A treia cuartilă Q3 separă primii 75% din termeni de următorii 25% =>
LQ3=0,75 (n+1)
MODULUL (MOD)
0 1 2 3 4 5 6
Mo = 3
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6
Fără Modul
Bimodal: 9 și 12
DISTRIBUȚIE DE FRECVENȚE
a. Unimodală;
b. Bimodală;
c. Multimodală
Avantajul modulului: poate fi utilizat şi pentru variabile
calitative. Ex. Cea mai solicitată culoare la tricouri.
Dezadvantajul modului: nu ia în calcul toate valorile; nu este
stabil
In distribuţiile perfect simetrice, media, mediana şi modul au
aceeaşi valoare. Curba lui Gauss
Media Amplitudine
Modul Dispersie
Deviatia standard
Coeficient de variatie
TIPURI DE DISTRIBUȚII
A
A % = 100
x - media aritmetică.
x
2. Abaterile individuale de la medie măsoară distanţa fiecărei
unităţi statistice faţă de media colectivităţii.
di = xi − x
Abaterile individuale relative (di%)
di
di(%) = 100
x
3. Abaterea intercuartilică
AQ = Q3 −Q1
Exemplu:
Mediana
X Q1 (Q2) Q3 X maxim
minim
25% 25% 25% 25%
12 30 45 57 70
AQ= 57 – 30 = 27
- arată împrăştierea tuturor valorilor variabilei → sintetizează într-
un număr toate abaterile individuale absolute.
- măsoară variatia faţă de o valoare reprezentativă (media).
1. Abaterea medie liniară este media aritmetică a tuturor abaterilor
individuale absolute di (indiferent de semn):
- date negrupate:
x −x i
d= i=1
n
2. Dispersia este media abaterilor individuale ridicate la pătrat:
n
date negrupate : _
(x i − x )2
σ = i=1
2
n
date grupate, frecvenţe absolute :
k _
i
(x − x )2
ni
σ2 = i=1
k
n
i=1
i
( )
k
σ = xi − x n
2 2 *
i
i=1
Media=Mediana=Modulul
X=Me=Mo
Me
X
Mo
Modulul≤Mediana≤Media
Mo≤Me≤X
Mo
Me
X
Media≤Mediana≤Modulul
X≤Me≤Mo
Asimetrie la stânga O Asimetrie la dreapta
Moderat
asimetrică
BOLTIREA. INDICATORII BOLTIRII
Curba
Leptocurtica
Curba
mezocurtica
Curba
platicurtica
II. CLASIFICAREA RELAŢIILOR (LEGĂTURILOR) STATISTICE
1. După numărul caracteristicilor luate în consideraţie:
- relaţii simple;
- relaţii multiple;
2. După modul de exprimare a caracteristicilor incluse în analiză:
- relaţii exprimate numeric (relaţii de corelaţie sau corelaţie statistică);
- relaţii exprimate prin cuvinte (relaţii de asociere);
3. După direcţia relaţiilor, distingem:
- relaţii directe – variaţia valorilor caracteristicilor factoriale este aceeaşi cu variaţia
caracteristicilor rezultative. Dacă , rezultă sau , rezultă ; altfel spus, dacă creşte atunci creşte iar
dacă scade atunci scade;
- relaţii inverse – variaţia valorilor caracteristicilor factoriale este inversă variaţiei
caracteristicilor rezultative. Dacă , rezultă sau , rezultă ; altfel spus, dacă creşte atunci scade iar
dacă scade atunci creşte;
4. După expresia analitică a relaţiilor, distingem:
- Relaţii liniare;
- Relaţii neliniare, de forma:
- Parabolă: ;
- Hiperbolă: ;
- Exponenţială: ;
- Logaritmică: .
5. După timpul în care se realizează relaţiile:
- Relaţii sincrone (concomitente), procese paralele;
- Relaţii asincrone (cu decalaj), procese seriale.
După timpul în care se realizează, relaţiile studiază inerţia sistemelor, timpul ce se scurge de la
cauză la efect:
- Dacă t = ct, atunci relaţiile sunt sincrone, paralele sau simultane;
- Dacă t1<t2, atunci relaţiile sunt asincrone, seriale sau succesive.
III. METODE DE STUDIU A RELAȚIILOR DINTRE FENOMENE
A. METODE NEPARAMETRICE
1. Tabelul de asociere, coeficientul de asociere şi coeficientul de
contingenţă;
2. Coeficientul de concordanţă Fechner;
3. Coeficientul de corelaţie
3.1 Coeficientul de corelaţie reciprocă (pearson);
3.2 Coeficientul de corelaţie a rangurilor:
3.2.1 Coeficientul de corelaţie a rangurilor al lui Spearman;
3.2.2 Coeficientul de corelaţie a rangurilor al lui Kendall;
B. METODE PARAMETRICE
1. Corelaţia simplă, covarianţa şi coeficientul de corelaţie simplă;
2. Covarianţa;
3. Coeficientul de corelaţie pentru serii de frcvenţe;
4. Regresia;
5. Coeficientul de corelaţie multiplă.
METODE DE CERCETARE
Informatiile privind o colectivitate se pot obţine prin:
- cercetare totală;
- cercetare selectivă.
Cercetarea selectivă este preferabilă atunci când:
- populatia este prea mare sau se modifică rapid;
- localizarea unor unităţi ale populatiei este necunoscută;
- informatia se obţine prin metode distructive (ex. controlul calităţii
produselor);
- cercetarea totală este prea costisitoare, laborioasă, îndelungată;
- resursele alocate studiului nu o permit.
Observație: Este cea mai utilizată metodă în tehnică, sociologie,
psihologie.
Sondajul este o metodă statistică de obţinere a informaţiilor referitoare la o
colectivitate prin investigarea directă a unei părţi din aceasta
(eşantion).
Etape:
1. Descrierea eşantionului: alegerea unităţilor care formează
eşantionul şi calcularea indicatorilor statistici pentru eşantion.
2. Inferenţa: extinderea rezultatelor prelucrării eşantionului asupra
colectivităţii totale.
INFERENȚA STATISTICĂ
I. Descrierea eșantionului
Eșantion
Eșantion
Populatie
Indicatori
statistici
calculați
Parametri
estimați
(pe baza
eșantionului)
Utilizarea sondajului:
- Controlul calităţii producţiei
- Analiza consumului populatiei
- Cercetări de marketing
- Psihologie, sociologie, demografie
- Sondaje electorale.
Avantaje:
1. Mult mai ieftin şi mai rapid decât observarea totală;
2. Erori mai uşor de detectat şi înlăturat;
3. Pot fi înregistrate mai multe variabile;
4. Înlocuieşte cercetarea totală pentru controlul distructiv al
calitaţii productiei, testarea noilor medicamente etc.
CONCEPTE DE BAZĂ
1. Populaţia totală (N)
2. Eşantionul (n)
- Indicatori statistici pentru eşantion:
(valori calculate)
- Indicatori statistici pentru colectivitatea totală:
(parametri estimaţi).
Un eşantion este reprezentativ pentru populatia totală dacă surprinde
trăsăturile ei esenţiale.
Conditii:
- unităţile eşantionului să fie alese aleator;
- eşantionul să fie suficient de mare;
- selectarea independentă a unităţilor.
Procedee de selecție:
1. Selecţie aleatoare;
2. Selectie dirijată;
3. Selecţie mixtă.
TIPURI DE ERORI