Sunteți pe pagina 1din 83

Statistică aplicată în ştiinţele sociale

1. Introducere: obiectul statisticii, metodă, concepte de bază, indicatori, observare, serii


statistice, tabele, reprezentări - aplicaţii
Populaţie, variabile şi caracteristici statistice a) Definiţii, exemple; b) statistica
descriptivă univariată – definiţie; c) clasificarea caracteristicilor sau variabilelor
statistice: I.Calitative: 1.nominale, dihotomice; 2.ordinale (clasament, interval, raport);
II. Cantitative: 1.continue; discontinue (discrete), exemple.

2. Caracteristici calitative a) algebrizare, dihotomizare; b) gruparea datelor statistice în


funcţie de numărul de caracteristici calitative, c) relaţii şi condiţii de concordanţă
pentru 2 şi 3 caracteristici calitative, exemple; d) concordanţă şi limite pentru date
incomplete; e) frecvenţe de grupă finale, frecvenţe de grupă pozitive şi relaţiile dintre
acestea, exemple.

3. Caracteristici cantitative a) Reguli pentru formarea distribuţiei de frecvenţe b)


frecvenţa absolută, frecvenţa relativă, frecvenţe cumulate, interval de clasă, limite de
clasă, amplitudinea clasei, valoarea centrală a clasei; c) Histograma şi poligonul
frecvenţelor, distribuţii grafice de frecvenţe cumulate ascendent şi descendent, ogive,
exemple.

4. Indicatori de medie şi indicatori ai tendinţei centrale a) Media aritmetică, geometrică,


armonică, pătratică, relaţii matematice; b) Mediana, modul, cuantilele, relaţia empirică
dintre media aritmetică, mediană şi mod, exemple de calcul.

5. Indicatori ai împrăştierii a) Indicatori simpli ai împrăştierii: amplitudinea, abaterea


de la medie, intervalul intercuartilic, expresii matematice; b) Indicatori sintetici ai
împrăştierii: abaterea medie pătratică, varianţa, intervalul mediu de variaţie în funcţie
de abaterea medie pătratică, intervale medii pentru distribuţia normală, coeficientul de
variaţie (în funcţie de abaterea medie liniară şi abaterea medie pătratică),
reprezentativitatea mediei în funcţie de coeficientul de variaţie; c) Teorema de
descompunere a varianţei. Aplicaţii, exemple de calcul

6. Indicatori de asimetrie şi de boltire a) Asimetria unei distribuţii empirice, asimetrie


pozitivă, negativă; b) indicatori ai asimetriei: asimetrie absolută, asimetrie relativă
(coeficientul Yule pe bază de quartile), coeficienţii de asimetrie Pearson şi Fischer
(simpli), coeficienţi de asimetrie Pearson şi Fischer cu momente centrate; c) indicatori ai
boltirii Pearson şi Fischer.Aplicaţii, exemple de calcul

7.Variabile aleatoare. Curbe de distribuţie statistică. Distribuţia normală.


Standardizarea variabilelor statistice. Folosirea Anexelor cu date precalculate. Aplicaţii,
exemple de calcul

8. Studiul corelației și al regresiei pentru două serii statistice, Calculul coeficienților de


corelație Pearson și Spearman

9. Introducere în SPSS

1
1.Introducere

Statistica este ştiinţa care se ocupă cu gruparea, analiza şi interpretarea datelor


privind cele mai diverse fenomene, precum şi cu previziunea unor evenimente viitoare.
La baza statisticii stă noţiunea de probabilitate. Teoria probabilităţilor se ocupă cu studiul
variabilelor aleatoare, al proceselor stohastice, al repartiţiei frecvenţelor acestora,
utilizând metode deductive (raționamente sigure). Dimpotrivă, statistica, caută ca prin
metode inductive (raționamente probabile) să obţină informaţii cu privire la legea de
probabilitate a fenomenului care a produs frecvenţele respective.
Statistica descriptivă sau formală, se ocupă cu culegerea şi înregistrarea datelor
din fenomenul studiat. Statistica analitică foloseşte metode matematice de analiză şi
interpretare a datelor.

Populaţie statistică – orice mulţime care formează obiectul unei analize statistice. O
populaţie statistică este formată din unităţi statistice sau indivizi.
Trăsătura comună a tuturor unităţilor unei populaţii se numeşte caracteristică.
Variabilă statistică – ceea ce îşi schimbă valoarea într-o populaţie statistică şi poate fi
măsurată.
Ex: Ne interesează repartiţia studenţilor dintr-o facultate în funcţie de notele la
statistică. Mulţimea studenţilor = populaţie statistică
Fiecare student este o unitate statistică
Nota obţinută = caracteristica studiată
Variabila statistică = valoarea notei
Analiza statistică se poate face după una sau mai multe caracteristici.
De pildă, studiem distribuţia unui grup de persoane după talie, vârstă, apoi după
culoarea ochilor şi a părului etc.
Caracteristicile care se pot măsura se numesc cantitative: nota la matematică, numărul
de locuitori dintr-un oraş, vârsta, talia, salariul.
Caracteristicile cantitative pot fi discrete (discontinue) (iau valori întregi: numărul de
locuitori dintr-un oraş, numărul de copii dintr-o familie etc), şi continue: talia,
greutatea, lungimea părului etc.
Caracteristicile care reflectă anumite proprietăţi nemăsurabile în sine, se numesc
calitative: sex, profesie, culoarea părului etc.dar şi acestea, prin numărarea indivizilor
care le posedă, ori prin cumularea după unele criterii, devin cantitative.

Statistica descriptivă univariată prescrie modalităţile de ordonare, descriere şi analiză a


datelor culese în funcţie de diverse criterii, în mod independent unul de altul, adică fără
a se evidenţia relaţiile dintre ele. Datele de tip statistic, sunt rezultate, într-un prim şi cel
mai elementar mod de sistematizare, sub forma a ceea ce în statistică poartă denumirea
de caracteristică sau serie statistică. Orice caracteristică presupune existenţa unei
însuşiri, trăsături etc., comună fiecărui individ din populaţia investigată, însuşire ce
prezintă diferite forme sau grade de manifestare. Referirile care se fac la caracteristicile
statistice sunt omonime cu acelea referitoare la variabilele statistice, aşadar putem vorbi
despr clasificarea caracteristicilor sau variabilelor statistice:
Caracteristicile sau variabilele se clasifică în două mari categorii: calitative şi
cantitative.
I) variabile calitative, când indivizii statistici se distribuie într-o mulţime de clase ale
caracteristicii, care sunt desemnate prin nume ce trimit, de regulă, spre semnificat; ca
simboluri ale claselor se pot utiliza şi numerele (cum ar fi numerele la Loto), numai că,

2
pentru caracteristicile calitative, ele nu au nici o funcţie de semnificaţie, exceptând cazul
scalelor ordinale, când numerele pot indica ordinea claselor.

a) variabile nominale (categoriale); sunt date sub formă de nume sau se codifică sub
formă de alte simboluri care nu pot fi ordonate unul faţă de celălalt.
Ex: categoria profesională (muncitor, tehnician, inginer, etc), tipul de temperament
(coleric, sangvin, melancolic, flegmatic), variabile sex (feminin-masculin, codificat de
obicei cu 0;1); variabile stare civilă (căsătorit-necăsătorit); culoarea ochilor, religie etc;
pentru aceste variabile se face frecvenţa observaţiilor pe categorii.
Variabilele calitative dihotomice (masculin/feminin, da/nu, prezent/absent etc) sunt
variabile nominale.
b) variabile ordinale; în cazul măsurării la nivel ordinal: în afara clasificării cazurilor în
categorii (ca la nivel nominal) cazurile pot fi ordonate şi comparate, de la un nivel
inferior la un nivel superior. Variabilele ordinale pot fi de tip clasament: ex: locul ocupat
într-un clasament: primul, al doilea, al treilea etc; sau de tip scoruri: atribuim un
anumit scor sau punctaj (de ex, pentru viteza de răspuns la o întrebare, cât de mult ne
place un anumit obiect, cum apreciem finalitatea unui curs etc). La nivel ordinal,
distanţele dintre variabile sau scoruri nu sunt egale sau precise; nu putem spune că
distanţa dintre cineva cu categoria a II într-un domeniu faţă de un individ cu categoria a
IV-a este aceeaşi ca dintre două persoane cu categoriile a IV-a şi a VI-a. Exemplu tipic:
piramida nevoilor umane stabilită de Abraham Maslow:
1. nevoi fiziologice; 2. nevoi de securitate; 3. nevoi sociale de apartenenţă la un grup; 4.
nevoia de stimă, de a fi apreciat, 5. nevoia realizării de sine.
Variabilele ordinale mai pot fi:
- de tip interval (când există mai mult de două categorii aflate într-o ordine naturală,
variabilele sunt măsurate în unităţi cu intervale egale ce nu pot fi divizate, dar nu se
poate defini distanţa dintre două variabile).
Exemplu, QI: (cine are QI 150 nu este de 1.5 ori mai inteligent decât cel cu QI 100), anul
apariţiei unor cărţi sau timbre reprezintă o variabilă de tip interval: un timbru din 1991
e mai recent decât unul din 1960, iar intervalele dintre două clase succesive sunt egale cu
un an. Dar nu putem spune că un timbru din 1991 e de 31 de ori mai recent decât unul
apărut în 1960. O valoare zero care apare într-o variabilă de tip interval nu reprezintă
absenţa caracteristicii, ci doar un punct de pe scala de măsură.
Ex: temperatura, variabilă de tip interval, în care 0° C reprezintă o valoare a variabilei,
care poate lua şi valori negative.
- de tip raport (posedă caracteristicile unei scale de interval, dar se poate defini distanţa
dintre variabile precum pe o riglă uzuală şi apare un punct de zero care reflectă absenţa
caracteristicii studiate); ex: numărul de copii al unei familii, numărul de ani de căsnicie,
vechimea în muncă.

II) Variabile cantitative, atunci când demersul metodologic permite măsurarea în sensul
propriu al termenului. În acest caz, fiecare individ primeşte o valoare numerică, cu
funcţia de măsură a manifestării însuşirii, iar construcţia concretă a caracteristicii e
dependentă de mai mulţi factori.
Pot fi variabile cantitative continue: înălţime, greutate, venit, nivel de concentraţie a
unei substanţe etc şi discontinue: vârstă, număr de copii etc.

Exemple şi tipuri de variabile statistice


1.Exemplu de caracteristică de tip calitativ cu scală nominală: distribuţia locurilor la
buget la facultatea de Istorie-Filosofie-Teologie

3
x i (Profil) ni (locuri studenţi)
Istorie 20
Filosofie 30
Sociologie 40
Teologie 30

2.Exemplu de caracteristică de tip calitativ obţinută pe scală ordinală: distribuţia


numărului de studenţi în funcţie de răspunsul la întrebarea: „Cât de mulţumit sunteţi
de condiţiile de cazare din cămine?”

x i(variante de răspuns) ni (nr.de răspunsuri)


Foarte puţin 50
Puţin 100
Relativ puţin 150
Moderat 200
Relativ mult 250
Mult 150
Foarte mult 100
1000

3.Exemplu de variabilă cantitativă cu valori discrete: distribuţia familiilor unui cartier


după numărul de persoane din familie:

x i(nr de persoane/familie) ni (nr.de familii)


1 50
2 100
3 150
4 200
5 120
6 30
7 10
660

4.Exemplu de caracteristică cantitativă pe intervale de grupare: distribuţia notelor la


examenul de statistică pe întreaga universitate

( x i , x i+1 ) note ni (nr.de studenţi)


(1,2) 10
(2,3) 5
(3,4) 5
(4,5) 20
(5,6) 35
(6,7) 20
(7,8) 20
(8,9) 10
(9,10) 5
130

4
Dacă variabila statistică se măsoară pe o scală restrânsă şi ia numai valori discrete,
atunci sub fiecare valoare dintr-un interval sau când valorile discrete sunt în număr
foarte mare, se procedează la formarea de intervale de grupare, a căror mărime şi al
căror număr sunt dictate, în principal, de nevoile cercetării. Prin urmare, o
caracteristică poate fi prezentată ca un tabel cu două linii (sau coloane), prima
conţinând clasele, valorile sau intervalele de valori, iar a doua frecvenţele, adică
numărul de indivizi prezenţi în fiecare clasă.

Pornind de la informaţia cuprinsă în tabele, se poate întreprinde o serie de calcule şi


analize suplimentare. Să presupunem că o caracteristică are s clase - notate A1, A2, As -
sau s valori - luate în ordine descrescătoare şi notate cu x 1, x2,.... xs -, că numărul
indivizilor subsumaţi unei clase sau valori este ki şi că numărul total de indivizi este n.
De la frecvenţele absolute, ki se ajunge la frecvenţele relative, p i prin împărţirea
primelor la n: pi = ki/n. Frecvenţele relative pot fi interpretate ca ponderi ale claselor în
totalul populaţiei sau ca probabilităţi cu care indivizii se plasează într-o clasă sau alta.
Evident că frecvenţele relative sunt valori pozitive subunitare şi suma lor este egală cu
unitatea, dat fiind că suma celor absolute este n.
Tot un tip de frecvenţe relative (dar nu la unitate, ci la 100) sunt procentele, care se
obţin înmulţind cu 100 frecvenţele relative la unitate. Calculul frecvenţelor relative şi al
procentelor se face pentru a avea o imagine mai clară a modului de distribuire a
indivizilor în clase şi, mai ales, pentru a putea compara două sau mai multe serii
statistice. Un pas mai departe în analiza univariată a variabilelor statistice constă în
calcularea unor indicatori de diverse tipuri, dintre care cei mai cunoscuţi sunt cei de
poziţie (sau ai tendinţei centrale) şi cei de dispersie (sau împrăştiere). Primii încearcă să
evidenţieze, printr-o singură valoare, tendinţa întregului grup, situaţia mijlocie sau
tipică. Cei din categoria a doua urmăresc să măsoare gradul de eterogenitate a
populaţiei, gradul de dispersare a indivizilor pe scala valorilor variabilei respective.

În statistica descriptivă se aplică tehnici de reducere sau de condensare a unei


multitudini de date într-una sau mai multe unităţi sintetice pentru caracterizarea
distribuţiei şi variabilităţii datelor subsumate unei singure variabile (analiză univariată),
în condiţii de minimizare a distorsiunilor. Să presupunem că am elaborat un chestionar
cu 10 de întrebări pentru a investiga opiniile şi atitudinile ce caracterizează 200 de
persoane cu privire la un set de probleme. După efectuarea chestionării obţinem o mare
cantitate de date diverse: pentru fiecare întrebare avem 200 de răspunsuri iar pentru
întregul chestionar 2000 de informaţii. Este destul de dificil ca în mod intuitiv să spunem
ceva sintetic despre aceste date. Dacă vom considera fiecare întrebare ca individualizând
o variabilă, statistica descriptivă ne oferă posibilităţi de sintetizare a informaţiilor prin
calcularea de coeficienţi sau măsurători ale tendinţei centrale (medie aritmetică,
mediană, mod), ale repartiţiei datelor pe subclase (proporţii, procente, frecvenţe, decile,
quartile, centile) sau ale dispersiei (abateri de la medie, abatere-standard, coeficient de
variaţie).
Desigur că prin sintetizare este pierdută o cantitate de informaţie sau rezultatele
calculelor ne pot orienta spre o interpretare denaturată a datelor reale. Există însă
posibilităţi de control statistic al distorsiunilor şi oricum limitele coeficienţilor statistici
trebuie indicate cu claritate, evitând tendinţa de elaborare a unor interpretări
neconforme cu realitatea. Analiza din statistica descriptivă centrată pe o singură
variabilă poate fi extinsă pentru a explora relaţiile dintre două (analiză bivariată) sau

5
mai multe variabile (analiză multivariată) şi pentru a specifica modul în care anumite
variabile (numite independente) explică variaţia altora (numite dependente).
În exemplul considerat, nu este suficient să ştim tendinţa centrală şi variaţia atitudinilor
faţă de o problemă, ci s-ar dovedi mai profitabil teoretic şi practic să detectăm factorii
care generează şi explică variaţia. În acest sens, cea mai largă aplicare în cercetarea
sociologică o are analiza multivariată, întrucât orice fenomen sau proces social este
multidimensional, presupune considerarea unui evantai de variabile şi indicatori de
caracterizare aflaţi ei înşişi în raporturi diverse.
În timp ce statistica descriptivă este limitată la analiza datelor culese prin investigarea
unui eşantion, statistica inductivă are funcţia de a facilita elaborarea de inferenţe despre
întreaga populaţie din care a fost extras eşantionul. Ea se bazează pe teoria matematică
a probabilităţii şi oferă posibilităţi de elaborare a generalizărilor despre o populaţie pe
baza investigării unui eşantion al acesteia şi de formulare a unei legi generale întemeiate
pe observaţii repetate. Pentru a aplica statistica inductivă este necesar, mai întâi, ca
investigaţia empirică să fie precedată de eşantionare, adică de acea tehnică prin care
dintr-o populaţie este extrasă, în anumite condiţii, o parte (un eşantion) prin analiza
căreia pot fi obţinute informaţii generalizabile la nivelul întregii populaţii.
Caracteristicile cantitative ale unei populaţii sunt individualizate de parametri, pe când
cele ale unui eşantion de valori statistice. Parametrii sunt valori fixe referitoare la
populaţie şi sunt, în general, necunoscuţi. De exemplu, vârsta medie a studenţilor de la o
universitate din oricare perioadă poate fi necunoscută, dar probabil că toţi analiştii
curioşi ar identifica aceeaşi mărime. Valorile statistice variază însă de la un eşantion la
altul. Dacă am selecta aleator cinci eşantioane de studenţi din respectiva universitate şi
am calcula de fiecare dată vârsta medie, este foarte probabil să obţinem numere diferite.
Spre deosebire de parametri, valorile statistice pentru un eşantion dat pot fi calculate şi
cunoscute. Ceea ce nu ştim este cât de reprezentativ este eşantionul în raport cu
populaţia şi cât de apropiată este valoarea statistică obţinută prin calcul de valoarea
parametrului corespunzător necunoscut. În ultimă instanţă, interesul principal al
cercetării se concentrează asupra populaţiei, iar eşantionul îl investigăm numai pentru a
ajunge ta concluzii despre populaţie. Cu acestea am ajuns la specificarea celui de-al
doilea domeniu al statisticii inductive, şi anume elaborarea inferenţelor statistice. Acesta
este procesul prin care estimăm diferiţi parametrii ai populaţiei pe baza valorilor
statistice cunoscute, dar altfel irelevante, ale eşantionului.
Problema este una de testare a ipotezelor preformulate, de luare a deciziei privind
valoarea predictivă a estimatorilor statistici în raport cu parametrii populaţiei. Rareori
ne limităm în cercetarea sociologică numai la descrierea statistică a unui set de date,
fără a urmări să elaborăm inferenţe sau să formulăm generalizări teoretice. Se poate
chiar spune că statistica inductivă este modul reprezentativ de aplicare a statisticii în
sociologie. Extinderea cea mai mare în cercetarea sociologică o are analiza statistică
multivariată aplicată în vederea elaborării de inferenţe statistice, de fundamentare a
generalizărilor teoretice extinse la nivel de populaţie prin procedee inductive. În funcţie
de poziţia deţinută în analiză şi în succesiunea timpului social, variabilele incluse în
analiza multivariată se împart în două şi uneori în trei categorii.
Prima categorie include variabilele dependente sau criteriu a căror variaţie urmează a fi
explicată. Pentru aceasta este necesar a detecta acei factori care, într-un fel sau altul,
justifică, generează sau interferează cu variaţia variabilelor dependente. Aceşti factori
sunt incluşi în a doua categorie de variabile numite independente sau predictori. În
succesiunea temporală, predictorii preced variabilele-criteriu. Dacă nu se poate
identifica o succesiune temporală a categoriilor de variabile, atunci se specifică o ordine
logică fundamentată teoretic. În sfârşit, o ultimă categorie include variabilele

6
intermediare, situate între precedentele şi care sunt dependente în raport cu predictorii
principali şi independente în raport cu variabilele-criteriu. Analiza statistică
multivariată se poate concentra asupra gradului de similaritate a variabilelor din
aceeaşi categorie (analiză intracategorială) sau asupra numărului şi naturii relaţiilor
dintre două categorii (analiza intercategorială) sau asupra relaţiilor dintre trei sau chiar
mai multe categorii (analiză structurală în care este posibilă creşterea numărului de
variabile intermediare). Fiecărui tip de analiză îi sunt specifice anumite tehnici
statistice.

Aplicații
1)Clasificaţi următoarele grupuri ca populaţie sau eşantion:
- toate persoanele de peste 18 ani din Romania
- un grup de persoane din judetul Alba
- toate persoanele din judetul Iaşi
- toate persoanele din municipiul Bucureşti
- persoanele din judeţul Suceava
- 3 kg de mere
- toate merele din recolta acestui an
- toate instituțiile din țară
- câteva Primării din judetul Galaţi
- 1000 de școli din Romania
- apa unui lac
- o galeată de apă dintr-o fântână

2)Fie variabilele:
- Numărul de persoane dintr-o firmă
- Statutul marital al unei persoane
- Numărul de studenţi dintr-o grupă care vin la seminar
- Culoarea maşinilor
- Lungimea săriturii unei broaşte
- Culoarea ochilor
- Chiria platită lunar
- Factura telefonică
- Mulţumirea studentilor faţă de notele de la statistica
- Satisfacţia generală faţă de viaţă a oamenilor
- Gradul de implicare civică a unei populaţii
- Gradul de implicare politică a unui grup
- Încrederea unui om în Guvern
- Suprafaţa locuibilă într-un apartament
- Vârstele persoanelor din Facultatea de Sociologie
- Veniturile pensionarilor din Galaţi
- Coeficienţii de inteligenţă a copiilor din şcoala Generala nr.29
- Greutatea unui grup de copii
- Distanţele dintre sate şi orase
- Sursele de venit ale persoanelor active
- Durata unei greve
- Orientarea politică a persoanelor adulte
- Timpul de care au nevoie persoanele să ajunga la cel mai apropiat spital
- Grad de urbanizare

7
1. Selectati variabilele calitative şi clasificati-le în nominale sau ordinale.
2. Clasificaţi variabilele ordinale în variabile interval sau raport.
3. Clasificati variabilele cantitative în discrete sau continue.
4. Sistemul de notare de la 1 la 10 este de interval sau de raport? Argumentati.

4) Tabelul reprezintă răspunsurile a 25 de subiecti la întrebarea “Cât de mulţumit


sunteţi în general de felul în care trăiţi?” (categoria ‘ns/nr’ reprezinta ‘nu stiu/nu
raspund’)

foarte multumit foarte multumit foarte multumit deloc multumit

destul de multumit destul de multumit destul de multumit destul de multumit

nu prea multumit nu prea multumit nu prea multumit destul de multumit

deloc multumit deloc multumit destul de multumit destul de multumit

ns/nr ns/nr nu prea multumit destul de multumit

1. Construiti un tabel de frecvente pentru categoriile respective


2. Calculati frecventele relative si proportiile pentru categorile respective
3. Care este proporţia celor care sunt «destul de multumiti» si «foarte multumiti»?
4. Pentru acest tabel construiţi în SPSS o variabila. Dati-i un nume elocvent.
Construiti o diagrama bara si o diagrama circulara. Care dintre cele doua grafice
este mai elocvent pentru prezentarea datelor? De ce?

5) Urmatorul tabel prezinta numarul de ore petrecut la facultate saptamana trecuta de


40 de studenti.

0 10 9 10 4

1 12 8 8 8

2 14 7 6 1

1 18 10 4 10

3 20 28 2 12

4 22 30 32 26

5 22 29 3 20

6 24 27 12 8

1. Construiti o distributie de frecvente folosindu-va de urmatoarele clase : 0-4 ore,


5-9 ore, 10-14, 15-19, 20-24, 25-29, 30-34
2. Calculati frecventele relative si proportiile pentru fiecare clasa
3. Calculati marginile claselor
4. Calculati mijlocul claselor

8
5. Construiti distributia de frecvente cumulate pentru clasele de la punctul a.
6. Construiti diagrama steam and leaf pentru valorile din tabel.
7. Pentru acest tabel construiti in SPSS o variabila. Dati-i un nume elocvent.
Construiti o histograma.
8. Care sunt cele doua conditii pentru construirea intervalelor unei variabile
cantitative ?
9. Pentru tabelul de mai sus construiti 3 clase. Pentru cele 3 clase construiti
distributia de frecvente relative si distributia de frecvente cumulate.
10. Comparati frecventele relative/frecventele cumulate ale claselor de la punctul (1)
cu cele de la punctul (9). Care dintre cele două împărţiri de clase ar trebui
folosită? De ce?

6) Urmatoarele date reprezinta numarul de copii sub 18 ani din cadrul a 30 de familii
extrase la întamplare:

2 1 2 0 3 1 1 2 2 1
1 2 0 1 0 2 1 2 0 0
1 0 0 2 1 2 3 2 0 1

Construiti un tabel cu distributia de frecvente pentru aceste date, considerate clase cu o


singura valoare
1. Calculati frecventele relative si procentele pentru toate clasele
2. Cate familii din acest esantion au doi sau trei copii sub 18 ani?
3. Desenati o diagrama bara pentru distributia de frecvente.

7) Mai jos avem un tabel cu distributia de frecvente a veniturilor lunare a 100 de


angajati:

Clasa venituri Frecventa


2000 – 3499 12
3500 – 4999 23
5000 – 6499 34
6500 – 7999 19
8000 – 9499 12

1. Construiţi un tabel cu distributia de frecvente cumulate


2. Calculati frecventele cumulate relative si procentele cumulative pentru toate
clasele
3. Ce procent de angajati au mai putin de 650 lei pe luna?

8) Pentru urmatorul set de date:


2300 750 2500 410 555 1576 2460 1795 2108 897
989 1866 2105 335 1344 1159 1236 1395 6108 4995
5891 2309 3950 6655 3950 4900 1320 2901 1925 6896

1. Construiti un tabel de frecvente pe clase, luand valoarea 1 ca limita de jos a


primei clase si 1400 latimea de clasa
2. Calculati frecventele relative si procentele pentru toate clasele

9
3. Desenati o histograma a distributiei de frecvente relative
4. Care sunt marginile si latimea celei de a patra clase?

9) Se dau următoarele date: 5, -7, 2, 0, -9, 16, 10, -4, 1, 3, -11; Să se calculeze media,
mediana şi modul.

10) Se dau următoarele numere de ore petrecute de studenţi în cluburi săptămâna


trecută: 7, 14, 5, 0, 9, 7, 10, 12, 3, 1, 4, 6. Calculaţi media, mediana şi modul.

11) Se dau următoarele numere: 37154, 8972, 5213, 3618, 2741, 2252, 1835, 2345, 2892,
1687
a. Să se calculeze media şi mediana pentru aceste date.
b. Pentru aceste date, există mod?
c. Aceste date conţin vreo valoare extremă? Dacă da, să se elimine acea valoare şi să se
recalculeze media şi mediana.
d. Care dintre cele două este cea mai bună măsură pentru a descrie datele?

12) Au fost înregistrate numărul de ore petrecute de studenţi pentru a învăţa la test:

0 până la 4 ore 17
4 până la 8 ore 23
8 până la 12 ore 15
12 până la 16 ore 11
16 până la 20 ore 8
20 până la 24 ore 6

Să se afle media numărului de ore petrecute de studenţi cu învăţatul. Este această


media egală cu cea din eşantion sau o valoare aproximativă? Explicaţi.
Să se afle care este intervalul median şi modal.

13) Scorul mediu la testul de statistică pentru 15 fete este 24 iar cel pentru 20 de băieţi
este 21. Să se calculeze media combinată a celor două grupuri folosind principiul
mediei ponderate.

14) Se dau numărul de ani de pensie pentru 15 pensionari: 5, 6, 3, 6, 11, 7, 9, 10, 2, 4, 10,
6, 2, 1, 5
Să se calculeze modul şi media pentru aceste date. Să se compare aceste două măsuri
şi să se precizeze care este cea mai potrivită pentru a măsura tendinţa centrală a
datelor.

15) Următorul set de date reprezintă timpul petrecut in bibliotecă într-o zi de zece
studenţi (în minute):

88 90 50 520 81 80
50 78 60 70 73 95

10
a. Calculaţi modul, mediana şi media pentru această variabilă
b. Care dintre cele trei măsuri este mai potrivită pentru caracteriza tendinţa centrală
a variabilei
c. Cum se modifica modul, mediana si media daca scoatem valoarea '520’ din setul de
date?

16) Următoarele valori reprezintă un eşantion cu suma cheltuită în total de gospodărie


pe luna precedentă (exprimată in sute de lei)

4 7 12 15 8
6 9 17 10 11

a. Calculaţi modul, mediana şi media pentru acest set de date


b. La acest set de date se mai adauga urmatoarele valori: 18,17,20,22,25,15. Care sunt
noile valori ale tendintei centrale?

17) Fie următorul set de date care reprezintă un eşantion:

200 578 30 1130 245 1825 167


245 669 257 1200 1900 1279 360
345 799 1100 1780 1275 1500

a. Calculaţi mediana, media, modul; b. Construiţi un tabel de frecvenţe pe clase,


luând valoarea 1 ca limită de jos a primei clase şi 500 lăţimea de clasă; c. Calculaţi
media pentru noul set de date organizat pe clase. Comparati rezultatul cu cel obtinut la
punctul a)

18)Se dau două grupuri (bărbaţi şi femei) cu următoarele valori:

Bărbaţi Femei
18 33
34 43
35 34
32 39
45 44
34 29
99 25
43 32
3 41

11
Bărbaţi Femei
34
Să se calculeze măsurile tendinţei centrale pentru cele două grupuri.

19) Care este diferenţa calitativă dintre două eşantioane dacă la primul mărimile
tendinţei centrale se află în ordinea Mo, Me, M, iar la al doilea, în ordinea M, Me, Mo ?

20) Se dau următoarele produse vândute în 10 magazine:

Români Maghiari Ţigani Germani Altele


3,4 4,2 1,0 6,0 1,8
4,8 3,4 1,4 5,3 2,7
2,5 2,9 2,5 3,7 2,5
12,0 3,8 0,5 4,1 3,6
3,7 5,9 1,7 4,4 2,4
2,6 2,6 1,1 3,3
2,9 1,9 5,4
3,2 3,1 2,9
8,9 7,3
5,4 6,2

a)Să se calculeze măsurile tendinţei centrale.


b)Să se calculeze abaterile medii pătratice
c) Să se calculeze coeficienţii de variaţie şi să se caracterizeze omogenitatea celor trei
serii.
d) Dacă cele trei serii alcătuiesc o singură populaţie, să se verifice teorema de
descompunere a varianţei.
e) Descrieţi cele trei distribuţii în funcţie de coeficienţii de asimetrie şi de boltire.

2. Caracteristici calitative

12
2.1 Algebrizare, dihotomizare1
Se introduce o relaţie „A are proprietatea p”, care va fi o relaţie de echivalenţă pe
o mulţime M. Din analiza „calitativă” a structurii induse, rezultă Principiul
noncontradicției (este imposibil ca un element să aibă și să nu aibă în același timp
proprietatea p), Principiul terţului exclus (orice element al lui M ori are, ori nu are
proprietatea p). De aici decurge în mod natural logica clasică: valoarea de adevăr a unei
propoziții e indusă de faptul că se pronunță asupra posesiei proprietății p de către un
element.
Propoziţia P: A are proprietatea p; P este adevărată dacă A are proprietatea p.
Un obiect ori are, ori nu are proprietatea p, deci P este ori adevărată, ori falsă, lucru
care se verifică empiric, experimental. Faptul experimental, statistic îl certifică pe acela
logic, nu invers. Logica, teoria mulţimilor decurg din statistică, deci numărul apare ca
un reflex al unei proprietăţi de ordin statistic: Numărul x reprezintă mulţimea clasei de
echivalenţă a submulţimilor lui M în care fiecare element are proprietatea p. Adică,
submulţimile se grupează în funcţie de cardinalul lor: submulţimile Mk au proprietatea
că k elemente au proprietatea p2.
Deasemenea, logica care decurge de aici poate să nu opereze cu Adevăr şi Fals, ci
cu „are proprietatea p” sau „nu are proprietatea p”; deci trăsătura comună a unei
populaţii statistice (câte elemente au proprietatea p) care denotă caracteristica
populaţiei, se exprimă numeric printr-un număr k.
Astfel înlocuim veridicitatea unei propoziţii prin valoarea: fiecare element din
mulţime are proprietatea p. Putem spune: „este adevărat că fiecare element are
proprietatea p”, în locul, „Propoziţia a este adevărată”.
Așadar, o proprietate peste o mulțime finită de N elemente, o împarte în două,
sau o dihotomizează. Vom avea astfel de-a face cu elemente care au și altele care nu au
proprietatea avută în vedere. Dihotomizarea conduce la expresii algebrice. Dacă se
notează cu P•N operaţia de dihotomizare a unei mulțimi de N elemente după
proprietatea P, se poate scrie P•N = (P), care este o scriere simbolică semnificând faptul
că dihotomizarea lui N în raport cu P conduce la frecvenţa de grupă (P), adică numărul
celor care au proprietatea P este (P).
Analog, nonP•N = (nonP); adunînd P•N + nonP•N = (P+nonP)N = N, deci (P+nonP) = 1.
P este operator calitativ ce poate fi scris algebric 1–nonP etc3.

2.2 Studiul unei populații din perspectiva a 2 caracterisitici calitative


Fie o populaţie formată din N unităţi, pentru care există două caracteristici
calitative, A şi B. Notăm cu (A) numărul celor care posedă caracteristica A şi (B)
numărul celor care posedă caracteristica B.
(A) + (B) ≥ N, deoarece pot exista unităţi cu ambele caracteristici. În populaţia
considerată, notăm cu ( A ) numărul celor care nu au caracteristica A. Prin (AB) notăm
numărul celor care au şi caracteristica A şi B.
( A B) reprezintă numărul celor care nu au nici caracteristica A nici caracteristica B.
Avem relaţiile:
(A) + ( A ) = N; (B) + ( B) = N;
(AB) + (A B) = (A); (AB) + ( A B) = (B); ( A B) + ( A B) = ( A );
(A B) + ( A B) = ( B); (1)
1
A se vedea Iulian Grigoriu, 2006, Calitativ și cantitativ în analiza inferenței statistice, Reducerea
matematicului şi logicului la statistic – Apriorism probabilist şi limite metafizice în Analele Universităţii
„Dunărea de Jos” Galaţi, sociologie, Fascicula XX, Fundaţia Universităţii Dunărea de Jos, nr. 1, pp. 61-77.
2
Pentru studiul caracteristicilor calitative vezi şi Gh. Mihoc, N. Micu, 1980, Teoria probabilităţilor şi statistică
matematică, EDP, pp. 214-223.
3
Vezi Yule şi Kendall, 1969, Introducere în teoria statisticii, Ed. Ştiinţifică, p.33.

13
Din relaţiile de mai sus deducem: (A B) = (A) – (AB); ( A B) = (B) – (AB);
( A B) = N – (A) – (B) + (AB); (2)
În ultimele formule trebuie să avem:
(A B) ≥ 0, ( A B) ≥ 0, ( A B) ≥ 0. Primele două inegalităţi nu dau nici un indiciu
semnificativ, deoarece este evident că (A) ≥ (AB); ca un individ să aibă caracteristica şi
A şi B, trebuie să aibă în mod necesar cel puţin caracteristica A; analog (B) ≥ (AB);
În schimb, ultima inegalitate ne arată că trebuie să avem N – (A) – (B) + (AB) ≥ 0 pentru
a exista o populaţie statistică. Aceste inegalităţi se numesc condiţii de concordanţă pentru
două caracteristici. (Vom reveni asupra condiţiilor de concordanţă).

Ex1: Într-un oraş din Ţara de Foc, sunt 1560 de familii, dintre care 881 au televizor, 975
frigider şi 660 au şi televizor şi frigider. Cîte familii n-au nici televizor, nici frigider?
(nonAnonB) = N – (A) – (B) + (AB) = 1560 – 881 – 975 + 660 = 364

2.3 Studiul unei populații din perspectiva a 3 caracteristici calitative


Fie o populaţie la care ne interesează trei caracteristici calitative: A, B, C
Vom avea următoarele grupări de caracteristici:
0 caracteristici: N; cele N unităţi statistice au 0 caracteristici comune; sau nu există nici
o caracteristică comună întregii populaţii
1 caracteristică: (A), (B), (C), ( A ), ( B), (C )
2 caracteristici: (AB), (BC), (CA), ( A B), ( BC), (C A ), (A B), (BC ), (C A ), ( A B), ( B C ), (C A
)
3 caracterisitici: (ABC), ( A BC), (ABC ), ( A BC ), (A BC), ( A BC), (A B C ), ( A BC ), în total
27 de grupări, adică 33 (pt. 4 caracterisitici calitative, avem 3 4 grupări, în genere, se arată
că pt. n caracteristici calitative, avem 3n grupări). Toate grupările se pot exprima în
funcţie de N, (A), (B), (C), (AB), (BC), (CA), (ABC), adică de caracteristicile pozitive,
sau de caracteristicile finale (în acest caz, cele care au 3 caracteristici).
Astfel:
( A ) = N – (A); ( A B) = (B) – (AB); ( A B) = N – (A) – (B) + (AB); ( A BC) = (BC) – (ABC); (
A BC) = (C) – (AC) – (BC) + (ABC);
( A BC ) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) şi corelativele acestora
obţinute prin permutări circulare; (3)
Pentru ca populaţia să existe, trebuie ca fiecare caracteristică de mai sus să fie pozitivă:
(C) – (AC) – (BC) + (ABC) ≥ 0; prin permutări: (B) – (BC) – (BA) + (ABC) ≥ 0;
(A) – (AB) – (AC) + (ABC) ≥ 0; N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) ≥ 0
ecuaţiile (4) reprezintă condiţiile de concordanţă pentru 3 caracterisitici calitative.

Exemple
Ex2: În oraş sunt 1550 de familii, dintre care 881 au televizor, 975 frigider, 370 maşină
de spălat. Statistica ne arată că există 525 care au televizor şi frigider, 220 au frigider şi
maşină de spălat, 215 au maşină de spălat şi televizor, 176 au televizor, maşină de spălat
şi frigider. Câte familii n-au nici televizor, nici frigider, nici maşină de spălat? Câte
familii au numai televizor? Avem: (A) = 881; (B) = 975; (C) = 370; (AB) = 525; (BC) =
220; (CA) = 215; (ABC) = 176; condiţiile de concordanţă se verifică, datele sunt (pot fi)
reale
N-au nici televizor, nici frigider, nici maşină de spălat
( A BC ) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) = 1550 – 881 – 975 –370 +
525 + 220 + 215 + 176 = 108
Numai televizor au: (A B C ) = (A) – (AB) – (AC) + (ABC)= 881 – 525 – 215 + 176 = 317
Obs.

14
Frecvenţele de grupă nu sunt independente între ele şi nu este necesar ca pentru
specificarea completă a datelor să avem toate frecvenţele de grupă. Se observă că orice
frecvenţă poate fi exprimată cu ajutorul frecvenţelor de ordin superior. Astfel, numărul
total al observaţiilor este evident egal cu numărul (A) adunat cu ( A ), adică N = (A) + ( A )
În mod similar, numărul elementelor A este egal cu numărul acelor elemente A care
posedă şi caracteristica B, adunat cu numărul elementelor A care nu posedă această
caracteristică, adică (A) = (AB) + (A B);
Analog (AB) = (ABC) + (ABC ) şi aşa mai departe.

Consecinţă
Fiecare frecvenţă de grupă poate fi exprimată cu ajutorul frecvenţelor de cel mai înalt
ordin, adică de ordinul n (n = câte caracteristici calitative luăm în considerare), întrucât
fiecare frecvenţă poate fi exprimată cu ajutorul frecvenţelor de un ordin mai mare şi
acest proces se va opri când vom atinge cel mai înalt ordin. De exemplu, în cazul a trei
caracteristici calitative (n = 3),
(A) = (AB) + (A B) = (ABC) + (ABC ) + (A BC) + (A B C )

2.4 Condiţii de concordanţă


Condiţia necesară şi suficientă pentru concordanţa unei serii independente de
frecvenţe de grupă este ca nici o frecvenţă de grupă finală să nu fie negativă. Necesitatea
rezultă din afirmaţia evidentă că nici o frecvenţă de grupă, obţinută prin numărarea
caracteristicilor calitative reale, nu poate fi negativă. Suficienţa rezultă din faptul că,
dându-se o mulţime de 2nnumere nenegative, întotdeauna ne putem imagina o populaţie
reală cu n dihotomii, care ar avea aceste numere drept frecvenţe de grupă finale.
Pentru a verifica concordanţa unei serii de 2n frecvenţe de grupă independente, nu
trebuie să calculăm decât frecvenţele de grupă finale şi dacă nici una dintre acestea nu
este negativă, înseamnă că datele sunt concordante.

Ex3: Pp că avem următoarele date:


N= 1000, (A)=525, (B)=312; (C)=470; (AB)=42; (AC)=147; (BC)=86; (ABC)=25
La prima vedere, nu pare nimic greşit în aceste cifre. Totuşi, ele nu sunt concordante.
Este posibil să fi fost observate în momente diferite, în locuri diferite sau pe bază de
materiale diferite.
( A BC ) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) = 1000 – 525 – 312 – 470 +
42 + 147 + 86 – 25 = – 57

Pentru datele dintr-un ansamblu de frecvenţe de grupă, cea mai bună metodă de
verificare a concordanţei este calcularea frecvenţelor de grupă finale în funcţie de cele
pozitive.

2.4.1 Condiţii de concordanţă pentru două caracteristici calitative


Pentru 2 caracteristici calitative, vom avea 4 frecvenţe de grupă finale (AB) ≥0,
(A B) = (A) – (AB) ≥0; ( A B) = (B) – (AB) ≥0; ( A B) = N – (A) – (B) + (AB) ≥ 0
Deci: (AB) ≥0; (AB) ≥ (A) + (B) – N; (AB) ≤ (A); (AB) ≤ (B) (5)

2.4.2 Condiţii de concordanţă pentru trei caracteristici calitative


Pentru 3 caracteristici calitative, condiţia ca cele 8 frecvenţe de grupă finale să fie
nenegative ne conduce la relaţiile:
(4) → (ABC) ≥0; (ABC) ≥ (AB) + (AC) – (A); (ABC) ≥ (AB) + (BC) – (B);
(ABC) ≥ (AC) + (BC) – (C) (6)

15
Evident că: (ABC) ≤ (AB); (ABC) ≤ (AC); (ABC) ≤ (BC)
Din (4) → (ABC) ≤ (AB) + (AC) + (BC) – (A) – (B) – (C) + N (7)
Din 6 şi 7 → 16 inegalităţi, din care doar 4 sunt noi:
din 6.1 şi 7.4 → (AB) + (AC) + (BC) ≥ (A) + (B) + (C) – N (8.1)
din 6.2 şi 7.3 → (AB) + (AC) – (BC) ≤ (A) (8.2)
din 6.3 şi 7.2 → (AB) + (BC) – (AC) ≤ (B) (8.3)
din 6.3 şi 7.1 → (AC) + (BC) – (AB) ≤ (C) (8.4)

2.5 Date incomplete


(A) – numărul elementelor având caracteristica calitativă A
Vom considera problema deducţiilor care pot fi făcute cu ajutorul analizei calitative în
care datele sunt incomplete. Forma condiţiilor de concordanţă ne arată că atunci când
cunoaştem anumite frecvenţe de grupă, putem indica limitele celorlalte, chiar dacă nu e
posibil să găsim valorile exacte ale acestor frecvenţe.

Ex.1: Ştiind că (A) = (B) = (C) = N/2 şi că 80% din elementele A sunt şi elemente B, iar
75% din elementele A sunt simultan şi elemente C, să se găsească limitele procentajului
elementelor B care sunt şi elemente C.
80 80
(AB) = (A) = N/2 → 2(AB)/N = 0,8
100 100
75 75
(AC) = (A) = N/2 → 2(AC)/N = 0,75
100 100
? ≤(BC) ≤?

80 80 75 75
Avem (AB) = (A) = N/2; (AC) = (A) = N/2
100 100 100 100
Deci 2(AB)/N = 0,8; 2(AC)/N = 0,75.
Folosim 8.1 (AB) + (AC) + (BC) ≥ (A) + (B) + (C) – N
Avem: 0,8N/2 + 0,75N/2 + (BC) ≥ N/2 + N/2 + N/2 – N, adică:
0,4 + 0,75 + 2(BC)/N ≥ 1; deci 2(BC)/N ≥ – 0,15 nu e relevant, deoarece e o limită
negativă.
Din 8.4 (AC) + (BC) – (AB) ≤ (C) rezultă
0,75N/2 + (BC) – 0,8N/2 ≤ N/2, adică 2(BC)/N ≤ 1 + 0,8 – 0,75 = 1.05 > 1, nu e relevant
Din 8.2 şi 8.3 rezultă 2(BC)/N ≥ 0,8 + 0,75 –1 şi 2(BC)/N ≤ 1 – 0,8 + 0,75, adică
0,55 ≤ 2(BC)/N ≤ 0,95.
În concluzie, cel puţin 55% şi cel mult 95% din elementele B sunt simultan şi elemente C

OBS: De verificat „inferenţe” de tipul: Fiind date 100 de observaţii, (A) = 45, (B) = 23,
(C) = 14; să se arate că oricare ar fi procentele elementelor B care sunt A şi ale
elementelor C care sunt A, nu se poate deduce nimic cu privire la procentul elementelor
B care sunt şi C.
Pentru valori determinate ale lui N, (A), (B), (C), (AB) şi (AC), se întâmplă adeseori ca o
valoare a lui (BC) mai mare ca zero să satisfacă condiţiile (8) şi prin urmare, nici o
inferenţă statistică cu privire la limita inferioară să nu fie posibilă. Argumentul de tipul
„Avem un număr de elemente A care sunt şi elemente B şi un număr de elemente B care
sunt şi elemente C şi deci trebuie să ne aşteptăm ca un număr de elemente A să fie şi
elemente C” trebuie folosit cu precauţie.

16
Ex.2
Din populaţia adultă a unui oraş 50% sunt bărbaţi, 60% sunt salariaţi şi 50% au vârsta
de 45 de ani sau mai mult; 10% din numărul bărbaţilor nu sunt salariaţi şi 40% au sub
45 de ani. Ce se poate spune despre procentajul oamenilor de 45 de ani sau peste, care
sunt salariaţi?
Notăm caracteristicile caltative A - bărbat, B - salariat şi C - au vârsta de cel puţin 45 de
ani şi luăm pentru. comoditate, N= 100.
Obţinem: (A) = 50; (B) = 60, (C) = 50;
10 la sută din nr. bărbaţilor sunt nesalariaţi: adică 0,1• 0,5• 100 = (A B), deci
(A B) = 5; analog (AC ) = 0,4• 0,5•100 = 20. Se cer limitele lui (BC).
Se ştie că cele 3n frecvenţe pot fi exprimate cu ajutorul celor 2n frecvenţe finale.
În ipoteză sunt date şase frecvenţe de grupă (incluzînd pe N – frecvenţă de ordinul 0).
Dacă am cunoaşte încă două frecvenţe de grupă, independente de acestea, problema ar
fi complet determinată, deoarece am avea 23 frecvenţe de grupă.
Notăm: ( A BC ) = x; (ABC) = y;
Cf. (3) (ABC ) = (AB) – (ABC); ne trebuie (AB), adică nr. bărbaţilor salariaţi
Numărul bărbaţilor salariaţi rezultă din ipoteză că e 90% din 0,5•100, adică
(AB) = 0,9•0,5•100= 45
Deci (ABC ) = 45 – y; ≥0, slab
Din (A BC) = (AC) – (ABC);
nr. bărbaţilor de cel puţin 45 ani este: (AC) = 0,5•0,6•100= 30
Deci (A BC) = 30 – y ; deci y≤30 tare
Din (A B C ) = (A) – (AB) – (AC) + (ABC), rezultă
(A B C ) = 50 – 45 – 30 + y,
deci (A B C ) = y – 25 ≥0, deci y ≥25 (condiţie tare), deci 25≤y≤30;

Din ( A BC ) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) rezultă


x = 100 – 50 – 60 – 50 + 45 + (BC) + 30 – y, deci x = 15 + (BC) – y, deci
(BC) = y + x – 15

Din ( A BC) = (BC) – (ABC); rezultă ( A BC) = (BC) – y = conform relaţiei de mai sus
y + x – 15 – y, deci
( A BC) = x – 15 ≥0, (condiţie tare), x≥15

Din ( A BC) = (C) – (AC) – (BC) + (ABC), rezultă


( A BC) = 50 – 30 – (BC) + y, deci ( A BC) = 20 – (BC) + y, deci
( A BC) = 20 – y – x + 15 + y = 35 – x; (condiţie slabă)
Din ( A BC ) = (B) – (AB) – (BC) + (ABC), rezultă
( A BC ) = 60 – 45 – (BC) + (ABC), unde (BC) = y + x – 15, deci
( A BC ) = 60 – 45 – y – x + 15 + y = 30 – x ≥ 0, (condiţie tare)
Aşadar 15 ≤ x ≤ 30 şi 25 ≤ y ≤ 30; rezultă limitele lui (BC):
25 ≤ (BC) ≤ 45: procentul salariaţilor de peste 45 de ani.
Observăm că atunci când x = 15 şi y = 25, (BC) = 25; dacă x=30 şi y=30, (BC)=45
Nici una din condiţiile problemei nu împiedică pe x, y şi deci (BC) să atingă valorile
limită, prin urmare, nici o îmbunătăţire a acestor limite nu este posibilă.

17
2.6 Aplicaţii la caracteristici calitative
2.6.1 Rezumatul cursului anterior
1. Un ansamblu de elemente poate fi împărţit în două grupe, în funcţie de faptul dacă
posedă sau nu o caracteristică calitativă particulară. Acest procedeu se numeşte
dihotomie.
2. Continuarea dihotomiei în funcţie de n caracteristici calitative dă naştere la 3n grupe.
3. Frecvenţele acestor grupe pot fi exprimate cu ajutorul a 2n frecvenţe de grupă finale
sau a celor 2n frecvenţe de grupă pozitive (cele notate cu A, B, C…).
4. Dîndu-se 2n frecvenţe de grupă independente, toate frecvenţele de grupă pot fi
calculate cu ajutorul lor.
5. Condiţia necesară şi suficientă de concordanţă a unei serii de frecvenţe de grupă
independente, relativ la o populaţie particulară, este ca nici o frecvenţă finală ce poate fi
calculată cu ajutorul acestora să nu fie negativă.
6. În virtutea importanţei practice a frecvenţelor de grupă pozitive, condiţiile de
concordanţă sînt exprimate numai cu ajutorul acestora.
7. Condiţiile de concordanţă pot fi folosite pentru a cerceta datele inexacte sau
incomplete. Pentru cel din urmă caz, se pot determina limitele necunoscute ale
frecvenţelor de grupă.

Ex.1:
Fie o populaţie statistică studiată din perspectiva a 3 caracteristici calitative A, B, C.
1) Se cunosc frecvenţele finale; să se afle frecvenţele de grupă pozitive.
2) Să se arate că numărul total de observaţii No este egal cu numărul N al populaţiei.
3) Invers, dîndu-se N şi frecvenţele de grupă pozitive, să se afle toate frecvenţele de
grupă (în număr de 27)
1)
(ABC 57
)
(ABc) 281
(AbC) 86
(Abc) 453
(aBC) 78
(aBc) 670
(abC) 65
(abc) 8310

Frecvenţa oricărei grupe de ordinul întâi, de exemplu (A) este dată de suma celor patru
frecvenţe de ordinul al treilea, în care prima literă este A:
(1) (A) = (ABC) + (ABc) + (AbC) + (Abc) = 877; urmează prin permutări circulare:
(2) (B) = (ABC) + (aBC) + (ABc) + (aBc) = 57 + 78 + 281 + 670 = 1086
(3) (C) = (ABC) + (AbC) + (aBC) + (abC) = 57 + 86 + 78 + 65 = 286
În mod analog, frecvenţa oricărei grupe de ordinul al doilea, de ex. (AB), este dată de
suma acelor frecvenţe de ordinul al treilea, în care prima pereche de litere este A, B:
(4) (AB) = (ABC) + (ABc) = 57 + 281= 338
(5) (AC) = (ABC) + (AbC) = 57 + 86 = 143
(6) (BC) = (ABC) + (aBC) = 57 + 78 = 135
(ABC) = 57

18
Rezultatele complete se trec într-un tabel
N 10000
(A) 877
(B) 1086
(C) 286
(AB) 338
(AC) 143
(BC) 135
(ABC 57
)

2) No, nr. de observaţii este dat de suma frecvenţelor de grupă finale, care sînt
independente, deci fiecare individ dintr-o grupă finală necesită o observaţie separată.
No = (ABC) + (ABc) + (AbC) + (Abc) + (aBC) + (aBc) + (abC) + (abc) = 10000
Se poate calcula şi N, volumul populaţiei statistice studiate, după formula cunoscută:
N = (A) + (B) + (C) – (AB) – (AC) – (BC) + (ABC) + (abc) = 877 + 1086 + 286 – 338 – 143
– 135 + 57 + 8310 = 10000. Se vede că N = No
3) Se cunosc:
N = 10000; (A) = 877; (B) = 1086; (C) = 286; (AB) = 338; (AC) = 143; (BC) = 135; (ABC)
= 57
Trebuie aflate toate celelalte frecvenţe de grupă, în total 27, frecvenţa de ordin 0 fiind
N=10000.
Din (4) (ABc) = (AB) – (ABC) = 338 – 57 = 281
Din (5) (AbC) = (AC) – (ABC) = 143 – 57 = 86
Din (6) (aBC) = (BC) – (ABC) = 135 – 57 = 78
Din (3) (abC) = (C) – (ABC) – (AbC) – (aBC) = (C) – (AbC) – (BC) =
= 286 – 125 – 86 = 65
Asemănător (sau prin permutări circulare)
(Abc) = (A) – (ABC) – (ABc) – (AbC) = 453 şi
(aBc) = (B) – (ABC) – (aBC) – (ABc) = 670
În sfîrşit, (abc) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) = 8310
(sau, scriind că (bc) = (Abc) + (abc), deci (abc) = (bc) – (Abc); (bc) = N – (B) – (C) +
(BC), deci (abc) = 8310)). Au mai rămas de calculat a, b, c:
a = N – (A) = 10000 – 877 = 9123; b= N – (B) = 10000 – 1086 = 8914;
c=10000-286= 9714;
Şi mai avem de calculat frecvenţele de tipul:
(aB) = (aBC) + (aBc) = 78 + 670 = 748,
(Ab) = (AbC) + (Abc) = 86 + 453 = 539
(ab) = (abC) + (abc) = 65 + 8310 = 8375 şi permutările circulare corespunzătoare:
(bC)=(AbC)+(abC)=86+65=151; (Ac)=(ABc)+(Abc)=281+453=734;
(Bc)=(ABc)+(aBc)=281+670=951; (aC)=(aBC)+(abC)=78+65=143;
(bc)=(Abc)+(abc)=453+8310=8763; (ac)=(aBc)+(abc)=670+8310=8980
Cele 27 de frecvenţe se trec într-un tabel.

Ex.2: La un institut de învăţământ superior se dau la matematică examene la


disciplinele: analiză, geometrie, informatică. Au promovat la sfârşitul sesiunii 89%
studenţi la analiză, 91% la geometrie şi 92% la informatică. Se cere numărul minim de
studenţi integralişti.
Se demonstrează prin inducţie:

19
(A1A2…..Am) ≥ (A1) + (A2) +…+ (Am) – (m – 1)N, N fiind numărul de unităţi statistice
care au proprietăţile A1, A2, … Am; (am m proprietăţi şi N unităţi statistice)
În cazul nostru, luăm N=100 şi aplicăm formula:
(ABC) ≥ (A) + (B) + (C) – (3-1)100, unde (A)=89, (B)=91, (C)=92. Obţinem (ABC)≥72
Deci avem cel puţin 72% integralişti.
Să calculăm datele când avem exact 72 de integralişti:
Deci trebuie să avem (ABC) = (A) + (B) + (C) – 2N (*)
Frecvenţa oricărei grupe de ordinul întîi este dată de suma celor 4 frecvenţe de ordinul
al treilea în care prima literă este A
Deci (A) = (ABC) + (ABc) + (AbC) + (Abc); (B) = (ABC) + (ABc) + (aBC) + (aBc);
(C) = (ABC) + (AbC) + (aBC) + (abC); rezultă cf (*)
(ABC) = (ABC) + (ABc) + (AbC) + (Abc) + (ABC) + (ABc) + (aBC) + (aBc) + (ABC) +
(AbC) + (aBC) + (abC) – 2N (x)
dar N = (ABC) + (aBC) + (AbC) + (ABc) + (Abc) + (aBc) + (abC) + (abc) (y)
Din (x) şi (y), avem:
(ABC) = 3(ABC) + 2(ABc) + 2(AbC) + (Abc) + 2(aBC) + (aBc) + (abC) – 2(ABC) –
2(aBC) – 2(AbC) – 2(ABc) – 2(Abc) – 2( aBc) – 2(abC) – 2(abc), deci
0 = – (Abc) – (aBc) – (abC) – 2(abc), ceea ce nu e posibil, având în vedere pozitivitatea
lor, decât dacă (Abc) = 0, (aBc) = 0, (abC) = 0, (abc) = 0. Deci numărul minim de
integralişti se obţine atunci când nu există nici un student care a căzut la mai mult de o
materie.
Adică, din ultimele relaţii, rezultă (bc) = (Abc) + (abc) = 0, analog (ab) = 0, (ac) = 0,
(abc) = 0, deci nimeni nu a picat la 2 examene, necum la 3 examene.

2.7 Problema propuse4


1) Datele de mai jos reprezintă numărul băieţilor de vârstă şcolară care prezintă
anumite deficienţe. A reprezintă deficienţe de dezvoltare, B deficienţe nervoase, C
subnutriţie.
(ABC) – 149; (ABc) – 738; (AbC) – 225; (Abc) – 1196; (aBC) – 204; (aBc) – 1762; (abC)
– 171; (abc) – 21842. Să se găsească frecvenţele de grupă pozitive.
R: N – 26287; (A) – 2308; (B) – 2853; (C) – 749; (AB) – 887; (AC) – 374; (BC) – 353;
(ABC) – 149.

2) Datele de mai jos reprezintă frecvenţele de grupă pozitive în aceeaşi investigaţie


efectuată asupra fetelor; să se găsească frecvenţele de grupă finale.
N – 23713; (A) – 1618; (B) – 2015; (C) – 770; (AB) – 587; (AC) – 428; (BC) – 335; (ABC)
– 156.
R: (ABC) – 156; (ABc) – 431; (AbC) – 272; (Abc) – 759; (aBC) – 179; (aBc) – 1249;
(abC) – 163; (abc) – 20504

3) Să se arate că dacă A are loc într-o proporţie mai mare în cazurile în care se constată
şi prezenţa lui B decât în cazurile cînd prezenţa lui B nu se constată, atunci B va fi
constatat într-o proporţie mai mare în cazurile în care A se constată decât în cazurile în
care A nu se constată.
Adică, dîndu-se inegalitatea (AB)/(B) >(Ab)/(b), să se arate că (AB)/(A) >(aB)/(a)
R: (AB)/(Ab) >(B)/(b); (AB)/(AB)+(Ab) >(B)/(B)+(b); adică (AB)/(B) >(A)/N; adică
(AB)/(B)-(AB) >(A)/N-(A), adică (AB)/(aB) >(A)/(a)

4) Ştiind că (A) = (a) = (B) = (b) = N/2, să se arate că (AB) = (ab); (Ab) = (aB)
4
După Yule şi Kendall 1969, pp.39-42.

20
R: (A) = (AB) + (Ab)
(a) = (aB) + (ab); Cf. ipoteză, (AB) + (Ab) = (aB) + (ab) (1)
(B) = (AB) + (aB)
(b) = (Ab) + (ab); cf. ip, (AB) + (aB) = (Ab) + (ab) (2); scăzînd (2) din (1),
(Ab) – (aB) = (aB) – (Ab), adică 2(Ab) = 2(aB), deci (Ab)=(aB).
Ţinînd cont de 1), (AB) = (ab)

5) Ştiind că (A) = (a) = (B) = (b) = (C) = (c) = N/2, şi (ABC) = (abc), să se arate că
2(ABC) = (AB) + (AC) + (BC) – N/2
R: Se ştie că N= (A) + (B) + (C) – (AB) – (BC) – (CA) + (ABC) + (abc) ⇔
N = N/2 + N/2 + N/2 – (AB) – (BC) – (CA) + 2(ABC) ⇔
(AB) + (BC) + (CA) – N/2 = 2(ABC), qed.
Se mai poate arăta că (Ab) = (aB); (Ac)=(aC); (Bc)=(bC); şi că
(ABc) + (AbC) + (Abc)= (aBC) + (aBc) + (abC) etc plus permutări
Ultimele relaţii se demonstrează din:
(1) (A) = (ABC) + (ABc) + (AbC) + (Abc); urmează prin permutări circulare:
(2) (B) = (ABC) + (aBC) + (ABc) + (aBc)
(3) (C) = (ABC) + (AbC) + (aBC) + (abC)
(4) (a) = (aBC) + (aBc) + (abC) + (abc)
(5) (b) = (AbC) + (abC) + (Abc) + (abc)
(6) (c) = (ABc) + (Abc) + (aBc) + (abc);
din (1), (2), avem: (AbC) + (Abc) = (aBC) + (aBc), adică
(Ab)=(aB);
(Ac)=(aC); din 1,3; (Bc)=(bC); din (2),(3)

5) Se efectuează câteva măsurători de masă asupra înălţimii a o mie de perechi soţ-soţie.


Dacă la o măsurătoare, înălţimea soţilor a depăşit înălţimea soţiilor în 800 de cazuri, la o
altă măsurătoare, în 700 de cazuri şi la ambele măsurători în 660 de cazuri, în câte
cazuri de două măsurători înălţimea soţiilor va depăşi pe cea a soţilor?
R: Se ia A = soţi care depăşesc înălţimea soţiei la prima măsurătoare, B = soţi care
depăşesc înălţimea soţiei la a doua măsurătoare şi se află (ab) = 160.
(ab) = N – (A) – (B) + (AB) = 1000 – 800 – 700 + 660 = 160.

Obs. Statistica funcţionează atunci când principiul identităţii nu mai funcţionează? Sau
principiul identităţii este asimilat cu fenomenul „erorii de măsurătoare”; adică, obiectul
A are proprietatea P la măsurătoarea k, dar se poate la măsurătoarea k+1 să nu mai
reiasă că are această proprietate? Dacă obiectul A aparţine unei mase statistice, faptul
de mai sus nu deranjează demersul statistic, atâta timp cât obiectul A este studiat alături
de alte 999 de unităţi statistice relativ la proprietatea P.

6) O sută de copii sunt supuşi la trei examene. 40 dintre ei promovează primul examen,
39 al doilea şi 48 al treilea; 10 au trecut la toate trei examene, 21 au căzut la toate trei, 19
au căzut la primele două şi au trecut la al treilea. Să se afle câţi copii au trecut la cel
puţin două examene. Să se arate că, pentru a obţine rezultatul cerut, anumite frecvenţe
date nu ne sunt necesare. Care dintre ele? Să se arate că datele de mai sus nu sunt
suficiente pentru a permite determinarea frecvenţelor de grupă finale.
R: Dacă A, B, C sunt respectiv cei ce trec primul, al doilea şi al treilea examen, (C),
(abC) şi (ABc) sunt toate datele necesare pentru a răspunde la întrebare. Celelalte 5
frecvenţe (inclusiv N) sunt de prisos. Mai departe, N – (abC) – (abc) = (A) + (B) – (ABC)

21
– (ABc), adică există o relaţie liniară între frecvenţele date în problemă şi frecvenţele de
grupă finale, care mai înainte ne erau necunoscute.

7) (Lewis Carroll) Într-o bătălie crâncenă cel puţin 70% din combatanţi şi-au pierdut
câte un ochi, cel puţin 75% şi-au pierdut câte o ureche, cel puţin 80% şi-au pierdut câte
un braţ şi cel puţin 85% şi-au pierdut câte un picior. Să se afle câţi combatanţi au
pierdut simultan, cel puţin, toate acestea (un ochi, o ureche, un braţ, un picior).
R: 10%

8) Generalizare: Să se arate că dacă se dau n caracteristici calitative, A, B, C…M, atunci


(ABC…M) ≥ (A) + (B) + (C) +… + (M) – (n-1)N, unde N este frecvenţa totală

9) Într-un război între două triburi A şi B erau mai mulţi soldaţi B decât A, mai mulţi A
înarmaţi decît B neînarmaţi, mai puţin B înarmaţi cu muniţii decât A neînarmaţi fără
muniţii. Să se arate că erau mai mulţi B înarmaţi fără muniţii decât A neînarmaţi cu
muniţii.

10) O anchetă a pieţei ne-a oferit următoarele date. Din 1000 de oameni chestionaţi, 811
preferă ciocolata, 752 caramelele, 418 bomboanele. La 570 le place ciocolata şi
caramelele, la 356 ciocolata şi bomboanele, la 348 caramelele şi bomboanele; la 297 le
place toate trei. Să se arate că aceste informaţii sunt incorecte.
R: Dacă A, B, C denotă preferinţele pentru ciocolată, caramele şi bomboane, (abc) este
negativă.

11) Se analizează silogismul „Toate elementele A sunt elemente B, toate elementele B


sunt elemente C, deci toate elementele A sunt elemente C”. Să se exprime premizele cu
ajutorul notaţiilor de mai sus şi să se demonstreze concluzia cu ajutorul condiţiilor
generale de concordanţă.

12) Să se facă acelaşi lucru pentru silogismul „Toate elementele A sunt elemente B şi nici
un element B nu este C, prin urmare nici un element A nu este C”.

13) Dându-se relaţiile (A) = (B) = (C) = 1/2N şi (AB)/N = (AC)/N = p, să se găsească cea
mai mică şi cea mai mare valoare a lui p, astfel ca (BC)/N să depăşească o valoare dată
q.
R: p≤1/4(1-2q), p≥1/4(1+2q), adică p trebuie să se afle între 0 şi 1/2(1-2q) sau între
¼(1+2q) şi ½.

14) Să se arate că dacă (A)/N = x, (B)/N = 2x, (C)/N = 3x şi


(AB)/N=(AC)/N =(BC)/N=y, nici x şi nici y nu depăşesc ¼
R: se foloseşte (BC) ≥ (B) + (C) – (N)

15) O monedă este aruncată de trei ori şi se notează rezultatele (stema sau valoarea).
Procesul este continuat până se obţin 100 de grupe de câte trei aruncări. În 69 de cazuri,
valoarea a căzut întîi, în 49 de cazuri valoarea a căzut a doua oară şi în 53 de cazuri
valoarea a căzut a treia oară. În 33 de cazuri, valoarea a căzut prima şi a doua oară, iar
în 21 de cazuri valoarea a căzut şi a doua şi a treia oară. Să se arate că au existat cel
puţin 5 cazuri în care valoarea a căzut de 3 ori şi că nu au existat mai mult de 15 cazuri
în care stema a căzut de 3 ori, deşi nu este obligatoriu să fi existat un astfel de caz.

22
3.Caracteristici cantitative
3.1. Serie statistică
O serie reprezintă o ordonare de date numerice în ordine crescătoare sau
descrescătoare. Diferenţa dintre numărul cel mai mare şi cel mai mic reprezintă câmpul
de variaţie a datelor.
Ex:
Se iau la întîmplare 10 studenţi care se ordonează după nota la statistică. Câmpul de
variaţie este de 10 – 2 = 8 unităţi

Distribuţia sau repartiţia statistică a variabilei xi

Nota Nr. elevi Frecv.


(caracteristica) sau relativă
sau frecvenţă absolută fi
variabila statistică ni
sau
variabilă xi
2 1 0,025
3 1 0,025
4 2 0,050
5 4 0,100
6 7 0,175
7 15 0,375
8 6 0,150
9 3 0,075
10 1 0,025

40
3.2.Frecvenţă absolută. Frecvenţă relativă. Frecvenţe cumulate
Distribuţii de frecvenţe: Pentru a rezuma o mare cantitate de date, e necesară
împărţirea acestora în clase sau grupe. Distribuţia de frecvenţe este ordonarea într-un
tabel a datelor pe clase, fiecărei clase corespunzându-i o frecvenţă:
Se numeşte frecvenţă absolută a unei valori x a caracteristicii, numărul de unităţi ale
populaţiei corespunzătoare acelei valori.
Se numeşte frecvenţă relativă (sau pe scurt, frecvenţă) a unei valori x a caracteristicii,
raportul dintre frecvenţa absolută a valorii x şi efectivul total al populaţiei. Se poate da
în procente: cât la sută reprezintă cei 6 elevi cu nota 8, dintr-un efectiv de 40 elevi?
15%!
Mai adăugăm o coloană la tabel:

Aceste tabele scot în evidenţă o corespondenţă între două mulţimi de numere (o funcţie):
între mulţimea valorilor caracteristicii şi mulţimea frecvenţelor corespunzătoare
Un tabel precum cel de mai sus defineşte distribuţia sau repartiţia statistică a variabilei
respective.
Se observă că suma frecvenţelor relative a tuturor valorilor variabilei este 1.
Frecvenţa relativă poate reprezenta probabilitatea de a întîlni caracteristica respectivă
într-o mulţime statistică.

23
3.3.Frecvențe cumulate
Definiție: Fie x o valoare a caracteristicii. Numim frecvenţă cumulată crescătoare a
valorii x, suma frecvenţelor absolute ale tuturor valorilor caracteristicii pînă la x
inclusiv. Frecvenţa cumulată crescătoare se mai notează cu N(x).
Se numeşte frecvenţă absolută cumulată descrescătoare a unei valori x, suma frecvenţelor
absolute ale tuturor valorilor care apar de la x inclusiv.

Ex:
Nota Frecv abs Frecv rel Frecv abs Frec abs Frecv rel Frecv rel
Xi Ni fi cumulată cumulată cumulată cumulat
descresc Ni crescătoare Ni descresc Fi ă
↓ ↑ ↓ cresc Fi↑
2 1 0,025 40 1 1 0,025
3 1 0,025 39 2 0,975 0,050
4 2 0,050 38 4 0,950 0,100
5 4 0,100 36 8 0,900 0,200
6 7 0,175 32 15 0,800 0,375
7 15 0,375 25 30 0,625 0,750
8 6 0,150 10 36 0,250 0,900
9 3 0,075 4 39 0,100 0,975
10 1 0,025 1 40 0,025 1

Frecvenţa absolută cumulată descrescătoare (crescătoare) a valorii x ne dă numărul de


unităţi corespunzătoare valorilor strict mai mari (mai mici) sau egale cu x.
Există 40 de elevi cu note mai mari sau egale cu 2, 39 cu note mai mari sau egale cu 3….
25 cu note mai mari sau egale cu 7, … 1 elev cu note mai mari sau egale cu 10.
Există 1 elev cu nota mai mică sau egală cu 2, 2 elevi cu note mai mci sau egale cu 3, ….
15 elevi cu note mai mici sau egale cu 6,…. 40 de elevi cu note mai mici sau egale cu 10.
Să citim linia coresp, notei 7:
avem 15 elevi cu nota 7, adică 37,5% din clasă; 25 de elevi cu note mai mari sau egale cu
7, adică 62,5% din clasă şi 30 de elevi cu note mai mici sau egale cu 7, adică 75% din
clasă.

3.4. Interval de clasă, limită de clasă, amplitudine, valoare centrală


Intervalul de clasă este 2-10; 2 = limită inferioară a clasei de notare
10 = limită superioară.
Amplitudinea clasei: L – l = 10 – 2 = 8.
Valoarea centrală a clasei = (L+l)/2 = 6

3.5.Reguli pentru formarea distribuţiei de frecvenţe: Histograma şi poligonul


frecvenţelor
1. Se determină cea mai mare şi cea mai mică valoare a datelor seriei pentru a se stabili
câmpul de variaţie.
2. Se divide câmpul de variaţie într-un număr stabilit de clase cu aceeaşi amplitudine.
Dacă nu este posibil, atunci se vor considera clase cu diferite amplitudini (intervale de
clase inegale). Numărul claselor este de regulă, cuprins între 5 şi 20.

24
3. Se determină numărul de valori care aparţin fiecărei clase. Acest număr reprezintă
frecvenţa clasei respective.

Histograma este un grafic al repartiţiei pe clase de valori, format dintr-o succesiune de


dreptunghiuri alăturate, având suprafeţele proporţionale cu frecvenţa fiecărei clase. Se
construieşte în coordonate rectangulare: pe abscisă se trec valorile variabilei care
delimitează clasele, pe ordonată se trec frecvenţele fiecărei clase.

Ex
Valori ale clasei Număr de elevi
(de notare) (din acea clasă)
(xi, xi+1) frecv. absolută
ni
2-4 2
4-6 6
6-8 22
8-10 10

Luăm intervalele /2,4), /4,6), /6,8), /8,10/

Desenăm histograma şi poligonul frecvenţelor

Histograma

1; Series3; 22

1; Series4; 10

1; Series2; 6

1; Series1; 2

Poligonul frecvenţelor este un grafic al repartiţiei pe clase de valori, definit de o linie


frîntă care uneşte perpendicularele, proporţionale cu frecvenţele, ridicate din centrele
claselor înscrise pe abscise.

Reprezentarea distribuţiilor de frecvenţe relative şi poligonul frecvenţelor relative (sau


procentual) se obţine pornind de la histograma sau poligonul frecvenţelor, înlocuind pe
ordonată, frecvenţele absolute cu cele relative.

3.6 Histograma pentru intervale inegale

25
În cazul în care studiul seriei statistice nu permite folosirea intervalelor egale (mai
comodă de reprezentat), la reprezentarea grafică a seriei cu ajutorul histogramei
(precum şi în calculul valorii modale) se vor folosi frecvenţele absolute reduse.
Ex: Fie următoarea serie statistică ce reprezintă numărul de elevi înscrişi în anumite
unităţi de învăţământ (200 de unităţi de învăţământ).
Număr de elevi Număr de unităţi de învăţământ
înscrişi
[300-500) 19
[500-800) 33
[800-1200) 64
[1200-1500) 57
>1500 27
Total 200

Pentru a reprezenta grafic histograma, alcătuim următorul tabel:

(xi,xi+1) x’i ni di di ni
'
k i= ni =
mijlocul frecvenţe mărimea d min ki
intervalului absolute intervalului coeficienţii de frecvenţe
reducere a reduse
frecvenţelor
[300- 400 19 200 1 19
500)
[500- 650 33 300 1.5 22
800)
[800- 1000 64 400 2 32
1200)
[1200- 1350 57 300 1.5 38
1500)
>1500 1650 27 300 1.5 18
200

stograma va arăta astfel:

26
3.7.Distribuţii de frecvenţe cumulate
Se ia tabelul histogramei şi se completează cu frecvenţele cumulate ascendent şi
descendent.
Valori ale clasei Număr de elevi Frecv frecv
(de notare) (din acea clasă) cumulat cumulat
frecv. absolută ascendent descendent
2-4 2 2 40
4-6 6 8 38
6-8 22 30 32
8-10 10 40 10

Fie distribuţia frecvenţelor


Profit Nr. de firme
200-500 30
500-800 40
800-1100 20
1100- 10
1400

Distribuţia frecvenţelor cumulate

Profit Frecv cumulată Frecv cumulată


ascendent descendent
200-500 30 100
200-800 70 70
200-1100 90 30
200-1400 100 10

27
Grafic vor rezulta poligonul frecvenţelor cumulate ascendent şi cel al frecvenţelor
cumulate descendent.
Ex: Vârsta mamelor la naştere, în anul 1995
Intervale 10-14 15-19 20-24 25-29 30-34 35- 40-44 45- Total
de vîrstă ani ani ani ani ani 39 ani 49
ani ani
Frecvenţ 492 40.337 98.07 67.154 18.947 8.907 2.565 162 236.639
e 5
absolute
Procente 0,2 17,0 41,4 28,4 8,0 3,8 1,1 0,1 100

Frecvenţe cumulate
A. Ascendente
Praguri de su su sub sub 25 sub 30 sub 35 sub 40 sub 45 sub 50
Vîrstă b b 20 ani ani ani ani ani ani
10 15 ani
ai ani
Frecvenţe 0 49 40.82 138.90 206.05 225.00 233.91 236.44 236.63
cumulate 2 9 4 8 5 2 7 9
ascendent
e
Procente 0 0,2 17,3 58,7 87,1 95,1 98,8 99,9 100
cumulate
ascendent

B. Descendente
Praguri de 10 ani 15 ani 20 ani 25 ani 30 ani 35 ani 40 45 50
Vîrstă şi peste şi peste şi peste şi şi şi ani ani ani
peste peste peste şi şi şi
peste peste pest
e
Frecvenţe 236.639 236.14 195.81 97.73 30.58 11.63 2.72 162 0
cumulate 7 0 5 1 4 7
descendent
e
Procente 100 99,8 82,7 41,3 12,9 4,9 1,2 0,1 0
cumulate
descendent
e
Informaţii utile: 87,1% dintre naşterile din 1995 se datorează femeilor sub 30 de ani;
valori complementare: 12,9% din naşterile din 1995 se datorează femeilor de 30 de ani şi
peste.

Ni

28
xi
Linia poligonală ataşată frecvenţelor cumulate din tabel sau ogiva procentuală

Obs. O variabilă statistică de tip cantitativ este o funcţie f:X→F sau f:X→P, P= (0,1)
care asociază caracteristicii xi frecvenţa fi sau probabilitatea pi (cînd se lucrează cu
frecvenţe relative).
Linia poligonală a frecvenţelor este privită ca forma imperfectă a unei curbe, care
reflectă legea teoretică de distribuţie a fenomenului statistic studiat. De cele mai multe
ori nu avem nici un argument să prespunem că în spatele datelor empirice ar sta o
formă matematică. În cazul variabilelor continue, dacă am avea de a face cu o populaţie
infinită şi dacă am putea măsura valorile cu oricîtă precizie dorim, atunci punctele de
coordonate (xi, pi) ale graficului se apropie unele de altele şi la limită se obţine o funcţie
continuă.
În general, adică şi în cazul variabilelor continue şi a celor discontinue, funcţia empirică
f:X→P aproximează funcţia teoretică numită densitatea de repartiţie, sau densitate de
probabilitate a variabilei aleatoare.
Fie seria de valori xi, x2,…..xn şi seria de frecvenţe cumulate relative p1, p1+p2, p1+p2+
…pn= 1. Se defineşte o fincţie F(x) numită funcţie de densitate, care pune în
corespondenţă cele două şiruri de valori:
F(xi) = p1 + p2 + … + pi; această funcţie este crescătoare şi atinge pentru ultimul x din
serie, valoarea 1. Se observă că de fapt, F(x) = ∫ (0,x)f(t)dt şi F’(x) = f(x)

3.8 Tipuri de curbe ale frecvenţelor


a) Curba simetrică – observările echidistante faţă de maximul central au aceeaşi
frecvenţă (ex, curba normală)
b) Curba oblică la stânga sau la dreapta;
c) Curbă ascendentă (omegamodală) sau descendente (alfamodală) – maximul se află
într-una din extremităţile curbei
d) Curba în formă de U, cu maxim la extremităţi şi minim la mijlocul intervalului
e) Curba bimodală are două puncte de maxim
f) Curba plurimodală are mai multe puncte de maxim.

3.9. Aplicație la caracteristici cantitative


Probleme privind: gruparea datelor după caracteristici diferite, determinarea valorilor
centrale, a frecvenţelor de grupă, frecvenţe cumulate, histograma şi poligonul
frecvenţelor, poligonul frecevenţelor cumulate

Ex:

29
1. Se dau datele:
x 1 1 2 3 4 5 7 8 9 11 12 13 14 15 19 20 21 22 23 24 25 26 27 28

a) grupaţi datele după caracteristica x în 4 grupe egale


b) determinaţi valoarea centrală pentru fiecare grupă
c) găsiţi clasa cu frecvenţa cea mai mare
d) aflaţi frecvența unităţilor pentru care x este mai mare decît 10
e) determinaţi frecvenţele absolute cumulate ascendent şi descendent pentru cele 4 clase
f) construiţi poligonul frecvenţelor şi histograma pentru datele de la a)
g) construiţi curba frecvenţelor absolute cumulate ascendent şi descendent

4.Indicatori ai tendinței centrale: Media, mediana, modul şi alţi indicatori de poziţie


Media este acea valoare care se obţine împărţind suma valorilor tuturor
indivizilor unei populaţii la numărul acestora, ceea ce semnifică faptul că media este
acea valoare comună pe care ar trebui să o ia fiecare individ din populaţie astfel încât să
se păstreze neschimbată suma valorilor. Pentru o variabilă X = ( x 1, x 2,….. x n), valoarea
n
xi
medie M = ∑ (1) Dacă valorile x i sunt luate cu frecvenţele ni , atunci media devine M=
i=1 n
n
xi ni
∑ N (2) adică, în loc ca un x i să se adune cu el însuşi de ni ori, este mai simplu să se
i=1
n
înmulţească cu respectiva frecvenţă; N = ∑ ni;
i=1

Ne întoarcem la exemplul cu notele la statistică:

xi ni mi
2 1 2
3 1 3
4 2 8
5 4 20
6 7 42
7 1 105
8 5 48
9 6 27
10 3 10
1

n
xi ni
M=∑ = (2∙ 1+3∙1+4∙2+5∙4+6∙7+7∙15+8∙6+9∙3+10∙1)/40 = 265/40 = 6,625
i=1 n
Formula de mai sus nu este o medie ponderată (se confundă cu ea), considerând
frecvenţa drept pondere. În media ponderată, indivizii diferiţi au ponderi diferite în

30
determinarea valorii medii. De pildă, în sistemul de credite utilizat în învăţămîntul
superior, fiecare disciplină e dotată cu un număr de credite ce reflectă importanţa ei în
contextul disciplinelor. Dacă avem 5 discipline A; B; C; D; E cu creditele 4, 5, 6, 7, 8
(total 30) şi un student ia notele 10, 9, 9, 8, 8, atunci media simplă va fi M = (10 + 2 ∙9 + 2∙
8)/5 = 44/5 = 8.8 iar cea ponderată Mp = (4∙10 + 5∙9 + 6∙9 + 7∙8 + 8∙8)/30 = 259/30 = 8.63

Proprietăţi ale mediei


1) Valoarea medie a unei populaţii descompuse în k subpopulaţii este egală cu media
mediilor din subpopulaţii, ponderate cu mărimea fiecărei subpopulaţii:
k k
ni mi
M=∑ , unde mi este media grupei i care conţine ni indivizi, N = ∑ ni
i=1 N i=1
k n
M = (n1 m1+ n2 m2+ n3 m3 +n 4 m4)/(n1 +n2+n3 +n 4) = ∑ ni mi/∑ ni
i=1 i=1
k k
mk = ∑ n p x p/∑ n p
p=1 p=1

2) Suma abaterilor valorilor de la medie este nulă:


n n

∑ ¿¿ M) = ∑ xn i – nM = 0
i=1 i=1
Când avem variabile care se repetă cu frecvenţa ni :
n

∑ ni ¿ ¿ M) = ∑nixi - ∑niM = 265 - M∑ni = 265 + 6,625∙40 = 0.


i=1

3) Media aritrmetică rămâne neschimbată dacă frecvenţele se înmulţesc sau se împart


cu acelaşi număr.
n
Formula (2) devine, împărţind numitorul şi numărătorul cu n: M = ∑ f i xi unde f i=ni /n
i=1

4) Dacă valorile variabilei X suferă o transformare liniară, atunci media noii variabile
X’ obţinute se regăseşte prin aceeaşi transformare: dacă xi’= a + bx, atunci M’ = a+bM

5) Media poate fi calculată chiar dacă nu cunoaştem distribuţia valorilor, ci numai suma
(şi numărul) lor
Valoarea medie nu o ia neapărat un individ statistic din seria considerată: (nu am luat
nota 9,41, ci media 9,41). M(7,8,10) = 8,33
Media nu e valoarea mijlocie (ex. M(26, 27, 28, 44) = 30)

Mediana
Mediana este acea valoare a caracteristicii care ocupă locul central în cadrul seriei
ordonate crescător sau descrescător, deci mediana împarte seria în două părţi egale.
1)Pentru serii simple. Dacă seria are un număr impar de termeni, mediana este acea
valoare a caracteristicii cu rangul (n+1)/2, după ce seria a fost ordonată. Faţă de
individul median din seria statistică, (n-1)/2 termeni rămân la stânga şi tot atâţia la
dreapta.

Ex: fie seria 80, 90, 100, 120, 140; Me=100


Dacă seria are un număr par de termeni, mediana este dată de media aritmetică a
termenilor centrali.

31
Ex: Fie seria 60, 80, 90, 100, 120, 130, 140, 160: Me= (100+120)/2 = 110, deci individul
median este virtual, plasat între unitatea de rang n/2 şi cea de rang n/2+1, individ căruia
îi acordăm ca valoare media aritmetică a valorilor celor două unităţi care îl încadrează.

2) Calculul Medianei pentru serii de distribuţie. Să reluăm exemplul cu notele la


matematică din clasa cu 40 de elevi:

xi ni Frecv abs fi Frecv rel


cumulată cumulată
crescătoare crescătoare Fi
Ni
2 1 1 0,025 0,025
3 1 2 0,025 0,050
4 2 4 0,050 0,100
5 4 8 0,100 0,200
6 7 15 0,175 0,375
7 15 30 Ni≥Ume 0,375 0,750
(Me) 6 36 0,150 0,900
8 3 39 0,075 0,975
9 1 40 0,025 1
10

{ }
N
dacă N= par
2
U me =
N +1
¿ dacă N=impar
2
Se calculează unitatea mediană Ume = N/2 = 40/2 = 20; În coloana lui Ni cobor până
când Ni≥Ume. Corespunzător lui Ni aflu caracteristica xi care este Mediana, Me =7;
N fiind par, vor exista doi indivizi mediani, nr. 20 şi 21 care iau ambii nota 7.

Dacă N este impar, va exista un individ median de rangul (N+1)/2, a cărui frecvenţă o
găsim la fel: Calculez frecvenţa cumulată Ni care depăşeşte prima 50% din efectivul
total. În dreptul ei aflu caracteristica corespunzătoare xi=Me
Am văzut că dacă N e cu soţ şi indivizii N/2 şi N/2+1 au aceeaşi caracteristică (ambii iau
nota 7), atunci aceasta reprezintă mediana ca mărime.
Dacă individul N/2 ia valoarea xi şi individul N/2+1 ia valoarea xi+1, (deci indivizii
mediani au frecvenţe diferite), atunci Me= (k i x i + k i+1 x i+ 1)/(k i + k i+1)

Ex 1)Fie datele ce reprezintă numărul familiilor cu 0, 1, 2, 3, 4, 5, 6, 7 copiii din 90 de


familii studiate. Să se afle: a) media numărului de copii pe familie; mediana şi ce
reprezintă: (câţi copii au familiile care au proprietatea că familiile cu un număr de copii
mai mic sau mai mare apar cu frecvenţe egale) c) modul şi ce reprezintă (câţi copii au
cele mai multe dintre familii reprezintă modul caracteristicii)
Când Ni depăşeşte Ume= n/2, găsesc în tabel valoarea caracteristicii la care corespunde.
xi ni Ni↑ fi=ni/n Fi↑
0 6 6 0,07 0,07
1 18 24 0,20 0,27

32
2 23 47 Ume=90/2=45 0,255 0,525 ≥Ume=1/2
(Me) (Ni≥Ume)
3 20 67 0,22 0,745
4 14 81 0,175 0,900
5 6 87 0,07 0,970
6 2 89 0,02 0,990
7 1 90 0,01 1,00
Total 90 - 1,00 -

3) Pentru intervale de valori. Când frecvenţele corespund unor intervale de valori


determinarea Me presupune efectuarea următoarelor operaţii:
1: determinarea şirului frecvenţelor cumulate Ni;
2: calcularea unităţii mediane U Me şi găsirea locului ei în şirul frecvenţelor cumulate,
respectând condiţia N i ≥ U Me;
3: aflarea intervalului median în dreptul N i ≥ U Me;
4: determinarea Me prin interpolare, în cadrul intervalului median, după formula
U Me −N i−1
Me = x i−1 + d
n Me
unde: x i−1 – limita inferioară a intervalului median
d – mărimea intervalului median
U Me – unitatea mediană
N i−1 – frecvenţa cumulată anterior intervalului median
n Me – frecvenţa intervalului median

{ }
∑ ni , când ∑ n este par
i
U Me = 2
∑ ni+ 1 , când ∑ n este impar
i
2

Ex: să se afle mediana pentru următoarea caracteristică dată sub formă de intervale de
valori:

xi ni Ni
2-4 2 2
4-6 6 8
6-8 22 30
8- 10 40
10

U Me = ∑ ni 40
= = 20; intervalul median se află în dreptul frecvenţei cumulate N i
2 2
pentru care N i ≥ U Me; rezultă N i−1= 8; intervalul median este (6;8) şi are frecvenţa ni =
20−8
22; x i−1= 6, x i= 8, → d = 8 – 6 = 2; → Me = 6 + 2 = 7.09 ≅ 7.
22

Metoda de interpolare pentru determinarea medianei – (facultativ)

33
DE BC U Me −N i−1 N i−N i−1 ni
tg∝ = = → = = → Me ni −¿ x i−1 ni = U Me d−N i−1 d →
AE AC Me−x i−1 x i−x i−1 d
U Me −N i−1
Me = x i−1 + d
n Me

Determinarea grafică a Medianei


Se desenează graficele frecvenţelor cumulate ascedent şi descendent. Punctul lor de
intersecţie, se proiectează pe axa Ox. Se obţine valoarea Medianei.

5.Modul (Dominanta) Mo şi alți indicatori ai tendinței centrale


Modul este valoarea caracteristicii cea mai frecvent observată într-o distribuţie;
valoarea caracteristicii ce corespunde frecvenţei celei mai mari.
Pentru o variabilă discretă, X ( x i ,n i), i = 1 , n, aflarea modului presupune:
1: se găseşte frecvenţa maximă a seriei, ni =n max
2: se citeşte în dreptul frecvenţei maxime, valoarea caracteristicii corespunzătoare, egală
cu modul, x i= M o. În cazul seriei de note, M o = 7.
Reprezentăm grafic o serie unimodală (cu un singur maxim), ni =ni ( x i ¿ , o serie bimodală
(cu două valori de maxim); o serie plurimodală deasemenea, se poate considera că
posedă un mod absolut şi mai multe moduri relative.

În cazul datelor grupate pe intervale de variaţie, determinarea modului


presupune:
1.aflarea frecvenţei maxime (ni =n max)
2.citirea intervalului modal ( x i−1, x i) corespunzător frecvenţei maxime
∆1
3.efectuarea interpolării în intervalul modal după relaţia: M o=¿ x i−1 + d unde
∆1 + ∆2
x i−1 = limita inferioară a intervalului modal
d = mărimea intervalului modal, d = x i −¿ x i−1
∆ 1 = diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului anterior celui
modal, ∆ 1 = ni −¿ ni−1;
∆ 2 = diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului următor celui
modal, ∆ 2 = ni −¿ ni +1
Pentru obţinerea acestei formule se foloseşte metoda diagonalelor folosind graficul
histogramei.

Ex: Să se afle modul pentru următoarea serie:

34
xi ni
2-4 2
4-6 6
6-8 22←n Mo
8-10 10

∆1 16
M o=¿ x i−1 + d =6+2 = 7.145.
∆1 + ∆2 16+12
Am aflat frecvenţa maximă – 22, în dreptul căreia aflăm intervalul modal, (6-8) (în care
se află modul).
x i−1 = 6; d = x i −¿ x i−1 = 8 – 6 = 2; ∆ 1 = ni −¿ ni−1 = 22 – 6 = 16; ∆ 2 = ni −¿ ni +1= 22 −¿ 10
= 12; M = 6.625; Me = 7.01; Mo = 7.145

5.1. O relaţie empirică între medie, mediană şi mod


Pentru o repartiţie simetrică, media mediana şi modul coincid. Pentru o repartiţie
oblică, ele nu coincid, ci media se află de partea celei mai mari frecvenţe (către coada
lungă a repartiţiei).
Mo = Me – 3(M – Me); Mediana se află între Medie şi Mod, la o treime din distanţa
dintre Medie şi Mod, măsurată de la Medie.
→ Mo = 3Me – 2M.
Concluzie: Media aritmetică este o formă de medie pentru orice problemă cu caracter
general. E simplu de determinat, e mai puţin afectată de erorile de selecţie decât
mediana.
Utilizarea medianei nu e de preferat în cazul unei variaţii discontinue. Modul e o formă
de medie greu adaptabilă utilizării elementare din cauza dificultăţii determinării sale.

5.2. Alţi indicatori ai tendinței centrale


1.Media unei caracteristici alternative (dihotomice)
Într-o caracteristică alternativă, unităţile statistice fie posedă o caracteristică, fie nu o
posedă. Dacă notăm cu N numărul total al unităţilor statistice, cu (A) efectivul care
posedă caracteristica şi cu ( A ) = N – (A) al celor care nu o posedă, distribuţia de
frecvenţe va fi:

xi ni fi
1 (A) ( A)
p=
N
0 ( A) = N – q =
(A) N – ( A)
N
Total N p+q=1

p = frecvenţa unităţilor cu caracteristica A


q = frecvenţa unităţilor fără caracteristica A

Media unei caracteristici alternative este M =


∑ x i ni =
1∙ ( A ) +0 ∙(N – ( A))
=
( A)
=p
∑ ni ( A )+N – ( A ) N
(%).
Media în cazul caracteristicilor alternative este egală cu ponderea p a unităţilor care
posedă caracteristica (A) în totalul unităţilor colectivităţii.

35
Ex. Într-un lot de 500 de piese, se găsesc N1 = 30 piese rebut. Procentul mediu al pieselor
( A) 30
rebut va fi p = = = 0.6 = 6%; în medie, la fiecare 100 de piese, 6 sunt rebuturi.
N 500

2. Media geometrică a N date pozitive se defineşte ca rădăcina de ordinul n din produsul


lor.
n 1
1 N
G = (∏ xi ¿ ¿ N sau G = √n x 1 x 2 x n ; logaritmând, lnG =
N ∑
lg x i, adică logaritmul mediei
i=1 i=1
geometrice a unei serii de valori este media aritmetică a logaritmului lor. Media
geometrică a unei serii de mărimi este întotdeuna mai mică decât media lor aritmetică.
Mărimea diferenţei depinde de gradul de împrăştiere a variabilei faţă de media
aritmetică. a)Pentru frecvenţe repetate sau medii pe intervale de valori, procedăm la fel
ca la media aritmetică, alcătuind un tabel de frecvenţe pentru logaritmii variabilei în
felul următor: avem r serii de frecvenţe, N 1, N 2, ..., N r

1
lnG = ( N 1 lnG1 + N 2 lnG2 + ...+ N r lnG r) ↔ lnG N = lnG1N + lnG2N +... + lnGr N ↔ lnG N =
1 2 r

N
ln¿ ¿ G r N ¿ ↔ G N = G 1N G 2 N … G r N ↔ G N + N +…+N = G 1N G 2 N … G r N , deci G =
r 1 2 r 1 2 r 1 2 r

N + N + …+N
1 2 r
√ G 1N G 2N … G r N ;
1 2 r

b) Dacă o variabilă X este definită ca fiind egală cu produsul unui număr oarecare de
alte variabile, X = X 1 X 2 … X r , unde X 1, X 2 , ..., X r, reprezintă observaţiile
corespunzătoare în r serii diferite, media geometrică G a lui X este exprimată cu
ajutorul mediilor geometrice G1, G2,..., Gr ale lui X 1, X 2 , ..., X r, prin relaţia G = G1 G 2...
Gr .
Altfel spus, media geometrică a produsului este egală cu produsul mediilor geometrice.
Analog, media geometrică a câturilor observaţiilor corespunzătoare din două serii este
egală cu câtul celor două medii geometrice.
c) Media geometrică are aplicaţii în cazurile în care avem de-a face cu o mărime ale
cărei schimbări tind a fi direct proporţionale cu nivelul mărimii iniţiale, cum ar fi
frecvenţa unei populaţii sau indicii preţurilor (când ne ocupăm de mediile câturilor).

Ex: să presupunem că vrem să calculăm frecvenţa unei populaţii la mijlocul intervalului


dintre două recensăminte, când cunoaştem valoarea iniţială a populaţiei, P0 şi pe cea
finală, Pn.
Dacă nu se cunoaşte nimic cu privire la creşterea populaţiei şi se ştie că volumul
înregistrat la primul recensământ a fost P0, iar la al doilea recensământ efectuat n ani
mai târziu a fost Pn, cea mai rezonabilă ipoteză ar fi că procentajul de creştere al
populaţiei a fost acelaşi în fiecare an. Aşadar, frecvenţa populaţiei în anii succesivi
consideraţi formează o progresie geometrică, de raţie anuală r:
1
P
P0 , P0 r , P0 r 2,..., Pn= P0 r n; aşadar r = ( n ¿ ¿ n , frecvenţa populaţiei la mijlocul
P0
intervalului va fi deci P n = P r 2 → P n = P0 ¿ = (P ¿ ¿ 0 P ) 2 ¿ = √ ¿ ¿ ¿ (media geometrică a
n 1

2 0 2 n
capetelor intervalului).

3. Media armonică H – inversa mediei aritmetice a inverselor

36
N
Dacă X = ( X 1 , X 2 , … , X N ), H = 1 1 1 ;
+ + …+
X 1 X2 XN
s

∑ ni
i=1
Dacă avem s serii de valori, media lor armonică va fi H = s ; H este influenţată de
1
∑ n
xi i
i=1
valorile mici ale seriei, G şi M de valorile mari.
Ex:
x i ni ni
xi
1 7 7
2 11 5.5
3 16 5.334
4 17 4.25
5 26 5.20
6 31 5.167
7 11 1.571
8 1 0.125
9 1 0.111

121 34.257
121
H = = 3.532; reprezintă repartiţia încrucişărilor dintre şoareci într-un
34.257
experiment biologic, după x i de pui fătaţi odată şi ni nr. de încrucişări. ( M = 4.587).
Ex: preţurile pot fi indicate în două moduri reciproc legate: media aritmetică a unuia
este media armonică a celuilalt: presupunem că avem 100 de înregistrări ale preţului
ouălor:

Nr. înregistrări Nr. ouă/preţ Pret/Ou


50 6oua/1$ 1/6$/
30 7/1$ ou
20 5/1$ 1/7
1/5
100
Media armonică preţ/ou ≅ Media aritmetică a nr. ouă/preţ, adică
100
6 ∙50+7 ∙ 30+5 ∙ 20
1 1 1 = 6.02 ≅ = 6.1 ouă/dolar, ceea ce corespunde unui
50∙ + 30∙ + 20∙ 100
6 7 5
1 1 1
50∙ + 30∙ + 20∙
preţ mediu de 6 7 5 = 0.166 dolar/ou
100

Relaţia dintre M, H şi G: H≤G≤M, cu egalitate când x 1= x 2=...= x n


n
x + x +…+ x n
1 1 1 ≤ √n x 1 x 2 … x n ≤ 1 2
+ +…+ n
x1 x2 xn

37

s

∑ x i2 ni
Media pătratică M p = 1 2

x 2 + x 2+ …+ x 2n
n
; pentru serii de frecvenţă, M p = i=1

∑ ni
i=1
s

5.3. Generalizarea medianei (Me) – Quantilele


Sunt mărimi de poziţie; se definesc analog cu mediana. Quantilele sunt valori ale
caracteristicii care împart seria în r grupe de efective egale. Numărul r defineşte ordinul
quantilelor.
Mediana este quantila de ordin 2, adică împarte efectivul în două părţi egale. Quantilele
folosite frecvent sunt cele care împart colectivitatea în 4, 10, 100 de părţi egale, numite
quartile, decile, centile.

Quartile: sunt trei Q1, Q2, Q3, valori care împart caracteristica în 4 părţi egale:
U Q −N i−1 k ∑ ni
Qk = x i−1 + d , unde U Q = , k = 1 ,3 şi
k

nQ
k
k
4
x i−1 – limita inferioară a intervalului k cuartilic
d – mărimea intervalului k cuartilic
U Q – unitatea k cuartilică
k

N i−1 – frecvenţa cumulată anterior intervalului k cuartilic


nQ – frecvenţa intervalului k cuartilic
k

Locul cuartilelor în distribuţia normală:

Decile
Sunt în număr de nouă: D1, D2, ...., D9 şi reprezintă valori ale caracteristicii care o
împart în 10 intervale egale:
U D −N i−1 k ∑ ni
Dk = x i−1 + d , unde U D = , k = 1,9
k

nDk
k
10
D5 = M e = Q2

Centile
Sunt în număr de 99 şi împart caracteristica în 100 de părţi egale
U C −N i−1 k ∑ ni
C k = x i−1 + d , unde U C = , k = 1 , 99
k

nC
k
k
100
C 50 = D5 = M e = Q2

Ex: Se dă caracteristica următoare: să se afle: a) M (260), Me (233.(3)), Mo (180)


(∆ 1=80-0, ∆ 2=80−60), b) să se verifice relaţia empirică Mo = 3Me – 2M, c) quantilele
38
d) decilele, e) centilele

( x i−1 , x i ¿
ni Ni
100-200 80 80
200-300 60 140
300-400 30 170
400-500 20 190
500-600 10 200
200
Me = x i−1 + d
U Me −N i−1
, U Me =
∑ ni = 200 = 100 ¿ 140, deci intervalul median ( x i−1, x i ¿
n Me 2 2
este (200, 300); N i−1 = 80, d = 100, x i−1 = 200, n Me = 60, →
100−80
Me = 200 + 100 = 233.(3)
60
Q1 = x i−1 + d
U Q −N i −1
1
, unde U Q =
∑ ni = 200 = 50 ¿ 80, deci intervalul 1-cuartilic este
nQ1
1
4 4
50−0
(100, 200), deci x i−1 = 100, N i−1 = 0, → Q1 = 100 + 100 = 162.5; Q2 = M e;
80
U Q −N i−1 3 ∑ ni 3∙ 200
Q3 = x i−1 + d , unde U Q = = = 150 deci intervalul 3 cuartilic este
3

nQ3
3
4 4
150−140
(300, 400), N i−1 = 140, Q3 = 300 + 100 = 333.(3)
30

Decile: D1 = x i−1 + d
U D −N i−1
1
, unde U D =
∑ ni = 20; x i−1 = 100, N i−1 = 0; n D = 80,
nD
1
1
10
1

20−0
d = 100; D1 = 100 + 100 = 125. D2 = 150; D3 = 175; D4 = 200;
80
U D −N i−1 5 ∑ ni
D5 = x i−1 + d ; UD = = 100; x i−1 = 200; d = 100; N i−1 = 80; n D = 60;
5

nD 5
5
10
5

100−80
D5 = 200 + 100 = 233.(3) = Me = Q2; D6 = 266.(6); D7 = 300; D8= 366.(6); D9 =
60
450.

6.Indicatori ai dispersiei (împrăştierii) şi ai formei


I.Indicatori simpli ai împrăştierii
I.1. Amplitudinea, A sau câmpul de variaţie, este diferenţa dintre cea mai mare şi cea mai
mică valoare observată.
I.1.1 Amplitudinea absolută A = x max −x min;
A
I.1.2 Amplitudinea relativă Ar = 100 (%), (raportul dintre amplitudinea absolută şi
M
media aritmetică a valorilor observate
I.2. Abaterea de la medie
I.2.1. Abaterea absolută de la medie: d i = x i−M (abaterea individuală)
d
I.2.2. Abaterea relativă de la medie: d r = i 100 (%)
M
i

39
II. Indicatori sintetici ai împrăştierii
II.1. Abaterea medie
II.1.1. Abaterea medie de la „a” ; fie a o valoare fixată, care poate să fie sau nu una din
n

valorile seriei. Pentru serii simple, abaterea medie de la a:


∑ |x i−a| ; Pentru serii
Am ( a )= i=1
N
n

de distribuţie,
∑ ni|x i−a|
Am ( a )= i=1
N
II.1.2. Abaterea medie liniară, sau abaterea medie de la Medie,
n

Pentru serii simple,


∑|x i−M|
d= i=1
N
s

Pentru serii de distribuţie, d=¿


∑ ni|x i−M| ; în calculul abaterii medii liniare, se poate
i=1
N
folosi orice altă medie alta decât media aritmetică; folosind mediana se poate calcula
II.1.3 Abaterea mediană absolută (sau abaterea medie de la mediană), care este cea mai
n s

mică abatere medie posibilă:


∑|xi −M e| sau
∑ ni|x i−M e|
i=1
d Me = d Me = i=1
N N

Ex: Se dau notele obţinute la disciplina statistică de o grupă de studenţi; Să se calculeze


abaterea medie liniară şi abaterea mediană, unde M = 6.625, Me = 7.

xi ni d i=x i−M di
dr = 100
|di| |x i−M e| ni|d i| ni|x i−M e|
M i

2 1 −¿4.625 −¿ 69.8 4.625 5 4.625 5


3 1 −¿ 3.625 −¿ 54.7 3.625 4 3.625 4
4 2 −¿ 2.625 −¿ 39.6 2.625 3 5.25 6
5 4 −¿ 1.625 −¿ 24.5 1.625 2 6.5 8
6 7 −¿ 0.625 −¿ 9.4 0.625 1 4.375 7
7 1 0.375 5.6 0.375 0 5.625 0
5
8 6 1.375 20.7 1.375 1 8.25 6
9 3 2.375 35.8 2.375 2 7.125 6
10 1 3.375 50.9 3.375 3 3.375 3
4 48.75 45
0

40
48.75 45
Rezultă abaterea medie liniară d = = 1.21 şi abaterea mediană d Me = = 1.125
40 40

II.2 Abaterea standard ( x i−a )

√ √
n s

II.2.1 Abaterea standard de la a: s(a) = ∑ (x i−a) 2


sau s(a) = ∑ ni (x i−a)2
i=1 i=1
N N
Deci abaterea s(a) depinde de valoarea lui a;
Se arată că cea mai mică abatere standard este cea faţă de media aritmetică.

II.2.2 Aceasta se numeşte Abaterea standard de la medie sau Abaterea medie pătratică

√ √
n s

σ= ∑ ∑ ni (x i−M )2
2
(x i−M ) sau σ =
i=1 i=1
N N

II.2.3 Varianţa sau dispersia, σ 2 , pătratul abaterii standard


Dispersia este o mărime foarte des folosită în modelele statistice, deoarece reprezintă
gradul de nedeterminare al unei variabile, adică amplitudinmea spaţiului de explicat.
Există relaţia (s( a))2 = σ 2 + d 2, unde d = a – M ;
Dispersia σ 2 se calculează ca medie aritmetică a pătratelor abaterilor individuale faţă de
media lor:

2
(1)σ =
∑ d 2i = ∑ (x i−M )2 respectiv, σ 2 =
∑ d 2i ni = ∑ (x ,i−M )2 n i pentru serii de
N N ∑ ni N
distribuţie
x
∑ (x i−M )2 = ∑ x 2i – 2∑ x i M + ∑ M 2 = ∑ x 2i – 2N∑ Ni M + N M 2
Având în vedere că

= ∑ x – 2N M + N M = ∑ x – N M = ∑ x – N (
2 2 2 2 2 2 ∑ xi 2
¿¿ = ∑ x –
2 (∑ x i )
2

; înlocuind
i i i i
N N

în (1), rezultă pentru serii simple σ 2 =


(∑ x i )
–(
∑ xi ¿ ¿2 = (∑ x i ) – M 2 = Mp 2 – M 2
2 2

N N N
(media pătratică la pătrat minus pătratul mediei).
Aceeaşi formulă este valabilă şi pentru serii de distribuţie:
2 ∑
2
x i ni ∑ x i ni ¿¿ 2 = M 2 – 2
σ = –( M
∑ ni ∑ ni p

Abaterea medie pătratică, fiind calculată ca o medie pătratică, reflectă într-o măsură
mai mare influenţa factorilor aleatori, comparativ cu abaterea medie liniară (d).

x. Să se calculeze varianţa şi abaterea medie pătratică pentru seria notelor la statistică.


Aceeaşi cerinţă ştiind M p şi M.

xi ni |di|=|x i−M | xi
2 2
xi ni di
2
d i ni
2

2 1 4.625 4 4 21.39 21.39


3 1 3.625 9 9 13.14 13.14
4 2 2.625 16 32 6.89 20.67

41
5 4 1.625 25 100 2.64 10.56
6 7 0.625 36 252 0.39 2.73
7 15 0.375 49 735 0.14 2.1
8 6 1.375 64 384 1.89 11.34
9 3 2.375 81 243 5.64 16.92
10 1 3.375 100 100 11.39 11.39
40 1875 110.24

2
σ =
∑ d i ni ∑ (x i−M )2 n i 110.24
2

= = = 2.756; σ = √ σ 2 ≅ 1.7
∑ ni N 40

2
2 x i ni 1875
Pe de altă parte, M p = = = 46.875; M = 6.625;
∑ ni 40
2 2 2
σ = M p – M = 46.875 – 43.89 = 2.985 etc.

II.2.4 Când seria statistică e dată prin intervale de frecvenţă, varianţa se calculează
astfel:σ 2 = ∑ i
, 2
(x −M ) n i
, unde x ,i este mijlocul intervalului ( x i, x i+1)
N

Ex: Să se calculeze varianţa pentru seria următoare

( x i, x i+1) ni ,
xi
,
ni x i
,
x i−M
2
(x ¿ ¿ i ,−M )
2
¿ni (x ¿ ¿ i , −M ) ¿
[2,4) 2 3 6 -4 16 32
[4,6) 6 5 30 -2 4 24
[6,8) 2 7 154 0 0 0
[8,10] 2 9 80 2 4 40
1
0
4 280 96
0

M=
∑ ,
ni xi 280
= 2
= 7; σ = ∑ , 2
(x i−M ) n i 96
= = 2.4
∑ ni 40 N 40

Pentru simplificarea calculului numeric, se foloseşte o formulă mai complicată:


, 2
x i−a
2
σ =
∑ ( k ) ni k 2 −¿ (M −a)2 , unde a este caracteristica cu valoarea cea mai mare, k
∑ ni
este mărimea intervalului de grupare.

42
Ex: Să se calculeze varianţa prin metoda simplificată pentru seria

( x i, x i+1) ni ,
xi
,
x i−a
,
xi −a
,
xi −a
2 ,
xi −a
2
( ) ( ) ni
k k k
[2,4) 2 3 -4 16 32 8
[4,6) 6 5 -2 4 24 6
[6,8) 2 7=a 0 0 0 0
[8,10] 2 9 2 4 40 10
1
0
4 96 24
0

24
M = 7, a = 7, k = 2; σ 2 = ∙ 4 – (7 – 7)2 = 2.4 etc.
40

II.2.5 Intervalul mediu de variaţie


Pe baza indicatorilor sintetici ai dispersiei se poate calcula intervalul mediu de variaţie a
caracteristicii. Acesta poate fi calculat în două moduri: I = (M-d , M+d ¿ unde
s

d=¿ ∑ ni|x i−M| (abaterea medie liniară); sau I = (M-σ , M +σ ¿ unde σ este abaterea
i=1
N
medie pătratică.

Într-o distribuţie normală, în intervalul mediu de variaţie


I = (M-σ , M +σ ¿, apar 68.27% din cazuri; în
I = (M-2 σ , M + 2 σ ¿ , apar 95.45% din cazuri; în
I = (M-3 σ , M +3 σ ¿, apar 99.97% din cazuri, cum se observă din graficul de mai jos.

Intervalul (Q1,Q3) centrat faţă de medie (în origine) conţine 50% din cazuri.

Atât abaterea medie liniară, cât şi abaterea medie pătratică se exprimă în unităţile de
măsură ale variabilei X. Ca urmare, atunci când se face analiza comparativă între
gradul de variaţie a două sau mai multe distribuţii după caracteristici exprimate în
unităţi de măsură diferite, este necesar ca unităţile de măsură folosite pentru

43
exprimarea indicatorilor sintetici să fie aduse la aceeaşi bază de semnificaţie. Aceasta se
face prin intermediul coeficientului de variaţie v.

II.2.6 Coeficientul de variaţie este o mărime relativă a dispersiei. Se calculează ca raport


procentual între abaterea medie liniară sau abaterea medie pătratică şi media
aritmetică:
d σ
v= (100%) sau v = (100%).
M M
Cu ajutorul coeficientului de variaţie pot fi comparate dispersiile diferitelor distribuţii
după valori exprimate în unităţi de măsură diferite. Coeficientul de variaţie v poate lua
valori cuprinse între 0 şi 1 sau 0 % şi 100%. Când v tinde la zero, se consideră o variaţie
slabă şi deci o colectivitate statistică omogenă, iar media are un grad ridicat de
reprezentativitate. Când v tinde la 1, avem de a face cu o variaţie intensă, colectivitatea
este eterogenă, media are un grad de reprezentativitate scăzut. Ca urmare, coeficientul
de variaţie poate fi folosit şi ca test de semnificaţie a reprezentativităţii mediei,
considerându-se următoarele praguri de reprezentativitate:
0¿v¿17% - media este strict reprezentativă
17%¿v¿35% - media este moderat reprezentativă
35%¿v¿50% - media este nereprezentativă în sens larg
v¿50% - media este nereprezentativă

Ex: Considerăm un produs vândut în 5 magazine, cu următoarele preţuri: 10, 11, 12, 13,
14. Să se calculeze preţul mediu de vânzare al produsului şi varianţa acestuia. Să se
calculeze gradul de dispersie al preţului cu ajutorul indicatorilor simpli şi sintetici ai
dispersiei.

xi d i = x i−M
dr =
di
100 (%)
|di|=|x i−M | (x i−M )
2

i
M
10 -2 -16.67 2 4
11 -1 -8.83 1 1
12 0 0 0 0
13 1 8.33 1 1
14 2 16.67 2 4
Total 0 Total 0 Total 6 10

M=
∑ xi = 60 = 12;
N 5
Indicatori simpli ai dispersiei: Amplitudinea variaţiei A = x max - x min = 14 – 10 = 4.
A 4
În procente, Ar% = 100 (%) = 100% = 33.3%; adică, câmpul de variaţie al
M 12
preţului de vânzare al produsului în cele 5 magazine este de 4 lei, ceea ce reprezintă
33.3% din preţul mediu de vânzare al produsului.
d
Abaterea individuală absolută şi relativă d i = x i−M şi d r = i 100 (%) sunt calculate în
M
i

coloanele 2 şi 3. Indicatori sintetici ai dispersiei: abaterea medie liniară


∑|x i−M| =
d= i=1
N

44
6
= 1.2 lei, adică preţul de vânzarre prin cele 5 magazine se abate în medie faţă de
5
preţul mediu cu 1.2 lei. Intervalul mediu de variaţie stabilit cu ajutorul abaterii medii
liniare are următoarele limite I = (M-d , M+d ¿= (12-1.2; 12+1.2) = (10.8; 13.2) lei.
10
Varianţa σ 2 = ∑ ¿¿ ¿ = = 2; abaterea medie pătratică, σ = 1,41 lei;
5
Intervalul mediu de variaţie are următoarele limite
I = (M -σ , M +σ ¿ = (12-1.41;12+1.41) = (10.59; 13.41); adică 68% din magazine practică
un preţ cuprins între 10.59 şi 13.41 lei.
Se observă că σ > ¿ d , fapt explicat prin aceea că σ fiind calculat ca o medie pătratică,
reflectă într-o măsură mai mare influenţa factorilor întâmplători, adică abaterile mai
mari faţă de medie, decât d .
σ 1.41
Coeficientul de variaţie v = (100%) = 100% = 11.75%, ceea ce arată o dispersie
M 12
relativ mică, adică o colectivitate omogenă, ceea ce înseamnă că media este semnificativă
pentru distribuţia preţurilor.

6.1. Aplicații cu indicatori ai dispersiei (împrăştierii) şi ai formei


Calculul frecvenţelor absolute şi relative, cumulate, ascendent şi descendent, calculul
indicatorilor centrali, a quartilelor, decilelor şi centilelor, calculul medialei

Ex. În urma monitorizării unui eşantion de 200 de persoane privind timpul de deplasare
zilnică de la domiciliu la serviciu şi înapoi, s-au obţinut următoarele date:

T de Nr. Ni ↑ Ni ↓ fi Fi↑ F i↓
deplasare persoane
(minute) ni
xi
0-30 25 25 200 0.125 0.125 1
30-60 50 75 175 0.25 0.375 0.875
60-90 60 135 125 0.3 0.675 0.625
90-120 45 180 65 0.225 0.9 0.325
120-150 15 195 20 0.075 0.975 0.1
¿ 150 5 200 5 0.025 1 0.025
200

Avem o serie de distribuţie cu intervale egale de variaţie. Să se calculeze:


a) frecvenţele cumulate, absolute şi relative, ascedente şi descendente;
b) să se reprezinte histograma şi poligonul frecvenţelor;
c) să se reprezinte ogiva frecvenţelor cumulate şi să se afle grafic Mediana;
d) să se calculeze: M, H, G, M P , şi Mo
e) mediana, Me, quartilele şi decilele
f) Mediala, Ml (indicator al concentrării, egal cu acel nivel al caracteristicii care împarte
suma ∑ x i ni în două părţi egale.

Indicaţii:Pentru punctul d) folosim tabelul

45
( x i, x i+1) ni ,
xi
,
xi ni ni lg x ,i ni lg x ,i ,2
xi
,2
x i ni
,
xi
0-30 25 15 375 1.6 1.176 29.40 225 5625
30-60 50 45 2250 7 1.653 82.65 2025 101125
60-90 (int modal) 60 75 4500 1.1 1.875 112.50 5625 337500
90-120 ← 105 4725 1 2.021 90.94 11025 496125
120-150 45 135 2025 0.8 2.130 31.95 18225 273375
¿ 150 15 165 825 0 2.217 11.09 27225 136125
5 0.4
3
0.1
1
0.0
3
200 14700 4.1 358.53 1349875
5

s s
∑ ni lg ∏ xi,n i
∑ ni lg x ,i
M=
∑xn ,
i i
=
14700
= 73.5’; H = n =
200
= 48.19’; lgG =
i=1
=
i=1

∑ ni 200 ∑ x i, 4.15 s s

i ∑ ni ∑ ni
i=1 i=1
358.53
→ lgG = = 1.7926; → G = 101.7926 = 62.09;
200

MP =
√ ∑ x ,i 2 n i =
∑ ni
1349875
200 √
= 82.15; Comparăm mediile: 48.19¿62.09¿73.5¿82.15 adică

se verifică faptul că H¿ G¿ M¿ M P
Pentru calculul modului, se folosesc primele trei coloane ale tabelului, intervalul modal
∆1 60−15
este (60-90), M o=¿ x i−1 + d = 60 + 30∙ = 72;
∆1 + ∆2 ( 60−50 )+(60−45)
Se poate verifica şi relaţia empirică dintre M, Me şi Mo: Mo = 3 Me – 2M ↔ 72 ≅ 216.75
– 147 ↔ 72 ≅ 69.75

Pentru aflarea Medianei, Quartilelor şi Decilelor, folosim următorul tabel:

( x i, x i+1) ni Ni ↑
0-30 25 25
30-60 50 75
60-90 (int median) 60 135←
90-120 45 180
120-150 15 195
¿ 150 5 200
200
Me = x i−1 + d
U Me −N i−1
, U Me =
∑ ni = 200 = 100 ¿ 135, intervalul median este (60-90),
n Me 2 2
100−75
deci Me = 60 +30∙ = 72,25’ (minute)
60

46
Quartila 1: U Q 1 =
∑ ni = 50, deci intervalul 1-cuartilic este (30,60); Q1= 45 minute;
4
3 ∑ ni
U Q3 = = 150, deci intervalul 3-cuartilic este (90,120), Q3= 100 minute
4
Decila 1: U D 1 =
∑ ni = 20, intervalul 1-decilic este (0,30), x i−1=0, N i−1= 0, D1= 24;
10
9 ∑ ni
Decila 9: U D 9 = = 180, intervalul 9-decilic (90-120), D9 = 120;
10
Centila 1: U c =
∑ ni = 2, intervalul 1-centilic (0,30), x i−1=0, N i−1= 0, C 1= 2.4
100
1

99 ∑ ni
Centila 99: U c = = 198, intervalul 99-centilic (150, ¿ 150),
100
99

198−195
C 99 = 150 + 30 = 168.
5
Tabelul pentru aflarea medialei:
Intervalul ni Valori x i n i Produse cumulate
,

de variaţie centrale Lh
x x
( i, i+1) ,
xi
0-30 25 15 375 375
30-60 50 45 2250 2625
60-90 60 75 4500 7125
90-120 (int Ml) 45 105 4725 11850←
120-150 15 135 2025 13875
¿ 150 5 165 825 14700
20 14700
0

U Ml= ∑ x ,i ni = 14700 = 7350 → Lh= ∑h x ,i ni = 11850 ¿ U Ml rezultă intervalul medial este


2 2 i=1
(90-120) şi
U Ml −Li−1 7350−7125
Ml = x i−1 + d = 90 + 30 = 91.43
x i ni 4725

Ex: Pentru datele următoare (vezi primele două coloane din tabelul următor):
a)construiţi histograma şi poligonul frecvenţelor; b) valorile centrale pentru fiecare
clasă de variaţie x ,i; c) Ni↑, Ni↓; d) frecvenţele relative ( f i) şi frecvenţele relative
cumulate crescător şi descrescător (Fi↑, Fi↓); e) construiţi ogivele (curbele) frecvenţelor
cumulate absolute şi a frecvenţelor relative cumulate; f) aflaţi M (1.975), G (1.648), H
(1.29), M P (2.202) şi verificaţi relaţia H¿ G¿ M¿ M P ; g) aflaţi Me (1.222), Mo (1.222) şi
verificaţi relaţia empirică dintre M, Me şi Mo; i) aflaţi quartilele: Q1 (1.2), Q2, Q3
(2.66), decilele: D1,2...9; j) centilele C1, 25, 59, 99.

( x i, x i+1) ni ,
xi
,
xi ni 1 ni ln x ,i ni ln x ,i ,2
xi
,2
x i ni
, ,
xi xi
0-1 200 0.5 100 2 400 -0.69 -138 0.25 50
1-2 250 1.5 375 0.67 167.5 0.4 100 2.25 562.25

47
2-3 450 2.5 1125 0.4 180 0.91 409.5 6.25 2812.5
3-4 75 3.5 262.5 0.28 21 1.25 93.75 12.2 918.75
4-5 25 4.5 112.5 0.23 5.75 1.5 37.5 5 506.25
20.2
5
1975 774.2 502.75 4850
5

7.Teorema de descompunere a varianţei

Fie o populaţie statistică formată din mai multe mulţimi de grupuri, fiecare mulţime
grupată pe serii de frecvenţe. Media generală a caracteristicii va fi media mediilor pe
grupe, luate cu frecvenţele respective. Deasemenea, se pot calcula varianţele pe grupe.
Având varianţele pe grupe, vom calcula varianţa totală.

Presupunem că populaţia e împărţită în s grupe, fiecare grupă având o anumită


proprietate; mediile grupelor sunt M 1, M 2, ..., M s ; efectivele grupelor sunt N 1, N 2, ..., N s ,
k
efectivul fiecărei grupe fiind o sumă de frecvenţe N s = n s + n s +... + n s = ∑ ns ; varianţele
1 2 k i
i=1
2 2 2
grupelor sunt σ , σ , ...., σ şi reprezintă abaterea medie pătratică de la media grupului
1 2 s
k

∑ ns ( x i−M s )2
i
2 i=1
respectiv: σ s =
k k , varianţa de grupă;
∑ ns i
i=1

Valorile M s , luate fiecare cu frecvenţa N s formează o variabilă (variabila mediilor


grupelor). Această variabilă are ea însăşi o dispersie ce reflectă împrăştierea mediilor
grupelor în jurul mediei lor, care este tocmai media populaţiei, M. Vom obţine deci o
2
varianţă intergrupală, σ M =
∑ N s (M s −M )
2
, ceea ce reprezintă varianţa mediilor de
N 1 + N 2 +...+ N s
grupă faţă de media lor şi reprezintă influenţa factorilor esenţiali asupra varianţei totale;
Pe de altă parte, se poate calcula o medie a varianţelor din fiecare grupă, notată σ 2,

numită numită varianţa intragrupală medie, σ 2 =


∑ N s σ 2s şi reprezintă influenţa
N 1+ N 2+...+ N s
factorilor întâmplători asupra varianţei totale.

Teorema de descompunere a varianţei: σ 2 = σ 2M + σ 2 ; varianţa totală se descompune în


varianţa intergrupală (ce exprimă influenţa factorilor esenţiali, respectiv variaţia
mediilor grupelor faţă de media generală, ( M s −M )), şi varianţa intragrupală (reziduală)
respectiv media varianţelor grupelor, ce măsoară influenţa factorilor întâmplători
asupra varianţei totale.
Ex: se dă distribuţia numărului de persoane din familiile care solicită ajutor material
pentru plata întreţinerii (cu venituri mici) (1) şi a celor cu venituri mari (2), dintr-un
bloc de locuinţe. Să se calculeze varianţele intergrupale şi intragrupale şi să se verifice
teorema de descompunere a varianţei.

48
xi 1
ni 1
ni x i
1 1
x i −M 1
1
2
(x i −M 1) ni (x i −M 1)
2
1 1 1

nr. nr. familii


persoane
1 1 1 -2.33 5.4289 5.4289
2 4 8 -1.33 1.7689 7.0756
3 12 36 -0.33 0.1089 1.3068
4 10 40 0.67 0.4489 4.489
5 3 15 1.67 2.7899 8.3667
30 = N 1 100 26.667
xi 2
ni 2
ni x i
2 2
x i −M 2
2
2
(x i −M 2) ni (x i −M 2 )
2
2 2 2

nr. nr. familii


persoane
1 4 4 -1.4 1.96 7.84
2 6 12 -0.4 0.16 0.96
3 8 24 0.6 0.36 2.88
4 2 8 1.6 2.56 5.12
5 0 0 2.6 6.76 0
20 = N 2 100 16.8
2
Din tabele rezultă M 1=3.33 (persoane pe familie), σ 1 = 0.89; respectiv, M 2 = 2.4
(persoane pe familie), σ 22 = 0.84; observăm că cele două grupe de familii diferă net prin
structura numărului de membri, dar au varianţele foarte apropiate, ceea ce arată că
omogenitatea grupurilor e apropiată. Să aflăm media întregii populaţii, M =
30 M 1 +20 M 2
= 2.96 (membri în medie într-o familie). Varianţa pe toată populaţia se
N1+ N2
calculează din tabelul reunit al celor două grupe:
xi ni
1
x i – M (x i – M )2
1
ni (x i – M )
2

şi x i şi ni2 2

1 1 -1.96 3.84 3.84


2 4 -0.96 0.92 3.68
3 12 0.04 0.0016 0.0192
4 10 1.04 1.0816 10.816
5 3 2.04 4.16 12.48
1 4 -1.96 3.84 15.36
2 6 -0.96 0.92 5.52
3 8 0.04 0.0016 0.0128
4 2 1.04 1.0816 2.1632
5 0 2.04 4.16 0
16.97 53.886

σ =
2 ∑ ni (x i−M )2 = 53.886 = 1.077;
∑ ni 50
Să calculăm varianţele inter- şi intra- grupale:

49
Varianţa intergrupală σ
2
=
∑ N s (M s −M )2 =
2 2
N 1 (M 1−M ) + N 2 (M 2−M )
=
M
N 1 + N 2 +...+ N s N1+ N2
2 2
30(3.33−2.96) +20 (2.4−2.96)
= 0.21 şi reprezintă varianţa factorilor esenţiali,
20+ 30
datorată variaţiei mediilor celor două grupuri şi explică circa 1/5 din varianţa totală a
numărului de persoane pe familie;
Varianţa intragrupală (dispersia medie a situaţiei) datorată factorilor întâmplători e
dată de media varianţelor de grupă, 2
σ =
∑ 2
N s σs
=
2 2
N 1 σ 1+ N 2 σ 2
=
N 1+ N 2+...+ N s N 1+ N 2
30∙ 0.89+20 ∙ 0.84
= 0.87
20+ 30
şi reprezintă cca 4/5 din varianţa totală şi arată gradul de neddeterminare, în medie, a
numărului de persoane la nivel de grupe.
Pentru verificarea teoremei de descompunere a varianţei, calculez suma σ 2M + σ 2 = 0.87 +
0.21 = 1.08 ≅ 1.077 = σ 2, deci teorema se verifică.
Care dintre cele două grupuri este mai omogen? Pentru a răspunde la această întrebare,
trebuie să calculăm coeficienţii de variaţie ai celor două grupuri (care au aproximativ
aceeaşi varianţă).
σ σ
v 1 = 1 = √ 0.89 = 0.28 ¿ v 2 = 2 = √ 0.84 = 0.38; astfel, grupul 1 este mai omogen,
M1 3.33 M2 2.4
grupul 2 mai eterogen.
Deci grupul familiilor cu venituri mai mici apare mai omogen (dpdv al numărului de
membri) decât al familiilor cu venituri mai mari, deşi varianţa (abaterea standard)
indica o situaţie inversă.
Se mai pot calcula intervalele medii de variaţie a celor două grupuri sub influenţa
factorilor esenţiali, întâmplători şi a celor doi factori împreună.
Intervalul mediu de variaţie sub influenţa factorilor esenţiali: σ M = √ 0.21 = 0.45
I = (M-σ M , M+σ M ) = (2.96+0.45, 2.96-0.45) = (2.51, 3.41);
Intervalul mediu de variaţie sub influenţa factorilor întâmplători: σ = √ 0.87 = 0.93
I = (M-σ , M+σ ) = (2.96-0.93, 2.96+0.93) = (2.03, 3.89),
Intervalul mediu de variaţie sub influenţa ambilor factori: σ = √ 1.077 = 1.03
I = (M-σ , M+σ ) = (2.96-1.03, 2.96+1.03) = (1.93, 3.99)

Indicatori ai dispersiei (Varianţa, abaterea medie pătratică şi coeficientul de variaţie)


pentru o caracteristică alternative (calitative)
O caracteristică alternativă poate lua două valori (A sau F, 0 sau 1, Da sau Nu, Masculin
sau Feminin etc).
n N −n p n
Fie p = p ponderea celor care posedă caracteristica şi q = = q ponderea celor
N N N
care nu posedă caractristica respectivă. Într-un tabel, situaţia se poate eprima astfel

xi ni
1 P
0 1-p = q

50
Media, M =
∑ x i ni =
1∙ p+0 ∙ q
= p; Varianţa σ 2 =
∑ ni (x i−M ) =
2

∑ ni p+ 1− p ∑ ni
2 2
p (1− p) +(1− p)(0− p) p ( 1−p ) (1− p+ p)
= = p(1-p) = pq, unde p+q = 1
p+1−p 1
Abaterea medie pătratică a unei caracteristici alternative σ = √ pq ;
Coeficientul de variaţie al unei caracteristici alternative, v p =
σ
M
=
√ pq = q
p p √
Obs. Atunci când calculăm coeficientul de variaţie a unei caracteristici alternative,
trebuie să o facem din perspectiva caracteristicii majoritare, altfel coeficientul de
variaţie devine supraunitar!

Ex
Se cercetează un eşantion de 300 de studenţi şi se găsesc 120 de integralişti; să se afle: a)
procentul de studenţi integralişti din eşantion; b) procentajul mediu de restanţieri; c)
varianţa colectivităţii; d) coeficientul de variaţie
n 120 N −n p 300−120
a)p = p (100%) = (100%) = 0.4 (40%); b) q = (100%) = (100%) =
N 300 N 300
0.6 (60%);
σ 0.489
c) σ 2 = pq = 0.4∙0.6 = 0.24; σ = 0.489; d) v p = (100%) = (100%) = 1.2225 (100%)
p 0.4
aşadar, studiem colectivitatea de studenţi din perspectiva majorităţii restanţiere:
180 σ 0.489
p = = 0.6; q = 0.4; σ = √ 0.24 = 0.489; v p = (100%) = (100%) = 0.815
300 p 0.6
(81.5%) avem de a face cu o colectivitate neomogenă, media restanţierilor fiind
nereprezentativă pentru caracterizarea colectivităţii.

Dispersia unei variabile calitative


Măsurarea dispersiei unei variabile calitative se bazează pe diferenţele calitative dintre
unităţile studiate. S-a stabilit un indice mediu de variaţie, numit indicele variaţiei
N0
calitative, i v = unde N 0 este numărul diferenţelor calitative observate, N max
N max
k k
numărul maxim posibil de diferenţe calitative care se pot obţine; N 0 = ∑ ∑ ni n j ; N max =
i=1 j>1
k (k−1) n 2
( ) unde k reprezintă numărul de categorii calitative (numărul de variante ale
2 k
variabilei calitative – ex: mare, mic, mijlociu, k = 3); ni - reprezintă frecvenţa categoriei
calitative i (ex: câţi „mari” există); n j - frecvenţa categoriei calitative j; n – suma
k k

k ∑ ∑ ni n j
frecvenţelor n = ∑ ni ; → k
i =1 j> 1
iv =
(k −1) n 2
ϵ [0,1]; când i v → 0, gradul de omogenitate
i=1
( )
2 k
este mare, variaţia este redusă; când i v → 1, variaţia colectivităţii e mare, colectivitateea
este eterogenă.

Ex: Fie o colectivitate de 50 de bile de trei culori (n=50, k=3); Să se studieze dispersia
acestui grup, ştiind că 28 de bile sunt roşii (n1=28), 12 sunt albastre (n2 = 12) şi 10 galbene
(n3 =10).

51
3 3

N0 ∑ ∑ n i n j n n + n n + n n 28∙ 12+28 ∙10+ 12∙ 10 736


Calculăm i v = = i=1 j>1 = 1 2 1 3 2 3= = =
N max 3(3−1) 50 2 3 ∙277.8 833.4 833.4
( )
2 3
0.883; ceea ce arată o omogenitate redusă a populaţiei de bile.

8.Măsurarea dispersiei în sistemul medianei


Intervalul interquartilic I Q = Q3 – Q1 (abaterea cuartilă), comparativ cu amplitudinea de
variaţie A = x max – x min, diminuează influenţa valorilor extreme ale seriei, care pot fi
câteodată aberante; intervalul interquartilic are dezavantajul că abandonează 25% din
populaţie care ia valori mai mici decât Q1, respectiv 25% din populaţie care ia valori
superioare quartilei Q3. Pentru a elimina acest dezavantaj, se calculează intervalul
interdecilic, I D = D9 – D1care încadrează 80% din populaţie.
(În intervalul interquartilic se află 50% din unităţile unei colectivităţi, spre deosebire de
intervalul mediu de variaţie I = (M-σ , M+σ ) se află 68.3% din populaţie).
I Q – Q1
Semiinterquartila Q = Q = 3 = reprezintă abaterea medie interquartilică.
2 2
Se calculează şi expresiile relative ale acestor indicatori:

Comparînd cele 3 mărmi ale împrăştierii, abaterea quartilă, I Q, abaterea standard, σ , şi


abaterea medie liniară, d , observăm că abaterea cuartilă I Q se calculează mai simplu şi
are un înţeles mai clar, însă I Q nu se comportă previzibil faţă de fluctuaţii de selecţie; în
general se foloseşte σ .
Măsurile absolute ale împrăştierii, care nu depind de unităţile de măsură folosite, sunt
Q3 – Q1
Q 2 Q3 – Q1
coeficienţi de tipul: Coeficientul de variaţie interquartilic, v Q = = =
Me Q3 +Q1 Q 3+ Q 1
2
D −D1 d d σ
(100%), Coeficientul de variaţie interdecilic v D = 9 (100%) sau , , = v,
Me M Mo M
coeficienţi care permit comparaţii între populaţii a căror proprietăţi sunt exprimate în
unităţi de măsură diferite.

Ex
Considerând datele din următorul tabel, să se determine gradul de variaţie a seriei, cu
ajutorul indicatorilor variaţiei din sistemul medianei.

x i, x i+1 ni Ni ↑
- 120 12 12←∫ ¿ D ¿ 1

120-130 16 28←∫ ¿ Q ¿
130-140 28 1

140-150 24 56←∫ ¿ M ¿ e

150 - 20 80←∫ ¿ Q ¿ 3

100←
∫ ¿D ¿ 9

100

52
I Q Q3 – Q1
Vom calcula abaterea medie intercuartilică Q = = şi coeficientul de variaţie
2 2
Q Q3 – Q1
interquartilic v Q = = (100%); deasemeni vom calcula coeficientul de variaţie
Me Q3+ Q1
D D −D1
interdecilic v D = (100%), unde D = 9
Me 2
Pentru aceasta, să calculăm U Q =
∑ ni = 100 = 25; Q1= x i−1 + d U Q −N i −1 = 120 + 10
1

1
4 4 1
nQ
25−12
16
= 128.13;
UM = ∑ i =
n 100 U Me −N i−1 50−28
= 50; M e= x i−1 + d = 130 + 10 = 137.86;
e
2 2 n Me 28
UQ = ∑ i =
3 n 300 U Q −N i−1 75−56
= 75; Q3= x i−1 + d = 140 + 10 = 147.92;
3

3
4 4 n Q 3
24
Q – Q1 147.92−128.13 Q 9.895
Q= 3 = = 9.895; v Q = (100%) = (100%) = 7.17%
2 2 Me 137.86
UD = ∑ i =
n 100 U D −N i−1 10−0
= 10; D1= x i−1 + d = 110 + 10 = 118.33;
1

1
10 10 n D1
12

UD = ∑ i =
9 n 900 U D −N i−1 90−80
= 90; D9= x i−1 + d = 150 + 10 = 155;
9

9
10 10 nD 9
20
D −D1 155−118.33 D 18.34
D= 9 = = 18.34; v D = (100%) = (100%) = 13.3%;
2 2 Me 137.86

Coeficienţii de variaţie intercuartilică şi interdecilică se interpretează asemănător cu


coeficientul de variaţie: deoarece au valori ¿ 17%, seria este omogenă şi mediana strict
reprezentativă.

9.Indicatori ai formei unei distribuţii statistice: de asimetrie (oblicitate) şi de boltire


În analiza seriilor de distribuţie unidimensionale şi unimodale, un interes deosebit îl
prezintă cunoaşterea formei distribuţiei. Forma unei distribuţii statistice poate fi
apreciată cu ajutorul a două categorii de valori: indicatori de asimetrie şi indicatori de
boltire.
Indicatorii de asimetrie dau informaţii asupra modului de repartizare a frecvenţelor de
o parte sau alta a valorii centrale a unei serii, iar indicatorii boltirii exprimă măsura
aglomerării frecvenţelor în zona centrală, pe lângă medie.

Asimetria (oblicitatea)
Asimetria reprezintă o deviaţie de la forma simetrică de distribuţie. O distribuţie este
considerată simetrică, dacă mărimile observate, exprimate prin frecvenţele lor, se
distribuie simetric, de o parte şi de alta a valorii centrale. Ca valori centrale pentru
aprecierea simetriei, se folosesc M, Mo şi Me.
Grafic, curba frecvenţelor unei distribuţii empirice (care întotdeauna este asimetrică) se
compară cu modelul teoretic al distribuţiei normale care este o distribuţie perfect
simetrică. Într-o distribuţie simetrică unimodală, cele trei mărimi fundamentale, M, Me
şi Mo se suprapun, iar perechile de quantile Q1 şi Q3, D1 şi D9 sunt echidistante faţă de
valoarea centrală (vezi grafic, ni =f ¿)).

53
43

38
33

28
Studenti

23
18

13
8

3
2 3 4 5 6 7 8 9 10

Nota

O distribuţie unimodală asimetrică este caracterizată prin dezechilibru în repartiţia


frecvenţelor, cele trei valori medii fundamentale ocupă locuri diferite:
a) Asimetrie la stânga (pozitivă): Mo ¿ Me ¿ M (curba e „alungită” la dreapta)
b) Asimetrie la dreapta (negativă): M ¿ Me ¿ Mo (curba e „alungită” la stânga), vezi
grafice.

43 43

38 38

33 33

28 28
Studenti
Studenti

23 23

18 18

13 13

8 8

3 3
2 3 4 5 repartitie
6 7 cu8 asimetrie
9 10 2 3 4 5 6 7 8 9 10

Nota pozitiva repartitie cu asimetrie Nota

negativa

Indicatori ai asimetriei
Ţinând cont de mărimea celor trei mărimi fundamentale într-o distribuţie statistică,
asimetria poate fi apreciată în funcţie de relaţia dintre Me şi Mo, respectiv, Me şi M.
Indicatorii de asimetrie pot fi calculaţi atât în mărime absolută, cât şi în mărime
relativă.

Asimetria absolută
As = M – Mo = 3(M−¿Me) (mediana situându-se la treimea distanţei dintre M şi Mo).
Când As ¿ 0 (asimetrie pozitivă) →M ¿ Mo → asimetrie spre dreapta
Când As ¿ 0 (asimetrie negativă) →M ¿ Mo → asimetrie spre stânga

Ex: în tabelul precedent,


x i, x i+1 ni Ni ↑ xi
'
ni x i
'

- 120 12 12 115 1380


120-130 16 28 125 2000
130-140 28← n Mo 56← 135 3780
140-150 24 ∫ ¿M ¿ e
145 3480
150 - 20 80 155 3100
100

54
100 13740

M e= 137.86; M o=¿ x i−1 +d


∆1
= 130 + 10
12
= 137.5; M =
∑ x 'i ni =
13740
=
∆1 + ∆2 12+ 4 ∑ ni 100
137.4;

Date fiind valorile apropiate cât şi faptul că se obţin prin interpolare, e de bănuit că
apar unele erori, astfel încât, cele trei valori medii nu pot fi ordonate Mo ¿ Me ¿ M sau
M ¿ Me ¿ Mo; oricum, avem de a face cu o asimetrie moderată.
La seminar vom da un exemplu elocvent.

Indicatorii relativi ai asimetriei se mai numesc coeficienţi de asimetrie sau oblicitate şi se


exprimă printr-un număr abstract:
Coeficientul Yule – măsoară asimetria în funcţie de poziţia quartilelor Q1, M eşi Q3:
( Q −M e )−(M e −Q1) Q1+Q 3−2 M e
C aY = (C aQ) = 3
I Q – Q1
= unde Q = Q = 3 (abaterea medie
Q3 −Q1 2Q 2 2
interquartilică) sau amplitudinea seminterquartilă.
( Q3−M e )−(M e −Q1) q2−q1
Coeficientul lui Yule mai poate fi scris C aY = = unde q 1 =
( Q3−M e ) +( M e−Q 1) q 2+ q1
M e −Q1 şi q 2 = Q3−M e sunt amplitudini interquartilice.
Coeficientul lui Yule, C aY poate lua valori cuprinse între –1 şi +1; –1≤ CaY ≤1; dacă
C aY = 0 atunci distribuţia este simetrică, quartilele sunt echidistante; dacă
C aY ¿ 0 atunci distribuţia este asimetrică spre dreapta;
C aY ¿ 0 atunci distribuţia este asimetrică spre stânga;
Yule scrie despre acest coeficient care îi poartă numele: „mărimea astfel definită este
destul de grosolană. Ea ar putea fi utilă dacă luăm amplitudinea intercuartilă drept
măsură a împrăştierii şi nu suntem în măsură sau nu dorim să calculăm abaterea
standard” (abaterea medie pătratică).
Deasemeni, cu o interpretare asemănătoare, asimetria se mai poate calcula şi cu Centile:
( C −C50 )−(C 50−C10 )
C asC = 90 etc.
C 90−C10

Ex: în tabelul precedent,


x i, x i+1 ni Ni ↑
- 120 12 12←∫ ¿ D ¿ 1

120-130 16 28← ¿ ¿
130-140 28
∫ Q 1

140-150 24 56←∫ ¿ M ¿ e

150 - 20 80←∫ ¿ Q ¿ 3

100←
∫ ¿D ¿9

100

Q1=128, M e= 137.86 , Q3= 147.92; să se determine coeficientul de asimetrie Yule.

55
q2−q1 ( Q3−M e )−(M e −Q1) 10.06−9.78
C aY = = = = 0.0141¿0 → o distribuţie moderat
q 2 + q1 ( Q3−M e ) +( M e−Q 1) 10.06+9.78
asimetrică spre dreapta.

Coeficientul de asimetrie Pearson (simplu) – cea mai uzuală măsură a oblicităţii


M −Mo
C asP= ; Pentru C asP = 0, distribuţie simetrică
σ
C asP ¿ 0 , negativ, distribuţie asimetrică spre stânga
C asP ¿ 0 , pozitiv, distribuţie asimetrică spre dreapta

Coeficientul de asimetrie Fischer – o formulă aproape echivalentă cu precedenta


3(M −Me)
C asF = ϵ (-3, 3); are aceeaşi semnificaţie; se folosesc C asP sau C asF după cum e
σ
mai uşoară aflarea medianei sau a modului.

Calculul oblicităţii cu momente centrate


În statistică, oblicitatea curbelor de distribuţie se calculează cu ajutorul momentelor
centrate de ordinul trei (indicator preluat şi în programele statistice pe calculator).
Momentul de ordin k este media abaterilor de la o anumită valoare, ridicată la puterea k;
dacă abaterile sunt de la medie, momentele se numesc centrate.
n

Momentul centrat de ordin k este mărimea μk =


∑ (x i−M )k sau, pentru serii de
i=1
N
n

frecvenţe, μk =
∑ ni (x i−M )k ; se observă că momentul centrat de ordinul 1, μ1=0 (din
i=1
N
definiţia mediei); momentul centrat de ordinul doi este varianţa; momentul centrat
deordinul trei reflectă oblicitatea; pentru ca valorile sale să fie standardizate, se divide
cu abaterea medie pătratică
(standard). Aşadar, coeficientul de asimetrie Pearson cu momente centrate este
μ
2
C as = β 1 = 33 ; μ3=
∑ (x i−M )3 n i ; μ =σ 2= ∑ (x i−M )2 n i ; făcând raportul se observă că
∑ ni ∑ ni
2
μ2
vom obţine mereu o valoare pozitivă; extrăgând radicalul, obţinem coeficientul β '1 care
păstrează semnul şi permite o apreciere a sensului asimetriei.
μ3 μ3
' '
β1 = 3 = 3 ; β se mai notează cu γ 1 şi se numeşte coeficientul de asimetrie Fischer
1
2 2 2
μ 2 (σ )
cu momente centrate. Asimetria e în funcţie de semnul lui γ 1: sgnγ 1 = sgn μ3 = ¿0 →
asimetrie spre dreapta; ¿ 0 → asimetrie spre stânga.
Cu cât β 1 sau γ 1 sunt mai apropiate de 0, distribuţiile sunt mai simetrice. Teoretic,
pentru distribuţii simetrice, momentele centrate de ordin impar sunt nule ( β 1=0, căci μ3
=0, μ1=0) iar cele de ordin par sunt pozitive ( μ2 >¿0, μ4 > ¿0);
Dacă momentele de ordin impar ( μ3, μ1) sunt diferite de zero, distribuţiile sunt
asimetrice:
Dacă μ3 ¿ 0 avem o asimetrie spre dreapta;
Dacă μ3 <¿ 0 avem o asimetrie spre stânga;
Evident, dacă μ3= 0, avem o distribuţie simetrică.

56
Calculând pentru tabelul precedent, coeficienţii de asimetrie cu momente centrate

xi
'
ni '
x i −¿M (x i −M )
' 2
ni (x i −M )
' 2
(x i −M )
' 3 '
ni (x i −M )
3

115 12 -22.4 501.76 6021.12 -11239.424 -134873.088


125 16 -12.4 153.76 2460.16 -1906.624 -30505.984
135 28 -2.4 5.76 161.28 -13.824 -387.072
145 24 7.6 57.76 1386.24 438.976 10535.424
155 20 17.6 309.76 6195.2 5451.776 109035.52
100 16224 -46195.2

M=137.4; μ2=σ =
∑ '
2
2
(x i−M ) ni
=
16224
= 162.24; μ3=
∑ (x ' i−M )3 ni =
−46195.2
=-
∑ ni 100 ∑ ni 100
2
μ3 461.952
2
461.952 ( μ3 <¿0, deci vom avea o asimetrie spre stânga); β 1 = 3 = 3 =
μ2 162.24
213399.6503
= 0.0499, aşadar avem de a face cu o asimetrie moderată negativă (spre
4270451.687
stânga) (curba e uşor alungită spre stânga).

Obs: Atunci când coeficienţii de asimetrie sunt mai mici în modul decât 0.1, avem
asimetrii moderate.
μ 3 −461.952
−461.952
Calculând şi coeficientul de asimetrie Fischer, γ 1= 3 = 3 = = - 0.22
μ22 √ 162.24 2066.507
ceea ce arată o uşoară asimetrie spre stânga.

6.Indicatori ai boltirii (excesului sau kurtosisului)


(în greceşte, kurtosis – cocoaşă)
Boltirea arată diferenţa dintre o distribuţie empirică şi distribuţia normală, sub aspectul
n
variaţiei variabilei X şi a frecvenţei relative f i = i ; curba frecvenţelor poate prezenta
N
una din următoarele 3 situaţii:
1-coincide cu modelul (curba normală) şi este mezocurtică
2- prezintă o variaţie puternică a variabilei X însoţită de o variaţie slabă a frecvenţei f i -
curbă platicurtică (platos = lat în greceşte)
3- prezintă o variaţie slabă a variabilei X însoţită de o variaţie puternică a frecvenţei f i -
curbă leptocurtică (leptos = subţire).

Curbă mezocurtică Curbă leptocurtică Curbă platicurtică

50 50 50
45 45 45
40 40 40
35 35 35

Indicatori ai boltirii
30 30 30
Studenti

Studenti

Studenti

25 25 25
20 20

1.Coeficientul de boltire Pearson


20
15 15 15
10 10 10
5 5 5
0 0 0
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Nota Nota Nota

57
μ4 μ4
β2 = 2 = 4 unde μ4 este momentul centrat de ordinul 4, μ2 momentul centrat de
μ 2 σ

ordinul 2 sau varianţa. μ4 =


∑ ' 4
(x i−M ) ni
; pentru o distribuţie normală coeficientul de
∑ ni
boltire este β 2=3 Dacă β 2> ¿ 3, atunci distribuţia este leptocurtică;
Dacă β 2 ¿ 3, atunci distribuţia este platicurtică.

2. Coeficientul de boltire Fisher într-un mod asemănător măsoară excesul faţă de curba
normală.
μ4
γ 2 = β 2 −¿ 3 = 2 – 3; dacă β 2 = 3 → γ 2 = 0, distribuţie mezocurtică;
μ2
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie leptocurtică;
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie platicurtică.

Cu datele anterioare
xi
'
ni x i' −¿M (x i' −M )2 ' 2
ni (x i −M )
' 4
(x i −M )
' 4
ni (x i −M )
11 12 -22.4 501.76 6021.12 251763.09 3021157.08
5 16 -12.4 153.76 2460.16 23642.13 378274.08
12 28 -2.4 5.76 161.28 33.17 928.76
5 24 7.6 57.76 1386.24 3336.21 80069.04
13 20 17.6 309.76 6195.2 95951.25 1919025
5
14
5
15
5
100 16224 5399453.2

5399453.2 μ4 53994.532
μ4 = = 53994.532; μ2= 162.24; β 2 = 2 = = 2.05 ¿ 3, distribuţie
100 μ2 26321.81
platicurtică
Coeficientul Fisher → γ 2 = β 2 – 3 = 2.05 – 3 = – 0.5 ¿ 0, distribuţie platicurtică.
Aplicații
Coeficientul şi intervalul de variaţie, calculul valorilor centrale, a abaterii standard, a
varianţelor inter- şi intra-grupale, verificafrea teoremei de descompunere a varianţei
Ex1
Angajaţii unei secţii s-au grupat, după timpul afectat pentru realizarea unui proiect,
astfel:
x i reprezintă variabila statistică, adică timpul consumat (în ore)
ni reprezintă frecvenţele absolute (numărul de angajaţi ce corespund variabilei)
xi ni
sub 120 12
120-130 16
130-140 28
140-150 24
peste 150 20

58
100

Să se determine şi să se analizeze variaţia medie a timpului afectat de cei 100 de angajaţi


pentru realizarea unui proiect, folosind abaterea medie pătratică şi coeficientul de
variaţie.
'
xi ni ni x i
' '
x i −¿M
' 2
(x i −M )
' 2
ni (x i −M )
115 12 1380 -22.4 501.76 6021.12
125 16 2000 -12.4 153.76 2460.16
135 28 3780 -2.4 5.76 161.28
145 24 3480 7.6 57.76 1386.24
155 20 3100 17.6 309.76 6195.2
100 13740 16224

M=
∑ '
x i ni 13740
= 2 ∑
= 137.4; σ =
' 2
(x i−M ) ni 16224
= = 162.24 → σ = 12.74 ore ceea
∑ ni 100 ∑ ni 100
ce arată că fiecare din cei 100 de angajaţi se abate în medie faţă de timpul mediu
consumat pentru realizarea unui proiect, cu ± 12.74 ore.
În intervalul de variaţie, I = (M – σ , M + σ ) = (137.4 – 12.74, 137.4 + 12.74) = (124.66,
150.14) se plasează majoritatea de 68.27% din cei 100 de angajaţi. I reprezintă
intervalul mediu de variaţie a timpului consumat pentru realizarea unei piese.
σ 12.74
Coeficientul de variaţie v = (100%) = (100%) = 9.27% ¿ 17% ceea ce arată o
M 137.4
dispersie mică, deci o colectivitate omogenă din punctul de vedere al timpului de lucru
necesar, deci media aritmetică este strict reprezentativă.

Ex2
În urma unui sondaj s-au înregistrat următoarele date:

Nr.crt Vechim Salariu


e (ron)
(ani)
1 3 900
2 6 1200
3 7 1300
4 1 750
5 2 800
6 9 1400
7 12 1600
8 15 1800
9 13 1700
10 6 1200
11 8 1350
12 9 1400
13 10 1500
14 2 800
15 3 900

59
1.Să se ordoneze seriile; 2. Să se caluleze Me pentru salarii; M = ?; 3. Să se grupeze
datele în funcţie de vechime, respectiv salariu, în 3 grupe de intervale egale; 4. Să se
calculeze indicatorii tendinţei centrale pentru 3; 5. Verificaţi regula descompunerii
varianţei pentru seria vechime, punându-se în evidenţă influenţa factorilor întâmplători
şi esenţiali; 6. Aceeaşi cerinţă pentru seria salarii.
n+1 15+1
R.1.Ordonăm seria vechime: 1,2,2,3,3,6,6,7,8,9,9,10,12,13,15; U Me = = =8→
2 2
Me = 7; M= 7.06;
2. Seria salarii: 750, 800, 800, 900, 900, 1200, 1200, 1300, 1350, 1400, 1400, 1500, 1600,
n+1 15+1
1700, 1800; U Me = = = 8 → Me = 1300;
2 2
102.5 8−5 2
3. M = = 6.83; Me = 5 + 5 = 7.14; ∆ 1 = 7-5; ∆ 2 = 7-3; Mo = 5 + 5 = 6.67
15 7 2+ 4

Vechime ni Ni '
xi
'
ni x i
'
x i -M
' 2
(x i−M )
' 2
ni (x i −M )
xi
[0-5] 5 5 2.5 12.5 -4.33 18.74 93.74
(5-10] 7←n Mo 12← 7.5 52.5 0.67 0.44 3.14
(10-15] 3 ∫ ¿ Me ¿ 12. 37.5 5.67 32.14 96.44
15 5
15 102.5 193.32

193.32
Grupată pe intervale, seria vechime are varianţa σ 2 = = 12.88
15
Salariu x i ni Ni '
xi
'
ni x i
[750-1100] 5 5 925 4625
(1100-1450] 6← n Mo 11← 127 7650
(1450-1800] 4 ∫ ¿ Me ¿ 5 6500
15 162
5
15 18775

M = 1251.67; Me = 1275; Mo = 1216.67


Înainte de a verifica teorema de descompunere a varianţei, să calculăm varianţa pentru
seria simplă a variabilei „vechime”, ţinând cont de valoarea mediei aritmetice M = 7.06.

xi x i−¿ ni ¿ ni ¿
M
1 -6.06 1 36.7236 36.7236
2 -5.06 2 25.6036 51.2072
3 -4.06 2 16.4836 32.9672
4 -3.06 0 9.3636 0
5 -2.06 0 4.2436 0
6 -1.06 2 1.1236 2.2472
7 -0.06 1 0.0036 0.0036
8 0.94 1 0.8836 0.8836
9 1.94 2 3.7636 7.5272

60
1 2.94 1 8.6436 8.6436
0 3.94 0 15.5236 0
1 4.94 1 24.4036 24.4036
1 5.94 1 35.2836 35.2836
1 6.94 0 48.1636 0
2 7.94 1 63.0436 63.0436
1
3
1
4
1
5
262.9304

262.9304
Varianţa σ 2 = = 17.5286
15
Împărţim seria vechime în trei grupe egale

xi 1
ni 1
xi ni1 1
xi - M 1
1
(x i −M 1)
2
ni (x i −M 1)
2
1 1 1

1 1 1 -1.2 1.44 1.44


2 2 4 -0.2 0.04 0.08
3 2 6 0.8 0.64 1.28
4 0 0 1.8 3.24 0
5 0 0 2.8 7.84 0
N 1=5 11 2.8

11 2.8
M1 = = 2.2; σ 21 = = 0.56
5 5

xi 2
ni 2
xi ni2 2
xi - M 2
2
(x i −M 2)
2
ni (x i −M 2 )
2
2 2 2

6 2 12 -1.857 3.448 6.896


7 1 7 -0.857 0.734 0.734
8 1 8 0.143 0.02 0.02
9 2 18 1.143 1.306 2.612
10 1 10 2.143 4.592 4.592
N 2=7 55 14.854

55 14.854
M2 = = 7.857; σ 22 = = 2.122
7 7
xi 3
ni 3
xi ni xi - M 3
3 3 3
(x i −M 3)
2
ni (x i −M 3 )
2
3 3 3

11 0 0 -2.33 5.4289 0
12 1 12 -1.33 1.7489 1.7689
13 1 13 -0.33 0.1089 0.1089
14 0 0 0.67 0.4489 0
15 1 15 1.67 2.7889 2.7889
N 3=3 40 4.6667

61
40 4.6667
M3 = = 13.33; σ 23 = = 1.555; aşadar varianţele de grupă sunt σ 21=0.56; σ 22
3 3
=2.122; σ 23=1.555

Varianţa intergrupală σ M = 2 ∑ N s (M s −M )
2
=
2 2
N 1 (M 2−M ) + N 2 (M 2−M ) + N 3 (M 3 −M )
2

N 1 + N 2 +...+ N s N1+ N2+ N3


2 2 2
5(2.2−7.06) +7(7.857−7.06) +3(13.33−7.06)
= = 16.08 datorată factorilor esenţiali,
5+7+3
datorată variaţiilor mediilor celor trei grupe alese;
Varianţa intragrupală σ
2
=
∑ 2
N s σs
=
2 2 2
N 1 σ 1+ N 2 σ 2+ N 3 σ 3
=
N 1+ N 2+...+ N s N 1+ N 2+ N 3
5∙ 0.56+7 ∙ 2.12+3 ∙ 1.555
= 1.488 datorată factorilor întâmplători (media varianţelor de
5+7+3
grupă);
Se constată că σ 2M + σ 2 = 16.08 + 1.488 = 17.568 ≅ 17.528 = σ 2; deci teorema se verifică.

Aplicații. Calculul coeficienţilor de asimetrie

Pentru datele următoare calculaţi:


xi ni
700-900 20
900-1100 30
1100- 55
1300 35
1300- 10
1500
1500-
1700
150

a)Asimetria absolută; b) coeficienţii de asimetrie Pearson şi Fischer; c) coeficientul de


asimetrie prin metoda quartilelor (coeficientul Yule); d) asimetria pe bază de centile; e)
coeficienţii de asimetrie Pearson şi Fischer cu momente centrate; f) boltirea cu
coeficienţii de boltire Pearson şi Fischer

xi
' '
ni x i
'
x i−M
'
(x i−M )
2 ' 2
ni (x i−M )
'
(x i −M )
3 '
ni (x i −M )
3
Ni
800 16000 -380 144400 2888000 -54872000 -1097440000 20
1000 30000 -180 32400 972000 -5832000 -174960000 50←intQ1
1200 66000 20 400 22000 8000 440000 105←intMe
1400 49000 220 48400 1694000 10648000 372680000 140←intQ3
1600 16000 420 176400 1764000 74088000 740880000 150

62
17700 7340000 -158400000
0

177000 55−30
a)M = = 1180; Mo = 1100 + 200 = 1211.11
150 ( 55−30 )+(55−35)
As = M – Mo = 1180 – 1211.11 = - 31.11 ¿ 0, asimetrie negativă, spre stânga (alungită la
stânga).
b) σ =
−31.11
√7340000
150
= 221.208; calculăm coeficientul de asimetrie Pearson: C asP=
M −Mo
σ
=

=
221.208
- 0.14 → distribuţie moderat asimetrică spre stânga (negativă)
150
−50
Pentru a calcula coeficientul de asimetrie Fischer, aflăm întâi Me = 1100 + 2 200
55
3(M −Me) 3(1180−1190.90)
= 1190.909; C asF= = = - 0.14, ceea ce arată o asimetrie
σ 221.208
negativă moderată.

q2−q1 ( Q3−M e )−(M e −Q1)


c)Pentru calculul coeficientului Yule, C aY = = , avem:
q 2+ q1 ( Q3−M e ) +( M e−Q 1)
∑ ni −N 37.5−20
Q1 = x i−1 + d 4 i−1
= 900 + 200 = 1016.66; Q2 = Me = 1190.9;
30
nQ 1

3 ∑ ni
−N i −1 112.5−105
Q3 = x i−1 + d 4 = 1300 + 200 = 1342.85; C aY = - 0.068, asimetrie
35
nQ 3

negativă moderată.

( C 90−C50 )−(C 50−C10 )


d) asimetria pe bază de centile, C asC = = - 0.74;
C 90−C10
e) pentru calculul coeficientului de asimetrie Pearson cu momente centrate,
μ
2
β 1 = 33 ; μ3=
∑ (x i−M )3 n i = -1056000 deci avem asimetrie negativă; μ = ∑ (x i−M )2 n i
∑ ni ∑ ni
2
μ2
1115136000000
= 48933.4 ; → β 1 = = 0.0095 aşadar o asimetrie moderat negativă;
2394477636 ∙ 48933.4
μ3 −1056000 −1056000
calculând coeficientul Fischer cu momente, γ 1= 3 = 3 = = -
2
μ2 √ 48933.4 48933.4 ∙ 221.2
0.0975 (asimetrie moderată negativă – modul este uşor deplasat spre dreapta, sau curba
e uşor alungită spre stânga).
f) pentru a afla boltirea (kurtosisul), se calculează coeficientul de boltire Pearson,
μ 4 5611253333
β2 = 2 = = 2.343 ¿ 3, aşadar e vorba de o distribuţie platicurtică.
μ2 2394471111

63
xi
'
ni '
x i−M
' 2
(x i−M )
' 2
ni (x i−M )
' 4
(x i−M ) ni (x i−M )
' 4

800 20 -380 144400 2888000 20851360000 417027200000


100 30 -180 32400 972000 1049760000 31492800000
0 55 20 400 22000 160000 8800000
120 35 220 48400 1694000 2342560000 81989600000
0 10 420 176400 1764000 31116960000 311169600000
140
0
160
0
150 7340000 841688000000

μ4
Evident, acelaşi rezultat îl dă calculul coeficientului Fischer γ 2 = β 2 −¿ 3 = 2 – 3 = 2.343
μ2
– 3 = - 0.65 deci o distribuţie platicurtică.

Calculul momentelor centrate poate fi simplificat folosind corecţiile Sheppard:


2 2
μ2 k μ k μ2 7 k 4
= μ2 − ; 4 = μ4 − + unde k = mărimea intervalului de grupare, în
corectat
12 2 240
corectat

cazul de faţă k = 200;


μ4
β2 = 2 = 1.97246 ¿ 3 → o distribuţie platicurtică; γ 2 = β 2 −3 = −¿1.02753
corectat

μ 2 corectat
corectat corectat corectat

→ o distribuţie platicurtică.

Obs. Boltirea se poate determina şi cu cuartile, după cum am văzut şi cu centile:


(Q3−Q1 )
Q 1342.85−1016.66 326.14
γ= = 2 = = = 0.2624;
C90−C 10 2(1271.43−650) 1242.86
C 90−C 10

Interpretare: pentru o distribuţie normală, acest coeficient în termeni de centile este de


0.263;
γ =0.2624<¿ 0.263 aşadar, avem cu o distribuţie uşor platicurtică.

7. Variabile aleatoare
O variabilă aleatoare este rezultatul unui experiment aleator. Poate fi discretă (cu valori
numărabile) sau continuă

64
O variabilă aleatoare discretă este notată cu X şi este însoţită de obicei de distribuţia sau
repartiţia sa:

X: ( x1
p1
x2 … xn
p2 … pn )
unde x i sunt valorile pe care le poate lua X, cu probabilităţile respectiv pi,
i = 1 , n, unde 0 ≤ p i ≤ 1

Egalităţile X= x i, se numesc evenimente; deoarece evenimentele X= x 1, X= x 2, ..., X= x n sunt


incompatibile două câte două şi unul dintre ele se realizează neapărat, avem:
n
P(X= x 1) + P(X= x 2) + ... + P(X= x n) = 1, adică p1 + p2+ ... + pn= 1 (∑ pi =1)
i=1

Distribuţia de probabilitate este reprezentată de probabilităţi (sau frecvenţe relative)


pentru care se poate construi (în cazul unei variabile discrete) o diagramă bară,
înălţimea fiecărei bare fiind egală cu probabilitatea (frecvenţa relativă) din dreptul
fiecărei valori.
Diagrama bară este forma grafică a unei distribuţii de probabilitate.

7.1 Valoarea medie a unei variabile aleatoare

Fie X: (
x1 x2 … xn
p1 p 2 … p n )
o variabilă aleatoare discretă. Vom numi valoarea medie a

acestei variabile, sau valoarea aşteptată, numărul M(X) = p1 x 1+ p2 x 2 + ... + pn x n =


n

∑ pi x i
1

Ex: Fie X variabila aleatoare reprezentând înălţimea studenţilor dintr-o grupă. Să se


scrie distribuţia variabilei şi să se afle media sa.

( )
1.5 1.62 1.64 1.65 1.681.72 1.74 1.8 1.85
1
X: 1 3 4 2 2 3 2 2 1 ; M(x) = (1.5 + 4.86 + 6.56 +3.3 + 3.36 + 5.16
20
20 20 20 20 20 20 20 20 20
+ 3.48 + 3.6 + 1.85) = 1.68.

Momentul de ordin k al unei variabile aleatoare X este valoarea medie a lui X k;

( )
k k k
k x x2 … xn
X = 1 ; M( X k ¿= p1 x k1 + p2 x 2k+ ... + pn x kn;
p 1 p 2 … pn

Varianţa unei variabile aleatoare X este σ 2( x) = p1 ( x 1−M (X ))2+ ... + pn ( x n−M ( X))2 = M(
(X −M ( X )¿¿ 2)¿ = M (X ¿ ¿2)−¿ ¿ (M (X )¿¿ 2)¿

65
7.2 Distribuţia normală (sau gaussiană)
2
−1 (x−M ( X ) )
Este o distribuţie continuă, de ecuaţie y= 1 e 2 unde M(X) = np este media
2
σ

√2 π
variabilei X, σ este abaterea medie pătratică, π ≈ 3.141592..., e este numărul lui Euler,
e≈2,71828...), sunt constante cunoscute.
Aria determinată de graficul distribuţiei normale şi axa Ox este egală cu 1. Notând cu
P(a¿ X < b ¿ probabilitatea ca X să aparţină intervalului (a,b), aceasta este egală cu aria
de sub curba normală cuprinsă între dreptele x=a şi x=b, a ¿b. În intervalul (– σ, + σ) se
plasează 68.27% din cazurile favorabile, în (–2σ, +2σ), 95.45% şi în (–3σ, + 3σ), 99.73%
din cazuri, ca în graficul de mai jos.

x−M (x) x−np


Expresia distribuţiei normale se standardizează cu substituţia z= = ,→
σ √ npq
−1
1
2
z
expresia y= e 2 Această relaţie este forma standardizată a distribuţiei normale, z
√2 π
fiind variabila distribuţiei normale cu media M(z)=0 şi dispersia σ z =1.
De data aceasta, seriile cuprinse între z= −1 şi z= +1; z=−2 şi z= +2; z=−3 şi z= +3
reprezintă 68.27%, 95.45%, 99.73% din aria totală a subgraficului, egală cu 1, cum se
arată în graficul următor.

66
Proprietăţi ale curbei normale: Curtosis: γ =3 ; Coeficient de asimetrie (în funcţie de
momente), C asim= 0.
Importanţa distribuţiei normale se va vedea atunci când în anumite condiţii, distribuţiile
binomială, hipergeometrică, Poisson se vor reduce la cea normală.

Mai jos e reprezentată curba normală pentru câteva valori ale mediei şi dispersiei. Trei
distribuţii sunt standardizate, una este deplasată (are media = −¿2).

7.3 Schema Bernoulli sau distribuţia binomială (cu revenire)


Se utilizează pentru a afla probabilitatea ca un eveniment să se producă de k ori în n
repetări ale unui experiment considerat identic: de exemplu, ca banul să iasă de 5 ori din
20 de aruncări ale unei monede. Fiecare repetare, are două rezultate posibile (iese faţa A
sau faţa B).
Teoretic, se fac n experimente identice independente cu revenire. În fiecare experiment,
evenimentul X= x i se produce cu probabilitatea p (probabilitate de succes) şi nu se
realizează cu probabilitatea q=1–p (probabilitate de eşec), probabilităţi ce rămân
constante pe tot parcursul experienţei. Să determinăm probabilitatea ca în n
experimente, evenimentul X= x i să se realizeze de k ori.
Fie A evenimentul „X= x i se realizează de k ori în n experimente”, sau, „evenimentul are
k succese şi n–k eşecuri”. Atunci:

n!
P(X= x i de k ori în n încercări) = C kn p k q n−k = k n−k
p q
k !(n−k )!
Distribuţia variabilei aleatoare este următoarea:

( )
0 1 k ¿n
⋮ ⋱ ⋮
0 0 n−0 1 1 n−1 k k n−k n n 0
C p q
n C p q
n ⋯ C p q
n ¿C n p q

n
Media, M(x) = ∑ C n p q = np
k k n−k

k=0
2
Varianţa, σ ( x) = M (X ¿ ¿2)−¿ ¿ (M (X )¿¿ 2)¿ = npq
Abaterea medie pătratică, σ = √ npq
q− p
Coeficientul de asimetrie (în funcţie de momente, Casim =
√ npq
67
1−6 pq
Boltirea (curtosisul), γ = 3 + (¿ 0 , leprocurtică, ¿ 0, platicurtică)
npq
Dacă p¿ q , atunci curba de distribuţie e alungită la stânga (deoarece probabilitatea de
succes are valori mai mari decât cea de insucces şi evenimentele se deplasează spre
valoarea de 1, din dreapta variabilei).

Ex: Se aruncă o monedă de 100 de ori. Să se afle numărul mediu de obţinere a unei
anumite feţe a monedei şi abaterea medie pătratică.
1 1 1

M = np = 100· = 50; Abaterea medie pătratică σ = √ npq = 100 · · = 5
2 2 2

Ex: Care e probabilitatea de a obţine de 2 ori aceeaşi faţă a unei monede din 4 aruncări?
1
Fie A evenimentul se obţine de 2 ori aceeaşi faţă a unei monede din 4 aruncări; p=q=
2
2
1 1
4−2
4 ! 1 3· 4 3
n=4, k=2, → p(A)=C 24 ( ) ( ) = = 5 =
2 2 2! 2 ! 24 2 8

Ex: Probabilitatea să se obţină exact o singură faţă a unei monede din patru aruncări
(1/2) e mai mare decît să obţin două feţe din patru aruncări.

7.3.1 Relaţia dintre distribuţia binomială şi distribuţia normală


Dacă n este suficient de mare şi nici p nici q nu sunt foarte apropiaţi de zero, atunci
distribuţia binomială poate fi foarte bine aproximată de o distribuţie normală
standardizată, cu variabila
x−M (x) x−np
z= = ; Aproximarea e cea mai bună dacă np şi nq ¿ 5.
σ √ npq
7.4 Distribuţia Poisson
Exprimă probabilitatea de producere a unui anumit număr de evenimente independente
care survin într-un interval fix şi cu media cunoscută. Un model de tip Poisson este acela
al numărului de sosiri înregistrate într-un interval de timp t.
Se demonstrează că funcţia care verifică aceste condiţii are următoarea distribuţie de
probabilitate, numită distribuţia Poisson:
k
pk (t ¿ = ( λt ) e−λt , k = 0, 1, 2, 3,..., λ¿ 0 Evenimentul X= x i este o intrare în sistem. Dacă
k!
aceste sosiri constituie un proces Poisson cu parametrul λ, atunci şi intervalele dintre
două intrări consecutive sunt variabile aleatoare care urmează legea exponenţială cu
parametrul λ.

Se spune că variabila aleatoare X are o distribuţie Poisson cu parametrul λ ¿ 0, dacă


k
λ −λ
poate lua orice valoare întreagă, nenegativă şi P(X=k) = e
k!

Proprietăţi:

68
∞ k
a)∑ P (X=k )= e
−λ
∑ kλ ! = e− λ·e λ = 1, aşadar avem de a face cu o distribuţie de
k=0 k≥0
probabilitate. În graficul de mai jos este sunt reprezentate trei distribuţii Poisson pentru
valori diferite ale lui λ.

Pe axa orizontală sunt trecute valorile lui k. Funcţia este definită numai pentru valori
întregi ale lui k. Liniile de conexiune sunt trasate numai pentru a ghida graficul.

b) Valoarea medie a unei variabile aleatoare cu distribuţie Poisson de parametru λ:


k k−1
λ −λ λ
M(X) = ∑ k e = λ·e ∑
−λ
= λe− λ e λ = λ
k ≥0 k ! k≥0 (k −1)!
Varianţa, σ 2 ( x )= M (X ¿ ¿2) – ¿ (M (X )¿¿ 2)¿ = λ 2 + λ −¿ λ 2= λ
Abaterea medie pătratică va fi σ ( x )= √ λ
1
Coeficientul de asimetrie în termeni de momente C asim=
√λ
1
Kurtosisul, γ= 3 +
λ

7.4.1 Relaţia dintre distribuţiile binomială şi Poisson

Dacă distribuţia binomială, pentru n suficient de mare arată că probabilitatea p a


producerii unui eveniment este apropiată de zero, (iar q=1–p tinde la 1) atunci
distribuţia binomială cu parametrii n, p poate fi aproximată cu distribuţia Poisson de
parametru λ = np. Din acest motiv, distribuţia Poisson se mai numeşte legea
evenimentelor rare.
În practică, un eveniment este socotit a fi rar, dacă numărul cazurilor posibile n≥ 30 şi
np¿ 5. În acest caz, distribuţia binomială se aproximează cu cea Poisson.

În ce priveşte legătura dintre distribuţia normală şi cea a lui Poisson, se arată că


distribuţia lui Poisson este aproximată de distribuţia normală, cu variabila
x−λ
standardizată, .
√λ
Seminar
69
Aplicaţii la distribuţia normală standardizată
(folosirea Anexei 2 şi Anexei 1)

Ex1 Determinaţi aria de sub curba normală pentru următoarele cazuri:


a)z=0 şi z=1; b) z=−¿0.65 şi z=0; c) z=−0.45 şi z=2.23; d) z=0.83 şi z=1.92
Rezolvăm folosind Anexele 1 şi 2.
a)să aflăm aria dintre z=0 şi z=1
În Anexa 2 urmărim coloana lui Z până ajungem la z=1.0. La intersecţia cu coloana 0,
obţinem 0.3413 care reprezintă aria căutată şi probabilitatea ca z să fie cuprins între 0 şi
1: P(0≤ z ≤ 1¿=0.341
b) z=−¿0.65 şi z=0; aria căutată, prin simetrie este aceeaşi ca între z=0 şi z=0.65.
Anexa2: urmărim coloana lui z până ajungem la z=0.6, apoi mergem spre dreapta, până
la coloana notată cu 5 → valoarea 0.2422. Deci P(−¿0.65≤ z ≤ 0 ¿ = 0.2422
c) z=−0.45 şi z=2.23; căutăm aria dintre z=0 şi z=0.45... = 0.1736
aria dintre z=0 şi z=2.23... = 0.4871 →P(−¿0.45≤ z ≤ 2.23 ¿=
0.1736 + 0.4871 = 0.6607
d) aria dintre z=0.83 şi z=1.92; aria(z=0.83 şi z=1.92) = aria (0 şi z=1.92) – aria (z=0 şi
z=0.83) = 0.4726 – 0.2967 = 0.1759
e) Să se afle aria de la stânga lui z= −0.7 ; aceasta va fi aria de la stânga (dreapta) lui 0
minus aria dintre (0 şi 0.7), adică aria = 0.5 – 0.2580 = 0.2420 (ţinând coont că aria de la
stânga (dreapta) lui 0 este jumătate din aria subgraficului funcţiei normale, egală cu 1.
f) să se afle aria de la dreapta lui z=2.03 şi de la stânga lui z= −¿ 1.46
Aria = 1 – (ariaz=−¿1.46 şi z=0) – (aria z=0 şi z=2.3) = 1 – 0.4279 – 0.4788 = 0.0933

Ex2
Determinaţi ordonata curbei normale în corespondenţă cu:
a)z=0.83; în Anexa1, urmăm coloana lui z până la 0.8 apoi spre dreapta până la
intersecţia cu coloana lui 3, → ordonata 0.2827
b) z= – 1.24 ; prin simetrie, z=1.24, → ordonata 0.1849
c) z= – 0.03; → ordonata 0.3988

Ex3
Dacă cifra de afaceri medie a 500 de firme este de 150 mii lei şi σ este 15 mii lei,
considerând că CA are o distribuţie normală, determinaţi:
a)câte firme au CA cuprinsă între 120 şi 155 mii lei?
b)câte firme au CA mai mare de 185 mii lei?

Se cunosc x, valori ale distribuţiei normale, pe care le standardizăm, ştiind M(x) = x =


150 şi σ =15:
x − x 120−150
a) Pentru x 1=120, z 1= 1 = = – 2 (pt CA = 120)
σ 15
x −x 155−150
Pt CA=155, z 2= 2 = = 0.33
σ 15
→ P(-2≤ z ≤ 0.33 ¿=P(0 ≤ z ≤ 2¿ + P(0 ≤ z ≤ 0.33)= (Anexa2) = 0.4772+0.1293= 0.6065
Numărul firmelor cu o CA∈(120,150) este 500·0.6065=303.25, deci circa 303 firme
x −x 185−150
b) Pentru CA=185, z 3= 3 = = 2.33
σ 15
P(z≥ 2.33 ¿=P(z≥ 0 ¿−P ( 0 ≤ z ≤ 2.33 )=0.5−0.4901=0.0099 ≅ 0.001
→nr. firmelor cu CA¿ 185 mii lei este 500·0.0099=4.95≅ 5 firme

70
Ex4
Determinaţi probabilitatea ca în 10 aruncări ale unei monede, să se obţină faţa A de un
număr cuprins între 3 şi 6 ori dacă:
a) se utilizează distribuţia binomială; b) aproximarea distribuţiei binomiale cu cea
normală
3 7
1 1
a) P(X=faţa A de 3 ori) = C 310( ) ( ) = 0.117
2 2
4 6
1 1
P(X=faţa A de 4 ori) = C 410( ) ( ) = 0.205
2 2
5 5
1 1
P(X=faţa A de 5 ori) = C 510( ) ( ) = 0.244
2 2
6 4
1 1
P(X=faţa A de 6 ori) = C 610( ) ( ) = 0.205
2 2
P(X = faţa A să apară de un număr cuprins între 3 şi 6 ori) = 0.117+0.205+0.244+0.205 =
0.7734
1
b) Media distribuţiei binomiale, M(x)= x =np=10· =5; Abaterea medie pătratică σ=√ npq
2


= 10
11
22
= 1.58

Deoarece trecem de la o variabilă discontinuă (binomială, cuprinsă între 3 şi 6) la una


continuă, normală), intervalul de la 3 la 6 e considerat un interval de la 2.5 la 6.5
2.5−5 6.5−5
Pt. x=2.5 → z= = −¿1.58; pt. x=6.5, → z= = 0.95
1.58 1.58
P(3¿ x <6 ¿=¿ (aria dintre z=−¿1.58 şi z=0) + (aria dintre z=0 şi z=−0 .95) = 0.4429 + 0.3289
= 0.7718≅ 0.7734

Ex5
O monedă se aruncă de 500 de ori. Determinaţi probabilitatea ca nr. de ieşiri a feţei A să nu
difere de 250: a) mai mult de 10 ori; b) mai mult de 30 de ori.
Ca şi la problema precedentă, se trece de la distribuţia discontinuă de tip binomial, la o
distribuţie normală care se standardizează astfel:
-apariţiile din intervalul discontinuu (240, 260) al distribuţiei binomiale devin apariţii în
intervalul continuu x∈(239.5 .260 .5); intervalul se „lărgeşte”.
1
√ 1 1
M = np = 500∙ = 250; σ =√ npq= 50 ∙ ∙ = √ 125 = 11.18
2
Acum, pt. x=239.5 →
2 2

x−x 239.5−250 260.5−250


z= = = −0 .94; pt. x=260.5, → z= = 0.94
σ 11.18 11.18
P(240≤ x ≤ 280 ¿ = (aria dintre z=-0.94 şi z=0.94) = 2 aria (z=0 şi z=0.94)= 2· 0.3264 = 0.6528
b) P(220≤ x ≤ 280 ¿=? Pentru datele continue, calculăm P(219.5≤ x ≤ 280.5 ¿;
219.5−250
x=219.5, → z= = -2.73
11.18
280.5−250
x=280.5, → z= = 2.73; →P(220≤ x ≤ 280 ¿ = 2·aria (z=0 şi z=2.73)= 2·0.4968=
11.18
0.9936

Ex.6

71
Dacă probabilitatea ca o firmă să dea faliment este de 0.001, determinaţi probabilitatea ca din
2000 de firme:
a) exact 3 să dea faliment; b) mai mult de 2 firme să dea faliment
Problema poate fi abordată cu distribuţia binomială; aici, n este suficient de mare (n=2000),
probabilitatea p a producerii unui eveniment este apropiată de zero (p=0.001), iar q=1–p tinde
la 1 şi atunci distribuţia binomială cu parametrii n, p poate fi aproximată cu distribuţia
Poisson (legea evenimentelor rare) de parametru λ = np=2. Se verifică faptul că numărul
cazurilor posibile n≥ 30 şi np¿ 5.
k
λ −λ 2 −2
3
4
Avem probabilitatea pentru k firme să dea faliment, k=3: P(X=k) = e = e = 2=
k! 3! 3e
0.18
b) P(X¿ 2) = 1 – P(x¿ 2 ¿=¿ 1– P(X=0 sau X=1 sau X=2) = 1 – P(X=0) – P(X=1) – P(X=2);
2 −2 1 2 −2 2 2 −2 2 1 2 2
0 1 2
P(X=0) = e = 2 ; P(X=1)= e = 2 ; P(X=2)= e = 2 ; → P(X¿ 2) =1 – ( 2 + 2 + 2
0! e 1! e 2! e e e e
5
) = 1– 2 = 0.323.
e

Dacă am fi folosit distribuţia binomială, probabilităţile cerute s-ar fi exprimat astfel:


a) C 32000 (0.001)3 (0.999)1997= 0.18053
b) 1−C 02000 ( 0.001)0 (0.999)2000 −C 510(0.001)1 (0.999)1999 −C510 (0.001)2 (0.999)1998 =
folosind Excel = 1 – 0.6766 = 0.3234;
calculând probabilităţile cumulate P(X¿ 2 ¿ = 0.6766

8. Regresie şi corelaţie

Metodele de regresie şi corelaţie permit înţelegerea şi modelarea sistemelor naturale sau


sociale, prin studierea legăturilor dintre variabile. Statisticianul Francis Galton, în
secolul 19 a studiat legătura dintre talia părinţilor şi cea a copiilor lor, creând conceptele
de regresie şi corelaţie pentru a descrie regresia liniară a progeniturilor în jurul unei
valori apropiate de nivelul mediu al populaţiei observate. În studiul legăturilor dintre
variabile pot apare trei situaţii: legătura nulă (nu există nici o influenţă între variabilele
considerate, de pildă între valoarea QI şi culoarea ochilor); legătura funcţională, când
modificarea unei variabile conduce la variaţia altei variabile într-o măsură ce rămâne
invariabilă, cum sunt legile fizicii; legătura statistică atunci când modificarea unei
variabile este rezultatul influenţei mai multor variabile, manifestat în medie pe
ansamblul unităţilor unei colectivităţi şi nu în fiecare caz în parte (de ex, între nivelul
consumului şi cel al veniturilor unei populaţii).
Regresia în medie este legată de cercetăruile lui Galton asupra eredităţii, sau „cum a
scăpat omenirea de gigantism şi piticism”. Concluzia lui a fost că de regulă, din părinţi
de talie mare se nasc copii cu o talie inferioară lor, iar din părinţi de talie redusă se nasc
copii cu o talie mai mare. Altfel, s-ar fi ajuns la „gigantism” sau „piticism”. Ca orice lege
statistică, se verifică la nivelul unei colectivităţi de volum mare şi nu pe cazuri izolate.
Apar astfel două concepte: cel de covariaţie şi de regresie. Covariaţia exprimă variaţia
simultană a două variabile între care există o dependenţă; se măsoară cu ajutorul
covarianţei şi se studiază prin metoda analizei de covarianţă (ANCOVA). Analiza de
regresie este o metodă statistică care permite studierea şi măsurarea relaţiei dintre două
sau mai multe variabile, precum şi descoperirea legii matematice dintre acestea. Pe baza

72
datelor unui eşantion se estimează relaţia matematică dintre două sau mai multe
variabile.
Analiza de corelaţie este metoda statistică prin care se măsoară intensitatea legăturii
dintre variabile. După forma modelului de regresie, corelaţia poate fi simplă sau
multiplă. În general, un model de regresie poate fi scris y = f(x1, x2,..., xn) + e; y –
variabila dependentă; xi – variabile independente (factoriale), e – eroarea sau influenţa
factorilor neincluşi în model. Într-o cercetare bazată pe analiza de regresie şi corelaţie
trebuie urmărite următoarele etape:
-identificarea existenţei legăturii – se rezolvă prin analiza logică a posibilităţii de
existenţă a unei legături între variabilele considerate;
-stabilirea sensului legăturii dintre y şi x (direct sau invers) şi al formei legăturii (liniare
sau curbilinii); - determinarea gradului de intensitate al legăturii (se rezolvă cu ajutorul
indicatorilor parametrici sau neparametrici ai intensităţii corelaţiei, folosiţi în analiza de
corelaţie).

Pentru estimarea modelului de regresie există unele metode elementare:


a)Metoda seriilor statistice paralele interdependente care constă în compararea
termenilor a două serii x (variabila independentă sau factorială) şi y variabila
dependentă:

X x 1, x 2, ..., x n

y y 1, y 2, ..., y n

Când se compară două serii de timp, termenii se ordonează cronologic, când se compară
serii de spaţiu, termenii se ordonează crescător sau descrescător după x.

b)Metoda tabelului de corelaţie presupune gruparea unităţilor unei populaţii simultan


după ambele variabile corelate x şi y. Unei valori a lui x îi corespunde o distribuţie
pentru y. Dacă frevenţele lui y sunt dispersate relativ uniform pe toată suprafaţa
tabelului, nu există legături între variabilele considerate. Dacă acestea se concentrează
în jurul diagonalelor tabelului, cu atât corelaţia este mai intensă.

c)Metoda grupărilor statistice se aplică atunci când cele două variabile corelate prezintă
un număr mare de variante. Aplicarea aceste metode implică gruparea valorilor
variabilei factoriale x pe intervale de variaţie şi calcularea valorilor lui y sub forma
valorilor medii corespunzătoare ( x i, y i).

d)Metoda grafică presupune reprezentarea grafică a perechilor de valori ale variabilelor


într-un sistem de axe. Astfel se poate stabili existenţa, sensul, forma şi intensitatea
corelaţiei. Graficul de corelaţie se numeşte corelogramă.
Tipul de corelogramă se construieşte de la caz la caz:

73
Series 1
Series 2
Series 3

X-Values

X-Values

Atunci când „norul” de puncte se dispune pe o axă, crescătoare sau descrescătoare,


putem vorbi de o dependenţă, directă sau inversă între variabile. Dacă punctele se
dispun simetric în spaţiu, fără să aibă tendinţa de a „urca” sau „coborî”, nu există nici o
legătură între variabile.

e)Metodele analitice presupun reprezentarea matematică a formei legăturii şi măsurarea


numerică a intensităţii legăturii. Curbele de regresie pot fi liniare (y=ax +b),
exponenţiale (y=ab x ), de tip putere (y=a x b), parabolice (y=a x 2+bx+c), hiperbolice,
logistice etc.

Demersul analizei de regresie presupune stabilirea şi construirea corelogramei,


aproximarea formei legăturii printr-un model teoretic şi scrierea ecuaţiei
corespunzătoare a modelului de regresie, estimarea parametrilor ecuaţiei de regresie pe
baza metodei celor mai mici pătrate şi interpretarea regresiei în funcţie de sensul şi
valoarea acestor parametri. Intensitatea legăturii dintre două variabile X şi Y arată
gradul de concentrare sau de împrăştiere a valorilor Y în jurul liniei de regresie YX.

Covarianţa a două variabile aleatoare X şi Y este o măsură a variaţiei simultane a


acestora. Dacă X şi Y sunt independente, atunci cov(X,Y) =0. Reciproca nu e adevărată.
Cov (X,Y) =
∑ (x i−x )( y i− y ) ; covarianţa poate fi negativă sau pozitivă. Coeficientul
n
de corelaţie propus de Pearson r yx se foloseşte pentru a măsura intensitatea legăturii în
cazul unei regresii simple.

74
r yx =
cov (X . Y )
=
∑ (x i−x )( y i− y ) unde σ , σ reprezintă abaterea medie pătratică
x y
σx σy n σx σ y
pentru X şi Y.
r yx este cuprins între -1 şi +1; cele două valori extreme reprezintă o legătură liniară
perfectă între cele două variabile, pozitivă şi negativă, iar valoarea zero semnifică
absenţa legăturii între variabile .
Mai există un indicator al intensităţii legăturii, şi anume raportul de corelaţie

√∑ ∑ ( y i − y)2 varianţa variabilei y în raport cu media valorilor, iar


2
σ yx
η= 2
unde σ 2y =
σy n
2
2 ( y x− y )
σ yx = varianţa valorilor teoretice faţă de media lor (varianţa sub influenţa
n
factorilor esenţiali).
Acelaşi indicator poate fi exprimat şi sub influenţa factorilor întâmplători
∑ ( y i − y x )2 adică η =

2
2 σ y / yx
σ y/ yx = 2
; varianţa totală σ 2y = σ 2yx + σ 2y/ yx este egală cu suma
n σ y
dintre variaţia explicată şi variaţia reziduală.

Regresia liniară
Statistica are în mod principal în vedere realizarea de predicţii. Predictia este procesul
de estimare a valorii unei variabile atunci când cunoaştem valoarea unei alte variabile.
Deşi în experienţă nu se găsesc relaţii perfecte, prin intermediul regresiei se pot face
predicţii pentru o variabilă, în funcţie de valoarea alteia.
În continuare, ne vom referi doar la situatia regresiei simple (o variabila dependentă si
una independentă) şi liniare (relaţia dintre cele două variabile poate fi descrisă printr-o
dreaptă în cadrul norului de puncte).
Regresia se leagă foarte mult de conceptul de corelaţie. O asociere puternică între două
elemente conduce la creşterea preciziei predicţiei unei variabile pe seama alteia. Dacă
am

Ex 1
Să presupunem că între volumul salariilor şi vechimea în muncă s-a obţinut un
coeficient de corelatie r = 0,8 pe un lot de 50 de subiecţi. Regresia ne dă posibilitatea să
estimăm ce salariu are un individ dacă cunoaştem vechimea sa în muncă şi tipul de
relaţie dintre cele două variabile.
Procesul de regresie presupune doi paşi. Primul se referă la determinarea ecuaţiei de
regresie, iar cel de-al doilea constă în utilizarea acestei ecuatii în predicţie.
Forma generală prin care se exprimă o ecuaţie de regresie este: y x = a + bx + e la nivelul
unei populaţii şi ^y x = a^ + b^ x + e la nivelul unui eşantion observat (a şi b sunt parametri
necunoscuţi ce urmează a fi estimaţi, iar a^ şi b^ sunt estimatorii parametrilor de regresie
unde:
a – ordonata la origine arată valoarea variabilei y când x = 0; b – panta dreptei sau
coeficientul de regresie, semnul său indică indică direcţia legăturii dintre variabilele
corelate, b ¿0 arată o legătură directă, pozitivă, b ¿0 arată o legătură inversă (negativă)
b = 0 arată lipsa de legătură, valoarea lui b arată cu cât creşte sau scade y la o creştere
sau scădere a lui x cu o unitate; e – variabila aleatoare neobservabilă.
Parametrii a şi b care definesc dreapta de regresie trebuie estimaţi pornind de la date
observate pe eşantion, adică alegând ca estimatori pe a^ şi b^ . Se consideră acei estimatori

75
pentru care valoarea variabilei aleatoare e i, adică distanţa dintre o valoare reală y i şi o
valoare estimată y x = a^ + b^ x i să fie cât mai mică, adică e i = y i – a^ – b^ x i să fie minimă
i

pentru orice valoare i a variabilei x.


Estimarea se poate face minimizând pe |ei| sau pe ∑ |ei|sau pe ∑ ei2 (regula celor mai
mici pătrate), cel mai folosit criteriu. Aşadar S = ∑ ei2 = ∑ ( y i− y x ) = ∑ ( y i – a^ – b^ x i)2
2
i

= minim, expresie care se minimizează prin derivare în funcţie de a şi b. Se anulează


derivatele parţiale ale lui S în funcţie de a şi b:
∂S ∂S
= – 2∑ ( y i – a^ – b^ x i) = 0; = – 2 x i ∑ ( y i – a^ – b^ x i) = 0, se obţine următorul sistem:
∂a ∂b

na + b ∑ x i = ∑ yi
a ∑ x i + b ∑ x i2 = ∑ x i y i
unde n reprezintă numărul de cazuri ai unei variabile.

După calculul coeficienţilor de regresie a, respectiv b, se pot face previziuni pe seama


lor.
Mai există o posibilitate de calculare a lor: dacă se cunosc r, coeficientul de corelaţie
sy
dintre X şi Y; s y şi s x abaterile standard ale variabilelor Y şi X, atunci a = r ∙ şi b = y -
sx
a∙ x, unde y şi x sunt mediile variabilelor Y şi X.

Ex2
Zece subiecţi sunt testaţi în ce priveşte capacitatea de a rezolva anumite probleme (Y) şi
efortul depus sau cantitatea de pregătire (X). Au fost obţinute următoarele rezultate:
2
Nr X Y X XY
1 17 11 289 187
2 13 15 169 195
3 15 14 225 210
4 11 18 121 198
5 19 10 361 190
6 10 19 100 190
7 12 16 144 192
8 11 15 121 165
9 13 15 169 195
10 14 14 196 196
13 147 1895 1918
5

∑ X =135, ∑ Y =147, ∑ X ² =1895 ∑ XY =1918


Obtinem astfel:
10a + 135b = 147
135a +1895b = 1918
În urma calculului va rezulta:
a = 27,08, iar b = -0,91
Ecuatia de regresie obtinuta este:
Y = 27,08 – 0,91X

76
Vom face în continuare predictii ale nivelului de rezolvare pornind de la aceasta ecuatie
în situatiile în care un subiect ar face efortul de 11, respectiv 19.
Y1 = 27,08 – 0,91∙11 = 17,07
Y2 = 27,08 – 0,91∙19 = 9,79
Se observă că între valorile estimate şi cele efective există diferenţe (17,07 estimată fata
de 17 efectivă, respectiv 9,79 estimată faţă de 10 efectivă).
Aceste diferenţe reprezintă erorile de estimare sau valorile reziduale. Dacă am calcula
toate valorile reziduale şi media lor, am obţine media zero şi abaterea standard ar fi
eroarea standard a estimării. Aceasta se interpretează asemănător cu abaterea standard
în situaţia unei distribuţii normale a datelor.
Formula de calcul prescurtată a acestei erori standard este:

Unde sy este abaterea standard a variabilei y


r este valoarea coeficientului de corelatie
În cazul Ex1 vom obtine:

Să luam în acelaşi exemplu un individ cu 1 an vechime. Valoarea estimată a salariului


este de 3,84. Cu ajutorul acestei erori standard putem aproxima că în 68% din cazurile
în care un subiect obţine cota 1 la vechime (adică, între –1 si +1 sy/x) vom obtine o
valoare estimată a salariului de 3,84 ¿ 2,4. Cu cât coeficientul de corelatie este mai
mare, cu atât eroarea de estimare va fi mai mică.

S Exerciţii
1)Pornind de la datele din tabel, stabiliţi ecuaţia de regresie utilizând ambele metode
pentru variabila independentă fobia şcolară (X) unde Y reprezintă variabila dependentă
(rezultatele şcolare) exprimate prin media generală.
(un scor mic înseamnă o frica de eşec redusă)
Frica de eşec Rezultate Frica de eşec Rezultate
şcolar X şcolare X şcolare
Y Y
8 7,80 9 6,00
5 8,20 5 9,00
8 8,00 6 8,90
7 6,50 4 9,25
6 8,30 7 8,00
7 7,70 5 8,80
7 6,90 9 5,80

2)Utilizând aceleaşi date desenaţi linia de regresie pentru X ca variabilă independentă.


Faceti predicţii ale reuşitei şcolare pentru cazurile în care fobia şcolară a fost evaluată
ca fiind 5, respectiv 9.
3)Pornind de la următoarea situatie a numarului de absolventi de bacalaureat, stabiliţi
ecuaţia de regresie pentru variabila dependentă (nr. de absolventi), unde variabila
independenta este anul de învatamânt:
An 2000 2001 2002 2003 2004 2005
Nr. 20000 2200 18000 2300 25000 25000
absolvenţi 0 0
77
Cât de corectă şi adecvată este calcularea ecuaţiei de regresie în forma sa liniară?

3)Considerând datele din tabelul următor, să se estimeze valorile parametrilor


modelului de regresie corespunzător.

Îngrăşămint Producţie medie


e de grâu/ha Y
naturale X
1 10
2 15
3 20
4 30
5 40

Dacă vom trasa o corelogramă, Y=f(X) vom constata o legătură liniară directă între
cantitatea de îngrăşăminte şi producţia la hectar, deci vom alege un model liniar de
regresie y x = a + bx;
Folosind metoda celor mai mici pătrate vom obţine sistemul
na + b ∑ x i = ∑ yi
a ∑ x i + b ∑ x i2 = ∑ x i y i ; tabelul necesar pentru aflarea parametrilor a şi b:

x y x
2
y
2
xy y x = a + bx
1 10 1 100 10 8
2 15 4 225 30 15.5
3 20 9 400 60 23
4 30 16 900 120 30.5
5 40 25 1600 200 38
1 115 55 3225 420 115
5

Se obţine y x = a + bx = 0.5 + 7.5 x


Parametrul b luând valoare pozitivă arată că legătura dintre x şi y este directă;
deasemenea arată că la o creştere a lui x cu o unitate, y creşte cu 7.5 unităţi.

78
Formule statistică descriptivă univariată

Caracteristici calitative – condiţii de concordanţă


(A) + ( A ) = N; (B) + ( B) = N;
(AB) + (A B) = (A); (AB) + ( A B) = (B); ( A B) + ( A B) = ( A );
(A B) + ( A B) = ( B);
(A B) = (A) – (AB); ( A B) = (B) – (AB);
( A B) = N – (A) – (B) + (AB)
N – (A) – (B) + (AB) ≥ 0
( A ) = N – (A); ( A B) = (B) – (AB); ( A B) = N – (A) – (B) + (AB); ( A BC) = (BC) – (ABC); (
A BC) = (C) – (AC) – (BC) + (ABC);
( A BC ) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) şi corelativele acestora
obţinute prin permutări circulare;
Pentru ca populaţia să existe, trebuie ca fiecare caracteristică de mai sus să fie pozitivă:
(C) – (AC) – (BC) + (ABC) ≥ 0; prin permutări: (B) – (BC) – (BA) + (ABC) ≥ 0;
(A) – (AB) – (AC) + (ABC) ≥ 0; N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) ≥ 0

Condiţii de concordanţă pentru două caracteristici calitative


Pentru 2 caracteristici calitative, vom avea 4 frecvenţe de grupă finale (AB) ≥0,
(A B) = (A) – (AB) ≥0; ( A B) = (B) – (AB) ≥0; ( A B) = N – (A) – (B) + (AB) ≥ 0
Deci: (AB) ≥0; (AB) ≥ (A) + (B) – N; (AB) ≤ (A); (AB) ≤ (B)

Condiţii de concordanţă pentru trei caracteristici calitative


Pentru 3 caracteristici calitative, condiţia ca cele 8 frecvenţe de grupă finale să fie
nenegative ne conduce la relaţiile:
(ABC) ≥0; (ABC) ≥ (AB) + (AC) – (A); (ABC) ≥ (AB) + (BC) – (B);
(ABC) ≥ (AC) + (BC) – (C)
Evident că: (ABC) ≤ (AB); (ABC) ≤ (AC); (ABC) ≤ (BC)
(ABC) ≤ (AB) + (AC) + (BC) – (A) – (B) – (C) + N

79
(AB) + (AC) + (BC) ≥ (A) + (B) + (C) – N
(AB) + (AC) – (BC) ≤ (A)
(AB) + (BC) – (AC) ≤ (B)
(AC) + (BC) – (AB) ≤ (C)

Caracteristici cantitative
Amplitudinea clasei: L – l ;
Valoarea centrală a clasei = (L+l)/2;
Tendinţe centrale
n
xi
M=∑
i=1 n
n
xi ni
M=∑
i=1 n

{ }
N
dac ă N = par
U me = 2
N +1
¿ dac ă N =impar
2

{ }
∑ ni , c â nd ∑ n este par
U Me −N i−1 2 i
Me = x i−1 + d , U Me =
n Me ∑ ni+ 1 , c â nd ∑ n este impar
i
2
∆1
M o=¿ x i−1 + d
∆1 + ∆2
Mo = 3Me – 2M
n 1
G = (∏ xi ¿ ¿ N sau G = √n x 1 x 2 x n ; G =
i=1
√G
N 1+ N 2+ …+N r
1
N1 N2
G2 … Gr
Nr

N ∑ ni
i=1
H= 1 1 1 H= ; H≤G≤M¸
+ + …+ s
1
X 1 X2 XN ∑ n
xi i


i=1
s

∑ x i 2 ni
Mp =
√ x 21 + x 22+ …+ x 2n
n
; pentru serii de frecvenţă, M p = i=1

∑ ni
i=1
s

Quartile
U Q −N i−1 k ∑ ni
Qk = x i−1 + d , unde U Q = , k = 1 ,3
k

nQ k
4
k

U D −N i−1 k ∑ ni
Dk = x i−1 + d , unde U D = , k = 1,9
k

nD k
10
k

U C −N i−1 k ∑ ni
C k = x i−1 + d , unde U C = , k = 1 , 99
k

nC k
100
k

Indicatori ai împrăştierii

80
n

A = x max −x min; Ar =
A d
100 (%); d i = x i−M ; d r = i 100 (%);
∑ |x i−a|;
M M Am ( a )= i=1 i

N
n n s n

∑ ni|x i−a| ; ∑|x i−M|; d=¿ ∑ ni|x i−M|; ∑|xi −M e| sau


Am ( a )= i=1 d= i=1 i=1
d Me = i=1
N N N N
s

∑ ni|x i−M e|;


d Me = i=1
N

√ √
n s

σ= ∑ (x i−M ) 2
sau σ = ∑ ni (x i−M )2
i=1 i=1
N N

σ
2
=∑
d
2
i
=∑ i
(x −M )
2
respectiv, σ 2
=
∑ d i ni ∑ (x ,i−M )2 n i
2

= ; σ 2 = M 2p – 2 2
M ; Mp =
N N ∑ in N
∑ x i ni ;
2

∑ ni
, 2
x i−a
2
σ =
∑ k ni k 2 −¿ ( M −a)2;
( )

∑ ni
I = (M-d , M+d ¿ unde
s

d=¿ ∑
ni|x i−M|
i=1 ; I = (M-σ , M +σ ¿, apar 68.27% din cazuri; în
N
I = (M-2 σ , M + 2 σ ¿ , apar 95.45% din cazuri; în
I = (M-3 σ , M +3 σ ¿, apar 99.97% din cazuri
d σ
v= (100%) sau v = (100%).
M M
17%¿v¿35% - media este moderat reprezentativă
17%¿v¿50% - media este nereprezentativă în sens larg
v¿50% - media este nereprezentativă
k

k ∑ ns ( x i−M s )2
i

N s = n s + n s +... + n s = ∑ ns ; σ 21, σ 22, ...., σ 2s ; σ 2s =


1 2 k i k
i=1
k ;
i=1
∑ ns i
i=1

2
σM =
∑ N s (M s −M )2 ; σ 2 = ∑ N s σ 2s
; σ 2 = σ 2M + σ 2;
N 1 + N 2 +...+ N s N 1+ N 2+...+ N s
∑ x i ni = 1∙ p+0 ∙ q = p; σ = ; v = σ = √ pq = q ;
Media, M =
∑ ni p+ 1− p
√ pq p M
I Q – Q1
p p √
I Q = Q3 – Q1; A = x max – x min; I D = D9 – D1; Q = Q = 3 ;
2 2

81
Q3 – Q1
Q 2 Q3 – Q1 D −D1 d d σ
vQ = = = (100%); v D = 9 (100%); , , = v;
Me Q3 +Q1 Q 3+ Q 1 Me M Mo M
2

Indicatori ai formei
( Q3−M e )−(M e −Q1) Q1+Q 3−2 M e
As = M – Mo = 3(M−¿Me); C aY = (C aQ) = = unde Q =
Q3 −Q1 2Q
I Q Q3 – Q1
= ;
2 2
( Q3−M e )−(M e −Q1) q2−q1
C aY = = unde q 1 = M e −Q1 şi q 2 = Q3−M e ; –1≤ CaY ≤1;
( Q3−M e ) +( M e−Q 1) q 2+ q1
( C −C50 )−(C 50−C10 ) C q2−q1 ( Q3−M e )−(M e −Q 1) M −Mo
C asC = 90 ; aY = = ; C asP= ; C asF =
C 90−C10 q 2+ q1 ( Q 3−M e ) +( M e−Q 1) σ
3(M −Me)
ϵ (-3, 3);
σ
n n

μk = ∑ (x i−M )k sau, pentru serii de frecvenţe, μk =


∑ ni (x i−M )k ;
i=1 i=1
N N

C as = β 1 =
μ
2
3
; μ3 =
∑ (x i−M ) n i ; μ =σ 2= ∑ (x i−M ) n i ; β ' = μ 33 = μ3 3 ;
3 2

∑ ni ∑ ni
3 2 1
μ 2 μ 22 (σ 2) 2
Dacă μ3 ¿ 0 avem o asimetrie spre dreapta;
Dacă μ3 <¿ 0 avem o asimetrie spre stânga;
Evident, dacă μ3= 0, avem o distribuţie simetrică;
μ4 μ
β 2 = 2 = 44 unde μ4 este momentul centrat de ordinul 4, μ2 momentul centrat de
μ2 σ

ordinul 2 sau varianţa. μ4 =


∑ ' 4
(x i−M ) ni
; pentru o distribuţie normală coeficientul de
∑ ni
boltire este β 2=3 Dacă β 2> ¿ 3, atunci distribuţia este leptocurtică;
Dacă β 2 ¿ 3, atunci distribuţia este platicurtică

μ4
γ 2 = β 2 −¿ 3 = 2 – 3; dacă β 2 = 3 → γ 2 = 0, distribuţie mezocurtică;
μ2
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie leptocurtică;
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie platicurtică.

82
83

S-ar putea să vă placă și