Documente Academic
Documente Profesional
Documente Cultură
9. Introducere în SPSS
1
1.Introducere
Populaţie statistică – orice mulţime care formează obiectul unei analize statistice. O
populaţie statistică este formată din unităţi statistice sau indivizi.
Trăsătura comună a tuturor unităţilor unei populaţii se numeşte caracteristică.
Variabilă statistică – ceea ce îşi schimbă valoarea într-o populaţie statistică şi poate fi
măsurată.
Ex: Ne interesează repartiţia studenţilor dintr-o facultate în funcţie de notele la
statistică. Mulţimea studenţilor = populaţie statistică
Fiecare student este o unitate statistică
Nota obţinută = caracteristica studiată
Variabila statistică = valoarea notei
Analiza statistică se poate face după una sau mai multe caracteristici.
De pildă, studiem distribuţia unui grup de persoane după talie, vârstă, apoi după
culoarea ochilor şi a părului etc.
Caracteristicile care se pot măsura se numesc cantitative: nota la matematică, numărul
de locuitori dintr-un oraş, vârsta, talia, salariul.
Caracteristicile cantitative pot fi discrete (discontinue) (iau valori întregi: numărul de
locuitori dintr-un oraş, numărul de copii dintr-o familie etc), şi continue: talia,
greutatea, lungimea părului etc.
Caracteristicile care reflectă anumite proprietăţi nemăsurabile în sine, se numesc
calitative: sex, profesie, culoarea părului etc.dar şi acestea, prin numărarea indivizilor
care le posedă, ori prin cumularea după unele criterii, devin cantitative.
2
pentru caracteristicile calitative, ele nu au nici o funcţie de semnificaţie, exceptând cazul
scalelor ordinale, când numerele pot indica ordinea claselor.
a) variabile nominale (categoriale); sunt date sub formă de nume sau se codifică sub
formă de alte simboluri care nu pot fi ordonate unul faţă de celălalt.
Ex: categoria profesională (muncitor, tehnician, inginer, etc), tipul de temperament
(coleric, sangvin, melancolic, flegmatic), variabile sex (feminin-masculin, codificat de
obicei cu 0;1); variabile stare civilă (căsătorit-necăsătorit); culoarea ochilor, religie etc;
pentru aceste variabile se face frecvenţa observaţiilor pe categorii.
Variabilele calitative dihotomice (masculin/feminin, da/nu, prezent/absent etc) sunt
variabile nominale.
b) variabile ordinale; în cazul măsurării la nivel ordinal: în afara clasificării cazurilor în
categorii (ca la nivel nominal) cazurile pot fi ordonate şi comparate, de la un nivel
inferior la un nivel superior. Variabilele ordinale pot fi de tip clasament: ex: locul ocupat
într-un clasament: primul, al doilea, al treilea etc; sau de tip scoruri: atribuim un
anumit scor sau punctaj (de ex, pentru viteza de răspuns la o întrebare, cât de mult ne
place un anumit obiect, cum apreciem finalitatea unui curs etc). La nivel ordinal,
distanţele dintre variabile sau scoruri nu sunt egale sau precise; nu putem spune că
distanţa dintre cineva cu categoria a II într-un domeniu faţă de un individ cu categoria a
IV-a este aceeaşi ca dintre două persoane cu categoriile a IV-a şi a VI-a. Exemplu tipic:
piramida nevoilor umane stabilită de Abraham Maslow:
1. nevoi fiziologice; 2. nevoi de securitate; 3. nevoi sociale de apartenenţă la un grup; 4.
nevoia de stimă, de a fi apreciat, 5. nevoia realizării de sine.
Variabilele ordinale mai pot fi:
- de tip interval (când există mai mult de două categorii aflate într-o ordine naturală,
variabilele sunt măsurate în unităţi cu intervale egale ce nu pot fi divizate, dar nu se
poate defini distanţa dintre două variabile).
Exemplu, QI: (cine are QI 150 nu este de 1.5 ori mai inteligent decât cel cu QI 100), anul
apariţiei unor cărţi sau timbre reprezintă o variabilă de tip interval: un timbru din 1991
e mai recent decât unul din 1960, iar intervalele dintre două clase succesive sunt egale cu
un an. Dar nu putem spune că un timbru din 1991 e de 31 de ori mai recent decât unul
apărut în 1960. O valoare zero care apare într-o variabilă de tip interval nu reprezintă
absenţa caracteristicii, ci doar un punct de pe scala de măsură.
Ex: temperatura, variabilă de tip interval, în care 0° C reprezintă o valoare a variabilei,
care poate lua şi valori negative.
- de tip raport (posedă caracteristicile unei scale de interval, dar se poate defini distanţa
dintre variabile precum pe o riglă uzuală şi apare un punct de zero care reflectă absenţa
caracteristicii studiate); ex: numărul de copii al unei familii, numărul de ani de căsnicie,
vechimea în muncă.
II) Variabile cantitative, atunci când demersul metodologic permite măsurarea în sensul
propriu al termenului. În acest caz, fiecare individ primeşte o valoare numerică, cu
funcţia de măsură a manifestării însuşirii, iar construcţia concretă a caracteristicii e
dependentă de mai mulţi factori.
Pot fi variabile cantitative continue: înălţime, greutate, venit, nivel de concentraţie a
unei substanţe etc şi discontinue: vârstă, număr de copii etc.
3
x i (Profil) ni (locuri studenţi)
Istorie 20
Filosofie 30
Sociologie 40
Teologie 30
4
Dacă variabila statistică se măsoară pe o scală restrânsă şi ia numai valori discrete,
atunci sub fiecare valoare dintr-un interval sau când valorile discrete sunt în număr
foarte mare, se procedează la formarea de intervale de grupare, a căror mărime şi al
căror număr sunt dictate, în principal, de nevoile cercetării. Prin urmare, o
caracteristică poate fi prezentată ca un tabel cu două linii (sau coloane), prima
conţinând clasele, valorile sau intervalele de valori, iar a doua frecvenţele, adică
numărul de indivizi prezenţi în fiecare clasă.
5
mai multe variabile (analiză multivariată) şi pentru a specifica modul în care anumite
variabile (numite independente) explică variaţia altora (numite dependente).
În exemplul considerat, nu este suficient să ştim tendinţa centrală şi variaţia atitudinilor
faţă de o problemă, ci s-ar dovedi mai profitabil teoretic şi practic să detectăm factorii
care generează şi explică variaţia. În acest sens, cea mai largă aplicare în cercetarea
sociologică o are analiza multivariată, întrucât orice fenomen sau proces social este
multidimensional, presupune considerarea unui evantai de variabile şi indicatori de
caracterizare aflaţi ei înşişi în raporturi diverse.
În timp ce statistica descriptivă este limitată la analiza datelor culese prin investigarea
unui eşantion, statistica inductivă are funcţia de a facilita elaborarea de inferenţe despre
întreaga populaţie din care a fost extras eşantionul. Ea se bazează pe teoria matematică
a probabilităţii şi oferă posibilităţi de elaborare a generalizărilor despre o populaţie pe
baza investigării unui eşantion al acesteia şi de formulare a unei legi generale întemeiate
pe observaţii repetate. Pentru a aplica statistica inductivă este necesar, mai întâi, ca
investigaţia empirică să fie precedată de eşantionare, adică de acea tehnică prin care
dintr-o populaţie este extrasă, în anumite condiţii, o parte (un eşantion) prin analiza
căreia pot fi obţinute informaţii generalizabile la nivelul întregii populaţii.
Caracteristicile cantitative ale unei populaţii sunt individualizate de parametri, pe când
cele ale unui eşantion de valori statistice. Parametrii sunt valori fixe referitoare la
populaţie şi sunt, în general, necunoscuţi. De exemplu, vârsta medie a studenţilor de la o
universitate din oricare perioadă poate fi necunoscută, dar probabil că toţi analiştii
curioşi ar identifica aceeaşi mărime. Valorile statistice variază însă de la un eşantion la
altul. Dacă am selecta aleator cinci eşantioane de studenţi din respectiva universitate şi
am calcula de fiecare dată vârsta medie, este foarte probabil să obţinem numere diferite.
Spre deosebire de parametri, valorile statistice pentru un eşantion dat pot fi calculate şi
cunoscute. Ceea ce nu ştim este cât de reprezentativ este eşantionul în raport cu
populaţia şi cât de apropiată este valoarea statistică obţinută prin calcul de valoarea
parametrului corespunzător necunoscut. În ultimă instanţă, interesul principal al
cercetării se concentrează asupra populaţiei, iar eşantionul îl investigăm numai pentru a
ajunge ta concluzii despre populaţie. Cu acestea am ajuns la specificarea celui de-al
doilea domeniu al statisticii inductive, şi anume elaborarea inferenţelor statistice. Acesta
este procesul prin care estimăm diferiţi parametrii ai populaţiei pe baza valorilor
statistice cunoscute, dar altfel irelevante, ale eşantionului.
Problema este una de testare a ipotezelor preformulate, de luare a deciziei privind
valoarea predictivă a estimatorilor statistici în raport cu parametrii populaţiei. Rareori
ne limităm în cercetarea sociologică numai la descrierea statistică a unui set de date,
fără a urmări să elaborăm inferenţe sau să formulăm generalizări teoretice. Se poate
chiar spune că statistica inductivă este modul reprezentativ de aplicare a statisticii în
sociologie. Extinderea cea mai mare în cercetarea sociologică o are analiza statistică
multivariată aplicată în vederea elaborării de inferenţe statistice, de fundamentare a
generalizărilor teoretice extinse la nivel de populaţie prin procedee inductive. În funcţie
de poziţia deţinută în analiză şi în succesiunea timpului social, variabilele incluse în
analiza multivariată se împart în două şi uneori în trei categorii.
Prima categorie include variabilele dependente sau criteriu a căror variaţie urmează a fi
explicată. Pentru aceasta este necesar a detecta acei factori care, într-un fel sau altul,
justifică, generează sau interferează cu variaţia variabilelor dependente. Aceşti factori
sunt incluşi în a doua categorie de variabile numite independente sau predictori. În
succesiunea temporală, predictorii preced variabilele-criteriu. Dacă nu se poate
identifica o succesiune temporală a categoriilor de variabile, atunci se specifică o ordine
logică fundamentată teoretic. În sfârşit, o ultimă categorie include variabilele
6
intermediare, situate între precedentele şi care sunt dependente în raport cu predictorii
principali şi independente în raport cu variabilele-criteriu. Analiza statistică
multivariată se poate concentra asupra gradului de similaritate a variabilelor din
aceeaşi categorie (analiză intracategorială) sau asupra numărului şi naturii relaţiilor
dintre două categorii (analiza intercategorială) sau asupra relaţiilor dintre trei sau chiar
mai multe categorii (analiză structurală în care este posibilă creşterea numărului de
variabile intermediare). Fiecărui tip de analiză îi sunt specifice anumite tehnici
statistice.
Aplicații
1)Clasificaţi următoarele grupuri ca populaţie sau eşantion:
- toate persoanele de peste 18 ani din Romania
- un grup de persoane din judetul Alba
- toate persoanele din judetul Iaşi
- toate persoanele din municipiul Bucureşti
- persoanele din judeţul Suceava
- 3 kg de mere
- toate merele din recolta acestui an
- toate instituțiile din țară
- câteva Primării din judetul Galaţi
- 1000 de școli din Romania
- apa unui lac
- o galeată de apă dintr-o fântână
2)Fie variabilele:
- Numărul de persoane dintr-o firmă
- Statutul marital al unei persoane
- Numărul de studenţi dintr-o grupă care vin la seminar
- Culoarea maşinilor
- Lungimea săriturii unei broaşte
- Culoarea ochilor
- Chiria platită lunar
- Factura telefonică
- Mulţumirea studentilor faţă de notele de la statistica
- Satisfacţia generală faţă de viaţă a oamenilor
- Gradul de implicare civică a unei populaţii
- Gradul de implicare politică a unui grup
- Încrederea unui om în Guvern
- Suprafaţa locuibilă într-un apartament
- Vârstele persoanelor din Facultatea de Sociologie
- Veniturile pensionarilor din Galaţi
- Coeficienţii de inteligenţă a copiilor din şcoala Generala nr.29
- Greutatea unui grup de copii
- Distanţele dintre sate şi orase
- Sursele de venit ale persoanelor active
- Durata unei greve
- Orientarea politică a persoanelor adulte
- Timpul de care au nevoie persoanele să ajunga la cel mai apropiat spital
- Grad de urbanizare
7
1. Selectati variabilele calitative şi clasificati-le în nominale sau ordinale.
2. Clasificaţi variabilele ordinale în variabile interval sau raport.
3. Clasificati variabilele cantitative în discrete sau continue.
4. Sistemul de notare de la 1 la 10 este de interval sau de raport? Argumentati.
0 10 9 10 4
1 12 8 8 8
2 14 7 6 1
1 18 10 4 10
3 20 28 2 12
4 22 30 32 26
5 22 29 3 20
6 24 27 12 8
8
5. Construiti distributia de frecvente cumulate pentru clasele de la punctul a.
6. Construiti diagrama steam and leaf pentru valorile din tabel.
7. Pentru acest tabel construiti in SPSS o variabila. Dati-i un nume elocvent.
Construiti o histograma.
8. Care sunt cele doua conditii pentru construirea intervalelor unei variabile
cantitative ?
9. Pentru tabelul de mai sus construiti 3 clase. Pentru cele 3 clase construiti
distributia de frecvente relative si distributia de frecvente cumulate.
10. Comparati frecventele relative/frecventele cumulate ale claselor de la punctul (1)
cu cele de la punctul (9). Care dintre cele două împărţiri de clase ar trebui
folosită? De ce?
6) Urmatoarele date reprezinta numarul de copii sub 18 ani din cadrul a 30 de familii
extrase la întamplare:
2 1 2 0 3 1 1 2 2 1
1 2 0 1 0 2 1 2 0 0
1 0 0 2 1 2 3 2 0 1
9
3. Desenati o histograma a distributiei de frecvente relative
4. Care sunt marginile si latimea celei de a patra clase?
9) Se dau următoarele date: 5, -7, 2, 0, -9, 16, 10, -4, 1, 3, -11; Să se calculeze media,
mediana şi modul.
11) Se dau următoarele numere: 37154, 8972, 5213, 3618, 2741, 2252, 1835, 2345, 2892,
1687
a. Să se calculeze media şi mediana pentru aceste date.
b. Pentru aceste date, există mod?
c. Aceste date conţin vreo valoare extremă? Dacă da, să se elimine acea valoare şi să se
recalculeze media şi mediana.
d. Care dintre cele două este cea mai bună măsură pentru a descrie datele?
12) Au fost înregistrate numărul de ore petrecute de studenţi pentru a învăţa la test:
0 până la 4 ore 17
4 până la 8 ore 23
8 până la 12 ore 15
12 până la 16 ore 11
16 până la 20 ore 8
20 până la 24 ore 6
13) Scorul mediu la testul de statistică pentru 15 fete este 24 iar cel pentru 20 de băieţi
este 21. Să se calculeze media combinată a celor două grupuri folosind principiul
mediei ponderate.
14) Se dau numărul de ani de pensie pentru 15 pensionari: 5, 6, 3, 6, 11, 7, 9, 10, 2, 4, 10,
6, 2, 1, 5
Să se calculeze modul şi media pentru aceste date. Să se compare aceste două măsuri
şi să se precizeze care este cea mai potrivită pentru a măsura tendinţa centrală a
datelor.
15) Următorul set de date reprezintă timpul petrecut in bibliotecă într-o zi de zece
studenţi (în minute):
88 90 50 520 81 80
50 78 60 70 73 95
10
a. Calculaţi modul, mediana şi media pentru această variabilă
b. Care dintre cele trei măsuri este mai potrivită pentru caracteriza tendinţa centrală
a variabilei
c. Cum se modifica modul, mediana si media daca scoatem valoarea '520’ din setul de
date?
4 7 12 15 8
6 9 17 10 11
Bărbaţi Femei
18 33
34 43
35 34
32 39
45 44
34 29
99 25
43 32
3 41
11
Bărbaţi Femei
34
Să se calculeze măsurile tendinţei centrale pentru cele două grupuri.
19) Care este diferenţa calitativă dintre două eşantioane dacă la primul mărimile
tendinţei centrale se află în ordinea Mo, Me, M, iar la al doilea, în ordinea M, Me, Mo ?
2. Caracteristici calitative
12
2.1 Algebrizare, dihotomizare1
Se introduce o relaţie „A are proprietatea p”, care va fi o relaţie de echivalenţă pe
o mulţime M. Din analiza „calitativă” a structurii induse, rezultă Principiul
noncontradicției (este imposibil ca un element să aibă și să nu aibă în același timp
proprietatea p), Principiul terţului exclus (orice element al lui M ori are, ori nu are
proprietatea p). De aici decurge în mod natural logica clasică: valoarea de adevăr a unei
propoziții e indusă de faptul că se pronunță asupra posesiei proprietății p de către un
element.
Propoziţia P: A are proprietatea p; P este adevărată dacă A are proprietatea p.
Un obiect ori are, ori nu are proprietatea p, deci P este ori adevărată, ori falsă, lucru
care se verifică empiric, experimental. Faptul experimental, statistic îl certifică pe acela
logic, nu invers. Logica, teoria mulţimilor decurg din statistică, deci numărul apare ca
un reflex al unei proprietăţi de ordin statistic: Numărul x reprezintă mulţimea clasei de
echivalenţă a submulţimilor lui M în care fiecare element are proprietatea p. Adică,
submulţimile se grupează în funcţie de cardinalul lor: submulţimile Mk au proprietatea
că k elemente au proprietatea p2.
Deasemenea, logica care decurge de aici poate să nu opereze cu Adevăr şi Fals, ci
cu „are proprietatea p” sau „nu are proprietatea p”; deci trăsătura comună a unei
populaţii statistice (câte elemente au proprietatea p) care denotă caracteristica
populaţiei, se exprimă numeric printr-un număr k.
Astfel înlocuim veridicitatea unei propoziţii prin valoarea: fiecare element din
mulţime are proprietatea p. Putem spune: „este adevărat că fiecare element are
proprietatea p”, în locul, „Propoziţia a este adevărată”.
Așadar, o proprietate peste o mulțime finită de N elemente, o împarte în două,
sau o dihotomizează. Vom avea astfel de-a face cu elemente care au și altele care nu au
proprietatea avută în vedere. Dihotomizarea conduce la expresii algebrice. Dacă se
notează cu P•N operaţia de dihotomizare a unei mulțimi de N elemente după
proprietatea P, se poate scrie P•N = (P), care este o scriere simbolică semnificând faptul
că dihotomizarea lui N în raport cu P conduce la frecvenţa de grupă (P), adică numărul
celor care au proprietatea P este (P).
Analog, nonP•N = (nonP); adunînd P•N + nonP•N = (P+nonP)N = N, deci (P+nonP) = 1.
P este operator calitativ ce poate fi scris algebric 1–nonP etc3.
13
Din relaţiile de mai sus deducem: (A B) = (A) – (AB); ( A B) = (B) – (AB);
( A B) = N – (A) – (B) + (AB); (2)
În ultimele formule trebuie să avem:
(A B) ≥ 0, ( A B) ≥ 0, ( A B) ≥ 0. Primele două inegalităţi nu dau nici un indiciu
semnificativ, deoarece este evident că (A) ≥ (AB); ca un individ să aibă caracteristica şi
A şi B, trebuie să aibă în mod necesar cel puţin caracteristica A; analog (B) ≥ (AB);
În schimb, ultima inegalitate ne arată că trebuie să avem N – (A) – (B) + (AB) ≥ 0 pentru
a exista o populaţie statistică. Aceste inegalităţi se numesc condiţii de concordanţă pentru
două caracteristici. (Vom reveni asupra condiţiilor de concordanţă).
Ex1: Într-un oraş din Ţara de Foc, sunt 1560 de familii, dintre care 881 au televizor, 975
frigider şi 660 au şi televizor şi frigider. Cîte familii n-au nici televizor, nici frigider?
(nonAnonB) = N – (A) – (B) + (AB) = 1560 – 881 – 975 + 660 = 364
Exemple
Ex2: În oraş sunt 1550 de familii, dintre care 881 au televizor, 975 frigider, 370 maşină
de spălat. Statistica ne arată că există 525 care au televizor şi frigider, 220 au frigider şi
maşină de spălat, 215 au maşină de spălat şi televizor, 176 au televizor, maşină de spălat
şi frigider. Câte familii n-au nici televizor, nici frigider, nici maşină de spălat? Câte
familii au numai televizor? Avem: (A) = 881; (B) = 975; (C) = 370; (AB) = 525; (BC) =
220; (CA) = 215; (ABC) = 176; condiţiile de concordanţă se verifică, datele sunt (pot fi)
reale
N-au nici televizor, nici frigider, nici maşină de spălat
( A BC ) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) = 1550 – 881 – 975 –370 +
525 + 220 + 215 + 176 = 108
Numai televizor au: (A B C ) = (A) – (AB) – (AC) + (ABC)= 881 – 525 – 215 + 176 = 317
Obs.
14
Frecvenţele de grupă nu sunt independente între ele şi nu este necesar ca pentru
specificarea completă a datelor să avem toate frecvenţele de grupă. Se observă că orice
frecvenţă poate fi exprimată cu ajutorul frecvenţelor de ordin superior. Astfel, numărul
total al observaţiilor este evident egal cu numărul (A) adunat cu ( A ), adică N = (A) + ( A )
În mod similar, numărul elementelor A este egal cu numărul acelor elemente A care
posedă şi caracteristica B, adunat cu numărul elementelor A care nu posedă această
caracteristică, adică (A) = (AB) + (A B);
Analog (AB) = (ABC) + (ABC ) şi aşa mai departe.
Consecinţă
Fiecare frecvenţă de grupă poate fi exprimată cu ajutorul frecvenţelor de cel mai înalt
ordin, adică de ordinul n (n = câte caracteristici calitative luăm în considerare), întrucât
fiecare frecvenţă poate fi exprimată cu ajutorul frecvenţelor de un ordin mai mare şi
acest proces se va opri când vom atinge cel mai înalt ordin. De exemplu, în cazul a trei
caracteristici calitative (n = 3),
(A) = (AB) + (A B) = (ABC) + (ABC ) + (A BC) + (A B C )
Pentru datele dintr-un ansamblu de frecvenţe de grupă, cea mai bună metodă de
verificare a concordanţei este calcularea frecvenţelor de grupă finale în funcţie de cele
pozitive.
15
Evident că: (ABC) ≤ (AB); (ABC) ≤ (AC); (ABC) ≤ (BC)
Din (4) → (ABC) ≤ (AB) + (AC) + (BC) – (A) – (B) – (C) + N (7)
Din 6 şi 7 → 16 inegalităţi, din care doar 4 sunt noi:
din 6.1 şi 7.4 → (AB) + (AC) + (BC) ≥ (A) + (B) + (C) – N (8.1)
din 6.2 şi 7.3 → (AB) + (AC) – (BC) ≤ (A) (8.2)
din 6.3 şi 7.2 → (AB) + (BC) – (AC) ≤ (B) (8.3)
din 6.3 şi 7.1 → (AC) + (BC) – (AB) ≤ (C) (8.4)
Ex.1: Ştiind că (A) = (B) = (C) = N/2 şi că 80% din elementele A sunt şi elemente B, iar
75% din elementele A sunt simultan şi elemente C, să se găsească limitele procentajului
elementelor B care sunt şi elemente C.
80 80
(AB) = (A) = N/2 → 2(AB)/N = 0,8
100 100
75 75
(AC) = (A) = N/2 → 2(AC)/N = 0,75
100 100
? ≤(BC) ≤?
80 80 75 75
Avem (AB) = (A) = N/2; (AC) = (A) = N/2
100 100 100 100
Deci 2(AB)/N = 0,8; 2(AC)/N = 0,75.
Folosim 8.1 (AB) + (AC) + (BC) ≥ (A) + (B) + (C) – N
Avem: 0,8N/2 + 0,75N/2 + (BC) ≥ N/2 + N/2 + N/2 – N, adică:
0,4 + 0,75 + 2(BC)/N ≥ 1; deci 2(BC)/N ≥ – 0,15 nu e relevant, deoarece e o limită
negativă.
Din 8.4 (AC) + (BC) – (AB) ≤ (C) rezultă
0,75N/2 + (BC) – 0,8N/2 ≤ N/2, adică 2(BC)/N ≤ 1 + 0,8 – 0,75 = 1.05 > 1, nu e relevant
Din 8.2 şi 8.3 rezultă 2(BC)/N ≥ 0,8 + 0,75 –1 şi 2(BC)/N ≤ 1 – 0,8 + 0,75, adică
0,55 ≤ 2(BC)/N ≤ 0,95.
În concluzie, cel puţin 55% şi cel mult 95% din elementele B sunt simultan şi elemente C
OBS: De verificat „inferenţe” de tipul: Fiind date 100 de observaţii, (A) = 45, (B) = 23,
(C) = 14; să se arate că oricare ar fi procentele elementelor B care sunt A şi ale
elementelor C care sunt A, nu se poate deduce nimic cu privire la procentul elementelor
B care sunt şi C.
Pentru valori determinate ale lui N, (A), (B), (C), (AB) şi (AC), se întâmplă adeseori ca o
valoare a lui (BC) mai mare ca zero să satisfacă condiţiile (8) şi prin urmare, nici o
inferenţă statistică cu privire la limita inferioară să nu fie posibilă. Argumentul de tipul
„Avem un număr de elemente A care sunt şi elemente B şi un număr de elemente B care
sunt şi elemente C şi deci trebuie să ne aşteptăm ca un număr de elemente A să fie şi
elemente C” trebuie folosit cu precauţie.
16
Ex.2
Din populaţia adultă a unui oraş 50% sunt bărbaţi, 60% sunt salariaţi şi 50% au vârsta
de 45 de ani sau mai mult; 10% din numărul bărbaţilor nu sunt salariaţi şi 40% au sub
45 de ani. Ce se poate spune despre procentajul oamenilor de 45 de ani sau peste, care
sunt salariaţi?
Notăm caracteristicile caltative A - bărbat, B - salariat şi C - au vârsta de cel puţin 45 de
ani şi luăm pentru. comoditate, N= 100.
Obţinem: (A) = 50; (B) = 60, (C) = 50;
10 la sută din nr. bărbaţilor sunt nesalariaţi: adică 0,1• 0,5• 100 = (A B), deci
(A B) = 5; analog (AC ) = 0,4• 0,5•100 = 20. Se cer limitele lui (BC).
Se ştie că cele 3n frecvenţe pot fi exprimate cu ajutorul celor 2n frecvenţe finale.
În ipoteză sunt date şase frecvenţe de grupă (incluzînd pe N – frecvenţă de ordinul 0).
Dacă am cunoaşte încă două frecvenţe de grupă, independente de acestea, problema ar
fi complet determinată, deoarece am avea 23 frecvenţe de grupă.
Notăm: ( A BC ) = x; (ABC) = y;
Cf. (3) (ABC ) = (AB) – (ABC); ne trebuie (AB), adică nr. bărbaţilor salariaţi
Numărul bărbaţilor salariaţi rezultă din ipoteză că e 90% din 0,5•100, adică
(AB) = 0,9•0,5•100= 45
Deci (ABC ) = 45 – y; ≥0, slab
Din (A BC) = (AC) – (ABC);
nr. bărbaţilor de cel puţin 45 ani este: (AC) = 0,5•0,6•100= 30
Deci (A BC) = 30 – y ; deci y≤30 tare
Din (A B C ) = (A) – (AB) – (AC) + (ABC), rezultă
(A B C ) = 50 – 45 – 30 + y,
deci (A B C ) = y – 25 ≥0, deci y ≥25 (condiţie tare), deci 25≤y≤30;
Din ( A BC) = (BC) – (ABC); rezultă ( A BC) = (BC) – y = conform relaţiei de mai sus
y + x – 15 – y, deci
( A BC) = x – 15 ≥0, (condiţie tare), x≥15
17
2.6 Aplicaţii la caracteristici calitative
2.6.1 Rezumatul cursului anterior
1. Un ansamblu de elemente poate fi împărţit în două grupe, în funcţie de faptul dacă
posedă sau nu o caracteristică calitativă particulară. Acest procedeu se numeşte
dihotomie.
2. Continuarea dihotomiei în funcţie de n caracteristici calitative dă naştere la 3n grupe.
3. Frecvenţele acestor grupe pot fi exprimate cu ajutorul a 2n frecvenţe de grupă finale
sau a celor 2n frecvenţe de grupă pozitive (cele notate cu A, B, C…).
4. Dîndu-se 2n frecvenţe de grupă independente, toate frecvenţele de grupă pot fi
calculate cu ajutorul lor.
5. Condiţia necesară şi suficientă de concordanţă a unei serii de frecvenţe de grupă
independente, relativ la o populaţie particulară, este ca nici o frecvenţă finală ce poate fi
calculată cu ajutorul acestora să nu fie negativă.
6. În virtutea importanţei practice a frecvenţelor de grupă pozitive, condiţiile de
concordanţă sînt exprimate numai cu ajutorul acestora.
7. Condiţiile de concordanţă pot fi folosite pentru a cerceta datele inexacte sau
incomplete. Pentru cel din urmă caz, se pot determina limitele necunoscute ale
frecvenţelor de grupă.
Ex.1:
Fie o populaţie statistică studiată din perspectiva a 3 caracteristici calitative A, B, C.
1) Se cunosc frecvenţele finale; să se afle frecvenţele de grupă pozitive.
2) Să se arate că numărul total de observaţii No este egal cu numărul N al populaţiei.
3) Invers, dîndu-se N şi frecvenţele de grupă pozitive, să se afle toate frecvenţele de
grupă (în număr de 27)
1)
(ABC 57
)
(ABc) 281
(AbC) 86
(Abc) 453
(aBC) 78
(aBc) 670
(abC) 65
(abc) 8310
Frecvenţa oricărei grupe de ordinul întâi, de exemplu (A) este dată de suma celor patru
frecvenţe de ordinul al treilea, în care prima literă este A:
(1) (A) = (ABC) + (ABc) + (AbC) + (Abc) = 877; urmează prin permutări circulare:
(2) (B) = (ABC) + (aBC) + (ABc) + (aBc) = 57 + 78 + 281 + 670 = 1086
(3) (C) = (ABC) + (AbC) + (aBC) + (abC) = 57 + 86 + 78 + 65 = 286
În mod analog, frecvenţa oricărei grupe de ordinul al doilea, de ex. (AB), este dată de
suma acelor frecvenţe de ordinul al treilea, în care prima pereche de litere este A, B:
(4) (AB) = (ABC) + (ABc) = 57 + 281= 338
(5) (AC) = (ABC) + (AbC) = 57 + 86 = 143
(6) (BC) = (ABC) + (aBC) = 57 + 78 = 135
(ABC) = 57
18
Rezultatele complete se trec într-un tabel
N 10000
(A) 877
(B) 1086
(C) 286
(AB) 338
(AC) 143
(BC) 135
(ABC 57
)
2) No, nr. de observaţii este dat de suma frecvenţelor de grupă finale, care sînt
independente, deci fiecare individ dintr-o grupă finală necesită o observaţie separată.
No = (ABC) + (ABc) + (AbC) + (Abc) + (aBC) + (aBc) + (abC) + (abc) = 10000
Se poate calcula şi N, volumul populaţiei statistice studiate, după formula cunoscută:
N = (A) + (B) + (C) – (AB) – (AC) – (BC) + (ABC) + (abc) = 877 + 1086 + 286 – 338 – 143
– 135 + 57 + 8310 = 10000. Se vede că N = No
3) Se cunosc:
N = 10000; (A) = 877; (B) = 1086; (C) = 286; (AB) = 338; (AC) = 143; (BC) = 135; (ABC)
= 57
Trebuie aflate toate celelalte frecvenţe de grupă, în total 27, frecvenţa de ordin 0 fiind
N=10000.
Din (4) (ABc) = (AB) – (ABC) = 338 – 57 = 281
Din (5) (AbC) = (AC) – (ABC) = 143 – 57 = 86
Din (6) (aBC) = (BC) – (ABC) = 135 – 57 = 78
Din (3) (abC) = (C) – (ABC) – (AbC) – (aBC) = (C) – (AbC) – (BC) =
= 286 – 125 – 86 = 65
Asemănător (sau prin permutări circulare)
(Abc) = (A) – (ABC) – (ABc) – (AbC) = 453 şi
(aBc) = (B) – (ABC) – (aBC) – (ABc) = 670
În sfîrşit, (abc) = N – (A) – (B) – (C) + (AB) + (BC) + (CA) – (ABC) = 8310
(sau, scriind că (bc) = (Abc) + (abc), deci (abc) = (bc) – (Abc); (bc) = N – (B) – (C) +
(BC), deci (abc) = 8310)). Au mai rămas de calculat a, b, c:
a = N – (A) = 10000 – 877 = 9123; b= N – (B) = 10000 – 1086 = 8914;
c=10000-286= 9714;
Şi mai avem de calculat frecvenţele de tipul:
(aB) = (aBC) + (aBc) = 78 + 670 = 748,
(Ab) = (AbC) + (Abc) = 86 + 453 = 539
(ab) = (abC) + (abc) = 65 + 8310 = 8375 şi permutările circulare corespunzătoare:
(bC)=(AbC)+(abC)=86+65=151; (Ac)=(ABc)+(Abc)=281+453=734;
(Bc)=(ABc)+(aBc)=281+670=951; (aC)=(aBC)+(abC)=78+65=143;
(bc)=(Abc)+(abc)=453+8310=8763; (ac)=(aBc)+(abc)=670+8310=8980
Cele 27 de frecvenţe se trec într-un tabel.
19
(A1A2…..Am) ≥ (A1) + (A2) +…+ (Am) – (m – 1)N, N fiind numărul de unităţi statistice
care au proprietăţile A1, A2, … Am; (am m proprietăţi şi N unităţi statistice)
În cazul nostru, luăm N=100 şi aplicăm formula:
(ABC) ≥ (A) + (B) + (C) – (3-1)100, unde (A)=89, (B)=91, (C)=92. Obţinem (ABC)≥72
Deci avem cel puţin 72% integralişti.
Să calculăm datele când avem exact 72 de integralişti:
Deci trebuie să avem (ABC) = (A) + (B) + (C) – 2N (*)
Frecvenţa oricărei grupe de ordinul întîi este dată de suma celor 4 frecvenţe de ordinul
al treilea în care prima literă este A
Deci (A) = (ABC) + (ABc) + (AbC) + (Abc); (B) = (ABC) + (ABc) + (aBC) + (aBc);
(C) = (ABC) + (AbC) + (aBC) + (abC); rezultă cf (*)
(ABC) = (ABC) + (ABc) + (AbC) + (Abc) + (ABC) + (ABc) + (aBC) + (aBc) + (ABC) +
(AbC) + (aBC) + (abC) – 2N (x)
dar N = (ABC) + (aBC) + (AbC) + (ABc) + (Abc) + (aBc) + (abC) + (abc) (y)
Din (x) şi (y), avem:
(ABC) = 3(ABC) + 2(ABc) + 2(AbC) + (Abc) + 2(aBC) + (aBc) + (abC) – 2(ABC) –
2(aBC) – 2(AbC) – 2(ABc) – 2(Abc) – 2( aBc) – 2(abC) – 2(abc), deci
0 = – (Abc) – (aBc) – (abC) – 2(abc), ceea ce nu e posibil, având în vedere pozitivitatea
lor, decât dacă (Abc) = 0, (aBc) = 0, (abC) = 0, (abc) = 0. Deci numărul minim de
integralişti se obţine atunci când nu există nici un student care a căzut la mai mult de o
materie.
Adică, din ultimele relaţii, rezultă (bc) = (Abc) + (abc) = 0, analog (ab) = 0, (ac) = 0,
(abc) = 0, deci nimeni nu a picat la 2 examene, necum la 3 examene.
3) Să se arate că dacă A are loc într-o proporţie mai mare în cazurile în care se constată
şi prezenţa lui B decât în cazurile cînd prezenţa lui B nu se constată, atunci B va fi
constatat într-o proporţie mai mare în cazurile în care A se constată decât în cazurile în
care A nu se constată.
Adică, dîndu-se inegalitatea (AB)/(B) >(Ab)/(b), să se arate că (AB)/(A) >(aB)/(a)
R: (AB)/(Ab) >(B)/(b); (AB)/(AB)+(Ab) >(B)/(B)+(b); adică (AB)/(B) >(A)/N; adică
(AB)/(B)-(AB) >(A)/N-(A), adică (AB)/(aB) >(A)/(a)
4) Ştiind că (A) = (a) = (B) = (b) = N/2, să se arate că (AB) = (ab); (Ab) = (aB)
4
După Yule şi Kendall 1969, pp.39-42.
20
R: (A) = (AB) + (Ab)
(a) = (aB) + (ab); Cf. ipoteză, (AB) + (Ab) = (aB) + (ab) (1)
(B) = (AB) + (aB)
(b) = (Ab) + (ab); cf. ip, (AB) + (aB) = (Ab) + (ab) (2); scăzînd (2) din (1),
(Ab) – (aB) = (aB) – (Ab), adică 2(Ab) = 2(aB), deci (Ab)=(aB).
Ţinînd cont de 1), (AB) = (ab)
5) Ştiind că (A) = (a) = (B) = (b) = (C) = (c) = N/2, şi (ABC) = (abc), să se arate că
2(ABC) = (AB) + (AC) + (BC) – N/2
R: Se ştie că N= (A) + (B) + (C) – (AB) – (BC) – (CA) + (ABC) + (abc) ⇔
N = N/2 + N/2 + N/2 – (AB) – (BC) – (CA) + 2(ABC) ⇔
(AB) + (BC) + (CA) – N/2 = 2(ABC), qed.
Se mai poate arăta că (Ab) = (aB); (Ac)=(aC); (Bc)=(bC); şi că
(ABc) + (AbC) + (Abc)= (aBC) + (aBc) + (abC) etc plus permutări
Ultimele relaţii se demonstrează din:
(1) (A) = (ABC) + (ABc) + (AbC) + (Abc); urmează prin permutări circulare:
(2) (B) = (ABC) + (aBC) + (ABc) + (aBc)
(3) (C) = (ABC) + (AbC) + (aBC) + (abC)
(4) (a) = (aBC) + (aBc) + (abC) + (abc)
(5) (b) = (AbC) + (abC) + (Abc) + (abc)
(6) (c) = (ABc) + (Abc) + (aBc) + (abc);
din (1), (2), avem: (AbC) + (Abc) = (aBC) + (aBc), adică
(Ab)=(aB);
(Ac)=(aC); din 1,3; (Bc)=(bC); din (2),(3)
Obs. Statistica funcţionează atunci când principiul identităţii nu mai funcţionează? Sau
principiul identităţii este asimilat cu fenomenul „erorii de măsurătoare”; adică, obiectul
A are proprietatea P la măsurătoarea k, dar se poate la măsurătoarea k+1 să nu mai
reiasă că are această proprietate? Dacă obiectul A aparţine unei mase statistice, faptul
de mai sus nu deranjează demersul statistic, atâta timp cât obiectul A este studiat alături
de alte 999 de unităţi statistice relativ la proprietatea P.
6) O sută de copii sunt supuşi la trei examene. 40 dintre ei promovează primul examen,
39 al doilea şi 48 al treilea; 10 au trecut la toate trei examene, 21 au căzut la toate trei, 19
au căzut la primele două şi au trecut la al treilea. Să se afle câţi copii au trecut la cel
puţin două examene. Să se arate că, pentru a obţine rezultatul cerut, anumite frecvenţe
date nu ne sunt necesare. Care dintre ele? Să se arate că datele de mai sus nu sunt
suficiente pentru a permite determinarea frecvenţelor de grupă finale.
R: Dacă A, B, C sunt respectiv cei ce trec primul, al doilea şi al treilea examen, (C),
(abC) şi (ABc) sunt toate datele necesare pentru a răspunde la întrebare. Celelalte 5
frecvenţe (inclusiv N) sunt de prisos. Mai departe, N – (abC) – (abc) = (A) + (B) – (ABC)
21
– (ABc), adică există o relaţie liniară între frecvenţele date în problemă şi frecvenţele de
grupă finale, care mai înainte ne erau necunoscute.
7) (Lewis Carroll) Într-o bătălie crâncenă cel puţin 70% din combatanţi şi-au pierdut
câte un ochi, cel puţin 75% şi-au pierdut câte o ureche, cel puţin 80% şi-au pierdut câte
un braţ şi cel puţin 85% şi-au pierdut câte un picior. Să se afle câţi combatanţi au
pierdut simultan, cel puţin, toate acestea (un ochi, o ureche, un braţ, un picior).
R: 10%
9) Într-un război între două triburi A şi B erau mai mulţi soldaţi B decât A, mai mulţi A
înarmaţi decît B neînarmaţi, mai puţin B înarmaţi cu muniţii decât A neînarmaţi fără
muniţii. Să se arate că erau mai mulţi B înarmaţi fără muniţii decât A neînarmaţi cu
muniţii.
10) O anchetă a pieţei ne-a oferit următoarele date. Din 1000 de oameni chestionaţi, 811
preferă ciocolata, 752 caramelele, 418 bomboanele. La 570 le place ciocolata şi
caramelele, la 356 ciocolata şi bomboanele, la 348 caramelele şi bomboanele; la 297 le
place toate trei. Să se arate că aceste informaţii sunt incorecte.
R: Dacă A, B, C denotă preferinţele pentru ciocolată, caramele şi bomboane, (abc) este
negativă.
12) Să se facă acelaşi lucru pentru silogismul „Toate elementele A sunt elemente B şi nici
un element B nu este C, prin urmare nici un element A nu este C”.
13) Dându-se relaţiile (A) = (B) = (C) = 1/2N şi (AB)/N = (AC)/N = p, să se găsească cea
mai mică şi cea mai mare valoare a lui p, astfel ca (BC)/N să depăşească o valoare dată
q.
R: p≤1/4(1-2q), p≥1/4(1+2q), adică p trebuie să se afle între 0 şi 1/2(1-2q) sau între
¼(1+2q) şi ½.
15) O monedă este aruncată de trei ori şi se notează rezultatele (stema sau valoarea).
Procesul este continuat până se obţin 100 de grupe de câte trei aruncări. În 69 de cazuri,
valoarea a căzut întîi, în 49 de cazuri valoarea a căzut a doua oară şi în 53 de cazuri
valoarea a căzut a treia oară. În 33 de cazuri, valoarea a căzut prima şi a doua oară, iar
în 21 de cazuri valoarea a căzut şi a doua şi a treia oară. Să se arate că au existat cel
puţin 5 cazuri în care valoarea a căzut de 3 ori şi că nu au existat mai mult de 15 cazuri
în care stema a căzut de 3 ori, deşi nu este obligatoriu să fi existat un astfel de caz.
22
3.Caracteristici cantitative
3.1. Serie statistică
O serie reprezintă o ordonare de date numerice în ordine crescătoare sau
descrescătoare. Diferenţa dintre numărul cel mai mare şi cel mai mic reprezintă câmpul
de variaţie a datelor.
Ex:
Se iau la întîmplare 10 studenţi care se ordonează după nota la statistică. Câmpul de
variaţie este de 10 – 2 = 8 unităţi
40
3.2.Frecvenţă absolută. Frecvenţă relativă. Frecvenţe cumulate
Distribuţii de frecvenţe: Pentru a rezuma o mare cantitate de date, e necesară
împărţirea acestora în clase sau grupe. Distribuţia de frecvenţe este ordonarea într-un
tabel a datelor pe clase, fiecărei clase corespunzându-i o frecvenţă:
Se numeşte frecvenţă absolută a unei valori x a caracteristicii, numărul de unităţi ale
populaţiei corespunzătoare acelei valori.
Se numeşte frecvenţă relativă (sau pe scurt, frecvenţă) a unei valori x a caracteristicii,
raportul dintre frecvenţa absolută a valorii x şi efectivul total al populaţiei. Se poate da
în procente: cât la sută reprezintă cei 6 elevi cu nota 8, dintr-un efectiv de 40 elevi?
15%!
Mai adăugăm o coloană la tabel:
Aceste tabele scot în evidenţă o corespondenţă între două mulţimi de numere (o funcţie):
între mulţimea valorilor caracteristicii şi mulţimea frecvenţelor corespunzătoare
Un tabel precum cel de mai sus defineşte distribuţia sau repartiţia statistică a variabilei
respective.
Se observă că suma frecvenţelor relative a tuturor valorilor variabilei este 1.
Frecvenţa relativă poate reprezenta probabilitatea de a întîlni caracteristica respectivă
într-o mulţime statistică.
23
3.3.Frecvențe cumulate
Definiție: Fie x o valoare a caracteristicii. Numim frecvenţă cumulată crescătoare a
valorii x, suma frecvenţelor absolute ale tuturor valorilor caracteristicii pînă la x
inclusiv. Frecvenţa cumulată crescătoare se mai notează cu N(x).
Se numeşte frecvenţă absolută cumulată descrescătoare a unei valori x, suma frecvenţelor
absolute ale tuturor valorilor care apar de la x inclusiv.
Ex:
Nota Frecv abs Frecv rel Frecv abs Frec abs Frecv rel Frecv rel
Xi Ni fi cumulată cumulată cumulată cumulat
descresc Ni crescătoare Ni descresc Fi ă
↓ ↑ ↓ cresc Fi↑
2 1 0,025 40 1 1 0,025
3 1 0,025 39 2 0,975 0,050
4 2 0,050 38 4 0,950 0,100
5 4 0,100 36 8 0,900 0,200
6 7 0,175 32 15 0,800 0,375
7 15 0,375 25 30 0,625 0,750
8 6 0,150 10 36 0,250 0,900
9 3 0,075 4 39 0,100 0,975
10 1 0,025 1 40 0,025 1
24
3. Se determină numărul de valori care aparţin fiecărei clase. Acest număr reprezintă
frecvenţa clasei respective.
Ex
Valori ale clasei Număr de elevi
(de notare) (din acea clasă)
(xi, xi+1) frecv. absolută
ni
2-4 2
4-6 6
6-8 22
8-10 10
Histograma
1; Series3; 22
1; Series4; 10
1; Series2; 6
1; Series1; 2
25
În cazul în care studiul seriei statistice nu permite folosirea intervalelor egale (mai
comodă de reprezentat), la reprezentarea grafică a seriei cu ajutorul histogramei
(precum şi în calculul valorii modale) se vor folosi frecvenţele absolute reduse.
Ex: Fie următoarea serie statistică ce reprezintă numărul de elevi înscrişi în anumite
unităţi de învăţământ (200 de unităţi de învăţământ).
Număr de elevi Număr de unităţi de învăţământ
înscrişi
[300-500) 19
[500-800) 33
[800-1200) 64
[1200-1500) 57
>1500 27
Total 200
(xi,xi+1) x’i ni di di ni
'
k i= ni =
mijlocul frecvenţe mărimea d min ki
intervalului absolute intervalului coeficienţii de frecvenţe
reducere a reduse
frecvenţelor
[300- 400 19 200 1 19
500)
[500- 650 33 300 1.5 22
800)
[800- 1000 64 400 2 32
1200)
[1200- 1350 57 300 1.5 38
1500)
>1500 1650 27 300 1.5 18
200
26
3.7.Distribuţii de frecvenţe cumulate
Se ia tabelul histogramei şi se completează cu frecvenţele cumulate ascendent şi
descendent.
Valori ale clasei Număr de elevi Frecv frecv
(de notare) (din acea clasă) cumulat cumulat
frecv. absolută ascendent descendent
2-4 2 2 40
4-6 6 8 38
6-8 22 30 32
8-10 10 40 10
27
Grafic vor rezulta poligonul frecvenţelor cumulate ascendent şi cel al frecvenţelor
cumulate descendent.
Ex: Vârsta mamelor la naştere, în anul 1995
Intervale 10-14 15-19 20-24 25-29 30-34 35- 40-44 45- Total
de vîrstă ani ani ani ani ani 39 ani 49
ani ani
Frecvenţ 492 40.337 98.07 67.154 18.947 8.907 2.565 162 236.639
e 5
absolute
Procente 0,2 17,0 41,4 28,4 8,0 3,8 1,1 0,1 100
Frecvenţe cumulate
A. Ascendente
Praguri de su su sub sub 25 sub 30 sub 35 sub 40 sub 45 sub 50
Vîrstă b b 20 ani ani ani ani ani ani
10 15 ani
ai ani
Frecvenţe 0 49 40.82 138.90 206.05 225.00 233.91 236.44 236.63
cumulate 2 9 4 8 5 2 7 9
ascendent
e
Procente 0 0,2 17,3 58,7 87,1 95,1 98,8 99,9 100
cumulate
ascendent
B. Descendente
Praguri de 10 ani 15 ani 20 ani 25 ani 30 ani 35 ani 40 45 50
Vîrstă şi peste şi peste şi peste şi şi şi ani ani ani
peste peste peste şi şi şi
peste peste pest
e
Frecvenţe 236.639 236.14 195.81 97.73 30.58 11.63 2.72 162 0
cumulate 7 0 5 1 4 7
descendent
e
Procente 100 99,8 82,7 41,3 12,9 4,9 1,2 0,1 0
cumulate
descendent
e
Informaţii utile: 87,1% dintre naşterile din 1995 se datorează femeilor sub 30 de ani;
valori complementare: 12,9% din naşterile din 1995 se datorează femeilor de 30 de ani şi
peste.
Ni
28
xi
Linia poligonală ataşată frecvenţelor cumulate din tabel sau ogiva procentuală
Obs. O variabilă statistică de tip cantitativ este o funcţie f:X→F sau f:X→P, P= (0,1)
care asociază caracteristicii xi frecvenţa fi sau probabilitatea pi (cînd se lucrează cu
frecvenţe relative).
Linia poligonală a frecvenţelor este privită ca forma imperfectă a unei curbe, care
reflectă legea teoretică de distribuţie a fenomenului statistic studiat. De cele mai multe
ori nu avem nici un argument să prespunem că în spatele datelor empirice ar sta o
formă matematică. În cazul variabilelor continue, dacă am avea de a face cu o populaţie
infinită şi dacă am putea măsura valorile cu oricîtă precizie dorim, atunci punctele de
coordonate (xi, pi) ale graficului se apropie unele de altele şi la limită se obţine o funcţie
continuă.
În general, adică şi în cazul variabilelor continue şi a celor discontinue, funcţia empirică
f:X→P aproximează funcţia teoretică numită densitatea de repartiţie, sau densitate de
probabilitate a variabilei aleatoare.
Fie seria de valori xi, x2,…..xn şi seria de frecvenţe cumulate relative p1, p1+p2, p1+p2+
…pn= 1. Se defineşte o fincţie F(x) numită funcţie de densitate, care pune în
corespondenţă cele două şiruri de valori:
F(xi) = p1 + p2 + … + pi; această funcţie este crescătoare şi atinge pentru ultimul x din
serie, valoarea 1. Se observă că de fapt, F(x) = ∫ (0,x)f(t)dt şi F’(x) = f(x)
Ex:
29
1. Se dau datele:
x 1 1 2 3 4 5 7 8 9 11 12 13 14 15 19 20 21 22 23 24 25 26 27 28
xi ni mi
2 1 2
3 1 3
4 2 8
5 4 20
6 7 42
7 1 105
8 5 48
9 6 27
10 3 10
1
n
xi ni
M=∑ = (2∙ 1+3∙1+4∙2+5∙4+6∙7+7∙15+8∙6+9∙3+10∙1)/40 = 265/40 = 6,625
i=1 n
Formula de mai sus nu este o medie ponderată (se confundă cu ea), considerând
frecvenţa drept pondere. În media ponderată, indivizii diferiţi au ponderi diferite în
30
determinarea valorii medii. De pildă, în sistemul de credite utilizat în învăţămîntul
superior, fiecare disciplină e dotată cu un număr de credite ce reflectă importanţa ei în
contextul disciplinelor. Dacă avem 5 discipline A; B; C; D; E cu creditele 4, 5, 6, 7, 8
(total 30) şi un student ia notele 10, 9, 9, 8, 8, atunci media simplă va fi M = (10 + 2 ∙9 + 2∙
8)/5 = 44/5 = 8.8 iar cea ponderată Mp = (4∙10 + 5∙9 + 6∙9 + 7∙8 + 8∙8)/30 = 259/30 = 8.63
∑ ¿¿ M) = ∑ xn i – nM = 0
i=1 i=1
Când avem variabile care se repetă cu frecvenţa ni :
n
4) Dacă valorile variabilei X suferă o transformare liniară, atunci media noii variabile
X’ obţinute se regăseşte prin aceeaşi transformare: dacă xi’= a + bx, atunci M’ = a+bM
5) Media poate fi calculată chiar dacă nu cunoaştem distribuţia valorilor, ci numai suma
(şi numărul) lor
Valoarea medie nu o ia neapărat un individ statistic din seria considerată: (nu am luat
nota 9,41, ci media 9,41). M(7,8,10) = 8,33
Media nu e valoarea mijlocie (ex. M(26, 27, 28, 44) = 30)
Mediana
Mediana este acea valoare a caracteristicii care ocupă locul central în cadrul seriei
ordonate crescător sau descrescător, deci mediana împarte seria în două părţi egale.
1)Pentru serii simple. Dacă seria are un număr impar de termeni, mediana este acea
valoare a caracteristicii cu rangul (n+1)/2, după ce seria a fost ordonată. Faţă de
individul median din seria statistică, (n-1)/2 termeni rămân la stânga şi tot atâţia la
dreapta.
31
Ex: Fie seria 60, 80, 90, 100, 120, 130, 140, 160: Me= (100+120)/2 = 110, deci individul
median este virtual, plasat între unitatea de rang n/2 şi cea de rang n/2+1, individ căruia
îi acordăm ca valoare media aritmetică a valorilor celor două unităţi care îl încadrează.
{ }
N
dacă N= par
2
U me =
N +1
¿ dacă N=impar
2
Se calculează unitatea mediană Ume = N/2 = 40/2 = 20; În coloana lui Ni cobor până
când Ni≥Ume. Corespunzător lui Ni aflu caracteristica xi care este Mediana, Me =7;
N fiind par, vor exista doi indivizi mediani, nr. 20 şi 21 care iau ambii nota 7.
Dacă N este impar, va exista un individ median de rangul (N+1)/2, a cărui frecvenţă o
găsim la fel: Calculez frecvenţa cumulată Ni care depăşeşte prima 50% din efectivul
total. În dreptul ei aflu caracteristica corespunzătoare xi=Me
Am văzut că dacă N e cu soţ şi indivizii N/2 şi N/2+1 au aceeaşi caracteristică (ambii iau
nota 7), atunci aceasta reprezintă mediana ca mărime.
Dacă individul N/2 ia valoarea xi şi individul N/2+1 ia valoarea xi+1, (deci indivizii
mediani au frecvenţe diferite), atunci Me= (k i x i + k i+1 x i+ 1)/(k i + k i+1)
32
2 23 47 Ume=90/2=45 0,255 0,525 ≥Ume=1/2
(Me) (Ni≥Ume)
3 20 67 0,22 0,745
4 14 81 0,175 0,900
5 6 87 0,07 0,970
6 2 89 0,02 0,990
7 1 90 0,01 1,00
Total 90 - 1,00 -
{ }
∑ ni , când ∑ n este par
i
U Me = 2
∑ ni+ 1 , când ∑ n este impar
i
2
Ex: să se afle mediana pentru următoarea caracteristică dată sub formă de intervale de
valori:
xi ni Ni
2-4 2 2
4-6 6 8
6-8 22 30
8- 10 40
10
U Me = ∑ ni 40
= = 20; intervalul median se află în dreptul frecvenţei cumulate N i
2 2
pentru care N i ≥ U Me; rezultă N i−1= 8; intervalul median este (6;8) şi are frecvenţa ni =
20−8
22; x i−1= 6, x i= 8, → d = 8 – 6 = 2; → Me = 6 + 2 = 7.09 ≅ 7.
22
33
DE BC U Me −N i−1 N i−N i−1 ni
tg∝ = = → = = → Me ni −¿ x i−1 ni = U Me d−N i−1 d →
AE AC Me−x i−1 x i−x i−1 d
U Me −N i−1
Me = x i−1 + d
n Me
34
xi ni
2-4 2
4-6 6
6-8 22←n Mo
8-10 10
∆1 16
M o=¿ x i−1 + d =6+2 = 7.145.
∆1 + ∆2 16+12
Am aflat frecvenţa maximă – 22, în dreptul căreia aflăm intervalul modal, (6-8) (în care
se află modul).
x i−1 = 6; d = x i −¿ x i−1 = 8 – 6 = 2; ∆ 1 = ni −¿ ni−1 = 22 – 6 = 16; ∆ 2 = ni −¿ ni +1= 22 −¿ 10
= 12; M = 6.625; Me = 7.01; Mo = 7.145
xi ni fi
1 (A) ( A)
p=
N
0 ( A) = N – q =
(A) N – ( A)
N
Total N p+q=1
35
Ex. Într-un lot de 500 de piese, se găsesc N1 = 30 piese rebut. Procentul mediu al pieselor
( A) 30
rebut va fi p = = = 0.6 = 6%; în medie, la fiecare 100 de piese, 6 sunt rebuturi.
N 500
1
lnG = ( N 1 lnG1 + N 2 lnG2 + ...+ N r lnG r) ↔ lnG N = lnG1N + lnG2N +... + lnGr N ↔ lnG N =
1 2 r
N
ln¿ ¿ G r N ¿ ↔ G N = G 1N G 2 N … G r N ↔ G N + N +…+N = G 1N G 2 N … G r N , deci G =
r 1 2 r 1 2 r 1 2 r
N + N + …+N
1 2 r
√ G 1N G 2N … G r N ;
1 2 r
b) Dacă o variabilă X este definită ca fiind egală cu produsul unui număr oarecare de
alte variabile, X = X 1 X 2 … X r , unde X 1, X 2 , ..., X r, reprezintă observaţiile
corespunzătoare în r serii diferite, media geometrică G a lui X este exprimată cu
ajutorul mediilor geometrice G1, G2,..., Gr ale lui X 1, X 2 , ..., X r, prin relaţia G = G1 G 2...
Gr .
Altfel spus, media geometrică a produsului este egală cu produsul mediilor geometrice.
Analog, media geometrică a câturilor observaţiilor corespunzătoare din două serii este
egală cu câtul celor două medii geometrice.
c) Media geometrică are aplicaţii în cazurile în care avem de-a face cu o mărime ale
cărei schimbări tind a fi direct proporţionale cu nivelul mărimii iniţiale, cum ar fi
frecvenţa unei populaţii sau indicii preţurilor (când ne ocupăm de mediile câturilor).
2 0 2 n
capetelor intervalului).
36
N
Dacă X = ( X 1 , X 2 , … , X N ), H = 1 1 1 ;
+ + …+
X 1 X2 XN
s
∑ ni
i=1
Dacă avem s serii de valori, media lor armonică va fi H = s ; H este influenţată de
1
∑ n
xi i
i=1
valorile mici ale seriei, G şi M de valorile mari.
Ex:
x i ni ni
xi
1 7 7
2 11 5.5
3 16 5.334
4 17 4.25
5 26 5.20
6 31 5.167
7 11 1.571
8 1 0.125
9 1 0.111
121 34.257
121
H = = 3.532; reprezintă repartiţia încrucişărilor dintre şoareci într-un
34.257
experiment biologic, după x i de pui fătaţi odată şi ni nr. de încrucişări. ( M = 4.587).
Ex: preţurile pot fi indicate în două moduri reciproc legate: media aritmetică a unuia
este media armonică a celuilalt: presupunem că avem 100 de înregistrări ale preţului
ouălor:
37
√
s
∑ x i2 ni
Media pătratică M p = 1 2
√
x 2 + x 2+ …+ x 2n
n
; pentru serii de frecvenţă, M p = i=1
∑ ni
i=1
s
Quartile: sunt trei Q1, Q2, Q3, valori care împart caracteristica în 4 părţi egale:
U Q −N i−1 k ∑ ni
Qk = x i−1 + d , unde U Q = , k = 1 ,3 şi
k
nQ
k
k
4
x i−1 – limita inferioară a intervalului k cuartilic
d – mărimea intervalului k cuartilic
U Q – unitatea k cuartilică
k
Decile
Sunt în număr de nouă: D1, D2, ...., D9 şi reprezintă valori ale caracteristicii care o
împart în 10 intervale egale:
U D −N i−1 k ∑ ni
Dk = x i−1 + d , unde U D = , k = 1,9
k
nDk
k
10
D5 = M e = Q2
Centile
Sunt în număr de 99 şi împart caracteristica în 100 de părţi egale
U C −N i−1 k ∑ ni
C k = x i−1 + d , unde U C = , k = 1 , 99
k
nC
k
k
100
C 50 = D5 = M e = Q2
( x i−1 , x i ¿
ni Ni
100-200 80 80
200-300 60 140
300-400 30 170
400-500 20 190
500-600 10 200
200
Me = x i−1 + d
U Me −N i−1
, U Me =
∑ ni = 200 = 100 ¿ 140, deci intervalul median ( x i−1, x i ¿
n Me 2 2
este (200, 300); N i−1 = 80, d = 100, x i−1 = 200, n Me = 60, →
100−80
Me = 200 + 100 = 233.(3)
60
Q1 = x i−1 + d
U Q −N i −1
1
, unde U Q =
∑ ni = 200 = 50 ¿ 80, deci intervalul 1-cuartilic este
nQ1
1
4 4
50−0
(100, 200), deci x i−1 = 100, N i−1 = 0, → Q1 = 100 + 100 = 162.5; Q2 = M e;
80
U Q −N i−1 3 ∑ ni 3∙ 200
Q3 = x i−1 + d , unde U Q = = = 150 deci intervalul 3 cuartilic este
3
nQ3
3
4 4
150−140
(300, 400), N i−1 = 140, Q3 = 300 + 100 = 333.(3)
30
Decile: D1 = x i−1 + d
U D −N i−1
1
, unde U D =
∑ ni = 20; x i−1 = 100, N i−1 = 0; n D = 80,
nD
1
1
10
1
20−0
d = 100; D1 = 100 + 100 = 125. D2 = 150; D3 = 175; D4 = 200;
80
U D −N i−1 5 ∑ ni
D5 = x i−1 + d ; UD = = 100; x i−1 = 200; d = 100; N i−1 = 80; n D = 60;
5
nD 5
5
10
5
100−80
D5 = 200 + 100 = 233.(3) = Me = Q2; D6 = 266.(6); D7 = 300; D8= 366.(6); D9 =
60
450.
39
II. Indicatori sintetici ai împrăştierii
II.1. Abaterea medie
II.1.1. Abaterea medie de la „a” ; fie a o valoare fixată, care poate să fie sau nu una din
n
de distribuţie,
∑ ni|x i−a|
Am ( a )= i=1
N
II.1.2. Abaterea medie liniară, sau abaterea medie de la Medie,
n
xi ni d i=x i−M di
dr = 100
|di| |x i−M e| ni|d i| ni|x i−M e|
M i
40
48.75 45
Rezultă abaterea medie liniară d = = 1.21 şi abaterea mediană d Me = = 1.125
40 40
√ √
n s
II.2.2 Aceasta se numeşte Abaterea standard de la medie sau Abaterea medie pătratică
√ √
n s
σ= ∑ ∑ ni (x i−M )2
2
(x i−M ) sau σ =
i=1 i=1
N N
2
(1)σ =
∑ d 2i = ∑ (x i−M )2 respectiv, σ 2 =
∑ d 2i ni = ∑ (x ,i−M )2 n i pentru serii de
N N ∑ ni N
distribuţie
x
∑ (x i−M )2 = ∑ x 2i – 2∑ x i M + ∑ M 2 = ∑ x 2i – 2N∑ Ni M + N M 2
Având în vedere că
= ∑ x – 2N M + N M = ∑ x – N M = ∑ x – N (
2 2 2 2 2 2 ∑ xi 2
¿¿ = ∑ x –
2 (∑ x i )
2
; înlocuind
i i i i
N N
N N N
(media pătratică la pătrat minus pătratul mediei).
Aceeaşi formulă este valabilă şi pentru serii de distribuţie:
2 ∑
2
x i ni ∑ x i ni ¿¿ 2 = M 2 – 2
σ = –( M
∑ ni ∑ ni p
Abaterea medie pătratică, fiind calculată ca o medie pătratică, reflectă într-o măsură
mai mare influenţa factorilor aleatori, comparativ cu abaterea medie liniară (d).
xi ni |di|=|x i−M | xi
2 2
xi ni di
2
d i ni
2
41
5 4 1.625 25 100 2.64 10.56
6 7 0.625 36 252 0.39 2.73
7 15 0.375 49 735 0.14 2.1
8 6 1.375 64 384 1.89 11.34
9 3 2.375 81 243 5.64 16.92
10 1 3.375 100 100 11.39 11.39
40 1875 110.24
2
σ =
∑ d i ni ∑ (x i−M )2 n i 110.24
2
= = = 2.756; σ = √ σ 2 ≅ 1.7
∑ ni N 40
∑
2
2 x i ni 1875
Pe de altă parte, M p = = = 46.875; M = 6.625;
∑ ni 40
2 2 2
σ = M p – M = 46.875 – 43.89 = 2.985 etc.
II.2.4 Când seria statistică e dată prin intervale de frecvenţă, varianţa se calculează
astfel:σ 2 = ∑ i
, 2
(x −M ) n i
, unde x ,i este mijlocul intervalului ( x i, x i+1)
N
( x i, x i+1) ni ,
xi
,
ni x i
,
x i−M
2
(x ¿ ¿ i ,−M )
2
¿ni (x ¿ ¿ i , −M ) ¿
[2,4) 2 3 6 -4 16 32
[4,6) 6 5 30 -2 4 24
[6,8) 2 7 154 0 0 0
[8,10] 2 9 80 2 4 40
1
0
4 280 96
0
M=
∑ ,
ni xi 280
= 2
= 7; σ = ∑ , 2
(x i−M ) n i 96
= = 2.4
∑ ni 40 N 40
42
Ex: Să se calculeze varianţa prin metoda simplificată pentru seria
( x i, x i+1) ni ,
xi
,
x i−a
,
xi −a
,
xi −a
2 ,
xi −a
2
( ) ( ) ni
k k k
[2,4) 2 3 -4 16 32 8
[4,6) 6 5 -2 4 24 6
[6,8) 2 7=a 0 0 0 0
[8,10] 2 9 2 4 40 10
1
0
4 96 24
0
24
M = 7, a = 7, k = 2; σ 2 = ∙ 4 – (7 – 7)2 = 2.4 etc.
40
d=¿ ∑ ni|x i−M| (abaterea medie liniară); sau I = (M-σ , M +σ ¿ unde σ este abaterea
i=1
N
medie pătratică.
Intervalul (Q1,Q3) centrat faţă de medie (în origine) conţine 50% din cazuri.
Atât abaterea medie liniară, cât şi abaterea medie pătratică se exprimă în unităţile de
măsură ale variabilei X. Ca urmare, atunci când se face analiza comparativă între
gradul de variaţie a două sau mai multe distribuţii după caracteristici exprimate în
unităţi de măsură diferite, este necesar ca unităţile de măsură folosite pentru
43
exprimarea indicatorilor sintetici să fie aduse la aceeaşi bază de semnificaţie. Aceasta se
face prin intermediul coeficientului de variaţie v.
Ex: Considerăm un produs vândut în 5 magazine, cu următoarele preţuri: 10, 11, 12, 13,
14. Să se calculeze preţul mediu de vânzare al produsului şi varianţa acestuia. Să se
calculeze gradul de dispersie al preţului cu ajutorul indicatorilor simpli şi sintetici ai
dispersiei.
xi d i = x i−M
dr =
di
100 (%)
|di|=|x i−M | (x i−M )
2
i
M
10 -2 -16.67 2 4
11 -1 -8.83 1 1
12 0 0 0 0
13 1 8.33 1 1
14 2 16.67 2 4
Total 0 Total 0 Total 6 10
M=
∑ xi = 60 = 12;
N 5
Indicatori simpli ai dispersiei: Amplitudinea variaţiei A = x max - x min = 14 – 10 = 4.
A 4
În procente, Ar% = 100 (%) = 100% = 33.3%; adică, câmpul de variaţie al
M 12
preţului de vânzare al produsului în cele 5 magazine este de 4 lei, ceea ce reprezintă
33.3% din preţul mediu de vânzare al produsului.
d
Abaterea individuală absolută şi relativă d i = x i−M şi d r = i 100 (%) sunt calculate în
M
i
44
6
= 1.2 lei, adică preţul de vânzarre prin cele 5 magazine se abate în medie faţă de
5
preţul mediu cu 1.2 lei. Intervalul mediu de variaţie stabilit cu ajutorul abaterii medii
liniare are următoarele limite I = (M-d , M+d ¿= (12-1.2; 12+1.2) = (10.8; 13.2) lei.
10
Varianţa σ 2 = ∑ ¿¿ ¿ = = 2; abaterea medie pătratică, σ = 1,41 lei;
5
Intervalul mediu de variaţie are următoarele limite
I = (M -σ , M +σ ¿ = (12-1.41;12+1.41) = (10.59; 13.41); adică 68% din magazine practică
un preţ cuprins între 10.59 şi 13.41 lei.
Se observă că σ > ¿ d , fapt explicat prin aceea că σ fiind calculat ca o medie pătratică,
reflectă într-o măsură mai mare influenţa factorilor întâmplători, adică abaterile mai
mari faţă de medie, decât d .
σ 1.41
Coeficientul de variaţie v = (100%) = 100% = 11.75%, ceea ce arată o dispersie
M 12
relativ mică, adică o colectivitate omogenă, ceea ce înseamnă că media este semnificativă
pentru distribuţia preţurilor.
Ex. În urma monitorizării unui eşantion de 200 de persoane privind timpul de deplasare
zilnică de la domiciliu la serviciu şi înapoi, s-au obţinut următoarele date:
T de Nr. Ni ↑ Ni ↓ fi Fi↑ F i↓
deplasare persoane
(minute) ni
xi
0-30 25 25 200 0.125 0.125 1
30-60 50 75 175 0.25 0.375 0.875
60-90 60 135 125 0.3 0.675 0.625
90-120 45 180 65 0.225 0.9 0.325
120-150 15 195 20 0.075 0.975 0.1
¿ 150 5 200 5 0.025 1 0.025
200
45
( x i, x i+1) ni ,
xi
,
xi ni ni lg x ,i ni lg x ,i ,2
xi
,2
x i ni
,
xi
0-30 25 15 375 1.6 1.176 29.40 225 5625
30-60 50 45 2250 7 1.653 82.65 2025 101125
60-90 (int modal) 60 75 4500 1.1 1.875 112.50 5625 337500
90-120 ← 105 4725 1 2.021 90.94 11025 496125
120-150 45 135 2025 0.8 2.130 31.95 18225 273375
¿ 150 15 165 825 0 2.217 11.09 27225 136125
5 0.4
3
0.1
1
0.0
3
200 14700 4.1 358.53 1349875
5
s s
∑ ni lg ∏ xi,n i
∑ ni lg x ,i
M=
∑xn ,
i i
=
14700
= 73.5’; H = n =
200
= 48.19’; lgG =
i=1
=
i=1
∑ ni 200 ∑ x i, 4.15 s s
i ∑ ni ∑ ni
i=1 i=1
358.53
→ lgG = = 1.7926; → G = 101.7926 = 62.09;
200
MP =
√ ∑ x ,i 2 n i =
∑ ni
1349875
200 √
= 82.15; Comparăm mediile: 48.19¿62.09¿73.5¿82.15 adică
se verifică faptul că H¿ G¿ M¿ M P
Pentru calculul modului, se folosesc primele trei coloane ale tabelului, intervalul modal
∆1 60−15
este (60-90), M o=¿ x i−1 + d = 60 + 30∙ = 72;
∆1 + ∆2 ( 60−50 )+(60−45)
Se poate verifica şi relaţia empirică dintre M, Me şi Mo: Mo = 3 Me – 2M ↔ 72 ≅ 216.75
– 147 ↔ 72 ≅ 69.75
( x i, x i+1) ni Ni ↑
0-30 25 25
30-60 50 75
60-90 (int median) 60 135←
90-120 45 180
120-150 15 195
¿ 150 5 200
200
Me = x i−1 + d
U Me −N i−1
, U Me =
∑ ni = 200 = 100 ¿ 135, intervalul median este (60-90),
n Me 2 2
100−75
deci Me = 60 +30∙ = 72,25’ (minute)
60
46
Quartila 1: U Q 1 =
∑ ni = 50, deci intervalul 1-cuartilic este (30,60); Q1= 45 minute;
4
3 ∑ ni
U Q3 = = 150, deci intervalul 3-cuartilic este (90,120), Q3= 100 minute
4
Decila 1: U D 1 =
∑ ni = 20, intervalul 1-decilic este (0,30), x i−1=0, N i−1= 0, D1= 24;
10
9 ∑ ni
Decila 9: U D 9 = = 180, intervalul 9-decilic (90-120), D9 = 120;
10
Centila 1: U c =
∑ ni = 2, intervalul 1-centilic (0,30), x i−1=0, N i−1= 0, C 1= 2.4
100
1
99 ∑ ni
Centila 99: U c = = 198, intervalul 99-centilic (150, ¿ 150),
100
99
198−195
C 99 = 150 + 30 = 168.
5
Tabelul pentru aflarea medialei:
Intervalul ni Valori x i n i Produse cumulate
,
de variaţie centrale Lh
x x
( i, i+1) ,
xi
0-30 25 15 375 375
30-60 50 45 2250 2625
60-90 60 75 4500 7125
90-120 (int Ml) 45 105 4725 11850←
120-150 15 135 2025 13875
¿ 150 5 165 825 14700
20 14700
0
Ex: Pentru datele următoare (vezi primele două coloane din tabelul următor):
a)construiţi histograma şi poligonul frecvenţelor; b) valorile centrale pentru fiecare
clasă de variaţie x ,i; c) Ni↑, Ni↓; d) frecvenţele relative ( f i) şi frecvenţele relative
cumulate crescător şi descrescător (Fi↑, Fi↓); e) construiţi ogivele (curbele) frecvenţelor
cumulate absolute şi a frecvenţelor relative cumulate; f) aflaţi M (1.975), G (1.648), H
(1.29), M P (2.202) şi verificaţi relaţia H¿ G¿ M¿ M P ; g) aflaţi Me (1.222), Mo (1.222) şi
verificaţi relaţia empirică dintre M, Me şi Mo; i) aflaţi quartilele: Q1 (1.2), Q2, Q3
(2.66), decilele: D1,2...9; j) centilele C1, 25, 59, 99.
( x i, x i+1) ni ,
xi
,
xi ni 1 ni ln x ,i ni ln x ,i ,2
xi
,2
x i ni
, ,
xi xi
0-1 200 0.5 100 2 400 -0.69 -138 0.25 50
1-2 250 1.5 375 0.67 167.5 0.4 100 2.25 562.25
47
2-3 450 2.5 1125 0.4 180 0.91 409.5 6.25 2812.5
3-4 75 3.5 262.5 0.28 21 1.25 93.75 12.2 918.75
4-5 25 4.5 112.5 0.23 5.75 1.5 37.5 5 506.25
20.2
5
1975 774.2 502.75 4850
5
Fie o populaţie statistică formată din mai multe mulţimi de grupuri, fiecare mulţime
grupată pe serii de frecvenţe. Media generală a caracteristicii va fi media mediilor pe
grupe, luate cu frecvenţele respective. Deasemenea, se pot calcula varianţele pe grupe.
Având varianţele pe grupe, vom calcula varianţa totală.
∑ ns ( x i−M s )2
i
2 i=1
respectiv: σ s =
k k , varianţa de grupă;
∑ ns i
i=1
48
xi 1
ni 1
ni x i
1 1
x i −M 1
1
2
(x i −M 1) ni (x i −M 1)
2
1 1 1
şi x i şi ni2 2
σ =
2 ∑ ni (x i−M )2 = 53.886 = 1.077;
∑ ni 50
Să calculăm varianţele inter- şi intra- grupale:
49
Varianţa intergrupală σ
2
=
∑ N s (M s −M )2 =
2 2
N 1 (M 1−M ) + N 2 (M 2−M )
=
M
N 1 + N 2 +...+ N s N1+ N2
2 2
30(3.33−2.96) +20 (2.4−2.96)
= 0.21 şi reprezintă varianţa factorilor esenţiali,
20+ 30
datorată variaţiei mediilor celor două grupuri şi explică circa 1/5 din varianţa totală a
numărului de persoane pe familie;
Varianţa intragrupală (dispersia medie a situaţiei) datorată factorilor întâmplători e
dată de media varianţelor de grupă, 2
σ =
∑ 2
N s σs
=
2 2
N 1 σ 1+ N 2 σ 2
=
N 1+ N 2+...+ N s N 1+ N 2
30∙ 0.89+20 ∙ 0.84
= 0.87
20+ 30
şi reprezintă cca 4/5 din varianţa totală şi arată gradul de neddeterminare, în medie, a
numărului de persoane la nivel de grupe.
Pentru verificarea teoremei de descompunere a varianţei, calculez suma σ 2M + σ 2 = 0.87 +
0.21 = 1.08 ≅ 1.077 = σ 2, deci teorema se verifică.
Care dintre cele două grupuri este mai omogen? Pentru a răspunde la această întrebare,
trebuie să calculăm coeficienţii de variaţie ai celor două grupuri (care au aproximativ
aceeaşi varianţă).
σ σ
v 1 = 1 = √ 0.89 = 0.28 ¿ v 2 = 2 = √ 0.84 = 0.38; astfel, grupul 1 este mai omogen,
M1 3.33 M2 2.4
grupul 2 mai eterogen.
Deci grupul familiilor cu venituri mai mici apare mai omogen (dpdv al numărului de
membri) decât al familiilor cu venituri mai mari, deşi varianţa (abaterea standard)
indica o situaţie inversă.
Se mai pot calcula intervalele medii de variaţie a celor două grupuri sub influenţa
factorilor esenţiali, întâmplători şi a celor doi factori împreună.
Intervalul mediu de variaţie sub influenţa factorilor esenţiali: σ M = √ 0.21 = 0.45
I = (M-σ M , M+σ M ) = (2.96+0.45, 2.96-0.45) = (2.51, 3.41);
Intervalul mediu de variaţie sub influenţa factorilor întâmplători: σ = √ 0.87 = 0.93
I = (M-σ , M+σ ) = (2.96-0.93, 2.96+0.93) = (2.03, 3.89),
Intervalul mediu de variaţie sub influenţa ambilor factori: σ = √ 1.077 = 1.03
I = (M-σ , M+σ ) = (2.96-1.03, 2.96+1.03) = (1.93, 3.99)
xi ni
1 P
0 1-p = q
50
Media, M =
∑ x i ni =
1∙ p+0 ∙ q
= p; Varianţa σ 2 =
∑ ni (x i−M ) =
2
∑ ni p+ 1− p ∑ ni
2 2
p (1− p) +(1− p)(0− p) p ( 1−p ) (1− p+ p)
= = p(1-p) = pq, unde p+q = 1
p+1−p 1
Abaterea medie pătratică a unei caracteristici alternative σ = √ pq ;
Coeficientul de variaţie al unei caracteristici alternative, v p =
σ
M
=
√ pq = q
p p √
Obs. Atunci când calculăm coeficientul de variaţie a unei caracteristici alternative,
trebuie să o facem din perspectiva caracteristicii majoritare, altfel coeficientul de
variaţie devine supraunitar!
Ex
Se cercetează un eşantion de 300 de studenţi şi se găsesc 120 de integralişti; să se afle: a)
procentul de studenţi integralişti din eşantion; b) procentajul mediu de restanţieri; c)
varianţa colectivităţii; d) coeficientul de variaţie
n 120 N −n p 300−120
a)p = p (100%) = (100%) = 0.4 (40%); b) q = (100%) = (100%) =
N 300 N 300
0.6 (60%);
σ 0.489
c) σ 2 = pq = 0.4∙0.6 = 0.24; σ = 0.489; d) v p = (100%) = (100%) = 1.2225 (100%)
p 0.4
aşadar, studiem colectivitatea de studenţi din perspectiva majorităţii restanţiere:
180 σ 0.489
p = = 0.6; q = 0.4; σ = √ 0.24 = 0.489; v p = (100%) = (100%) = 0.815
300 p 0.6
(81.5%) avem de a face cu o colectivitate neomogenă, media restanţierilor fiind
nereprezentativă pentru caracterizarea colectivităţii.
k ∑ ∑ ni n j
frecvenţelor n = ∑ ni ; → k
i =1 j> 1
iv =
(k −1) n 2
ϵ [0,1]; când i v → 0, gradul de omogenitate
i=1
( )
2 k
este mare, variaţia este redusă; când i v → 1, variaţia colectivităţii e mare, colectivitateea
este eterogenă.
Ex: Fie o colectivitate de 50 de bile de trei culori (n=50, k=3); Să se studieze dispersia
acestui grup, ştiind că 28 de bile sunt roşii (n1=28), 12 sunt albastre (n2 = 12) şi 10 galbene
(n3 =10).
51
3 3
Ex
Considerând datele din următorul tabel, să se determine gradul de variaţie a seriei, cu
ajutorul indicatorilor variaţiei din sistemul medianei.
x i, x i+1 ni Ni ↑
- 120 12 12←∫ ¿ D ¿ 1
120-130 16 28←∫ ¿ Q ¿
130-140 28 1
140-150 24 56←∫ ¿ M ¿ e
150 - 20 80←∫ ¿ Q ¿ 3
100←
∫ ¿D ¿ 9
100
52
I Q Q3 – Q1
Vom calcula abaterea medie intercuartilică Q = = şi coeficientul de variaţie
2 2
Q Q3 – Q1
interquartilic v Q = = (100%); deasemeni vom calcula coeficientul de variaţie
Me Q3+ Q1
D D −D1
interdecilic v D = (100%), unde D = 9
Me 2
Pentru aceasta, să calculăm U Q =
∑ ni = 100 = 25; Q1= x i−1 + d U Q −N i −1 = 120 + 10
1
1
4 4 1
nQ
25−12
16
= 128.13;
UM = ∑ i =
n 100 U Me −N i−1 50−28
= 50; M e= x i−1 + d = 130 + 10 = 137.86;
e
2 2 n Me 28
UQ = ∑ i =
3 n 300 U Q −N i−1 75−56
= 75; Q3= x i−1 + d = 140 + 10 = 147.92;
3
3
4 4 n Q 3
24
Q – Q1 147.92−128.13 Q 9.895
Q= 3 = = 9.895; v Q = (100%) = (100%) = 7.17%
2 2 Me 137.86
UD = ∑ i =
n 100 U D −N i−1 10−0
= 10; D1= x i−1 + d = 110 + 10 = 118.33;
1
1
10 10 n D1
12
UD = ∑ i =
9 n 900 U D −N i−1 90−80
= 90; D9= x i−1 + d = 150 + 10 = 155;
9
9
10 10 nD 9
20
D −D1 155−118.33 D 18.34
D= 9 = = 18.34; v D = (100%) = (100%) = 13.3%;
2 2 Me 137.86
Asimetria (oblicitatea)
Asimetria reprezintă o deviaţie de la forma simetrică de distribuţie. O distribuţie este
considerată simetrică, dacă mărimile observate, exprimate prin frecvenţele lor, se
distribuie simetric, de o parte şi de alta a valorii centrale. Ca valori centrale pentru
aprecierea simetriei, se folosesc M, Mo şi Me.
Grafic, curba frecvenţelor unei distribuţii empirice (care întotdeauna este asimetrică) se
compară cu modelul teoretic al distribuţiei normale care este o distribuţie perfect
simetrică. Într-o distribuţie simetrică unimodală, cele trei mărimi fundamentale, M, Me
şi Mo se suprapun, iar perechile de quantile Q1 şi Q3, D1 şi D9 sunt echidistante faţă de
valoarea centrală (vezi grafic, ni =f ¿)).
53
43
38
33
28
Studenti
23
18
13
8
3
2 3 4 5 6 7 8 9 10
Nota
43 43
38 38
33 33
28 28
Studenti
Studenti
23 23
18 18
13 13
8 8
3 3
2 3 4 5 repartitie
6 7 cu8 asimetrie
9 10 2 3 4 5 6 7 8 9 10
negativa
Indicatori ai asimetriei
Ţinând cont de mărimea celor trei mărimi fundamentale într-o distribuţie statistică,
asimetria poate fi apreciată în funcţie de relaţia dintre Me şi Mo, respectiv, Me şi M.
Indicatorii de asimetrie pot fi calculaţi atât în mărime absolută, cât şi în mărime
relativă.
Asimetria absolută
As = M – Mo = 3(M−¿Me) (mediana situându-se la treimea distanţei dintre M şi Mo).
Când As ¿ 0 (asimetrie pozitivă) →M ¿ Mo → asimetrie spre dreapta
Când As ¿ 0 (asimetrie negativă) →M ¿ Mo → asimetrie spre stânga
54
100 13740
Date fiind valorile apropiate cât şi faptul că se obţin prin interpolare, e de bănuit că
apar unele erori, astfel încât, cele trei valori medii nu pot fi ordonate Mo ¿ Me ¿ M sau
M ¿ Me ¿ Mo; oricum, avem de a face cu o asimetrie moderată.
La seminar vom da un exemplu elocvent.
120-130 16 28← ¿ ¿
130-140 28
∫ Q 1
140-150 24 56←∫ ¿ M ¿ e
150 - 20 80←∫ ¿ Q ¿ 3
100←
∫ ¿D ¿9
100
55
q2−q1 ( Q3−M e )−(M e −Q1) 10.06−9.78
C aY = = = = 0.0141¿0 → o distribuţie moderat
q 2 + q1 ( Q3−M e ) +( M e−Q 1) 10.06+9.78
asimetrică spre dreapta.
frecvenţe, μk =
∑ ni (x i−M )k ; se observă că momentul centrat de ordinul 1, μ1=0 (din
i=1
N
definiţia mediei); momentul centrat de ordinul doi este varianţa; momentul centrat
deordinul trei reflectă oblicitatea; pentru ca valorile sale să fie standardizate, se divide
cu abaterea medie pătratică
(standard). Aşadar, coeficientul de asimetrie Pearson cu momente centrate este
μ
2
C as = β 1 = 33 ; μ3=
∑ (x i−M )3 n i ; μ =σ 2= ∑ (x i−M )2 n i ; făcând raportul se observă că
∑ ni ∑ ni
2
μ2
vom obţine mereu o valoare pozitivă; extrăgând radicalul, obţinem coeficientul β '1 care
păstrează semnul şi permite o apreciere a sensului asimetriei.
μ3 μ3
' '
β1 = 3 = 3 ; β se mai notează cu γ 1 şi se numeşte coeficientul de asimetrie Fischer
1
2 2 2
μ 2 (σ )
cu momente centrate. Asimetria e în funcţie de semnul lui γ 1: sgnγ 1 = sgn μ3 = ¿0 →
asimetrie spre dreapta; ¿ 0 → asimetrie spre stânga.
Cu cât β 1 sau γ 1 sunt mai apropiate de 0, distribuţiile sunt mai simetrice. Teoretic,
pentru distribuţii simetrice, momentele centrate de ordin impar sunt nule ( β 1=0, căci μ3
=0, μ1=0) iar cele de ordin par sunt pozitive ( μ2 >¿0, μ4 > ¿0);
Dacă momentele de ordin impar ( μ3, μ1) sunt diferite de zero, distribuţiile sunt
asimetrice:
Dacă μ3 ¿ 0 avem o asimetrie spre dreapta;
Dacă μ3 <¿ 0 avem o asimetrie spre stânga;
Evident, dacă μ3= 0, avem o distribuţie simetrică.
56
Calculând pentru tabelul precedent, coeficienţii de asimetrie cu momente centrate
xi
'
ni '
x i −¿M (x i −M )
' 2
ni (x i −M )
' 2
(x i −M )
' 3 '
ni (x i −M )
3
M=137.4; μ2=σ =
∑ '
2
2
(x i−M ) ni
=
16224
= 162.24; μ3=
∑ (x ' i−M )3 ni =
−46195.2
=-
∑ ni 100 ∑ ni 100
2
μ3 461.952
2
461.952 ( μ3 <¿0, deci vom avea o asimetrie spre stânga); β 1 = 3 = 3 =
μ2 162.24
213399.6503
= 0.0499, aşadar avem de a face cu o asimetrie moderată negativă (spre
4270451.687
stânga) (curba e uşor alungită spre stânga).
Obs: Atunci când coeficienţii de asimetrie sunt mai mici în modul decât 0.1, avem
asimetrii moderate.
μ 3 −461.952
−461.952
Calculând şi coeficientul de asimetrie Fischer, γ 1= 3 = 3 = = - 0.22
μ22 √ 162.24 2066.507
ceea ce arată o uşoară asimetrie spre stânga.
50 50 50
45 45 45
40 40 40
35 35 35
Indicatori ai boltirii
30 30 30
Studenti
Studenti
Studenti
25 25 25
20 20
57
μ4 μ4
β2 = 2 = 4 unde μ4 este momentul centrat de ordinul 4, μ2 momentul centrat de
μ 2 σ
2. Coeficientul de boltire Fisher într-un mod asemănător măsoară excesul faţă de curba
normală.
μ4
γ 2 = β 2 −¿ 3 = 2 – 3; dacă β 2 = 3 → γ 2 = 0, distribuţie mezocurtică;
μ2
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie leptocurtică;
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie platicurtică.
Cu datele anterioare
xi
'
ni x i' −¿M (x i' −M )2 ' 2
ni (x i −M )
' 4
(x i −M )
' 4
ni (x i −M )
11 12 -22.4 501.76 6021.12 251763.09 3021157.08
5 16 -12.4 153.76 2460.16 23642.13 378274.08
12 28 -2.4 5.76 161.28 33.17 928.76
5 24 7.6 57.76 1386.24 3336.21 80069.04
13 20 17.6 309.76 6195.2 95951.25 1919025
5
14
5
15
5
100 16224 5399453.2
5399453.2 μ4 53994.532
μ4 = = 53994.532; μ2= 162.24; β 2 = 2 = = 2.05 ¿ 3, distribuţie
100 μ2 26321.81
platicurtică
Coeficientul Fisher → γ 2 = β 2 – 3 = 2.05 – 3 = – 0.5 ¿ 0, distribuţie platicurtică.
Aplicații
Coeficientul şi intervalul de variaţie, calculul valorilor centrale, a abaterii standard, a
varianţelor inter- şi intra-grupale, verificafrea teoremei de descompunere a varianţei
Ex1
Angajaţii unei secţii s-au grupat, după timpul afectat pentru realizarea unui proiect,
astfel:
x i reprezintă variabila statistică, adică timpul consumat (în ore)
ni reprezintă frecvenţele absolute (numărul de angajaţi ce corespund variabilei)
xi ni
sub 120 12
120-130 16
130-140 28
140-150 24
peste 150 20
58
100
M=
∑ '
x i ni 13740
= 2 ∑
= 137.4; σ =
' 2
(x i−M ) ni 16224
= = 162.24 → σ = 12.74 ore ceea
∑ ni 100 ∑ ni 100
ce arată că fiecare din cei 100 de angajaţi se abate în medie faţă de timpul mediu
consumat pentru realizarea unui proiect, cu ± 12.74 ore.
În intervalul de variaţie, I = (M – σ , M + σ ) = (137.4 – 12.74, 137.4 + 12.74) = (124.66,
150.14) se plasează majoritatea de 68.27% din cei 100 de angajaţi. I reprezintă
intervalul mediu de variaţie a timpului consumat pentru realizarea unei piese.
σ 12.74
Coeficientul de variaţie v = (100%) = (100%) = 9.27% ¿ 17% ceea ce arată o
M 137.4
dispersie mică, deci o colectivitate omogenă din punctul de vedere al timpului de lucru
necesar, deci media aritmetică este strict reprezentativă.
Ex2
În urma unui sondaj s-au înregistrat următoarele date:
59
1.Să se ordoneze seriile; 2. Să se caluleze Me pentru salarii; M = ?; 3. Să se grupeze
datele în funcţie de vechime, respectiv salariu, în 3 grupe de intervale egale; 4. Să se
calculeze indicatorii tendinţei centrale pentru 3; 5. Verificaţi regula descompunerii
varianţei pentru seria vechime, punându-se în evidenţă influenţa factorilor întâmplători
şi esenţiali; 6. Aceeaşi cerinţă pentru seria salarii.
n+1 15+1
R.1.Ordonăm seria vechime: 1,2,2,3,3,6,6,7,8,9,9,10,12,13,15; U Me = = =8→
2 2
Me = 7; M= 7.06;
2. Seria salarii: 750, 800, 800, 900, 900, 1200, 1200, 1300, 1350, 1400, 1400, 1500, 1600,
n+1 15+1
1700, 1800; U Me = = = 8 → Me = 1300;
2 2
102.5 8−5 2
3. M = = 6.83; Me = 5 + 5 = 7.14; ∆ 1 = 7-5; ∆ 2 = 7-3; Mo = 5 + 5 = 6.67
15 7 2+ 4
Vechime ni Ni '
xi
'
ni x i
'
x i -M
' 2
(x i−M )
' 2
ni (x i −M )
xi
[0-5] 5 5 2.5 12.5 -4.33 18.74 93.74
(5-10] 7←n Mo 12← 7.5 52.5 0.67 0.44 3.14
(10-15] 3 ∫ ¿ Me ¿ 12. 37.5 5.67 32.14 96.44
15 5
15 102.5 193.32
193.32
Grupată pe intervale, seria vechime are varianţa σ 2 = = 12.88
15
Salariu x i ni Ni '
xi
'
ni x i
[750-1100] 5 5 925 4625
(1100-1450] 6← n Mo 11← 127 7650
(1450-1800] 4 ∫ ¿ Me ¿ 5 6500
15 162
5
15 18775
xi x i−¿ ni ¿ ni ¿
M
1 -6.06 1 36.7236 36.7236
2 -5.06 2 25.6036 51.2072
3 -4.06 2 16.4836 32.9672
4 -3.06 0 9.3636 0
5 -2.06 0 4.2436 0
6 -1.06 2 1.1236 2.2472
7 -0.06 1 0.0036 0.0036
8 0.94 1 0.8836 0.8836
9 1.94 2 3.7636 7.5272
60
1 2.94 1 8.6436 8.6436
0 3.94 0 15.5236 0
1 4.94 1 24.4036 24.4036
1 5.94 1 35.2836 35.2836
1 6.94 0 48.1636 0
2 7.94 1 63.0436 63.0436
1
3
1
4
1
5
262.9304
262.9304
Varianţa σ 2 = = 17.5286
15
Împărţim seria vechime în trei grupe egale
xi 1
ni 1
xi ni1 1
xi - M 1
1
(x i −M 1)
2
ni (x i −M 1)
2
1 1 1
11 2.8
M1 = = 2.2; σ 21 = = 0.56
5 5
xi 2
ni 2
xi ni2 2
xi - M 2
2
(x i −M 2)
2
ni (x i −M 2 )
2
2 2 2
55 14.854
M2 = = 7.857; σ 22 = = 2.122
7 7
xi 3
ni 3
xi ni xi - M 3
3 3 3
(x i −M 3)
2
ni (x i −M 3 )
2
3 3 3
11 0 0 -2.33 5.4289 0
12 1 12 -1.33 1.7489 1.7689
13 1 13 -0.33 0.1089 0.1089
14 0 0 0.67 0.4489 0
15 1 15 1.67 2.7889 2.7889
N 3=3 40 4.6667
61
40 4.6667
M3 = = 13.33; σ 23 = = 1.555; aşadar varianţele de grupă sunt σ 21=0.56; σ 22
3 3
=2.122; σ 23=1.555
Varianţa intergrupală σ M = 2 ∑ N s (M s −M )
2
=
2 2
N 1 (M 2−M ) + N 2 (M 2−M ) + N 3 (M 3 −M )
2
xi
' '
ni x i
'
x i−M
'
(x i−M )
2 ' 2
ni (x i−M )
'
(x i −M )
3 '
ni (x i −M )
3
Ni
800 16000 -380 144400 2888000 -54872000 -1097440000 20
1000 30000 -180 32400 972000 -5832000 -174960000 50←intQ1
1200 66000 20 400 22000 8000 440000 105←intMe
1400 49000 220 48400 1694000 10648000 372680000 140←intQ3
1600 16000 420 176400 1764000 74088000 740880000 150
62
17700 7340000 -158400000
0
177000 55−30
a)M = = 1180; Mo = 1100 + 200 = 1211.11
150 ( 55−30 )+(55−35)
As = M – Mo = 1180 – 1211.11 = - 31.11 ¿ 0, asimetrie negativă, spre stânga (alungită la
stânga).
b) σ =
−31.11
√7340000
150
= 221.208; calculăm coeficientul de asimetrie Pearson: C asP=
M −Mo
σ
=
=
221.208
- 0.14 → distribuţie moderat asimetrică spre stânga (negativă)
150
−50
Pentru a calcula coeficientul de asimetrie Fischer, aflăm întâi Me = 1100 + 2 200
55
3(M −Me) 3(1180−1190.90)
= 1190.909; C asF= = = - 0.14, ceea ce arată o asimetrie
σ 221.208
negativă moderată.
3 ∑ ni
−N i −1 112.5−105
Q3 = x i−1 + d 4 = 1300 + 200 = 1342.85; C aY = - 0.068, asimetrie
35
nQ 3
negativă moderată.
63
xi
'
ni '
x i−M
' 2
(x i−M )
' 2
ni (x i−M )
' 4
(x i−M ) ni (x i−M )
' 4
μ4
Evident, acelaşi rezultat îl dă calculul coeficientului Fischer γ 2 = β 2 −¿ 3 = 2 – 3 = 2.343
μ2
– 3 = - 0.65 deci o distribuţie platicurtică.
μ 2 corectat
corectat corectat corectat
→ o distribuţie platicurtică.
7. Variabile aleatoare
O variabilă aleatoare este rezultatul unui experiment aleator. Poate fi discretă (cu valori
numărabile) sau continuă
64
O variabilă aleatoare discretă este notată cu X şi este însoţită de obicei de distribuţia sau
repartiţia sa:
X: ( x1
p1
x2 … xn
p2 … pn )
unde x i sunt valorile pe care le poate lua X, cu probabilităţile respectiv pi,
i = 1 , n, unde 0 ≤ p i ≤ 1
Fie X: (
x1 x2 … xn
p1 p 2 … p n )
o variabilă aleatoare discretă. Vom numi valoarea medie a
∑ pi x i
1
( )
1.5 1.62 1.64 1.65 1.681.72 1.74 1.8 1.85
1
X: 1 3 4 2 2 3 2 2 1 ; M(x) = (1.5 + 4.86 + 6.56 +3.3 + 3.36 + 5.16
20
20 20 20 20 20 20 20 20 20
+ 3.48 + 3.6 + 1.85) = 1.68.
( )
k k k
k x x2 … xn
X = 1 ; M( X k ¿= p1 x k1 + p2 x 2k+ ... + pn x kn;
p 1 p 2 … pn
Varianţa unei variabile aleatoare X este σ 2( x) = p1 ( x 1−M (X ))2+ ... + pn ( x n−M ( X))2 = M(
(X −M ( X )¿¿ 2)¿ = M (X ¿ ¿2)−¿ ¿ (M (X )¿¿ 2)¿
65
7.2 Distribuţia normală (sau gaussiană)
2
−1 (x−M ( X ) )
Este o distribuţie continuă, de ecuaţie y= 1 e 2 unde M(X) = np este media
2
σ
√2 π
variabilei X, σ este abaterea medie pătratică, π ≈ 3.141592..., e este numărul lui Euler,
e≈2,71828...), sunt constante cunoscute.
Aria determinată de graficul distribuţiei normale şi axa Ox este egală cu 1. Notând cu
P(a¿ X < b ¿ probabilitatea ca X să aparţină intervalului (a,b), aceasta este egală cu aria
de sub curba normală cuprinsă între dreptele x=a şi x=b, a ¿b. În intervalul (– σ, + σ) se
plasează 68.27% din cazurile favorabile, în (–2σ, +2σ), 95.45% şi în (–3σ, + 3σ), 99.73%
din cazuri, ca în graficul de mai jos.
66
Proprietăţi ale curbei normale: Curtosis: γ =3 ; Coeficient de asimetrie (în funcţie de
momente), C asim= 0.
Importanţa distribuţiei normale se va vedea atunci când în anumite condiţii, distribuţiile
binomială, hipergeometrică, Poisson se vor reduce la cea normală.
Mai jos e reprezentată curba normală pentru câteva valori ale mediei şi dispersiei. Trei
distribuţii sunt standardizate, una este deplasată (are media = −¿2).
n!
P(X= x i de k ori în n încercări) = C kn p k q n−k = k n−k
p q
k !(n−k )!
Distribuţia variabilei aleatoare este următoarea:
( )
0 1 k ¿n
⋮ ⋱ ⋮
0 0 n−0 1 1 n−1 k k n−k n n 0
C p q
n C p q
n ⋯ C p q
n ¿C n p q
n
Media, M(x) = ∑ C n p q = np
k k n−k
k=0
2
Varianţa, σ ( x) = M (X ¿ ¿2)−¿ ¿ (M (X )¿¿ 2)¿ = npq
Abaterea medie pătratică, σ = √ npq
q− p
Coeficientul de asimetrie (în funcţie de momente, Casim =
√ npq
67
1−6 pq
Boltirea (curtosisul), γ = 3 + (¿ 0 , leprocurtică, ¿ 0, platicurtică)
npq
Dacă p¿ q , atunci curba de distribuţie e alungită la stânga (deoarece probabilitatea de
succes are valori mai mari decât cea de insucces şi evenimentele se deplasează spre
valoarea de 1, din dreapta variabilei).
Ex: Se aruncă o monedă de 100 de ori. Să se afle numărul mediu de obţinere a unei
anumite feţe a monedei şi abaterea medie pătratică.
1 1 1
√
M = np = 100· = 50; Abaterea medie pătratică σ = √ npq = 100 · · = 5
2 2 2
Ex: Care e probabilitatea de a obţine de 2 ori aceeaşi faţă a unei monede din 4 aruncări?
1
Fie A evenimentul se obţine de 2 ori aceeaşi faţă a unei monede din 4 aruncări; p=q=
2
2
1 1
4−2
4 ! 1 3· 4 3
n=4, k=2, → p(A)=C 24 ( ) ( ) = = 5 =
2 2 2! 2 ! 24 2 8
Ex: Probabilitatea să se obţină exact o singură faţă a unei monede din patru aruncări
(1/2) e mai mare decît să obţin două feţe din patru aruncări.
Proprietăţi:
68
∞ k
a)∑ P (X=k )= e
−λ
∑ kλ ! = e− λ·e λ = 1, aşadar avem de a face cu o distribuţie de
k=0 k≥0
probabilitate. În graficul de mai jos este sunt reprezentate trei distribuţii Poisson pentru
valori diferite ale lui λ.
Pe axa orizontală sunt trecute valorile lui k. Funcţia este definită numai pentru valori
întregi ale lui k. Liniile de conexiune sunt trasate numai pentru a ghida graficul.
Ex2
Determinaţi ordonata curbei normale în corespondenţă cu:
a)z=0.83; în Anexa1, urmăm coloana lui z până la 0.8 apoi spre dreapta până la
intersecţia cu coloana lui 3, → ordonata 0.2827
b) z= – 1.24 ; prin simetrie, z=1.24, → ordonata 0.1849
c) z= – 0.03; → ordonata 0.3988
Ex3
Dacă cifra de afaceri medie a 500 de firme este de 150 mii lei şi σ este 15 mii lei,
considerând că CA are o distribuţie normală, determinaţi:
a)câte firme au CA cuprinsă între 120 şi 155 mii lei?
b)câte firme au CA mai mare de 185 mii lei?
70
Ex4
Determinaţi probabilitatea ca în 10 aruncări ale unei monede, să se obţină faţa A de un
număr cuprins între 3 şi 6 ori dacă:
a) se utilizează distribuţia binomială; b) aproximarea distribuţiei binomiale cu cea
normală
3 7
1 1
a) P(X=faţa A de 3 ori) = C 310( ) ( ) = 0.117
2 2
4 6
1 1
P(X=faţa A de 4 ori) = C 410( ) ( ) = 0.205
2 2
5 5
1 1
P(X=faţa A de 5 ori) = C 510( ) ( ) = 0.244
2 2
6 4
1 1
P(X=faţa A de 6 ori) = C 610( ) ( ) = 0.205
2 2
P(X = faţa A să apară de un număr cuprins între 3 şi 6 ori) = 0.117+0.205+0.244+0.205 =
0.7734
1
b) Media distribuţiei binomiale, M(x)= x =np=10· =5; Abaterea medie pătratică σ=√ npq
2
√
= 10
11
22
= 1.58
Ex5
O monedă se aruncă de 500 de ori. Determinaţi probabilitatea ca nr. de ieşiri a feţei A să nu
difere de 250: a) mai mult de 10 ori; b) mai mult de 30 de ori.
Ca şi la problema precedentă, se trece de la distribuţia discontinuă de tip binomial, la o
distribuţie normală care se standardizează astfel:
-apariţiile din intervalul discontinuu (240, 260) al distribuţiei binomiale devin apariţii în
intervalul continuu x∈(239.5 .260 .5); intervalul se „lărgeşte”.
1
√ 1 1
M = np = 500∙ = 250; σ =√ npq= 50 ∙ ∙ = √ 125 = 11.18
2
Acum, pt. x=239.5 →
2 2
Ex.6
71
Dacă probabilitatea ca o firmă să dea faliment este de 0.001, determinaţi probabilitatea ca din
2000 de firme:
a) exact 3 să dea faliment; b) mai mult de 2 firme să dea faliment
Problema poate fi abordată cu distribuţia binomială; aici, n este suficient de mare (n=2000),
probabilitatea p a producerii unui eveniment este apropiată de zero (p=0.001), iar q=1–p tinde
la 1 şi atunci distribuţia binomială cu parametrii n, p poate fi aproximată cu distribuţia
Poisson (legea evenimentelor rare) de parametru λ = np=2. Se verifică faptul că numărul
cazurilor posibile n≥ 30 şi np¿ 5.
k
λ −λ 2 −2
3
4
Avem probabilitatea pentru k firme să dea faliment, k=3: P(X=k) = e = e = 2=
k! 3! 3e
0.18
b) P(X¿ 2) = 1 – P(x¿ 2 ¿=¿ 1– P(X=0 sau X=1 sau X=2) = 1 – P(X=0) – P(X=1) – P(X=2);
2 −2 1 2 −2 2 2 −2 2 1 2 2
0 1 2
P(X=0) = e = 2 ; P(X=1)= e = 2 ; P(X=2)= e = 2 ; → P(X¿ 2) =1 – ( 2 + 2 + 2
0! e 1! e 2! e e e e
5
) = 1– 2 = 0.323.
e
8. Regresie şi corelaţie
72
datelor unui eşantion se estimează relaţia matematică dintre două sau mai multe
variabile.
Analiza de corelaţie este metoda statistică prin care se măsoară intensitatea legăturii
dintre variabile. După forma modelului de regresie, corelaţia poate fi simplă sau
multiplă. În general, un model de regresie poate fi scris y = f(x1, x2,..., xn) + e; y –
variabila dependentă; xi – variabile independente (factoriale), e – eroarea sau influenţa
factorilor neincluşi în model. Într-o cercetare bazată pe analiza de regresie şi corelaţie
trebuie urmărite următoarele etape:
-identificarea existenţei legăturii – se rezolvă prin analiza logică a posibilităţii de
existenţă a unei legături între variabilele considerate;
-stabilirea sensului legăturii dintre y şi x (direct sau invers) şi al formei legăturii (liniare
sau curbilinii); - determinarea gradului de intensitate al legăturii (se rezolvă cu ajutorul
indicatorilor parametrici sau neparametrici ai intensităţii corelaţiei, folosiţi în analiza de
corelaţie).
X x 1, x 2, ..., x n
y y 1, y 2, ..., y n
Când se compară două serii de timp, termenii se ordonează cronologic, când se compară
serii de spaţiu, termenii se ordonează crescător sau descrescător după x.
c)Metoda grupărilor statistice se aplică atunci când cele două variabile corelate prezintă
un număr mare de variante. Aplicarea aceste metode implică gruparea valorilor
variabilei factoriale x pe intervale de variaţie şi calcularea valorilor lui y sub forma
valorilor medii corespunzătoare ( x i, y i).
73
Series 1
Series 2
Series 3
X-Values
X-Values
74
r yx =
cov (X . Y )
=
∑ (x i−x )( y i− y ) unde σ , σ reprezintă abaterea medie pătratică
x y
σx σy n σx σ y
pentru X şi Y.
r yx este cuprins între -1 şi +1; cele două valori extreme reprezintă o legătură liniară
perfectă între cele două variabile, pozitivă şi negativă, iar valoarea zero semnifică
absenţa legăturii între variabile .
Mai există un indicator al intensităţii legăturii, şi anume raportul de corelaţie
Regresia liniară
Statistica are în mod principal în vedere realizarea de predicţii. Predictia este procesul
de estimare a valorii unei variabile atunci când cunoaştem valoarea unei alte variabile.
Deşi în experienţă nu se găsesc relaţii perfecte, prin intermediul regresiei se pot face
predicţii pentru o variabilă, în funcţie de valoarea alteia.
În continuare, ne vom referi doar la situatia regresiei simple (o variabila dependentă si
una independentă) şi liniare (relaţia dintre cele două variabile poate fi descrisă printr-o
dreaptă în cadrul norului de puncte).
Regresia se leagă foarte mult de conceptul de corelaţie. O asociere puternică între două
elemente conduce la creşterea preciziei predicţiei unei variabile pe seama alteia. Dacă
am
Ex 1
Să presupunem că între volumul salariilor şi vechimea în muncă s-a obţinut un
coeficient de corelatie r = 0,8 pe un lot de 50 de subiecţi. Regresia ne dă posibilitatea să
estimăm ce salariu are un individ dacă cunoaştem vechimea sa în muncă şi tipul de
relaţie dintre cele două variabile.
Procesul de regresie presupune doi paşi. Primul se referă la determinarea ecuaţiei de
regresie, iar cel de-al doilea constă în utilizarea acestei ecuatii în predicţie.
Forma generală prin care se exprimă o ecuaţie de regresie este: y x = a + bx + e la nivelul
unei populaţii şi ^y x = a^ + b^ x + e la nivelul unui eşantion observat (a şi b sunt parametri
necunoscuţi ce urmează a fi estimaţi, iar a^ şi b^ sunt estimatorii parametrilor de regresie
unde:
a – ordonata la origine arată valoarea variabilei y când x = 0; b – panta dreptei sau
coeficientul de regresie, semnul său indică indică direcţia legăturii dintre variabilele
corelate, b ¿0 arată o legătură directă, pozitivă, b ¿0 arată o legătură inversă (negativă)
b = 0 arată lipsa de legătură, valoarea lui b arată cu cât creşte sau scade y la o creştere
sau scădere a lui x cu o unitate; e – variabila aleatoare neobservabilă.
Parametrii a şi b care definesc dreapta de regresie trebuie estimaţi pornind de la date
observate pe eşantion, adică alegând ca estimatori pe a^ şi b^ . Se consideră acei estimatori
75
pentru care valoarea variabilei aleatoare e i, adică distanţa dintre o valoare reală y i şi o
valoare estimată y x = a^ + b^ x i să fie cât mai mică, adică e i = y i – a^ – b^ x i să fie minimă
i
na + b ∑ x i = ∑ yi
a ∑ x i + b ∑ x i2 = ∑ x i y i
unde n reprezintă numărul de cazuri ai unei variabile.
Ex2
Zece subiecţi sunt testaţi în ce priveşte capacitatea de a rezolva anumite probleme (Y) şi
efortul depus sau cantitatea de pregătire (X). Au fost obţinute următoarele rezultate:
2
Nr X Y X XY
1 17 11 289 187
2 13 15 169 195
3 15 14 225 210
4 11 18 121 198
5 19 10 361 190
6 10 19 100 190
7 12 16 144 192
8 11 15 121 165
9 13 15 169 195
10 14 14 196 196
13 147 1895 1918
5
76
Vom face în continuare predictii ale nivelului de rezolvare pornind de la aceasta ecuatie
în situatiile în care un subiect ar face efortul de 11, respectiv 19.
Y1 = 27,08 – 0,91∙11 = 17,07
Y2 = 27,08 – 0,91∙19 = 9,79
Se observă că între valorile estimate şi cele efective există diferenţe (17,07 estimată fata
de 17 efectivă, respectiv 9,79 estimată faţă de 10 efectivă).
Aceste diferenţe reprezintă erorile de estimare sau valorile reziduale. Dacă am calcula
toate valorile reziduale şi media lor, am obţine media zero şi abaterea standard ar fi
eroarea standard a estimării. Aceasta se interpretează asemănător cu abaterea standard
în situaţia unei distribuţii normale a datelor.
Formula de calcul prescurtată a acestei erori standard este:
S Exerciţii
1)Pornind de la datele din tabel, stabiliţi ecuaţia de regresie utilizând ambele metode
pentru variabila independentă fobia şcolară (X) unde Y reprezintă variabila dependentă
(rezultatele şcolare) exprimate prin media generală.
(un scor mic înseamnă o frica de eşec redusă)
Frica de eşec Rezultate Frica de eşec Rezultate
şcolar X şcolare X şcolare
Y Y
8 7,80 9 6,00
5 8,20 5 9,00
8 8,00 6 8,90
7 6,50 4 9,25
6 8,30 7 8,00
7 7,70 5 8,80
7 6,90 9 5,80
Dacă vom trasa o corelogramă, Y=f(X) vom constata o legătură liniară directă între
cantitatea de îngrăşăminte şi producţia la hectar, deci vom alege un model liniar de
regresie y x = a + bx;
Folosind metoda celor mai mici pătrate vom obţine sistemul
na + b ∑ x i = ∑ yi
a ∑ x i + b ∑ x i2 = ∑ x i y i ; tabelul necesar pentru aflarea parametrilor a şi b:
x y x
2
y
2
xy y x = a + bx
1 10 1 100 10 8
2 15 4 225 30 15.5
3 20 9 400 60 23
4 30 16 900 120 30.5
5 40 25 1600 200 38
1 115 55 3225 420 115
5
78
Formule statistică descriptivă univariată
79
(AB) + (AC) + (BC) ≥ (A) + (B) + (C) – N
(AB) + (AC) – (BC) ≤ (A)
(AB) + (BC) – (AC) ≤ (B)
(AC) + (BC) – (AB) ≤ (C)
Caracteristici cantitative
Amplitudinea clasei: L – l ;
Valoarea centrală a clasei = (L+l)/2;
Tendinţe centrale
n
xi
M=∑
i=1 n
n
xi ni
M=∑
i=1 n
{ }
N
dac ă N = par
U me = 2
N +1
¿ dac ă N =impar
2
{ }
∑ ni , c â nd ∑ n este par
U Me −N i−1 2 i
Me = x i−1 + d , U Me =
n Me ∑ ni+ 1 , c â nd ∑ n este impar
i
2
∆1
M o=¿ x i−1 + d
∆1 + ∆2
Mo = 3Me – 2M
n 1
G = (∏ xi ¿ ¿ N sau G = √n x 1 x 2 x n ; G =
i=1
√G
N 1+ N 2+ …+N r
1
N1 N2
G2 … Gr
Nr
N ∑ ni
i=1
H= 1 1 1 H= ; H≤G≤M¸
+ + …+ s
1
X 1 X2 XN ∑ n
xi i
√
i=1
s
∑ x i 2 ni
Mp =
√ x 21 + x 22+ …+ x 2n
n
; pentru serii de frecvenţă, M p = i=1
∑ ni
i=1
s
Quartile
U Q −N i−1 k ∑ ni
Qk = x i−1 + d , unde U Q = , k = 1 ,3
k
nQ k
4
k
U D −N i−1 k ∑ ni
Dk = x i−1 + d , unde U D = , k = 1,9
k
nD k
10
k
U C −N i−1 k ∑ ni
C k = x i−1 + d , unde U C = , k = 1 , 99
k
nC k
100
k
Indicatori ai împrăştierii
80
n
A = x max −x min; Ar =
A d
100 (%); d i = x i−M ; d r = i 100 (%);
∑ |x i−a|;
M M Am ( a )= i=1 i
N
n n s n
√ √
n s
σ= ∑ (x i−M ) 2
sau σ = ∑ ni (x i−M )2
i=1 i=1
N N
σ
2
=∑
d
2
i
=∑ i
(x −M )
2
respectiv, σ 2
=
∑ d i ni ∑ (x ,i−M )2 n i
2
= ; σ 2 = M 2p – 2 2
M ; Mp =
N N ∑ in N
∑ x i ni ;
2
∑ ni
, 2
x i−a
2
σ =
∑ k ni k 2 −¿ ( M −a)2;
( )
∑ ni
I = (M-d , M+d ¿ unde
s
d=¿ ∑
ni|x i−M|
i=1 ; I = (M-σ , M +σ ¿, apar 68.27% din cazuri; în
N
I = (M-2 σ , M + 2 σ ¿ , apar 95.45% din cazuri; în
I = (M-3 σ , M +3 σ ¿, apar 99.97% din cazuri
d σ
v= (100%) sau v = (100%).
M M
17%¿v¿35% - media este moderat reprezentativă
17%¿v¿50% - media este nereprezentativă în sens larg
v¿50% - media este nereprezentativă
k
k ∑ ns ( x i−M s )2
i
2
σM =
∑ N s (M s −M )2 ; σ 2 = ∑ N s σ 2s
; σ 2 = σ 2M + σ 2;
N 1 + N 2 +...+ N s N 1+ N 2+...+ N s
∑ x i ni = 1∙ p+0 ∙ q = p; σ = ; v = σ = √ pq = q ;
Media, M =
∑ ni p+ 1− p
√ pq p M
I Q – Q1
p p √
I Q = Q3 – Q1; A = x max – x min; I D = D9 – D1; Q = Q = 3 ;
2 2
81
Q3 – Q1
Q 2 Q3 – Q1 D −D1 d d σ
vQ = = = (100%); v D = 9 (100%); , , = v;
Me Q3 +Q1 Q 3+ Q 1 Me M Mo M
2
Indicatori ai formei
( Q3−M e )−(M e −Q1) Q1+Q 3−2 M e
As = M – Mo = 3(M−¿Me); C aY = (C aQ) = = unde Q =
Q3 −Q1 2Q
I Q Q3 – Q1
= ;
2 2
( Q3−M e )−(M e −Q1) q2−q1
C aY = = unde q 1 = M e −Q1 şi q 2 = Q3−M e ; –1≤ CaY ≤1;
( Q3−M e ) +( M e−Q 1) q 2+ q1
( C −C50 )−(C 50−C10 ) C q2−q1 ( Q3−M e )−(M e −Q 1) M −Mo
C asC = 90 ; aY = = ; C asP= ; C asF =
C 90−C10 q 2+ q1 ( Q 3−M e ) +( M e−Q 1) σ
3(M −Me)
ϵ (-3, 3);
σ
n n
C as = β 1 =
μ
2
3
; μ3 =
∑ (x i−M ) n i ; μ =σ 2= ∑ (x i−M ) n i ; β ' = μ 33 = μ3 3 ;
3 2
∑ ni ∑ ni
3 2 1
μ 2 μ 22 (σ 2) 2
Dacă μ3 ¿ 0 avem o asimetrie spre dreapta;
Dacă μ3 <¿ 0 avem o asimetrie spre stânga;
Evident, dacă μ3= 0, avem o distribuţie simetrică;
μ4 μ
β 2 = 2 = 44 unde μ4 este momentul centrat de ordinul 4, μ2 momentul centrat de
μ2 σ
μ4
γ 2 = β 2 −¿ 3 = 2 – 3; dacă β 2 = 3 → γ 2 = 0, distribuţie mezocurtică;
μ2
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie leptocurtică;
β 2 ¿ 3 → γ 2 ¿ 0, distribuţie platicurtică.
82
83