Sunteți pe pagina 1din 24

UNIVERSITATEA „DUNĂREA DE JOS” DIN GALAŢI

FACULTATEA DE MEDICINĂ ŞI FARMACIE


SPECIALIZAREA: MEDICINĂ GENERALĂ

REFERAT

Coordonator Student
Prof. Felicia DAMIAN Elena Adriana BEJAN

GALAŢI

2020

1
Cuprins

CAPITOLUL 1 . DEFINITII DE BIOSTATISTICA..................................................1


1.1 DE CE TREBUIE SĂ CUNOAŞTEM STATISTICA?................................................1

1.2 CONCEPTE DE BAZĂ UTILIZATE ÎN STATISTICĂ...................................................1


1.3 OBIECT ŞI METODĂ ÎN STATISTICĂ....................................................................2
CAPITOLUL 2 CONCEPTE DE BAZĂ UTILIZATE ÎN STATISTICA...................4
2.1 CE ESTE BIOSTATISTICA ?................................................................................5
2.1 POPULATII STATISTICE, INDIVIZI STATISTICI.......................................................6
CAPITOLUL 3 LABORATORUL 2........................................................................7
3.1 CERINTE.........................................................................................................7
CAPITOLUL 4 LABORATORUL 3......................................................................10
4.1 CERINTE......................................................................................................10
4.2 REZOLVAREA CERINTELOR............................................................................10
CAPITOLUL 5. HISTOGRAME CU AJUTORUL PACHETULUI EXCEL...........12
5.1. HISTOGRAMA – NOTIUNI INTRODUCTIVE........................................................12
CAPITOLUL 6. STATISTICA DESCRIPTIVE IN EXCEL....................................15
6.1. INDICATORI STATISTICI..................................................................................15
6.1.1. Serii de valori.............................................................................................................. 15
6.1.2 Indicatori de centralitate.............................................................................................. 15
6.1.3. Indicatori de dispersie................................................................................................. 16
6.1.4. Indicatori de localizare................................................................................................ 18
6.1.5. Indicatori de asimetrie................................................................................................ 18

6.2. INTERPRETAREA STATISTICA A REZULTATELOR..............................................19


Capitolul 1 . Definitii de biostatistica

1.1 De ce trebuie să cunoaştem statistica?


Statistica este un “numitor comun” al tuturor ştiinţelor, un limbaj comun al acestora, este,
deopotrivă, un set de instrumente ce poate fi aplicat în toate domeniile cercetării, dar şi “arta” de
mânuire corectă a acestor instrumente. În viaţa de zi cu zi, statistica ne oferă o paletă largă de
tehnici cu aplicabilitate în cele mai variate câmpuri de interes care ne ajută să rezolvăm
problemele practice şi ne învaţă să raţionăm corect. Pentru unii, statistica înseamnă numărul de
goluri, de lovituri libere sau de kornere înscrise într-un meci de fotbal, pentru alţii înseamnă
nivelul Produsului Intern Brut, numărul şomerilor, rata de ocupare a forţei de muncă, indicele
preţurilor sau rata inflaţiei, alături de alte asemenea date regăsite într-o publicaţie de specialitate,
aşa cum pentru alţii statistica poate însemna o ramură a ştiinţei, o ştiinţă de sine stătătoare sau o
disciplină de învăţământ. “Instrumentarul” acestei ştiinţe se poate aplica, practic în toate celelalte
ştiinţe, fie că este vorba de psihologie, de medicină, fizică, chimie, meteorologie sau istorie.
Rolul ei nu este, aşadar, acela de a emite decizii, ci de a orienta decidentul pe o bază
fundamentată asupra deciziei optime pe care o va adopta. Necesitatea cuantificării, a exprimării
numerice a fenomenelor şi proceselor se manifestă în toate domeniile vieţii economico-sociale şi
acest lucru îl face şi statistica, dar nu numai atât. Ea permite caracterizarea, prin doar câteva
niveluri numerice, a unor largi grupuri de date, fără a fi necesar să investigăm fiecare caz în
parte. Acest lucru asigură o economie de resurse materiale, financiare, umane şi temporale. Mai
mult, în urma investigării şi prelucrării setului de date există posibilitatea efectuării unor
inferenţe statistice.

1.2 Concepte de bază utilizate în statistică


Pentru a efectua o cercetare statistică asupra unui fenomen şi pentru a comunica şi altora
rezultatele şi concluziile studiului, sau pentru a înţelege concluziile la care au ajuns alţi
specialişti în cercetările lor, trebuie să avem cu toţii un limbaj statistic comun. Vocabularul de
bază al statisticii cuprinde următorii termeni: a. Populaţia statistică (colectivitatea statistică)

1
Putem spune că metoda statisticii este constituită din „totalitatea operaţiilor, tehnicilor,
procedeelor şi metodelor de investigare statistică a fenomenelor ce aparţin unor procese de tip
stochastic”. Reprezintă totalitatea elementelor de acelaşi fel, cu trăsături observabile comune,
studiate atunci când vrem să iniţiem un demers statistic. 5 În ideea obţinerii tuturor informaţiilor
de care avem nevoie şi a realizării unei economii de resurse materiale, financiare şi umane este
foarte importantă definirea corectă a populaţiei statistice de interes, cu specificarea dimensiunii
temporale, spaţiale şi organizatorice în care se înscrie populaţia. În trecut, prin populaţie se
înţelegea o mulţime (o colectivitate) de persoane (indivizi), astăzi, însă, ea şi-a extins sensul,
sfera de cuprindere, putându-se vorbi de populaţii de animale, obiecte, opinii, păreri, evenimente,
măsurători etc. O populaţie se consideră integral definită, specificată dacă s-a elaborat lista
completă a unităţilor care o compun. Unele populaţii statistice, având foarte multe elemente şi
fiind, deci, foarte numeroase, pot fi considerate cu caracter infinit.

1.3 Obiect şi metodă în statistică


Statistica studiază fenomenele şi procesele care prezintă următoarele particularităţi: - se
întâlnesc la un număr mare de unităţi; - variază ca nivel de la o unitate la alta; - sunt definite,
circumscrise în timp, în spaţiu şi ca structură organizatorică (adică sunt entităţi distincte
circumscrise în timp, spaţiu şi organizatoric); Aceste fenomene se numesc fenomene de masă şi
constituie obiectul de studiu al statisticii. Pentru a putea cunoaşte aceste fenomene, nu este de
ajuns să studiem câteva unităţi purtătoare a acestor fenomene, ci este necesar să avem viziunea
ansamblului, a întregului, să studiem un număr suficient de mare de cazuri pentru ca ele să fie
sub incidenţa legii numerelor mari. Fenomenele studiate de statistică (fenomene stochastice sau
statistice) sunt fenomene nedeterministe, influenţate, de regulă, de un număr mare de factori cu
acţiune sistematică sau aleatoare, esenţială sau neesenţială, cu acţiune într-un acelaşi sens sau în
sensuri diferite. Acest tip de fenomene sunt guvernate de legi statistice, care se manifestă ca
tendinţă şi care pot fi cunoscute, identificate şi studiate doar prin cercetare ansamblului unităţilor
la care se produc. În antiteză cu fenomenele stochastice, există fenomene deterministe, univoc
determinate, care apar sub influenţa unui număr restrâns de cauze şi care se manifestă cu aceeaşi
valoare/nivel, dacă şi cauzele care le-au generat sunt aceleaşi. Spre deosebire de fenomenele de
masă, fenomenele deterministe pot fi cunoscute, identificate şi cercetate pe cale experimentală.
Totodată, valabilitatea lor poate fi probată la nivelul fiecărui caz individual în parte (aşa se
întâmplă, de regulă, cu fenomenele din ştiinţele naturii – fizică, chimie etc.). Urmărind etapele

2
oricărui proces de cunoaştere, pentru rezolvarea problemelor care fac obiectul său de studiu,
statistica, ca orice ştiinţă şi-a elaborat procedee şi metode speciale de cercetare, cum sunt cele ale
observării de masă, ale centralizării şi grupării, procedee şi modele de analiză şi de interpretare
statistică.

3
Capitolul 2 Concepte de bază utilizate în statistica

Pentru a efectua o cercetare statistică asupra unui fenomen şi pentru a comunica şi altora
rezultatele şi concluziile studiului, sau pentru a înţelege concluziile la care au ajuns alţi
specialişti în cercetările lor, trebuie să avem cu toţii un limbaj statistic comun. Vocabularul de
bază al statisticii cuprinde următorii termeni: a. Populaţia statistică (colectivitatea statistică)
Putem spune că metoda statisticii este constituită din „totalitatea operaţiilor, tehnicilor,
procedeelor şi metodelor de investigare statistică a fenomenelor ce aparţin unor procese de tip
stochastic”. Reprezintă totalitatea elementelor de acelaşi fel, cu trăsături observabile comune,
studiate atunci când vrem să iniţiem un demers statistic. 5 În ideea obţinerii tuturor informaţiilor
de care avem nevoie şi a realizării unei economii de resurse materiale, financiare şi umane este
foarte importantă definirea corectă a populaţiei statistice de interes, cu specificarea dimensiunii
temporale, spaţiale şi organizatorice în care se înscrie populaţia. În trecut, prin populaţie se
înţelegea o mulţime (o colectivitate) de persoane (indivizi), astăzi, însă, ea şi-a extins sensul,
sfera de cuprindere, putându-se vorbi de populaţii de animale, obiecte, opinii, păreri, evenimente,
măsurători etc. O populaţie se consideră integral definită, specificată dacă s-a elaborat lista
completă a unităţilor care o compun. Unele populaţii statistice, având foarte multe elemente şi
fiind, deci, foarte numeroase, pot fi considerate cu caracter infinit. Exemplul nr. 2 De exemplu:
populaţia tuturor absolvenţilor unei instituţii de învăţământ superior economic este infinită,
deoarece ea poate include absolvenţii din trecut, prezent şi viitor; dacă facem însă nişte precizări,
nişte delimitări, circumscrieri în timp, în spaţiu şi ca organizare, populaţiile infinite pot căpăta
caracter infinit (populaţia absolvenţilor din Bucureşti, din anul universitar 2009-2010, de la
Academia de Studii Economice, din cadrul învăţământului la distanţă). Cu cât este mai
numeroasă o colectivitate, cu atât devine mai dificilă cercetarea tuturor elementelor ei. O astfel
de cercetare poate fi consumatoare de timp şi costisitoare. În acest caz, soluţia poate fi extragerea
unei subcolectivităţi din colectivitatea generală (numită şi colectivitate parţială, eşantion sau
colectivitate de selecţie). b. Unitatea statistică Se pot întâlni două tipuri de unităţi statistice: -
simple (un salariat, un agent economic, un obiect, o părere); Eşantionul reprezintă un subset de
elemente selectate dintr-o colectivitate statistică. Este elementul, entitatea de sine stătătoare a

4
unei populaţii statistice, care posedă o serie de trăsături caracteristice ce-i conferă apartenenţa la
populaţia studiată. 6 - complexe (o grupă de studenţi sau o echipă de salariaţi, o familie sau o
gospodărie, o categorie de mărfuri) c. Variabila statistică (caracteristică statistică) Variabilele
statistice sunt de numeroase tipuri, putând fi clasificate după următoarele criterii: I. după
dimensiunea în care sunt definite, avem: de timp (care se referă la dimensiunea temporală, de
tipul anului înfiinţării unor firme sau al duratei necesare pentru completarea unui formular); de
spaţiu (care se referă la loc, la spaţiu, de tipul localităţii de reşedinţă a unor persoane sau al zonei
de amplasare a sediului unor firme) atributive (care se referă la un atribut, altul decât timpul sau
spaţiul, de tipul greutăţii corporale, sexului sau profesiei agenţi economici).unor persoane, cifrei
de afaceri a unor

2.1 Ce este biostatistica ?


Statistica este asociata cu un anumit tip de prelucrare a informatiilor din lumea
înconjuratoare si anume acel tip de prelucrare care clasifica, centralizeaza informatiile în tabele,
si grafice, grupeaza informatiile, descopera legaturi între ele, descopera eventuale cauzalitati,
analizeaza fenomene complexe. În plus, statistica face si generalizari ale unor ipoteze descoperite
de obicei empiric. Chiar daca nu avem o idee precisa, cu totii gândim despre aceasta stiinta ca nu
opereaza cu informatii referitoare la un pacient sau o planta sau un obiect sau la un numar foarte
restrâns de astfel de entitati. stim ca statistica este stiinta care prelucreaza informatii care se
refera la un numar mare de entitati cum ar fi pacienti sau indivizi sanatosi sau sau plante sau
obiecte de alta natura.

 Fenomenele macroeconomice, care cer manipularea si interpretarea unei cantitati uriase


de date sunt deseori explicate prin estimari de natura statistica. Aprecierea evolutiei unui
fenomen macroeconomic sau social în timp si estimarea modului lui de evolutie în viitor se face
cu ajutorul statisticii. De exemplu, estimarea tendintei economiei unei tari pe anul urmator sau pe
o perioada mai lunga se face prin metode statistice tinând cont de datele anterioare. Estimarea
consumului anumitor tipuri de alimente, estimarea modului de evolutie a popularitatii diferitelor
personalitati, partide, se realizeaza de asemeni prin sondaje statistice complexe, elaborate.

Utilitatea statisticii este pusa mai bine în evidenta atunci când trebuie studiate fenomene
complexe în care intervin factori sau marimi care se afla în relatii complexe ce nu pot fi descrise
satisfacator prin ecuatii sau formule, sau prin relatii cantitative de dependenta. De exemplu, în

5
tehnica, daca suntem la un moment dat interesati de consumul de carburant al unui motor, exista
în mod sigur o determinare destul de exacta a acestuia în functie de puterea motorului, tipul sau,
viteza de deplasare, si alti câtiva parametri. Cunoscând parametrii de care depinde consumul,
aplicam o formula si obtinem consumul de carburant al acelui motor. Ceea ce obtinem este
valabil pentru orice motor de acelasi tip si care functioneaza în aceleasi conditii.

2.1 Populatii statistice, indivizi statistici


Introducem câteva notiuni specifice cu care opereaza statistica si cu care vom lucra în
capitolele ce urmeaza. Fiind o stinta care nu lucreaza cu fenomene strict deterministe, toate
afirmatiile statisticii se refera nu la evenimente sau obiecte singulare ci sunt deduse prin
observarea unei multimi cât mai cuprinzatoare de obiecte sau fenomene. Desigur, nu se pot face
generalizari pripite din studierea unui caz sau a câtorva cazuri si este destul de clar pentru oricine
ca o generalizare este cu atât mai valoroasa cu cât au fost observate un numar mai mare de
cazuri. Aici însa apare problema de a face o apreciere corecta a numarului de observatii efectiv
realizate, raportat la numarul posibil de observatii.

Daca ne propunem sa facem un studiu asupra unei afectiuni foarte raspândite, cum ar
fi hipertensiunea arteriala esentiala (HTA), concluzii valabile nu se pot trage decât pe baza unui
numar de cazuri de cel putin câteva mii sau zeci de mii, dar în cazul unei maladii rare cum sunt
unele din anomaliile cromozomiale de exemplu, un astfel de numar de cazuri pur si simplu nu
poate fi gasit în aria de cercetare considerata, uneori nici pe întregul glob. Oricum, în general
vorbind, este bine ca, în limita posibilitatilor, studiul sa se faca pe un numar cât mai mare de
indivizi.

6
Capitolul 3 Laboratorul 2

3.1 Cerinte
1. În folderul Lab02 descărcați (de pe site) fisierele:Alergii, Anemia,....Neuro(13 fisiere).
2. Creaţi în folderul Lab02 un fişier Excel şi denumiţi-l Functii_Formule.xlsx.
3. În fișierul Functii_Formule.xlsx aduceți toate cele 13 fișiere descărcate în foaia de calcul
Sheet 1...și redenumiti fiecare foaie de calcul cu numele fisierului corespunzător.
4. Creați fișierul laborator_2.docx în care explicați pasii executați pe parcursul orei.
5. Utilizând funcția de transpunere a datelor în Excel copiați în fișierul laborator_2.docx ce date
se găsesc în toate foile de calcul din fișierul Functii_Formule.xlsx
6. Introduceți o nouă foaia de calcul în fişierul Functii_Formule.xlsx cu numele DATE care să
conțină următoarele coloane GEN, VÂRSTA, RC, PAS, PAD, GLICEMIA, DURATA
SPITALIZĂRII.(Semnificațiile abrevierilor folosite în tabelul de mai sus sunt după cum
urmează: RC = numărul de bătăi cardiace pe unitatea de timp, de obicei pe minut; PAS =
presiunea arterială sistolică (presiunea sângelui în artere în timpul contacției mușchiului
cardiac), PAD = presiunea arterială diastolică (presiunea sângelui în perioada de relaxare a
mușchiului cardiac).
7. Pentru fiecare coloană din foaia de lucru DATE aduceti datele corespunzătoare (din foile de
calcul ale fisierului).
8. Formataţi coloanele în conformitate cu tipul de date conţinute:
9. Coloana A = Text
10. Coleanele de la B la G = Număr fără zecimale
11. Celula care conţine costul de spitalizare per zi (celula G1): currency, RON
12. Inseraţi o nouă foaie de calcul denumită Variabile. În această foaie de calcul creaţi un tabel
după modelul de mai jos şi pentru fiecare variabilă scrieţi tipul acesteia şi respectiv scala de
măsură.

Tip Scala de măsură


Variabila
(calitativ/cantitativ) (nominal / ordinal / interval / raţie)

7
Gen (F/M)

Vârsta (ani)

RC /min

PAS (mmHg)

PAD (mmHg)

Glicemia (mg/dl)

Durata spitalizării (zile)

13. În foaia de calcul Date inseraţi la dreapta coloanei PAD o nouă coloană denumită PAM1
(Presiunea Arterială Medie). Calculaţi pentru fiecare subiect valoarea PAM1 utilizând
formula (folosiţi referinţe relative de celule):
a. PAM1 = PAD+1/3*(PAS-PAD)
b. Formataţi această coloană ca şi fiind numărică fără zecimale.

14. Inseraţi la dreapta coloanei PAM1 o nouă coloană denumită PP (Presiunea Pulsului, coloană
numerică fară zecimale). Calculaţi pentru fiecare subiect valoarea PP utilizând formula
(folosiţi referinţe relative de celule):
c. PP = PAS-PAD
15. Inseraţi la dreapta coloanei PP o nouă coloană denumită PAM2 (Presiune Arterială Medie)
[Razminia M, Trivedi A, Molnar J, Elbzour M, Guerrero M, Salem Y, Ahmed A, Khosla S,
Lubell DL. Validation of a new formula for mean arterial pressure calculation: the new
formula is superior to the standard formula. Catheter Cardiovasc Interv. 2004 Dec;63(4):419-
25.]. Calculaţi pentru fiecare pacient valoarea PAM2 utilizând formula de mai jos (utilizaţi
referinţe relative de celule):
d. PAM2 = PAD+(0.33+(RC*0.0012))*PP
16. Inseraţi la dreapta coloanei PAM2 o nouă coloană denumită PAM3. Calculaţi pentru fiecare
pacient valoarea PAM3 utilizând formula de mai jos (utilizaţi referinţe relative de celule):
e. PAM3 = PAD+40%*PP
17. Inseraţi la dreapta coloanei Durata spitalizării o nouă coloană denumită CS (CS= Costul
Spitalizării). Calculaţi pentru fiecare pacient valoarea CS utilizând formula de mai jos
(utilizaţi referinţe relative şi absolute de celule):
f. CS = Durata spitalizării*Costul spitalizării per zi
18. Utilizând funcţia predefinită SUM, calculaţi costul total al spitalizării pentru eşantionul
studiat:
19. Utilizând funcţia predefinită COUNT, număraţi câte valori sunt în coloana Vârsta. Afişaţi
rezultatul obţinut în coloana Vârsta după ce lăsaţi o celulă liberă faţă de ultima intrare din
tabel.
20. Utilizând funcţia predefinită COUNTIF, creaţi tabelele de frecvenţă pentru variabila Gen.

21. Inseraţi la dreapta coloanei Glicemie o nouă coloană denumită Diabet. Utilizând funcţia IF,
afişaţi pentru fiecare subiect dacă are sau nu diabet, utilizând următorul criteriu:Un subiect se
consideră că are diabet (se va afişa “da” în coloana Diabet) dacă valoarea glicemiei este mai
mare sau egală cu 100 mg/dL

8
22. Realizați un prezentare power point cu obiectivele cestui laborator cu numele laborator_2.pps

9
Capitolul 4 Laboratorul 3

4.1 Cerinte
1. Sa se selecteze din tabelul DECESE, indivizii de sex masculin, intre 20 si 50 de ani, care s-au
spanzurat intre 1982 si 1992.
2. Selectati persoanele de sex masculin din mediul urban din tabelul DECESE care au decedat
in decembrie prin spanzurare. Campun in care este inscrisa luna decesului este LDEC iar cea
in care este inscris daca individul a murit prin spanzurare este SP
3. Folosind tabelul ANEMIA.XLS , sortati pacientii dupa sex (coloana SEX) si concentratia de
hemoglobina (coloana Hb). Aflati care sunt cele mai mici trei valori ale Hb la femei si apoi la
barbati si gasiti numele (initialele) acelor pacienti.
4. In tabelul LIMFOM.XLS sunt inregistrate date despre un numar de pacienti cu limfoame
maligne. Sexul este inregistrat pe coloana SEX, stadiul evolutiv al bolii pe coloana
STADIUEV, si poate fi 1, 2, 3 sau 4, iar durata de supravietuire, in luni, pe coloana
DURATASUP. Aflati pacientii de sex masculin care sunt in stadiul 4 si gasiti care este
pacientul care are cea mai mare durata de supravietuire.
5. In tabelul PEV.XLS sunt inregistrate date despre un numar mare de pacienti cu diferite
afectiuni. Selectati pacientii care au fost inregistrati in octombrie 2000 si staboliti ce
afectiune are fiecare din ei.
6. Din tabelul MIGRENA.XLS, folosind filtre de selectie si conectorul logic OR, selectati
pacinetii normali si pe cei care au lacunarism cerebral (au inscris pe coaloana DIAG, fir
NORM, fie LC)

4.2 Rezolvarea cerintelor


1. Pentru rezolvarea cerintei se foloseste Data ->Filter, iar
conditiile se seteaza ca fiind SEX = “B”, VARSTA >= 20
AND VARSTA<50, ANUL>=1982 AND ANUL<=1992,
CAUZA=“SP”

10

Figură 1 Setare sex


Figură 2 Setare Varsta

2. Se procedeaza ca la prima cerinta, dar criteriile de sortare vor fi: SEX = “B” si CAUZA =
“Sp”
3. Pentru rezolvarea cerintei se foloseste functia de Sort din Data. Dupa accesarea functiei
se adauga criteriile de sortare, primul fiind dupa Sex, in ordine alfabetica, iar al doilea
dupa Hb, in ordine crescatoare.

Figură 3Sortarea dupa SEX si Hb

4. Pentru aceasta cerinta vom folosi prima data functia de Filter, pentru a ramane doar
pacientii masculi aflati in stadiul 4, iar apoi vom sorta descrescator, in functie de
DURATASUP
5. Cu ajutorul functiei Filter vom ramane doar cu pacientii inregistrati in Octombrie 2000.
6. Cerinta se realizeaza tot cu functia Filter si printr-un Custom Filter¸vom folosi conectorul
OR.

Figură 4 Sortare operator OR

11
Capitolul 5. Histograme cu ajutorul pachetului EXCEL

5.1. Histograma – Notiuni introductive


Histogramele sunt printre cele mai importante grafice în statistică, deoarece sunt bogate
în informaţie despre distribuţia valorilor pe o coloană numerică. Să presupunem că dorim să
reprezentăm printr-o histogramă distribuţia vârstelor la pacienţii din tabelul CIROZA. Pentru
aceasta, vom proceda astfel:

1. Deschidem tabelul CIROZA.


2. Coborâm pe coloana D, pe care se află înregistrate vârstele pacienţilor, până la celula D237.
În această celulă, scrieţi formula =min(d2:d235), şi după apăsarea tastei ENTER, programul
va calcula cea mai mică vârstă.
3. În celula D238, scrieţi =max(d2:d235) şi după apăsarea tastei ENTER, programul va calcula
cea mai mare vârstă.
4. În celulele C237 şi C238 scrieţi Minim şi, respectiv Maxim, pentru a nu uita ce reprezintă
valorile calculate de program. Între 26 şi 78 este o diferenţă de 52 de ani, deci, putem pune
clasele din 5 în 5 ani (din 10 în 10 rezultă prea puţine clase).
5. Pe celula D240 scieţi cuvântul Clasa, iar de la D241 în jos scrieţi limitele claselor (graniţele
dintre clase): 25, 30,35….până la 80.

Notaţi că aceste graniţe ale claselor sunt situate de la celula D241 la D252, căci
programul o să întrebe despre ele.

Executaţi secvenţa Tools → Data Analysis, iar din fereastra care apare, alegeţi
Histogram. Apoi apăsaţi butonul OK.

În fereastra care a apărut, completaţi cu datele (fără să vă preocupaţi de semnele $ pe care


programul le inserează în texte):

1. D1:D235, pentru Input Range.


2. D240:D252 pentru Bin Range
3. Bifaţi Labels

12
4. D260, pentru Output Range
5. Bifaţi caseta de validare Chart Output
6. Apoi apăsaţi OK

Rezultatul este apariţia tabelului din figura de mai jos, din stânga, precum şi a
histogramei (dreapta), care este un grafic mic şi destul de inestetic. Se aranjază graficul astfel
încât să arate mai estetic.

Prima operaţie este dimensionarea. Trageţi de colţuri sau de mijloacele laturilor, care sunt
marcate de pătrăţele mici de culoare închisă, în total 8 astfel de markeri, patru la colţuri şi patru
la fiecare mijloc de latură. Dacă lipsesc aceşti markeri, înseamnă că graficul nu este selectat. În
acest caz, selectaţi graficul executând un clic pe suprafaţa lui, într-o zonă albă. Apoi trageţi,
pentru dimensionarea graficului. Ajustarea dimensiunii se face în paşi, tragerile bruşte aducând
probleme. Trageţi de grafic astfel încât să ocupe o suprafaţă cât mai mare, chiar dacă acoperă
tabelul furnizat la pasul precedent. În mod normal, trebuie să ocupe aproape toată suprafaţa
liberă de pe ecran.

Al doilea pas este ajustarea textelor de pe suprafaţa graficului. Executaţi clic dublu pe
fiecare text de pe figură, inclusiv titlul. Alegeţi, pe rând, din fereastra din stânga, fontul Arial,
stilul Regular, dimensiunea 10 sau 12, cu excepţia titlului care este bine să aibă dimensiunea 14,
sau 16.

De fiecare dată când faceţi o alegere, apăsaţi butonul OK.

Dacă aţi reuşit să executaţi aceste operaţii, graficul ar trebui să arate în acest moment ca
cel din figura de mai jos, stânga.

Al treilea pas este schimbarea textelor. Executaţi un singur clic pe cuvântul Histogram şi
apoi, cu ajutorul cursorului pus automat de program, scrieţi Histograma

vârstelor. La fel faceţi cu cuvântul Frequency, şi scrieţi Frecvenţa absolută. Apoi,


executaţi clic pe legendă şi o stergeţi prin apăsarea tastei Delete.

13
5.2 Exemple

Pentru realizarea unei histograme mai intai se calculeaza minimul, cu formula MIN, si
maximul, cu formula MAX, al coloanei. Dupa aflarea celor 2 extremitati lungimea unei clase se
poate lua 1, iar limitele claselor se vor pune din 1 in 1.

Dupa ce s-au stabilit clasele, se foloseste functia Data Analysis din Tools, selectandu-se
din aceasta Histogram. Se introduce datele de Range, odata coloanal pentru care realizam
histograma, iar apoi clasele scrise de noi. Se alege o celula pentru afisarea histogramei si se
apasa butonul OK, histograma fiind apoi creata.

14
Capitolul 6. Statistica descriptive in EXCEL

6.1. Indicatori statistici

6.1.1. Serii de valori


Datele numerice pe care le avem la dispoziţie sunt un simplu şir de numere asociate,
fiecare din ele, unui individ. Aceste şiruri de numere rezultate din datele culese le vom numi serii
statistice sau serii de date sau serii de valori.

Caracterizarea sintetică a unei serii de valori este dată de aşa numiţii indicatori statistici,
între care media, deviaţia standard, mediana, etc,.

Definiţie: Indicatorii statistici sunt numere reale, care sintetizează o parte din informaţia
conţinută de o serie de valori, dând posibilitata aprecierii globale a întregii serii, în loc să ţinem
cont de fiecare valoare din şir.

6.1.1.1.Valori extreme, amplitudine


Minim este cea mai mică valoare din serie, iar Maxim este cea mai mare.

Amplitudinea absolută, este diferenţa dintre maximul şi minimul unei serii de valori şi ne
dă informaţii despre lărgimea plajei de valori pe care se întind datele din serie

6.1.2 Indicatori de centralitate


- media aritmetică, mediana, modulul, valoarea centrală, media geometrică

6.1.2.1. Media aritmetica


Media aritmetică a unei serii de valori. Este un indicator simplu şi în acelaşi timp foarte
sintetic, fiind un foarte bun indiciu al valorii în jurul căreia se grupează datele. Se notează cu
litera m sau, dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu X
sau Y . Formula este cea cunoscută:

x 1+ x 2 +∙∙ ∙ ∙∙+ x n
x= =m
n
15
Definiţie: Media aritmetică unei serii de valori este raportul dintre suma valorilor seriei şi
numărul lor.

6.1.2.2. Mediana
Mediana este valoarea ce împarte în două o colecție ordonată de date. Astfel, jumătate din valorile
variabilei sunt mai mari decât mediana și jumătate sunt mai mici. Dacă setul de date conține un număr par de
valori, mediana este media perechii de valori de mijloc. Mediana este un indicator robust statistic.

6.1.2.3 Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea
mai frecvent întâlnita.

Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita.

6.1.2.4. Valoarea centrala (Mediana)


Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date. Ea
reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza câte 50% din
totalitatea datelor. Mediana coincide cu media în cazul unei distributii teoretice normale si se
îndeparteaza mult de aceasta daca distributia este asimetrica.

6.1.3. Indicatori de dispersie


6.1.3.1. Amplitudinea
Este un parametru care arata distanta dintre valoarea minima si valoarea maxima din
cadrul unui sir de date:

A=( X max− X min )

6.1.3.2. Abaterea standard


Este cea mai cunoscuta si utilizata masura a variabilitatii datelor. Trebuie sa distingem
trei tipuri de notatii diferite, utilizate în situatii variate care vor fi descrise în tabelul urmator.

Simbol Scop Descriere


σ Abaterea standard a populatiei Notata cu sigma, σ este utilizat pentru a
descrie abaterea standard a unei populatii
s Estimator al abaterii standard a Notat cu s mic, este pentru sigma cee ace M
populatiei este pentru μ. Deoarece caracteristicile
populatiei sunt rareori cunoscute, noi vom
lucre cu M si s foarte frecvent in capitolele

16
destinate comparatiilor
S Abaterea standard a esantionului Exista situatii in care se doreste masurarea
abaterii standard a esantionului, fara a se dori
estimarea abaterii populatiei din care face
parte esantionul. Aceasta abatere standard va
fi utilizata mai ales in capitolele referitoare la
coraltii si regresii.

Atât σ  cât si S sunt abateri standard a unor date (prima fiind un parametru al
populatiei, iar cea de a doua a unui esantion.

În cazul distributiei simple, formulele de calcul sunt:

a) pentru abaterea standard a unei populatii

∑ ( X−μ )2
σ=
√ n

b) pentru abaterea standard a unui esantion

∑ ( X −M )2
S=
√ n

Unde: X sunt valorile individuale;

         M este media esantionului;

          este media populatiei

         n este numarul de subiecti observati.

O alta formula care poate fi aplicata în ambele cazuri este:

σ =S=
√ ∑x− 2 (∑ X )

n
n

17
6.1.3.3. Dispersia
Nu este foarte utila în statistica descriptiva, fiind însa foarte importanta în statistica
inferentiala. Dispersia este patratul abaterii standard. Chair si notatiile pentru dispersie sunt σ ²
pentru dispersia populatiei, S² pentru dispersia esantionului si s² pentru dispersia esantionului
utilizata pentru estimarea dispersiei populatiei.

Formulele dispersiei pentru aceste situatii sunt aceleasi cu cele pentru abaterea standard
dar se elimina radicalul.

OBSERVATIE:

Dispersia este egala cu abaterea standard la patrat.

Dispersia mai este denumita si media patratica (MS) fiind utilizata de asemenea în
calcularea lui F din tehnicile ANOVA si ANCOVA.

6.1.3.4. Coeficientul de variabilitate


Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion si se obtine prin
raportarea abaterii standard la media esantionului. Rezultatul obtinut se raporteaza apoi în
procente

S
V= ∗100
M

Unde: S este abaterea standard a esantionului studiat; M este media grupului.

6.1.4. Indicatori de localizare


- minim, prima cvartilă, a doua cvartilă (mediana), a treia cvartilă, maxim, percentila
95%.

6.1.5. Indicatori de asimetrie


6.1.5.1. Indicele de asimetrie
Exista situatii destul de frecvente când media nu corespunde cu mediana. Daca ele ar
coincide am vorbi despre o distributie complet simetrica, specifica unei distributii normale
teoretice.

18
Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza de
mediana, si implicit, în ce masura curba de distributie normala a datelor se departeaza de mijloc,
deplasându-se spre stânga sau spre dreapta. Sunt considerate distributii relativ normale cazurile
în care acesti indicatori nu depasesc ±1,96.

Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât mediana,
caz în care indicele de asimetrie ia valori pozitive si apare o distributie a datelor spre stânga. O
formula simpla de calcul a oblicitatii este:

Asimetria = 3(Media – Mediana) / Abaterea standard

O alta formula de calcul este:

Oblicitate=
∑ ( x−m)3
nS3

Unde: m este media; n este numarul de subiecti; iar S este abaterea standard a
esantionului.

6.1.5.2. Boltirea
Boltirea (în engleza kurtosis – "cocoasa") se refera la înaltimea curbei, comparativ cu cea
normala. Se vorbeste astfel de distributii leptocurtice (cu cocoasa înalta) si platicurtice (mai
aplatizate). Valorile pozitive indica distributii "înalte", leptocurtice, iar cele negative distributii
"plate", platicurtice. Pentru a fi considerata normala, o distributie trebuie sa nu depaseasca ±1,96.
Indicatorul se obtine cu ajutorul formulei:

∑ ( x−m )4
Boltirea= −3
nS 4

Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.

6.2. Interpretarea statistica a rezultatelor


Media aritmetică. Dacă variabila este normal distribuită, atunci media ne indică mijlocul
intervalului dintre minim şi maxim (intervalul de distribuţie a datelor). Tot în cazul distribuţiei
normale, în jurul mediei (mai precis în intervalul medie-abaterea standard, medie+abaterea
standard se găsesc majoritatea datelor).

19
Eroarea standard. Eroarea standard este implicată în calcularea intervalului de confidenţă
de 95% în jurul mediei (numai pentru o variabilă cu distribuţie normală), de asemenea este
implicată în inferenţa statistică.

Mediana este o valoare a seriei astfel încât jumătate dintre observaţii au valori mai mici
(sau egale) şi cealaltă jumătate au valori mai mari (sau egale). În cazul distribuţiei normale media
şi mediana sunt egale. Astfel că mediana şi media aritmetică devin indicatori pentru distribuţia
normală, cu cât au valorile mai apropiate cu atât este mai probabil că variabila este distribuită
normal. Termenul “mai apropiate” se estimează în funcţie de mărimea erorii standard.

Modulul este valoarea care are cea mai mare frecvenţă din serie. In cazul modulului o
situaţie care apare este cea în care seria nu are modul, adică toate valorile apar o singură dată.
Atunci va fi afişată valoarea #N/A. O altă situaţie posibilă este ca seria să fie bimodală sau
trimodală. Atunci va fi afişată numai prima valoare în ordinea apariţiei lor în cadrul seriei. In
acest caz pentru determinarea tuturor valorilor modulului se poate face un tabel de frecvenţă.
Modulul este util în cazul unei variabile calitative ordonate, dar şi în cazul altor tipuri de
variabile, de exemplu în cazul variabilei continue cu distribuţie normală modulul este probabil să
aibă o valoare apopiată de medie.

Deviația standard (Standard Deviation) sau Abaterea standard se poate calcula şi cu


STDEV sau pentru deviaţia standard populaţională STDEV.P. Abaterea standard ne arată care
este abaterea pătratică medie de la media aritmetică a valorilor variabilei. Dacă are o valoare
mică, atunci datele variază puţin în jurul mediei. In cazul în care distribuţia este reprezentată prin
curba lui Gauss (distribuţia este normală) au loc următoarele repartizări ale datelor (conform
teoremei lui Cebâşev):

o intervalul 𝑋̅ ± 𝑆 conţine circa 68.3 % din observaţii

o intervalul 𝑋̅ ± 2 ∙ 𝑆 conţine circa 95.5 % din observaţii

o intervalul 𝑋̅ ± 3 ∙ 𝑆 conţine circa 99.7 % din observaţii.

Varianţa se poate calcula şi cu VAR sau pentru variaţia populaţională VAR.P

20
Excesul sau Boltirea măsoară înălţimea aplatizării sau boltirii unei distribuţii în
comparaţie cu o distribuţie normală. Excesul este zero pentru o serie de date având o distribuţie
normală, este pozitiv pentru o serie de date având trena mai înaltă decât cea a unei distribuţii
normale şi este negativ pentru o serie de date a cărei trenă este mai coborâtă decât cea a unei
distribuţii normale. Pentru interpretarea boltirii veți folosi următoarele criterii:

Daca boltirea (kurt) ≈ 0, distribuția este mesokurtică

Dacă boltirea (kurt) > 1, distribuția este platicurtică

Dacă boltirea (kurt) < -1, distribuția este leptocurtică

Asimetria măsoară abaterea de la aspectul simetric şi direcţia asimetriei (pozitivă sau


negativă) faţă de curba normală. Asimetria este 0 pentru o serie de date având o distribuţie
normală, este negativă pentru o serie de date asimetrică spre dreapta (seria are mai multe valori
mai mici), este pozitivă pentru o serie de date asimetrică spre stânga (seria are mai multe valori
mai mari). Pentru interpretarea asimetriei veți folosi următoarele criterii:

Daca asimetria (skew) ≈ 0, distribuția este aproximativ simetrică

Dacă asimetria (skew) > 1, distribuția este asimetrică la stânga

Dacă asimetria (skew) < -1, distribuția este asimetrică la dreapta

Cvartilele şi percentilele sunt asemănătoare medianei. Astfel, prima cvartilă este o


valoare având proprietatea ca 25% dintre datele seriei sunt mai mici sau egale cu ea, iar 75% mai
mari sau egale cu prima cvartilă. A doua cvartilă este reprezentată de mediană. A treia cvartilă
este o valoare având proprietatea ca 75% dintre datele seriei sunt mai mici sau egale cu ea iar
25% mai mari sau egale cu a treia cvartilă. Percentila de ordinul a este o valoare cu proprietatea
că o proporţie egală cu a din date sunt mai mici sau egale, iar celelalte sunt mai mari. Cvartilele
şi percentilele se pot calcula şi cu funcţia Quartile respectiv Percentile.

Condiții care trebuiesc îndeplinite pentru ca o serie să aibă distribuție normală:

- Media aritmetică≈mediana≈modul

- Asimetria și boltirea sa fie 0 sau cât mai aproape de 0 (se accepta valorile între [-1; 1])

Regulile empirice pentru interpretarea statistică a coeficientului de variaţie (CV):

 dacă CV este sub 10% atunci populaţia poate fi considerată omogenă;

21
 dacă CV este între 10%-20% atunci populaţia poate fi considerată relativ omogenă;

 dacă CV este între 20%-30% atunci populaţia poate fi considerată relativ eterogenă;

 dacă CV este peste 30% atunci populaţia poate fi considerată eterogenă.

22

S-ar putea să vă placă și