Documente Academic
Documente Profesional
Documente Cultură
REFERAT
Coordonator Student
Prof. Felicia DAMIAN Elena Adriana BEJAN
GALAŢI
2020
1
Cuprins
1
Putem spune că metoda statisticii este constituită din „totalitatea operaţiilor, tehnicilor,
procedeelor şi metodelor de investigare statistică a fenomenelor ce aparţin unor procese de tip
stochastic”. Reprezintă totalitatea elementelor de acelaşi fel, cu trăsături observabile comune,
studiate atunci când vrem să iniţiem un demers statistic. 5 În ideea obţinerii tuturor informaţiilor
de care avem nevoie şi a realizării unei economii de resurse materiale, financiare şi umane este
foarte importantă definirea corectă a populaţiei statistice de interes, cu specificarea dimensiunii
temporale, spaţiale şi organizatorice în care se înscrie populaţia. În trecut, prin populaţie se
înţelegea o mulţime (o colectivitate) de persoane (indivizi), astăzi, însă, ea şi-a extins sensul,
sfera de cuprindere, putându-se vorbi de populaţii de animale, obiecte, opinii, păreri, evenimente,
măsurători etc. O populaţie se consideră integral definită, specificată dacă s-a elaborat lista
completă a unităţilor care o compun. Unele populaţii statistice, având foarte multe elemente şi
fiind, deci, foarte numeroase, pot fi considerate cu caracter infinit.
2
oricărui proces de cunoaştere, pentru rezolvarea problemelor care fac obiectul său de studiu,
statistica, ca orice ştiinţă şi-a elaborat procedee şi metode speciale de cercetare, cum sunt cele ale
observării de masă, ale centralizării şi grupării, procedee şi modele de analiză şi de interpretare
statistică.
3
Capitolul 2 Concepte de bază utilizate în statistica
Pentru a efectua o cercetare statistică asupra unui fenomen şi pentru a comunica şi altora
rezultatele şi concluziile studiului, sau pentru a înţelege concluziile la care au ajuns alţi
specialişti în cercetările lor, trebuie să avem cu toţii un limbaj statistic comun. Vocabularul de
bază al statisticii cuprinde următorii termeni: a. Populaţia statistică (colectivitatea statistică)
Putem spune că metoda statisticii este constituită din „totalitatea operaţiilor, tehnicilor,
procedeelor şi metodelor de investigare statistică a fenomenelor ce aparţin unor procese de tip
stochastic”. Reprezintă totalitatea elementelor de acelaşi fel, cu trăsături observabile comune,
studiate atunci când vrem să iniţiem un demers statistic. 5 În ideea obţinerii tuturor informaţiilor
de care avem nevoie şi a realizării unei economii de resurse materiale, financiare şi umane este
foarte importantă definirea corectă a populaţiei statistice de interes, cu specificarea dimensiunii
temporale, spaţiale şi organizatorice în care se înscrie populaţia. În trecut, prin populaţie se
înţelegea o mulţime (o colectivitate) de persoane (indivizi), astăzi, însă, ea şi-a extins sensul,
sfera de cuprindere, putându-se vorbi de populaţii de animale, obiecte, opinii, păreri, evenimente,
măsurători etc. O populaţie se consideră integral definită, specificată dacă s-a elaborat lista
completă a unităţilor care o compun. Unele populaţii statistice, având foarte multe elemente şi
fiind, deci, foarte numeroase, pot fi considerate cu caracter infinit. Exemplul nr. 2 De exemplu:
populaţia tuturor absolvenţilor unei instituţii de învăţământ superior economic este infinită,
deoarece ea poate include absolvenţii din trecut, prezent şi viitor; dacă facem însă nişte precizări,
nişte delimitări, circumscrieri în timp, în spaţiu şi ca organizare, populaţiile infinite pot căpăta
caracter infinit (populaţia absolvenţilor din Bucureşti, din anul universitar 2009-2010, de la
Academia de Studii Economice, din cadrul învăţământului la distanţă). Cu cât este mai
numeroasă o colectivitate, cu atât devine mai dificilă cercetarea tuturor elementelor ei. O astfel
de cercetare poate fi consumatoare de timp şi costisitoare. În acest caz, soluţia poate fi extragerea
unei subcolectivităţi din colectivitatea generală (numită şi colectivitate parţială, eşantion sau
colectivitate de selecţie). b. Unitatea statistică Se pot întâlni două tipuri de unităţi statistice: -
simple (un salariat, un agent economic, un obiect, o părere); Eşantionul reprezintă un subset de
elemente selectate dintr-o colectivitate statistică. Este elementul, entitatea de sine stătătoare a
4
unei populaţii statistice, care posedă o serie de trăsături caracteristice ce-i conferă apartenenţa la
populaţia studiată. 6 - complexe (o grupă de studenţi sau o echipă de salariaţi, o familie sau o
gospodărie, o categorie de mărfuri) c. Variabila statistică (caracteristică statistică) Variabilele
statistice sunt de numeroase tipuri, putând fi clasificate după următoarele criterii: I. după
dimensiunea în care sunt definite, avem: de timp (care se referă la dimensiunea temporală, de
tipul anului înfiinţării unor firme sau al duratei necesare pentru completarea unui formular); de
spaţiu (care se referă la loc, la spaţiu, de tipul localităţii de reşedinţă a unor persoane sau al zonei
de amplasare a sediului unor firme) atributive (care se referă la un atribut, altul decât timpul sau
spaţiul, de tipul greutăţii corporale, sexului sau profesiei agenţi economici).unor persoane, cifrei
de afaceri a unor
Utilitatea statisticii este pusa mai bine în evidenta atunci când trebuie studiate fenomene
complexe în care intervin factori sau marimi care se afla în relatii complexe ce nu pot fi descrise
satisfacator prin ecuatii sau formule, sau prin relatii cantitative de dependenta. De exemplu, în
5
tehnica, daca suntem la un moment dat interesati de consumul de carburant al unui motor, exista
în mod sigur o determinare destul de exacta a acestuia în functie de puterea motorului, tipul sau,
viteza de deplasare, si alti câtiva parametri. Cunoscând parametrii de care depinde consumul,
aplicam o formula si obtinem consumul de carburant al acelui motor. Ceea ce obtinem este
valabil pentru orice motor de acelasi tip si care functioneaza în aceleasi conditii.
Daca ne propunem sa facem un studiu asupra unei afectiuni foarte raspândite, cum ar
fi hipertensiunea arteriala esentiala (HTA), concluzii valabile nu se pot trage decât pe baza unui
numar de cazuri de cel putin câteva mii sau zeci de mii, dar în cazul unei maladii rare cum sunt
unele din anomaliile cromozomiale de exemplu, un astfel de numar de cazuri pur si simplu nu
poate fi gasit în aria de cercetare considerata, uneori nici pe întregul glob. Oricum, în general
vorbind, este bine ca, în limita posibilitatilor, studiul sa se faca pe un numar cât mai mare de
indivizi.
6
Capitolul 3 Laboratorul 2
3.1 Cerinte
1. În folderul Lab02 descărcați (de pe site) fisierele:Alergii, Anemia,....Neuro(13 fisiere).
2. Creaţi în folderul Lab02 un fişier Excel şi denumiţi-l Functii_Formule.xlsx.
3. În fișierul Functii_Formule.xlsx aduceți toate cele 13 fișiere descărcate în foaia de calcul
Sheet 1...și redenumiti fiecare foaie de calcul cu numele fisierului corespunzător.
4. Creați fișierul laborator_2.docx în care explicați pasii executați pe parcursul orei.
5. Utilizând funcția de transpunere a datelor în Excel copiați în fișierul laborator_2.docx ce date
se găsesc în toate foile de calcul din fișierul Functii_Formule.xlsx
6. Introduceți o nouă foaia de calcul în fişierul Functii_Formule.xlsx cu numele DATE care să
conțină următoarele coloane GEN, VÂRSTA, RC, PAS, PAD, GLICEMIA, DURATA
SPITALIZĂRII.(Semnificațiile abrevierilor folosite în tabelul de mai sus sunt după cum
urmează: RC = numărul de bătăi cardiace pe unitatea de timp, de obicei pe minut; PAS =
presiunea arterială sistolică (presiunea sângelui în artere în timpul contacției mușchiului
cardiac), PAD = presiunea arterială diastolică (presiunea sângelui în perioada de relaxare a
mușchiului cardiac).
7. Pentru fiecare coloană din foaia de lucru DATE aduceti datele corespunzătoare (din foile de
calcul ale fisierului).
8. Formataţi coloanele în conformitate cu tipul de date conţinute:
9. Coloana A = Text
10. Coleanele de la B la G = Număr fără zecimale
11. Celula care conţine costul de spitalizare per zi (celula G1): currency, RON
12. Inseraţi o nouă foaie de calcul denumită Variabile. În această foaie de calcul creaţi un tabel
după modelul de mai jos şi pentru fiecare variabilă scrieţi tipul acesteia şi respectiv scala de
măsură.
7
Gen (F/M)
Vârsta (ani)
RC /min
PAS (mmHg)
PAD (mmHg)
Glicemia (mg/dl)
13. În foaia de calcul Date inseraţi la dreapta coloanei PAD o nouă coloană denumită PAM1
(Presiunea Arterială Medie). Calculaţi pentru fiecare subiect valoarea PAM1 utilizând
formula (folosiţi referinţe relative de celule):
a. PAM1 = PAD+1/3*(PAS-PAD)
b. Formataţi această coloană ca şi fiind numărică fără zecimale.
14. Inseraţi la dreapta coloanei PAM1 o nouă coloană denumită PP (Presiunea Pulsului, coloană
numerică fară zecimale). Calculaţi pentru fiecare subiect valoarea PP utilizând formula
(folosiţi referinţe relative de celule):
c. PP = PAS-PAD
15. Inseraţi la dreapta coloanei PP o nouă coloană denumită PAM2 (Presiune Arterială Medie)
[Razminia M, Trivedi A, Molnar J, Elbzour M, Guerrero M, Salem Y, Ahmed A, Khosla S,
Lubell DL. Validation of a new formula for mean arterial pressure calculation: the new
formula is superior to the standard formula. Catheter Cardiovasc Interv. 2004 Dec;63(4):419-
25.]. Calculaţi pentru fiecare pacient valoarea PAM2 utilizând formula de mai jos (utilizaţi
referinţe relative de celule):
d. PAM2 = PAD+(0.33+(RC*0.0012))*PP
16. Inseraţi la dreapta coloanei PAM2 o nouă coloană denumită PAM3. Calculaţi pentru fiecare
pacient valoarea PAM3 utilizând formula de mai jos (utilizaţi referinţe relative de celule):
e. PAM3 = PAD+40%*PP
17. Inseraţi la dreapta coloanei Durata spitalizării o nouă coloană denumită CS (CS= Costul
Spitalizării). Calculaţi pentru fiecare pacient valoarea CS utilizând formula de mai jos
(utilizaţi referinţe relative şi absolute de celule):
f. CS = Durata spitalizării*Costul spitalizării per zi
18. Utilizând funcţia predefinită SUM, calculaţi costul total al spitalizării pentru eşantionul
studiat:
19. Utilizând funcţia predefinită COUNT, număraţi câte valori sunt în coloana Vârsta. Afişaţi
rezultatul obţinut în coloana Vârsta după ce lăsaţi o celulă liberă faţă de ultima intrare din
tabel.
20. Utilizând funcţia predefinită COUNTIF, creaţi tabelele de frecvenţă pentru variabila Gen.
21. Inseraţi la dreapta coloanei Glicemie o nouă coloană denumită Diabet. Utilizând funcţia IF,
afişaţi pentru fiecare subiect dacă are sau nu diabet, utilizând următorul criteriu:Un subiect se
consideră că are diabet (se va afişa “da” în coloana Diabet) dacă valoarea glicemiei este mai
mare sau egală cu 100 mg/dL
8
22. Realizați un prezentare power point cu obiectivele cestui laborator cu numele laborator_2.pps
9
Capitolul 4 Laboratorul 3
4.1 Cerinte
1. Sa se selecteze din tabelul DECESE, indivizii de sex masculin, intre 20 si 50 de ani, care s-au
spanzurat intre 1982 si 1992.
2. Selectati persoanele de sex masculin din mediul urban din tabelul DECESE care au decedat
in decembrie prin spanzurare. Campun in care este inscrisa luna decesului este LDEC iar cea
in care este inscris daca individul a murit prin spanzurare este SP
3. Folosind tabelul ANEMIA.XLS , sortati pacientii dupa sex (coloana SEX) si concentratia de
hemoglobina (coloana Hb). Aflati care sunt cele mai mici trei valori ale Hb la femei si apoi la
barbati si gasiti numele (initialele) acelor pacienti.
4. In tabelul LIMFOM.XLS sunt inregistrate date despre un numar de pacienti cu limfoame
maligne. Sexul este inregistrat pe coloana SEX, stadiul evolutiv al bolii pe coloana
STADIUEV, si poate fi 1, 2, 3 sau 4, iar durata de supravietuire, in luni, pe coloana
DURATASUP. Aflati pacientii de sex masculin care sunt in stadiul 4 si gasiti care este
pacientul care are cea mai mare durata de supravietuire.
5. In tabelul PEV.XLS sunt inregistrate date despre un numar mare de pacienti cu diferite
afectiuni. Selectati pacientii care au fost inregistrati in octombrie 2000 si staboliti ce
afectiune are fiecare din ei.
6. Din tabelul MIGRENA.XLS, folosind filtre de selectie si conectorul logic OR, selectati
pacinetii normali si pe cei care au lacunarism cerebral (au inscris pe coaloana DIAG, fir
NORM, fie LC)
10
2. Se procedeaza ca la prima cerinta, dar criteriile de sortare vor fi: SEX = “B” si CAUZA =
“Sp”
3. Pentru rezolvarea cerintei se foloseste functia de Sort din Data. Dupa accesarea functiei
se adauga criteriile de sortare, primul fiind dupa Sex, in ordine alfabetica, iar al doilea
dupa Hb, in ordine crescatoare.
4. Pentru aceasta cerinta vom folosi prima data functia de Filter, pentru a ramane doar
pacientii masculi aflati in stadiul 4, iar apoi vom sorta descrescator, in functie de
DURATASUP
5. Cu ajutorul functiei Filter vom ramane doar cu pacientii inregistrati in Octombrie 2000.
6. Cerinta se realizeaza tot cu functia Filter si printr-un Custom Filter¸vom folosi conectorul
OR.
11
Capitolul 5. Histograme cu ajutorul pachetului EXCEL
Notaţi că aceste graniţe ale claselor sunt situate de la celula D241 la D252, căci
programul o să întrebe despre ele.
Executaţi secvenţa Tools → Data Analysis, iar din fereastra care apare, alegeţi
Histogram. Apoi apăsaţi butonul OK.
12
4. D260, pentru Output Range
5. Bifaţi caseta de validare Chart Output
6. Apoi apăsaţi OK
Rezultatul este apariţia tabelului din figura de mai jos, din stânga, precum şi a
histogramei (dreapta), care este un grafic mic şi destul de inestetic. Se aranjază graficul astfel
încât să arate mai estetic.
Prima operaţie este dimensionarea. Trageţi de colţuri sau de mijloacele laturilor, care sunt
marcate de pătrăţele mici de culoare închisă, în total 8 astfel de markeri, patru la colţuri şi patru
la fiecare mijloc de latură. Dacă lipsesc aceşti markeri, înseamnă că graficul nu este selectat. În
acest caz, selectaţi graficul executând un clic pe suprafaţa lui, într-o zonă albă. Apoi trageţi,
pentru dimensionarea graficului. Ajustarea dimensiunii se face în paşi, tragerile bruşte aducând
probleme. Trageţi de grafic astfel încât să ocupe o suprafaţă cât mai mare, chiar dacă acoperă
tabelul furnizat la pasul precedent. În mod normal, trebuie să ocupe aproape toată suprafaţa
liberă de pe ecran.
Al doilea pas este ajustarea textelor de pe suprafaţa graficului. Executaţi clic dublu pe
fiecare text de pe figură, inclusiv titlul. Alegeţi, pe rând, din fereastra din stânga, fontul Arial,
stilul Regular, dimensiunea 10 sau 12, cu excepţia titlului care este bine să aibă dimensiunea 14,
sau 16.
Dacă aţi reuşit să executaţi aceste operaţii, graficul ar trebui să arate în acest moment ca
cel din figura de mai jos, stânga.
Al treilea pas este schimbarea textelor. Executaţi un singur clic pe cuvântul Histogram şi
apoi, cu ajutorul cursorului pus automat de program, scrieţi Histograma
13
5.2 Exemple
Pentru realizarea unei histograme mai intai se calculeaza minimul, cu formula MIN, si
maximul, cu formula MAX, al coloanei. Dupa aflarea celor 2 extremitati lungimea unei clase se
poate lua 1, iar limitele claselor se vor pune din 1 in 1.
Dupa ce s-au stabilit clasele, se foloseste functia Data Analysis din Tools, selectandu-se
din aceasta Histogram. Se introduce datele de Range, odata coloanal pentru care realizam
histograma, iar apoi clasele scrise de noi. Se alege o celula pentru afisarea histogramei si se
apasa butonul OK, histograma fiind apoi creata.
14
Capitolul 6. Statistica descriptive in EXCEL
Caracterizarea sintetică a unei serii de valori este dată de aşa numiţii indicatori statistici,
între care media, deviaţia standard, mediana, etc,.
Definiţie: Indicatorii statistici sunt numere reale, care sintetizează o parte din informaţia
conţinută de o serie de valori, dând posibilitata aprecierii globale a întregii serii, în loc să ţinem
cont de fiecare valoare din şir.
Amplitudinea absolută, este diferenţa dintre maximul şi minimul unei serii de valori şi ne
dă informaţii despre lărgimea plajei de valori pe care se întind datele din serie
x 1+ x 2 +∙∙ ∙ ∙∙+ x n
x= =m
n
15
Definiţie: Media aritmetică unei serii de valori este raportul dintre suma valorilor seriei şi
numărul lor.
6.1.2.2. Mediana
Mediana este valoarea ce împarte în două o colecție ordonată de date. Astfel, jumătate din valorile
variabilei sunt mai mari decât mediana și jumătate sunt mai mici. Dacă setul de date conține un număr par de
valori, mediana este media perechii de valori de mijloc. Mediana este un indicator robust statistic.
6.1.2.3 Modul
Modul este parametrul care corespunde celei mai mari frecvente, adica este valoarea cea
mai frecvent întâlnita.
Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita.
16
destinate comparatiilor
S Abaterea standard a esantionului Exista situatii in care se doreste masurarea
abaterii standard a esantionului, fara a se dori
estimarea abaterii populatiei din care face
parte esantionul. Aceasta abatere standard va
fi utilizata mai ales in capitolele referitoare la
coraltii si regresii.
Atât σ cât si S sunt abateri standard a unor date (prima fiind un parametru al
populatiei, iar cea de a doua a unui esantion.
∑ ( X−μ )2
σ=
√ n
∑ ( X −M )2
S=
√ n
σ =S=
√ ∑x− 2 (∑ X )
n
n
17
6.1.3.3. Dispersia
Nu este foarte utila în statistica descriptiva, fiind însa foarte importanta în statistica
inferentiala. Dispersia este patratul abaterii standard. Chair si notatiile pentru dispersie sunt σ ²
pentru dispersia populatiei, S² pentru dispersia esantionului si s² pentru dispersia esantionului
utilizata pentru estimarea dispersiei populatiei.
Formulele dispersiei pentru aceste situatii sunt aceleasi cu cele pentru abaterea standard
dar se elimina radicalul.
OBSERVATIE:
Dispersia mai este denumita si media patratica (MS) fiind utilizata de asemenea în
calcularea lui F din tehnicile ANOVA si ANCOVA.
S
V= ∗100
M
18
Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza de
mediana, si implicit, în ce masura curba de distributie normala a datelor se departeaza de mijloc,
deplasându-se spre stânga sau spre dreapta. Sunt considerate distributii relativ normale cazurile
în care acesti indicatori nu depasesc ±1,96.
Vorbim despre o asimetrie pozitiva în situatia în care media este mai mare decât mediana,
caz în care indicele de asimetrie ia valori pozitive si apare o distributie a datelor spre stânga. O
formula simpla de calcul a oblicitatii este:
Oblicitate=
∑ ( x−m)3
nS3
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard a
esantionului.
6.1.5.2. Boltirea
Boltirea (în engleza kurtosis – "cocoasa") se refera la înaltimea curbei, comparativ cu cea
normala. Se vorbeste astfel de distributii leptocurtice (cu cocoasa înalta) si platicurtice (mai
aplatizate). Valorile pozitive indica distributii "înalte", leptocurtice, iar cele negative distributii
"plate", platicurtice. Pentru a fi considerata normala, o distributie trebuie sa nu depaseasca ±1,96.
Indicatorul se obtine cu ajutorul formulei:
∑ ( x−m )4
Boltirea= −3
nS 4
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.
19
Eroarea standard. Eroarea standard este implicată în calcularea intervalului de confidenţă
de 95% în jurul mediei (numai pentru o variabilă cu distribuţie normală), de asemenea este
implicată în inferenţa statistică.
Mediana este o valoare a seriei astfel încât jumătate dintre observaţii au valori mai mici
(sau egale) şi cealaltă jumătate au valori mai mari (sau egale). În cazul distribuţiei normale media
şi mediana sunt egale. Astfel că mediana şi media aritmetică devin indicatori pentru distribuţia
normală, cu cât au valorile mai apropiate cu atât este mai probabil că variabila este distribuită
normal. Termenul “mai apropiate” se estimează în funcţie de mărimea erorii standard.
Modulul este valoarea care are cea mai mare frecvenţă din serie. In cazul modulului o
situaţie care apare este cea în care seria nu are modul, adică toate valorile apar o singură dată.
Atunci va fi afişată valoarea #N/A. O altă situaţie posibilă este ca seria să fie bimodală sau
trimodală. Atunci va fi afişată numai prima valoare în ordinea apariţiei lor în cadrul seriei. In
acest caz pentru determinarea tuturor valorilor modulului se poate face un tabel de frecvenţă.
Modulul este util în cazul unei variabile calitative ordonate, dar şi în cazul altor tipuri de
variabile, de exemplu în cazul variabilei continue cu distribuţie normală modulul este probabil să
aibă o valoare apopiată de medie.
20
Excesul sau Boltirea măsoară înălţimea aplatizării sau boltirii unei distribuţii în
comparaţie cu o distribuţie normală. Excesul este zero pentru o serie de date având o distribuţie
normală, este pozitiv pentru o serie de date având trena mai înaltă decât cea a unei distribuţii
normale şi este negativ pentru o serie de date a cărei trenă este mai coborâtă decât cea a unei
distribuţii normale. Pentru interpretarea boltirii veți folosi următoarele criterii:
- Media aritmetică≈mediana≈modul
- Asimetria și boltirea sa fie 0 sau cât mai aproape de 0 (se accepta valorile între [-1; 1])
21
dacă CV este între 10%-20% atunci populaţia poate fi considerată relativ omogenă;
dacă CV este între 20%-30% atunci populaţia poate fi considerată relativ eterogenă;
22