Documente Academic
Documente Profesional
Documente Cultură
Metode Descriptive Si Analiza Statistica PDF
Metode Descriptive Si Analiza Statistica PDF
EDITURA PERFORMANTICA
Lucian Vasile BOICULESE
Cristina DASCĂLU
Gabriel DIMITRIU
Mihaela MOSCALU
Adrian DOLOCA
PERFORMANTICA
Contribuţia pe capitole a autorilor:
Capitole Autori
1-6, 14-16 Lucian V. Boiculese, Adrian Doloca, Cristina Dascălu
7-8, 13, 20 Mihaela Moscalu, Lucian V. Boiculese, Adrian Doloca
9-12 Gabriel Dimitriu, Mihaela Moscalu, Lucian V. Boiculese
17-19, 23 Cristina Dascălu, Gabriel Dimitriu, Mihaela Moscalu
21-22, 24 Adrian Doloca, Cristina Dascălu, Gabriel Dimitriu
Introducere ............................................................................................................ 9
1 Formatarea celulelor..................................................................................... 11
Formatare condiţionată .............................................................................. 13
Utilizarea comenzii Paste Special ............................................................ 14
Cuprins | 5
9 Elemente de teoria probabilităților (I)...................................................... 73
Experienţă. Probă. Eveniment................................................................... 73
Evenimente compatibile. Evenimente incompatibile ............................ 74
Evenimente dependente. Evenimente independente (I) ....................... 74
Operaţii cu evenimente .............................................................................. 74
6 | Cuprins
19 Regresie. Corelaţie.................................................................................... 146
Regresie liniară şi corelaţie ...................................................................... 146
Cuprins | 7
8 |
INTRODUCERE
Introducere | 9
În final am prezentat patru teme pentru lucrul cu baze de date într-
un software larg răspândit dedicat gestiunii informaţiei, și anume Microsoft
Access 2010. Este o iniţiere ce prezintă o alternativă la Microsoft Excel, ca
gestiune a datelor într-o primă etapă.
Din experienţa noastră de predare în cadrul acestei frumoase ştiinţe
interdisciplinare, Informatica Medicală, considerăm aceste teme ca fiind
necesare în formarea viitorului specialist dedicat domeniului sănătăţii şi
sperăm că informaţiile descrise vor ajuta în înţelegerea teoretică cât şi în
aplicarea practică a noţiunilor prezentate.
Întrucât orice demers educațional este perfectibil, pentru sugestii,
observaţii, comentarii şi discuţii pe aceste teme, aşteptăm să ne contactați la
adresele de e-mail prezentate de autori.
Autorii
10 | Introducere
1 FORMATAREA CELULELOR
Noţiuni prezentate:
Formatarea celulelor.
Formatare condiţionată
Utilizarea comenzii Paste Special
12 | Formatarea celulelor
Se poate folosi şi un spectru de culori elementare: Negru – [Black],
Bleu – [Cyan], Violet – [Magenta], Alb – [White], Albastru – [Blue], Verde –
[Green], Roşu – [Red], Galben – [Yellow].
Pentru scrierea codului ce defineşte formatul se respectă ordinea: se
defineşte mai întâi culoarea urmată de formatul pentru valori pozitive apoi
se defineşte culoarea şi formatul pentru valori negative. Aceste coduri se
separă prin simbolul „;”. Culoarea este încadrată între paranteze pătrate.
Formatarea condiţionată
Cu ajutorul acestei tehnici se vor scoate în evidenţă celulele a căror
valori îndeplinesc o anumită condiţie. Pentru aceasta se activează formatare
condiţionată (Conditional Formatting)
din grupul Home.
Formatarea în acest caz poate consta în
schimbarea culorii de scriere, sau în
aplicarea unei culori de fundal sau a
unui gradient de colorare, sau se pot
ataşa pictograme (de ex.: săgeată, cerc,
romb, triunghi) [3].
Figura 1-2 prezintă pictogramele
ce se pot folosi la formatarea
condiţionată a celulelor.
Regulile de formatare prezintă
următoarele variante de definire a
condiţiilor pentru selecţia:
• datelor mai mari decât o
valoare critică (prag);
• datelor mai mici decât o
valoare de referinţă;
• datelor cuprinse într-un
domeniu (min, max);
Figura 1-2. Formatare condiţionată
Formatarea celulelor | 13
• datelor egale cu o valoare de interes;
• celulelor ce conţin un anumit text;
• datelor de tip calendaristic într-un anumit domeniu;
• valorilor duplicate;
• primelor n cele mai mari valori sau n% (exprimare procentuală);
• celor mai mici n sau n% valori;
• valorilor mai mari sau mai mici decât media.
Există, cum era de aşteptat, posibilitatea definirii regulilor personalizate de
selecție.
Exemplu de lucru:
Se doreşte marcarea (prin scriere cu roşu) a celulelor a căror valori se
află într-un domeniu de 15% apropiere de valoarea maximă (altfel spus
primele 15% cele mai mari valori).
Realizare: Se marchează blocul de date
de studiu. Se lansează Conditional
Formatting, se alege opţiunea a doua
Top/Bottom Rules se alege apoi Top 10%
(acest 10% este sugestiv, se poate
schimba după dorinţă în etapa
următoare).
14 | Formatarea celulelor
Putem copia în destinaţie:
tot conţinutul deci şi formatarea;
doar formulele;
doar valorile, practic funcţiile nu se copie (este o formă statică de
copiere);
doar formatarea;
doar comentariile ataşate unei celule;
doar regulile de validare;
copierea conţinutului şi a formatării folosind temele ce s-au aplicat;
tot conţinutul şi formatul cu excepţia liniilor ce definesc conturul
celulei;
doar dimensiunea coloanelor;
doar formulele şi formatul;
doar valorile şi formatul.
Dacă destinaţia conţine deja valori atunci se pot efectua anumite operaţii
cu datele din sursă şi cu cele din destinaţie. Implicit se aplică doar
suprapunerea deci, se pierde conţinutul destinaţiei.
Dacă se foloseşte Paste Special atunci datele din destinaţie pot fi adunate,
împărţite, înmulţite sau se pot scădea datele din sursă.
O operaţie importantă este transpunerea ce permite transformarea
liniilor tabelului în coloane.
EXERCIŢII
Observaţie:
Coloanele definite Ex.1 şi Ex.2 sunt formatate folosind prima grupă de
formatări condiţionate (Highlight Cells Rules), Ex.3 se încadrează în grupa a
3-a (Data Bars), Ex. 4 este o scară bicoloră iar ultimul exemplu cu numărul 5
este realizat folosind setul de pictograme (Icon Set).
16 | Formatarea celulelor
Figura 1-6. Formatări condiţionate Figura 1-7. Formatare
condiţionată dedicată.
Formatarea celulelor | 17
6. Copiaţi doar valorile fără format de la exerciţiul 1 coloana C folosind
Paste special, în coloana E. Observaţi că datele calendaristice s-au
distrus. Corectaţi astfel încât forma să fie identică cu cea din coloana A.
Variante: a) - puteţi să formataţi folosind Numbers sau b) - puteţi să copiaţi
doar formatul iniţial din coloana A.
18 | Formatarea celulelor
ADRESAREA CELULELOR.
2 CREAREA FORMULELOR DE CALCUL.
Noţiuni prezentate:
Adresarea relativă a celulelor şi a blocurilor ca argumente pentru
calcul.
Crearea formulelor de calcul.
Tehnica automată de încărcare a celulelor (autoîncărcare, autofill).
Exemplu
În figura alăturată s-a definit blocul
B1:C7 format din cele două coloane
respectiv şapte rânduri (în total 14 celule).
Putem folosi mai multe blocuri sau celule
neconsecutive ca argument al unei funcţii
(de exemplu în calculul mediei). Acestea
se vor despărţi prin virgulă. Exemplu:
B3:C8,F4,H3:H5 (observaţi folosirea
caracterului ”:” dedicat definirii blocurilor
şi caracterul ”,” folosit pentru a enumera
blocurile).
Prompterul de mouse în
formă de cruce - indică
posibilitatea încărcării
automate.
EXERCIŢII
A B C D A B C D
1 nr Sex Greutate(Kg) Inălţime(m) 11 10 M 67 1.67
2 1 F 56 1.67 12 11 F 45 1.62
3 2 M 66 1.72 13 12 M 80 1.90
4 3 M 72 1.77 14 13 M 76 1.79
5 4 M 65 1.69 15 14 F 45 1.75
6 5 F 45 1.64 16 15 M 66 1.70
7 6 M 81 1.87 17 16 F 49 1.60
8 7 F 56 1.71 18 17 F 52 1.65
9 8 F 61 1.72
10 9 F 47 1.56
Tabelul 2-8.
1 A2 0 Test1 5:30 10.05.2009 3 Monday 1abc 2 Test
3 A5 1.5 Test2 5:40 15.05.2009 1.5 Tuesday 2abc 4
Tabelul 2-9.
A B C A B C
1 Nr. Date1 Temp 12 11 0.84
2 1 0.57 39.506 13 12 0.75
3 2 0.80 14 13 0.42
4 3 0.58 15 14 0.38
5 4 0.18 16 15 0.83
6 5 0.64 17 16 0.65
7 6 0.63 18 17 0.23
8 7 0.82 19 18 0.34
9 8 0.24 20 19 0.45
10 9 0.37 21 20 0.89
11 10 0.55
Observaţie:
𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 = ∑𝑛𝑛𝑖𝑖=1(𝑇𝑇𝑇𝑇 − 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇) = ∑𝑛𝑛𝑖𝑖=1 𝑇𝑇𝑇𝑇 − ∑𝑛𝑛𝑖𝑖=1 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 =
∑𝑛𝑛𝑖𝑖=1 𝑇𝑇𝑇𝑇
= 𝑛𝑛 ∙ − 𝑛𝑛 ∙ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 = 𝑛𝑛 ∙ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 − 𝑛𝑛 ∙ 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 = 0
𝑛𝑛
Noţiuni prezentate:
Adresarea absolută;
Ataşarea unui nume pentru un bloc de calcul;
Stilul de referire R1C1.
Adresarea absolută
Sunt situaţii în care este necesar să folosim în cadrul unei formule o
valoare gen parametru pe lângă variabila de facto (variabila x). Ca exemplu
ar fi funcţia densitate de probabilitate Gauss-Laplace ce depinde de
parametrii medie şi dispersie pe lângă variabila x ce se studiază. Alt
exemplu mai simplu, constă în calculul mediei ponderate ţinând cont de
creditele fiecărei discipline (valoarea creditelor ar reprezenta parametrii).
Putem matematic scrie F(p1,x) – parametrul p1 fiind constant pentru un
element din familia de funcţii astfel definită. În această situaţie pentru o
întreagă coloană de calcul x vom avea parametrii p constanţi. Aceştia pot fi
introduşi prin metoda adresării absolute.
Adresarea absolută este definită prin folosirea caracterului special
„$” ce poate precede indicatorul de coloană sau indicatorul de rând [1, 3, 6].
Astfel prin tehnica Autofill nu se va mai schimba automat indicatorul de
rând dacă am precedat rândul folosind „$”, respectiv indicatorul de coloană
dacă precedăm coloana folosind caracterul „$”.
Metoda 1
Definirea setului de date
folosind meniul.
Metoda 2
Definirea folosind
căsuţa name box.
EXERCIŢII
Noţiuni prezentate:
Mai multe despre încărcarea seriilor de date;
Generator de valori aleatoare;
Contorizarea datelor.
Exemplul 2.
Dorim să încărcăm automat 4 valori a unei serii geometrice. Iniţial
avem două valori (2 şi 6) iar destinaţie este formată din celule
neconsecutive. Vom cere ca raţia să fie automat calculată prin opţiunea
tendinţă (Trend).
Contorizarea datelor
Există mai multe funcţii care au rolul de numărare a datelor. Acestea
diferă prin caracteristicile specifice fiecăreia [1, 4].
Count(domeniu) – contorizează valorile numerice dintr-un domeniu. Data
calendaristică şi valorile text ce pot fi convertite în numere sunt
contorizate.
Counta(domeniu) – contorizează celulele care conţin informaţie. Celulele
goale nu sunt contorizate.
Countblank(domeniu) – contorizează celulele goale din domeniu (empty cells).
Countif(domeniu, criteriu) – contorizează celulele din domeniu care
îndeplinesc condiţia din criteriu. Criteriul reprezintă o condiţie simplă
de genul: „25” (egal cu valoarea 25); “>45”; “<>35” (diferit de 35);
putem căuta un anumit cuvânt de exemplu “fasconal” (în această
situaţie se contorizează doar celulele care conţin cuvântul fasconal şi
doar atât).
Sunt multe situaţiile în care celulele conţin mai multe cuvinte (de
exemplu medicaţia folosită). Apare astfel necesitatea căutării unui cuvânt
într-un şir de caractere. Pentru a căuta un cuvânt în interiorul unei celule,
EXERCIŢII
1. Folosind tehnica de încărcare automată şi plecând de la primele 2
valori, să se genereze seriile de numere prezentate în tabelul de mai
jos. Determinaţi tipul seriei şi raţia.
Tabelul 4-1.
Tabel de corespondenţă notă – calificativ
NR. NOTĂ CALIFICATIV
1 9 -10 F. BINE
2 7-8 BINE
3 5–6 SUFICIENT
4 <5 INSUFICIENT
Noţiuni prezentate:
Transformarea unei variabile numerice în formă categorială.
Funcţia if() - de un ajutor incomensurabil.
Funcţia Lookup() - dedicată conversiilor în formă categorială.
Funcţia Lookup()
Dacă avem un număr de 6 categorii deja lucrul cu funcţii if()
imbricate devine greoi. Pentru a rezolva această cerinţă s-a creat o nouă
funcţie numită Lookup().
Sintaxă: LOOKUP(valoare căutată, vector(sau set celule) ce prezintă
limitele numerice ale grupelor, [vector (sau set celule) cu atribute]) – este de
aşteptat ca tipul (linie sau coloană) şi dimensiunea vectorului sau setului de
celule ce prezintă grupele să fie identice cu tipul şi dimensiunea vectorului
sau matricei ce prezintă atributele (numele categoriilor) [1, 2, 3].
Funcţia Lookup() încadrează valoarea numerică căutată în grupa
corespunzătoare din prima coloană a vectorului (sau setul de celule) de
definiţie şi afişează atributul corespunzător grupei din coloana a doua a
vectorului de definiţie (sau setului de celule de definiţie a categoriei).
Vectorul este format dintr-o înşiruire de valori de forma:
{"E","D","C","B","A"} sau {5,8,2} de exemplu. Elementele sunt despărțite
prin virgulă şi întreg vectorul este încadrat între acolade. Se poate folosi în
loc de un vector un set de celule definit pe coloană sau rând.
Clasificarea se face după limitele în care se încadrează valoarea
studiată. Dacă valoarea căutată este mai mică decât limita minimă
menţionată atunci se întoarce mesajul de eroare #N/A. Astfel trebuie să
cunoaştem valoarea minimă. Orice grupă este definită de valoarea minimă
posibil de atins respectiv valoarea maximă ce nu poate fi atinsă. Aceasta se
explică tocmai prin faptul că grupele nu au puncte comune, neexistând
varianta de indecizie în clasificare. O valoare nu poate aparţine decât unui
singur interval. Astfel valoarea maximă neatinsă în prima grupă va fi
cuprinsă în grupa a doua ca valoare minimă de început.
Exemplu:
Dorim să realizăm o conversie a notei în calificativ după cum este
prezentat în tabelul de mai jos.
Avem 5 calificative. Considerăm că nota minimă este 1.
EXERCIŢII
7 90 1.5 19 70 2.1
20 97 1.8
8 84 1.7
21 101 1.8
9 47 1.4
22 40 1.4
10 106 1.9
23 77 2.1
11 76 1.7
Noţiuni prezentate:
Tabele Pivot
Totalizarea datelor
Filtre
Tabelele pivot sunt folosite pentru crearea unui rezumat din datele
cuprinse într-o foaie de calcul. Ca idee, putem număra datele care
îndeplinesc anumite criterii, putem calcula medii sau dispersii în general
putem măsura anumiţi indicatori statistici pentru grupele definite. Dacă
spre exemplu avem pacienţii grupaţi după localitatea de rezidenţă cât şi
după mediul urban sau rural şi dorim un raport asupra numărului de
pacienţi astfel distribuiţi, metoda cea mai avantajoasă şi rapidă constă în
utilizarea tabelelor de tip pivot.
O variantă de lucru pentru orice situaţie ce implică contorizări de date
constă în folosirea funcţiilor countif() sau countifs(), dar să determinăm de
câte ori vom lansa numărarea datelor apelând la countif() dacă avem 10
localităţi şi evident 2 medii de rezidenţă. Este clar vom folosi funcţia de 20
de ori. Pare puţin ? Putem deduce că această variantă nu este tocmai
eficientă. Sensul tehnicii tabelelor pivot este tocmai minimizarea muncii
depuse pentru rezumarea datelor din foile de calcul.
Pentru folosirea acestei metode se va selecta tabelul de lucru sau cel
puţin se va poziţiona prompterul indicator pe o celulă din interiorul
tabelului cu date (astfel Excel va selecta apoi întreg tabelul cu date). Prin
alegerea Insert + Pivot Table se deschide fereastra de setare a opţiunilor ce
definesc specificul tabelului rezumat [2, 5].
Această fereastră (figura 6-1) prezintă câmpurile deci coloanele datelor
de lucru. Suntem practic obligaţi să definim un cap de tabel în foaia de
calcul - primul rând este considerat numele coloanelor. Aceste nume sunt
folosite ca indicatoare ce definesc tabelul rezumat. Cele 4 căsuţe prezentate
în figura alăturată sunt folosite pentru definirea criteriilor de grupare cât şi
pentru calculul unei funcţiei la intersecţia fiecărui rând cu fiecare coloană.
Este necesară introducerea unui nume de coloană în căsuţa din dreapta
jos. Acesteia i se va aplica funcţia de contorizare sau calcul de medie, min,
max, deviaţia standard (definită de utilizator) etc.
Rapoarte PivotTable | 45
Cel mai simplu tabel pivot conţine
cel puţin această informaţie (celula din
dreapta jos trebuie să conţină minim o
cerinţă).
Pentru grupări după mai multe
criterii se introduc în căsuțele stânga jos,
respectiv dreapta sus coloanele ce
definesc clasificările urmărite.
Prin definirea unui filtru (celula
stânga sus) tot tabelul rezultat va fi
dependent de filtrul indicat. Astfel se
poate particulariza tot conţinutul
tabelului la doar un subset de date
pentru o singură categorie din cadrul
filtrului (de ex.: doar pacienţii cu status
ponderal normal).
Se pot defini mai multe criterii de
grupare pe rânduri sau coloane, evident
tabelul rezultat prezentând astfel forme
din ce în ce mai complexe. Pentru mai
mult de 3-4 coloane implicate, tabelul
rezumat rezultat devine greu de citit şi
urmărit.
46 | Rapoarte PivotTable
Iată mai jos un exemplu în care am modificat cerinţa de pe coloană.
În partea dreaptă este prezentat rezultatul deci tabelul rezumat.
Figura 6-2.
Aşa cum este indicat în figura 6-2, se poate defini funcţia de calcul
pentru fiecare celulă din tabelul rezumat (click pe săgeată şi alegerea
opţiunii Value Field Settings).
Rapoarte PivotTable | 47
de date create prin grupare. Crearea subunităţilor se face funcţie de
schimbarea unei valori într-o coloană sau coloane definite drept criterii de
grupare. Rezultatele sunt asemănătoare celor obţinute prin tabele pivot.
Pentru fiecare criteriu definit se va introduce un nou rând cu informaţia
calculată. Astfel prin subseturile create tabelul poate fi prezentat total sau
parţial funcţie de nivelul de grupare ales [1, 2, 5].
Coloana aleasă drept criteriu de subgrupare trebuie să fie ordonată –
aceasta deoarece în crearea grupurilor se recalculează funcţia definită
pentru fiecare schimbare a valorii celulei din coloana criteriu.
Exemplu
Dorim să aflăm numărul de persoane funcţie de starea civilă dintr-o
foaie de calcul medicală.
În prima etapă se vor ordona datele după coloana stare civilă (selecţie tabel +
Data + Sort), apoi din Data se alege Subtotal.
Vom obţine o nouă fereastră de definire
a opţiunilor din cadrul subtotalizării.
Am selectat în prima căsuţă text coloana
Stare Civilă, funcţia folosită a fost Count
iar subtotalul va fi adăugat la Starea
Civilă prin suprascrierea subtotalului
curent existent.
Informaţia adăugată poate fi înserată la
sfârşitul sau începutul categoriei din
cadrul coloanei criteriu.
În partea din stânga a foii de calcul apar
subgrupurile numerotate 1,2,3 (figura 6-
5). Pentru o singură coloană criteriu sunt
3 subgrupuri posibile.
48 | Rapoarte PivotTable
Cele 3 nivele
create cu subtotal.
Rapoarte PivotTable | 49
Figura 6-6. Crearea unui filtru
50 | Rapoarte PivotTable
Iată variantele de selecţie posibile pentru o coloană de tip numeric:
egalitate cu o valoare de referinţă,
diferit de o valoare anume,
mai mare ca o valoare anume,
mai mic faţă de o referinţă,
valori dintr-un interval,
primele n valori (ex. 10),
valori peste sau sub medie (poate fi realizat ca valori peste /sub un
prag),
posibilitatea de personalizare scriind o expresie logică.
EXERCIŢII
Figura 6-8.
Rapoarte PivotTable | 51
Observaţie:
Pentru ultima întrebare veţi folosi
la definirea funcţiei de calcul
Value Field Settings opţiunea de
calcul a procentului pe rând aşa
cum este prezentat în figura
alăturată.
Figura 6-9.
Figura 6-10.
52 | Rapoarte PivotTable
d. Determinaţi distribuţia datelor după diagnosticul al doilea prin
metodele cunoscute (frecvenţă).
Figura 8-11.
Rapoarte PivotTable | 53
7 REPREZENTAREA GRAFICĂ A DATELOR
Noţiuni prezentate:
Prezentare generală;
Tipuri de grafice;
Crearea şi editarea graficelor.
Grafice bară
Graficele de tip bară evidenţiază comparaţii între elemente individuale.
Valoare maxima
Nr. cazuri parametru Frecventa relativa
12 9.5 9.2%
23 12.3 17.7%
31 10.5 23.8%
8 8.4 6.2%
2 7.1 1.5%
EXERCIŢII
Noţiuni prezentate:
Reprezentarea grafică a funcţiilor utilizând grafice de tip SCATTER;
Reprezentarea grafică a funcţiilor utilizând grafice de tip SURFACE;
Exemplul 1.
Să se reprezinte grafic funcţia 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 − 2𝑥𝑥 + 1 pentru valori ale
lui x∈[-0.2, 1.2].
66 | Reprezentarea grafică a funcţiilor sub formă analitică
Rezolvare:
Etapele realizării acestui grafic:
1. Alegem domeniul de definiţie al funcţiei intervalul [-0.2, 1.6]
2. Folosind comanda Auto Fill generaţi o serie de valori de la -0.2
până la 1.6 cu pasul 0.1 (diviziune echidistantă).
3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi
valorile funcţiei pentru fiecare punct al intervalului.
4. Din meniul Insert selectaţi Charts
5. Selectaţi tipul de grafic XY (Scatter).
6. Daca doriţi să mai adăugaţi şi anumite comentarii la grafic sau să
faceţi modificări asupra legendei graficului sau alte modificări
de natură explicativă puteţi realiza toate aceste modificări în
urma realizării graficului.
Recomandări:
În celulele A2:A16 se introduc valorile lui x, iar celula B2 se
introduce expresia matematică a funcţiei:
𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 − 2𝑥𝑥 + 1→ = 𝐴𝐴2 ∗ 𝐴𝐴2 − 2 ∗ 𝐴𝐴2 + 1
Valorile argumentului funcţiei va fi o progresie aritmetică având
primul termen -0.2 şi raţia de 0.1.
Se selectează zona B2:B16, apoi se selectează Charts din sub-meniul
Insert ce permite afişarea ferestrei Insert Charts necesară pentru selectarea
tipului de grafic dorit. Pentru acest exemplu se alege graficul de tip X Y
(Scatter) prezentat în figura de mai jos.
Acest tip de grafic se poate utiliza şi în cazul în care trebuie să se
afişeze conectarea punctelor corespunzătoare datelor. Această conectare se
realizează prin puncte cu linii fine şi prin puncte cu linii fine şi marcaje. Prin
trasarea liniei se ataşează graficului o curbă care leagă punctele de date.
Liniile pot fi afişate cu sau fără marcaje. Ca şi recomandare, se propune
utilizarea unei linii netede fără marcatori dacă există multe puncte de date.
Rezolvare
Etapele realizării acestui grafic:
1. Alegem domeniul de definiţie al funcţiei intervalul [-0.4, 7.4]
2. Folosind comanda Auto Fill se va genera o serie de valori de
la -0.4 până la 7.4 cu pasul 0.2 (diviziune echidistantă).
3. Folosind operatori aritmetici şi comanda Auto Fill calculaţi
valorile funcţiei pentru fiecare punct al intervalului.
4. Din meniul Insert selectaţi Charts
5. Selectaţi tipul de grafic XY (Scatter).
Recomandări:
În celulele A23:A62 se introduc 40 valori pentru x, iar celula B23 se
introduce expresia matematică a funcţiei:
𝑓𝑓(𝑥𝑥) = 𝑥𝑥 𝑠𝑠𝑠𝑠𝑠𝑠 2𝑥𝑥 − 1 → = 𝐴𝐴23 ∗ sin(2 ∗ 𝐴𝐴23) − 1.
Valorile argumentului funcţiei va fi o progresie aritmetică având
primul termen -0.4 şi raţia de 0.2. Pentru calculul valorilor funcţiei (B23:B62)
corespunzătoare valorilor x din celulele A23:A62, se foloseşte tehnica
AutoFill prin completarea celulelor cu date deduse din informaţia conţinută
în celula sursă (celula B23 → = 𝐴𝐴23 ∗ 𝑠𝑠𝑠𝑠𝑠𝑠(2 ∗ 𝐴𝐴23) − 1).
Se selectează zona B23:B62, apoi se selectează tipul de grafic dorit.
Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura
de mai jos.
Recomandări:
Se va calcula iniţial media aritmetică a seriei generate (µ) şi deviaţia
standard (σ).
În celulele A2:A31 se introduc 30 valori pentru x, iar celula E3 şi E4
se vor calcula valorile mediei (µ→utilizând funcţia AVERAGE) şi a deviaţiei
standard (σ→utilizând funcţia STDEV).
Pentru calculul valorilor funcţiei (B2:B31) corespunzătoare valorilor
x din celulele A2:A31, se foloseşte tehnica AutoFill prin completarea
celulelor cu date deduse din informaţia conţinută în celula sursă:
(celula B2→f(x)=1/(E$3*SQRT(2*PI()))*EXP(-POWER((A5-E$2),2)/2*POWER(E$3,2)).
Se selectează zona B2:B31, apoi se selectează tipul de grafic dorit.
Pentru acest exemplu se alege graficul de tip XY (Scatter) prezentat în figura
următoare.
𝑒𝑒 −2𝑥𝑥
a. 𝑓𝑓(𝑥𝑥) = 𝑥𝑥 2 +1 + 3𝑥𝑥 − 𝑥𝑥 2
Noţiuni prezentate:
Experiență. Probă. Eveniment
Evenimente compatibile. Evenimente incompatibile
Evenimente dependente. Evenimente independente (I)
Operații cu evenimente
Exemple:
1. Extragerea unei bile albe dintr-o urnă care conține numai bile albe
este un eveniment sigur.
2. La aruncarea unui zar, evenimentul care constă în apariția oricărei
fețe, de la 1 la 6 , constituie evenimentul sigur.
3. Evenimentul constând în apariția unui număr de 7 puncte la o probă
a aruncării unui zar este un eveniment imposibil.
Operații cu evenimente
Notațiile folosite în operațiile cu evenimente sunt cele cunoscute din
teoria mulțimilor. Mulțimile vor fi evenimentele aleatoare și vor fi notate cu:
A , B , C , …. .
Fie Ω evenimentul sigur și Φ evenimentul imposibil. Acestea
corespund mulțimii totale considerate și respectiv, mulțimii vide.
Definiție. Se spune că evenimentul A implică evenimentul B , dacă
realizarea lui A atrage după sine realizarea lui B . Notația folosită: A ⊂ B .
Observație. Implicația evenimentelor este echivalentă cu incluziunea
mulțimilor.
Exemplul 2.
Să se demonstreze echivalența următoarelor relații:
A⊂ B, B ⊂ A, A∪ B = B , A∩ B = A.
Se va arăta că dacă una din cele patru relații este satisfăcută, atunci şi
celelalte trei sunt adevărate.
Soluție. Fie A ⊂ B este adevărată. Această înseamnă că dacă A se
realizează, atunci se realizează și B .
Relația B ⊂ A arată că dacă nu s-a produs B , atunci nu s-a produs
nici A , ceea ce este adevărat; daca nu ar fi valabilă această afirmație, ar fi
contrazisă relația A ⊂ B .
Pentru a arăta că A ∪ B = B (dacă A ⊂ B ) este suficient să se arate că:
A∪ B ⊂ B , (3)
deoarece relația B ⊂ A ∪ B este evidentă, ea însemnând că dacă se
realizează B , atunci se realizează unul din evenimentele A , B .
Exemplul 3.
Relațiile următoare sunt echivalente: A ∩ B = Φ , A ⊂ B , B ⊂ A .
Soluție. Presupunem că A ∩ B = Φ , adică evenimentele A și B sunt
incompatibile. Rezultă aşadar, că dacă A se realizează, atunci B nu se
realizează, deci se realizează B , adică A ⊂ B .
Invers, dacă A ⊂ B , atunci dacă evenimentul A are loc, se
realizează în mod cert şi B , cu alte cuvinte B nu se realizează. Aceasta
înseamnă că evenimentele A și B sunt incompatibile, deci A ∩ B = Φ .
Am arătat că primele două relații din enunț sunt echivalente.
Echivalenţa primei relaţii cu cea de-a treia relație rezultă acum imediat din
simetria relației A ∩ B = Φ .
Noţiuni prezentate:
Definiția clasică a probabilității. Proprietăți.
Regula adunării probabilităților evenimentelor incompatibile.
Probabilitatea evenimentelor contrare (complementare).
Sistem complet de evenimente.
Evenimente independente și dependente (II).
Probabilitate condiționată. Teorema înmulțirii probabilităților
evenimentelor independente și dependente.
P( A1 ∪ A2 ∪ 2 ∪ An ) = P( A1 ) + P( A2 ) + 2 + P( An ) .
𝑎𝑎(𝑎𝑎 − 1)(𝑎𝑎 − 2)
𝑝𝑝 =
𝑁𝑁(𝑁𝑁 − 1)(𝑁𝑁 − 2)
Întrebând la întâmplare, un elev din prima clasă și unul din clasa 𝐵𝐵,
avem: 10 ∙ 15 + 5 ∙ 10 = 200 combinații în care elevul din prima clasă este
mai bun și 5 ∙ 10 + 5 ∙ 5 = 75 combinații în care elevul din a doua clasă este
1
mai bun. Probabilitatea ca un elev să fie dintr-o clasă sau alta este .
2
Probabilitatea ca clasa 𝐴𝐴 să fie prima este:
1
∙ 200 8
𝑃𝑃 = 2 =
1 1
∙ 200 + 2 ∙ 75 11
2
1 1
𝑛𝑛3 (𝑛𝑛1 + 𝑛𝑛2 ) +
𝑛𝑛1 𝑛𝑛3
= =
𝑛𝑛3 (𝑛𝑛1 + 𝑛𝑛2 ) + 𝑛𝑛1 𝑛𝑛2 1 1 1
+ +
𝑛𝑛1 𝑛𝑛2 𝑛𝑛3
Observație. Menţionăm câteva cazuri particulare:
2
a) Dacă 𝑛𝑛1 = 𝑛𝑛2 = 𝑛𝑛3 , atunci probabilitatea 𝑃𝑃 = .
3
5
b) Dacă 𝑛𝑛1 = 2𝑛𝑛2 = 4𝑛𝑛3 , atunci probabilitatea 𝑃𝑃 = .
7
7
c) Dacă 𝑛𝑛1 = 3𝑛𝑛2 = 6𝑛𝑛3 , atunci probabilitatea 𝑃𝑃 = .
10
Noţiuni prezentate:
Evenimente independente. Evenimente independente în totalitatea lor
(III).
Teorema adunării probabilităților evenimentelor compatibile.
Formula probabilității totale.
Soluție:
p
Probabilitatea naşterii unui băiat va fi: P ( A) = .
n
2. Într-o urnă avem 5 bile albe şi 6 bile negre. Din cele 5 albe două sunt
numerotate cu 1 şi restul de trei cu 2 . Din cele 6 bile negre două sunt
numerotate cu 1 şi patru cu 2 . Se extrage la întâmplare o bilă. Dacă se
cunoaşte că bila extrasă este albă, care este probabilitatea ca ea să fie
notată cu 1 ?
Soluție:
Notăm evenimentele: A – bila este albă.
B – bila are numărul 1 .
P( A ∩ B)
Probabilitatea căutată este P ( B / A) = .
P( A)
În total avem : 5 + 6 = 11 bile (cazuri în total).
5
Probabilitatea evenimentului A este: P ( A) = .
11
2
Probabilitatea intersecţiei evenimentelor A şi B este: P ( A ∩ B ) = .
11
P ( A ∩ B ) 2 / 11 2
În final obţinem: P ( B / A) = = = .
P ( A) 5 / 11 5
Putem gândi şi astfel: Dacă s-a extras o bilă albă, înseamnă că nu poate
fi decât una din cele 5 . Dacă numărul este 1 , atunci nu sunt decât 2 cazuri
2
din cele 5 albe. Astfel, probabilitatea căutată este P = .
5
Indicație: Se va calcula P( A ∪ B ∪ C ) .
Indicație: Se va calcula P ( A ∪ B ) .
Noţiuni prezentate:
Analiza unor exemple de aplicare a Teoremei lui Bayes.
P( Di ) × P( S / Di )
P( Di / S ) = .
P( D1 ) × P( S / D1 ) + P( D2 ) × P( S / D2 ) + 2 + P( Dn ) × P( S / Dn )
Exemplul 1.
Presupunem că avem un lot format din 10000 persoane de sex
feminin, participante la un test screening pentru determinarea prezenţei
cancerului de sân. Dintre acestea, la un număr de 120 de persoane a fost
depistată şi confirmată prezenţa maladiei. Prin a doua metodă – numită
mamografie (cunoscută ca nefiind o metodă perfectă) – s-au obţinut 95 de
persoane pozitive din cele 120. Dintre femeile sănătoase, deci în număr de
9880, au avut mamografie pozitivă 880 (falşi pozitivi). Care este
probabilitatea ca o persoană la care mamografia a ieşit pozitivă să aibă într-
adevăr cancer de sân [9]?
Exemplul 3.
Să considerăm acum un exemplu ceva mai sofisticat (preluat din
„Introduction to Clinical Informatics” de Degoulet si Fieschi, Springer
Verlag, 1999):
D1 – Pacienta noastră (dintr-un spital mare) are apendicită,
D2 – Pacienta noastră are salpingita,
D3 – Pacienta noastră este în orice altă situație.
Probabilitățile a priori ar putea fi estimate și din înregistrările
spitalului. Să presupunem că în anul care a trecut, din 10000 paciente tratate
Noţiuni prezentate:
Statistică descriptivă
Calculul indicatorilor statistici
x + x 2 + ... + x n ∑x i
X = 1 = i =1
n n
a ⋅ x + a 2 ⋅ x 2 + ..... + a m ⋅ x m
∑a j =1
j ⋅ xj
X = 1 1 =
a1 + a 2 + ... + a m n
Media armonică
Se utilizează în calculul valorii medii pentru mai multe mărimi
relative (este mai potrivită decât valoarea medie simplă). Valoarea reciprocă
(inversă) a mediei armonice este media reciprocelor valorilor din lot. Pentru
şirul de valori x1, x2, x3, … , xn se notează cu MH media armonică.
Formula de calcul este:
1 1 n 1 1 n
= ⋅∑ , MH = = n
,
M H n i =1 xi 1 1 1 1
+
x1 x 2
+ ... +
xn ∑
i =1 x i
n
cu condiţia xi ≠ 0 .
Considerând frecvenţele absolute notate ai obţinem următoarea
formulă de calcul a mediei armonice ponderate:
n n
MH = n
= .
1 m aj
∑
i =1 x i
∑x
j =1 j
Media pătratică
Fie şirul de valori x1, x2, x3, …, xn. Media pătratică se notează MP şi se
calculează cu formula (radical din media pătratelor valorilor):
n
∑x
2
i
MP = i =1
= X2 .
n
Mediana
Notăm valorile unui şir cu x1, x2, x3, …, xn. Suplimentar, acest şir
trebuie să fie ordonat. Valoarea ce ocupă locul central (este independentă de
tipul de ordonare crescătoare sau descrescătoare) se numeşte mediană şi se
notează cu Me. Dacă şirul are un număr impar de valori, adică n = 2⋅k+1,
avem : Me = x k +1 = x n +1 . Dacă şirul are un număr par de valori, deci n=2⋅k,
2
Modul (dominanta)
Fie şirul format din elementele x1, x2, x3, …, xn. Valoarea xi
corespunzătoare frecvenţei celei mai mari poartă numele de mod. Repartiţia
poate avea mai multe maxime, dar de obicei doar unul este global, celelalte
fiind locale. Dacă există un singur maxim repartiţia se numeşte unimodală,
cu două maxime se va numi bimodală, iar cu mai multe maxime este
numită polimodală sau multimodală.
Valoarea centrală
Reprezintă media extremelor şirului de date studiat:
X max + X min
Xc = . Dacă valorile din şirul de date sunt grupate pe clase,
2
X clasa inf . + X clasa sup .
formula de calcul devine: Xc = .
2
Este uşor de observat că valoarea centrală este dependentă de
extreme şi nu de valorile tuturor datelor.
Indicatori de variaţie
Categoria de indicatori de dispersie (variaţie) reprezintă o evaluare
numerică a împrăştierii datelor. Variaţia luată în considerare se poate
raporta chiar la valoarea medie calculată.
Dispersia (varianţa)
Dispersia sau varianţa reprezintă o mediere a pătratelor distanţelor
faţă de valoarea medie a şirului de date. Se notează cu σ 2 sau D[x]. Are
următoarea formulă de calcul (pentru volumul n al eşantionului de valori
∑ (x − X)
n
2
mari, n>30): σ2 =
(x 1 − X ) + (x 2 − X ) + ..... + (x n − X )
2 2
=
2
i =1
i
.
n n
Dacă avem valorile x1, x2, x3, …, xn cu frecvenţele absolute a1, a2, …,
am, atunci formula de calcul devine:
∑ a ⋅ (x − X)
m
2
= ∑ f i ⋅ (xi − X ) .
i i m
σ2 = i =1 2
n i =1
Făcând apel la noțiunile de statistică observăm că numărul de valori ce
compun setul de date, are influență asupra formulelor de calcul a
indicatorilor statistici. Dacă volumul eşantionului este mai mic decât 30,
atunci se aplică o corecţie asupra numitorului formulei. În acest caz
ajustarea este în sensul că nu se împarte la n ci la n-1 (numit şi numărul
gradelor de libertate).
∑ (x − X) ∑ (x − X)
n n
2 2
i i
n n
s 2 estimat = i =1
= i =1
⋅ =s2 ⋅ .
n −1 n n −1 n −1
Analiză descriptivă (I) | 103
Abaterea pătratică medie (deviaţia standard)
Prin extragerea rădăcinii pătrate din dispersie se obţine abaterea
pătratică medie. Astfel, deviaţia standard şi indicatorii de localizare se
exprimă cu aceleaşi unităţi de măsură. Formula:
∑ (x − X)
n
2
i
D[ x] = σ = i =1
.
n
∑ n ⋅ (x − X) .
m
ai
Ţinând cont de frecvenţele absolute avem: σ =
2
i
i =1
Abaterea individuală
Reprezintă o măsură caracteristică fiecărei valori din setul de date.
Se calculează ca diferență față de valoarea medie. Se poate calcula în formă
absolută sau relativă conform formulelor:
xi − X
d i = xi − X respectiv d i % = ⋅ 100 %
X
Amplitudinea
Este definită ca diferenţa valorilor extreme ale şirului de date studiat
şi se notează cu W sau A (în majoritatea cazurilor): W = A = Xmax - Xmin .
În cazul grupării datelor pe clase se defineşte şi noţiunea de
amplitudine a clasei, notată cu wi (corespunzător clasei i). Această mărime
este egală cu diferenţa dintre valorile extreme ale clasei respective. Cu cât
este mai mică valoarea sa cu atât lotul este mai omogen.
Aspecte negative ale amplitudinii:
• depinde de eşantion, având variaţii pentru fiecare eşantion în parte,
• nu ţine seama de tipul repartiţie.
Intervalul intercuartilic
Cuartilele (întâlnit și cu numele quartile sau cvartile) împart datele în
4 clase de frecvenţe egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3
care reprezintă cuartilele. Suma frecvenţelor până la limita determinată de
Q1 este egală cu suma frecvenţelor dintre Q1 şi Q2, de asemenea egală cu
suma frecvenţelor dintre Q2 şi Q3 şi în final, egală cu suma frecvenţelor de
după Q3.
Intervalul cuartilic se defineşte ca fiind diferenţa dintre Q3 şi Q1
(ultima şi prima cuartilă). Q1 se numeşte cuartilă inferioară sau mică, Q3 se
numeşte cuartila superioară sau mare. Prin urmare, intervalul intercuartilic
va fi: Iq = Q3 – Q1.
Asimetrie (skewness)
O distribuţie este considerată simetrică, dacă de o parte şi de alta a
mediei, frecvenţele au aceleaşi valori. Pentru a obţine o măsură a asimetriei,
statisticianul englez Karl Pearson a definit în primă etapă indicatorul relativ
de asimetrie (acest indicator este adimensional, fiind astfel util pentru a
µ − Mo
compara distribuţiile între ele): Sk = . Formula actuală de calcul (de
σ
estimare deoarece lucrăm cu un eşantion din întreaga populaţie) este:
3
n
xi − X
∑
i =1 s
Sk = pentru n mare, respectiv
n
3
n n
x −X
Sk = ⋅ ∑ i , pentru n de valori mici (s este deviația
(n − 1) ⋅ (n − 2) i =1 s
standard a eşantionului).
Cazuri posibile:
1. Dacă Sk>0, avem asimetrie pozitivă sau asimetrie la dreapta,
X > Mo .
2. Dacă Sk<0, avem asimetrie negativă sau asimetrie la stânga, X < Mo
3. Dacă Sk=0, avem simetrie (distribuţia normală are asimetria 0).
∑ (x − X)
n
4
µ4 i
formula: γ 2 = β 2 − 3 = − 3 , echivalentă cu: γ 2 = i =1
− 3 (pentru
σ4 n ⋅ s4
eşantion de volum mare). La valori mici ale volumului lotului pentru
estimare se foloseşte formula:
4
n ⋅ (n + 1) n
x −X 3 ⋅ (n − 1) 2
γ2 = ⋅ ∑ i − .
(n − 1) ⋅ (n − 2) ⋅ (n − 3) i =1 s (n − 2) ⋅ (n − 3)
Avem următoarele modalităţi de caracterizare a distribuţiilor:
Mezocurtică β2 = 3 , γ 2 = 0.
Leptocurtică β2 > 3 , γ 2 > 0 .
Platicurtică β2 < 3 , γ 2 < 0 .
∑x
1
i =1 i
MP = = x2
n
7. Mediana Median() Valoarea de mijloc a şirului ordonat
8. Valoarea modală Mode() sau Valoarea de frecvenţă maximă
(modul) Mode.sngl()
9. Dispersia Varp() sau m
∑
n
Sk = ⋅
(n − 1) ⋅ (n − 2) s
i =1
16. Boltirea Kurt() n ⋅ ( n + 1)
γ2 = ⋅
(n − 1) ⋅ (n − 2) ⋅ (n − 3)
n 4
xi − x 3 ⋅ (n − 1) 2
⋅ ∑
i =1
s
−
(n − 2) ⋅ (n − 3)
EXERCIŢII
Fișierul Excel de lucru conține coloanele de date numerice de tip
continuu: inaltime, IMC, greutate. Datele de tip categorial sunt: mediu
rezidenta, stare civila, ocupatie.
1. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie indicatorii
statistici prezentaţi folosind formulele de calcul şi apoi folosind
opţiunea Descriptive Statistics.
2. Aranjaţi în ordine crescătoare valorile mediilor calculate:
MH ,MG, X,MP .
3. Calculaţi pentru coloanele Înălţime, IMC, Greutate, Talie media
persoanelor din mediul rural, apoi din mediul rural şi căsătorite apoi
din mediul urban, căsătorite şi pensionate folosind averageifs().
Observaţii:
În calculul mediei geometrice (versiunea Excel 2003) se poate atinge
uşor valoarea maximă admisă pentru tipul numeric. Astfel dacă dorim să
înmulţim 200 de numere ce reprezintă înălţimea persoanelor în centimetri
se va obţine un mesaj de eroare.
GEOMEAN = exp(average(ln(X1)+ln(X2)+ln(X3)+...+ln(Xn))).
Noţiuni prezentate:
Statistică descriptivă
Distribuţia de frecvenţă, realizarea histogramei ,
Curba Gauss-Laplace.
Distribuţia Gauss-Laplace
Este utilizată pentru descrierea densității de probabilitate a unei variabile
aleatoare de tip continuu. Este caracterizată de centrarea datelor în jurul
mediei (ce coincide cu mediana şi cu valoarea modală) [9, 11, 12, 13].
− ( x − µ )2
1
Formula densităţii de probabilitate: f ( x) = ⋅e 2⋅σ 2
, pentru
σ ⋅ 2 ⋅π
x ∈ (− ∞ , + ∞ ) .
Observaţie
Dacă cunoaştem media şi dispersia unei repartiţii normale notate µ1
respectiv σ1 şi dorim să determinăm probabilitatea pe un subinterval [a,b],
atunci vom folosi diferenţa probabilităţilor: NORMDIST(b, µ1, σ1,1)-
NORMDIST(a, µ1, σ1,1).
Mai jos este un exemplu prezentat grafic.
−∞ σ ⋅ 2 ⋅ π −∞ astfel se calculează
Funcţia de repartiţie probabilitatea deci suprafaţa
densităţii de repartiţie
(cumulativ).
−z2
1
f ( z) = ⋅e 2
Pentru µ=0 şi σ=1:
2 ⋅π NORMDIST(z, 0, 1,0) sau
Densitatea de probabilitate – repartiţie normala NORM.S.DIST(z, 0)
redusă sau standardizată.
z − x2
1 Pentru µ=0 şi σ=1:
F ( z) = ∫
−∞ 2 ⋅π
⋅e 2
dx NORMDIST(z, 0, 1,1)
Dar există şi funcţiile dedicate:
Funcţia de probabilitate – repartiţie redusă sau NORMSDIST(z) sau
NORM.S.DIST(z, 1)
standardizată.
NORMINV(probabilitate, µ, σ),
x = Inv( F ( x)) = g ( prob.cuµulata, µ , σ ) sau
Calculul inversei deci determinarea abscisei NORM.INV(probabilitate, µ, σ)
corespunzătoare. Este vorba despre
probabilitatea cumulată.
z = Inv( F ( z )) = g ( prob.cumulata ) NORMSINV(probabilitate) sau
Calculăm abscisa corespunzătoare unei distribuţii NORM.S.INV(probabilitate)
reduse (standardizate). Este inversa funcţiei de Este acelaşi lucru cu:
repartiţie. NORMINV(probabilitate, 0,1)
=NORMDIST(B7,B1,B2,1)
EXERCIŢII
Fișierul Excel conține coloanele de lucru: Vârstă, Înălţime, Greutate,
IMC, Talia.
1. Realizaţi tabelul cu distribuţia de frecvenţă şi reprezentaţi grafic
histograma pentru frecvenţele absolute dar şi cumulate pentru
coloanele Vârstă, Înălţime, Greutate, IMC, Talia. Pentru vârstă veţi
alege dimensiunea intervalul pentru crearea claselor de 5 ani, pentru
înălţime de 4 cm, pentru greutate 5 kg, pentru IMC 2.5 Kg/m2,
pentru talie 4 cm.
2. Care este probabilitatea de a avea o persoană cu IMC-ul peste
30Kg/m2 ? (veţi calcula mai întâi media si deviaţia standard apoi
veţi aproxima distribuţia cu forma normală , Gauss-Laplace).
3. Care este probabilitatea, în ideea aproximării cu o distribuţie
normală, de a obţine conform datelor din tabel, persoane cu
înălțimea mai mică de 150 cm. Comparaţi frecvenţa relativă calculată
din eşantion cu probabilitatea obţinută prin aproximarea Gauss-
Laplace. Comentaţi rezultatele.
4. Determinaţi cu probabilitate de 0.95 simetrică faţă de medie
intervalul de grupare al datelor pentru greutate.
Noţiuni prezentate:
Intervale de încredere (confidenţă) pentru estimarea mediei.
Populaţia de studiu
Lot Medie
Distribuţia mediilor este de tip
Li 1 M1 (Gauss Laplace)
Ln 2 M2
L1 3 M3
…. …
L7 L2
45 M45
46 M46
Eşantion (lot) µ
extras ….. ….
Observaţii
1. Dacă distribuţia populaţiei este normală, atunci în mod sigur distribuţia
mediilor eşantioanelor este normală şi pentru valori mici ale volumului
eşantionului.
2. Media valorilor medii ale eşantioanelor este media populaţiei. Aceasta
arată că nu există eroare de deplasare. Matematic putem scrie:
M ( X 1 , X 2 ,... X n ) = µ .
3. Deviaţia standard a mediilor eşantioanelor este de radical din n ori mai
mică decât deviaţia standard a întregii populaţii. Avem astfel:
σX =σ , unde n reprezintă volumul eşantionului.
n
0.5
0.4 f(Z)
0.3
0.2
α/2 α/2
0.1
Intervalul de încredere
-Z1-α/2 0 Z1-α/2
-4 -2 0 2 4
Figura 15-2. Forma simetrică a intervalului
µ−X
Putem scrie în continuare − Z 1−α < < Z 1−α
2 σ/ n 2
σ σ
⇔ X − Z 1−α ⋅ < µ < X + Z 1−α ⋅ .
2 n 2 n
În concluzie, avem următoarea formulă de calcul a intervalului de
σ
confidenţă: µ = X ± Z 1−α ⋅
2 n . [10]
σ
Raportul se numeşte eroare standard.
n
∑ (x − x)
n
2
i
S= i =1
iar υ este numărul gradelor de libertate υ = n − 1 (n este
n −1
volumul eşantionului).
În Excel pentru calculul valorilor normalizate Gauss se va folosi
funcţia normsinv(probabilitate) [4, 5]. Probabilitatea este măsurată ca
suprafaţa cuprinsă între curbă şi axa XX’ de la -∞ spre +∞. Vom avea
corespondenţa Z 1−α / 2 = normsinv (1 − α / 2) .
Pentru 95% interval simetric avem α=1-0.95=0.05, deci probabilitatea
de calcul pentru Z 1−α / 2 va fi 1-α/2 egală cu 0.975. Astfel avem: Z 0.975 =
normsinv(0.975)=1.9599. Funcţia normsinv() foloseşte Gauss-iana normalizată
aşadar de medie 0, respectiv dispersie 1.
Putem folosi şi funcţia norminv(probabilitate, medie, dispersie) - ce este
forma generală inversă a unei funcţii Gauss. Vom avea astfel
norminv(0.975,0,1)=1.9599.
Metode de calcul
1. Primă metodă ar consta în implementarea funcţiilor folosind Microsoft
Excel. Practic, vom calcula pas cu pas funcţiile care determină intervalul
de confidenţă.
σ
Avem de calculat funcţiile: µ = X ± Z1−α ⋅ iar pentru eşantioane mici
2 n
∑ (x − x)
n
2
i
S
µ = x ± tυ ,1−α / 2 ⋅ , unde S = i =1
.
n n −1
Exemplu:
Iată rezultatele obţinute pentru coloana Înălţime prin cele 3 metode
prezentate.
Noţiuni prezentate:
Calculul dimensiunii (volumului) eşantionului de studiu.
Situaţie adevărată
Sistem decizional cu prag
Ipoteza H0 este adevărată Ipoteza H1 este adevărată
Nu există eroare Eroare tip II
Decizie prin test
Acceptare ipoteză
1−α β
H0
Adevărat pozitiv Fals negativ
Respingere ipoteză Eroare tip I Nu există eroare
H0 α (nivel de semnificaţie) 1 − β (puterea testului)
Acceptare H1 Fals pozitiv Adevărat negativ
d2
Ca şi în cazurile precedente, valoarea dispersiei este de multe ori
necunoscută, mai ales în studiile preliminare ale cercetării. Problema trebuie
rezolvată prin estimare din studii pilot (evident, tot cu un anumit grad de
eroare).
Dacă indicatorul de interes este proporţia, atunci formula de calcul se
p ⋅ (1 − p )
deduce în mod asemănător şi rezultă: n = 4 ⋅ Z (1−α ) + Z (1− β )( )2
⋅ . În
d2
acest caz d = p1 - p2.
Observaţie – dacă studiul este bilateral atunci vom transforma
Z (1−α ) → Z α şi Z (1− β ) → Z β
1− 1−
2 2
În calculul realizat n reprezintă volumul ambelor eşantioane. Pentru
n
situaţia în care volumele eşantioanelor sunt egale n1 = n2 = , avem
2
p1 + p 2
p= .
2
EXERCIŢII
Răspuns: 81.
n
Răspuns: n1 = n 2 = = 193 .
2
5. În cadrul unei cercetări se doreşte studiul eficienţei unui tratament
nou, prin comparaţie cu subiecţii trataţi prin efect placebo.
Presupunem că efectul este măsurat şi se doreşte o scădere a
parametrului medical cu 4 unităţi (d=4). Se consideră eşantioane
n
egale în volum n1 = n 2 = . Se va aplica un nivel de semnificaţie
2
α=0.05 bilateral, iar puterea testului va fi 1-β=0.9. Se cunoaşte că
varianţa are valoarea aproximativă 38.
n
Răspuns: n1 = n 2 = = 50 .
2
Noţiuni prezentate:
Compararea a două seturi de date – testul t (Student)
Unul dintre obiectivele majore ale unui studiu statistic este acela de
a compara între ele seturi de valori aparţinând unor eşantioane diferite,
pentru a evidenţia diferenţele între aceste eşantioane. În acest scop se
folosesc aşa-numitele „teste de semnificaţie statistică”, sau „teste de
ipoteză” [14].
Testele de ipoteză funcţionează conform următorului principiu: se
formulează ceea ce se numeşte o „ipoteză statistică” privind
comportamentul datelor în eşantioanele analizate, şi se verifică această
ipoteză prin metode matematice, care au drept scop confirmarea sau
infirmarea ei. În condiţiile în care a fost identificată valoarea de adevăr a
ipotezei formulate pentru eşantioanele luate în studiu, marele avantaj al
testelor statistice este că această valoare de adevăr a ipotezei poate fi
generalizată pentru populaţiile din care provin eşantioanele respective, cu
condiţia ca ele să fi fost alese astfel încât să fie reprezentative pentru
populaţiile de origine.
Enunţarea unei ipoteze se poate face prin două modalităţi:
1. Ipoteza nulă: parametrii de comparat se consideră egali (de ex.:
media populaţiei 1, caracterizată de eşantionul 1, este egală cu media
populaţiei 2, caracterizată de eşantionul 2).
H0: m1 = m2
2. Ipoteza alternativă: parametrii de comparat se consideră diferiţi.
H1: m1 ≠ m2
Etapele de parcurs în verificarea unei ipoteze prin test statistic vor fi:
1. Enunţarea ipotezei;
2. Alegerea parametrului de studiu (poate să fie conţinut implicit
în enunţarea ipotezei);
3. Deducerea şi calculul formulei matematice a testului (numită şi
discriminanta statistică) dorită prin regula de decizie;
4. Acceptarea sau respingerea ipotezei, în urma comparării valorii
calculate a testului cu valori tabelate corespunzătoare tipului de
repartiţie a datelor în care se încadrează.
Exemplu:
Se foloseşte fişierul LP15.xlsx. Dorim să stabilim dacă există
diferenţe semnificative între valorile Glicemiei la momentul 0 între femei şi
bărbaţi. Analog, pentru valorile glicemiei la 3 luni şi la 6 luni, pentru a
determina dacă evoluţia pacienţilor este diferenţiată între femei şi bărbaţi.
Nu se bifează, deoarece
şirurile de valori nu au
nume diferite.
LA MOMENTUL 3 LUNI:
Se procedează similar. Testul F (Fisher) de egalitate a varianţelor
indică F=0.8820 și corespunzător P(F<=f) one-tail=0.3983>0.05, deci ipoteza
nulă este CONFIRMATĂ, VARIANŢELE SUNT EGALE.
Prin urmare, se va folosi tot testul t pentru varianţe egale, care furnizează
următoarele rezultate:
Noţiuni prezentate:
Compararea seturilor de date prin testul t corelat şi metoda
ANOVA
CAZUL II. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, dar dependente – caracterizate prin aceea că valorile
parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de
exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la
momentul 0 şi la momentul 3 luni, cele 2 determinări fiind realizate la
aceleaşi persoane):
În această situaţie se foloseşte tot testul t; în notaţiile anterioare,
diferă numai formula de calcul a lui t, folosindu-se ceea ce se numeşte testul
t corelat (t-pairs, sau t-Test: Paired Two Sample For Means):
x1 − x 2
t=
σ 12 σ 22 σ1 σ2
+ − 2r ⋅ ⋅
n1 n2 n1 n2
Testul t în această formă determină dacă valorile variabilei
urmărite la cele două momente în timp provin din populaţii cu media
aritmetică a variabilei egală [14]. Nu este necesară verificarea unor condiţii
privind varianţa parametrului în cele două populaţii.
Se selectează comanda Data / Data Analysis / t-Test: Paired Two
Sample For Means:
Se specifică şirul de celule
în care se află valorile
primei variabile (mom. 0).
Exemplu:
Pe acelaşi tabel de date ca în cazul anterior (LP15.xlsx) dorim să
stabilim dacă există diferenţe semnificative statistic între valorile glicemiei
la momentul 0, la momentul 3 luni şi la momentul 6 luni.
Se selectează comanda Data / Data Analysis / ANOVA: Single
Factor, care este cea mai simplă dintre metodele de analiză a varianţei puse
la dispoziţie de Excel:
Se specifică şirul de celule în
care se află valorile
parametrului analizat (glicemia)
care, în această situaţie, trebuie
să acopere toate cele 3 coloane
cu determinările succesive ale
parametrului (la momentul 0, la
3 luni şi la 6 luni) .
Se indică modul de grupare a
datelor – în cazul nostru pe
coloane, deoarece lucrăm cu
eşantioane perechi.
Noţiuni prezentate:
Regresie liniară şi corelaţie
P=
∑ ( x − x)( y − y) .
N
146 | Regresie. Corelaţie
care poate fi folosită ca o măsură fidelă a gradului de corelaţie între doi
parametri cantitativi.
Din punct de vedere grafic, această dependenţă proporţională între
două variabile este caracterizată printr-o dreaptă, care se numeşte „dreaptă
de regresie” şi de asemenea poate fi descrisă precis din punct de vedere
matematic.
Ecuaţia generală a dreptei de regresie [16], cu notaţiile de mai sus,
va fi:
y − y = a x ( x − x) , unde a x =
∑ ( x − x)( y − y) =
𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥,𝑦𝑦)
.
∑ ( x − x) 2 𝜎𝜎𝑥𝑥2
x − x = a y ⋅ ( y − y ) , unde a y =
∑ ( y − y)( x − x) =
𝐶𝐶𝐶𝐶𝐶𝐶(𝑥𝑥,𝑦𝑦)
.
∑ ( y − y) 2 𝜎𝜎𝑦𝑦2
Exemple:
Se specifică modul de
grupare a valorilor – în
coloane în cazul de faţă.
Regression Statistics:
- Multiple R: este coeficientul de corelaţie calculat anterior, între
Vârstă şi Glicemie;
- R Square: se mai numeşte şi Coeficient de Determinare, şi reprezintă
proporţia din variaţia variabilei Y (Glicemie) care este explicată de
influenţa liniară a variabilei X (0.0048 – foarte mic în cazul nostru);
- Adjusted R Square: reprezintă Coeficientul de Determinare corectat;
- Standard Error: eroarea medie înregistrată la predicţia valorilor
medii ale variabilei Y (Glicemie) prin ecuaţia de regresie liniară
(7.9118 – de asemeni foarte mică, dar nu pentru că modelul de
regresie este bun, ci pentru că acesta este total inadecvat).
ANOVA: Analiza de regresie conţine şi un test cu ipoteză nulă, care
afirmă că panta dreptei de regresie este egală cu 0 (deci nu există nici un fel
de corelaţie între cele 2 variabile). Pentru a se verifica testul respectiv, se
calculează statistica F=0.234971 şi nivelul său de semnificaţie p=0.63007.
Dacă p <= 0.05 înseamnă că ipoteza nulă este INFIRMATĂ, panta
dreptei de regresie este semnificativ diferită de 0, şi prin urmare există o
relaţie liniară între X şi Y. Dacă p>0.05 înseamnă că ipoteza nulă este
CONFIRMATĂ, panta dreptei de regresie este 0 şi nu există nici o relaţie
semnificativă între X şi Y – cazul de faţă, p=0.63007.
- Regression: reprezintă variaţia lui Y explicată de X (= 14.70855)
- Residual: reprezintă variaţia lui Y neexplicată de X (= 3004.671, mult
mai mare decât celălalt coeficient)
- Total: reprezintă variaţia totală a lui Y, suma între Regression şi
Residual.
- Coefficients: reprezintă coeficienţii dreptei de regresie.
Ecuaţia dreptei de regresie are forma generală y=ax+b, unde:
150
Corelatia intre Varsta si Glicemie
140
130
Glicemie
120
110
100
90
80
0 20 40 60 80
Varsta
Figura 19-7. Reprezentarea grafică tip scatter pentru valorile vârstei şi glicemie
100
80
60
40 y = 0.0339x + 124.34
20 R² = 0.0044
0
0 50 100 150
Greutate
Figura 19-11. Reprezentarea grafică a dreptei de regresie (greutate vs. glicemie)
Noţiuni prezentate:
Analiza supravieţuirii prin metoda Kaplan Meier.
EXERCIŢIU
Răspuns:
Supravieţuire de 75% avem la 6 ani.
Supravieţuire de 50% avem la 10 ani.
Supravieţuire de 25% avem la 13 ani.
Noţiuni prezentate:
elemente introductive;
deschiderea şi crearea unei baze de date;
sortarea şi filtrarea datelor.
Elemente introductive
Bazele de date Access [18] sunt fişiere care conţin obiecte de diverse tipuri
[19]:
• tabele pentru stocarea datelor;
• form-uri (ferestre) pentru editarea pe ecran a datelor din tabele;
• rapoarte pentru tipărirea datelor;
• query-uri (interogări) pentru selecţia şi combinarea datelor;
• macro-uri şi module care conţin programe scrise pentru a rezolva
diverse probleme.
Exemplu:
Vom crea un tabel care să conţină informaţii generale despre
pacienţii luaţi în evidenţa unui spital. În structura acestui tabel dorim să
introducem următoarele câmpuri:
NUME, PRENUME
DATA NASTERII
VARSTA
SEX
DOMICILIU
JUDET
LOCALITATE
CAS
ANAMNEZĂ
INALTIME
GREUTATE
BMI
GLICEMIE
COLESTEROL
SUSPECT DIABET
COLESTEROL MARIT
Figura 21-10. Stabilirea valorilor listei derulante a câmpului de tip Lookup Wizard
Figura 21-12. Vizualizarea listei derulante pentru câmpul de tip Lookup Wizard
Filtrarea înregistrărilor
Filtrarea permite afişarea doar a înregistrărilor care satisfac un
criteriu (condiţie) de filtrare.
Selectând câmpul după care se doreşte filtrarea şi apoi alegând Filter va fi
afişat dialogul cu opţiunile de filtrare. Aici sunt listate valorile distincte din
174 | Baze de date Microsoft Access. Noţiuni generale.
câmpul selectat. Prin bifarea sau
debifarea lor, realizăm filtrarea
înregistrărilor pe baza valorilor
respective.
O altă metodă de filtrare
presupune activarea comenzii Text Filters
sau Number Filters din meniul de filtrare. În
continuare, trebuie ales un operator de
tipul: Equals (egal cu), Does Not Equal
(diferit de), Less Than (mai mic decât),
Greater Than (mai mare decât), Between (în
intervalul). Se va introduce apoi
operandul, adică valoare asupra căreia
acţionează operatorul selectat (vezi figura
de mai jos).
Figura 21-24. Filtrarea înregistrărilor
comanda Save .
În mod normal, salvarea globală a fişierului care conţine întreaga
bază de date, folosind comanda generală de salvare,
EXERCIŢII
Noţiuni prezentate:
Relaţii între tabele
EXERCIŢII
Noţiuni prezentate:
Interogări (queries) SQL
Exemplu: Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut
pe 20 iunie 2000, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [DATA NASTERII] = #6/20/2000#
Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în luna
iunie 2000, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE [DATA NASTERII] BETWEEN #6/1/2000# AND
#6/30/2000#
Pentru a afişa, din tabelul PERSOANE, pacienţii care s-au născut în anul
2000, interogarea va avea sintaxa:
SELECT * FROM PERSOANE
WHERE YEAR([DATA NASTERII]) = 2000
Noţiuni prezentate:
formuri;
rapoarte
Formuri
Cu toate că tabelele prezintă în totalitate datele conţinute în baza de
date, ele sunt un mod anost şi nefinisat de afişare. Pentru un aspect
profesional al interfeţei cu utilizatorul trebuie să folosim Formuri. Acestea
pot fi proiectate după dorinţă, pot conţine texte explicative şi pot afişa doar
acele informaţii care sunt necesare. Formurile pot executa şi anumite calcule
pe baza datelor introduse.
Pentru crearea unui form, vom folosi una din opţiunile din meniul
Create, secţiunea Forms [24]. Există câteva tipuri de formulare predefinite
(Form, Split Form, Multiple Items) dar şi posibilitatea de a crea un design de
la zero pentru noul form (Form Design).
Figura 24-5. Modul de afişare a unui câmp cu valoare calculată (Expression Builder)
Rapoarte
Rapoartele sunt modalitatea prin care informaţii din baza de date
sau legate de acestea pot fi puse într-o formă potrivită pentru tipărire.
Putem alege cum să fie tipărită informaţia, ce câmpuri să facă parte din
raport, fonturi, dimensiuni, spaţiere, linii, casete, desene şi alte elemente
grafice, etc.
Rapoartele şi formurile se creează într-un mod foarte similar,
introducând controale care for afişa informaţiile dorite.
Un raport poate fi vizualizat în 3 moduri diferite:
Design View: se poate observa şi modifica structura raportului;
Print Preview: afişează raportul aşa cum va apărea după tipărire;
Layout View: mod asemănător cu Print Preview dar se pot face
modificări.
EXERCIŢII
Bibliografie | 203