Sunteți pe pagina 1din 14

Laboratorul al II-lea

Biostatistică Medicină Generală Lucrarea de laborator Nr.2

Scop: la sfârşitul laboratorului veţi şti:

Să folosiţi facilităţile pachetului Excel legate de calculul indicatorilor statistici şi a altor funcţii

Să calculaţi indicatori statistici şi alte funcţii Excel separat, la anumite categorii de pacienţi

Să folosiţi tabelele de frecvenţă pentru calculul unor indicatori statistici

1. Funcţii Excel

Programul Excel pune la dispoziţia utilizatorului un set de funcţii foarte bogat care permite realizarea foarte rapidă a unor calcule. Printre cele mai simple funcţii sunt suma, media, mediana, cuartilele, minimul, maximul, numărarea valorilor, etc. În statistică, de obicei avem de calculat astfel de funcţii pentru coloane de valori care sunt introduse într-un tabel. Deci ne vom pune problema de a calcula media sau mediana sau o altă funcţie pentru valorile cuprinse într-o coloană numerică dintr-un tabel.

1.1. Folosind date introduse de la tastatură

Dacă valorile pentru care dorim să facem calculele nu sunt deja înregistrate pe calculator, ele trebuie introduse de la tastatură. Nu se procedează aşa decât când numărul de valori este relativ mic.

Lansaţi programul EXCEL şi, după ce numerotaţi pe coloana A, de la 1 la 15, ca în figura de mai jos, introduceţi pe coloana B valorile din figură, sau unele asemănătoare (ar putea fi valorile hemoglobinei la 15 pacienţi). Aveţi grijă ca, numerotarea şi valorile propriu-zise să înceapă pe linia 2, deoarece pe linia 1 sunt scrise titlurile coloanelor, Nrcrt, şi respectiv, Hb. Aveţi de asemenea grijă, să scrieţi numerele zecimale folosind punctul zecimal, adică, de exemplu, 12.5 şi nu 12,5.

punctul zecimal, adică, de exemplu, 12.5 şi nu 12,5. Apoi, în celula B18, scrieţi textul =average(b2:b16)
punctul zecimal, adică, de exemplu, 12.5 şi nu 12,5. Apoi, în celula B18, scrieţi textul =average(b2:b16)

Apoi, în celula B18, scrieţi textul =average(b2:b16) şi apoi apăsaţi tasta Enter. Veţi constata că în celulă, apare numărul 13.69333, care este media celor 15 numere introduse. Pentru moment nu vă preocupaţi de faptul că media este înscrisă în celulă cu 5 zecimale (ceea ce este prea mult, în general trebuie să lucrăm cu una sau două zecimale), lăsaţi aşa cum a inserat programul.

Tastaţi apoi în celula A18, cuvântul Media, pentru a avea o informaţie despre ce fel de indicator este calculat în celula B18.

Pentru calculul deviaţiei standard, a minimului şi a maximului, scrieţi ca în figură, în celulele B19, B20 şi apoi în B21, textele: =stdev(b2:b16), apoi, =min(b2:b16), apoi, =max(b2:b16), de fiecare dată, apăsând

Laboratorul al II-lea

tasta Enter. Vor apare numerele 1.18229, care este deviaţia standard a seriei celor 15 valori, 11.6, care este valoarea minimă, şi 15.7, care este valoarea maximă.

În acest mod, se pot calcula mai mulţi astfel de indicatori, care în Excel se numesc funcţii (funcţii Excel), cu condiţia să le cunoaştem numele (average, stdev, min, max, etc). În secţiunea următoare veţi vedea cum se pot folosi aceste funcţii, prin alegerea lor dintr-o listă oferită de program. Totdeauna când doriţi să calculaţi repede o medie, puteţi proceda ca mai sus. Scrieţi numerele pe o coloană (sau pe o linie) şi calculaţi media cu ajutorul funcţiei Average.

1.2. Folosind date din tabele executate anterior.

Să presupunem că am înregistrat într-un tabel de pacienţi, valorile bilirubinei, pe o coloană numită BRT, şi că tabelul conţine şi multe alte coloane cu informaţii despre pacienţii respectivi. Este vorba de tabelul CIROZA.

Deschideţi tabelul cu date, folosind secvenţa File->Open, şi se alege Ciroza.xls

Căutaţi coloana care vă interesează. Aşa cum am spus mai sus, ne interesează coloana valorilor bilirubinei totale (BRT). Coloana este P şi valorile sunt înregistratede la P2 la P235. La P1, este numele coloanei.

Putem situa media sau alt calcul cu valorile de pe această coloană în orice celulă liberă. Totuşi, pentru a lucra organizat, ne vom deplasa cu ajutorul barelor de derulare sau cu ajutorul săgeţilor de pe tastatură, până în celula P237, adică sub coloana de valori, lăsând o celulă liberă(P236).

sub coloana de val ori, lăsând o celulă liberă (P236). În celula P237, scrieţi textul: =average(p2:p235)

În celula P237, scrieţi textul: =average(p2:p235) fără să vă preocupaţi de faptul că nu are loc exact în celulă. Urmăriţi de fapt textul pe care îl scrieţi în linia de stare situată imediat deasupra numelor coloanelor. Acolo este redat ceea ce aţi tastat la un moment dat. Când aţi terminat de scris, apăsaţi tasta ENTER.

Veţi constata că în locul formulei pe care aţi scris-o, apare un număr, care nu este altceva decât media valorilor de pe coloana BRT.

Dacă veţi executa un clic pe celula unde aţi calculat media, adică pe celula p237, şi veţi privi în linia de stare, deasupra numelor coloanelor, veţi constata că, deşi în celulă este scris un număr (media valorilor din coloana P), în linia de stare este scrisă formula pe care aţi aplicat-o. Dacă executaţi clic pe orice altă celulă care conţine un număr, în linia de stare apare exact ceea ce este şi în celulă. Totuşi, celulele care conţin un rezultat al unui calcul sau în general, al unei funcţii, nu respectă această regulă. În timp ce în celulă este afişat rezultatul calculului sau funcţiei, în bara de stare se afişază formula.

Pentru a continua cu exerciţiile, în celula p238, scrieţi textul: =stdev(p2:p235) după care apăsaţi tasta ENTER. Veţi constata la fel, că în celula p238, apare deviaţia standard a valorilor din coloana P. Dacă executaţi clic pe celula p238 şi urmăriţi linia de stare, veţi vedea că programul a memorat acolo formula folosită. Observaţi că deviaţia standard a valorilor bilirubinei totale este 3,59, deviaţie care, pentru media de 3,89, care se află deasupra, poate fi considerată ca indicând o împrăştiere mare a valorilor.

Laboratorul al II-lea

Laboratorul al II-lea Pentru a nu încurca formulele, precum şi pentru a lucra organizat, este indicat
Laboratorul al II-lea Pentru a nu încurca formulele, precum şi pentru a lucra organizat, este indicat

Pentru a nu încurca formulele, precum şi pentru a lucra organizat, este indicat ca lângă o formulă, într-o celulă de preferat în stânga să se scrie ce funcţie a fost aplicată.

Deci, ar fi bine să vă deplasaţi în celula O237 şi să scrieţi acolo cuvântul Media. La fel, în celula O238, scrieţi cuvintele Deviaţia Standard, fără a vă preocupa de faptul că textul nu are loc în celulă. După ce aţi terminat de scris, apăsaţi tasta ENTER, şi apoi faceţi o ajustare a coloanei O, aşa cum se vede în figura de mai sus, aşa încât textul să fie vizibil într-un mod mai estetic.

Calculaţi şi indicatorii minim, maxim, mediana, numărul de valori, astfel:

În celula p239 scrieţi formula =min(p2:p235), apoi apăsaţi tasta ENTER

În celula p240 scrieţi formula =max(p2:p235), apoi apăsaţi tasta ENTER

În celula p241 scrieţi formula =median(p2:p235), apoi apăsaţi tasta ENTER

În celula p242 scrieţi formula =count(p2:p235), apoi apăsaţi tasta ENTER

Laboratorul al II-lea

Laboratorul al II-lea În celulele corespunzătoare de pe coloana O, scrieţi numele indicatorilor, astfel ca la

În celulele corespunzătoare de pe coloana O, scrieţi numele indicatorilor, astfel ca la sfârşit să arate ca în figura de mai sus.

Programul Excel, oferă posibilitatea copierii funcţiilor, astfel că, dacă dorim să calculăm media şi la coloanele vecine, acest lucru se simplifică foarte mult. Pentru a copia formula mediei pentru coloanele din dreapta coloanei P, procedaţi astfel:

Cu ajutorul barelor de defilare, aduceţi coloana O astfel încât să fie prima din stânga. Această manevră este destinată doar scopului de a aduce în ecran coloanele pentru care dorim să calculăm media şi anume, coloanele de la Q la Y.

Executaţi clic în celula p237, apoi deplasaţi foarte fin cursorul mouse-ului în jurul colţului din dreapta jos al acestei celule. Ar trebui ca, în funcţie de poziţia lui faţă de acest colţ, să ia trei forme diferite:

lui faţă de acest colţ, să ia trei forme diferite:  cursorul săgeată , apare în

cursorul săgeată, apare în apropierea marginilor celulei active

cursorul plus, numai în apropierea colţului din dreapta jos, al celulei active.

cursorul cruce, cursorul normal, apare pe restul paginii.

cursorul cruce, cursorul normal, apare pe restul paginii. Pentru a copia formula mediei, trebuie să trageţi

Pentru a copia formula mediei, trebuie să trageţi de mouse cu butonul stâng apăsat exact în momentul în care cursorul a luat forma de plus. Trageţi la dreapta până în dreptul coloanei Y, chiar dacă în timpul operaţiei aveţi impresia că programul nu face nimic, după care eliberaţi butonul. Veţi vedea când eliberaţi butonul mouse-ului că celulele de pe linia 237, de la coloana Q la coloana Y, au în ele mediile calculate. S-au calculat astfel, mediile coloanelor de la Q la Y, adică pentru valorile următorilor parametri: bilirubina directă, bilirubina indirectă, fosfataza acidă, GGT, LAP, colesterol, TGP, TGO şi LDH.

Laboratorul al II-lea

Laboratorul al II-lea Repetaţi operaţia de mai sus, trăgând din celula P238 până în celula Y238,

Repetaţi operaţia de mai sus, trăgând din celula P238 până în celula Y238, şi aşa şi pe liniile 239 până la 242. În final, ecranul ar trebui să arate ca în figura de mai sus. Nu vă îngrijoraţi pentru apariţia eventuală pe Y240, sau în alte celule, a unor semne diez. Ele se datorează faptului că numărul care a rezultat din calcul este mare şi nu are loc în celulă. Ajustaţi coloana Y, astfel ca numărul să fie afişat corect.

coloana Y, astfel ca numărul să fie afişat corect. Până acum am inserat în diferite celule

Până acum am inserat în diferite celule funcţii EXCEL fără să ne preocupe de unde putem afla care sunt funcţiile oferite şi care este numele lor. De fapt, s-a văzut că se poate calcula o funcţie dacă ne este cunoscut numele ei: AVERAGE, MEDIAN, STDEV, etc. Dar aceste nume sunt destul de străine şi, fiind de fapt foarte multe, nu pot fi ţinute minte. Funcţiile EXCEL pot fi folosite şi apelând la o listă a lor, listă împărţită pe categorii, astfel încât să putem ajunge mai uşor la funcţia care ne interesează.

Pe lângă funcţiile pe care le-am calculat până acum, ar mai fi util să ştiţi să calculaţi cuartilele. Anume este bine ca ele să fie inserate la celulele P243 şi P244. Pentru inserarea unei funcţii EXCEL din lista de funcţii, se procedează astfel:

Se aşază cursorul pe celula P243, această celulă devenind activă. Apoi se execută secvenţa Insert Function, care deschide fereastra Paste Function (figura de ma jos, stânga).

Fereastra conţine două liste. În stânga, este lista capitolelor sau familiilor de funcţii care ţin de domenii de activitate diverse. Unul dintre capitole este Statistical. În lista din dreapta sunt listate funcţiile care ţin de statistică. Printre ele, observaţi pe locul al doilea şi funcţia Average pe care tocmai aţi folosit-o. Mai sunt funcţii matematice, financiare, logice, etc. Un capitol special este primul, al funcţiilor folosite recent (Most

Laboratorul al II-lea

Recently Used). Aici se ţine evidenţa funcţiilor care au mai fost folosite recent şi deci este mai probabil să le găsim uşor.

recent şi deci este mai probabil să le găsim uşor. Veţi continua astfel:  Veţi alege

Veţi continua astfel:

mai probabil să le găsim uşor. Veţi continua astfel:  Veţi alege în lista din stânga

Veţi alege în lista din stânga capitolul Statistical şi veţi executa un clic pe numele său

Veţi căuta în lista din dreapta funcţia QUARTILE şi veţi da un clic şi pe numele ei

Apoi veţi apăsa butonul OK al ferestrei. Efectul, este apariţia ferestrei din figura de mai sus, dreapta, în care va trebui să specificaţi ce cuartilă doriţi şi unde sunt valorile de calculat.

În caseta de dialog Array, introduceţi locul (intervalul) în care se află valorile de pe coloana care ne interesează pe noi, adică p2:p235

În caseta de dialog Quart, scrieţi care cuartilă o doriţi. În cazul nostru este cuartila Q1, deci veţi scrie 1, ca în figura de sus, din dreapta. În final, apăsaţi OK

ca în figura de sus, din dreapta. În final, apăsaţi OK Efectul este că în celula

Efectul este că în celula p243 a apărut valoarea cuartilei Q1.

Procedaţi asemănător, punând cursorul în celula p244 şi repetaţi paşii de mai sus, începând de la Insert Function, cerând de data aceasta cuartila Q3, adică atunci când ajungeţi la caseta Quart, scrieţi 3 şi nu 1. În final, scrieţi pe celulele O243 şi O244, numele funcţiilor calculate, Q1 şi Q3, sau Cuartila I şi, respectiv, Cuartila III. După ce aţi calculat în acest fel cuartilele pe coloana P, copiaţi formulele şi pe celelalte coloane, de la Q la Y, aşa cum aţi procedat şi la medie şi la ceilalţi indicatori (prin tragere).

Foaia de calcul, trebuie să arate ca în figura de mai sus.

Programul Excel nu are o funcţie specială pentru calculul coeficientului de variaţie, care este un indicator important. De aceea, calculul acestui indicator al împrăştierii trebuie făcut prin împărţirea mediei la deviaţia standard (conform formulei) şi eventual înmulţirea acestui raport cu 100, pentru a îl exprima în procente. Deci, veţi proceda astfel: în celula P245 scrieţi formula: =p238/p237*100, iar după apăsarea tastei ENTER, urmăriţi valoarea coeficientului de variaţie care este exprimat în procente, deci trebuie să fie de ordinul zecilor (uneori chiar peste 100%). În cazul nostru este 92,28, sau o valoare apropiată. Apoi trageţi spre dreapta pentru multiplicarea formulei la coloanele de la Q la Y.

Laboratorul al II-lea

2. Statistică descriptivă

Excel are o funcţie care returnează indicatorii statistici mai importanţi pentru o serie de date numerice, nu pe rând, ci toţi odată. Pentru a începe lucrul, deschideţi tabelul CIROZA, dacă nu este deschis, folosind secvenţa File->Open. Pentru a face apel la această funcţie deosebit de utilă, trebuie mai întâi să ne asigurăm de următoarele:

Să presupunem că ne interesează indicatorii statistici pentru coloana de vârste ale pacienţilor din tabel. Fixăm coloana care ne interesează, ţinând minte numele ei, precum şi care sunt celulele de început şi de sfârşit ale şirului de valori. În tabelul CIROZA, numele coloanei de vârste este evident VARSTA. datele se află pe coloana D, de la celula D2 până la celula D235. Acest lucru este bine să fie ţinut minte, pentru că funcţia pe care o vom folosi imediat, Descriptive Statistics, ne va întreba acest lucru: unde se află şirul de numere pentru care dorim indicatorii statistici. Deocamdată însă, nu folosim această funcţie ci urmărim mai întâi câteva amănunte importante:

Punem cursorul pe prima celulă a coloanei, în cazul nostru D1, şi folosind tasta săgeată jos, de pe tastatură, facem să defileze valorile din coloană, urmărind dacă datele conţinute de coloană sunt numerice şi dacă sunt plauzibile. Această operaţie este deosebit de importantă. Se întâmplă câteodată ca din eroare să apară pe coloana de vârste sau pe orice altă coloană şi informaţie eronată introdusă accidental, cum ar fi diferite texte sau numere mult prea mari, mult prea mici, etc. Chiar dacă informaţia este numerică, este bine să urmărim ce valori sunt introduse pentru a nu avea surpriza unor valori aberante. Cele mai des întâlnite valori aberante sunt zerouri, care sunt inserate uneori la pacienţii la care nu au fost disponibile valorile reale.

Observaţii. Excel scrie numerele uneori în format ştiinţific. De exemplu, numărul 0,0000000000234 este scris uneori de Excel ca 2,34E-11. Aceste valori trebuie şterse, fiind erori de introducere. Nu este cazul acum, dar dacă întâlniţi astfel de valori, le ştergeţi.

De asemeni, pot apărea din diverse motive valori aberante, de exemplu este posibil ca un pacient să aibă trecută vârsta de 223 ani, sau hemoglobina 145, în loc de 14,5, etc. Aceste valori aberante sau texte pe care le găsiţi într-un tabel, trebuie eliminate înainte de a face orice calcul, pentru a nu ajunge la rezultate false. Mai jos, aveţi o imagine care a fost falsificată pentru exemplificare. Astfel, în celula AP12, apare valoarea 1428, probabil în loc de 14.28. În celuleleAP16-AP18, apar valori de 0.00, care trebuie şi ele şterse, dacă le veţi întâlniţi.

Mai observaţi în figura de mai jos că, celulele pot apărea goale, atunci când pacientul nu a făcut analiza respectivă. De exemplu, leucocitele nu sunt înregistrate pe coloana AQ (numită L) la pacienţii de pe liniile 13, 16, 17, 18, 20. Acest lucru nu împiedică programul să facă calculele pentru restul pacienţilor. Pe coloanele AO şi AR (numite C3 = complementul C3 şi respectiv TR = trombocite) sunt chiar foarte multe locuri goale datorate faptului că pacienţii respectivi nu au făcut analiza respectivă.

că pacienţii respectivi nu au făcut analiza respectivă. Revenim la tabelul CIROZA care este acum deschis.

Revenim la tabelul CIROZA care este acum deschis. Calculele pe care le face comanda Descriptive statistics, pe care o vom folosi în continuare, impune ca valorile aberante să fie eliminate înainte de folosirea ei. De aceea, urmăriţi pe coloana VARSTA, dacă valorile sunt sau nu plauzibile. Dacă nu sunteţi siguri că unele valori sunt sau nu aberante întrebaţi cadrul didactic.

Laboratorul al II-lea

Laboratorul al II-lea Pentru a începe lucrul, procedaţi astfel: e xecutaţi secvenţa Tools->Data

Pentru a începe lucrul, procedaţi astfel: executaţi secvenţa Tools->Data Analysis->Descriptive Statistics. Va apare o fereastră pe care o vedeţi în figura de mai sus şi pe care trebuie să o completaţi cu deosebită atenţie, după cum urmează:

Scrieţi în caseta de opţiuni numită Input Range, D1:D235. Prin aceasta aţi specificat programului intervalul de celule unde se află înscrise numele coloanei şi vârstele pacienţilor, de la D1 până la D235 (D1 are înscris numele coloanei, iar de la D2 sunt vârstele)

Bifaţi caseta de validare numită Labels in First Row. Aceasta anunţă programul că de fapt, în intervalul D1:D235, prima celulă, D1 conţine numele coloanei (Label = Etichetă) şi nu vârsta primului pacient, iar vârstele pacienţilor încep de fapt de la D2 în jos

Bifaţi butonul radio numit Output Range şi scrieţi în căsuţa de dialog corespunzătoare D240. În momentul bifării butonului Output Range, veţi constata că programul schimbă automat textul introdus mai devreme în caseta Input Range, din D1:D235 în $D$1:$D$235. Acest lucru este normal şi în acest moment nu trebuie să vă preocupe. Am precizat prin D240, locul unde programul va depune rezultatele, din celula D240 spre dreapta şi în jos. Pot fi specificate şi alte celule cu condiţia să fie libere aproximativ 18 celule în jos pe coloana respectivă şi pe coloana vecină din dreapta. Practic, programul va scrie pe celulele de la D240 la D257 şi de la E240 la E257. De aceea, aceste celule trebuie să fie libere

Bifaţi butoanele de opţiune numite Summary statistics, Kth Largest şi Kth Smallest. În casetele de opţiune ale ultimelor două butoane, scrieţi 59 (ceea ce reprezintă un sfert din numărul de pacienţi). Această specificare se face atunci când dorim ca programul să calculeze cuartilele (Q1, pentru Kth Smallest şi Q3 pentru Kth Largest). Dacă nu dorim cuartilele, se poate scrie în casetele de dialog respective orice numere între 1 şi numărul total de linii ale tabelului. De exemplu, dacă vom scrie 10 în ambele, programul o să ne returneze al zecelea cel mai în vârstă pacient şi al zecelea cel mai tânăr pacient. Apoi apăsaţi butonul OK

zecelea cel mai tânăr pacient. Apoi apăsaţi butonul OK Rez ultatul este afişat pe coloanele D
zecelea cel mai tânăr pacient. Apoi apăsaţi butonul OK Rez ultatul este afişat pe coloanele D

Rezultatul este afişat pe coloanele D şi E, de la celula 240, în jos, aşa cum se vede în figura de sus, stânga, pe fond de culoare închisă. Apăsaţi pe orice celulă albă a ecranului şi veţi constata că fondul închis dispare şi celulele cu rezultate sunt ca şi restul ecranului. După ce ajustaţi coloanele, lăţindu-le astfel ca rezultatele să se vadă mai bine, găsiţi indicatorii statistici ca în figura de sus, dreapta (pe fond alb).

Valorile indicatorilor statistici, sunt afişate cu un număr foarte mare de zecimale, lucru care le face greu de citit. Se pot afişa cu un număr de zecimale mai mic, pentru a fi citite mai uşor. Pentru a afişa cu mai puţine

Laboratorul al II-lea

zecimale, mai întâi, selectaţi celulele de la e242 la e256. Apoi, din meniul principal, alegeţi opţiunea Format, apoi Cell, şi executaţi clic pe această opţiune. Feresatra care se deschide (figura de mai jos, stânga), permite setarea celulelor selectate astfel ca afişarea să se facă în mai multe formate ca număr, dată, oră, procent, fracţie, text şi altele.

ca număr, dată, oră, procent, fracţie, text şi altele. Alegeţi opţiuna Number , care se vede
ca număr, dată, oră, procent, fracţie, text şi altele. Alegeţi opţiuna Number , care se vede

Alegeţi opţiuna Number, care se vede că este marcată în figura de sus. În acest caz, programul permite şi fixarea numărului de zecimale, care pentru indicatorii statistici obţinuţi la pasul anterior, este suficient să fie 2. În cazul în care aţi dori 3 sau mai multe zecimale, puteţi să ajustaţi prin apăsări pe cele două triunghiuri care măresc sau micşorează numărul după dorinţă. La sfârşit, apăsaţi OK. Indicatorii pe care îi furnizează această funcţie sunt listaţi încă odată în figura de mai sus, dreapta, împreună cu numele lor în limba română (nu este nevoie să scrieţi numele în româneşte, sunt listate doar pentru uşurarea reţinerii lor).

Observaţi că media de vârstă este de 53,85, iar deviaţia standard este de 9,79. Acest lucru se scrie mai condensat sub forma: 53,85 ± 9,79. Mediana este 55 de ani, ceea ce înseamnă că jumătate dintre pacienţi sunt mai tineri de 55 de ani şi jumătate mai în vârstă. Quartila Q1 este 48 de ani (Smallest(59)), adică un sfert dintre pacienţi sunt sub 48 de ani şi trei sferturi au vârsta peste 48 de ani. La fel, interpretaţi quartila Q3.

Uneori, se arată tendinţa centrală a valorilor din serie şi excentricitatea distribuirii lor în jurul mediei prin precizarea medianei şi a cuartilelor sub forma: mediana [cuartila Q1; cuartila Q3], adică în cazul nostru 55 ani [48 ani; 60 ani]. Aceasta se face în special atunci când seria arată o excentricitate mare.

Între cele două cuartile, adică între 48 şi 60 de ani, se situează vârstele a jumătate dintre pacienţi. Este deci o afecţiune care afectează mai ales această grupă de vârstă. Programul returnează şi modul, care este cea mai frecventă valoare pe care o întâlneşte în seria de valori. În cazul nostru este 58. Excentricitatea de – 0,29, arată că distribuţia valorilor în jurul mediei este aproximativ simetrică. Boltirea de 0,25, arată că distribuţia este boltită jos.

De reţinut: în cazul seriilor numerice cu valori foarte multe, mai ales când numerele sunt zecimale, modul nu are o semnificaţie utilă şi nu trebuie interpretat. În cazul seriilor de volum mic, sub 10 – 15 valori, quartilele nu au o valoare informativă semnificativă şi nu se interpretează.

3. Subtotaluri

Foarte des apare necesitatea de a calcula repede diverse funcţii EXCEL dar nu folosind valorile înregistrate la toţi pacienţii ci numai pe ale acelora care îndeplinesc o condiţie. De exemplu, am putea avea nevoie să calculăm media de vârstă numai pentru pacienţii de sex masculin, sau să calculăm cea mai mare valoare a tensiunii arteriale numai la pacienţii de sex feminin, etc.

3.1. Subtotaluri pentru date introduse de la tastatură

Să presupunem că avem la dispoziţie valorile calcemiei la un număr de 30 de pacienţi, femei şi bărbaţi, aşa cum vedeţi în figura de jos, din stânga. Introduceţi datele aşa cum le vedeţi în imagine, iar pentru calculul mediei, separat la cele două sexe, vom proceda astfel:

Laboratorul al II-lea

Laboratorul al II-lea • Executaţi cli c în orice celula a tabelului pe care l- aţi
Laboratorul al II-lea • Executaţi cli c în orice celula a tabelului pe care l- aţi

Executaţi clic în orice celula a tabelului pe care l-aţi introdus de la tastatură, de exemplu, în A1

Sortaţi pacienţii după sex, cu ajutorul comenzii Data->Sort şi alegând în caseta Sort by, numele coloanei Sex

Apoi efectuaţi comanda Data->Subtotals, şi completaţi ca în figura de mai sus (dreapta sus), în prima casetă, numele coloanei Sex, în a doua, funcţia de efectuat, Average (media), iar în a treia, trebuie să rămâmă bifat numai numele coloanei Calcemia. Apoi urmăriţi să fie bifate şi opţiunile Replace current subtotals şi Summary below data, ca în figură. Apoi apăsaţi butonul OK

Veţi observa, aşa ca în figura de mai sus, dreapta jos, că pe linia 16 a apărut pe coloana B, media calcemiei la femei, iar în celula B33, media calcemiei la bărbaţi. În plus, în celula B34, este media pentru toţi pacienţii, iar la C16, C33 şi C34, sunt scrise scurte explicaţii. F Average, înseamnă media la categoria F, adică la femei, şi aşa mai departe. În mod asemănător se pot calcula orice funcţii excel, alegând adecvat numele ei în caseta în care aţi ales înainte funcţia “Average”

3.2. Subtotaluri pentru date din tabele mari

Să ne punem problema de a calcula media de vârstă a pacienţilor din tabelul CIROZA separat cea a femeilor de cea a bărbaţilor. Această sarcină se poate realiza în EXCEL cel mai simplu, astfel:

separat cea a femeilor de cea a bărbaţilor. Această sarcină se poate realiza în EXCEL cel
separat cea a femeilor de cea a bărbaţilor. Această sarcină se poate realiza în EXCEL cel

Laboratorul al II-lea

Se deschide tabelul CIROZA, dacă nu este deja deschis

Folosind secvenţa Data->Sort, se realizează sortarea pacienţilor după coloana SEX, la finalul acestei operaţii fiind listaţi întâi pacienţii de sex masculin şi apoi cei de sex feminin

Apoi, se execută secvenţa Data Subtotals, care deschide fereastra Subtotal (vezi mai sus, stânga)

În prima casetă de dialog, alegeţi SEX. În a doua casetă de dialog alegeţi Average (media). În a treia casetă de dialog, bifaţi caseta de validare VARSTA. Verificaţi să nu fie şi alte nume de coloane bifate. Apoi, apăsaţi butonul OK

Rezultatul este că au fost inserate unele linii în tabel, pe care sunt listate subtotalurile. Deoarece noi am cerut media (average) calculată după fiecare schimbare de simbol pe coloana SEX, programul va calcula media de vârstă a bărbaţilor şi respectiv a femeilor.

Prima linie este inserată după ultimul pacient de sex masculin, după linia 158, în celua D159. Acolo este inserat numărul 55 pe coloana vârsta, iar pe coloana SEX este inserat cuvântul Average. Deci, media de vârstă (rotunjită), la bărbaţi este 55 ani. Dacă veţi căuta la sfârşitul tabelului, veţi găsi încă două linii inserate, una cu media de vârstă a femeilor şi una cu media de vârstă pentru toţi pacienţii.

După cum aţi observat, programul Excel a afişat mediile de vârstă rotunjite la un număr întreg. Este greu de crezut că după împărţirea sumei vârstelor la numărul de pacienţi, s-a întâmplat să dea o medie întreagă şi la pacienţii de sex feminin, şi la cei de sex masculin, şi la toţi pacienţii. Explicaţia nu poate fi decât că programul a rotunjit mediile. Dacă este nevoie de o precizie de una sau două zecimale, procedaţi astfel:

de o precizie de una sau două zecimale, procedaţi astfe l: • Executaţi clic pe celula
de o precizie de una sau două zecimale, procedaţi astfe l: • Executaţi clic pe celula

Executaţi clic pe celula D159, unde se află media de vârstă pentru pacienţii de sex masculin (vezi figura de mai sus, stânga)

Executaţi secvenţa Format Cells

Din ferestra care apare, alegeţi din caseta de opţiune Category, opţiunea Number, iar în caseta Decimal places, optaţi pentru trei zecimale (vezi figura de mai sus, dreapta)

Apoi apăsaţi butonul OK. Media de vârstă din celula D159 are acum 3 zecimale

La fel procedaţi cu celulele D237 şi D238. La final, mediile vor fi afişate cu numărul de zecimale dorit.

Excel oferă posibilitatea de a face astfel de subtotaluri folosind nu numai o funcţie cum este media ci mai multe. Acest lucru se realizează astfel:

Deschideţi tabelul LIMFOM.XLS. Urmăriţi pe coloana H, stadiul evolutiv al afecţiunii pentru fiecare pacient în parte, iar pe coloana AC, durata supravieţuirii, în luni. Ne propunem să calculăm media duratei de supravieţuire la pacienţii care sunt în stadiul 1, separat la pacienţii din stadiul 2, la cei din stadiul 3 şi stadiul 4. În plus, vom calcula şi deviaţiile standard, şi duratele minime şi maxime de supravieţuire, pentru fiecare grup de pacienţi în parte.

Laboratorul al II-lea

Laboratorul al II-lea • Realizaţi sortarea pacienţilor după stadiul evolutiv al bolii, folosind secvenţa
Laboratorul al II-lea • Realizaţi sortarea pacienţilor după stadiul evolutiv al bolii, folosind secvenţa
Laboratorul al II-lea • Realizaţi sortarea pacienţilor după stadiul evolutiv al bolii, folosind secvenţa

Realizaţi sortarea pacienţilor după stadiul evolutiv al bolii, folosind secvenţa Data->Sort şi alegând o singură coloană de sortare, coloana STADIUEV

Apoi, cu secvenţa Data->Subtotals, cereţi programului să calculeze mediile duratei de supravieţuire, completând ca în figura din stânga. Atenţie, pentru a bifa căsuţa de opţiune din dreptul numelui DURATASUP, trebuie să căutaţi în listă cu ajutorul butoanelor triunghiulare. Verificaţi să nu fie bifat decât numele coloanei DURATASUP, nu şi alte nume de coloană. Atenţie, să rămână nebifată caseta Replace current subtotals

Pentru calculul deviaţiilor standard la cele patru categorii, repetaţi secvenţa Data->Subtotals, şi schimbaţi numai numele funcţiei: în locul funcţiei Average, alegeţi StdDev, apoi apăsaţi OK

Apoi, reluaţi aceeaşi secvenţă de două ori alegând prima dată funcţia Max, iar a doua oară funcţia Min

Acum vom urmări dacă programul a calculat şi media, şi deviaţia standard, şi minimul şi maximul, la toate cele patru grupe de pacienţi. Căutaţi la H10 H13 şi veţi găsi scrise numele funcţiilor, precedate de numărul 1 (adică au fost calculate pentru pacienţii din stadiul 1). Apoi, la AC10 – AC13, găsiţi Minimul (5 luni), Maximul (24 luni), Deviaţia standard (6,15 luni) şi Media (15,125 luni), pentru pacienţii din stadiul I.

În mod asemănător, veţi găsi la H98 H101, numele funcţiilor precedate de numărul 4 (adică au fost calculate pentru pacienţii aflaţi în stadiul 4).

fost calculate pent ru pacienţii aflaţi în stadiul 4). La H102 – H105, găsiţi din nou
fost calculate pent ru pacienţii aflaţi în stadiul 4). La H102 – H105, găsiţi din nou

La H102 – H105, găsiţi din nou numele funcţiilor precedate de cuvântul Grand (adică funcţiile au fost calculate pentru întregul lot). Rezultatele în sine sunt situate la AC98 – AC101 şi respectiv AC102 – AC105.

Deoarece programul a inserat valorile mediilor şi ale deviaţiilor standard cu multe zecimale, se poate face o

din fereastra care apare alegeţi

ajustare a numărului de zecimale folosind secvenţa Format->Cells

, Number şi apăsaţi butonul OK. Vor fi afişate toate numerele cu două zecimale.

4. Exerciţii şi chestiuni de examen

1. Calculaţi indicatorii statistici la tabelul CARDIO, la coloanele care reprezintă tensiunile: TAMAXINT, TAMININT, TAMAX2S, TAMIN2S, TAMAX3L, TAMIN3L (tensiunile sistolică şi diastolică ale pacienţilor la internare, la două săptămâni de tratament şi la 3 luni la controlul postspitalizare). Începeţi cu coloana TAMAXINT, apoi prin copiere, calculaţi şi pentru celelalte 5 coloane. Scrieţi pe o foaie de hârtie, într-un tabel, mediile, deviaţiile standard şi coeficienţii de variaţie pentru cele 6 coloane, iar într-un alt tabel, indicatorii de asimetrie.

Laboratorul al II-lea

2. Folosind funcţia Descriptive statistics, calculaţi indicatorii statistici pentru coloana numită Hb, (Tabelul

CIROZA) pe care a fost înregistrată hemoglobina pacienţilor. Pe o coală de hârtie, scrieţi în ordine, unul sub

altul, următorii indicatori: media, deviaţia standard, coeficientul de variaţie (îl calculaţi!), apoi valoarea minimă, cuartila Q1, mediana, cuartila Q3, valoarea maximă. La sfârşit, mai precizaţi excentricitatea (skewness) şi boltirea (kurtosis).

3. Folosind funcţia Descriptive statistics, calculaţi indicatorii statistici pentru coloana BRT (bilirubina

totală) şi observaţi că de data aceasta media şi mediana diferă foarte mult, iar excentricitatea este mult mai mare. Scrieţi pe o foaie de hârtie centralizarea situaţiei parametrului bilirubina totală, precizând media, deviaţia standard, coeficientul de variaţie, iar ca excentricitate, precizaţi mediana şi quartilele sub forma mediana [cuartila Q1; cuartila Q3].

4. Un număr de 22 de pacienţi au fost testaţi prin chestionarul scalei Oswestry, care urmăreşte să gradeze

incapacitatea unui pacient cauzată de durerea lombară joasă. Scorurile pot fi cuprinse între 0 şi 100, cu 0 pentru sănătos şi 100 pentru maximum de incapacitate. Cei 22 de pacienţi au obţinut următoarele scoruri: 56, 42, 48, 64, 33, 34, 22, 68, 24, 57, 48, 46, 57, 51, 40, 63, 60, 49, 59, 45, 46, 43. Calculaţi indicatorii statistici pentru seria celor 22 de scoruri obţinute de cei 22 de pacienţi.

5. Folosind subtotaluri, calculaţi mediile şi deviaţiile standard pentru tensiunea arterială sistolică la internare

(TAMAXI), la pacienţii din tabelul CARDIO, la fiecare profesie în parte.

Va trebui să sortaţi pacienţii după profesie, cu ajutorul secvenţei Data->Sort, după care executaţi de două ori secvenţa Data->Subtotals. În fereastra Subtotal, în caseta numită At each change in, veţi pune PROFESIE, în caseta Use function, veţi pune Average, iar în caseta Add subtotal to, veţi avea grijă să fie bifată numai TAMAXI. Apăsaţi OK. Apoi reluaţi, cu secvenţa Data->Subtotals având grijă să bifaţi în caseta Use function, numele funcţiei Stdev.

6. Folosind subtotaluri, realizaţi calculul mediei şi deviaţiei standard pentru latenţa medie pe ochiul stâng

(LMS) la pacienţii din tabelul MIGRENA, separat la fiecare afecţiune.

Afecţiunile sunt înregistrate pe coloana DIAG, şi sunt: MCLS (Migrenă clasică), MCOM (Migrena comună), HCEF (Hidrocefalie), PSN (Pseudo-neurastenie), SPB (Sindrom pseudo-bulbar), LC (Lacunarism cerebral) şi NORM (Normali). În acest caz, nu este nevoie să realizaţi sortarea pacienţilor, deoarece tabelul este grupat deja după afecţiuni (Coloana DIAG). Coloana nu este sortată alfabetic, însă pentru calculul subtotalurilor este nevoie numai de gruparea pe daignostice. După ce laculaţi mediile, veţi constata medii mult crescute la afecţiunea numită LC.

7. Folosind subtotaluri, calculaţi mediile şi deviaţiile standard şi la coloanele LMD (Latenţa medie pe ochiul

drept), AMS (Amplitudinea medie pe ochiul stâng) şi AMD (Amplitudinea medie pe ochiul drept) la pacienţii din tabelul MIGRENA, separat la fiecare afecţiune. Vezi ex. 6 pentru indicaţii.

8. Un studiu complex, a urmărit printre altele, să stabilească dacă scorurile obţinute pe scala IDG (Indexul de

Incapacitate Cervicală), la un lot de 105 pacienţi cu disabilităţi motorii, sunt influenţate de vârstă şi de sex. A fost alcătuit un eşantion format din 105 pacienţi, 39 femei şi 66 bărbaţi, cu diferite vârste. Repartizarea pe grupe de vârste a fost cea din tabelul de mai jos:

 

Feminin

Masculin

Total

<35 ani

8

9

17

35 - 55 ani

15

25

40

>55 ani

16

32

48

Total

39

66

105

Scorurile obţinute de pacienţi sunt listate în tabelul IDG.xls împreună cu grupa de vârstă şi sexul fiecărui individ. Calculaţi mediile scorului IDG separat la femei şi la bărbaţi. Apoi, calculaţi mediile scorului IDG la pacienţii din diferite grupe de vârstă. Pentru calculul mediilor la femei şi la bărbaţi, realizaţi întâi sortarea după sex şi apoi efectuaţi subtotaluri cerând funcţia Average. Pentru calculul mediilor scorului IDG în funcţie de vârstă, sortaţi din nou pacienţii, de data aceasta după coloana GRV, şi apoi efectuaţi subtotalurile.

Laboratorul al II-lea

9. Folosind comanda FREQ, apreciaţi dacă se distribuie simetric valorile hemoglobinei la pacienţii din tabelul CIROZA.

10. Apreciaţi dacă talia şi greutatea pacienţilor din tabelul SHR se distribuie simetric. Coloanele unde au fost

înregistrate aceste date în tabelul SHR se numesc Talie şi respectiv, Greut1. Atenţie, dacă lucraţi în EPI

INFO, va fi nevoie să realizaţi înainte citirea tabelului SHR folosind comanda READ.

11. Printre alte teste la care sunt supuşi pacienţii cu astm, pentru a realiza o imagine a abilităţilor lor motorii

este şi testul 6MWD (distanţa pe care o pot parcurge în 6 minute), iar pentru monitorizarea dispneei (greutăţii în respiraţie), scala Borg. În tabelul ASTM, pe coloana BORGI a fost înregistrat scorul Borg la 240 de pacienţi. La aceiaşi 240 de pacienţi bolnavi de astm, a fost măsurat şi scorul 6MWD pe coloana 6MWDI. Folosind comanda FREQ, stabiliţi dacă valorile celor două scoruri au o distribuţie simetrică.

12. Calculaţi folosind funcţii excel sau comanda Descriptive statistics, indicatorii statistici ai tendinţei centrale pentru coloanele BRT şi HB din tabelul CIROZA.

13. Calculaţi indicatorii de împrăştiere pentru tensiunea arterială sistolică la internare, la două săptămâni şi la

3 luni, la pacienţii din tabelul CARDIO. Coloanele se numesc TAMAXI, TAMAX2S şi TAMAX3L.

14. În tabelul ASTM, pe coloanele 6MWDI, 6MWDM, 6MWDF, sunt înregistrate pentru fiecare din cei 240

de pacienţi bolnavi de astm bronşic, distanţa parcursă în 6 minute la măsurătoarea iniţială, înainte de tratament, la măsurătoarea intermediară, la mijlocul tratamentului, precum şi la măsurătoarea finală, după efectuarea tratamentului. Aşteptările celor care au aplicat tratamentul au fost că pacienţii ar trebui să parcurgă distanţe din ce în ce mai mari, cu avansarea tratamentului. Folosind comanda MEANS, calculaţi media la cele trei coloane şi verificaţi dacă în medie, distanţa parcursă iniţial de pacienţi, creşte la măsurătoarea intermediară şi apoi, din nou la măsurătoarea finală. Apreciaţi de asemenea, dacă dispersia valorilor la măsurătoarea iniţială este în creştere sau în descreştere la măsurătorile intermediară şi finală.