Sunteți pe pagina 1din 13

Biostatistică – Cursul al III-lea

CURSUL AL III-LEA

Operaţia de sortare în tabele de date


Sortarea este operaţia prin care înregistrările unui tabel de date sunt aranjate în ordine după un
anumit criteriu
 Exemple: sortare după vârstă, după nume şi prenume, după anul naşterii, după durata de
supravieţiure, etc
 Poate fi sortare ascendentă sau sortare descendentă

În tabelele cu date medicale, de cele mai multe ori, o înregistrare conţine datele referitoare la un
pacient. Acestea sunt listate pe o linie a tabelului. De aceea, uneori, în aceste tabele, este acelaşi
lucru să spunem “înregistrare”, “linie a tabelului”, sau “pacient”.
În orice tabel, este posibil să fie sortate înregistrările după coloanele existente în acel tabel. De
exemplu, nu este posibilă sortarea înregistrărilor după afecţiune, dacă în tabel nu a fost prevăzută o
coloană pe care să fie înregistrate afecţiunile.

Sortare după un criteriu.

Tabelul de mai jos este o mică porţiune dintr-un tabel de date, din care au fost decupate numai
primele 8 coloane şi primele 16 linii.

Acest tabel, sortat după criteriul vârstei, adică după coloana „VIRSTA”, arată ca în figura de mai
jos. A fost efectuată sortarea ascendentă, adică înregistrările, sau pacienţii au fost aranjaţi după
vârstă în ordine crescătoare.
Biostatistică – Cursul al III-lea

Dacă însă, vom aranja înregstrările în ordine descrescătoare, tabelul va arăta în felul ca în tabelul de
mai jos.

Dacă vom sorta înregistrările după criteriul duratei de supravieţuire, adică după coloana
“DURSUP”, atunci tabelul va arăta în felul următor:

Sortare multicriterială

 Este sortarea în care se ţine cont de două sau mai multe criterii
 Exemplu: sortarea după nume şi prenume, sortarea după stadiul de evoluţie în cancer şi
durata supravieţuirii
 Programul sortează după primul criteriu şi, NUMAI dacă apar şi valori egale, acele
înregistrări le sortează şi după al doilea criteriu, etc.

De exemplu, acelaşi tabel de mai sus, sortat după nume şi prenume, va arăta astfel:
Biostatistică – Cursul al III-lea

Principiul de bază al sortării multicriteriale se observă în tabelul de mai jos, unde înregistrările au
fost sortate după două criterii: stadiul de evoluţie, înregistrat pe coloana numită STEV şi drata de
supravieţuire, înregistrată pe coloana DURSUP.

Se observă că programul a ordonat înregistrările după prima coloană de sortare, STEV, şi la acele
înregsitrări la care a găsit acelaşi stadiu, sunt sortate după a doua coloană, DURSUP.

Acelaşi tabel, poate fi sortat şi după trei coloane. În figura de mai jos, înregistrările sunt sortate
după sex, mediu şi vârstă, în această ordine. Deci, programul a sortat iniţial după sex, punând întâi
bărbaţii (b) şi apoi femeile (f). Bărbaţii au foat apoi sortaţi după mediu, întâi cei din rural (r) şi apoi
cei din urban (u), iar la fiecare categorie, ordonarea se face după cel de-al treilea criteriu: vârsta. La
fel, femeile sunt listate întâi cele din rural, apoi cele din urban, în ordinea vârstei.
Biostatistică – Cursul al III-lea

Sortare utilă la întocmirea tabelelor


În tabelul de mai jos, sunt listate primele 10 coloane şi primele 55 de linii ale aceluiaţi tabel de date.
Ne punem problema de a realiza câte un tabel separat, pentru fiecare tip de terapie aplicată şi pentru
fiecare tip de răspuns terapeutic. Datele despre terapie şi despre răspunsul terapeutic, sunt
înregistrate pe coloanele care se nuemsc TERAPIE şi RASPTERAP. Se observă că terapia aplicată
a fost fie CH (chemoterapie), fie CH+CO (chemoterapie şi cobaltoterapie).

Pentru realizarea tabelelor separate, se vor sorta înregstrările după terapie şi răspuns terapeutic,
rezultatul sortării find listat în tabelul de mai jos.
Biostatistică – Cursul al III-lea

Se observă că în cadrul terapiei CH (chemoterapie), sunt patru tipuri de răspuns terapeutic, şi anume
D – dispărut, RC-remisiune completă, RN-răspuns negativ şi RP-remisiune parţială. În cadrul celei
de-a doua terapii, sunt doar două tipuri de răspuns, RC şi RP.

Tabelele rezultate în urma acestei operaţii, sunt listate mai jos.


Biostatistică – Cursul al III-lea
Biostatistică – Cursul al III-lea

Operaţia de selectare în tabele de date


Informaţiile despre pacienţi sunt de cele mai multe ori păstrate în tabele de dimensiuni mari, care
pot conţine sute sau mii de pacienţi. Căutarea informaţiei referitoare la un pacient, sau a informaţiei
despre un grup de pacienţi este în aceste cazuri extrem de anevoioasă, dacă ar fi să fie făcută
manual. Programele de calculator pun la dispoziţie funcţii rapide pentru căutarea informaţiei.
Printre aceste funcţii, funcţia de selectare este una dintre cele mai puternice şi utile.

Selectarea este operaţia prin care o parte a înregistrărilor unui tabel este temporar
îndepărtată, rămânând numai înregistrările care îndeplinesc un criteriu dat.

În tabelul de mai jos, este redată o mică parte a unui tabel foarte mare, din care au fost păstrate
primele 10 coloane şi primele 54 de linii (adică primii 54 de pacienţi, sau 54 de înregistrări).
Având doar aceste informaţii, vom face câteva exerciţii, fără a uita că, în practică avem de lucru cu
tabele mult mai lungi, de sute sau mii de pacienţi şi operaţiile pe care le vom face ca exerciţiu aici,
în practică vor arăta diferit.
Biostatistică – Cursul al III-lea

Una din cele mai simple operaţii de selectare este separarea bărbaţilor şi a femeilor în două tabele
diferite, mai mici.

Pentru a face o selectare, într-un tabel trebuie întâi introduse filtre de selectare, care arată ca în
figura de mai sus. Ele sunt reprezentate grafic în Excel prin mici pătrate pe prima linie a tabelului,
pe fiecare pătrat fiind aşezat câte un triunghi cu vârful în jos (veţi exersa la laborator).

Filtru unic de selectare. După cum se vede în figura de mai sus, pe coloana sex nu este înregistrat
decât fie litera b, pentru bărbaţi, fie f, pentru femei. Prin acţionarea filtrului de pe coloana SEX, veţi
alege fie una, fie cealaltă din cele două litere (la laborator). Efectul va fi cel din figura de mai jos,
unde se observă că au fost selectate femeile.

La fel, în figura de mai jos, se observă că au fost aleşi numai pacienţii din stadiul 3, care au fost
trataţi cu chemoterapie “CH”. Alegerea pacienţilor din stadiul 3 a fost făcută prin acţionarea
butonului de pe coloana STADIUEV, iar alegerea celor trataţi cu chemoterapie a fost făcută prin
acţionarea butonului de pe coloana TERAPIE.
Biostatistică – Cursul al III-lea

Mai jos, listăm câteva alte condiţii pe care le putem cere, pentru alegerea categoriilor respective de
pacienţi:
 SEX=”f” – alege numai femeile
 MEDIU=”r” – alege numai pacienţii din mediul rural
 TERAPIE=”CH” – alege numai pacienţii trataţi cu chemoterapie
 RASPTERAP=”RC” – alege numai pacienţii cu remisiune completă (RC)
 NUME=”Streche” – alege pacientul cu numele Streche
 NUME>”Fronie” – alege pacientul cu numele Fronie

Când punem condiţii în care trebuie să alegem valori numerice, folosirea ghilimelelor din exemplele
de mai sus nu mai este necesară. Programul Microsoft Excel nu foloseşte ghilimele nici când o
condiţie alege între litere sau texte. Veţi vedea când lucraţi cu EPI INFO 2000, că folosirea
ghilimelelor este obligatorie, însă numai la alegerea de litere, ca în exemplele de mai sus. Spre
deosebire, în exemplele de mai jos, în care trebuie alese sau se fac comparări cu numere, folosirea
ghilimelelor nu este necesară
 STADIUEV=3 – alege pacienţii aflaţi în stadiul al treilea de boală
 VIRSTA<30 – alege pacienţii sub 30 de ani, exclusiv 30
 VIRSTA=50 – alege numai pacienţii cu vârsta de 30 de ani
 VIRSTA>=60 – alege pacienţii cu vârsta peste 60 de ani, inclusiv 60
 DURATASUP>=24 – alege pacienţii cu durata de supravieţuire de 24 de luni şi peste peste
24 de luni
 DURATASUP<=36 – alege pacienţii cu durata de supravieţuire de 36 de luni şi sub 36 de
luni

Două sau mai multe astfel de condiţii simple pot fi unite şi formează o condiţie dublă, sau triplă
(după caz) de selectare, aşa cum sunt exemplele următoare. După exemple, sunt listate şi rezultatele
aplicării filtrului pe tabelul de mai sus.
1. SEX=”f” AND MEDIU =”u” – selectează pacientele femei din mediul urban
2. SEX=”b” AND RASPTERAP=”RC” – selectează bărbaţii care au ca şi răspuns terapeutic
remisiunea completă
Biostatistică – Cursul al III-lea

3. STADIUEV=4 AND DURATASUP>24 – selectează pacienţii din stadiul 4 cu durata de


supravieţuire peste 24 de luni
4. STADIUEV=4 AND RASPTERAP=”RC” – selectează pacienţii din stadiul 4 şi cu
raspunsul terapeutic remisiune completă
5. VARSTA<35 AND DURATASUP<24 – selectează pacienţii sub 35 de ani şi cu durata de
supravieţuire sub 24 de luni
6. VARSTA<40 AND STADIUEV=2 AND DURATASUP>24 – selectează pacienţii sub 40
de ani, în stadiul al doiea şi cu durata de suprevieţuire peste 24 de luni
7. SEX=”b” AND DURATASUP>=24 AND RASPTERAP=”RP” – selectează bărbaţii cu
durata de supravieţuire mai mare sau egală cu 24 de luni şi cu răspounsul terapeutic
remisiune parţială
8. SEX=”f” AND DURATASUP<=24 AND RASPTERAP=”RC” – selectează femeile cu
durata de supravieţuire de 24 şi sub 24 de luni, cu remisiune completă

Rezultatul aplicării selecţiei 1

Rezultatul aplicării selecţiei 3

Rezultatul aplicării selecţiei 4

Rezultatul aplicării selecţiei 5 – o singură pacientă

Rezultatul aplicării selecţiei 6 – o singură pacientă


Biostatistică – Cursul al III-lea

Rezultatul aplicării selecţiei 7 – nici un pacient nu a îndeplinit criterriile cerute

Rezultatul aplicării selecţiei 8

Condiţii multiple formate cu “OR”

Condiţiile simple pot fi unite şi cu ajutorul conectorului OR (=SAU). O înregsitrare este păstrată în
tabel dacă îndeplineşte fie una din condiţii, fie cealaltă condiţie, fie pe amândouă. În aceste cazuri,
urmărirea rezultatului unei selecţii poate deveni mai greu de urmărit.

Exemple:
1. STADIUEV=4 OR DURATASUP>24 – selecteză pacienţii care, fie sunt în stadiul 4, fie au
supravieţuiri peste 24 de luni. Elimină acei pacienţi care nu îndeplinesc nici una din condiţii,
adică elimină pacienţii din stadiile 1, sau 2, sau 3, precum şi toţi pacienţii cu durate de
supravieţuire sub 24 de luni
2. STADIUEV=4 OR RASPTERAP=”RC” – selecteză pacienţii care, fie sunt în stadiul 4, fie
au răspunsul terapeutic remisiune completă. Elimină acei pacienţi care nu îndeplinesc nici
una din condiţii, adică elimină pacienţii din stadiile 1, sau 2, sau 3, precum şi toţi pacienţii
cu alte răspunsuri terapeutice
3. VIRSTA<35 OR DURATASUP<24 – selectează pacienţii care au fie vârsta sub 35 de ani,
fie durata de supravieţuire sub 24 de luni. Elimină pacienţii care au 35 de ani sau mai mult,
precum şi pacienţii care au supravieţuire de 24 de luni sau mai mare

Rezultatul obţinut prin aplicarea condiţiei 1 de mai sus, la tabelul din pagina 1
Biostatistică – Cursul al III-lea

Rezultatul obţinut prin aplicarea condiţiei 2 de mai sus, la tabelul din pagina 1

Rezultatul obţinut prin aplicarea condiţiei 3 de mai sus, la tabelul din pagina 1
Biostatistică – Cursul al III-lea

Condiţii care se contrazic

Uneori, putem pune condiţii care au ca rezultat un tabel fără pacienţi. Acest fapt se întâmplă ori de
câte ori, în tabelul în care facem selecţia, nu este nicio înregistare care să îndeplinească condiţiile
cerute. Ca exemplu, aţi văzut condiţia simplă nr.7, de mai sus, care a avut ca efect obţinerea unui
tabel cu nicio înregstrare.

Alteori, condiţiile pe care le punem sunt în contradicţie una cu alta şi în mod logic nicio înregistrare
nu le va îndeplini. Tabelul rezultat după selecţie va fi un tabel fără înregsitrări. De data aceasta însă,
nu din cauză că nu există înregsitrări care să îndeplinească condiţiile ci pentru că nici nu ar putea
exista înregsitrări care să le îndeplinească.

Exemple:
 VIRSTA<30 AND VIRSTA>50 – niciun pacient nu pate avea şi vârsta sub 30 de ani ŞI
vârsta peste 50 de ani
 SEX=”f” AND SEX=”b” – niciun pacient nu poate fi şi femeie şi bărbat
 RASPTERAP=”RC” AND RASPTERAP=”RP” – niciun pacient nu poate avea şi remisiune
parţială şi remisiune completă.

3. Chestiuni de examen:
1. Ce este sortarea?
2. Ce este selectarea sau filtrarea?

S-ar putea să vă placă și