Sunteți pe pagina 1din 9

EXTRAGEREA DE INFORMAŢII DIN

6 TABELE DE DATE

Noţiuni prezentate:
 Tabele Pivot
 Totalizarea datelor
 Filtre

Tabelele pivot sunt folosite pentru crearea unui rezumat din datele
cuprinse într-o foaie de calcul. Ca idee, putem număra datele care îndeplinesc
anumite criterii, putem calcula medii sau dispersii în general putem măsura
anumiţi indicatori statistici pentru grupele definite. Dacă spre exemplu avem
pacienţii grupaţi după localitatea de rezidenţă cât şi după mediul urban sau
rural şi dorim un raport asupra numărului de pacienţi astfel distribuiţi,
metoda cea mai avantajoasă şi rapidă constă în utilizarea tabelelor de tip
pivot.
O variantă de lucru pentru orice situaţie ce implică contorizări de date
constă în folosirea funcţiilor countif() sau countifs(), dar să determinăm de câte
ori vom lansa numărarea datelor apelând la countif() dacă avem 10 localităţi
şi evident 2 medii de rezidenţă. Este clar vom folosi funcţia de 20 de ori. Pare
puţin ? Putem deduce că această variantă nu este tocmai eficientă. Sensul
tehnicii tabelelor pivot este tocmai minimizarea muncii depuse pentru
rezumarea datelor din foile de calcul.
Pentru folosirea acestei metode se va selecta tabelul de lucru sau cel puţin
se va poziţiona prompterul indicator pe o celulă din interiorul tabelului cu
date (astfel Excel va selecta apoi întreg tabelul cu date). Prin alegerea Insert +
Pivot Table se deschide fereastra de setare a opţiunilor ce definesc specificul
tabelului rezumat [2, i].
Această fereastră (figura 6-1) prezintă câmpurile deci coloanele datelor de
lucru. Suntem practic obligaţi să definim un cap de tabel în foaia de calcul -
primul rând este considerat numele coloanelor. Aceste nume sunt folosite ca
indicatoare ce definesc tabelul rezumat. Cele 4 căsuţe prezentate în figura
alăturată sunt folosite pentru definirea criteriilor de grupare cât şi pentru
calculul unei funcţiei la intersecţia fiecărui rând cu fiecare coloană.
Este necesară introducerea unui nume de coloană în căsuţa din dreapta
jos. Acesteia i se va aplica funcţia de contorizare sau calcul de medie, min,
max, deviaţia standard (definită de utilizator) etc.

Bibliografie | 1
Cel mai simplu tabel pivot conţine
cel puţin această informaţie (celula din
dreapta jos trebuie să conţină minim o
cerinţă).
Pentru grupări după mai multe
criterii se introduc în căsuțele stânga jos,
respectiv dreapta sus coloanele ce
definesc clasificările urmărite.
Prin definirea unui filtru (celula
stânga sus) tot tabelul rezultat va fi
dependent de filtrul indicat. Astfel se
poate particulariza tot conţinutul
tabelului la doar un subset de date
pentru o singură categorie din cadrul
filtrului (de ex.: doar pacienţii cu status
ponderal normal).
Se pot defini mai multe criterii de
grupare pe rânduri sau coloane, evident
tabelul rezultat prezentând astfel forme
din ce în ce mai complexe. Pentru mai
mult de 3-4 coloane implicate, tabelul
rezumat rezultat devine greu de citit şi
urmărit.

Figura 6-1. Definirea tabelului pivot

Pentru exemplul prezentat în figura de mai sus s-a obţinut tabelul


rezumat următor. Practic am ales ca pe rânduri să fie prezentată starea civilă
şi corespunzător să se calculeze numărul de persoane.

Tabelul 6-1. Tabelul rezultat


Count of StareCivila Column Labels
Row Labels F M Grand Total
căsătorit 82 43 125
concubin 3 1 4
divorţat 2 2 4
necăsătorit 40 26 66
văduv 19 2 21
Grand Total 146 74 220

2 | Bibliografie
Iată mai jos un exemplu în care am modificat cerinţa de pe coloană. În
partea dreaptă este prezentat rezultatul deci tabelul rezumat.

Tabelul rezultat în urma definirii folosind


Săgeată indicatoare a meniului de câmpurile înserate conform figurii din stânga.
definire a funcţiei de calcul.

Săgeată indicatoare a meniului de


definire aFigura
funcţiei6-2.
de calcul.

Aşa cum este indicat în figura 6-2, se poate defini funcţia de calcul
pentru fiecare celulă din tabelul rezumat (click pe săgeată şi alegerea opţiunii
Value Field Settings).

Funcţiile posibile utilizate sunt:


sumă, contorizare, medie, min,
max, produs, deviaţia standard,
varianţa. Ultimele două prezintă
variantele de calcul pentru
eşantion (se împarte la n-1)
respectiv pentru populaţie.
De asemenea se pot calcula şi
procentele pe coloana, pe linie sau
pe întreg setul de date, a
proporţiilor definite prin grupare
(prin alegerea Show Values As).

Figura 6-3. Calcule posibile în tabele pivot

Totalizarea datelor este o metodă de calcul a anumitor funcţii gen


indicatori statistici (identici celor folosiţi la tabele pivot), pentru subseturile

Bibliografie | 3
de date create prin grupare. Crearea subunităţilor se face funcţie de
schimbarea unei valori într-o coloană sau coloane definite drept criterii de
grupare. Rezultatele sunt asemănătoare celor obţinute prin tabele pivot.
Pentru fiecare criteriu definit se va introduce un nou rând cu informaţia
calculată. Astfel prin subseturile create tabelul poate fi prezentat total sau
parţial funcţie de nivelul de grupare ales [1, 2, 5].
Coloana aleasă drept criteriu de subgrupare trebuie să fie ordonată –
aceasta deoarece în crearea grupurilor se recalculează funcţia definită pentru
fiecare schimbare a valorii celulei din coloana criteriu.

Exemplu
Dorim să aflăm numărul de persoane funcţie de starea civilă dintr-o
foaie de calcul medicală.
În prima etapă se vor ordona datele după coloana stare civilă (selecţie tabel +
Data + Sort), apoi din Data se alege Subtotal.
Vom obţine o nouă fereastră de definire a
opţiunilor din cadrul subtotalizării.
Am selectat în prima căsuţă text coloana
Stare Civilă, funcţia folosită a fost Count
iar subtotalul va fi adăugat la Starea
Civilă prin suprascrierea subtotalului
curent existent.
Informaţia adăugată poate fi înserată la
sfârşitul sau începutul categoriei din
cadrul coloanei criteriu.
În partea din stânga a foii de calcul apar
subgrupurile numerotate 1,2,3 (figura 6-
5). Pentru o singură coloană criteriu sunt
3 subgrupuri posibile.

Figura 6-4. Subtotal

La fiecare criteriu adăugat va apare un nou număr (deci se continuă


cu 4) ceea ce indică noi calcule realizate şi înserate în foaia de date.
Prin alegerea subgrupului 2 din cadrul exemplului creat se afişează
practic numărul de cazuri după starea civilă (prezentat mai jos).
Se pot adăuga noi informaţii de calcul prin debifarea opţiunii de
înlocuire a subtotalului curent (Replace current subtotals).

4 | Bibliografie
Cele 3 nivele create
cu subtotal.

Cele 3 nivele create


cu subtotal.

Figura 6-5. Nivelul al doilea al tabelului creat prin subtotal

Tabelul nou creat poate fi copiat şi utilizat în altă foaie de calcul.


Atenţie - această copiere trebuie făcută doar asupra celulelor vizibile. Pentru
ceasta se vor selecta celulele prezentate în figura de mai sus, apoi din
Home+Find &Select se alege Go to special şi se bifează Visible cells only. Apoi cu
Copy vor fi copiate numai celulele vizibile nu întreg tabelul.
Această tehnică este o alternativă pentru metoda tabelelor pivotante.
Funcţiile ce se utilizează în calcul sunt identice în cele două metode
prezentate până acum.
Filtrele sunt metode de prezentare a datelor funcţie de criteriile
selectate. Filtrele nu sunt folosite pentru calcule ci doar pentru a prezenta
anumite rânduri ce îndeplinesc criteriile stabilite [1]. Totuşi în bara de stare
în colţul din stânga jos se afişează numărul de date contorizate în cadrul unei
selecţii.
Filtrele sunt folosite pentru selecţie dar şi pentru verificarea datelor şi
apoi corectarea lor. Crearea unui filtru înseamnă transformarea primului
rând, deci a capului de tabel, într-o listă derulantă ce prezintă toate variantele
distincte existente în fiecare coloană. Astfel, se pot selecta categoriile de
interes [1, 2, 3].
Pentru o condiţie multiplă se vor alege din mai multe coloane
categoriile de selecţie. Operatorul logic de combinare a criteriilor dintre
coloane este “şi”. Vor fi afişate rândurile ce îndeplinesc toate criteriile definite
simultan.
Activarea filtrului: Home + Sort&Filter + Filter sau Data + Sort&Filter
+ Filter.
Exemplu – crearea unui filtru cu selecţia doar a celor ce sunt căsătoriţi
şi sunt salariaţi.

Bibliografie | 5
Figura 6-6. Crearea unui filtru

Figura 6-7. Opţiunile de filtrare – filtru asupra unei coloane numerice

Poate era şi de aşteptat ca în cadrul realizării unui filtru să avem


posibilităţi diferite de selecţie.

6 | Bibliografie
Iată variantele de selecţie posibile pentru o coloană de tip numeric:
 egalitate cu o valoare de referinţă,
 diferit de o valoare anume,
 mai mare ca o valoare anume,
 mai mic faţă de o referinţă,
 valori dintr-un interval,
 primele n valori (ex. 10),
 valori peste sau sub medie (poate fi realizat ca valori peste /sub un
prag),
 posibilitatea de personalizare scriind o expresie logică.

EXERCIŢII

Fișierul Excel de lucru conține un număr de date generic definite.

1. Folosind tehnica tabelelor pivot răspundeți la următoarele întrebări:


a. Creaţi un tabel cu numărul de persoane grupate după mediu
rezidenţă şi stare civilă,
b. Aflați numărul de persoane pentru fiecare nivel de instruire şi
ocupaţie,
c. Calculaţi media IMC funcţie de mediul de rezidenţă ,
d. Calculaţi media şi deviaţia standard a IMC-ului pentru fiecare
element ce definește starea civilă,
e. Pentru întrebările de la punctele a şi b calculaţi procentul pe
orizontală (pe rând).

Tabelul de date are forma:

Figura 6-8.

Bibliografie | 7
Observaţie:
Pentru ultima întrebare veţi folosi
la definirea funcţiei de calcul Value
Field Settings opţiunea de calcul a
procentului pe rând aşa cum este
prezentat în figura alăturată.

Figura 6-9.

2. Aveţi următorul set de date:

Figura 6-10.

a. Folosind tehnica filtrării verificaţi corectitudinea codificării pentru


coloanele Dg1 şi Dg2. Aici puteţi întâlni greşit introdus codul
diagnosticului în sensul folosirii literelor mici sau mari, spaţii
suplimentar introduse sau chiar scrieri întregi necodificate. Corectaţi
şi păstraţi forma de codificare prezentată în tabelul din dreapta.
b. Folosind metoda tabelelor pivot dar şi tehnica totalizării determinaţi
distribuţia datelor funcţie de coloana diagnostic 1.
c. Calculaţi media, minimul şi maximul ClCr pentru fiecare tip de
diagnostic din Dg1 prin cele 2 metode (tabele pivot şi totalizare).

8 | Bibliografie
d. Determinaţi distribuţia datelor după diagnosticul al doilea prin
metodele cunoscute (frecvenţă).

3. Aveţi tabelul cu datele medicale prezentat parţial mai jos.

Figura 8-11.

Răspundeţi la următoarele întrebări:


a. Verificaţi şi corectaţi prin metoda filtrării eventualele greşeli
prezente în tabel.
b. Aflaţi numărul de persoane în formă absolută cât şi procentuală
pe judeţ şi pe tip post/premenopauză,
c. Determinaţi distribuţia pacienţilor pe judeţ şi mediu urban/rural,
d. Calculaţi numărul de subiecţi pentru fiecare tip de leziune şi
stadiu preoperator (valori absolute şi procentuale),
e. Aflaţi numărul de persoane (valori absolute şi procentuale) ce au
prezentat leziune multicentrică, apoi cele cu invazie vasculară şi
în final cele cu invazie perineurală,
f. Pentru fiecare stadiu preoperator determinaţi numărul de
metastaze (absolut şi procentual),
g. Răspundeţi la punctele b şi c prin metoda filtrării. Copiaţi apoi
datele rezumate într-o nouă foaie de calcul.
Observaţi şi reţineţi avantajul folosirii tehnicilor descrise comparativ cu
alternativa utilizării funcţiilor countif() sau averageif().

i Gerald Knight. Analyzing Business Data with Excel. O'Reilly, 2006.

Bibliografie | 9

S-ar putea să vă placă și