Sunteți pe pagina 1din 34

Analiza datelor cantitative.

O scurtă întroducere în statistica aplicată în științe socio-umane

Trebuie să ne amintim că măsurile au fost făcute


pentru om, nu omul pentru măsuri.
Isac Asimov

Scopul cercetării în științele socio-umane este de a face inferențe despre comportamentele,


valorile, dorințele, obiceiurile etc. unei populații, pornind de la datele colectate de la un eșantion
reprezentativ, pe baza unui instrument de colectare a datelor realizat în concordanță cu întrebările
de cercetare, cu ipotezele formulate (dacă acestea există) care pun în ecuație concepte. În
cercetările cantitative, datele colectate sunt convertite în formă numerică (Babbie, E. 2010, p.543)
și analizate cu ajutorul programelor de calculator care au pachete de analiză statistică. În acest
capitol, ne propunem să trecem în revistă principalii indicatori statistici care pot fi calculați și să
folosim două programe (Excel și R studio) de calcul. Facem acestă selecție de programe, lăsând
deoparte SPSS-poate cel mai cunoscut astfel de program, din păcate cu un cost pe măsură, chiar și
pentru pachetul Student- pornind de la premisa că, cu mici diferențe de interfață, toate programele
folosesc aceleași indicatori, fapt ce ușurează învățarea. Menționăm că R Studio este gratuit iar
Excel (și varianta Numbers pentru Mac-uri) este instalat pe majoritatea calculatoarelor.

1.Măsurarea în științele socio-umane

În cercetările cantitative, cele mai multe aspecte de interes pentru cercetător sunt culese -direct
acolo unde este posibil, sau aduse în formă numerică printr-o operație de codare— în formă
numerică, ce poate fi citită mecanic (op.cit. p.543) de către calculator. Acestă transformare a unor
informații adeseori calitative în caracteristici cuantificabile trebuie luată în sens larg al atribuirii
de numere datelor continue sau discontinue (discrete), pe baza unor soluții derivate din teorii
științifice și/sau din alte cercetări empirice.

1.1 Variabile și atribute

Datele culese într-o cercetare sunt variabile, în sensul că variază de la individ la individ (nu are
sens să măsurăm ceva ce este
constant!).Din această perspectivă, o Exhaustivitatea se referă la capacitatea setului de
atribute asociat unei variabile de a acoperi întreaga
variabilă poate fi văzută ca un set logic de plajă de valori posibile.
atribute. De remarcat faptul că setul de Excluderea reciprocă se referă la clasi carea unei
observații cu un singur atribut din set.
atribute care formează o variabilă nu este
un dat în sine ci rezultă din interesul de
cercetare și din definiția operativă a conceptului pecare urmează să-l măsurăm; pentru ca o variabilă
să aibă utilitate în cercetare, trebuie să clasificăm orice observație în corelație cu unul și doar unul
dintre atributele care compun respectiva variabilă. Cu alte cuvinte, un set de atribute care
formează o variabilă, trebuie să aibă două caracteristici: exhaustivitate și excludere reciprocă
(op.cit., p.198- 199).
In practica cercetării, aceleiași variabile i se pot asocia seturi diverse de atribute, stabilirea setului
de atribute fiind o decizie foarte importantă, luată de cercetător pe baza literaturii de specialitate, a
experienței și a întrebărilor de cercetate și ipotezelor formulate.

În cele mai multe cercetări sociale, variabila gen are două atribute: masculin
și feminin; cu toate acestea, există cercetări (who makes the new, de exemplu)
care consideră necesar să stabilească pentru variabila gen un set mai larg de
atribute:

1.masculin 2. feminin 3. transsexual 4. nu se poate estima

captură ecran: setul de atribute pentru variabila ”Sex” folosite în ultimul val de cercetare
(septembrie 2020) al proiectului GMMP-who makes the news, disponibil aici: https://
whomakesthenews.org

fi

Folosind baza de date World Value Survey (accesibilă aici: worldvaluesurvey.org)


identificați setul de atribute pentru variabila religia respondentului (Q289 în ultimul val de
cercetare) și explicați de ce nu este practic să fie utilizat într-o BOP (barometru de opinie
publică) românesc; propuneți un set de atribute fezabil a fi utilizat într-o astfel de cercetare.

1.2. Niveluri de măsurare ale variabilelor

Pentru a realiza măsurători științifice trebuie să ținem cont de obiectul de măsurat, etalonul de
măsură și regulile de atribuire a valorilor (Dicționar de sociologie, 1993, p.347).

Obiectul de măsurat, în științele socio-umane, este alcătuit, potrivit aceluiași dicționar de


sociologie, dintr-o mare diversitate de fapte, fenomene și procese sociale, începând cu cele de
natură macrosocială care privesc societatea globală și sfârșind cu cele de natură microsocială
referitoare la acțiuni, comportamente, relații individuale și de grup. Pentru a se surprinde întreaga
gamă de manifestări ale fenomenelor și proceselor sociale, trebuie avute în vedere atât
determinările numerice cât și nenumerice, cum ar ordinea, redată prin numerale, și chiar
clasi cările, redate prin nume, etichete sau simboluri (ibidem).

Etalonul de măsură reprezintă o


mărime definită, cu care urmează a fi Și în științele naturii procesul de stabilire a etaloanelor a
fost unul dificil și îndelungat. În lucrarea Măsura lucrurilor
comparate aspectele cantitative care (2008), Andreaw Robinson plasează începuturile
măsurătorilor fizice în era glacială, odată cu apariția
caracterizează fenomenele sociale în calendarelor după ciclul lunii inscripționate pe oase. În
vederea determinării lor. Dacă în viziunea sa, unificarea etaloanelor de măsurare s-a impus
odată cu ”rapida evoluție a științei și tehnologiei în secolele
științele naturii (chimie, fizică), al XIX-lea și XX. Oamenii de știință, indiferent de locul în
care lucrau pe glob, aveau nevoie de scale universal valabile
etaloanele de măsură sunt clar și convenabile din punct de vedere matematic pentru
determinate și larg acceptate, în măsurători și calcule.” (p.16)

științele sociale cel mai adesea se


lucrează cu etaloane conceptuale, cu
semnificație relativă, restricționată de delimitările conceptuale ale cercetării

Regulile de atribuire a valorilor (numere, numerale sau simboluri) urmează îndeaproape natura
obiectului studiat și caracteristicile etalonului utilizat în măsurare.

fi

fi

Literatura de specialitate reține patru niveluri de măsură, redate mai jos în ordinea complexității (de la
cel mai simplu, la cel mai complex), proprietățile nivelurilor inferioare fiind cuprinse în cele ale
nivelurilor superioare. Alegerea nivelului și a scalei de măsurare sunt părți importante ale
procesului de proiectare a cercetării, deoarece acestea sunt necesare pentru măsurarea
sistematizată și clasificarea datelor, astfel încât să fie analizate și să tragă concluzii din ele, care
sunt considerate valide. În științele sociale, există patru niveluri și scale de măsurare utilizate în
mod obișnuit: nominal, ordinal, interval și raport.

1.2.1.Nivelul nominal

Acest nivel de măsurare surprinde doar diferențele existente între categorii; atribuirea valorilor se
face strict pe baza relației de egalitate/inegalitate; variabilele nominale sunt formate dintr-o serie
de atribute care satisfac strict condițiile de exhaustivitate și excludere reciprocă. Astfel, variabila
nominală gen, având setul de atribute masculin și feminin, împarte populația analizată în două
categorii între care nu se poate stabili o ordine ci doar se poate afirma:

• că includerea in categoria masculin reprezintă automat excluderea din categoria feminin;

• nu există nicio persoană din populația analizată căreia să nu i se poată găsi loc într-una dintre
aceste două categorii.
Din motive de eficientizare a procesului de codare a datelor, adeseori, în etapa de culegere a
datelor, se atribuie valori aparent ordinale (care stabilesc o ordine 1,2,3 sau a,b,c) atributelor
variabilelor nominale. Facem precizarea că acestea sunt simple nume investite cu funcția de
clasificare și nu stabilesc o relație de tipul mai mic-mai mare între atributele variabilei.

Măsurarea variabilei V1-religie cu atribute ortodox, catolic,


protestant, altă religie și nicio religie și a variabilei V2-religie
cu atribute protestant, ortodox, catolic, altă religie și nicio
religie, pe același corpus de date, returnează distribuții
echivalente.

Rezultatele obținute sunt aceleași, indiferent dacă folosim


primul set de atribute:

sau cel de-al doilea:

Pentru fiecare din ipotezele de cercetare de mai jos,


determinați variabilele nominale și stabiliți, pentru fiecare,
setul de atribute:

H1: procentul jurnalistelor1 care semnează editoriale a crescut


din 1990 până în prezent, în presa quality din România

H2 în postările pe Facebook despre imigranții musulmani sunt


utilizate preponderent emoțiile negative

H3: genul și starea civilă ale utilizatorilor de Instagram


inflențează tipul de poze postate pe această rețea de socializare

Acest nivel de măsurare permite stabilirea (prin numărare):

• frecvenței absolute: reprezintă numărul de unități care corespunde fiecărui atribut al


variabilei măsurate. Se exprimă în unități concrete, reprezentând numărul de unități de analiză
care au un anumit atribut.

• frecvenței relative (procentale): permite analiza structurii unei serii de distribuție a unei
variabile și compararea a două repartiții. Frecvențele relative se obțin raportând frecvența
fiecărei grupe la totalul frecvențelor, după relația:

1 Din totalul jurnalistelor care semnează articole de orice fel

Pentru a sublinia necesitatea utilizării frecvențelor absolute în


studiile comparative, folosim următorul exemplu:

Într-o cercetare despre știrile de televiziune, cercetătorul


decide să analizeze două canale (TVR și Pro TV). Datele
pentru variabila subiectul știrii sunt centralizate în tabelul de
mai jos:

Privind datele de mai sus am fi tentați să spunem că, în perioada


analizată, pe Pro TV au fost de aproape 4 ori (3,64 ori) mai
multe știri despre celebrități decât pe TVR. Această afirmație
este greșită, deoarece, în total, pe Pro TV au fost 237 știri iar pe
TVR doar 104.
Pentru a putea compara cele două serii este necesar calculul
frecvențelor relativă, ca în tabelul de mai jos:

Comparând frecvențele relative ale știrilor despre celebrități


putem trage concluzia, de această dată corectă, că pe Pro TV,
în perioada analizată, au fost de 1,6 ori mai multe știri despre
celebrități decât pe TVR.

În Excel, pentru calculul de frecvențe al variabilelor nominale se folosește funcția COUNTIF iar
frecvențele relative se calculează cu ajutorul formulei (1).
Am folosit pentru exemplul de mai jos o bază de date cu 150 intrări (subiecți ai cercetării) care
are pe coloana L informații despre genul subiecților, cu setul de atribute ”feminin” și ”masculin”.

captură ecran: utilizarea funcției COUNTIF într-o bază de date pentru calculul de frecvențe

ATENȚIE:
pentru menținerea zonei de selectare a datelor, nu uitați să folositi semnul $ care are rolul de a
stabiliza aria de selecție e cazurilor luate în analiză. În caz contrar, după ce ați scris formula în
caseta O5 (pentru calcularea frecvenței atributului ”feminin”), extrapolarea formulei la caseta O6
(cea în care urmează să fie calculată frecvența atributului ”masculin”) va fi făcută pentru setul de
date aflat în L3:L152. In cazul de mai sus nu este complicat de modificat manual, dar atunci când
care setul de atribute este mai mare, se pot produce greșeli. Nu uitați să calculați totalul (cu
ajutorul funcției SUM) și să verificați dacă acesta este egal cu numărul de subiecți.

captură ecran 1: calculul frecvențelor absolute cu adaptarea formulei (1)

În R Studio sunt mai multe modalități de a calcula frecvența (pe unele le voi prezenta ulterior).
Pentru exemplul de mai jos, am salvat baza de date cu numele ”exemplu_baza” și am importat
datele în R.
Dacă mă interesează doar frecvențele absolute, cea mai usoară cale este prin funcția table cu
precizarea căii și, dacă doriți, a altor elemente (useNA=”ifany” include datele lipsă, de exemplu).
Rezultatele returnate sunt identice cu cele din EXCEL.
Dacă doresc să aflu și frecvențele absolute, pot folosi funcția prop.table din pachetul preinstalat
sau tabyl din pachetul janitor. Mai jos, sunt ambele variante.

Indiferent de programul folosit si de modul în care


sunt prezentate rezultatele, putem citi datele astfel: în
baza de date analizată sunt 150 de subiecți, din care
37 femei, adică 24,66% și 113 bărbați, adică 75,33%.

captură ecran 2: calcul frecvența și frecventa


absolută in R

În multe cazuri este util să apelăm la prezentarea grafică a variabilelor. Vom prezenta pe scurt în
această secţiune principalele grafice utilizate în analiza statistică. Variabilele nominale sunt
reprezentate cel mai des prin diagramă-coloană sau prin diagrame circulare. Personal, le prefer
pe acestea din urmă (eventual cu o presortare a rezultatelor în mod crescător sau decrescător)
tocmai pentru a arăta că nu există o ordine firească a atributelor. Voi folosi spre exemplificare
datele din worldvaluesurvy (2020), cu observația că am folosit doar răspunsurile valide, adică am
eliminat non-răspunsurile (nu știu/nu răspund și valorile lipsă din setul de date.

captură ecran 3: reprezentarea grafică a distribuției frecvențelor unei variabile nominale

Pe lângă calculul de frecvente, măsurarea presupune calcularea unor indicatori ai tendinței


centrale, valori sintetice reprezentative pentru întreaga serie studiată. Pentru nivelul nominal de
măsurare se poate calcula un singur astfel de indicator:
Valoarea modală Mo (dominanta seriei) reprezintă valoarea ce caracterizează individul
tipic al populației și se determină prin identi carea atributului care are cea mai mare
frecvență de apariție în corpusul analizat.

10

fi

Folosind datele Eurostat cu privire la statutul marital al personalor cuprinse în recensământul


european din 1991 (date care pot fi descărcate aici: https://ec.europa.eu/
eurostat/databrowser/view/cens_91smsta/default/table?lang=en),
răspundeți la următoarele întrebări:

1.câte persoane necăsătorite trăiau în 1991 în Belgia și cât %


reprezintau ele din totalul populației acestei țări?
2. în ce tară se intregistrează cel mai mare procent de persoane
separate?

Problemele pe care le-ați întâmpinat (eventual) în încercarea de a rezolva problema de mai sus
derivă din faptul că în tabel sunt date obținute din intersecția (cross-tabularea, despre care vom
vorbi mai târziu) a două variabile, ambele nominale: variabila ”statut marital” și variabila ”tară”.
Asfel, variabila statut marital al cetățenilor belgieni are următoarea distribuție:

Răspunsul la prima întrebare rezultă acum cu claritate, nu-i așa?


După cum remarcați, în Belgia, ca de altfel în cele mai multe țări cuprinse în analiza, nu exista,
în 1991, nicio informație oficială despre personele separate. Doar în 3 state sunt culese astfel de
date:

11

de aceea, prima tentație ar fi să răspundem Italia, la cea de-a doua întrebare. Dacă am fi calculat
frecvența absolută, tentația ar părea chiar că se confimă:

Este clar, din datele de mai sus că, din totalul persoanelor separate înregistrate în recensământul
analizat, cel mai mare procent (57,05%) se înregistrează în Italia. DAR, nu asta era
întrebarea.Pentru a răspunde corect la întrebarea 2 este necesar să luăm în considerare și
populația totală a fiecărei țări, astfel:

iar răspunsul este Norvegia, cu un procent de 1,43% din populație.

1.2.2 Nivelul ordinal

Acest nivel induce o relație de ordine (de ordonare) între atributele variabilei. Pe lângă a spune că
două unități de analiză sunt similare sau diferite dacă ținem cont de o anumită variabilă, în cazul
variabilelor ordinale putem spune, de asemenea, că o unitate de analiză este ”mai mult” sau ”mai
puțin” decât alta sub aspectul variabilei măsurate (tonalitatea generală a unui articol este mai
agresivă sau mai puțin agresivă decât a altuia; un om politic folosește în mai mare măsură decât
un altul discursul emoțional în campania electorală, etc.), fără însă a se putea preciza diferențele
12

dintre ele (putem spune despre un articol că este mai homofob sau mai puțin homofob decât un altul,
dar nu putem spune cu cât este mai homofob).

Spre deosebire de nivelul nominal de măsurare, în cazul codării variabilelor ordinale trebuie să
ținem cont de faptul că etichetele asociate atributelor au semnificație de rang. Regula de
atribuire a etichetelor speci că ordine crescătoare sau descrescătoare a atributelor, care sunt ele
însele într-o ordine crescătoare, respectiv descrescătoare.

Să presupunem că dorim să analizăm comentariile din siajul articolelor


despre imigranți cu ajutorul unei variabile ordinale care să surprindă gradul de
acord sau dezacord al comentatorului față de cele scrise în articol. În acest
context, putem folosi oricare dintre formele de mai jos:

Acordul față de articolul comentat:

dar nu putem folosi forma:

Acordul față de articolul comentat:


a. acord total
b. dezacord total
c. acord parțial
d. dezacord parțial
e. nici acord, nici dezacord

ATENȚIE: la acest set de atribute se adaugă, în cazul instrumentelor de


cercetare care presupun obținerea datelor de la respondenți, varianta ”nu
știu/nu răspund”.

Pe lângă frecvența absolută și frecvența relativă, în cazul variabilelor ordinale se pot calcula și:

Frecvența cumulată care atribuie valorii empirice a atributului xi o valoare egală cusuma
frecvențelor tuturor valorilor mai mici sau mai mari decât xi, inclusiv aceea a lui xi, în
funcție de sensul cumulării

13

fi

a.Dacă se calculează cumularea dinspre atributul de nivel minim al variabilei X spre cel
maxim, formula de calcul a frecvenței cumulate este:

b. Dacă se calculează cumularea dinspre atributul de nivel maxim al variabilei X spre cel
minim, formula de calcul a frecvenței retrocumulate este:

Într-o cercetare ce își propune să analizeze amploarea discursului urii în


mediul on-line românesc, măsurăm variabila agresivitatea limbajului și
obținem următoarea distribuție:

14

Folosind graficul de mai jos (din Barometrul de consum cultural 2019, care
poate fi descărcat aici: https://www.culturadata.ro/wp-content/uploads/
2020/12/BCC2019-web- nal.pdf) răspundeți la următoarele întrebări și
precizați ce formulă ați folosit și de ce:

1. care este procentul românilor care merg mai rar de o dată pe lună la
biserică;
2. are este procentul românilor care au mers cel puțin o dată pe an la
bibilotecă pentru a citi sau a împrumuta cărți;
3. care este a treia activitate în funcție de procentul românilor care o fac
lunar sau mai des;
4. dar a doua activitate în funcție de procentul românilor care o fac mai
rar decât lunar?

15

fi

În ceea ce privește indicatorii tendinței centrale, pe lângă modul, se pot calcula:

Mediana: reprezintă valoarea centrală a unei serii statistice, ordonate crescător sau
descrescător, care împarte termenii seriei în două parți egale. Pentru variabilele ordinale se
poate stabili doar locul medianei:

Rezultatul returnat se compară cu frecvențele cumulate; locul medianei îl reprezintă cel mai
mic atribut pentru care:

Fj≥ LMe (5)

Cuartilele: acele valori care împart distribuția variabilei în patru părți egale. Q1, cuartila

inferioară, este mai mare sau egală decât 25% din atributele variabilei; Q2, coincide cu Me

și separă seria în două părți egale ca efectiv; Q3, cuartila superioara, este mai mare sau egală

cu 75% din atributele variabilei.

16

Analog, se pot calcula decilele care divid seria de atribute în zece părți egale. În
acest caz, factorul de divizare al seriei este 10, iar p ia valori între 1 și 9; Q5 coincide
cu Me.

Deoarece acești indicatori ai tendinței centrale sunt mai reprezentativi pentru următorul
nivel de măsurare, în cadrul căruia, pe lângă locul medianei și al cuartilelor se poate
calcula șivaloarea lor, vom exemplifica cu respectiva ocazie modul de calcul.

1.2.3Nivelul de interval și de raport

Pentru anumite variabile valoarea numerică a unui atribut nu se reduce la semnalizarea unei
diferențe sau a intensității unui fenomen ci se pretează la calcule (adunare și scădere, respectiv
împărțire) care permit comparația între date. Variabilele măsurate pe seturi de atribute de acest tip
se numesc variabile de tip interval respectiv variabile de tip raport. Singura diferență între cele
două niveluri de măsurare îl
reprezintă existența unui 0 natural Măsura de interval: descrie o variabilă ale cărei
atribute sunt ordonate și au distanțe egale între
(zero real) care permite, în cazul atributele adiacente.
Măsura de raport: un nivel de măsurare care descrie o
variabilelor de tip raport, inferențe de variabilă ale cărei atribute au toate calitățile măsurilor
nominale, ordinale și de interval și, în plus, sunt bazate
tipul de două ori mai mare sau de pe un punct ”zero real”
Babbie, E.,2010, p.200-201
trei ori mai mic.

În științele sociale, nivelul de


interval presupune o formulă de tipul: pe o scală de la 1 la k, (în România, de obicei 10, datorită
asocierii cu sistemul de notare) unde 1 înseamnă foarte puțin iar k înseamnă foarte mult sau scale
de măsurare complexe, calculate ca sumă de indici, cum este inteligența măsurată printr-un test
standard.

Așa cum remarcă Ioan Mărginean, cel care de nește termenul de măsurare socială în Dicționarul
de sociologie (1993, 347-350), în cercetarea socială, nivelul de interval este doar aproximat prin
intermediul diferitelor tehnici de scalare a intensității opiniilor, atitudinilor, comportamentelor,
fără a se dispune totuși de un model matematic care să ateste în mod riguros egalitatea distanțelor
dintre punctele scalei, bazându-se mai mult pe caracteristicile presupuse ale procesului
discriminatoriu.

17

fi

Nivelul de raport prezintă cele mai multe restricții (ordine, distanță și origine naturală) și de aceea
este dificil de atins în cercetarea socială; în analiza de conținut există o serie de variabile cu caracter
tehnic (numărul de cuvinte al unui articol, durata unei știri, etc.) care se măsoară în acest fel. În
plus, dacă folosim ca unitate de analiză articolul sau știrea, de exemplu, o serie de variabile care la
o prima vedere par nominale, pot deveni variabile de proporție.

Dacă unitatea de analiză a cercetării este știrea, variabila număr de femei în


știre cu setul de atribute continuu 0, 1-3, 4-6, 7-9, 10-12, ≥13 sau cu setul de
atribute discret 1,2……n este de tip interval (zero absolut în acest caz este egal
cu 0)

Deoarece există o unitate de măsură (diferența între două atribute consecutive, n.a.) informația
colectată permite calcularea următorilor indicatori ai tendinței centrale:

Valoarea medianei se calculează printr-un procedeu de interpolare, care pornește de la


presupunerea că, în cadrul intervalului median frecvențele sunt distribuite uniform.
Formula de calcul ține cont limita inferioară a intervalului median (Xme) la care se adaugă
o proporție (K) din diferența între locul medianei (calculat mai sus cu formula 4) și frecvența
cumulată a intervalelor anterioare intervalului median, totul raportat la frecvența
intervalului mediat

18

Pornind de la premisa că cu cât numele unui om politic este mai des menționat
în știri TV, cu atât crește notorietatea acestuia analizăm timp de o lună știrile de
pe un canal TV, măsurând pentru fiecare știre politică în parte, de câte ori este
menționat numele politicianului Popescu2 Distribuția variabilei și modul de
calcul a valorii medianei, în tabelul de mai jos:

19

Complicat, nu-i așa? Ce bine că nu va trebui să faci acest calcul niciodată. Este suficient să
înțelegi ce înseamnă, cum se interpretează rezultatele și, evident, să cunoști formulele de calcul în
Excel și/sau R.

Pentru exemplificarea calcului și modului de interpretare a acestor indicatori (mediană, quartile,


decile) voi folosi o bază de date numită note_examen care colectează următoarele date de la 280
subiecți:
1. nota obținută la examen (coloana A în Excel; nota_examen în R)
2. gen (coloana B în Excel; gen în R)
3. număr de ore de studiu (coloana C în excel; ore_studiu în R)
În Excel se folosește funcția MEDIAN, așa cum rezultă din captura de ecran de mai jos:

captură ecran 4: formula de calcul a medianei în Excel

iar pentru quartile se folosește funcția QUARTILE.INC cu precizarea atât a domeniului de


selecție a datelor cât și a rangului quartilei:

20

Similar, în R se folosește ”median” pentru detarminarea medianei:

captură ecran 6 formula de calcul a medianei în R

Respectiv ”quantile” pentru determinarea cuartilelor:

captură ecran 7 formula de calcul a cuartilelor în R

Toate aceste date pot rezulta din formula ”summary”, care returnează și media (mean, despre care
vom vorbi ulterior):

captură ecran 8 utilizarea funcției summary in R

Informația de mai sus se citește: 50% dintre studenți au obținut note sub/peste 7 la examen
(pentru variabila nota la examen; respectiv, 50% dintre studenți (atenție, nu neaparat aceeași-
pentru asta trebuie să facem un tabel de corelație) au alocat mai puțin de 6 ore de studiu pentru
pregătirea acestui examen. În ceea ce privește cuartilele, citirea este similară: cele mai mici 25%
dintre notele obținute la examen au fost sub 5 sau 25% dintre studenți au luat note sub 5/ peste 9
(a treia cuartilă).

Grafic, în Excel, mediana se poate stabili pornind de la calculul frecvențelor cumulate:

21




captură ecran 9: stabilirea medianei

În R, unei histograme i se poate adăuga mediana (ca de altfel și alți indicatori ai tendinței
centrale) în mod automat, cu ajutorul funcție abline, unde col și lwd reprezintă elemente de
grafică (grosimea liniei și culoarea):

rezultând:

captură ecran 10: stabilirea locului medianei în R (versiunea 1)

22

Acest mod grafic de stabilire a medianei își arată utilitatea atunci când acest indicator al tendintei
centrale trebuie comparat cu media. De exemplu, pentru variabila ore de studiu:

rezultând:

(cu roșu este mediana; iar cu


albastru, media)

captură ecran 11: stabilirea medianei și a mediei într-o histogramă în R

O altă variantă grafică de prezentare a medianei în R este cea în care se folosește funcția boxplot:

rezultând un grafic în care este


evidențiată mediana, cele cuartila 1
(partea inferioară a dreptunghiului),
cuartila 3 (partea superioară a
dreptunghilui), minimul și maximul
(mustățile- wiskers) și excepțiile

23

Acest tip de reprezentare grafică este mai valoros atunci când comparăm mai subpopulații între
ele (de exemplu: gen) sau când încercăm să detectăm aberațiile (statistice) și eventualele erori.

captură ecran 12: stabilirea medianei în două subpopulații

Se citește astfel: Jumătate dintre femeile care au dat examen au alocat studiului maxim 8 ore;
jumătate dintre bărbații care au dat examen au alocat studiului maxim 6 ore. Un sfert dintre
femei au alocat studiului mai între 3 (minim) și 5 (prima cuartilă) ore; similar cu 25% dintre
bărbați. 50% dintre femei au alocat studiului între 5 și 10 ore (prima și a treia cuartilă) îm timp ce
50% dintre bărbați au alocat studiului între 5 și 7,5ore (anticipez puțin și afirm că de aici începe
să fie vizibil că subpopulația masculină ar putea fi mai omogenă decât cea feminină în privința
numărului de ore alocat studiului, dar acestă afirmație trebuie ponderată cu existența acelor
excepții care studiază 12, 13 și respectiv 14 ore și care ar putea să determine, mai ales pe
subpopulații mici cum este aceasta o abatere standard mai mare; voi reveni cu analiza atunci când
vom studia abaterea standard)

24

Extrageți cât mai multe informatii din graficul de mai jos în care sunt prezentate
orele de studiu pentru fiecare dintre subpopulațiile reprezetate din indivizii care
au aceeși notă la examen

Media sintetizează într-o singură expresie numerică toate valorile pe care variabila le
înregistrează în corpusul analizat, punând în evidență ceea ce este esențial și comun tuturor
unităților. La fel ca si mediana, media este un indicator derivat, ce returnează ovaloare care
nu coincide cu niciuna dintre
valorile individuale din care este Variabile discrete: în care atributele pot măsurate cu
un număr limitat de categorii, clar separate între ele

calculată. Pe lângă media


Variabile continue: sunt măsurate pe un continuu care
aritmetică despre care vom vorbi face posibilă o in nitate de gradații între atributele
variabilei
în continuare se pot calcula:
media armonică și media
geometrică. Formulele acestora și explicații despre utilizarea lor sunt accesibile în cărțile de
statistică; pe de altă parte, considerăm că detalierea lor aici depășește scopul acestei lucrări
și, din acest motiv, dacă nu se specifică altceva, atunci când vom face referire la medie vom
avea în minte media aritmetică, a cărei mod de calcul îl vom detalia în cele ce urmează.

25

fi

fi

a. pentru variabile discrete, media se calculează astfel:

b.

b. Pentru variabile continue, este necesar un mic ”artificiu” statistic. Deoarece atributele
sunt de tip interval, pentru a putea calcula media trebuie determinat mijlocul intervalului
cu formula:

unde

ximax-limita maximă a intervalului i

ximin-limita minimă a intervalului i

deoarece, adeseori, ultimul atribut al variabilei este un interval a cărei limită superioară nu
este precizată, pentru calculul mediei se precizează o limită ( e ea naturală, e ținând cont
de valoare celorlalte intervale)

26
:

fi
fi
În EXCEL, funcția de calculare a mediei este AVERAGE cu selectarea domeniului datelor

captură ecran 13: calculul mediei în EXCE

În R, pe lângă funcția SUMMARY care returnează inclusiv media, se poate folosi si formula
MEAN. De remarcat faptul că în R, spre deosebire de EXCEL, se poate calcula direct media
datelor rezultate din suma (dau diferenta) unor variabile

27
L

Extrageți cât mai multe informatii din datele de mai jos, unde sunt calculate
următoarele:
1.media (în două moduri) a două populații statistice (notele la două
examene)
2.mediana, minimul, maximul, cuartilele
3.media mediilor notelor obținute la cele două examene de către fiecare
individ din populație

De ajutor în analiza ar putea fi si cele două histograme în care sunt evidențiate -pentru fiecare în
parte- ei doi indicatori ai tendinței centrale:

se observă că în prima histogramă media și mediana sunt aproape egale (dar un în totalitate), cu o
ușoară deplasare spre notele mari, datorată frecvenței mari luate de nota 10. Deplasarea este
accentată în cel de-al doilea grafic, unde media este mult mai mică decât mediana.
28

Cu cât media și mediana sunt mai apropiate, cu atât mai aproape este distribuția de normală
(curba lui Gauss). O discuție despre acestă funcție depășește limitele lucrării de față, trebuie doar
reținut faptul că multe fenomene aleatoare din natura și societate se supun exact sau aproximativ
acestei legi.

Vom folosi pentru exemplele următoare vom folosi o bază de date în care este măsurată
încrederea într-o serie de produse 790 de indivizi.

Cu funcția SUMMARY, de data asta fără precizarea coloanei, facem o analiză sumară a întregii
baze de date și observăm că avem 3 variabile numerice și una nominală (genul). Mai mult,
observăm că mediana este egală cu 3 pentru toate cele 3 variabile (asta însemnând că pentru
fiecare produs în parte 50% dintre respondenți aleg valori mai mici, respectiv mai mari decât 3
atunci când selectează nivelul de încredere pe o scală de la 1 la 5), ceea ce diferă este media.

în primul caz, media este egală cu mediana, de unde rezultă următorul grafic:

29

în cel de-al doilea caz, media este mai mică decât mediana și rezultă o deplasare a seriei spre
valori mici (putem spune că populația analizată tinde să aibă mai puțină încredere în al doilea
produs decât în primul, deși peste valorile mediane sunt identice în cele două cazuri). Invers,
atunci când media este mai mare decât mediana și când, chiar și în mod grafic, rezultă că
populația analizată înclină spre valorile mari ale variabilei.

Câteodată este necesar să comparăm două subpopulații, iar segmentarea acestora se realizează cu
FILTER în EXCEL și cu funcția subset.dataframe în R.

30

Astfel, punând condiția ca în coloana ”gen” din baza de date ”incredere_produse” să fie
atributul ”feminin”, se selectează într-o nouă baza numită ”incredere_feminin” toate informațiile
care indeplinesc condiția (494 intrări).

Compararea mediilor aduce informație relevantă în analiza datelor, dar câteodată nu este
suficientă. Este posibil ca, în spatele unor medii egale să se ascundă populații cu o distribuție
total diferită.

Vom folosi ca exemplu baza de date note_examen, unde media și mediana notelor obținute de
studenți la examenul 1 și la examenul 3 sunt identice, ceea ce ne-ar putea face să presupunem că
populațiile au avut același comportament:

Desenând cele două histograme, certitudinea dispare:

31

Este clar că cele două populații nu au distribuții identice și că pentru a surprinde acestă diferență
trebuie calculat un nou indicator statistic: abaterea pătratică standaAbaterea pătratică standard
este cel mai des calculat indicator al varianței. Se pot calcula abateri pătratice standard de la orice
valori asociate seriei (medie, mediană sau o valoare din interiorul seriei), dar cel mai des se
calculează abaterea pătratică standard de la medie. Acest indicator intervine, de altfel, în cele
mai multe calcule de corelații statistice și este foarte util în analiza rezultatelor cercetării. Din acest
motiv, dacă nu se speci că altceva, în această lucrare, atunci când vorbim de abaterea pătratică
standard ne gândim la abaterea pătratică standard de la media aritmetică.

Formula de calcul a abaterii medie pătratică este următoarea:

32

fi

Reluând datele din exemplul precedent, calculăm Ϭ

În EXCEL, formula de calcul este STDEV cu selectarea domeniului datelor:

În R, funcția similară este sd

33

Acest indicator măsoară gradul de omogenitate a unei variabile, într-o populație dată

Reluând exemplul de mai sus, cu notele de la cele două examene, calculăm

Devine evident, din comparea celor două abateri standard că notele la primul examen sunt mai grupate în
jurul mediei și implicit populația este mai omogenă (a luat note mai apropiate de medie).

34

S-ar putea să vă placă și