Documente Academic
Documente Profesional
Documente Cultură
În cercetările cantitative, cele mai multe aspecte de interes pentru cercetător sunt culese -direct
acolo unde este posibil, sau aduse în formă numerică printr-o operație de codare— în formă
numerică, ce poate fi citită mecanic (op.cit. p.543) de către calculator. Acestă transformare a unor
informații adeseori calitative în caracteristici cuantificabile trebuie luată în sens larg al atribuirii
de numere datelor continue sau discontinue (discrete), pe baza unor soluții derivate din teorii
științifice și/sau din alte cercetări empirice.
Datele culese într-o cercetare sunt variabile, în sensul că variază de la individ la individ (nu are
sens să măsurăm ceva ce este
constant!).Din această perspectivă, o Exhaustivitatea se referă la capacitatea setului de
atribute asociat unei variabile de a acoperi întreaga
variabilă poate fi văzută ca un set logic de plajă de valori posibile.
atribute. De remarcat faptul că setul de Excluderea reciprocă se referă la clasi carea unei
observații cu un singur atribut din set.
atribute care formează o variabilă nu este
un dat în sine ci rezultă din interesul de
cercetare și din definiția operativă a conceptului pecare urmează să-l măsurăm; pentru ca o variabilă
să aibă utilitate în cercetare, trebuie să clasificăm orice observație în corelație cu unul și doar unul
dintre atributele care compun respectiva variabilă. Cu alte cuvinte, un set de atribute care
formează o variabilă, trebuie să aibă două caracteristici: exhaustivitate și excludere reciprocă
(op.cit., p.198- 199).
In practica cercetării, aceleiași variabile i se pot asocia seturi diverse de atribute, stabilirea setului
de atribute fiind o decizie foarte importantă, luată de cercetător pe baza literaturii de specialitate, a
experienței și a întrebărilor de cercetate și ipotezelor formulate.
În cele mai multe cercetări sociale, variabila gen are două atribute: masculin
și feminin; cu toate acestea, există cercetări (who makes the new, de exemplu)
care consideră necesar să stabilească pentru variabila gen un set mai larg de
atribute:
captură ecran: setul de atribute pentru variabila ”Sex” folosite în ultimul val de cercetare
(septembrie 2020) al proiectului GMMP-who makes the news, disponibil aici: https://
whomakesthenews.org
fi
Pentru a realiza măsurători științifice trebuie să ținem cont de obiectul de măsurat, etalonul de
măsură și regulile de atribuire a valorilor (Dicționar de sociologie, 1993, p.347).
Regulile de atribuire a valorilor (numere, numerale sau simboluri) urmează îndeaproape natura
obiectului studiat și caracteristicile etalonului utilizat în măsurare.
fi
fi
Literatura de specialitate reține patru niveluri de măsură, redate mai jos în ordinea complexității (de la
cel mai simplu, la cel mai complex), proprietățile nivelurilor inferioare fiind cuprinse în cele ale
nivelurilor superioare. Alegerea nivelului și a scalei de măsurare sunt părți importante ale
procesului de proiectare a cercetării, deoarece acestea sunt necesare pentru măsurarea
sistematizată și clasificarea datelor, astfel încât să fie analizate și să tragă concluzii din ele, care
sunt considerate valide. În științele sociale, există patru niveluri și scale de măsurare utilizate în
mod obișnuit: nominal, ordinal, interval și raport.
1.2.1.Nivelul nominal
Acest nivel de măsurare surprinde doar diferențele existente între categorii; atribuirea valorilor se
face strict pe baza relației de egalitate/inegalitate; variabilele nominale sunt formate dintr-o serie
de atribute care satisfac strict condițiile de exhaustivitate și excludere reciprocă. Astfel, variabila
nominală gen, având setul de atribute masculin și feminin, împarte populația analizată în două
categorii între care nu se poate stabili o ordine ci doar se poate afirma:
• nu există nicio persoană din populația analizată căreia să nu i se poată găsi loc într-una dintre
aceste două categorii.
Din motive de eficientizare a procesului de codare a datelor, adeseori, în etapa de culegere a
datelor, se atribuie valori aparent ordinale (care stabilesc o ordine 1,2,3 sau a,b,c) atributelor
variabilelor nominale. Facem precizarea că acestea sunt simple nume investite cu funcția de
clasificare și nu stabilesc o relație de tipul mai mic-mai mare între atributele variabilei.
• frecvenței relative (procentale): permite analiza structurii unei serii de distribuție a unei
variabile și compararea a două repartiții. Frecvențele relative se obțin raportând frecvența
fiecărei grupe la totalul frecvențelor, după relația:
În Excel, pentru calculul de frecvențe al variabilelor nominale se folosește funcția COUNTIF iar
frecvențele relative se calculează cu ajutorul formulei (1).
Am folosit pentru exemplul de mai jos o bază de date cu 150 intrări (subiecți ai cercetării) care
are pe coloana L informații despre genul subiecților, cu setul de atribute ”feminin” și ”masculin”.
captură ecran: utilizarea funcției COUNTIF într-o bază de date pentru calculul de frecvențe
ATENȚIE:
pentru menținerea zonei de selectare a datelor, nu uitați să folositi semnul $ care are rolul de a
stabiliza aria de selecție e cazurilor luate în analiză. În caz contrar, după ce ați scris formula în
caseta O5 (pentru calcularea frecvenței atributului ”feminin”), extrapolarea formulei la caseta O6
(cea în care urmează să fie calculată frecvența atributului ”masculin”) va fi făcută pentru setul de
date aflat în L3:L152. In cazul de mai sus nu este complicat de modificat manual, dar atunci când
care setul de atribute este mai mare, se pot produce greșeli. Nu uitați să calculați totalul (cu
ajutorul funcției SUM) și să verificați dacă acesta este egal cu numărul de subiecți.
În R Studio sunt mai multe modalități de a calcula frecvența (pe unele le voi prezenta ulterior).
Pentru exemplul de mai jos, am salvat baza de date cu numele ”exemplu_baza” și am importat
datele în R.
Dacă mă interesează doar frecvențele absolute, cea mai usoară cale este prin funcția table cu
precizarea căii și, dacă doriți, a altor elemente (useNA=”ifany” include datele lipsă, de exemplu).
Rezultatele returnate sunt identice cu cele din EXCEL.
Dacă doresc să aflu și frecvențele absolute, pot folosi funcția prop.table din pachetul preinstalat
sau tabyl din pachetul janitor. Mai jos, sunt ambele variante.
În multe cazuri este util să apelăm la prezentarea grafică a variabilelor. Vom prezenta pe scurt în
această secţiune principalele grafice utilizate în analiza statistică. Variabilele nominale sunt
reprezentate cel mai des prin diagramă-coloană sau prin diagrame circulare. Personal, le prefer
pe acestea din urmă (eventual cu o presortare a rezultatelor în mod crescător sau decrescător)
tocmai pentru a arăta că nu există o ordine firească a atributelor. Voi folosi spre exemplificare
datele din worldvaluesurvy (2020), cu observația că am folosit doar răspunsurile valide, adică am
eliminat non-răspunsurile (nu știu/nu răspund și valorile lipsă din setul de date.
10
fi
Problemele pe care le-ați întâmpinat (eventual) în încercarea de a rezolva problema de mai sus
derivă din faptul că în tabel sunt date obținute din intersecția (cross-tabularea, despre care vom
vorbi mai târziu) a două variabile, ambele nominale: variabila ”statut marital” și variabila ”tară”.
Asfel, variabila statut marital al cetățenilor belgieni are următoarea distribuție:
11
de aceea, prima tentație ar fi să răspundem Italia, la cea de-a doua întrebare. Dacă am fi calculat
frecvența absolută, tentația ar părea chiar că se confimă:
Este clar, din datele de mai sus că, din totalul persoanelor separate înregistrate în recensământul
analizat, cel mai mare procent (57,05%) se înregistrează în Italia. DAR, nu asta era
întrebarea.Pentru a răspunde corect la întrebarea 2 este necesar să luăm în considerare și
populația totală a fiecărei țări, astfel:
Acest nivel induce o relație de ordine (de ordonare) între atributele variabilei. Pe lângă a spune că
două unități de analiză sunt similare sau diferite dacă ținem cont de o anumită variabilă, în cazul
variabilelor ordinale putem spune, de asemenea, că o unitate de analiză este ”mai mult” sau ”mai
puțin” decât alta sub aspectul variabilei măsurate (tonalitatea generală a unui articol este mai
agresivă sau mai puțin agresivă decât a altuia; un om politic folosește în mai mare măsură decât
un altul discursul emoțional în campania electorală, etc.), fără însă a se putea preciza diferențele
12
dintre ele (putem spune despre un articol că este mai homofob sau mai puțin homofob decât un altul,
dar nu putem spune cu cât este mai homofob).
Spre deosebire de nivelul nominal de măsurare, în cazul codării variabilelor ordinale trebuie să
ținem cont de faptul că etichetele asociate atributelor au semnificație de rang. Regula de
atribuire a etichetelor speci că ordine crescătoare sau descrescătoare a atributelor, care sunt ele
însele într-o ordine crescătoare, respectiv descrescătoare.
Pe lângă frecvența absolută și frecvența relativă, în cazul variabilelor ordinale se pot calcula și:
Frecvența cumulată care atribuie valorii empirice a atributului xi o valoare egală cusuma
frecvențelor tuturor valorilor mai mici sau mai mari decât xi, inclusiv aceea a lui xi, în
funcție de sensul cumulării
13
fi
a.Dacă se calculează cumularea dinspre atributul de nivel minim al variabilei X spre cel
maxim, formula de calcul a frecvenței cumulate este:
b. Dacă se calculează cumularea dinspre atributul de nivel maxim al variabilei X spre cel
minim, formula de calcul a frecvenței retrocumulate este:
14
Folosind graficul de mai jos (din Barometrul de consum cultural 2019, care
poate fi descărcat aici: https://www.culturadata.ro/wp-content/uploads/
2020/12/BCC2019-web- nal.pdf) răspundeți la următoarele întrebări și
precizați ce formulă ați folosit și de ce:
1. care este procentul românilor care merg mai rar de o dată pe lună la
biserică;
2. are este procentul românilor care au mers cel puțin o dată pe an la
bibilotecă pentru a citi sau a împrumuta cărți;
3. care este a treia activitate în funcție de procentul românilor care o fac
lunar sau mai des;
4. dar a doua activitate în funcție de procentul românilor care o fac mai
rar decât lunar?
15
fi
Mediana: reprezintă valoarea centrală a unei serii statistice, ordonate crescător sau
descrescător, care împarte termenii seriei în două parți egale. Pentru variabilele ordinale se
poate stabili doar locul medianei:
Rezultatul returnat se compară cu frecvențele cumulate; locul medianei îl reprezintă cel mai
mic atribut pentru care:
Cuartilele: acele valori care împart distribuția variabilei în patru părți egale. Q1, cuartila
inferioară, este mai mare sau egală decât 25% din atributele variabilei; Q2, coincide cu Me
și separă seria în două părți egale ca efectiv; Q3, cuartila superioara, este mai mare sau egală
16
Analog, se pot calcula decilele care divid seria de atribute în zece părți egale. În
acest caz, factorul de divizare al seriei este 10, iar p ia valori între 1 și 9; Q5 coincide
cu Me.
Deoarece acești indicatori ai tendinței centrale sunt mai reprezentativi pentru următorul
nivel de măsurare, în cadrul căruia, pe lângă locul medianei și al cuartilelor se poate
calcula șivaloarea lor, vom exemplifica cu respectiva ocazie modul de calcul.
Pentru anumite variabile valoarea numerică a unui atribut nu se reduce la semnalizarea unei
diferențe sau a intensității unui fenomen ci se pretează la calcule (adunare și scădere, respectiv
împărțire) care permit comparația între date. Variabilele măsurate pe seturi de atribute de acest tip
se numesc variabile de tip interval respectiv variabile de tip raport. Singura diferență între cele
două niveluri de măsurare îl
reprezintă existența unui 0 natural Măsura de interval: descrie o variabilă ale cărei
atribute sunt ordonate și au distanțe egale între
(zero real) care permite, în cazul atributele adiacente.
Măsura de raport: un nivel de măsurare care descrie o
variabilelor de tip raport, inferențe de variabilă ale cărei atribute au toate calitățile măsurilor
nominale, ordinale și de interval și, în plus, sunt bazate
tipul de două ori mai mare sau de pe un punct ”zero real”
Babbie, E.,2010, p.200-201
trei ori mai mic.
Așa cum remarcă Ioan Mărginean, cel care de nește termenul de măsurare socială în Dicționarul
de sociologie (1993, 347-350), în cercetarea socială, nivelul de interval este doar aproximat prin
intermediul diferitelor tehnici de scalare a intensității opiniilor, atitudinilor, comportamentelor,
fără a se dispune totuși de un model matematic care să ateste în mod riguros egalitatea distanțelor
dintre punctele scalei, bazându-se mai mult pe caracteristicile presupuse ale procesului
discriminatoriu.
17
fi
Nivelul de raport prezintă cele mai multe restricții (ordine, distanță și origine naturală) și de aceea
este dificil de atins în cercetarea socială; în analiza de conținut există o serie de variabile cu caracter
tehnic (numărul de cuvinte al unui articol, durata unei știri, etc.) care se măsoară în acest fel. În
plus, dacă folosim ca unitate de analiză articolul sau știrea, de exemplu, o serie de variabile care la
o prima vedere par nominale, pot deveni variabile de proporție.
Deoarece există o unitate de măsură (diferența între două atribute consecutive, n.a.) informația
colectată permite calcularea următorilor indicatori ai tendinței centrale:
18
Pornind de la premisa că cu cât numele unui om politic este mai des menționat
în știri TV, cu atât crește notorietatea acestuia analizăm timp de o lună știrile de
pe un canal TV, măsurând pentru fiecare știre politică în parte, de câte ori este
menționat numele politicianului Popescu2 Distribuția variabilei și modul de
calcul a valorii medianei, în tabelul de mai jos:
19
Complicat, nu-i așa? Ce bine că nu va trebui să faci acest calcul niciodată. Este suficient să
înțelegi ce înseamnă, cum se interpretează rezultatele și, evident, să cunoști formulele de calcul în
Excel și/sau R.
20
Toate aceste date pot rezulta din formula ”summary”, care returnează și media (mean, despre care
vom vorbi ulterior):
Informația de mai sus se citește: 50% dintre studenți au obținut note sub/peste 7 la examen
(pentru variabila nota la examen; respectiv, 50% dintre studenți (atenție, nu neaparat aceeași-
pentru asta trebuie să facem un tabel de corelație) au alocat mai puțin de 6 ore de studiu pentru
pregătirea acestui examen. În ceea ce privește cuartilele, citirea este similară: cele mai mici 25%
dintre notele obținute la examen au fost sub 5 sau 25% dintre studenți au luat note sub 5/ peste 9
(a treia cuartilă).
21
În R, unei histograme i se poate adăuga mediana (ca de altfel și alți indicatori ai tendinței
centrale) în mod automat, cu ajutorul funcție abline, unde col și lwd reprezintă elemente de
grafică (grosimea liniei și culoarea):
rezultând:
22
Acest mod grafic de stabilire a medianei își arată utilitatea atunci când acest indicator al tendintei
centrale trebuie comparat cu media. De exemplu, pentru variabila ore de studiu:
rezultând:
O altă variantă grafică de prezentare a medianei în R este cea în care se folosește funcția boxplot:
23
Acest tip de reprezentare grafică este mai valoros atunci când comparăm mai subpopulații între
ele (de exemplu: gen) sau când încercăm să detectăm aberațiile (statistice) și eventualele erori.
Se citește astfel: Jumătate dintre femeile care au dat examen au alocat studiului maxim 8 ore;
jumătate dintre bărbații care au dat examen au alocat studiului maxim 6 ore. Un sfert dintre
femei au alocat studiului mai între 3 (minim) și 5 (prima cuartilă) ore; similar cu 25% dintre
bărbați. 50% dintre femei au alocat studiului între 5 și 10 ore (prima și a treia cuartilă) îm timp ce
50% dintre bărbați au alocat studiului între 5 și 7,5ore (anticipez puțin și afirm că de aici începe
să fie vizibil că subpopulația masculină ar putea fi mai omogenă decât cea feminină în privința
numărului de ore alocat studiului, dar acestă afirmație trebuie ponderată cu existența acelor
excepții care studiază 12, 13 și respectiv 14 ore și care ar putea să determine, mai ales pe
subpopulații mici cum este aceasta o abatere standard mai mare; voi reveni cu analiza atunci când
vom studia abaterea standard)
24
Extrageți cât mai multe informatii din graficul de mai jos în care sunt prezentate
orele de studiu pentru fiecare dintre subpopulațiile reprezetate din indivizii care
au aceeși notă la examen
Media sintetizează într-o singură expresie numerică toate valorile pe care variabila le
înregistrează în corpusul analizat, punând în evidență ceea ce este esențial și comun tuturor
unităților. La fel ca si mediana, media este un indicator derivat, ce returnează ovaloare care
nu coincide cu niciuna dintre
valorile individuale din care este Variabile discrete: în care atributele pot măsurate cu
un număr limitat de categorii, clar separate între ele
25
fi
fi
b.
b. Pentru variabile continue, este necesar un mic ”artificiu” statistic. Deoarece atributele
sunt de tip interval, pentru a putea calcula media trebuie determinat mijlocul intervalului
cu formula:
unde
deoarece, adeseori, ultimul atribut al variabilei este un interval a cărei limită superioară nu
este precizată, pentru calculul mediei se precizează o limită ( e ea naturală, e ținând cont
de valoare celorlalte intervale)
26
:
fi
fi
În EXCEL, funcția de calculare a mediei este AVERAGE cu selectarea domeniului datelor
În R, pe lângă funcția SUMMARY care returnează inclusiv media, se poate folosi si formula
MEAN. De remarcat faptul că în R, spre deosebire de EXCEL, se poate calcula direct media
datelor rezultate din suma (dau diferenta) unor variabile
27
L
Extrageți cât mai multe informatii din datele de mai jos, unde sunt calculate
următoarele:
1.media (în două moduri) a două populații statistice (notele la două
examene)
2.mediana, minimul, maximul, cuartilele
3.media mediilor notelor obținute la cele două examene de către fiecare
individ din populație
De ajutor în analiza ar putea fi si cele două histograme în care sunt evidențiate -pentru fiecare în
parte- ei doi indicatori ai tendinței centrale:
se observă că în prima histogramă media și mediana sunt aproape egale (dar un în totalitate), cu o
ușoară deplasare spre notele mari, datorată frecvenței mari luate de nota 10. Deplasarea este
accentată în cel de-al doilea grafic, unde media este mult mai mică decât mediana.
28
Cu cât media și mediana sunt mai apropiate, cu atât mai aproape este distribuția de normală
(curba lui Gauss). O discuție despre acestă funcție depășește limitele lucrării de față, trebuie doar
reținut faptul că multe fenomene aleatoare din natura și societate se supun exact sau aproximativ
acestei legi.
Vom folosi pentru exemplele următoare vom folosi o bază de date în care este măsurată
încrederea într-o serie de produse 790 de indivizi.
Cu funcția SUMMARY, de data asta fără precizarea coloanei, facem o analiză sumară a întregii
baze de date și observăm că avem 3 variabile numerice și una nominală (genul). Mai mult,
observăm că mediana este egală cu 3 pentru toate cele 3 variabile (asta însemnând că pentru
fiecare produs în parte 50% dintre respondenți aleg valori mai mici, respectiv mai mari decât 3
atunci când selectează nivelul de încredere pe o scală de la 1 la 5), ceea ce diferă este media.
în primul caz, media este egală cu mediana, de unde rezultă următorul grafic:
29
în cel de-al doilea caz, media este mai mică decât mediana și rezultă o deplasare a seriei spre
valori mici (putem spune că populația analizată tinde să aibă mai puțină încredere în al doilea
produs decât în primul, deși peste valorile mediane sunt identice în cele două cazuri). Invers,
atunci când media este mai mare decât mediana și când, chiar și în mod grafic, rezultă că
populația analizată înclină spre valorile mari ale variabilei.
Câteodată este necesar să comparăm două subpopulații, iar segmentarea acestora se realizează cu
FILTER în EXCEL și cu funcția subset.dataframe în R.
30
Astfel, punând condiția ca în coloana ”gen” din baza de date ”incredere_produse” să fie
atributul ”feminin”, se selectează într-o nouă baza numită ”incredere_feminin” toate informațiile
care indeplinesc condiția (494 intrări).
Compararea mediilor aduce informație relevantă în analiza datelor, dar câteodată nu este
suficientă. Este posibil ca, în spatele unor medii egale să se ascundă populații cu o distribuție
total diferită.
Vom folosi ca exemplu baza de date note_examen, unde media și mediana notelor obținute de
studenți la examenul 1 și la examenul 3 sunt identice, ceea ce ne-ar putea face să presupunem că
populațiile au avut același comportament:
31
Este clar că cele două populații nu au distribuții identice și că pentru a surprinde acestă diferență
trebuie calculat un nou indicator statistic: abaterea pătratică standaAbaterea pătratică standard
este cel mai des calculat indicator al varianței. Se pot calcula abateri pătratice standard de la orice
valori asociate seriei (medie, mediană sau o valoare din interiorul seriei), dar cel mai des se
calculează abaterea pătratică standard de la medie. Acest indicator intervine, de altfel, în cele
mai multe calcule de corelații statistice și este foarte util în analiza rezultatelor cercetării. Din acest
motiv, dacă nu se speci că altceva, în această lucrare, atunci când vorbim de abaterea pătratică
standard ne gândim la abaterea pătratică standard de la media aritmetică.
32
fi
33
Acest indicator măsoară gradul de omogenitate a unei variabile, într-o populație dată
Devine evident, din comparea celor două abateri standard că notele la primul examen sunt mai grupate în
jurul mediei și implicit populația este mai omogenă (a luat note mai apropiate de medie).
34