Sunteți pe pagina 1din 12

REZUMATUL CURSULUI

LECłIA 1: NOłIUNI INTRODUCTIVE ÎN ANALIZA DATELOR

În prima lecŃie ne propunem o trecere în revistă a unor concepte de bază ce vor fi folosite în
analiza datelor. Multe provin din materii deja predate cum ar: MTCS, statistică, etc.

Curiozitatea ar putea fi o manifestare a dorinŃei de cunoaştere. Deci faptul că ceva s-a


întâmplat nu e suficient, dorinŃa noastră este de a analiza de a obŃine cât mai multe date despre ceea
ce ne interesează. Cf. Essentials of Research Methods, Ruane J.M există mai multe căi de
cunoaştere: Cunoaşterea tradiŃională, Cunoaşterea dată de autorităŃi, Cunoaşterea dată de bunul-
simŃ, Cunoaşterea dată de intuiŃie, Cunoaşterea realizată prin metode ştiinŃifice. Din cele cinci
tipuri de cunoaştere cea mai îndepărtată de subiectivism este cunoaşterea realizată prin metode
ştiinŃifice.
Analiza Datelor este disciplina care se ocupă cu cercetarea, examinarea, investigarea,
interpretarea faptelor stabilite ştiinŃific, fapte care constituie punctul de plecare în cercetarea
unei probleme, în luarea unei hotărâri.
Ce înseamnă a realiza un proiect? Conform lui McCollum „un proiect reprezintă […] un
grup de activităŃi relaŃionate în mod organizat pentru îndeplinirea unui scop”. În realizarea oricărui
proiect trebuie să avem în vedere trei constrângeri principale: timp (durata efectivă de realizare a
cercetării) resurse (materiale, financiare, etc.) specificitate a rezultatelor. Atunci când se stabilesc
ipotezele trebuie avute în vedere două repere de bază: fiecare ipoteză să provină dintr-un obiectiv, şi
în acelaşi timp să fie în acord cu instrumentele utilizate. Din erorile ce pot apărea în exprimarea
unor ipoteze am aminti: neclaritatea formulării, exprimarea de păreri proprii în enunŃul ipotezei,
formularea prin negare, etc.
Pentru a realiza un studiu comparativ, trebuie să alegem un grup de control şi un grup
experimental. Grupul de control este acel grup care nu este supus stimulilor specifici experimentului
este un grup care propriu-zis nu intervine in experiment. De aceea acest grup se mai numeşte şi grup
de control.
Una din metodele de bază în sociologie o constituie observaŃia. Având în vedere că această
metodă se află la graniŃa dintre intuiŃie şi raŃionament, folosirea ei trebuie realizată cu foarte mare
grijă.
Atunci când dorim să explicăm comportamentele umane şi să identificăm factorii ce
determină aceste comportamente un instrument foarte util îl reprezintă chestionarul.
Dintre alte instrumente ce se pot folosi am aminti: monografia, teste, sociograma, etc.
Prin centralizarea datelor înŃelegem în fapt două operaŃii:

1. măsurarea datelor
2. stocarea datelor în baze de date

Conform I.Radu, măsurarea este o „operaŃie prin care se atribuie numere datelor discrete
sau continue ce urmează a fi evaluate” 1. Măsurarea se poate realiza în două moduri:

 citirea directă a numerelor afişate de aparatele cu care se efectuează experimentul


 prin calcularea scorurilor sau a frecvenŃelor rezultate în urma aplicării unui instrument
specific (test, chestionar, etc.)

1
pag 47
LECłIA 2: REPREZENTĂRI ALE REZULTATELOR

Prezentarea datelor reprezintă o etapă importantă a prelucrării datelor. Vom prezenta câte
ceva despre datele culese din teren apoi vom arăta diferite moduri de a prezenta datele: prin
diagrame, prin scheme, sociograme. O secŃiune aparte o va constitui prezentarea graficului Gantt ca
mod de planificare a unui proiect.

Seriile de numere se vor aborda aşa cum pot fi ele întâlnite în majoritatea proceselor
sociale, fără a face referire la semnificaŃia matematică ce este mult mai largă. În acest context vom
înŃelege prin serie de numere, mulŃimea de numere ce au o caracteristică comună.
În general, atunci când se face referire la reprezentare grafică, se înŃelege reprezentarea
datelor într-un sistem de coordonate. Totuşi, uneori este de preferat folosirea altor reprezentări cum
ar fi: tabele, figuri geometrice, hărŃi, etc. Reprezentările grafice cu ajutorul unui sistem de
coordonate se numesc diagrame. Dintre tipurile de reprezentări cu ajutorul diagramelor amintim:
Diagramele de tip linie, Histogramele, diagrama de tip disc, diagrama de tip inel (doughnut),
diagrama tip arie şi coloane. Un alt mod de a clasifica diagramele este raportarea la numărul de
coordonate în care este realizată diagrama. Cele mai uzuale sunt: bidimensional şi tridimensional.
Sociogramele se pot reprezenta sub forma unui tabel, sub forma unor cercuri concentrice,
sau a unor grafuri.
Power Point reprezintă un soft specializat pentru prezentări profesionale. Concret, el are
multe din facilităŃile celorlalte soft-uri de la Microsoft, cum ar fi: editare text, tabelare, realizarea de
desene, importarea de fişiere din alte programe. Când se creează o prezentare cu Power Point,
aceasta se face pe bază de slide- uri2. Prezentarea se poate realiza într-un singur fişier şi la ea, pe
lângă imagine, se pot ataşa şi fişiere audio (cum ar fi vocea prezentatorului sincronizată cu
parcurgerea automată a slide-urilor sau o melodie, etc.)
Graficul Gantt reprezintă un instrument de planificare care poate fi folosit pentru alocarea
timpului pentru diferite etape ce trebuie realizate în cadrul unui proiect. Acest tip de reprezentare
este printre cele mai folosite de către manageri în planificarea diferitelor proiecte deoarece este uşor
de înŃeles şi de construit. Fiecare sarcină este aşezată pe câte o linie. Pe coloane se pun datele (zile,
săptămâni sau luni – în funcŃie de durata proiectului). Sarcinile pot decurge secvenŃial sau în
paralel.

LECłIA 3: STATISTICA ÎN CERCETAREA SOCIALĂ

În cele ce urmează vom prezenta anumite noŃiuni din statistica matematică. În general
prezentarea va fi mai mult intuitivă, pentru o prezentare mai riguroasă a noŃiunilor recomandăm
cursul de statistică socială.

Ceea ce face ca anumite elemente să fie grupate pentru analiză este o caracteristică comună.
Numerele rezultate în urma aplicării unui test de inteligenŃă vor putea fi analizate împreună
deoarece au comună caracteristica dată de coeficientul de inteligenŃă. Caracteristicile poartă numele
de variabile. Deci pentru a defini o variabilă avem nevoie de o etichetă pentru elementul măsurat şi
acestei etichete i se asociază o proprietate3. Caracteristicile vor de tip calitativ sau cantitativ.
Caracteristicile de tip calitativ, aşa cum se poate deduce din denumire ne arată o calitate a
elementelor grupului. Caracteristicile de tip cantitativ sunt cele în care studiem valori asociate
elementelor grupului.

2
vom păstra denumirea în engleză deoarece în dicŃionar la cuvântul slide – am găsit diapozitiv, lamelă ceea ce mi s-a
părut că ar reduce înŃelegerea posibilităŃilor acestui instrument.
3
am folosit termenul de proprietate pentru a cuprinde amândouă posibilităŃile: Etichetei să-i fie asociată o valoare sau o
calitate
PopulaŃia4, din punct de vedere statistic, reprezintă mulŃimea de elemente care au una sau
mai multe caracteristici comune. De exemplu, putem avea populaŃia alcătuită din persoanele din
mediul urban, în acest caz caracteristica comună fiind mediul. Putem avea şi o populaŃie alcătuită
din persoanele de sex feminin din mediul rural. În această situaŃie persoanele au două caracteristici
comune ce le reunesc într-o populaŃie: faptul că sunt de sex feminin, şi că sunt din mediu rural.
Elementele populaŃiei pot fi: persoane, obiecte, evenimente, idei, opinii, etc.
Se numeşte eşantion un subansamblu al unei populaŃii [P Rateau]. Pornind de la această
definiŃie putem observa că un eşantion reprezintă mulŃimea de elemente5 care au una sau mai multe
caracteristici comune.
Odată stabilit tipul de unitate statistică cu care vom lucra6, vom dori să realizăm diferite
experimente, experienŃe pe tipul de unitate statistică ales. În teoria probabilităŃilor, rezultatul unei
experienŃe se numeşte eveniment.
Un rol al mediei - indicator de poziŃie. Adică raportându-ne la medie putem spune dacă o
valoare se află într-o anumită categorie sau în alta. De exemplu, calculând valoarea medie a
înălŃimii unui grup, putem defini ce înseamnă individ scund şi ce înseamnă individ înalt pentru acel
grup.
Valorile ce împart seria de numere în părŃi egale se numesc cuantile. Dintre cuantilele mai
importante am aminti: mediana, cuartilele.
Se numeşte valoare modală a unei serii de numere acea valoare ce apare de mai multe ori în
acea serie. Vom nota valoarea modală cu vm. Amplitudinea este egală cu diferenŃa dintre
cea mai mare şi cea mai mică valoare. În cazul când ne alegem un grup singura problemă este să ne
asigurăm că acel grup se manifestă unitar din punctul de vedere al caracteristicii studiate. Pentru a
studia aceasta ne vom raporta la omogenitatea datelor care se calculează cu ajutorul coeficientului
de variabilitate.
În cele ce urmează se va înŃelege prin analiza a două grupuri următoarele: 1.un grup să fie
populaŃia, iar al doilea grup să fie un eşantion. În această situaŃie ceea ce ne interesează este dacă
eşantionul face parte din acea populaŃie. 2.un grup să fie un eşantion, iar al doilea grup să un alt
eşantion. În această situaŃie ceea ce ne interesează este dacă cele două eşantioane fac parte din
aceeaşi populaŃie. Faptul că un eşantion face parte dintr-o populaŃie sau că două eşantioane sunt din
aceeaşi populaŃie reprezintă ipoteza de plecare în folosirea testului. Generalizând putem spune că
avem o ipoteză nulă, de obicei aceasta se notează cu H0, în care se presupune că între cele două
grupuri nu avem diferenŃe semnificative. Atunci când H0 nu este îndeplinită spunem că s-a realizat
ipoteza alternativă, notată cu Ha. (eşantionul nu face parte din populaŃie sau cele două eşantioane nu
fac parte din aceeaşi populaŃie). Un alt concept ce ne interesează atunci când dorim să utilizăm un
test este nivelul de semnificaŃie. Acesta ne arată care este probabilitatea de la care evenimentul
fenomenul poate fi considerat imposibil. Pentru compararea a două medii se utilizează testul z sau
testul t, în funcŃie de condiŃiile impuse de experiment. Pentru compararea a două distribuŃii se
utilizează testul χ2. Analog cu testul de comparaŃie a mediilor şi aici avem o ipoteză nulă: H0 :
distribuŃiile frecvenŃelor nu diferă şi o ipoteză alternativă, Ha: distribuŃiile frecvenŃelor diferă
semnificativ. Aceste ipoteze le vom verifica folosindu-ne de valoarea lui χ2. În cele de mai sus am
prezentat intuitiv modul de calcul al valorii χ calc valoare pe care o vom compara cu o valoare
2

tabelară, χ tabel , care depinde de nivelul de semnificaŃie ales şi gradele de libertate.


2

Atunci când pe un lot de subiecŃi studiem mai multe variabile se pune problema evaluării
relaŃiei dintre aceste variabile chiar dacă nu presupunem că ar putea exista o dependenŃă între aceste
variabile. Ca şi la teste, şi în cazul coeficientului de corelaŃie se pune problema de a determina
semnificabilitatea. Pentru aceasta luăm ca ipoteză H0 : variabilele sunt independente, iar ca ipoteză
alternativă Ha: variabilele sunt dependente. Pentru a verifica H0 trebuie să vedem dacă coeficientul
de corelaŃie este 0.

4
O altă denumire pentru populaŃie este şi colectivitate statistică
5
reamintim că elementele pot fi persoane, obiecte, idei, opinii, evenimente, etc.
6
populaŃie, eşantion sau lot
În fenomenele în care se manifestă corelaŃii există o variabilă uşor observabilă şi în funcŃie
de aceasta putem calcula o altă variabilă mai greu observabilă. FuncŃia care eprmite acest gen de
calcul se numeşte regresie. Dacă funcŃia este de forma unei funcŃii de gradul întâi, atunci vom
spune că regresia este liniară.

LECłIA 4: NOłIUNI DESPRE BAZE DE DATE ŞI GRAFURI

NoŃiunea de categorie este legată de cea de graf şi „că odată cu o colecŃie de obiecte, să fie
considerate modalităŃile de interconectare a obiectelor respective”7. De aceea grafurile pot găsi o
ilustrare în domeniul social, unde analizarea unui grup nu reprezintă doar suma analizelor
indivizilor din grup, ci şi interacŃiunea dintre membrii grupului.

Un graf este o structură compusă din noduri8 şi arce9. Grafurile se pot împărŃi în
următoarele două categorii grafuri neorientate, grafuri orientate. DiferenŃa dintre cele două tipuri de
grafice constând în faptul că, în timp ce la grafurile neorientate aveam doar noduri unite prin arce,
fără a avea un sens de parcurgere între noduri, la grafurile orientate avem în plus şi un sens de
parcurgere între noduri.
O altă clasificare a grafurilor este dată de forma lor. Astfel putem avea următoarele tipuri de
grafuri: 1. Grafuri simple – grafuri în care între orice două noduri avem un unic arc, 2. Grafuri
multiple – grafuri în care între două noduri putem avea mai multe arce.
O clasă specială de grafuri orientate sunt arborii. Un graf orientat se numeşte arbore dacă
avem un nod distinct numit rădăcina arborelui, notat cu n0, astfel încât pentru orice nod din restul
arborelui să avem un singur drum care să unească acel nod cu n0, nodul-rădăcină.
Spunem că o relaŃie este tranzitivă dacă din faptul că A este în relaŃie cu B şi B este în
relaŃie cu C rezultă că A este în relaŃie cu C. Pentru început fie un graf simplu. Atunci numărul de
arce dintre două noduri îl definim ca fiind distanŃa dintre cele două noduri. Trecând la graful
multiplu se pune problema cum definim distanŃa dintre două noduri având în vedere ca în acest caz
între două noduri am putea avea mai multe drumuri. În acest caz definim distanŃa dintre două
noduri, notată cu d(x,y), ca fiind cel mai scurt drum între nodurile x şi y. Deoarece cazul grafului
simplu reprezintă o particularizare a grafului multiplu putem generaliza definiŃia drumului pentru
orice tip de graf.
Anumite relaŃii dintr-un grup se pot studia pornind de la conceptul matematic de relaŃie de
echivalenŃă.
Fie imediat după culegerea de pe teren, fie între etapele de analiză, datele trebuie stocate,
astfel încât să poată fi accesate cât mai uşor. De aceea a apărut ca o etapă importantă a cercetării
stocarea datelor într-o bază de date. Ce este o bază de date? Putem da o definiŃie a bazei de date în
funcŃie de facilităŃile pe care le oferă: Locul unde se pun datele astfel încât să le putem înregistra cu
toate informaŃiile specifice disponibile, să le putem căuta, să le putem extrage după anumite criterii
cerute într-o anumită etapă a cercetării.
O bază de date poate fi construită ca un tabel în care liniile se numesc înregistrări, iar
coloanele se numesc câmpuri.
Bazele de date se pot clasifica în baze de date analitice şi baze de date operaŃionale.

LECłIA 5: FUNCłII STATISTICE ÎN EXCEL


Ne-am propus să facem o prezentare succintă a principalelor tehnici de utilizare a Excel-ului
în calcularea unor indicatori şi teste statistice. Desigur nu ne-am propus să facem o prezentare
exhaustivă a posibilităŃilor acestor două soft-uri în calculele statistice.

7
Stănăşilă în lucrarea Matematici discrete
8
În unele manuale se foloseşte denumirea de vârfuri
9
Sau muchii
Excel-ul reprezintă un produs al Microsoft dezvoltat pentru sistemele Windows şi
Macintosh. Un fişier Excel cuprind mai multe foi de calcul. Calculele se pot realiza pe o foaie de
calcul, dar se pot realiza legături între foile de lucru ale aceluiaşi fişier, sau legături cu foi de lucru
din ale fişiere. Amintim că în afară de Excel mai există şi alte soft-uri ce pot realiza sarcini
asemănătoare cu ale Excel-ului. De exemplu, din pachetul Open Office, avem Open Office Calc.
Am optat totuşi pentru prezentarea Excel-ului deoarece, la ora actuală este cel mai răspândit, şi în
general un utilizator al Excel-ului se poate acomoda relativ rapid cu alte programe ce calcul ce au
apărut sau ar putea apărea pe piaŃa soft-urilor.
Înainte de a trece la prezentarea funcŃiilor specifice Excel-ului, vom reaminti modul în care
se poate insera o funcŃie în Excel.
Pentru a insera o funcŃie dăm un clic pe butonul din meniu ce arată ca mai jos:

După ce am apăsat pe acest buton se va deschide o fereastră în care vom da un clic pe


opŃiunea „Select a category”, iar din fereastra ce va apărea vom selecta opŃiunea „Statistical”.
De multe ori s-ar putea însă ca butonul să nu fie pus în meniu. Atunci pentru a
insera o funcŃie dăm un clic pe opŃiunea „Insert” din meniu şi din fereastra ce apare alegem
opŃiunea „Function”
Apelarea funcŃiilor în excel este sistematizată în tabelul de mai jos:
Prin Celinc vom înŃelege celula de la începutul şirului de date căruia dorim să-i aplicăm
funcŃia, iar prin Celfin vom înŃelege celula de la finalul şirului de date căruia dorim să-i
aplicăm funcŃia

Denumire Forma funcŃiei Unde se poate folosi


funcŃie funcŃia
Maxim =MAX(Celinc:Celfin) Calcularea maximului
unui şir de numere
Minim =MIN(Celinc:Celfin) Calcularea minimului
unui şir de numere
Media =AVERAGE(Celinc:Celfin) Calculează media unui şir
de numere
Media =SUMPRODUCT(Celinc1:Celfin1,Celinc2:Celfin2)/ Calculează media
ponderată SUM(Celinc2:Celfin2) ponderată
Mediana =MEDIAN(Celinc:Celfin) Calculează mediana unui
şir de numere
Amplitudinea =MAX(Celinc:Celfin)-MIN(Celinc:Celfin) Calculează amplitudinea
unui şir de date
Coeficient de =STDEV(Celinc:Celfin)/AVERAGE(Celinc:Celfin) Calculează omogenitatea
omogenitate unui şir de date
Testul Z =ZTEST(Celinc:Celfin, medpop) Calculează eroarea
pentru compararea
mediei unui grup cu o
valoare dată
Testul t =TTEST(Celinc1:Celfin1,Celinc2:Celfin2,valtails, Calculează eroarea
valtype) pentru a compara
mediilor dintre două
grupuri de subiecŃi
Testul χ2 (hi- =CHITEST(Celinc1:Celfin1, Celinc2:Celfin2) Calculează eroarea
pătrat) pentru a compara
diferenŃele între două
distribuŃii
Coeficientul de =CORREL(Celinc1:Celfin1, Celinc2:Celfin2) Calculează coeficientul
corelaŃie de corelaŃie între două
variabile
Valoarea =TINV(ns,gl) Calculează valoarea
tabelară a lui t tabelară a lui t în funcŃie
de nivelul de
semnificabilitate (ns) şi
gradele de libertate (gl)

BIBLIOGRAFIE OBLIGATORIE

1. C. Pomohaci, Informatica utilizată pentru aplicaŃii în sociologie şi psihologie, Editura FundaŃiei


România de Mâine, Bucureşti, 2007.
2. C. Pomohaci, Daniela Pârlea, Analiza datelor, Editura FundaŃiei România de Mâine, Bucureşti,
2007.
3. P. Rateau, Metodele şi statisticile experimentale, Editura Polirom, Iaşi, 2004.
4. T. Rotariu, G. Bădescu, I. Culic, E. Mezei., C. Mureşan, Metode statistice aplicate în ştiinŃele
sociale, Editura Polirom, Iaşi.
5. T.Rotariu, P.IluŃ, Ancheta sociologică şi sondajul de opinie, Editura Polirom, Iaşi,1997.

TESTE DE AUTOEVALUARE

____ 1. Pentru ce tip de variabile pot fi utilizate histogramele?


a. variabile cantitative
b. variabile calitative
c. nu pot fi utilizate pentru variabile

____ 2. Ce este mediana ?


a. parametrul care se aflã în mijlocul seriei de date.
b. valoarea obtinutã din media celei mai mari valori si a celei mai mici valori
c. un element al histogramelor de tip linie

____ 3. Cât la sutã din date se aflã în stânga medianei?


a. 25%
b. 33.33%
c. 50%
d. diferã în functie de datele analizate

____ 4. Regresia ne aratã:


a. legãtura dintre douã variabile
b. daca datele sunt ordonate descrescãtor
c. predictii asupra unei variabile, în functie de valoarea alteia.

____ 5. Datele cantitative pot fi:


a. discrete
b. continui
c. nominale
d. ordinale

____ 6. Populatie diferã de esantion prin:


a. numãrul de caracteristici
b. numãrul de elemente
c. nu diferã

____ 7. Testul hi-pãtrat ne aratã dacã avem diferente semnificative între:


a. medii
b. abateri standard
c. distributii unor rãspunsuri

____ 8. Rezultatele folosirii metodei sociometrice se pot prezenta sub forma:


a. unui tabel
b. cercuri concentrice
c. grafuri

____ 9. În Analiza Datelor prin serie de numere se întelege:

a. suma numerelor obtinute în urma cercetãrii


b. multimea de numere ce au comunã o caracteristicã

____ 10. Power Point este:


a. soft pentru editarea de texte
b. soft pentru calcule statistice
c. soft specializat pentru prezentãri profesionale

____ 11. Valorile ce împart seria de numere în părŃi egale se numesc:


a. cuartile
b. valori modale
c. medii

____ 12. SPSS este:


a. un soft specific calculelor statistice în procesele sociale
b. o metodã de calcul a testelor
c. un instrument specific psihologiei experimentale

____ 13. Care este tipul de cunoaştere cel mai îndepărtat de subiectivism?
a. Cunoaşterea dată de autorităŃi
b. Cunoaşterea realizată prin metode ştiinŃifice
c. Cunoaşterea dată de intuiŃie

____ 14. Validitatea răspunsurilor este asigurată dacă aplicăm metoda sociometrică la
a. peste 30 de persoane
b. mai puŃin de 30 de persoane
c. nu depinde de numărul de persoane

____ 15. Sociomatricea este:


a. un tabel
b. o reprezentare prin cercuri concentrice
c. o matrice care are pe diagonala valoarea 0

S-ar putea să vă placă și