Sunteți pe pagina 1din 19

Universitatea Lucian Blaga din Sibiu FACULTATEA DE TIINE SPECIALIZAREA INFORMATIC ANUL III

Prelucrarea statistic a datelor (Analiza datelor)

Curs: Lect.univ.dr. Maniu George Constantin

Cteva precizri
Structura cursului

2 ore curs titular curs Lector dr. Maniu Costel 2 ore laborator titular aplicaii practice Asistent dr. Ionela Maniu

Cteva precizri

Forme de examinare:
Examen final (scris) 50% Evaluare pe parcursul semestrului a activitii de laborator (proiect) 50%

Cteva precizri
Cerinte proiect (mai multe detalii la laborator) Proiect individual de analiza a datelor utilizand o tehnica alaeasa de catre fiecare student. (Responsabilitatea alegerii temei revine studentului) Fiecare student identifica, la alegere, un domeniu de studiu: marketing, management, finante, administratie publica, social, medical, etc.. Analizeaza articole din jurnale, articole care folosesc tehnici de analiza a datelor si pot oferi informatii despre metodologia actuala utilizata in aria temei alese. In urma studierii acestor articole, fiecare student isi alege o tehnica de analiza a datelor, alta decat cele prezentate la curs si laborator (enumerate mai sus). Pot fi mai multe variante: Daca s-a gasit un articol interesnat cu o anumita tehnica, se poate apoi folosi acea tehnica pe baza de date personala, sauSe poate alege o tehnica, se cauta apoi articole legate de acea tema si o baza de date in care sa se foloseasca acea tehnica. Proiectul trebuie sa contina: O descriere a tehnicii, conditiile de aplicare ale acesteia, tipuri de problem in care poate fi utilizata acea tehnica Descrierea (sustinerea, critica) a 3 aricole (sursa www.) care contin analiza datelor folosind acea tehnica, in care sa fie ilustrat si modul de aplicare al acelei tehnici. Baza de date cu definirea elementelor acesteia Explicarea si exemplificarea utilizarii tehnicii alese in cazul bazei de date. Pe langa tehnica aleasa se pot folosi si tehnicile studiate la curs si laborator sau alte tehnici Rezultatele obtinute pe baza de date personala in urma tehnicii alese si interpretarea acestora (proiect extins) Scrierea unui rezumat al proiectului sub forma de articol (abstract, cuvinte cheie, introducere, stadiul cunoasterii in domeniu, descrierea notiunilor, studiu de caz, rezultate, concluzii, propuneri, bibliografie). (proiect rezumat) Analiza (critica) a proiectului unui alt coleg/colega. Aceasta trebuie sa contina cel putin: puncte tari, puncte slabe, observatii, propuneri. Exemple de tehnici care s-ar putea studia: Serii de timp, regresia nonliniara, logliniara, clasificarea folosind analiza discriminanta,

Cteva precizri
n cadrul acestui curs se va utiliza pentru analiza datelor pachetul software IMB SPSS Statistics Se pot utiliza ins i alte pachete software: Excel SAS

Continutul cursului
Rolul analizei datelor n cercetare. Tipuri de variabile. Scale de msur. Operaii asupra datelor. Missing values. Tabele de frecven i tabele de contingen. Tendina central. Distribuia normal. Corelaia dintre dou variabile. Testarea egalitii unei proporii cu o valoare specificat. Testarea egalitii unei medii cu o valoare specificat. Testarea egalitii mediilor n cazul a dou eantioane: independente, perechi. Testarea egalitii mediilor n cazul mai multor eantioane. Testul Chi-Square. Regresia liniar simpl. Regresia liniar multipl. Regresia logistic. Analiza factorial. Clasificarea.

Prelucrarea statistica a datelor

Prelucrarea statistica a datelor De ce avem nevoie de statistic?


Statistica constituie o parte importanta a cercetrii tiinifice Vrem sa tragem concluzii ct mai valide din cantiti limitate de date. Analiza datelor reprezinta un proces complex si sistematic de aplicare a tehnicilor statisticomatematice, in scopul extragerii din colectia de date constituita a informatiilor necesare cercetrii

Prelucrarea statistica a datelor


n cercetare se presupune c populaia este infinit, sau cel puin foarte mare n comparaie cu eantionul.
fabric de cmi: se extrage la ntmplare un eantion din ntreaga populaie de cmi, iar concluziile legate de calitatea eantionului se extrapoleaz la toat producia Se extrage la ntmplare un eantion de votani, iar rezultatul se extrapoleaz la ntreaga populaie de votani Eantionul de pacieni studiat este rareori extras la ntmplare. Totui, pacienii inclui n studiu sunt reprezentativi pentru ali pacieni similari, iar extrapolarea de la eantion la populaie se poate face

Prelucrarea statistica a datelor


Succesul unei cercetri statistice depinde de:
Alegerea corecta a esantionului Alegerea corecta a scalelor de masura Stabilirea ipotezelor si metodele utilizate pentru confirmarea sau infirmarea lor

Ne ajuta se demonstram dac ipotezele de cercetare asupra datelor sunt valide sau nu

Prelucrarea statistic a datelor


Desi o buna cercetare si o buna statistic duc la rezultate corecte, exista intotdeauna probabilitatea ca acestea sa fie eronate, posibile cauze fiind:
Alegerea esantionului Erori de masurare

Statistica ne poate da raspunsul la o intrebare data insa nu ne poate spune daca intrebarea pus este corect sau nu

Concepte fundamentale ale analizei datelor


Datele reprezint expresii cantitative i calitative ale unor fenomene i procese Populaia este reprezentat de mulimea tuturor msurtorilor efective sau conceptuale care prezint interes pentru cercetare. Populaia statistic - totalitatea observaiilor posibile dintr-un studiu. Element, individ,subiect,obiect unitate compoenent a unei populaii statistice Eantionul reprezint o submulime de msurtori selectate dintr-o populaie, o submulime a populaiei statistice supus investigaiei tiinifice.

Caracteristici i variabile
Variabila = orice calitate, caracteristic sau constituent al unei persoane sau lucru, care poate fi msurat
toat cercetarea = studiul relaiilor dintre variabile (fie a asociaiilor, fie a diferenelor dintre variabile)

Tipuri de variabile
Datele sunt reprezentate in general sub forma de numere insa numerele nu au intotdeauna acelasi inteles si nu pot fi utilizate in acelasi mod. Pentru a face diferenta intre diferitele moduri de reprezentare, sunt considerate urmatoarele scale de masura a variabilelor:
nominal, ordinal, interval

Tipuri de variabile
Variabile nominale variabile sub form de nume sau alte simboluri reprezentnd categorii ce nu pot fi ordonate una n raport cu cealalt ex: pt. variabila status: 1 reprezinta persoanele casatorite 2 reprezinta persoanele divortate 3 reprezinta persoanele care nu au fost casatorite, etc. ex. numele, grupa sanguin, sexul, rasa, culoarea ochilor, diagnosticul etc. Variabile ordinale variabile ce sunt clasificate n mai mult de dou categorii iar intre categorii exist o ordine natural ex. 1 reprezinta absolventii de facultate 2 reprezeinta absolventii de liceu 3 reprezinta absolventii de gimnaziu 4 reprezinta absolventii de scoala primara in aceasta situatie ordinea numerelor reprezinta ordinea categoriilor

ex. Un caz particular de variabile nominale sunt variabile dihotomice (binare, bimodale) = variabile ce nu pot lua dect dou valori ex: mort/viu, fumtor/nefumtor, normal/anormal , DA/NU prezent/absent,

grupe de varsta, grupe de vechime, nivel de scolarizare

Obs. Numarul atribuit categoriei este arbitrar putand fi schimbat fara pierderi de informatii.

Tipuri de variabile
Variabile cantitative continue variabile cu un numr potenial infinit de valori de-a lungul unui continum ex. nlimea, greutatea, TA, vrsta etc. discontinue (discrete) variabile ce pot fi descrise numai prin uniti ntregi ce nu pot fi msurate n intervale mai mici dect unitatea ex. nr. copii, anul nasterii, nr. email-uri etc.

Tipuri de variabile Statistic descriptiv


Variabile nominale
Singurele operatii matematice care se pot face cu date nominale sunt calculul frecventei numarului de categorii in baza de date, rezultand
tabele de frecven (frecvena observaiilor pe categorii) grafic: bare, plcint modul (categoria cea mai frecvent)

Variabile ordinale
tabel de frecven, mediana, modul

utilitatea mediei este discutabil (intervalele dintre categorii nu sunt egale ca mrime)

Tipuri de variabile
Variabile cantitative msura tendinei centrale (media, mediana, modul) msura dispersiei (deviaia standard, variana) distribuia normala