Documente Academic
Documente Profesional
Documente Cultură
CUZA”, IAȘI
FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR
SPECIALIZAREA: DATA MINING
Introducere
Odată cu trecerea timpului, vinul a devenit un bun de lux, iar în prezent acesta se bucură tot
mai mult de o gamă largă de consumatori. În ultimii ani, Portugalia a prezentat o creștere
uimitoare privind exportul vinului său vinho verde ( din regiunea de nord-vest). Pentru a-și
susține creșterea, această industrie investește în noi tehnologii atât pentru procesele de
vinificație, cât și pentru vânzări.
Certificarea vinului și evaluarea calității sunt elemente cheie în acest context. Evaluarea
calității vinului este un proces important deoarece identifică cei mai importanți factori de
influență, ajutând astfel la îmbunătățirea producției vinurilor.
Certificarea vinurilor este în general evaluată prin teste fizico-chimice de laborator utilizate
în mod obișnuit pentru a caracteriza vinul prin determinarea densității, volumul alcoolului sau
valorile pH-ului, în timp ce testele senzoriale se bazează în special pe experți umani.
Scop
Scopul aceste lucrări este analiza diferențelor cu privire la calitatea vinului alb din
Portugalia, în funcție de volumul alcoolului (small, medium, high) , pH-ul acestuia, densitatea,
sulfiții din vin și zahărul rămas în vin.
Obiective
Pentru a atinge scopul propus, vom folosi modelarea econometrică care constă în :
regresia logistică binomială multiplă și regresia logistică multinomială multiplă. Folosim regresia
logistică binomială multiplă pentru a compara valorile observate ale variabilei răspuns dummy
(quality2, cu valori de -1 și 1), cu valorile prognozate. Regresia logistică multinomială multiplă o
folosim pentru a analiza factori de influență a calității vinului în funcție de cantitatea sulfiților
(small, medium, high) și pH-ul vinului.
Ipoteze
Pe parcursul acestei lucrari dorim sa aflam daca calitatea vinului este influentata de
urmatoarele variabile: pH, residual sugar, density si sulphates.
2. Prezentarea variabilelor înainte de transformare
Datele din această lucrare provin din regiunea de nord-vest a Portugaliei, numită Minho,
iar setul de date a fost preluat de pe https://archive.ics.uci.edu/ml/datasets/Wine+Quality . Datele
au fost colectate din mai 2004 pana în februarie 2007. Baza de date conține 4898 de înregistrări,
iar variabilele sunt : sulphates, pH, alcohol, residual sugar, density și quality.
După cum se poate observa variabila quality este integer, de aceea am transformat-o în
variabilă numerică pentru a nu întâmpina probleme în analiză.
Următorul pas a constat în transformarea variabilelor : quality în variabilă categorială cu
două categorii (sub_medie și peste_medie), quality în variabilă dummy (-1,1) , alcohol în
alcohol.vol(small, medium, high) și sulphates în sulphates.qty(small, medium, high)
Variabila pH
După cum se poate observa din graficul de mai sus, această variabilă nu are valori extreme.
Variabila density
La această variabilă au fost eliminate două valori extreme.
Variabila residual.sugar
Din această variabilă am eliminate 4 valori.
După înlocuirea valorilor extreme cu NA, am folosit funcția na.omit pentru a elimina toate
cazurile ce conțin valorile lipsă.
4. Statistica descriptivă
Tabel bidimensional
alcohol.vol Total
După cum se poate observa din tabelul de mai sus, din totatul de 4872 de valori analizate,
66.8% au calitatea peste medie, iar 33.2% au calitatea sub medie. Din totatul volumului de
alcool, 23.2% reprezintă vinurile cu un volum ridicat de alcool, 47.5% cu un volum mediu de
alcool și restul de 29.3% sunt vinurile cu volumul cel mai mic de alcool.
Din totalul vinurilor cu o calitate peste medie, cele mai multe vinuri sunt cele care au un
volum mediu de alcool, reprezentând 48.4%, iar în cazul vinurilor cu o calitate sub medie au un
volm al alcoolului scazut, avand un procent de 48.9%.
Tabelul tridimensional
sulphates.qty Total
Acest tabel a fost realizat pe baza cazurilor cu o calitate a vinului peste medie.
Se poate observa faptul că din totalul vinurilor cu un volum ridicat de alcool cele mai
multe au o cantitate de sulfiți scazută, având un procent de 39.2%. Vinurile care au un volum
mediu sau mic de alcool, au o cantitate medie de sulfiți, cu un procent de 49.3% , respectiv
60.7%.
Reprezentarea grafică a variabilelor
Cele mai multe vinuri care au o calitate peste medie sunt în număr de 3252, iar restul de
1619 sunt reprezentate de vinurile cu o calitate sub medie.
Din totalul vinurilor, cele mai multe au un volum al alcoolului mediu, urmat de un volum
mic, iar cele mai puține cazuri au un volum ridicat de alcool.
Graficul de mai sus ne arată că variabila residual.sugar prezintă o distribuție asimetrică la
dreapta.
Putem observa faptul că în cazul variabilei pH, distribuția este ușor asimetrică la dreapta.
Variabila density prezintă o distribuție ușor la dreapta.
Mărimi descriptive
Variabila pH are o medie de 3.188 și mediana de 3.18. În cazul variabilei density, putem
observa că aceasta are media și media de 0.994, respectiv 0.993. Pentru variabila residual.sugar,
valorile mediei si medianei sunt de 6.36 și 5.2.
Pentru aflarea modului variabilelor, am folosit funcția getmode.
În cazul variabilei quality1, cea mai mare frecvență de apariție o are categoria
peste_medie, iar în cazul variabilei alcohol.vol , frecvența de apariție cea mai mare o are
categoria medium.
Coeficientul de variație
Putem observa faptul că în cazul variabilei residual.sugar, seria este eterogenă, pe când în
cazul variabilelor density și pH, seria este omogenă.
5. Modelarea econometrică
Pentru a realiza o regresie ligistică binomială multiplă, trebuie să parcurgem următorii pași :
1)Analyze->Regression->Binary logistic:
2) Introducerea variabilelor:
Variabila raspuns este variabila dummy quality2, iar variabilele explicative sunt pH,
density, residual.sugar si sulphates.qty.
3) Urmatorul pas este separarea variabilelor explicative in numerice si categoriale :
4) Selectarea statisticilor
5) Ultimul pas consta in salvarea probabilitatilor ce urmeaza a fi folosite in constructia curbei
ROC.
Interpretarea rezultatelor
-1 0
1 1
Block 0
Classification Tablea,b
Observed Predicted
quality2 Percentage
-1 1 Correct
-1 3253 0 100.0
quality2
Step 0 1 1619 0 .0
Se poate observa faptul ca in ecuatia initiala a modelului este introdusa numai constanta.
Avand in vedere faptul ca valoarea sig-ului este mai mica decat pragul de semnificatie (0.05),
putem afirma faptul ca variabila raspuns este semnificativa din punct de vedere statistic.
Variables not in the Equation
Score df Sig.
pH 35.013 1 .000
In acest tabel sunt prezentate toate variabilele care nu au fost incluse in modelul initial.
Chi-square df Sig.
Testele Omnibus ale coeficienților de model sunt utilizate pentru a verifica daca noul
model (cu variabile independente incluse) reprezinta o imbunatatire fata de modelul initial.
Acesta utilizeaza teste chi-patrat pentru a vedea daca exista o diferenta semnificativa intre
probabilitatile Log-likelihoods ale modelului initial si modelul nou-creat. Daca noul model are
o valoare semnificativ mai redusă de -2LL comparativ cu linia de baza, atunci sugerează ca noul
model explica mai mult varianta rezultatului, ceea ce inseamna ca este o imbunatatire. Aici chi-
patratul este semnificativ (chi-square = 875.495, df = 5, p <.000), astfel că noul nostru model
este semnificativ mai bun.
Block 1
Model Summary
Putem observa faptul ca R2 are o valoare de 0.229, ceea ce inseamna ca modelul explica
22.9% din variatia rezultatului.
Classification Tablea
Observed Predicted
quality2 Percentage
-1 1 Correct
In urma analizei, putem observa faptul ca modelul a fost imbunatatit cu 2.4%, cea ce
inseamna ca 69.2% din cazuri au fost clasificate corect.
5.2 Regresia logistica multinomiala multipla
2) Introducerea variabilelor:
Ca variabila raspuns am folosit am folosit variabila quality1 folosind categoria “Peste_medie” iar
ca variabile explicative am folosit sulphates.qty si pH.
3) Alegerea statisticilor:
Pe baza valorii sig-ului, din tabelul de mai sus, putem afirma ca modelul final prezice mai
bine variabila dependenta fata de modelul fara constanta.
Goodness-of-Fit
Chi-Square df Sig.
Deoarece valoarea sig-ului este mai mica decat pragul de seminificatie putem afirma
faptul ca modelul se potriveste datelor.
Parameter Estimates
quality1a B Std. Error Wald df Sig. Exp(B) 95% Confidence Interval for
Exp(B)
[sulphates.qty=small] 0b . . 0 . . . .
Din tabelul de mai sus putem afirma ca variabila pH are valori cuprinse intre 2.154 si
4.913.
Pe baza valorii sig-ului categoria “high” a variabilei sulphates.qty nu este semnficativa
din punct de vedere statistic, restul variabilelor fiind semnificative cu un sig de 0.
Classification
Observed Predicted
Rezultatele obtinute ne arata faptul ca 66.7% din cazuri au fost clasificate corect.
Curba ROC
quality2 Valid N
(listwise)
Positivea 1619
Negative 3253
Din primul tabel rezultat putem observa ca sunt 1619 de cazuri positive si 3253 de cazuri
negative.
Area Under the Curve
Test Result Variable(s): Estimated Cell Probability for Response Category:
peste_medie
The test result variable(s): Estimated Cell Probability for Response Category:
peste_medie has at least one tie between the positive actual state group and the
negative actual state group. Statistics may be biased.
a. Under the nonparametric assumption
b. Null hypothesis: true area = 0.5
Area ne indica faptul ca modelul este semnificativ statistic lucru care il putem observa si
cu ajutorul valorii sig-ului.
Conluzii
In urma analizei efectuate putem afirma faptul ca variabila raspuns, calitatea vinului, este
influentata cel mai mult de pH-ul acestuia si de categoriile sulfitilor “small” si “medium”.
Prin urmare scopul si obiectivele au fost in concordanta cu rezultatele obtinute iar
ipotezele au fost indeplinite