Sunteți pe pagina 1din 28

UNIVERSITATEA ”AL. I.

CUZA”, IAȘI
FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR
SPECIALIZAREA: DATA MINING

Analiza statistică a calității


vinului

Coordonator : Prof. Dr. Laura Asandului

Studenți : Roșanu Laura-Georgiana


Tudose Maria Clara
Cuprins
1. Scopul, obiectivele și ipotezele analizei ................................................................................................ 3
Introducere ............................................................................................................................................... 3
Scop ........................................................................................................................................................... 3
Obiective ................................................................................................................................................... 3
Ipoteze ...................................................................................................................................................... 3
2. Prezentarea variabilelor înainte de transformare ................................................................................ 4
3. Verificarea și curățarea bazei de date, transformări ale variabilelor, outlieri ...................................... 4
4. Statistica descriptivă ............................................................................................................................. 9
Tabele cu variabilele în marimi relative .................................................................................................... 9
Reprezentarea grafică a variabilelor ....................................................................................................... 12
Mărimi descriptive .................................................................................................................................. 14
5. Modelarea econometrică.................................................................................................................... 16
5.1 Regresia logistică binomială multiplă ......................................................................................... 16
Interpretarea rezultatelor ....................................................................................................................... 18
5.2 Regresia logistica multinomiala multipla ........................................................................................ 22
Interpretarea rezultatelor ....................................................................................................................... 24
Curba ROC ............................................................................................................................................... 26
Conluzii ........................................................................................................................................................ 28
1. Scopul, obiectivele și ipotezele analizei

Introducere

Odată cu trecerea timpului, vinul a devenit un bun de lux, iar în prezent acesta se bucură tot
mai mult de o gamă largă de consumatori. În ultimii ani, Portugalia a prezentat o creștere
uimitoare privind exportul vinului său vinho verde ( din regiunea de nord-vest). Pentru a-și
susține creșterea, această industrie investește în noi tehnologii atât pentru procesele de
vinificație, cât și pentru vânzări.

Certificarea vinului și evaluarea calității sunt elemente cheie în acest context. Evaluarea
calității vinului este un proces important deoarece identifică cei mai importanți factori de
influență, ajutând astfel la îmbunătățirea producției vinurilor.

Certificarea vinurilor este în general evaluată prin teste fizico-chimice de laborator utilizate
în mod obișnuit pentru a caracteriza vinul prin determinarea densității, volumul alcoolului sau
valorile pH-ului, în timp ce testele senzoriale se bazează în special pe experți umani.

Scop

Scopul aceste lucrări este analiza diferențelor cu privire la calitatea vinului alb din
Portugalia, în funcție de volumul alcoolului (small, medium, high) , pH-ul acestuia, densitatea,
sulfiții din vin și zahărul rămas în vin.
Obiective

Pentru a atinge scopul propus, vom folosi modelarea econometrică care constă în :
regresia logistică binomială multiplă și regresia logistică multinomială multiplă. Folosim regresia
logistică binomială multiplă pentru a compara valorile observate ale variabilei răspuns dummy
(quality2, cu valori de -1 și 1), cu valorile prognozate. Regresia logistică multinomială multiplă o
folosim pentru a analiza factori de influență a calității vinului în funcție de cantitatea sulfiților
(small, medium, high) și pH-ul vinului.
Ipoteze

Pe parcursul acestei lucrari dorim sa aflam daca calitatea vinului este influentata de
urmatoarele variabile: pH, residual sugar, density si sulphates.
2. Prezentarea variabilelor înainte de transformare

Datele din această lucrare provin din regiunea de nord-vest a Portugaliei, numită Minho,
iar setul de date a fost preluat de pe https://archive.ics.uci.edu/ml/datasets/Wine+Quality . Datele
au fost colectate din mai 2004 pana în februarie 2007. Baza de date conține 4898 de înregistrări,
iar variabilele sunt : sulphates, pH, alcohol, residual sugar, density și quality.

3. Verificarea și curățarea bazei de date, transformări ale variabilelor,


outlieri

Primul pas a fost verificarea tipului variabilelor folosite în analiză.

După cum se poate observa variabila quality este integer, de aceea am transformat-o în
variabilă numerică pentru a nu întâmpina probleme în analiză.
Următorul pas a constat în transformarea variabilelor : quality în variabilă categorială cu
două categorii (sub_medie și peste_medie), quality în variabilă dummy (-1,1) , alcohol în
alcohol.vol(small, medium, high) și sulphates în sulphates.qty(small, medium, high)

Pentru crearea variabilelor cu 3 categorii, am folosit minimul, Q1, Q3 și maximul.

Detectarea valorilor extreme in setul de date am făcut-o cu ajutorul funcției outlier


remover.

Apelarea funcției pentru variabilele pH, density și residual.sugar.


Prin apelarea acestei functii se genereaza o reprezentare grafica a tuturor valorilor din setul
de date urmand sa dau click pe fiecare valoare extrema iar dupa ce apasam “Finish” fuctia
inlocuieste valorile selectate cu NA si afiseaza un grafic de tip normal QQ plot.

Variabila pH
După cum se poate observa din graficul de mai sus, această variabilă nu are valori extreme.

Variabila density
La această variabilă au fost eliminate două valori extreme.

Variabila residual.sugar
Din această variabilă am eliminate 4 valori.

După înlocuirea valorilor extreme cu NA, am folosit funcția na.omit pentru a elimina toate
cazurile ce conțin valorile lipsă.

4. Statistica descriptivă

Tabele cu variabilele în marimi relative

 Tabel bidimensional

quality1 * alcohol.vol Crosstabulation

alcohol.vol Total

high medium small


Count 1041 1575 637 3253
quality1 peste_medie
% within quality1 32.0% 48.4% 19.6% 100.0%
% within alcohol.vol 92.2% 68.1% 44.6% 66.8%

% of Total 21.4% 32.3% 13.1% 66.8%

Count 88 739 792 1619

% within quality1 5.4% 45.6% 48.9% 100.0%


sub_medie
% within alcohol.vol 7.8% 31.9% 55.4% 33.2%

% of Total 1.8% 15.2% 16.3% 33.2%


Count 1129 2314 1429 4872

% within quality1 23.2% 47.5% 29.3% 100.0%


Total
% within alcohol.vol 100.0% 100.0% 100.0% 100.0%

% of Total 23.2% 47.5% 29.3% 100.0%

După cum se poate observa din tabelul de mai sus, din totatul de 4872 de valori analizate,
66.8% au calitatea peste medie, iar 33.2% au calitatea sub medie. Din totatul volumului de
alcool, 23.2% reprezintă vinurile cu un volum ridicat de alcool, 47.5% cu un volum mediu de
alcool și restul de 29.3% sunt vinurile cu volumul cel mai mic de alcool.
Din totalul vinurilor cu o calitate peste medie, cele mai multe vinuri sunt cele care au un
volum mediu de alcool, reprezentând 48.4%, iar în cazul vinurilor cu o calitate sub medie au un
volm al alcoolului scazut, avand un procent de 48.9%.

 Tabelul tridimensional

alcohol.vol * sulphates.qty * quality1 Crosstabulation


quality1: Total

sulphates.qty Total

high medium small

Count 278 408 443 1129

% within alcohol.vol 24.6% 36.1% 39.2% 100.0%


high
% within sulphates.qty 24.3% 16.9% 33.8% 23.2%

% of Total 5.7% 8.4% 9.1% 23.2%

alcohol.vol Count 627 1140 547 2314

% within alcohol.vol 27.1% 49.3% 23.6% 100.0%


medium
% within sulphates.qty 54.8% 47.2% 41.7% 47.5%

% of Total 12.9% 23.4% 11.2% 47.5%


small Count 240 867 322 1429
% within alcohol.vol 16.8% 60.7% 22.5% 100.0%

% within sulphates.qty 21.0% 35.9% 24.5% 29.3%

% of Total 4.9% 17.8% 6.6% 29.3%


Count 1145 2415 1312 4872

% within alcohol.vol 23.5% 49.6% 26.9% 100.0%


Total
% within sulphates.qty 100.0% 100.0% 100.0% 100.0%

% of Total 23.5% 49.6% 26.9% 100.0%

Acest tabel a fost realizat pe baza cazurilor cu o calitate a vinului peste medie.
Se poate observa faptul că din totalul vinurilor cu un volum ridicat de alcool cele mai
multe au o cantitate de sulfiți scazută, având un procent de 39.2%. Vinurile care au un volum
mediu sau mic de alcool, au o cantitate medie de sulfiți, cu un procent de 49.3% , respectiv
60.7%.
Reprezentarea grafică a variabilelor

Cele mai multe vinuri care au o calitate peste medie sunt în număr de 3252, iar restul de
1619 sunt reprezentate de vinurile cu o calitate sub medie.

Din totalul vinurilor, cele mai multe au un volum al alcoolului mediu, urmat de un volum
mic, iar cele mai puține cazuri au un volum ridicat de alcool.
Graficul de mai sus ne arată că variabila residual.sugar prezintă o distribuție asimetrică la
dreapta.

Putem observa faptul că în cazul variabilei pH, distribuția este ușor asimetrică la dreapta.
Variabila density prezintă o distribuție ușor la dreapta.

Mărimi descriptive

Variabila pH are o medie de 3.188 și mediana de 3.18. În cazul variabilei density, putem
observa că aceasta are media și media de 0.994, respectiv 0.993. Pentru variabila residual.sugar,
valorile mediei si medianei sunt de 6.36 și 5.2.
Pentru aflarea modului variabilelor, am folosit funcția getmode.

În cazul variabilei quality1, cea mai mare frecvență de apariție o are categoria
peste_medie, iar în cazul variabilei alcohol.vol , frecvența de apariție cea mai mare o are
categoria medium.
Coeficientul de variație

Putem observa faptul că în cazul variabilei residual.sugar, seria este eterogenă, pe când în
cazul variabilelor density și pH, seria este omogenă.
5. Modelarea econometrică

5.1 Regresia logistică binomială multiplă

Pentru a realiza o regresie ligistică binomială multiplă, trebuie să parcurgem următorii pași :

1)Analyze->Regression->Binary logistic:

2) Introducerea variabilelor:
Variabila raspuns este variabila dummy quality2, iar variabilele explicative sunt pH,
density, residual.sugar si sulphates.qty.
3) Urmatorul pas este separarea variabilelor explicative in numerice si categoriale :

4) Selectarea statisticilor
5) Ultimul pas consta in salvarea probabilitatilor ce urmeaza a fi folosite in constructia curbei
ROC.

Interpretarea rezultatelor

Case Processing Summary

Unweighted Casesa N Percent

Included in Analysis 4872 100.0

Selected Cases Missing Cases 0 .0

Total 4872 100.0


Unselected Cases 0 .0
Total 4872 100.0

a. If weight is in effect, see classification table for the total number of


cases.

Primul output ne arata ca in aceasta analiza au fost introduse toate cazurile.


Dependent Variable Encoding

Original Value Internal Value

-1 0
1 1

Acest output ne arata codificarea SPSS-ului a variabilei raspuns.

Block 0

Classification Tablea,b

Observed Predicted

quality2 Percentage
-1 1 Correct

-1 3253 0 100.0
quality2
Step 0 1 1619 0 .0

Overall Percentage 66.8

a. Constant is included in the model.


b. The cut value is .500

Din totalul clasificarilor, 66.8% au fost clasificate corect.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant -.698 .030 526.316 1 .000 .498

Se poate observa faptul ca in ecuatia initiala a modelului este introdusa numai constanta.
Avand in vedere faptul ca valoarea sig-ului este mai mica decat pragul de semnificatie (0.05),
putem afirma faptul ca variabila raspuns este semnificativa din punct de vedere statistic.
Variables not in the Equation

Score df Sig.

pH 35.013 1 .000

density 383.445 1 .000

residual.sugar 48.017 1 .000


Variables
Step 0 sulphates.qty 40.368 2 .000

sulphates.qty(1) 28.552 1 .000

sulphates.qty(2) 33.735 1 .000

Overall Statistics 772.505 5 .000

In acest tabel sunt prezentate toate variabilele care nu au fost incluse in modelul initial.

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 49.367 2 .000

Step 4 Block 875.495 5 .000

Model 875.495 5 .000

Testele Omnibus ale coeficienților de model sunt utilizate pentru a verifica daca noul
model (cu variabile independente incluse) reprezinta o imbunatatire fata de modelul initial.
Acesta utilizeaza teste chi-patrat pentru a vedea daca exista o diferenta semnificativa intre
probabilitatile Log-likelihoods ale modelului initial si modelul nou-creat. Daca noul model are
o valoare semnificativ mai redusă de -2LL comparativ cu linia de baza, atunci sugerează ca noul
model explica mai mult varianta rezultatului, ceea ce inseamna ca este o imbunatatire. Aici chi-
patratul este semnificativ (chi-square = 875.495, df = 5, p <.000), astfel că noul nostru model
este semnificativ mai bun.
Block 1

Model Summary

Step -2 Log likelihood Cox & Snell R Nagelkerke R


Square Square

4 5319.745a .164 .229

a. Estimation terminated at iteration number 5 because


parameter estimates changed by less than .001.

Putem observa faptul ca R2 are o valoare de 0.229, ceea ce inseamna ca modelul explica
22.9% din variatia rezultatului.

Classification Tablea

Observed Predicted

quality2 Percentage

-1 1 Correct

-1 2758 495 84.8


quality2
Step 4 1 1005 614 37.9

Overall Percentage 69.2

a. The cut value is .500

In urma analizei, putem observa faptul ca modelul a fost imbunatatit cu 2.4%, cea ce
inseamna ca 69.2% din cazuri au fost clasificate corect.
5.2 Regresia logistica multinomiala multipla

Pentru realizarea acestei analize am folosit urmatorii pasi:


1)Analyze->Regression->Multinomial logistic:

2) Introducerea variabilelor:
Ca variabila raspuns am folosit am folosit variabila quality1 folosind categoria “Peste_medie” iar
ca variabile explicative am folosit sulphates.qty si pH.

3) Alegerea statisticilor:

4) Salvarea probabilitatilor ce vor fi folosite pentru curba ROC


Interpretarea rezultatelor

Model Fitting Information

Model Model Fitting Likelihood Ratio Tests


Criteria

-2 Log Chi-Square df Sig.


Likelihood

Intercept Only 1100.787


Final 1027.818 72.969 3 .000

Pe baza valorii sig-ului, din tabelul de mai sus, putem afirma ca modelul final prezice mai
bine variabila dependenta fata de modelul fara constanta.

Goodness-of-Fit

Chi-Square df Sig.

Pearson 392.136 255 .000


Deviance 419.554 255 .000

Deoarece valoarea sig-ului este mai mica decat pragul de seminificatie putem afirma
faptul ca modelul se potriveste datelor.

Likelihood Ratio Tests

Effect Model Fitting Likelihood Ratio Tests


Criteria

-2 Log Chi-Square df Sig.


Likelihood of
Reduced Model

Intercept 1027.818a .000 0 .


pH 1059.884 32.066 1 .000
sulphates.qty 1065.299 37.480 2 .000

The chi-square statistic is the difference in -2 log-likelihoods between the


final model and a reduced model. The reduced model is formed by omitting
an effect from the final model. The null hypothesis is that all parameters of
that effect are 0.
a. This reduced model is equivalent to the final model because omitting the
effect does not increase the degrees of freedom.
Cu o probabilitate de 95% putem afirma ca variabilele explicative sunt semnficative din
punct de vedere statistic.

Parameter Estimates

quality1a B Std. Error Wald df Sig. Exp(B) 95% Confidence Interval for
Exp(B)

Lower Bound Upper Bound

Intercept -2.951 .665 19.673 1 .000

pH 1.180 .210 31.462 1 .000 3.253 2.154 4.913

peste_medie [sulphates.qty=high] .167 .090 3.404 1 .065 1.182 .990 1.411

[sulphates.qty=medium] -.282 .073 14.796 1 .000 .754 .653 .871

[sulphates.qty=small] 0b . . 0 . . . .

a. The reference category is: sub_medie.


b. This parameter is set to zero because it is redundant.

Din tabelul de mai sus putem afirma ca variabila pH are valori cuprinse intre 2.154 si
4.913.
Pe baza valorii sig-ului categoria “high” a variabilei sulphates.qty nu este semnficativa
din punct de vedere statistic, restul variabilelor fiind semnificative cu un sig de 0.

Classification

Observed Predicted

peste_medie sub_medie Percent Correct

peste_medie 3251 2 99.9%


sub_medie 1619 0 0.0%
Overall Percentage 100.0% 0.0% 66.7%

Rezultatele obtinute ne arata faptul ca 66.7% din cazuri au fost clasificate corect.
Curba ROC

Case Processing Summary

quality2 Valid N
(listwise)

Positivea 1619
Negative 3253

Larger values of the test


result variable(s) indicate
stronger evidence for a
positive actual state.
a. The positive actual state is
1.

Din primul tabel rezultat putem observa ca sunt 1619 de cazuri positive si 3253 de cazuri
negative.
Area Under the Curve
Test Result Variable(s): Estimated Cell Probability for Response Category:
peste_medie

Area Std. Errora Asymptotic Sig.b Asymptotic 95% Confidence


Interval

Lower Bound Upper Bound

.425 .009 .000 .408 .441

The test result variable(s): Estimated Cell Probability for Response Category:
peste_medie has at least one tie between the positive actual state group and the
negative actual state group. Statistics may be biased.
a. Under the nonparametric assumption
b. Null hypothesis: true area = 0.5

Area ne indica faptul ca modelul este semnificativ statistic lucru care il putem observa si
cu ajutorul valorii sig-ului.
Conluzii

In urma analizei efectuate putem afirma faptul ca variabila raspuns, calitatea vinului, este
influentata cel mai mult de pH-ul acestuia si de categoriile sulfitilor “small” si “medium”.
Prin urmare scopul si obiectivele au fost in concordanta cu rezultatele obtinute iar
ipotezele au fost indeplinite