Sunteți pe pagina 1din 50

Lean Six Sigma Training

Modulul M2 – Statistici Six Sigma

2018

Slide 1 © 2018 Business Future Solutions


Agenda

Ziua 1 Ziua 2 Ziua 3 Ziua 4 Ziua 5


Introducere in
Harta Procesului
metodologie

Fundamente Statistici Six


Lean Sigma
Fundamente
Six Sigma

Selectia
Proiectelor

© 2018 Business Future Solutions


Introducere

Obiective
Explicarea diferitelor statistici utilizate pentru
a exprima localizarea și dispersia datelor

Descrierea caracteristicilor si identificarea


unei Distribuții Normale

Utilizarea datelor pentru generarea de


diferite grafice și elaborarea de interpretări pe
baza valorilor de ieșire produse de acestea.

3 © 2018 Business Future Solutions


Date și Variabile

Datele sunt adesea discutate în termeni de variabile, în care o


variabilă este:
Orice caracteristică care variază de la un membru al
populației la altul.

Exemplu: înălțimea, în centimetri, care variază de la persoană, la


persoană.

4 © 2018 Business Future Solutions


Tipuri de date

5 © 2018 Business Future Solutions


Tipuri de Variabile

Există două tipuri de bază de variabile: numerice (sau cantitative) și de tip


categorie (sau calitative).

Variabile cantitative (numerice) : variabile care un număr, atribuit ca valoare


cantitativă.

Variabile calitative (tip categorie): variabilele definite de clasele sau


categoriile în care se încadrează un membru.
Acestea sunt exprimate prin cuvinte care desemnează apartenența la o
categorie.

6 © 2018 Business Future Solutions


Variabile de tip numeric (cantitative)
 Discrete: Reflectă un număr obținut prin numărare, fără zecimală.
Exemplu: numărul de defecte, numărul de clienți care revin

 Continue: Reflectă o măsurare; numărul de zecimale depinde de precizia


dispozitivului de măsurare.

Scale de masurare pentru variabile cantitative:

 Scală rationala: Datele care pot fi puse intr-o scală, clasificate și cu care pot fi
efectuate toate operațiile aritmetice, inclusiv divizare. (Diviziunea prin zero, este, desigur,
exclusă). O valoare de zero indică o absență completă a caracteristicii de interes.
Exemple: înălțime, greutate, tensiune arterială
 Scală de tip interval : Datele pot fi aranjate într-o anumită ordine și diferențele de
valori au semnificație. Datele pot fi ordonate într-o scală si diferențele pot fi interpretate si
pot fi comparate; nu exista zero, adevărat. Rapoartele nu pot fi comparate.
7
Exemplu: temperatura in grade Celsius.
Slide 7 © 2018 Business Future Solutions
Variabile de tip categorie (calitative)

Variabilele calitative pot fi nominale, ordinale sau atributive si sunt efinite de


clasa sau categoria în care se încadrează un membru al populatiei.
Scale de masurare pentru variabile calitative:

 Scală nominală: – data e de tip grupa, categorie, tip. Nu pot fi aranjate într-
o ordine si nici nu pot fi efectuate operații aritmetice.
Exemple: starea civilă, ramura de activitate.

 Scală ordinală: datele sunt aranjate în aceeași ordine, dar diferențele


dintre valorile de date nu pot fi calculate sau sunt lipsite de sens.

8
Slide 8 © 2018 Business Future Solutions
Să vedem – Tipuri de date

© 2018 Business Future Solutions


Parametri versus Statistici
Populație: Toate elementele care au “proprietatea de interes” studiata.
Eșantion: Un subset semnificativ mai redus al populației folosit pentru
realizarea unei analize.
Populatie

Eșantion

Eșantion Eșantion

Statisticile Eșantionului :
Parametri Populatiei:
– Descrierea aritmetica a esantionului
– Descrierea aritmetica a populatiei
– X-bar , s, p, s2, n
– µ,  , P, 2, N
Slide 10
10 © 2018 Business Future Solutions
Definiții

Variabila: O caracteristica privitoare la fiecare element individual al unei


populații sau eșantion.
Data (singular): Valoarea variabilei asociate cu un element al populației sau
eșantionului. Aceasta valoare poate fi un număr, un cuvânt, sau un simbol.
Data (plural): Setul de valori colectate pentru variabila din fiecare element ce
aparține eșantionului.
Experiment: O activitate planificata ale cărei rezultate furnizează o serie de
date.
Parametru: O valoare numerica ce rezuma toate datele unei întregi populații.
Statistica: O valoare numerica ce rezuma datele de eșantion.

Slide 11 © 2018 Business Future Solutions


Exemplu
Exemplu: Decanul unui colegiu este interesat sa afle vârsta medie a cadrelor
didactice. Identificați termenii de baza in aceasta situație.
Populația este vârsta tuturor cadrelor didactice ale colegiului.
Un eșantion este orice subset al populației respective. De exemplu, putem selecta 10
membri ai personalului didactic si determina vârsta acestora.
Variabila este “vârsta” fiecărui cadru didactic.
O data va fi vârsta fiecărui cadru didactic.
Datele vor fi setul de valori din eșantion.
Experimentul va fi metoda folosita pentru a selecta persoanele ce formează eșantionul
si determina vârsta efectiva a fiecărui cadru didactic ce face parte din eșantion.
Parametrul de interes este vârsta “medie” a tuturor cadrelor didactice din colegiu.
Statistica este vârsta “medie” a tuturor cadrelor didactice din eșantion.
Slide 12 © 2018 Business Future Solutions
Notație statistică – lista
Sumă O valoare individuală, o observație

Deviația Standard a datelor eșantionului O valoare individuală particulară (prima)

Deviația Standard a datelor populației Pentru fiecare, toate, valori individuale


Varianta datelor eșantionului Media datelor eșantionului
Varianta datelor populației
Media majoră (media mediilor)
Intervalul datelor (range - amplitudine)
Media datelor populației
Intervalul mediu al datelor (media range-uri)
Notație multivalentă, de ex. nr. subgrupurilor, O proporție a datelor eșantionului
nr. claselor
O proporție a datelor populației
Valoarea absolută a unui termen
Mărimea eșantionului
Mai mare decât, mai mic decât
Mai mare sau egal decât, mai mic sau egal Mărimea populației
decât

Slide 13 © 2018 Business Future Solutions


Statistici descriptive

Tendința centrala (Parametri ai localizării)


Media
Mediana
Modul

Dispersia (Parametri ai variatiei)

Range
Varianța
Deviația standard

Slide 14 © 2018 Business Future Solutions


Statistici descriptive

Fisierul BASIC STATISTIC.mtw

Slide 15 © 2018 Business Future Solutions


Parametrii localizării
Media este:
 Punctul aritmetic de echilibru al distribuției datelor.

Esantion Populatie

Statistici descriptive: Date

Variabile N N* Mean SE Mean TrMean StDev Minimum Q1 Median Q3 Variable Maximum

Date 200 0 5.0006 0.000654 5.0007 0.00925 4.9764 4.9943 5.0008 5.0072 Data 5.0241

Slide 16 © 2018 Business Future Solutions


Parametrii localizării
Mediana este:
Punctul median, sau procentul 50% al unei distribuții a datelor.
Aranjează datele în ordine crescătoare sau descrescătoare.
 Este valoarea unică din mijlocul listei ordonate, dacă avem un
număr impar de observații
 Este media celor două valori din mijlocul listei ordonate, dacă
avem un număr par de observații

Statistici descriptive: Date

Variable N N* Mean SE Mean TrMean StDev Minimum Q1 Median Q3 Variable Maximum

Data 200 0 5.0006 0.000654 5.0007 0.00925 4.9764 4.9943 5.0008 5.0072 Data 5.0241
Slide 17 © 2018 Business Future Solutions
Parametrii localizării
Media trunchiată este:
Compromisul dintre Medie și Mediană.
 Media trunchiată este calculată prin eliminarea unui procentaj specific
din observațiile cu valorile cele mai mari și cele mai mici din setul de
date și apoi calcularea mediei observațiilor rămase
 Utilă cu datele care au valori potențiale
extreme.

Statistici descriptive: Date

Variable N N* Mean SE Mean TrMean StDev Minimum Q1 Median Q3 Variable Maximum

Data 200 0 5.0006 0.000654 5.0007 0.00925 4.9764 4.9943 5.0008 5.0072 Data 5.0241

Slide 18 © 2018 Business Future Solutions


Parametrii localizării
Modul este:
Valoarea cu frecvența cea mai ridicată într-o distribuție de date.
Mod = 5.0025

Slide 19 © 2018 Business Future Solutions


Parametri ai variatiei
Interval (Range) este:
Diferenta intre valoarea cea mai mare si valoarea cea mai mica din setul de date.Un interval
mic semnifica o variabilitate redusa, un interval mare indica o variabilitate mare.

Range = Max - Min


Range = 5.0241-4.9764 = 0.0477
Variable N N* Mean SE Mean TrMean StDev Minimum Q1 Median Q3 Variable Maximum

Data 200 0 5.0006 0.000654 5.0007 0.00925 4.9764 4.9943 5.0008 5.0072 Data 5.0241

Interval intercvartile (Interquartile Range) este:


Diferenta intre percentila a 75a si percentila a 25a.

Interquartile Range = Q3 – Q1 = 5.0072-4.9943 = 0.0129

Folositi Range sau Interquartile Range cand distributia este Skewed.

Slide 20 © 2018 Business Future Solutions


Parametrii variației

Varianța este:
Abaterea pătratică medie față de medie a fiecărui punct de date
individual.

Esantion Populatie

Slide 21 © 2018 Business Future Solutions


Parametrii variației
Deviația standard este:
 Echivalentul deviației medii a valorilor de la Medie pentru o distribuție.
 O „unitate de măsură” pentru distanțele față de Medie.
 Se utilizează atunci când datele sunt simetrice.

Esantion Populatie

Variable N N* Mean SE Mean TrMean StDev Minimum Q1 Median Q3 Variable Maximum

Data 200 0 5.0006 0.000654 5.0007 0.00925 4.9764 4.9943 5.0008 5.0072 Data 5.0241

In general, deviatia standard a populatiei NU poate fi calculata.


Slide 22 © 2018 Business Future Solutions
Exerciţiu
LDL (Low-density lipoprotein ) este o parte importanta a testului de colesterol din sânge. LDL mai
mare de 130 mg / dl, reprezintă un factor de risc de a dezvolta boli cardiovasculare. Pentru a
preveni bolile cardiovasculare, un centru de sănătate a efectuat un test gratuit de colesterol din
sânge pentru toate persoanele cu vârsta peste 65 de ani. În total de opt persoane au participat la
screening-ul de sânge si rezultatele testului lor de sânge sunt enumerate mai jos:

LDL(mg/dl): 130, 143, 114, 110, 123, 110, 134, 124

După testul de sânge, se vrea a se ști:


the mean LDL score,
the median LDL score,
the mode of LDL scores,
the range of LDL scores,
the variance of LDL scores,
the standard deviation of LDL scores,
the minimum LDL score,
the maximum LDL score,
the Interquartile Range of LDL scores: (hint: 25% of LDL scores is 112)
23

© 2018 Business Future Solutions


Curba Normală
Curba Normală este o curbă netedă, simetrică, în formă de clopot, generată
de funcția Densitate.

Deviații standard

Este cel mai util model de probabilitate continuă, de vreme ce numeroase


măsurători naturale, cum ar fi înălțimile, masele etc. sunt aproximativ Normal
Distribuite.

Slide 24 © 2018 Business Future Solutions


Regula Empirică

Regula Empirică…

Slide 26 © 2018 Business Future Solutions


Distribuția Normală
Aria acoperită de curbă între oricare două puncte reprezintă proporția
distribuției între respectivele două puncte.
Aria dintre Medie și oricare
alt punct depinde de
distanta exprimata in
Deviații Standard fata de
Medie.
m x

Convertiți orice scor brut într-un scor Z folosind formula:

Consultați un set de Tabele de Normale Standard pentru a determina proporția


dintre μ și x.
Slide 27 © 2018 Business Future Solutions
Distribuția Normală Standard

Fiecare combinație de Medie și Deviație Standard generează o Curbă normală


unică:

Distribuția Normală „standard”:

 Are un μ = 0, și σ = 1
 Datele din orice Distribuție Normală pot fi determinate să se potrivească
Normalei standard prin convertirea scorurilor brute la scoruri standard.
 Scorurile Z măsoară distanța dintre Medie și valoarea unei anume date, în
Deviații Standard.

Slide 28 © 2018 Business Future Solutions


Z Table

Slide 29 © 2018 Business Future Solutions


Exerciţiu
Calcule de probabilitati pentru diverse distributii normale.
Dimensiunea nominala a pieselor debitate intr-o linie este de 1.400 mm,
Cu o deviatie standard de 3 mm. Calculati:
 Probabilitatea sa apara o piesa cu dimensiunea sub 1.398 mm
 Probabilitatea sa apara o piesa cu dimensiunea peste1.404 mm
 Probabilitatea sa apara o piesa cu dimensiunea intre 1.395 mm si 1.405 mm

30

© 2018 Business Future Solutions


Distribuția Normală
Distribuția Normală este cea mai recunoscută distribuție în statistică.

Care sunt caracteristicile unei Distribuții Normale?

 Este prezentă doar eroarea aleatorie


 Procesul este liber de cauze atribuibile
 Procesul este liber de derive și deviații

Deci ce este prezent în cazul în care datele sunt non-Normale?


Slide 31 © 2018 Business Future Solutions
De ce ar trebuie evaluată Normalitatea?
În timp ce un mare număr de procese naturale se comportă conform Distribuției
Normale, acesta nu este cazul unui mare număr de procese din economie, din zona
serviciilor și tranzacțiilor.
Există un număr mare de distribuții:

Există un număr mare de instrumente statistice care includ în calculele lor proprietăți
ale Distribuției Normale.

Prin urmare, înțelegerea a cât de „Normale” sunt datele va avea impact asupra
modului în care abordăm datele.

Slide 32 © 2018 Business Future Solutions


Instrumente pentru evaluare Normalității
Forma oricărei curbe Normale poate fi calculată pe baza funcției de densitate a
Probabilității Normale.

Testele de Normalitate compară în esență forma curbei calculate cu distribuția


actuală a punctelor datelor Dvs.

Pentru scopurile acestei instruiri, ne vom concentra asupra a două modalități


ale MINITAB™ de evaluare a Normalității:
– Testul Anderson-Darling
– Testul Probabilității Normale

Priviți această curbă!


Slide 33 © 2018 Business Future Solutions
Graficul Probabilității Normale

Valoarea P 0,975
Testul Anderson-Darling este un bun test indicator
pentru normalitate: dacă valoare P este mai mare de
0,05, datele Dvs. sunt suficient de Normale pentru
majoritatea scopurilor.

Slide 34 © 2018 Business Future Solutions


Statistici descriptive

Testul Anderson-Darling apare de asemenea și


în aceste valori de ieșire. Din nou, dacă
valoarea P depășește 0,05 se poate presupune
că datele sunt Normale.

Valoare P = 0.975

Slide 35 © 2018 Business Future Solutions


Exercițiu pentru verificarea normalitatii

1.Generați Grafice ale Probabilității Normale și rezumatul


grafic folosind fișierul „Distribution.mtw”.

36 © 2018 Business Future Solutions


Dacă Datele nu sunt Normale, nu vă panicați!
 Datele Normale nu sunt atât de comune în lumea tranzacțiilor.

 Există un număr mare de instrumente statistice utile care pot fi folosite


pentru analiza datelor.

 Înseamnă că trebuie doar să vă gândiți la date într-un mod ușor diferit.

Nu atingeți butonul acesta!


Slide 37 © 2018 Business Future Solutions
Introducere în Reprezentarea Grafică
Scopul Reprezentării Grafice este să:
 Identifice relațiile potențiale dintre variabile.
 Identifice riscurile în satisfacerea necesităților critice ale Clientului,
Companiei și Publicului.
 Ofere o perspectivă asupra naturii lui X, care ar putea sau nu să controleze
pe Y.
 Prezinte rezultatele colectării pasive de date.
În această secțiune vom trata …
 Histograme
 Grafice sub formă de puncte (Dot Plot)
 Grafice sub formă de arii rectangulare (Box Plot)
 Grafice de dispersie (Scatter Plot)
 Grafice ale seriilor temporale (Time Series Plots)
Slide 38 © 2018 Business Future Solutions
Histograma
O Histogramă reprezintă datele care au fost rezumate sub formă de intervale.
Poate fi utilizată pentru evaluarea simetriei Dezaxării datelor.

Histogram of Histogram

40

30

Frequency
20

10

0
98 99 100 101 102 103
Histogram

Pentru a construi o Histogramă, axa orizontală este divizată în intervale egale,


cu o bară verticală la fiecare interval pentru a reprezenta frecvența acestuia
(numărul valorilor care se încadrează în respectivul interval).
Slide 39 © 2018 Business Future Solutions
Graficul sub formă de puncte (Dot plot)
Graficul sub formă de puncte poate fi un instrument util ca alternativă la
Histogramă, în special dacă doriți să reprezentați valorile individuale sau să
„periați” datele.

Dotplot of Granular

44 46 48 50 52 54 56
Granular

Slide 41 © 2018 Business Future Solutions


Grafice sub formă de arii rectangulare (Box Plot)
Graficele sub formă de arii rectangulare rezumă datele sub formă de perimetru, dispersie și
centru ale datelor, având si identificarea datelor excentrice (Outliers).
Graficele sub formă de arii rectangulare necesită ca una dintre variabile, X sau Y, să fie
categorică sau separată, iar cealaltă să fie Continuă.
Un minimum de 10 observații trebuie incluse în generarea Graficului rectangular.
Valoare maximă

Percentila75
Mijloc Percentila 50 (Mediana)
50% din date Media
Percentila 25

Minima (1,5 x Intervalul inter-cvartile


sau valoarea minimă)
Outliers

Slide 42 © 2018 Business Future Solutions


Anatomia unui Box PLot

Outlier
*
Limita superioară:
Q3+1,5(Q3-Q1) sau maxima
Upper Whisker

Q3: Percentila 75

BOX
Mediana
Q2: Mediana, Percentila 50
Q1: Percentila 25

Lower Whisker

Limita inferioară:
Q1-1,5(Q3-Q1) sau minima
Slide 43 © 2018 Business Future Solutions
Graficul de dispersie (Scatter Plot)
Graficul de dispersie (Diagrama de dispersie) reprezintă grafic perechi de
date numerice, cu câte o variabilă pe fiecare axă, pentru a căuta o relație
între acestea.

Slide 45 © 2018 Business Future Solutions


Grafice ale seriilor temporale (Time Series Plot)
Graficele seriilor temporale vă permit studierea datelor în timp.
În funcție de forma și frecvența tiparelor graficului, mai multe valori X pot fi identificate
ca fiind critice …… sau eliminate.

Time Series Plot of Time 1

602

601

600

Time 1
599

598

597
1 10 20 30 40 50 60 70 80 90 100
Index

Slide 46 © 2018 Business Future Solutions


Exemple Time Series
Graficul seriei temporale de mai jos artă un răspuns foarte dinamic.
Time Series Plot of Time 1

602

601

600
Time 1

599

598

597
1 10 20 30 40 50 60 70 80 90 100
Index

Ce alte caracteristici sunt prezente?


Slide 47 © 2018 Business Future Solutions
Multi-Vari Charts
Graficele multi-vari ilustreaza influenta mai multor factori variabili asupra
unei singure iesiri.

Exemplu: Studiu asupra ratei de defecte, avand ca variabile schimbul


(dimineata, dupa-amiaza sau noapte), ziua saptamanii (luni-vineri) si
departamentul (pregatire, productie, ambalare). Aceeasi echipa dintr-un
departament a fost masurata timp de 3 saptamani, in fiecare saptamana
lucrand in alt schimb.

Fisier: Multi-Vari Chart.mtw

Slide 48 © 2018 Business Future Solutions


Multi-Vari Charts

Slide 49 © 2018 Business Future Solutions


Multi-Vari Charts

Slide 50 © 2018 Business Future Solutions


Utilizarea instrumentului potrivit
Analiza Statistica a Datelor
Evaluarea potrivirii Stabilirea Cuantificarea si Cunatificarea relatiilor Ajustarea
unei distributii cu semnificatiei stabilirea semnificatiei intre intrarile si iesirile procesului pt.
un model teoretic schimbarilor in timp diferentelor procesului identificarea
− Normality Test (AD) − Statistical Process Control − Confidence Intervals − Simple / Multiple Regression relatiilor
− Individual Dist. Identif. − Run Charts − Hypothesis Testing − Binary / Logistic Regression − Design of Experiments

Analiza Grafica de Datelor


Caracterizarea Urmarirea Compararea Comparerea Examinarea Compararea
distributiilor schimbarilor in distributiilor proportiilor si relatiilor dintre categoriilor
− Histogram timp − Box Plot procentajelor intrari si iesiri de date
− Graphical Summary − Time Series Plot − Individual Value Plot − 100% Stacked Bar Chart − Scatter / Matrix Plot − Pareto Chart
− Probability Plot

DATE

Unde masuram ? Ce masuram ?


Slide 51 © 2018 Business Future Solutions
Sumar

Statistici de bază
Statistici descriptive
Distribuția Normală
Evaluarea Normalității
Tehnici de reprezentare grafică

SFARSIT (THE END)

Slide 52 © 2018 Business Future Solutions


Intrebari

© 2018 Business Future Solutions

S-ar putea să vă placă și