Sunteți pe pagina 1din 5

1.2.

2 Pre-tratarea datelor

Este esențială pentru a evita o greșeală.Primul pas în EDA cuprinde date univariate de
analiză utilizând statistici de bază și descriptive (de exemplu, calcul din medie, abaterea
standard, varianță, șiretură, kurtoză, corelație matrice, t-test, F-test, ANOVA, cutii de
carton și whisker și verificarea normalității). Apoi, prezența unor valori excepționale,
adică observații care par a sparge modelul sau gruparea ,indicată de marea majoritate a
probelor, ar trebui evaluate deoarece cele mai multe metode convenționale multivariate
sunt sensibile pentru ei. Astfel, trebuie identificate valori extreme și apoi decizia trebuie
luată în legătură cu acceptarea sau respingerea valorii exagerate în procesul de
modelare. În acest scop,analiza manuală convențională și eliminarea valorii extreme
,dar, recent, s-au dezvoltat metode robuste de analiza datelor multivariate, în vederea
reducerii sau eliminării acestora efect al punctelor de date periferice și să permită restul
să fie predominant pentru a determina rezultatele. Metodele robuste se bazează pe
metodele exploratorii și diagnosticarea convențională externă .

Valorile caracteristicilor măsurate pot fi diferite de ordinele de magnitudine și / sau pot


fi măsurate în unități diferite și / sau prin diferite metode sau instrumente analitice.
Deci, unele variabile ar putea cântări mai mult decât altele pe rezultate. În scopul de a
modifica influențele relative ale variabilelor pe un model, o data poate fi efectuată o pre-
tratare cunoscută ca ponderare și / sau scalare. Ponderea constă în a da fiecărei
variabile o valoare nouă, adică înmulțind valorile inițiale cu o constantă care diferă între
variabile. Astfel, contribuțiile individuale s-au ajustat în mod egal la rezultate. Cele mai
commune metode de scalare sunt următoarele (i) centrarea medie: media se scade din
fiecare variabilă; (ii) standardizarea (sau autoscaling): fiecare variabilă este mai întâi
centrată și apoi împărțită la deviația sa standard; (iii) normalizarea: variabilele sunt
împărțite de către rădăcina pătrată a sumei pătratelor variabile; (iv) constantă ,rata
sumelor: fiecare variabilă este împărțită la suma tuturor variabilelor pentru fiecare
eșantion; (v) variabila de normalizare: variabilele sunt normalizate cu privire la o singură
variabilă; (vi) transformarea domeniului: valoarea minimă pentru o variabilă este setată
la 0, valoarea maxima la 1, iar toate valorile intermediare se situează de-a lungul unui
interval liniar între 0 și 1 [3,17,18]. Există și alte abordări care constau în combinarea
metodele de pre-procesare menționate mai sus; ponderare din fiecare variabilă în
funcție de anumite criterii externe; logaritmică transformare, util atunci când există
diferențe mari în intensități; scalarea selectivă a variabilelor prin blocuri de date sau
categorii; transformarea constantă a lungimii vectorului; etc.

Tehnici de analiză a datelor multivariate

Metodele multivariate pot fi subdivizate în funcție de diferite aspecte. În primul rând, ele
sunt diferențiate în funcție de structura care trebuie descoperită sau verificată împreună
cu ele. Metodele de determinare a structurii includ:

Analiza factorilor: Reduce structura la date relevante și variabile individuale. Studiile cu


factori se concentrează pe variabile diferite, astfel încât acestea sunt subdivizate în
analiza principală a componentelor și analiza corespondenței.

Analiza clusterului: observațiile sunt atribuite grafic grupelor variabile individuale și


clasificate pe aceste baze. Rezultatele sunt grupuri și segmente, cum ar fi numărul de
cumpărători ai unui anumit produs, care au între 35 și 47 de ani și au un venit ridicat.

Procedurile de revizuire structurală includ, printre altele, următoarele:

Analiza regresiei: investighează influența a două tipuri de variabile una asupra celeilalte.
Se vorbește despre variabilele dependente și independente. Primele sunt așa-numitele
variabile explicative, în timp ce acestea din urmă sunt variabile explicative. Primul
descrie starea actuală pe baza datelor, a doua explică aceste date prin intermediul
relațiilor de dependență dintre cele două variabileAnaliza de variație: determină
influența mai multor variabile individuale asupra grupurilor prin calcularea mediilor
statistice. Aici puteți compara variabilele dintr-un grup, precum și grupuri diferite, în
funcție de unde vor fi asumate abaterile. De exemplu: Care sunt grupurile care fac cel
mai des clic pe butonul "Cumpărați acum" din coșul de cumpărături?

Analiza discriminatorie: folosită în contextul analizei varianței pentru a distinge diferenta


între grupuri care pot fi descrise prin caracteristici similare sau identice.

https://en.ryte.com/wiki/Multivariate_Analysis_Methods

În general, este necesară pre-tratarea datelor înainte de aplicarea tehnicilor de analiză a


datelor multivariate. Uneori, este o parte a tehnicii chimice, de ex. pre-tratament de
date este adesea efectuat în analiza principală a componentelor (PCA). În tehnicile de
discriminare, scalarea poate fi făcută numai prin întregul set de date. Cu toate acestea,
tehnicile de modelare a claselor au posibilitatea suplimentară de scalare individuală a
fiecărei categorii. Asa ca trebuie luată o decizie suplimentară înainte ca o regulă de
clasificare sa poata fi dedusă din moment ce rezultatele clasificării depind de calea
respective, scalarea se face, așa cum s-a demonstrat pentru SIMCA.

Dezvoltarea metodei NIRS: date brute -pretratarea, precizia metodei

·0 datele brute preprocesate matematic elimină defectele din spectre

- primul și al doilea derivat

- Corecția scatterului multiclativ minimizează dimensiunea particulelor efecte

·1 valorile de performanță descriu precizia metodelor NIRS, termeni pentru a


verifica modelul multivariat:

- SEC, "Eroare standard de calibrare"

- SEP, "Eroare standard de predicție"

- Bias, ~ Diferența medie dintre măsurată și valorile prezise

-"Intervalul maxim de eroare" (± 2 SEP, dacă biasul este neglijabil)

Starea apei în alimente, influența asupra spectrelor NIR:

• Absorbant puternic, regiuni de1400 - 1460 + 1900 - 1950 nm

• Intensitățile benzilor modificate schimbările în legăturile cu hidrogen și

hidratare

• 4 maxime: (970 + 1190) 1450 +1940 nm ,diferite O-Hstretching și îndoirea O-H ,bandă
și combinații

Legăturile de hidrogen influențează absorbția NIR (1450 nm,50 nm); variabil


Spectrul NIR al cartofului și cel corespunzător derivat

Metode NIRS, analizând apa în alimente


·2 Primele aplicații: în industria cerealelor
·3 Astăzi: o furie largă de alimente: snack-uri, cafea, cookie-uri și biscuiți, amidon,
făînă de boabe de soia și porumb, lecitină, cereale, lapte, lapte praf, lapte, unt,
brânză,dulciuri ....
·4 Chiar în umiditate ridicată .., în stare lichidă, în solid sau semi-solid
alimente (în cuve sau cu sonde optiv)
·5 Analiză probelor intacte e. g. fructe, legume, carne și pește (prin utilizarea
celulelor de probă în mișcare, fibră optică)
·6 Miniaturizarea spectrometrelor: noi analitice puternice
unelte
Succesul aplicației NIRS (de exemplu, analiza datelor din apa din materii prime ...
controlul intrării mărfurilor ...) Analiza NIRS menține interacțiunea operatorului la un
nivel minim, permițând personalului neinstruit să facă o analiză de rutină, oferă
utilizatorilor flexibilitate optimă, minimizând costurile de analiză.

http://www.eurofoodwater.eu/pdf/2002/Buening-Pfaue_eurofoodwater2002.pdf

1.2.3 Explorarea și recunoașterea nesupravegheată a modelului tehnicilor

Principala tehnică EDA este PCA, care este adesea primul pas al analizei datelor pentru a
detecta modelele măsurate.PCA este o tehnică care, prin reducerea dimensionala a
datelor, permite sa vizualizezi cat mai mult din datele prezente in datele initiale.

Astfel, PCA transformă variabilele măsurate originale în variabile noi necorelate, numite
componente principale. Fiecare director component este o combinație liniară a
originalului de variabile masurate. Această tehnică permite un grup de axe ortogonale
care reprezintăcele mai mari variați de date . Prima, Componenta principală (PC1)
contabilizează maximul ,varianta totală, a doua (PC2) nu este corelată cu prima și
contabilizează maximul varianței reziduale și așa mai departe până când variația totală
este contabilizată. Din motive practice, este suficient să păstrăm doar acele componente
care țin cont de realizarea unui procent mare din variația totală. Coeficienții liniari din
relația inversă a combinațiilor liniare sunt numite încărcări de componente, adică
coeficienții de corelație între variabilele originale și componentele principale. Valorile
care reprezintă eșantioanele în spațiul definit de principalele componente sunt scorurile
componentelor. Pot fi folosite scorurile ca intrare la alte tehnici multivariate, în loc de
originalele variabile măsurate.

EDA (de exemplu, algoritmul din APC, definiția măsurilor de distanță și algoritmi de
grupare) este o tehnica ce pote fi găsita în chimia standard, articole sau manuale.

Clasificarea ceaiului în funcție de regiunea de origine, utilizând tehnici de recunoaștere a


modelului și date de urmărire a metalelor