Sunteți pe pagina 1din 43

1.

Recunoasterea probelor
1.1 Introducere
Introducerea în prezent a instrumentelor analitice moderne permit producerea de cantități
mari de informații (variabile sau caracteristici) pentru un număr mare de probe , care pot fi
analizate în timp relativ scurt. Acest lucru duce la disponibilitatea unor matrici de date
multivariate care necesită utilizarea unor proceduri matematice și statistice, în scopul de a
extrage eficient datele care ne sunt utile .

Tehnicile pentru recunoașterea tehnicilor supravegheate utilizează informațiile despre clasa


membrilor de mostre la un anumit tip de grup (clasă sau categorie) pentru a clasifică noi
probe necunoscute într-una din clasele cunoscute bazate pe modelul său de măsurători .

Procedurile de recunoaștere a modelelor supravegheate utilizează o metodă comună ,o


strategie, indiferent de algoritmul aplicat, care constă în următoarele etape :

 Selectarea unei metode, a unei calibrări și a unui set de teste, care constau în obiecte
de membru de clasă cunoscute pentru care variabilele sunt măsurate. Setul de
calibrare este utilizat pentru optimizarea parametrilor caracteristici pentru fiecare
multivariat de tehnică.
 Selecție variabilă. Aceste variabile care conțîn informații pentru clasificarea vizată
sunt păstrate, în timp ce aceste variabile codează zgomotul și / sau fără nici o putere
de discriminare este eliminat.
 Construirea unui model folosind setul de antrenament. Un mathematic model este
derivat între un anumit număr de variabile măsurat pe eșantioanele care constituie
setul de antrenament și categoriile lor cunoscute.
 Validarea modelului utilizând un set independent de probe,pentru a evalua
fiabilitatea clasificării realizate.

Au existat mai multe tipuri de metode de recunoaștere a modelului aplicate în știința


alimentelor, dar ele diferă esențial de felul în care acestea obțîn clasificarea . Sunt două
tipuri de metode de obicei distinse într-o primă abordare: cele concentrate privind
discriminarea între clase, cum ar fi discriminarea liniară analiză (LDA), k-vecinii cel mai
apropiat (kNN), clasificarea și arbori de regresie (CART), analiză discriminatorie parțială
minimă (PLS-DA) și rețelele neuronale artificiale (ANN); și aceleaorientate spre cursuri de
1
modelare, cum ar fi soft independentmodelarea analogiei de clasă (SIMCA) și inegal
dispersateclase (UNEQ).

Tehnicile de discriminare sunt folosite pentru a construi modele bazate pe toate categoriile
implicate în discriminare, întrucât metodele disjuncte de modelare a claselor creează o
separare model pentru fiecare categorie. Unul dintre dezavantajele discriminării metodelor
este că eșantioanele sunt întotdeauna clasificate într-una din categoriile respective, chiar
dacă nu aparțîn niciuneia dintre ele. Metodele de modelare a claselor iau în considerare
acele obiecte care se potrivesc modelului pentru o categorie că parte a modelului și
clasificat că non-membri cei care nu. Cu toate acestea, în ceea ce privește clasificarea
abilități, examinările empirice recente arată că SIMCA nu este la fel de puternic că și înainte;
CAIMAN, CART și variantele de analiză discriminantă sunt mai bune .

Tehnicile de recunoaștere a modelelor supravegheate pot fi de asemenea grupate că


parametrice / non-parametrice , deterministe /probabilistic sau liniar / neliniar. Tehnici
parametrice cum ar fi LDA, PLS-DA, SIMCA și UNEQ .Statistici în metodele non-parametrice
cum ar fi kNN și CART nu se bazează pe distribuție ,ipoteza, ceea ce face estimarea
probabilităților de clasificare corectă mai dificilă.La linia liniară / neliniară, clasificarea se
bazează pe natură funcțiilor discriminante, linear / non-linear, respectiv, folosit pentru a
discrimina printre clase.

1.2 Proceduri preliminare


Se presupune că datele analitice sunt obținute prin validare ,metode analitice în ceea ce
privește precizia, sensibilitatea, specificitate, incertitudine, robustețe și trasabilitate. În plus,
datele utilizate pentru formare ar trebui să fie suficient de mari pentru a le acoperi variația
posibilă cunoscută în domeniul problemei.

Supravegherea recunoașterii modelului necesită un set de antrenament cu obiecte de


categorii cunoscute pentru a obține un model pentru identificarea probelor necunoscute.
Prin urmare, este obligatoriu să stabiliți mai întâi dacă măsurătorile chimice sunt de fapt
bune,suficient pentru a se încadra în clasele predeterminate, deoarece tehnicile de
recunoaștere nu pot compensa modelele slab proiectate ,experimente sau date
experimentale inadecvate . Această sarcină poate să fie dificilă datorită faptului că tehnicile
analitice modern sunt capabile să genereze atât de multe date că informațiile esențiale nu
pot fi evidente. Analiză datelor exploratorii (EDA) (și recunoașterea modelului
nesupravegheat) este utilizat în mod obișnuit pentru simplificare și să obțînă o mai bună
cunoaștere a seturilor de date. Provocarea este să eliminați redundanța și zgomotul,
păstrând în același timp semnificația informației.

Exemplu de test EDA printr-o nouă tehnică pe bază de microparticule pentru proteina C

Tehnicile noi de testare au fost aplicate la un test nou dezvoltat pe bază de microparticule
pentru proteina C reactivă (CRP). Prin utilizarea a două microparticule cu dimensiuni diferite

2
acoperite covalent cu doi anticorpi monoclonali cu reactivitate diferită, o sensibilitate
ridicată și o limită superioară de măsurare ce pot fi realizate simultan, rezultând un
domeniu dinamic remarcabil de larg.

Principiul metodei

(EDA) este o abordare a analizei seturilor de date pentru a rezuma principalele lor
caracteristici, adesea cu metode vizuale.

EDA diferă de analiza inițială a datelor (IDA), [1] care se axează mai mult pe verificarea
ipotezelor necesare pentru testarea modelului și a testelor de ipoteză și tratarea valorilor
lipsă și transformarea variabilelor după cum este necesar..

https://en.wikipedia.org/wiki/Exploratory_data_analysis

Modul de lucru

Această gamă a fost îmbunătățită suplimentar prin calcularea optimă a semnalului (rată de
răspuns) cu o nouă capacitate software a COBAS® INTEGRA, un analizor de chimie clinică.
Analiza a arătat o mare precizie între 2 mg / l și 160 mg / l, cu numai 2,5 μl specimen. Limita
de detecție a fost estimată că fiind de 0,3 mg / l CRP. Testul a fost de patru până la opt ori
mai sensibil și mai precis decât testele turbidimetrice sau nepfelometrice existente, cu limite
de măsurare superioare comparabile. Analiza a arătat, de asemenea, o bună liniaritate și s-a
corelat bine cu analizele comerciale. Acest nou test pe bază de microparticule CRP oferă
precizia necesara pentru a determina CRP la concentrații scăzute, unde sunt avute în vedere
noi implicații clinice, cum ar fi prognosticul bolilor cardiovasculare. Gama dinamică largă a
testului va duce suplimentar la o reducere a numărului de analize repetate, îmbunătățind
astfel eficacitatea determinărilor CRP din laboratoarele clinice

3
În chimia alimentelor, datele brute folosite pentru tratamente chimice sunt în general date
fizice sau chimice: conductivitatea; pH; umiditate; aciditate totală; concentrații de substanțe
chimice specific în probele măsurate prin tehnici analitice (HPLC sau GC); amprente, cum ar
fi cromatograme sau spectroscopice măsurători (semnale specifice sau spectre complete)
obținute prin spectroscopie IR, RMN, MS, UV-vis sau fluorescență; semnale de la senzori,
cum ar fi nasul electronic sau limbi; și / sau date din analiză senzorială a probelor. Selectate
de regiunile spectrale sau semnalele specifice sau lungimi de undă selectate de multe ori
oferă rezultate mai bune în clasificări decât utilizarea întregului spectral . Se pot selecta
regiuni de semnal sau spectrale specifice bazate pe o cunoaștere a semnalelor care indică
prezența de grupuri chimice specifice sau bazate pe tratamente chimice.

https://www.sciencedirect.com/science/article/pii/S0308814699002253

1.2.1 Procesarea semnalului

Datele digitale (de exemplu, spectrele, integralele de vârf, schimbările de vârf și pozițiile) de
multe ori depind de modul în care informațiile sunt prelucrate, deci o atenție deosebită ar
trebui acordată manipulării acestora. Spectrele și cromatogramele sunt semnale secvențiale
în timp sau în frecvență, pot fi procesate folosind diferite metode: (i) netezirea, în
ordinepentru a elimina zgomotul fără a extinde excesiv vârfurile; (Îi) derivare, pentru a
crește rezoluția; (iii) convoluție, pentru semnal, sporire; (iv) transformarea Fourier (FT) în
spectroscopie astfel că RMN și IR, conversia datelor brute în "domeniul de timp" la
"domeniul de frecvență"; (v) transformări wavelet, pentru netezire sau compresie de date;
(iv) metode bayesiene; (vii) ortogonalizarea, pentru a elimina variațiile sistematice ale
datelor care nu sunt corelate cu calitatea de membru al clasei. Mai mult, combinații diferite
din aceste metode sunt de asemenea utilizate pentru prelucrarea semnalelor.

Transformarea Fourier-descriere

Principiul metodei

4
Transformarea Fourier necalificată se referă la transformarea funcțiilor unui argument real
continuu și produce o funcție continuă de frecvență, cunoscută sub numele de distribuție de
frecvență.

O funcție este transformată în alta și operația este reversibilă. Atunci când domeniul funcției
de intrare (inițială) este timpul (t), iar domeniul funcției de ieșire (finală) este frecvența
obișnuită, transformarea funcției s (t) la frecvența f este dată de numărul complex:

Evaluarea acestei cantități pentru toate valorile lui f produce funcția de domeniu de
frecvență. Apoi s (t) poate fi reprezentat ca o recombinare a exponentialelor complexe ale
tuturor frecventelor posibile:

care este formula de transformare inversă. Numărul complex, S (f), transmite amplitudinea
și faza frecvenței f.

Metode bayesiene -Ex.Modelul linear

Modelele analizate în această secțiune sunt exemple ale modelului linear general în care
datele pot fi descrise în termenii unei combinații liniare de funcții de bază cu un aditiv

5
component de zgomot Gaussian. Astfel de modele pot fi utilizate ca o aproximare rezonabilă
la multe semnale, incluzând canalele de vorbire, de muzică și de comunicații digitale.

Exprimăm modelul în formă generală:

unde gq (n) este valoarea unei funcții de model dependente de timp gq (t) evaluată la
momentul tn.

Exprimați în notație matrice-vector avem:

Unde:

d este o matrice N1 a punctelor de date

e este un vector N1 al probelor de zgomot

G este o matrice N Q ale cărei coloane sunt funcțiile de bază evaluate la fiecare punct

în seria de timp

b este un vector coeficient liniar Q1.

https://en.wikipedia.org/wiki/Fourier_analysis

1.2.2 Pre-tratarea datelor

Este esențială pentru a evita o greșeală.Primul pas în EDA cuprinde date univariate de
analiză utilizând statistici de bază și descriptive (de exemplu, calcul din medie, abaterea
standard, varianță, șiretură, kurtoză, corelație matrice, t-test, F-test, ANOVA, cutii de carton

6
și whisker și verificarea normalității). Apoi, prezența unor valori excepționale, adică
observații care par a sparge modelul sau gruparea ,indicată de marea majoritate a probelor,
ar trebui evaluate deoarece cele mai multe metode convenționale multivariate sunt
sensibile pentru ei. Astfel, trebuie identificate valori extreme și apoi decizia trebuie luată în
legătură cu acceptarea sau respingerea valorii exagerate în procesul de modelare. În acest
scop,analiza manuală convențională și eliminarea valorii extreme ,dar, recent, s-au dezvoltat
metode robuste de analiza datelor multivariate, în vederea reducerii sau eliminării acestora
efect al punctelor de date periferice și să permită restul să fie predominant pentru a
determina rezultatele. Metodele robuste se bazează pe metodele exploratorii și
diagnosticarea convențională externă .

Valorile caracteristicilor măsurate pot fi diferite de ordinele de magnitudine și / sau pot fi


măsurate în unități diferite și / sau prin diferite metode sau instrumente analitice. Deci,
unele variabile ar putea cântări mai mult decât altele pe rezultate. În scopul de a modifica
influențele relative ale variabilelor pe un model, o data poate fi efectuată o pre-tratare
cunoscută ca ponderare și / sau scalare. Ponderea constă în a da fiecărei variabile o valoare
nouă, adică înmulțind valorile inițiale cu o constantă care diferă între variabile. Astfel,
contribuțiile individuale s-au ajustat în mod egal la rezultate. Cele mai commune metode de
scalare sunt următoarele (i) centrarea medie: media se scade din fiecare variabilă; (ii)
standardizarea (sau autoscaling): fiecare variabilă este mai întâi centrată și apoi împărțită la
deviația sa standard; (iii) normalizarea: variabilele sunt împărțite de către rădăcina pătrată a
sumei pătratelor variabile; (iv) constantă ,rata sumelor: fiecare variabilă este împărțită la
suma tuturor variabilelor pentru fiecare eșantion; (v) variabila de normalizare: variabilele
sunt normalizate cu privire la o singură variabilă; (vi) transformarea domeniului: valoarea
minimă pentru o variabilă este setată la 0, valoarea maxima la 1, iar toate valorile
intermediare se situează de-a lungul unui interval liniar între 0 și 1 [3,17,18]. Există și alte
abordări care constau în combinarea metodele de pre-procesare menționate mai sus;
ponderare din fiecare variabilă în funcție de anumite criterii externe; logaritmică
transformare, util atunci când există diferențe mari în intensități; scalarea selectivă a
variabilelor prin blocuri de date sau categorii; transformarea constantă a lungimii vectorului;
etc.

Tehnici de analiză a datelor multivariate

Metodele multivariate pot fi subdivizate în funcție de diferite aspecte. În primul rând, ele
sunt diferențiate în funcție de structura care trebuie descoperită sau verificată împreună cu
ele. Metodele de determinare a structurii includ:

Analiza factorilor: Reduce structura la date relevante și variabile individuale. Studiile cu


factori se concentrează pe variabile diferite, astfel încât acestea sunt subdivizate în analiza
principală a componentelor și analiza corespondenței.

7
Analiza clusterului: observațiile sunt atribuite grafic grupelor variabile individuale și
clasificate pe aceste baze. Rezultatele sunt grupuri și segmente, cum ar fi numărul de
cumpărători ai unui anumit produs, care au între 35 și 47 de ani și au un venit ridicat.

Procedurile de revizuire structurală includ, printre altele, următoarele:

Analiza regresiei: investighează influența a două tipuri de variabile una asupra celeilalte. Se
vorbește despre variabilele dependente și independente. Primele sunt așa-numitele
variabile explicative, în timp ce acestea din urmă sunt variabile explicative. Primul descrie
starea actuală pe baza datelor, a doua explică aceste date prin intermediul relațiilor de
dependență dintre cele două variabileAnaliza de variație: determină influența mai multor
variabile individuale asupra grupurilor prin calcularea mediilor statistice. Aici puteți compara
variabilele dintr-un grup, precum și grupuri diferite, în funcție de unde vor fi asumate
abaterile. De exemplu: Care sunt grupurile care fac cel mai des clic pe butonul "Cumpărați
acum" din coșul de cumpărături?

Analiza discriminatorie: folosită în contextul analizei varianței pentru a distinge diferenta


între grupuri care pot fi descrise prin caracteristici similare sau identice.

https://en.ryte.com/wiki/Multivariate_Analysis_Methods

În general, este necesară pre-tratarea datelor înainte de aplicarea tehnicilor de analiză a


datelor multivariate. Uneori, este o parte a tehnicii chimice, de ex. pre-tratament de date
este adesea efectuat în analiza principală a componentelor (PCA). În tehnicile de
discriminare, scalarea poate fi făcută numai prin întregul set de date. Cu toate acestea,
tehnicile de modelare a claselor au posibilitatea suplimentară de scalare individuală a
fiecărei categorii. Asa ca trebuie luată o decizie suplimentară înainte ca o regulă de
clasificare sa poata fi dedusă din moment ce rezultatele clasificării depind de calea
respective, scalarea se face, așa cum s-a demonstrat pentru SIMCA.

Dezvoltarea metodei NIRS: date brute -pretratarea, precizia metodei

 datele brute preprocesate matematic elimină defectele din spectre

- primul și al doilea derivat

- Corecția scatterului multiclativ minimizează dimensiunea particulelor efecte

 valorile de performanță descriu precizia metodelor NIRS, termeni pentru a verifica


modelul multivariat:

- SEC, "Eroare standard de calibrare"

- SEP, "Eroare standard de predicție"

- Bias, ~ Diferența medie dintre măsurată și valorile prezise

8
-"Intervalul maxim de eroare" (± 2 SEP, dacă biasul este neglijabil)

Starea apei în alimente, influența asupra spectrelor NIR:

• Absorbant puternic, regiuni de1400 - 1460 + 1900 - 1950 nm

• Intensitățile benzilor modificate schimbările în legăturile cu hidrogen și

hidratare

• 4 maxime: (970 + 1190) 1450 +1940 nm ,diferite O-Hstretching și îndoirea O-H ,bandă și
combinații

Legăturile de hidrogen influențează absorbția NIR (1450 nm,50 nm); variabil

Spectrul NIR al cartofului și cel corespunzător derivat

Metode NIRS, analizând apa în alimente


 Primele aplicații: în industria cerealelor
 Astăzi: o furie largă de alimente: snack-uri, cafea, cookie-uri și biscuiți, amidon, făînă
de boabe de soia și porumb, lecitină, cereale, lapte, lapte praf, lapte, unt,
brânză,dulciuri ....
 Chiar în umiditate ridicată .., în stare lichidă, în solid sau semi-solid
alimente (în cuve sau cu sonde optiv)
 Analiză probelor intacte e. g. fructe, legume, carne și pește (prin utilizarea celulelor
de probă în mișcare, fibră optică)
 Miniaturizarea spectrometrelor: noi analitice puternice
unelte
Succesul aplicației NIRS (de exemplu, analiza datelor din apa din materii prime ... controlul
intrării mărfurilor ...) Analiza NIRS menține interacțiunea operatorului la un nivel minim,
permițând personalului neinstruit să facă o analiză de rutină, oferă utilizatorilor flexibilitate
optimă, minimizând costurile de analiză.

http://www.eurofoodwater.eu/pdf/2002/Buening-Pfaue_eurofoodwater2002.pdf

9
1.2.3 Explorarea și recunoașterea nesupravegheată a modelului tehnicilor

Principala tehnică EDA este PCA, care este adesea primul pas al analizei datelor pentru a
detecta modelele măsurate.PCA este o tehnică care, prin reducerea dimensionala a datelor,
permite sa vizualizezi cat mai mult din datele prezente in datele initiale.

Astfel, PCA transformă variabilele măsurate originale în variabile noi necorelate, numite
componente principale. Fiecare director component este o combinație liniară a originalului
de variabile masurate. Această tehnică permite un grup de axe ortogonale care
reprezintăcele mai mari variați de date . Prima, Componenta principală (PC1) contabilizează
maximul ,varianta totală, a doua (PC2) nu este corelată cu prima și contabilizează maximul
varianței reziduale și așa mai departe până când variația totală este contabilizată. Din
motive practice, este suficient să păstrăm doar acele componente care țin cont de realizarea
unui procent mare din variația totală. Coeficienții liniari din relația inversă a combinațiilor
liniare sunt numite încărcări de componente, adică coeficienții de corelație între variabilele
originale și componentele principale. Valorile care reprezintă eșantioanele în spațiul definit
de principalele componente sunt scorurile componentelor. Pot fi folosite scorurile ca intrare
la alte tehnici multivariate, în loc de originalele variabile măsurate.

EDA (de exemplu, algoritmul din APC, definiția măsurilor de distanță și algoritmi de grupare)
este o tehnica ce pote fi găsita în chimia standard, articole sau manuale.

Clasificarea ceaiului în funcție de regiunea de origine, utilizând tehnici de recunoaștere a


modelului și date de urmărire a metalelor

Următoarele metale din ceai provenind din diferite țări asiatice și africane au fost
determinate prin utilizarea spectrometriei de emisie atomică cu plasmă cuplată inductiv și a
spectrometriei de masă cu plasmă cuplată inductiv. Tehnicile de recunoaștere a modelelor
au fost apoi utilizate pentru a clasifica ceaiul în funcție de originea sa geografică.

Analiza principală a componentelor (PCA) și analiza clusterului (CA), ca tehnici de explorare


și analiză liniară diferențială (LDA) și modelare independentă moale a analogiei de clasă
(SIMCA), au fost utilizate ca proceduri de clasificare. În total au fost determinate 17
elemente (Al, Ba, Ca, Cd, Co, Cr, Cu, Cs, Mg, Ni, Pb, Rb, Sr, Ti, V, Zn) 36 de eșantioane din
țările asiatice, 18 eșantioane din țările africane, 24 de amestecuri comerciale și șapte
eșantioane de origine necunoscută). Grupările naturale ale probelor (ceaiuri din Asia și
Africa) s-au observat folosind PCA și CA (distanța între obiecte și metoda Ward ca procedură
de clustering).

Aplicarea LDA a oferit procentaje corecte de atribuire de 100,0% și respectiv 94,4% pentru
ceaiurile africane și asiatice, respectiv la un nivel de semnificație de 5%. SIMCA a oferit
procentaje de 100,0% și respectiv 91,7% pentru grupurile africane și asiatice, respectiv la
același nivel de semnificație. LDA, de asemenea, la un nivel de semnificație de 5%, a permis
o identificare corectă a cazurilor de 100% pentru cele trei clase China, India și Sri Lanka. Cu

10
toate acestea, o clasificare satisfăcătoare folosind SIMCA a fost obținută doar pentru
ceaiurile chinezești (100% din cazurile clasificate corect), în timp ce ceaiurile din India și Sri
Lanka par să formeze aceeași clasă.

http://www.statsoft.com/Textbook/Classification-and-Regression-Trees

1.3 Selecția și reducerea variabilei


Selecția variabilă este un pas preliminar utilizat în multivariate de analiza a datelor, în
special dacă numărul de obiecte este relativ mic, numărul de variabile este mare și multe
dintre aceste variabile conțin informații redundante sau zgomotoase. În aceste cazuri, o
variabilă sau caracteristică este necesară pentru a nu avea loc o problema de
suprapunere.Depășirea are loc dacă problema de suprapunere a modelului învață
idiosincrasia datelor; apoi, zgomotul este modelat, iar modelul își pierde generalizarea
abilitatilor.

Selecția variabilă pentru analiza discriminantă selectează un subset de variabile care sunt
cele mai discriminatorii. În acest scop, a algoritmului de căutare pentru localizarea soluțiilor
bune, o recunoaștere a modelului tehnică care oferă un model matematic și un obiectiv
ghidare a căutării este necesară. Funcția obiectivă evaluează calitatea subseturilor variabile
selectate cu tentativă în căutarea celui mai bun model, fiind absolut critică pentru a obține
soluții adecvate. Mai mult decât atât, o estimare a erorilor de predicție ar trebui calculată. În
chimometrie, cel mai mult sunt utilizate funcțiile obiective ce se bazează pe validarea
încrucișată.

Metoda de selectare a variabilei preferate este selecția treptată, care se bazează pe o


căutare lacomă care adaugă în mod succesiv sau șterge variabile din grupul variabilelor
candidate. Adăugarea sau ștergerea unei singure variabile este efectuată cu privire la cea
mai mare îmbunătățire a clasificării, iar procesul continuă până când căutarea va fi prinsă în
primul optim local. În avantajele forward, variabilele sunt mutate în model, în timp ce
opțiunile înapoi încep cu un model cu toate variabilele în model, care sunt apoi eliminate
succesiv. În față și strategii treptate înapoi, adăugarea sau eliminarea unei strategii variabila
este considerată simultan pe baza probabilității sau Criteriile Fisher (p sau valori F). Selectia
inapoi examinează eliminarea unei noi variabile și adăugarea unei variabile noi in locul celei
sterse.

Selecția celui mai bun subset este o procedură de selecție variabilă care efectuează o
căutare a tuturor subseturilor posibile de variabile care îndeplinesc criteriul de alegere a
celui mai bun (lambda lui Wilk, rata de clasificarea eronată etc.). Când există multe variabile
în model și multe dimensiuni mari in subset sunt considerate, total numărul de submulți
posibili și timpul de calcul devenit excesiv de mare.In acest caz este este recomandata
abordarea. Această abordare constă într-o selecție din cele mai bune subseturi de număr
mic de variabile (care pot fi calculate relativ rapid) în mai multe etape. În primul rând, cel

11
mai bun subset se aplică matricei complete de date pentru obținerea celui mai bun (mic)
subset al variabilelor; apoi, într-o a doua etapă, folosind selecția celor mai bune subseturi
dintr-un set de date care omit variabilele selectat în prima etapă, se obține un al doilea cel
mai bun subset. În final, o rafinare a variabilelor selectate succesiv în pașii anteriori se
efectuează folosind cel mai bun subset sau pas cu pas o selecţie.

Analiza metodelor de selecție a variabilelor în regresia Partial Least Squares

Metode de selecție variabile în PLS

Pe baza modului în care selecția variabilă este definită în PLSR, putem categorisi metodele
de selecție variabile în trei categorii principale: filtru, wrap-și metode încorporate

Metode de filtrare: Aceste metode utilizează ieșirea (opțional modificată) din algoritmul
PLSR pentru a identifica pur și simplu un subset important de variabile. Scopul este
identificarea variabilelor.

Metode de wrapper: variabilele identificate prin metodele de filtrare pot să fie redeschise
înapoi într-o remodelare a modelului PLSR pentru a obține o reducere de modele în care
avem metode de împachetare. Metodele se diferențiată în principal prin alegerea metodei
de filtrare și a metodei de bază ,modul în care este implementată "ambalarea".

Metode încorporate: Selecția variabilelor este o parte integrantă din algoritmul PLSR
modificat. Prin urmare, aceste metode fac variabila de selecție la nivel de component.

Diferențele dintre aceste metode sunt ilustrate și în figurele de mai jos:

12
Exemplu de lucrare -Clasificarea măsurătorilor GC-MS la vinuri prin combinarea reducerii
dimensiunii datelor și tehnici de selecție variabilă

Principiul metodei

(GC-MS) este o metodă analitică care combină caracteristicile cromatografiei de gaz și


spectrometriei de masă pentru a identifica diferite substanțe dintr-un eșantion de testare.

Eșantioane de vin-mod de lucru

Șaizeci și două de eșantioane de vin roșu, produse din același strugure (Cabernet Sauvignon)
și aparținând diferitelor zone geografice și producători , au fost colectate de la
supermarketurile locale și analizate cu ajutorul HS-GC-MS. Detalii privind eșantionul originile
și clasele sunt prezentate în tabelul de mai jos:

Atât în pregătirea probei, cât și în modul GC, probele au fost randomizat. Eșantioane de vin
de câte 10 ml, fără eșantion preparate, au fost adăugate direct în balonul de 100 ml de
purjare și s-au adăugat 2 ml de 4-metil-1-pentanol în apă (50 mg / l) standard intern.
Probele au fost echilibrate la 30% 18 grade C într-o baie de apă cu circulație și apoi purjată
cu azot (75 ml / min) timp de 20 min. Compușii volatili au fost colectați pe un Tenax-TA

13
capcană. Volatilele capturate au fost desorurate folosind un sistem automat de desorbție
termică (ATD 400, Perkin Elmer, Norwalk, USA) și volatilele transferate într-o masă de
cromatografie în gaz spectrometru printr-o linie de transfer încălzită (2258C).

Separarea compușilor de aromă a fost efectuată pe un gaz de cromatografie (HP 6890 GC cu


un autosampler pentru probe de lichid) cu o coloană capilară DB-Wax cu lungimea de 30 m
cu o coloană capilară cu diametrul interior de 0,25 mm și o grosime a peliculei de 0,25 mm.
Viteza de curgere a coloanei a fost 1,0 ml / min utilizând heliu ca gaz purtător.

GC a fost echipat cu un detector spectrometric de masă (Agilent 5973 Detector selectiv de


masă) care funcționează în ionizarea electronilor (EI) la 70 eV. Raporturi de masă între 15 și
300 au fost scanate de două ori pentru fiecare scanare GC. Intrarea GC a avut loc la 250 ° C
și linia de transfer MS menținută la o temperatură de 280 ° C. Rezumând, o matrice de date
cu 62 de rânduri (eșantioane de vin) și au fost luate în considerare 2700 de coloane (scanări
ale profilului cromatografic) și analizate. Ca un exemplu al datelor obținute au rezultat
profiluri cromatografice a trei mostre de vin diferite, clasele sunt prezentate în figura de mai
jos :

https://s3.amazonaws.com/academia.edu.documents/39611503/Ballabio-
2008.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1526043896&Signature=GL
QrkGUe7jLcRlFXY2XJo1PwL8s%3D&response-content-
disposition=inline%3B%20filename%3DClassification_of_GC-MS_measurements_of.pdf

Metode de clasificare

Trei abordări diferite au fost evaluate pentru a construi modele de clasificare: analiza
discreționară parțială din cele mai mici pătrate (PLS-DA), analiza extinsă a canalelor variabile
(ECVA) și liniară-analiza discriminatorie (LDA).

PLS-DA
14
PLS-DA poate fi considerată o extensie a LDA folosind variabilele cu reducerea asociată a
zgomotului . În PLS-DA interpretarea poate fi efectuată în raport cu originalul spațiu de date
cu dimensiuni mari, dar PLS suferă de un ad-hoc de natură și criterii de clasificare mai puțin
bine definite decât al mai multora metodele tradiționale de clasificare . Practic, PLS-DA
efectuează o reducere a dimensiunii la fel ca PLS. Modelul PLS-DA este folosit pentru a
clasifica probe necunoscute, adică le prezice calitatea de membru binar al fiecărui eșantion.

Distribuția probelor de calibrare-eșantion obținute de la modelul PLS-DA construit pentru


două sau mai multe clase logice poate fi folosit pentru a determină automat o valoare de
prag, care va fi cel mai bine împărțită acelei clase cu cea mai mică probabilitate de
clasificare falsă pentru previziunile viitoare.

Analiza variațiilor canonice extinse

ECVA a fost recent propusă ca un nou clasificator capabil să facă față cu date collineare cu
dimensiuni mari . Acesta poate fi definit ca modificarea analizei standard a variantelor
Canonice (CVA).ECVA calculează variațiile canonice direct în originalul spațiu înalt
dimensional care face posibilă interpretarea modelului în legătură cu acest spațiu. Metoda
CVA modificată forțează discriminative în primele variații canonice și vectorii de greutate
aflați în metoda ECVA dețin aceeași valoare cu proprietăți ca cele ale metodei CVA
standard.

Combinația metodei sugerate cu ex. Liniar

Analiza discriminatorie ca clasificator oferă o funcționare eficientă, instrument de clasificare


și discriminare a datelor colineare.Analiza discriminatory LDA este una dintre cele mai
utilizate tehnici tradiționale de clasificare :metoda este o clasificare parametrică
probabilistică care realizează reducerea dimensionalității prin maximizarea variantelor
dintre categorii și minimizarea variației în cadrul categoriilor. Indicele de clasificare se
bazează pe regula minimă de eroare Bayes.

Evaluarea performanței clasificării modelelor prezentate s-au bazat pe valorile ratei non-
eroare (NER) , adică pe procentul de eșantioane atribuite corect, evaluate atât pe grupuri de
validare încrucișată și probe de testare externe.

Software-ul

S-au efectuat calcule în MATLAB 6.5 (Mathworks). PLS_Toolbox (Eigenvector Research, Inc.,
Manson, WA, SUA) a fost utilizat pentru PLS-DA; ECVA a fost efectuată cu MATLAB ,GA,
selecția și extragerea scorului au fost aplicate prin intermediul funcțiile MATLAB în interiorul
casei.

15
MATLAB

Rezultate

Pre-tratarea datelor și selectarea setului de teste inainte de extragerea scorurilor, profilurile


cromatografice au fost aliniate folosind abordarea de aliniere automată de către Skov et al.

Alinierea datelor, extragerea scorului folosind PCA va fi mai eficientă, deoarece datele
aliniate pot fi explicate prin inferioritatea modelelor bilineare. Alinierea permite modelelelor
PCA să se concentreze pe variația dintre clase și nu pe vârf,schimbarea comportamentului
datorită procesului cromatografic.Datele alinitate sunt prezente in figura de mai jos.

După aliniere, PCA a fost aplicată pe matricea de date și pe primele două componente
principale, explicând 65% din variant ce au fost luate în considerare. Aceste componente au
fost utilizate pentru a împărțiți cele 62 de probe în formare (46 de eșantioane) și testați (16

eșantioane), pe baza algoritmului Kennard-Stone după verificarea unor valori extreme .


Acest lucru a fost făcut într-un mod astfel încât toate cele trei clase (America de Sud,
Australia, Africa de Sud) sa fie proporțional reprezentate în setul de testare. Această
procedură asigură eșantioane reprezentative, interne la domeniul de date, ce sunt selectate
ca obiecte de testare. Orice pre-procesare ulterioară pe set de test (concentrare medie
înainte de aplicarea PCA, PLS-DA și ECVA) a fost efectuată utilizând parametrii obținuți din
set de antrenament. În ceea ce privește probele de antrenament, acestea au fost împărțite

în cinci grupe, unde clasele au fost reprezentate în mod egal, pentru a efectua o procedură
internă de validare încrucișată în timp ce are loc construirea modelelor de clasificare.

http://www.utdallas.edu/~herve/abdi-wireCS-PLS2010.pdf
16
1.4 Tehnici de recunoaștere a modelelor supravegheate
Au fost aplicate tehnici de recunoaștere a modelelor supravegheate la o mare varietate de
date chimice (cromatografice, spectrometrice, spectrofotometric, spectroscopic, senzorial,
etc.) cu diverse scopuri, cum ar fi profilarea, amprentarea, autentificarea, detectarea
falsificării, evaluarea calității alimentelor, date interpretare etc.

1.4.1 Analiza discriminatorie liniară

LDA este probabil cel mai frecvent utilizat model supravegheat, metoda de recunoaștere și
cea mai bine studiată. LDA este bazată pe determinarea funcțiilor liniare discriminante, care
maximizează raportul variației între clase și minimizarea raportului dintre variația în clasă. În
LDA, clasele trebuie să urmeze o distribuție normală multivariată și separată liniar. LDA
poate fi considerată ca PCA, ca metodă de reducere a caracteristicilor în în sensul că atât
LDA cât și PCA determină o dimensiune mai mică hiperplana pe care vor fi proiectate
punctele de dimensiune mai mare. Cu toate acestea, PCA selectează o direcție care
păstrează structura maximă între datele dintr-o dimensiune mai mică, LDA selectează o
direcție care realizează o separare maximă printre clasele de date. Variabila latentă obținută
în LDA este o combinație liniară a variabilelor inițiale. Această funcție se numește variantă
canonică, iar valorile sale sunt rădăcinile. Fiind k clase, k-1 variații canonice pot fi
determinate în cazul în care numărul de variabile este mai mare decât k .

LDA este o variantă a analizei discriminatorii, în care limitele de discriminare sunt liniare.
Pentru discriminare pot fi folosite și alte funcții ca funcție discriminativă cuadratoare (QDA)
și clasificare bayesiană care sunt, de asemenea, sub-cazuri de regularizare (ADR) .QDA, care
stabilește parabolice limite, este mai puțin supusă unor constrângeri în distribuția obiectelor
în spațiu decât LDA, dar în mod similar necesită numărul din eșantioane este mai mare decât
cea a variabilelor. ADR prezintă comparativ cu LDA și QDA, care este mai puțin supus la
constrângeri fără a necesita mai multe obiecte. Bayesianul,abordarea se bazează pe
principiul că apartenența la fiecare clasă are o probabilitate anterioară și măsurătorile sunt
utilizate în principal pentru a rafina aceasta .

Analiza cantitativă variată (CVA) este o altă tehnică discriminantă, cunoscută și ca analiză
canonică de corelare (CCA) .CVA diferă de LDA, de ex. în faptul că LDA utilizează un vector
care conține informațiile privind calitatea de membru, în timp ce CVA poate utiliza o
matrice.

Ex de lucrare :Analiza discriminatorie a uleiurilor și grăsimilor comestibile prin FTIR, FT-NIR și


spectroscopia FT-Raman

Principiul metodei

Spectroscopia Raman (numită astfel după Sir C. V. Raman) este o tehnică spectroscopică
utilizată pentru a observa modurile vibraționale, rotaționale, și alte mișcări de frecvență

17
joasă într-un sistem.[1] Spectroscopia Raman este frecvent folosită în chimie pentru a oferi
o amprentă structurală prin care moleculele pot fi identificate.

https://ro.wikipedia.org/wiki/Spectroscopie_Raman

Materialefolosite :

Unt (Beavers Meadow Creamery Inc., PA și '' Finest '' Foodhold USA Inc., GA), untură
(Hatfield Quality Carne, PA), ulei de ficat de cod (E.R. Squibb și Sons Inc., NJ și Roberts
laboratory Inc., NJ), măsline extra virgine ,ulei ("Sensational" "Foodhold USA Inc., GA și
"Pompeian" Pompeian Inc., MD), ulei de porumb ("Finest" Foodhold USA Inc., GA și Mazola
Bestfoods, NJ), ulei de arahide (Nabisco Inc., NJ și The Hain Food Group Inc., NY), canola
(The Hain Food Group Inc., Y și "Crisco" Proctor și Gamble, OH), soia ulei (Hain Food Group
Inc., NY și "Crisco" Proctor și Gamble, OH), ulei de șofrănel (The Hain Celestial Group Inc.,
NY) și uleiul de cocos ("Parachute" Marico Industries Ltd., Mumbai, India) au fost obținute
de la magazin local. Chimicalele și solvenții utilizați în produsele noastre au avut un grad de
reactiv analitice.

Analiza FTIR

Un spectrometru Nicolet 870 (Nicolet Instrument Corp., Madison, WI) echipat cu o triglicină
deuterizată Sulfat (DTGS) a fost utilizat.

Același spectrometru a fost de asemenea utilizat pentru FT-NIR și FT-Raman ,măsurători cu


accesorii și detectoare suplimentare. Stația de eșantionare a fost echipată cu un sistem de
supraveghere Accesoriu ATR (Spectra-Tech, Shelton, CT) cuprinzând o optică de transfer în
interiorul camerei prin care radiația infraroșie este îndreptată spre un zinc ATR detașabil cu
cristal de selenidă montat într-o jgheab puțin adânc pentru eșantionul de izolare. Spectrele
cu un singur fascicul (4000-400 cm ²) au fost obținute împotriva aerului ca fundal, pentru a
prezenta spectrele în unități de absorbție la o rezoluție de 16 cm1 și un total de 256 de
scanări co-adăugate. ATR si cristalul a fost curățate cu grijă cu cloroform pur până la a fost
eliminata prezența reziduurilor de ulei / grăsime între măsurători și au fost uscate folosind
azot gaz după fiecare experiment pentru a asigura o suprafață de cristal curată, astfel încât
să se obțină cele mai bune spectre probabile. Fiecare probă de ulei și grăsime a fost

18
colectata de 11 ori și folosita pentru analiza statistică. Aceeași replicare a fost utilizată
pentru FT-NIR și FT-Raman.

Analiza FT-NIR

Spectrometrul Nicolet 870 echipat cu Detectorul DTGS a fost utilizat pentru analiza FT-NIR.

stația de eșantionare a fost echipată cu o celulă de transmisie de la Specta-Tech (CT, SUA).


Lumina albă a fost utilizată ca o sursă și proba a fost tinuta într-o cuvetă de cuarț.

Au fost colectate 256 de scanări co-adăugate de la fiecare probă la o rezoluție de 16 cm1.


Spectrele au fost colectate în intervalele de 2000 și 8000 cm1, corectate împotriva
spectrului de fond al aerului și prezentat în unități de absorbție. Cuva cu cuarț a fost
curățata cu cloroform pur după măsurători successive și uscate folosind gaz de azot pentru a
asigura cele mai bune spectre posibile de eșantionare.

Analiza FT-Raman

Spectrele FT-Raman au fost obținute utilizând Nicolet 870 spectrometru cu modulul Nicolet
Raman 32B (Madison, WI) și cu laser HeNe cu putere maxima de 2,0 W. Sistemul a fost
echipat cu un InGaAs (Indium- Gallium Arsenide), separator XT-KBr de 180 ,oglinda
reflectorizantă cu un sistem complet motorizat ,element de ajustare a poziției.

Ieșirea laserului cu puterea de 2,0 W folosită pentru analiză a fost suficient de mică pentru
a preveni posibile daune provocate de laser. Datele au fost colectate la 32 de ore cu 256 de
scanări. Spectrele au fost obținute în intervalul de trecere Raman între 400 și 3700 cm-1.
Sistemul a fost operat folosind un software OMNIC (Versiunea 5.1, Madison, WI).

19
Analiza discriminatorie

Win-DAS (Wiley, Chichester, Marea Britanie) pachetul a fost utilizat pentru analiza calitativă.
Standardizarea zonelor din datele spectroscopice au fost efectuate pentru a compensa
diferențele brute în răspunsul spectral care au fost cauzate de efecte fizice, cum ar fi
artefactele instrumentale.

Au fost utilizate două metode de analiză discriminatorie pentru scopul clasificării multiple a
grupului: acestea sunt liniare analiza discriminatorie (LDA) și analiza variată canonică (CVA)
(Kemsley, 1998). Deoarece multidimensionale date (care apar atunci când numărul
variabilelor este mai mare decât numărul de observații) nu poate fi direct utilizate în
metodele de mai sus, analiza principală a componentelor (PCA) și analiză parțială parțială
(PLS) utilizate pentru comprimarea datelor, pentru a transforma originalul set de date
cuprinzând un număr mare de intercorelați care variază (numere de val) într - un set nou
redus ce variază înainte de CVA sau LDA.

Numărul de absorbție a iodului pentru probele de ulei și grăsime au fost determinate prin
metoda Hanus (AOAC, 1984).Constă în adăugarea unui amestec de iod și brom în acid acetic
glacial și estimarea excesului de halogen neutilizat prin titrare cu tiosulfat de sodium.

Rezultate

Este bine cunoscut faptul că fiecare ulei / grăsime diferă în compoziție, lungime și in gradul
nesaturat al acizilor grași ,precum șidupa pozițiile lor în lanț. Spectrele IR și Raman
reprezintă un model combinat de amprente unic pentru fiecare ulei / grăsime și au fost
utilizate pentru analiza discriminatorie. A al doilea set de analize a fost efectuat folosind
regiuni specificela vibrația de legătură C = C. Legătura dublă luată în considerare este o
legătură nesaturată și intensitățile, zonelesau înălțimile vârfului din această regiune ar putea
indica- gradul de nesaturare în acizii grași, steroli și -vitamine.

20
Concluzie

În general,in spectroscopia FTIR, FT-NIR și FT-Raman tehnicile pot fi folosite pentru


clasificarea rapidă a produselor comestibile ,uleiuri și grăsimi fără a fi necesară pregătirea
probelor. Atât tehnicile FTIR cât și spectroscopia FT-Raman a oferit o perspectivă structurală
deosebită asupra funcționalității grupurilor de uleiuri și grăsimi pentru analiza
discriminatorie. FTIR spectroscopia a fost găsită a fi cea mai superioară pentru discriminare
și a urmat clasificarea uleiului și a grăsimilor comestibile prin metoda FT-Raman. Metoda FT-
NIR, deși este capabilă să discrimineze și să clasifice uleiuri și grăsimi, s-a dovedit a fi mai
puțin eficientă decât celelalte două metode spectroscopice.

https://s3.amazonaws.com/academia.edu.documents/46014703/Supervised_pattern_recog
nition_in_food_a20160528-2288-
1r79eey.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1526981300&Signature
=WB0Ca0xGnk2MUp4DwEf%2BBBDyR88%3D&response-content-
disposition=inline%3B%20filename%3DSupervised_pattern_recognition_in_food_a.pdf

1.4.2 Analiza discriminatorie parțială cu cele mai mici pătrate

LDA este supusă unei constrângeri iar numărul de variabile nu ar trebui să depășească
numărul de obiecte.Rezolvarea la această problemă este de a aplica selecția sau reducerea
caracteristicilor menționate mai sus, iar cealaltă soluție este de a aplica metode cum ar fi
mai puține patrate partiale.

Modelarea parțială a celor mai mici pătrate este o proiecție multivariată ,metoda de
modelare a unei relații între variabilele dependente (Y) și variabile independente (X).
Principiul PLS este de a găsi componentele din matricea de intrare (X) care descriu cat de
mult ca posibil variațiile relevante în variabilele de intrare și in același timp au o corelație
maximă cu valoarea țintă în Y, acordând o mai mică importanță variațiilor care sunt
irelevante sau zgomotoase.

Deci, PLS modelează simultan X și Y pentru a găsi latenta de variabile în X care vor prezice
variabilele latente în Y. PLS maximizează covarianța dintre matricele X și Y. Parțial analiza
discriminatorie a celor mai mici pătrate, cunoscută și ca discriminantă PLS (DPLS), are ca
scop găsirea variabilelor și direcțiilor în spațiul multivariat care discriminează clasele stabilite
în setul de calibrare. Un număr optim de variabile latente poate fi estimată prin utilizarea
seturilor de validare încrucișate sau externe. În PLS-DA, o matrice "matricolă" Y este
construită cu zerouri și altele.

Există mai mulți algoritmi pentru PLS, fiecare cu anumite avantaje în funcție de cazul studiat.
Dintre acestea, non-liniara, algoritmul iterativ parțial minimal de pătrate (NIPALS) permite
calcularea componentelor principale unul câte unul.

ALGORITM PLS

21
Proprietățile regresiei PLS pot fi analizate dintr-o schiță a algoritmului original (numite
nipale). Primul pas este crearea a două matrice: E = X șiF = Y. Aceste matrice sunt apoi
centrate pe coloane și normalizate (adică transformat în scoruri Z). Suma din pătratele
acestor matrici sunt denumite SSX și SSY.

Înainte de a începe procesul de iterație, vectorul’’ U’’ este Inițializat cu valori aleatorii.
Algoritmul nipalilor efectuează următorii pași (în cele ce urmează simbolul α înseamnă "a
normaliza rezultatul funcționare“):

Pasul 1. w α ETu (estimarea greutăți X).

Pasul 2. t α Ew (estimația scorurilor factorului X).

Pasul 3. c α FTt (estimarea greutăților Y).

Pasul 4. u = Fc (estimarea scorurilor Y)

SOFTWARE

Regresia PLS necesită calcule sophisticate și, prin urmare, aplicarea sa depinde de
disponibilitatea software-ului. Pentru chimie, două dintre principale programe sunt
utilizate: primul numit simca-p a fost dezvoltat inițial de Wold, al doilea numit Unscrambler
a fost dezvoltat pentru prima dată de Martens.

http://www.utdallas.edu/~herve/abdi-wireCS-PLS2010.pdf

1.4.3 Cel mai apropiat vecin

Cele mai apropiate metode de vecinătate se bazează pe determinarea distanțelor dintre un


obiect necunoscut și fiecare dintre obiectele din setul de antrenament. De obicei, distanța
euclidiană este utilizată doar pentru variabilele puternic corelate,ce sunt bazate pe
corelația preferata. Apoi, distanța cea mai mică este selectată pentru alocare in calitatea de
membru al clasei. În kNN, k-cel mai apropiat obiect față de proba necunoscută este selectat
și se aplică o regulă majoritară: necunoscutul este clasificat în grupul căruia îi aparține
majoritatea obiectelor k. Alegerea lui k este optimizată prin calcularea capacitatii de
predicție cu diferite valori k. Valorile k mici (3 sau 5) trebuie să fie preferate frecvent. O pre-
procesare a datelor este necesara pentru a evita efectul diferitelor scări ale variabile.
Tehnica poate fi, de asemenea, aplicată la scorurileprobelor legate de componentele
principale.

Metoda prezintă mai multe avantaje: (i) matematic ,simplitate, care nu îl împiedică să obțină
clasificarea rezultatelor bune (sau chiar mai bune) decât alte tehnici complexe de

22
recunoaștere a modelelor; (ii) este lipsită de date statistice, ipoteze, cum ar fi distribuirea
normală a variabilelor; și (iii) eficiența sa nu depinde de distribuția spațiului din clase. Pe de
altă parte, această tehnică este similară cu limitările la LDA. kNN nu poate funcționa bine
dacă există diferențe mari prezente în numărul de probe din fiecare clasă.

kNN oferă informații slabe despre structura a claselor și a importanței relative a fiecărei
variabile în clasificare. În plus, nu permite o grafică pentru reprezentarea rezultatelor, iar în
cazul unui număr mare de rezultate ,probele sau calculul poate deveni excesiv de lent.

Cei mai apropiati algoritmi din vecinătate

Clasificatorii cei mai apropiați ca si vecini nu necesită o prelucrare prealabilă de etichetate


înainte de utilizarea lor. Cel mai apropiat vecin ca si clasificare se atribuie unui vector de
intrare y, care este de clasificare necunoscută, clasei celui mai apropiat vecin .

Această idee poate fi extinsă la cei mai apropiați AT cu vecini vectorul y fiind atribuit clasei
reprezentate de majoritatea dintre cei mai apropiați vecini ai lui AT. Desigur,atunci cand
este considerat mai mult decat un vecin , posibilitatea de a exista o cravată între clase cu un
număr maxim de vecini în grupul de AT-cel există. Un mod simplu de a manipula

această problemă este de a restrânge valorile posibile ale lui K.

1.4.4 SIMCA

SIMCA este cea mai utilizată dintre tehnicile de modelare a claselor. În SIMCA, fiecare
categorie este modelată independent folosind PCA, și poate fi descrisă de un număr diferit
de componente principale.

Numărul componentelor principale pentru fiecare clasă din setul de antrenament este
determinat de validarea încrucișată. În acest fel, este suficient numărul componentelor
principale pentru a lua in considerare majoritatea variațiilor din cadrul fiecărei clase,
asigurând în același timp un nivel ridicat de semnal-zgomot prin faptul că nu include așa-
numitele secundare sau componente principale încărcate cu zgomot în modelul de clasă .

SIMCA determină distanța de clasă , modelarea și nediscriminatorii . O altă abordare


consideră că fiecare clasă este limitată deo regiune a spațiului, care reprezintă un procent
de încredere (de obicei 95%) că un anumit obiect aparține unei clase.

Opțiunile din SIMCA pot fi setate la 3 niveluri:

 Opțiuni de model - setate la nivel de model și locale pentru acel particular model.
Unele opțiuni pot fi setate numai în opțiunile de model. Noi modele moștenesc
opțiunile de la nivelul proiectuluiOpțiuni model în secțiunea Set de lucrări din
capitolul Acasă.

23
 Opțiuni de proiect - stabilite la nivel de proiect și sunt valabile pentru acel proiect și
toate modelele create după aplicarea modificărilor. Proiectele noi moștenesc setările
opțiunilor din fabrică.
 Opțiuni SIMCA - se aplică software-ului. Modificările acestor opțiuni se aplică la toate
proiectele deschise după schimbare.

Opțiuni de montare

Opțiunile disponibile pe pagina Fit se referă la potrivirea modelului.

Prezentarea prezicerilor

Opțiunile disponibile din pagina Predicții aparțin prezentării predicției.

Transformarea predicțiilor

Atunci când variabilele y au fost transformate, în mod prestabilit predicțiile sunt înapoi
transformate în unitățile originale. Bifați caseta de selectare.

24
Scalarea predicțiilor

Pentru a afișa predicția Y în aceeași unitate ca și cea a lucrării, selectați predicțiile Scale din
caseta de bifat.

Împrăștierea predicțiilor ca lucrări

Când lucrările au fost tăiate sau Winsorized, setul de predicții poate fi tăiat sau Winsorized
în același mod prin selectarea previziunilor Trim ca lucrări din Caseta de bifat. Implicit, setul
de predicții nu este tăiat și nici nu este Winsorized.

http://131.130.57.230/clarotest190/claroline/backends/download.php?url=L1N0YXQvU0lN
Q0EvVXNlciBHdWlkZSB0byBTSU1DQSAxMy5wZGY%3D&cidReset=true&cidReq=300152WS1
3

1.4 .5 UNEQ

UNEQ este, de asemenea, o tehnică de modelare a claselor bazată pe asumarea grupurilor


multivariate distribuite în mod normal. Poate sa se aplice numai atunci când numărul
variabilelor este relativ scăzut.

Ca și în alte tehnici de modelare a claselor de clasificare funcțiile sunt dezvoltate separat


pentru fiecare dintre clasele de formare pe baza asemănărilor dintre obiectele din interiorul
lui si o categorie

Un test outlier este folosit pentru a decide dacă un obiect nou aparține unei anumite clase
sau nu. UNEQ se bazează pe Mahalanobis distanța (sau distanța generalizată) de la
centroidul de clasa. Atunci când distanța depășește o valoare critică, obiectul este o
depășire și, prin urmare, nu face parte din clasă. O proprietate principală din distanța
Mahalanobis este că dispersia internă în interiorul unei clae este luată în calcul la calcularea
distanței între indivizi și centroidul populației. O altă proprietate din distanța generalizată
este invarianța sa față descalarea variabilelor.

25
UNEQ necesită populații omogene și este foarte sensibilă la seturi de date dezechilibrate
mai ales daca raportul dintre obiecte si variabile este suficient de mare, cel puțin 3. Când
raportul este mai mic, distanța poate fi calculată în spațiul principal al componentei în loc de

spațiul original.

Distanța Mahalanobis

Analiza chemometrică multivariabilă implică măsurarea distanțelor între obiecte și


variabilele. Cele două măsuri pe distanțe mari și cele mai frecvent utilizate sunt cele
euclideene distanța (ED) și distanța Mahalanobis (MD). ED este ușor de calculat și
interpretat, dar nu calculul MD ține cont de corelația dintre date, deoarece se calculează
folosind inversul matricei de variație-covarianță a setului de date. Când datele sunt
măsurate pe un număr mare de variabile, din cauza informațiilor redundante sau corelate,
conduc la singular sau o singură matrice de variație-covarianță care nu poate fi inversată.
Ulterior, pentru calculul matricei de variație-covarianță, numărul de obiecte din setul de
date ar trebui să fie mai mare decât numărul de variabile. Deci, reducerea caracteristicilor,
adică selectarea unui număr mic de semnificative sunt necesare variabile înainte de
finalizarea fișierului de intrare pentru calculul MD.

Despre algoritm: Algoritmul implicat în calculul MD este următorul:

Unde, Cx este matricea variantă-covarianță; X este matricea de date care conține n obiecte.
Xc este coloana de date centrată pe coloană .

Biblioteca eigen a fost utilizată pentru calculul determinării matricei și a calculului invers.

Formatul fișierului de intrare: Acest program are un fișier de intrare în format CSV.

26
Formatul fișierului de ieșire:

Cum se rulează un program:

27
Act de renunțare -Numai pentru scopuri academice.

Programul Mahalanobis-Distance 1.0 a fost dezvoltat în limba C ++ și este validat pe seturile


de date cunoscute. Acest program este compatibil atât cu operarea Windows pe 32 și 64 de
biți.

http://nanobridges.eu/wp-content/uploads/2015/05/MahalanobisDistance_Manual.pdf

1.4.6 Arborele de clasificare și regresie

Arborele de clasificare și regresie este o metodă de construire a copacilor în care datele sunt
împărțite în mod repetat în grupuri .Arborele este construit într-un mod binar recursiv,
rezultând în nodurile conectate prin ramuri. Termenul "binar" implică faptul că fiecare grup
de obiecte, reprezentat de un "nod" într-un arbore de decizie, poate fi împărțit numai în
două grupuri.

Un nod care este în continuare împărțit în două noduri noi se numește nod părinte, iar cele
două noi sunt numite noduri copil. Nodurile fără noduri copil se numesc noduri terminale.

Se pot distinge două tipuri de arbori: arbori de clasificare, construit pentru răspunsuri
categorice, și arbori de regresie, pentru numerice. Un nou eșantion este alocat unui nod
terminal în conformitate cuvalorile variabilelor sale X.

Procedura CART se compune din trei etape principale. În primul rând ,o prima procedură în
trepte se efectuează pe setul de date în ordine pentru a construi un arbore complet de

28
decizie. Pornind de la un nod rădăcină, care include toate probele, fiecare nod părinte este
împărțit în două noduri copil de către cel mai bun splitter. Divizarea continuă până la toate
nodurile terminale îndeplinesc anumite criterii, de ex. până la terminale nodurile conțin
numai obiecte dintr-o clasă sau mai puțin decât o valoare predeterminată numărul
eșantioanelor în cazul în care clasificarea nu este completă inca.

Arborele decizional complet obținut în această primă etapă are o tendință de a supraviețui,
ceea ce duce la predicții slabe pentru probele necunoscute. Această problemă poate fi
rezolvată cu al doilea pas, constând In "tăierea" copacului.

Arborele complet conține multe noduri terminale, numărul total reprezentând dimensiunea
copacului. Criteriul de "tăiere minimă a costurilor - complexitate" este folosit pentru

selectarea sub-arborilor optimi cu un număr mai mic de terminale si noduri . Cu toate


acestea, în această etapă, performanța sub-copacii de pe datele necunoscute nu au fost
testate încă.

În a treia etapă, cel mai bun sub-copac tăiat este selectat sub-copaci optimi pe baza calității
predicției pentru noi date prin efectuarea unei validări încrucișate sau prin utilizarea unui
sistem extern de seturi de teste.

PARTILE DE CLASIFICARE SI REGRESIUNE CART

În termeni cei mai generali, scopul analizelor prin intermediul algoritmilor de construire a
copacilor este acela de a determina un set de condiții logice (divizate) ,logice care să permită
predicția sau clasificarea exactă a cazurilor.

CLASIFICARE

De exemplu, luați în considerare problema de clasificare a datelor Iris, introdusă de Fisher


[1936; a se vedea și Analiza funcțiilor discriminatorii și Analiza generală discriminatorie
(GDA)]. Fișierul de date Iris dat raportează lungimile și lățimile sepalelor și petalelor a trei
tipuri de irisuri (Setosa, Versicol și Virginic). Scopul analizei este de a învăța cum putem face
diferența între cele trei tipuri de flori, pe baza a patru măsuri de lățime și lungime de petale
și sepale. Analiza funcției discriminatorii va estima câteva combinații liniare de variabile de
predicție pentru calcularea scorurilor de clasificare (sau a probabilităților) care permit
utilizatorului să determine clasificarea prezisă pentru fiecare observație. Un arbore de
clasificare va determina în schimb un set de condiții logice if-then (în loc de ecuații liniare)
pentru predicția sau clasificarea cazurilor:

29
Interpretarea acestui arbore este simplă: dacă lățimea petalei este mai mică sau egală cu
0,8, floarea respectivă ar fi clasificată ca Setosa; dacă lățimea petalei este mai mare de 0,8 și
mai mică sau egală cu 1,75, atunci floarea respectivă ar fi clasificată ca Versicol; altfel,
aparține clasei Virginic.

Regresia:

Abordarea generală de a obține predicții din câteva condiții simple, dacă-atunci, poate fi
aplicată și problemelor de regresie. Acest exemplu se bazează pe fișierul de date Poverty,
care conține cifrele recensământului din 1960 și 1970 pentru o selecție aleatorie de 30 de
județe. Întrebarea de cercetare (pentru acest exemplu) a fost aceea de a determina
corelațiile sărăciei, adică variabilele care prezic cel mai bine procentul de familii aflate sub
pragul sărăciei într-un județ. O reanaliză a acestor date, utilizând analiza arborelui de
regresie [și validarea încrucișată v-fold, dă următoarele rezultate:

Din nou, interpretarea acestor rezultate este destul de simplă: Județele în care procentul
gospodăriilor cu un telefon este mai mare de 72% are, în general, o rată a sărăciei mai

30
scăzută. Cea mai mare rată a sărăciei este evidentă în acele județe care arată mai puțin (sau
egal) cu 72% din gospodăriile cu telefon și unde populația se schimbă (de la recensământul
din 1960 până la recensământul din 170) este mai mică de -8,3 (minus 8,3) . Aceste rezultate
sunt simple, ușor de prezentat și clar clar și intuitiv: există unele județe bogate (unde
majoritatea gospodăriilor au un telefon), iar cele care au în general sărăcie mică. Apoi, există
județe care sunt, în general, mai puțin bogate, iar printre cele care au scăzut cel mai mult au
arătat cea mai mare rată a sărăciei. O revizuire rapidă a scatterplot-ului valorilor observate
vs. prezise arată cum discriminarea dintre cele două grupuri din urmă este deosebit de bine
"explicată" de modelul de copac.

http://www.statsoft.com/Textbook/Classification-and-Regression-Trees

1.4.7 Vectorul suport-mașină

Masina de suport vectorială (SVM) este o tehnică de învățare supravegheată, bazată pe


teoria învățării statistice . SVM este aplicabila pentru a face față atât problemelor de
clasificare, cât și regresiei.

În cazul clasificării, SVM este o metodă de obținere "optimă" a două clase într-un spațiu
vector independent privind distribuțiile probabilistice ale vectorilor de formare din seturile
de date. Limita "optimă" este definită ca cel mai distanțat hiperplan din ambele seturi, adică
"punctul de mijloc"între aceste seturi. Deși distribuția seturilor nu este cunoscuta, această
limită este de așteptat să fie clasificarea optimă din seturi, deoarece această limită este cea
mai izolată din ambele seturi.

Atunci când clasele sunt separate printr-o limită neliniară, metoda kernel-ului este folosită
pentru a găsi granița. Fundamentul conceptului metodei kernel-ului constă într-o
transformare a spațiului vectorial însuși într-un spațiu dimensional superior, în care clasele
pot fi separate liniar. În cazul regresiei, SVM performează regresia liniară în acest spațiu,
fără a penaliza mici erori .

SVM a devenit popular în zilele noastre, deși este dificil să găsim probleme care nu pot fi
rezolvate cu instrumente mult mai simple.

Vectorul mașină suport-clasificare

Vectorul mașină suport (SVM) efectuează clasificarea prin găsirea hiperplanului care
maximizează marja dintre cele două clase. Vectorii (cazurile) care definesc hyperplana sunt
vectorii de suport.

31
Algoritmul

Definiți un hyperplane optim: maximizați marja

Extindeți definiția de mai sus pentru problemele care nu pot fi separate liniar: aveți un
termen de penalizare pentru clasificări greșite.

Datele de hartă către un spațiu dimensional ridicat unde este mai ușor de clasificat cu
suprafețe de decizie liniară: reformulați problema astfel încât datele să fie mapate implicit în
acest spațiu.

Pentru a defini un hyperplane optim, trebuie să maximizăm lățimea marjei (w).

32
Găsim w și b rezolvând următoarea funcție obiectiv folosind Programarea Quadratică.

Frumusețea SVM este că, dacă datele sunt separabile liniar, există o valoare minimă globală
unică. O analiză SVM ideală ar trebui să producă un hyperplane care separă complet vectorii
(cazurile) de două clase care nu se suprapun. Cu toate acestea, este posibil ca separarea
perfectă să nu fie posibilă sau poate duce la un model cu atât de multe cazuri pe care
modelul nu le clasifică corect. În această situație, SVM găsește hiperplana care maximizează
marja și minimizează clasificările greșite.

Algoritmul încearcă să mențină variabila nevalabilă la zero, maximizând marja. Cu toate


acestea, nu se minimizează numărul de clasificări greșite (problema NP-completă), ci suma
distanțelor față de hiperplanele marginale.

Cea mai simplă modalitate de a separa două grupuri de date este cu o linie dreaptă (1
dimensiune), un plan plan (2 dimensiuni) sau un hyperplane N-dimensional. Cu toate
acestea, există situații în care o regiune neliniară poate separa mai eficient grupurile. SVM

33
se ocupă de acest lucru prin utilizarea unei funcții kernel (neliniare) pentru a cartografia
datele într-un spațiu diferit unde un hyperplane (liniar) nu poate fi folosit pentru a face
separarea. Aceasta înseamnă că o funcție neliniară este învățată de o mașină de învățare
liniară într-un spațiu de dimensiuni mari, în timp ce capacitatea sistemului este controlată
de un parametru care nu depinde de dimensionalitatea spațiului. Aceasta se numește truc
de kernel, ceea ce înseamnă că funcția kernelului transformă datele într-un spațiu
caracteristic dimensional mai mare pentru a face posibilă efectuarea separării liniare.

Stabiliți datele în spațiu nou, apoi luați produsul interior al vectorilor noi. Imaginea
produsului interior al datelor este produsul intern al imaginilor datelor. Două funcții ale
kernel-ului sunt prezentate mai jos.

http://www.saedsayad.com/support_vector_machine.htm

34
1.4.8 Rețele neuronale artificiale

Rețelele neuronale artificiale sunt definite ca structuri compuse a elementelor de procesare


simplu adaptabile, dens interconectate, numite neuroni artificiali (sau noduri) care sunt
capabili de a efectua calculații masive paralele pentru prelucrarea datelor și reprezentarea
cunoștințelor .

Un feed-forward ANN este compus dintr-un număr mare de artificiali neuronali dispuși într-
o structură paralelă. Neuronii sunt sortati într-un strat de intrare, care conține un neuron
pentru fiecare independent de variabilă (X); unul sau mai multe straturi ascunse, în cazul în
care datele sunt procesate; și un strat de ieșire, cu un neuron pentru fiecare dependentă (Y).
Deci, datele din stratul de intrare sunt propagate prin intermediul rețelei prin intermediul
sinapsei, care sunt asociate cu coeficienți de conectivitate numiți greutăți (w).

Straturile ascunse sunt în special importante pentru a face față problemelor de clasificare
neliniare. Cele mai frecvent utilizate ANNs sunt Kohonen-, contra funcția de bază radiativă și
neuronală probabilistică (PNN). Dar fără îndoială, cel mai popular, din tipurile de rețele
utilizate pe scară largă sunt ans-urile de propagare înapoi. Termenul de propagare înapoi se
referă la modul de eroare calculată la partea de ieșire care este propagată înapoi de
lamIesirea din stratul ascuns și, în final, la stratul de intrare.

Dimensiunea și numărul straturilor ascunse și numărul de epoci (cicluri de antrenament)


sunt evaluate prin testarea diferitelor valori (încercare și eroare) și verificarea preciziei
predicției rezultate. Optimal numărul de epoci pentru un ANN este atins atunci când eroarea
de pe setul de încercări atinge un nivel minim. Numărul de noduri ascunse este critic pentru
proiectarea rețelei, pentru că dacă sunt prea multe ascunse nodurile sunt utilizate si
rețeaua va suprasolicita sau va memora instruirea setata de date (zgomot). În schimb, dacă
se utilizează câteva noduri ascunse, rețeaua nu va generaliza și va deveni instabilă.

O abordare pentru a determina cel mai bun număr de noduri ascunse este de a începe cu
cele mai simpla arhitectură, adică un strat ascuns, și să adăugăm noduri la un anumit timp,
până când rețeaua a învățat setul de antrenament . Dar cu numărul tot mai mare de noduri
ascunse, formarea devine excesivă consumatoare de timp, .

Calitatea ANN

Arhitectura și cele mai bune valori ale parametrilor implicați în procesul de învățare sunt
evaluate folosind eroarea medie pătrată a rădăcinii între valoarea așteptată și valoarea reală
a producției . Scalarea datelor este esențială pentru prevenirea numărului mai mare pentru
a suprascrie cele mai mici și pentru a preveni saturația prematură de noduri ascunse, care
împiedică procesul de învățare.

Un mare avantaj al ANN este cunoașterea cauzală a relației dintre variabilele de intrare și de
ieșire.Aceste relatii se învață prin cursuri succesive. Mai mult, ANN prezintă remarcabile

35
caracteristici atractive de procesare a informațiilor: (i) non-linearitatea, permițând o mai
bună adaptare la date; (ii) insensibilitatea la zgomot, oferind predicție precisă în prezența
incertitudiniierori de date și de măsurare; (iii) paralelism înalt, care presupune o prelucrare
rapidă și toleranță la defecțiuni hardware; (Iv) invățare și adaptabilitate, permițând
sistemului să actualizeze (să modifice) structura sa internă ca răspuns la schimbarea
mediului; și (v) generalizarea, permițând aplicarea modelului la informații neînvățate.

https://www.sciencedirect.com/science/article/pii/0950705196819204

1.5 Validarea modelelor


Una dintre cele mai importante aspecte ale recunoașterii modelului este validarea
modelelor obținute prin tehnici supravegheate. Validarea modelului implică evaluarea
numărului de valori semnificative de variabile sau componente necesare pentru
caracterizarea datelor set, capacitatea de predicție model pentru probe necunoscute, și de
asemenea caracterul reprezentativ al datelor utilizate pentru a produce modelul.

Procesul de validare a modelului permite demonstrarea modelelor obținute prin tehnicile


supravegheate de recunoaștere a modelului care sunt suficient de bune pentru a efectua
clasificarea probelor necunoscute. Acest lucru se poate face observând cât de reușit este
modelul la clasificarea obiectelor cunoscute, adică prin evaluarea recunoașterii și abilitățile
de predicție ale modelului.

Capacitatea de recunoaștere este definita ca procentul probelor din setul de antrenament

clasificate corect în timpul etapei de modelare; și predicția de capacitate. În literatura,


capacitatea de "clasificare" este folosită ambiguu, așa că uneori se referă la abilitatea de
recunoaștere menționată mai sus, și în alte cazuri, la procentul probelor din ambele
antrenamente și seturi de testare clasificate corect de model.

Situația ideală este atunci când sunt disponibile suficiente probe pentru a crea formare
separată (independentă), calibrare și seturi de testare, fiecare set conținând eșantioane
reprezentative pentru fiecare clasă. Această procedură de validare este cunoscută sub
numele de validare externă. În acest tip de validare, setul de test este complet independent
de procesul de construire a modelului (selecție variabilă, estimarea parametrilor,
determinarea componentelor principale).Dar în analiza alimentelor, această situație ideală
nu este de obicei caz; prin urmare, metodele de validare încrucișată sunt utilizate în mod
obișnuit.

În validarea încrucișată, capacitatea de predicție a modelului este determinată prin


dezvoltarea unui model cu o parte din setul de date (formare sau setul de învățare) și
utilizarea unei alte părți a datelor (test set) pentru testarea modelului. Atât seturile de
instruire cât și seturile de testare conțin probe reprezentative din fiecare clasă. Una dintre
aceste metode este validarea încrucișată k-fold, denumită și metoda jack-cuțit sau validarea

36
încrucișată internă. Abordarea acestei metode constă în atribuirea probelor la întâmplare la
un set de antrenament și un set de test, acesta din urmă conținând aproximativ 1 / k
eșantioanele (de obicei valoarea k este de 3, 4 sau 5).

În general, capacitatea de recunoaștere a unui model este mai bună decât capacitatea de
predicție. Dar dacă sunt substanțial diferite, asta înseamnă că regulile deciziei depind prea
mult de realitate si de obiectele din setul de antrenament, deci soluția obținută nu este
stabilă și, prin urmare, nu este de încredere.

1.6 Provocări greșite și erori


Rezultatele de optimizare superioară pot fi obținute când (i) numărul de eșantioane este
prea mic, (ii) modelul este depășit, (iii) este determinată numai capacitatea de recunoaștere
și (iv) grupurile apar în interiorul unei categorii .În ceea ce privește aceste considerente,

trebuie remarcat faptul că replicile nu sunt cu siguranță observații independente. Dacă


grupurile sunt observate într-o clasă, divizarea grupului în două sau mai multe clase ar
trebui luată în considerare. Mai mult decât atât, ca o regulă generală, ar trebui să apară
instalarea suprasolicitată să fiți foarte suspectați atunci când numărul de variabile depășește
(n-g) / 3, unde n este numărul de obiecte și g este numărul din categorii .

Unele metode de modelare sunt deosebit de sensibile la suprasolicitare, cum ar fi LDA,


UNEQ, CART și în special ANN și SVM. Pentru a evita suprasolicitarea, principiul de
parsimonie ar trebui să fie de ajutor. Deci, modelurile cu cel mai mic număr de caracteristici
ar trebui să fie acceptate din rândul modelelor echivalente din setul de antrenament. În
acest sens, selecția variabilă (sau reducerea) este un pas cheie pentru a evita suprapunerea.
În ANN, o "verificare încrucișată" este folosita pentru a evita suprasolicitarea. PLS-DA
funcționează bine cu (considerabil) un număr mai mare de caracteristici decât obiecte. Cu
toate acestea, chiar și PLS-DA pot suferi de suprasolicitare dacă numărul de componente PLS
inclus în model este mai mare decât este necesar.

În chimia alimentelor, principala problemă este suprapunerea clasei. Suprapunerile claselor


pot fi separate liniar, dar datorită suprapunerii, nu este de așteptat o clasificare de 100%.

Cele mai multe clasificări: sarcinile pot fi rezolvate de către LDA, CVA și PLS-DA. În cazul
clasificării binare, dacă există aceleași numere din eșantioane din fiecare clasă, rata de
succes este 50% (probabilitatea anterioară). Cu toate acestea, atunci când numărul de probe
în fiecare clasa diferă considerabil, rezultatele de clasificare pot fi mai proaste. Aceasta este
o limitare a unor tehnici multivariate, cum ar fi ca LDA, kNN și tehnicile de modelare a
claselor, care sunt foarte sensibile la dezechilibre mari în numărul de probe din fiecare clasă.
Deci, dacă numărul de obiecte din fiecare clasă de formare set nu este aproximativ egal,
decizia de aderare la clasă va fi părtinitoare față de clasă cu cei mai mulți reprezentanți. Prin
urmare, ori de câte ori este posibil, numărul egal de eșantioane în fiecare clasă ar trebui să

37
fie asigurată prin experimente proiectate. O atenție deosebită trebuie acordată validării
modelelor.

În prezent, nu există dovezi suficiente pentru a judeca care tehnica ar trebui să fie utilizată și
în ce circumstanțe. Ca o regula CAIMAN și QDA sunt cele mai bune tehnici de
clasificare;CART și LDA sunt al doilea cele mai bune, în timp ce SIMCA si UNEQ nu sunt atât
de utile în ciuda definiției și potențialului lor .

În unele cazuri simple, nu este nevoie să utilizați metode multivariate. Dacă unii markeri
(vârf compus, bandă spectrală) sunt prezente, prezența lor poate indica o clasă. Cu toate
acestea, dacă este așa markerii nu sunt evidenti în general sau nu sunt prezenți în fiecare
probă;atunci sunt necesare tehnici multivariate.

PLS folosit pentru sarcini discriminatorii nu a fost complet înțeles și descris încă. PLS-DA
poate fi considerat ca o analiză corelațională canonică penalizată, dar unele incertitudini
(codificarea, forma ilogică a produselor încrucișate între grupuri matrice, indiferent dacă
LDA depășește PLS) nu au fost rezolvate.Într-adevăr, PLS-DA funcționează mai bine dacă
numărul de grupuri care este mic. Practica recomandată pentru PLS-DA este de a folosi prag
de 0,5 atunci când clasele sunt codificate ca 0 și 1 sau 0 când este codificat ca -1 și +1.
Aplicarea acestor praguri, toate anticipate, valorile din cadrul unei clase sunt frecvent mai
mici de 0,5 (sau negative) când sunt definite mai mult de două clase.

38
2. Aplicații în analiza produselor alimentare
Câteva recenzii recente despre aplicațiile de chemometrie în analiza produselor alimentare
au fost publicate: recenzii generale pe analiza alimentară sau recenzii privind anumite
alimente, cum ar fi peștele ,carne vin bere sau miere .Alte recenzii se ocupă cu probleme
speciale, cum ar fi nasul electronic sau limba ,determinarea texturii produselor lactate,
aroma de vin , autentificarea produselor alimentare utilizând MIR ,analiza senzorială ,
viziunea informatică pentru evaluarea calității alimentelor, detectarea defecțiunilor din
carne sau a celor geografice originea alimentelor prin analiza multi-element și multi-izotop.

Revizuirea literaturii privind utilizarea recunoașterii modelului supravegheat de tehnici în


analiza alimentelor din ianuarie 2004 până în iulie 2006 a fost realizată utilizând web-ul de
cunoștințe ISI.

39
Majoritatea articolelor găsite, aproximativ 150, au fost legate de substanțe chimice sau
senzoriale din analiza alimentelor. Gama de produse alimentare studiate prin
recunoașterea modelului supravegheat unde tehnicile sunt cu siguranță largi, inclusiv vinul,
uleiurile comestibile, mierea, produse lactate, carne, fructe, băuturi, cereale, pește, aditivi,
etc. Tabelelu de mai jos rezumă informații despre datele de intrare, tratamentele cu date
multivariate și scopul de clasificare în domeniul analizei produselor alimentare. În general,
scopul acestor studii este de a dezvolta un model pentru clasificarea probelor de alimente în
funcție de diferitele criterii precum originea geografică, animală sau botanică; procese
tehnologice; stare de calitate; detectarea falsificării; etc. Unele exemple bune sunt date
după cum urmează. P'erez-Magariño și colab. ,vinuri de trandafir clasificate (70 de
eșantioane) aparținând a patru denumiri protejate spaniole din Origine (DOP), numită
Ribera del Duero (RD), Rioja (RJ), La Mancha (M) și Valdepeñnas (V), în funcție de geografia
lor origine.

Eșantioane provenite din DOP de la Valdepeñnas și La Mancha au fost considerate ca fiind o


clasă (M-V), deoarece aceste regiuni sunt din punct de vedere geografic apropiate și
prezinta practici de climatologie și elaborare similare. Din cele 19 variabile inițiale de intrare

40
(7 metale prin spectrometrie de absorbție atomică, conținut total de 6 familii a compușilor
polifenolici prin metode chimice tradiționale, 2 parametrii de culoare și 4 parametri
oenologici clasici) 10 variabile au fost în cele din urmă selectate de către stepwiseLDA.

Figura de mai jos arată graficul eșantioanelor pe spațiul definit de primele două variante
canonice. Abilitățile de recunoaștere ale modelului LDA au fost 98,2% pentru RD și 100%
pentru RJ și M-V și predicția abilitățile au fost de 95,3% pentru RD, 98,1% pentru RJ și 98,0%
pentru M-V.

Într-un alt exemplu, Hern'andez-G'omez și colab. Caracterizată diferite stări de maturitate


ale mandarinelor (400 de probe) folosind un nas electronic echipat cu 10 senzori. În acest
scop, mandarinele au fost recoltate la cinci date diferite de sortare (fiecare la 15 zile). LDA a
fost efectuată utilizând o validare externă și a obținut abilități de recunoaștere și predicție
globală de la 98 și, respectiv 92%. Plansa primelor două variante canonice(figura urmatoare)
arată că numai câteva probe din zilele 0 și 15 au fost clasificate. Cozzolino și colab au
discriminat între vinurile albe două origini botanice (144 de exemplare de soiuri Riesling și
125 mostre de soi Chardonnay) folosind derivate prime și secundare vis-NIR (200-2500 nm)
date spectrale. Reducerea datelor si dimensiunea s-a realizat utilizând PCA. Primele 20 de
PC-uri au fost selectate pentru tratamentul ulterior PLS-DA pentru a dezvolta un model.

Au fost cele mai bune abilități de clasificare obținute utilizând date derivate secundare ale
spectrelor între 400 și 1100 nm (100% din lovituri prin validare încrucișată). Figura

41
urmatoare prezintă rezultatele pentru validarea externă a modelului, care să permită 100 și
98,4% din predicția corectă pentru vinurile Riesling și Chardonnay, respectiv.

Tewari și Irudayaraj au caracterizat mierea (350 de probe) aparținând a șapte origini


botanice diferite (trifoi, hrișcă, bass, flori sălbatice, flori de portocale, morcov și alfalfa) prin
FT-IR și z-nas. Datele s-au normalizat după divizarea prin SD, iar ulterior s-a efectuat o
reducere a variabilei PCA out. Scorurile primelor șase sau șapte PC-uri au fost selectate ca
date de intrare pentru CVA. Abilitățile de recunoaștere și predicție atinse au fost mai mari
de 97 și 96% (medii din cele șapte origini), respectiv (figura de mai jos).

După cum arată exemplele detaliate de mai sus, modelul de tehnici supravegheate de
recunoaștere pote fi de mare ajutor, deoarece permite concluzii solide atunci când sunt
utilizate corect. In acest sens, o atenție deosebită trebuie acordată evitării practicilor
inadecvate cum ar fi utilizarea unui număr mic de eșantioane care nu reprezintă în mod
corespunzător variabilitatea din interiorul fiecărei categorii; utilizareade eșantioane
replicate ca probe pentru a mări artificial setul de date; utilizarea seturilor de eșantioane
neechilibrate; și nu funcționează orice fel de validare a modelelor. Mai mult, posibilitatea de
suprasarcinare ar trebui să fie studiată cu atenție dacă se vor supraveghea tehnicile sensibile
care la suprasolicitare sunt folosite, și ar trebui să suspecteze rezultatele prea optimiste.

42
3 .Concluzie
Utilizarea recunoașterii modelului supravegheat în analiza produselor alimentare este în
creștere exponențială, acoperind multe aspecte ale acestui domeniu. Prezentarea revizuirii
sugerează că o înțelegere a statisticilor fundamentale ale tehnicilor multivariate este încă
necesară. Câțiva autorii ar fi avut nevoie de ajutor, astfel încât să poată avea rezultate
fiabile și reprezentative și concluzii formate corect. Prin urmare, această revizuire include o
descriere sumară a bazei celor mai utilizate tehnici de recunoaștere a modelelor și a erorilor
și a concepțiilor greșite atunci când acestea sunt utlizate.

Mai mult, exemplele practice din acest referat au arătat utilitatea (potențială) a modelelor
supravegheate de recunoaștere chimia alimentelor și că o mare varietate de metode au fost
aplicate în mod obișnuit. Componenta principală in analiza este recomandată înainte de a fi
efectuată folosind orice tehnică supravegheată de recunoaștere a modelului. LDA este
tehnica cea mai frecvent utilizată supravegheată; întrucât QDA și CART sunt rareori utilizate,
în ciuda rezultatelor bune pe care le pot obține. CAIMAN este prea nou pentru a fi aplicat.

Majoritatea autorilor nu profită de toate posibilitățile oferite de multivariatele tehnici.


Studiile sunt în special deficitare din punctele de vedere al validării și reprezentativității
clasei considerate și datorate supraîncărcării. Astfel, prea optimist rezultatele au fost
prezentate în multe dintre publicațiile revizuite.

43