Documente Academic
Documente Profesional
Documente Cultură
Recunoasterea probelor
1.1 Introducere
Introducerea în prezent a instrumentelor analitice moderne permit producerea de cantități
mari de informații (variabile sau caracteristici) pentru un număr mare de probe , care pot fi
analizate în timp relativ scurt. Acest lucru duce la disponibilitatea unor matrici de date
multivariate care necesită utilizarea unor proceduri matematice și statistice, în scopul de a
extrage eficient datele care ne sunt utile .
Selectarea unei metode, a unei calibrări și a unui set de teste, care constau în obiecte
de membru de clasă cunoscute pentru care variabilele sunt măsurate. Setul de
calibrare este utilizat pentru optimizarea parametrilor caracteristici pentru fiecare
multivariat de tehnică.
Selecție variabilă. Aceste variabile care conțîn informații pentru clasificarea vizată
sunt păstrate, în timp ce aceste variabile codează zgomotul și / sau fără nici o putere
de discriminare este eliminat.
Construirea unui model folosind setul de antrenament. Un mathematic model este
derivat între un anumit număr de variabile măsurat pe eșantioanele care constituie
setul de antrenament și categoriile lor cunoscute.
Validarea modelului utilizând un set independent de probe,pentru a evalua
fiabilitatea clasificării realizate.
Tehnicile de discriminare sunt folosite pentru a construi modele bazate pe toate categoriile
implicate în discriminare, întrucât metodele disjuncte de modelare a claselor creează o
separare model pentru fiecare categorie. Unul dintre dezavantajele discriminării metodelor
este că eșantioanele sunt întotdeauna clasificate într-una din categoriile respective, chiar
dacă nu aparțîn niciuneia dintre ele. Metodele de modelare a claselor iau în considerare
acele obiecte care se potrivesc modelului pentru o categorie că parte a modelului și
clasificat că non-membri cei care nu. Cu toate acestea, în ceea ce privește clasificarea
abilități, examinările empirice recente arată că SIMCA nu este la fel de puternic că și înainte;
CAIMAN, CART și variantele de analiză discriminantă sunt mai bune .
Exemplu de test EDA printr-o nouă tehnică pe bază de microparticule pentru proteina C
Tehnicile noi de testare au fost aplicate la un test nou dezvoltat pe bază de microparticule
pentru proteina C reactivă (CRP). Prin utilizarea a două microparticule cu dimensiuni diferite
2
acoperite covalent cu doi anticorpi monoclonali cu reactivitate diferită, o sensibilitate
ridicată și o limită superioară de măsurare ce pot fi realizate simultan, rezultând un
domeniu dinamic remarcabil de larg.
Principiul metodei
(EDA) este o abordare a analizei seturilor de date pentru a rezuma principalele lor
caracteristici, adesea cu metode vizuale.
EDA diferă de analiza inițială a datelor (IDA), [1] care se axează mai mult pe verificarea
ipotezelor necesare pentru testarea modelului și a testelor de ipoteză și tratarea valorilor
lipsă și transformarea variabilelor după cum este necesar..
https://en.wikipedia.org/wiki/Exploratory_data_analysis
Modul de lucru
Această gamă a fost îmbunătățită suplimentar prin calcularea optimă a semnalului (rată de
răspuns) cu o nouă capacitate software a COBAS® INTEGRA, un analizor de chimie clinică.
Analiza a arătat o mare precizie între 2 mg / l și 160 mg / l, cu numai 2,5 μl specimen. Limita
de detecție a fost estimată că fiind de 0,3 mg / l CRP. Testul a fost de patru până la opt ori
mai sensibil și mai precis decât testele turbidimetrice sau nepfelometrice existente, cu limite
de măsurare superioare comparabile. Analiza a arătat, de asemenea, o bună liniaritate și s-a
corelat bine cu analizele comerciale. Acest nou test pe bază de microparticule CRP oferă
precizia necesara pentru a determina CRP la concentrații scăzute, unde sunt avute în vedere
noi implicații clinice, cum ar fi prognosticul bolilor cardiovasculare. Gama dinamică largă a
testului va duce suplimentar la o reducere a numărului de analize repetate, îmbunătățind
astfel eficacitatea determinărilor CRP din laboratoarele clinice
3
În chimia alimentelor, datele brute folosite pentru tratamente chimice sunt în general date
fizice sau chimice: conductivitatea; pH; umiditate; aciditate totală; concentrații de substanțe
chimice specific în probele măsurate prin tehnici analitice (HPLC sau GC); amprente, cum ar
fi cromatograme sau spectroscopice măsurători (semnale specifice sau spectre complete)
obținute prin spectroscopie IR, RMN, MS, UV-vis sau fluorescență; semnale de la senzori,
cum ar fi nasul electronic sau limbi; și / sau date din analiză senzorială a probelor. Selectate
de regiunile spectrale sau semnalele specifice sau lungimi de undă selectate de multe ori
oferă rezultate mai bune în clasificări decât utilizarea întregului spectral . Se pot selecta
regiuni de semnal sau spectrale specifice bazate pe o cunoaștere a semnalelor care indică
prezența de grupuri chimice specifice sau bazate pe tratamente chimice.
https://www.sciencedirect.com/science/article/pii/S0308814699002253
Datele digitale (de exemplu, spectrele, integralele de vârf, schimbările de vârf și pozițiile) de
multe ori depind de modul în care informațiile sunt prelucrate, deci o atenție deosebită ar
trebui acordată manipulării acestora. Spectrele și cromatogramele sunt semnale secvențiale
în timp sau în frecvență, pot fi procesate folosind diferite metode: (i) netezirea, în
ordinepentru a elimina zgomotul fără a extinde excesiv vârfurile; (Îi) derivare, pentru a
crește rezoluția; (iii) convoluție, pentru semnal, sporire; (iv) transformarea Fourier (FT) în
spectroscopie astfel că RMN și IR, conversia datelor brute în "domeniul de timp" la
"domeniul de frecvență"; (v) transformări wavelet, pentru netezire sau compresie de date;
(iv) metode bayesiene; (vii) ortogonalizarea, pentru a elimina variațiile sistematice ale
datelor care nu sunt corelate cu calitatea de membru al clasei. Mai mult, combinații diferite
din aceste metode sunt de asemenea utilizate pentru prelucrarea semnalelor.
Transformarea Fourier-descriere
Principiul metodei
4
Transformarea Fourier necalificată se referă la transformarea funcțiilor unui argument real
continuu și produce o funcție continuă de frecvență, cunoscută sub numele de distribuție de
frecvență.
O funcție este transformată în alta și operația este reversibilă. Atunci când domeniul funcției
de intrare (inițială) este timpul (t), iar domeniul funcției de ieșire (finală) este frecvența
obișnuită, transformarea funcției s (t) la frecvența f este dată de numărul complex:
Evaluarea acestei cantități pentru toate valorile lui f produce funcția de domeniu de
frecvență. Apoi s (t) poate fi reprezentat ca o recombinare a exponentialelor complexe ale
tuturor frecventelor posibile:
care este formula de transformare inversă. Numărul complex, S (f), transmite amplitudinea
și faza frecvenței f.
Modelele analizate în această secțiune sunt exemple ale modelului linear general în care
datele pot fi descrise în termenii unei combinații liniare de funcții de bază cu un aditiv
5
component de zgomot Gaussian. Astfel de modele pot fi utilizate ca o aproximare rezonabilă
la multe semnale, incluzând canalele de vorbire, de muzică și de comunicații digitale.
unde gq (n) este valoarea unei funcții de model dependente de timp gq (t) evaluată la
momentul tn.
Unde:
G este o matrice N Q ale cărei coloane sunt funcțiile de bază evaluate la fiecare punct
în seria de timp
https://en.wikipedia.org/wiki/Fourier_analysis
Este esențială pentru a evita o greșeală.Primul pas în EDA cuprinde date univariate de
analiză utilizând statistici de bază și descriptive (de exemplu, calcul din medie, abaterea
standard, varianță, șiretură, kurtoză, corelație matrice, t-test, F-test, ANOVA, cutii de carton
6
și whisker și verificarea normalității). Apoi, prezența unor valori excepționale, adică
observații care par a sparge modelul sau gruparea ,indicată de marea majoritate a probelor,
ar trebui evaluate deoarece cele mai multe metode convenționale multivariate sunt
sensibile pentru ei. Astfel, trebuie identificate valori extreme și apoi decizia trebuie luată în
legătură cu acceptarea sau respingerea valorii exagerate în procesul de modelare. În acest
scop,analiza manuală convențională și eliminarea valorii extreme ,dar, recent, s-au dezvoltat
metode robuste de analiza datelor multivariate, în vederea reducerii sau eliminării acestora
efect al punctelor de date periferice și să permită restul să fie predominant pentru a
determina rezultatele. Metodele robuste se bazează pe metodele exploratorii și
diagnosticarea convențională externă .
Metodele multivariate pot fi subdivizate în funcție de diferite aspecte. În primul rând, ele
sunt diferențiate în funcție de structura care trebuie descoperită sau verificată împreună cu
ele. Metodele de determinare a structurii includ:
7
Analiza clusterului: observațiile sunt atribuite grafic grupelor variabile individuale și
clasificate pe aceste baze. Rezultatele sunt grupuri și segmente, cum ar fi numărul de
cumpărători ai unui anumit produs, care au între 35 și 47 de ani și au un venit ridicat.
Analiza regresiei: investighează influența a două tipuri de variabile una asupra celeilalte. Se
vorbește despre variabilele dependente și independente. Primele sunt așa-numitele
variabile explicative, în timp ce acestea din urmă sunt variabile explicative. Primul descrie
starea actuală pe baza datelor, a doua explică aceste date prin intermediul relațiilor de
dependență dintre cele două variabileAnaliza de variație: determină influența mai multor
variabile individuale asupra grupurilor prin calcularea mediilor statistice. Aici puteți compara
variabilele dintr-un grup, precum și grupuri diferite, în funcție de unde vor fi asumate
abaterile. De exemplu: Care sunt grupurile care fac cel mai des clic pe butonul "Cumpărați
acum" din coșul de cumpărături?
https://en.ryte.com/wiki/Multivariate_Analysis_Methods
8
-"Intervalul maxim de eroare" (± 2 SEP, dacă biasul este neglijabil)
hidratare
• 4 maxime: (970 + 1190) 1450 +1940 nm ,diferite O-Hstretching și îndoirea O-H ,bandă și
combinații
http://www.eurofoodwater.eu/pdf/2002/Buening-Pfaue_eurofoodwater2002.pdf
9
1.2.3 Explorarea și recunoașterea nesupravegheată a modelului tehnicilor
Principala tehnică EDA este PCA, care este adesea primul pas al analizei datelor pentru a
detecta modelele măsurate.PCA este o tehnică care, prin reducerea dimensionala a datelor,
permite sa vizualizezi cat mai mult din datele prezente in datele initiale.
Astfel, PCA transformă variabilele măsurate originale în variabile noi necorelate, numite
componente principale. Fiecare director component este o combinație liniară a originalului
de variabile masurate. Această tehnică permite un grup de axe ortogonale care
reprezintăcele mai mari variați de date . Prima, Componenta principală (PC1) contabilizează
maximul ,varianta totală, a doua (PC2) nu este corelată cu prima și contabilizează maximul
varianței reziduale și așa mai departe până când variația totală este contabilizată. Din
motive practice, este suficient să păstrăm doar acele componente care țin cont de realizarea
unui procent mare din variația totală. Coeficienții liniari din relația inversă a combinațiilor
liniare sunt numite încărcări de componente, adică coeficienții de corelație între variabilele
originale și componentele principale. Valorile care reprezintă eșantioanele în spațiul definit
de principalele componente sunt scorurile componentelor. Pot fi folosite scorurile ca intrare
la alte tehnici multivariate, în loc de originalele variabile măsurate.
EDA (de exemplu, algoritmul din APC, definiția măsurilor de distanță și algoritmi de grupare)
este o tehnica ce pote fi găsita în chimia standard, articole sau manuale.
Următoarele metale din ceai provenind din diferite țări asiatice și africane au fost
determinate prin utilizarea spectrometriei de emisie atomică cu plasmă cuplată inductiv și a
spectrometriei de masă cu plasmă cuplată inductiv. Tehnicile de recunoaștere a modelelor
au fost apoi utilizate pentru a clasifica ceaiul în funcție de originea sa geografică.
Aplicarea LDA a oferit procentaje corecte de atribuire de 100,0% și respectiv 94,4% pentru
ceaiurile africane și asiatice, respectiv la un nivel de semnificație de 5%. SIMCA a oferit
procentaje de 100,0% și respectiv 91,7% pentru grupurile africane și asiatice, respectiv la
același nivel de semnificație. LDA, de asemenea, la un nivel de semnificație de 5%, a permis
o identificare corectă a cazurilor de 100% pentru cele trei clase China, India și Sri Lanka. Cu
10
toate acestea, o clasificare satisfăcătoare folosind SIMCA a fost obținută doar pentru
ceaiurile chinezești (100% din cazurile clasificate corect), în timp ce ceaiurile din India și Sri
Lanka par să formeze aceeași clasă.
http://www.statsoft.com/Textbook/Classification-and-Regression-Trees
Selecția variabilă pentru analiza discriminantă selectează un subset de variabile care sunt
cele mai discriminatorii. În acest scop, a algoritmului de căutare pentru localizarea soluțiilor
bune, o recunoaștere a modelului tehnică care oferă un model matematic și un obiectiv
ghidare a căutării este necesară. Funcția obiectivă evaluează calitatea subseturilor variabile
selectate cu tentativă în căutarea celui mai bun model, fiind absolut critică pentru a obține
soluții adecvate. Mai mult decât atât, o estimare a erorilor de predicție ar trebui calculată. În
chimometrie, cel mai mult sunt utilizate funcțiile obiective ce se bazează pe validarea
încrucișată.
Selecția celui mai bun subset este o procedură de selecție variabilă care efectuează o
căutare a tuturor subseturilor posibile de variabile care îndeplinesc criteriul de alegere a
celui mai bun (lambda lui Wilk, rata de clasificarea eronată etc.). Când există multe variabile
în model și multe dimensiuni mari in subset sunt considerate, total numărul de submulți
posibili și timpul de calcul devenit excesiv de mare.In acest caz este este recomandata
abordarea. Această abordare constă într-o selecție din cele mai bune subseturi de număr
mic de variabile (care pot fi calculate relativ rapid) în mai multe etape. În primul rând, cel
11
mai bun subset se aplică matricei complete de date pentru obținerea celui mai bun (mic)
subset al variabilelor; apoi, într-o a doua etapă, folosind selecția celor mai bune subseturi
dintr-un set de date care omit variabilele selectat în prima etapă, se obține un al doilea cel
mai bun subset. În final, o rafinare a variabilelor selectate succesiv în pașii anteriori se
efectuează folosind cel mai bun subset sau pas cu pas o selecţie.
Pe baza modului în care selecția variabilă este definită în PLSR, putem categorisi metodele
de selecție variabile în trei categorii principale: filtru, wrap-și metode încorporate
Metode de filtrare: Aceste metode utilizează ieșirea (opțional modificată) din algoritmul
PLSR pentru a identifica pur și simplu un subset important de variabile. Scopul este
identificarea variabilelor.
Metode de wrapper: variabilele identificate prin metodele de filtrare pot să fie redeschise
înapoi într-o remodelare a modelului PLSR pentru a obține o reducere de modele în care
avem metode de împachetare. Metodele se diferențiată în principal prin alegerea metodei
de filtrare și a metodei de bază ,modul în care este implementată "ambalarea".
Metode încorporate: Selecția variabilelor este o parte integrantă din algoritmul PLSR
modificat. Prin urmare, aceste metode fac variabila de selecție la nivel de component.
12
Exemplu de lucrare -Clasificarea măsurătorilor GC-MS la vinuri prin combinarea reducerii
dimensiunii datelor și tehnici de selecție variabilă
Principiul metodei
Șaizeci și două de eșantioane de vin roșu, produse din același strugure (Cabernet Sauvignon)
și aparținând diferitelor zone geografice și producători , au fost colectate de la
supermarketurile locale și analizate cu ajutorul HS-GC-MS. Detalii privind eșantionul originile
și clasele sunt prezentate în tabelul de mai jos:
Atât în pregătirea probei, cât și în modul GC, probele au fost randomizat. Eșantioane de vin
de câte 10 ml, fără eșantion preparate, au fost adăugate direct în balonul de 100 ml de
purjare și s-au adăugat 2 ml de 4-metil-1-pentanol în apă (50 mg / l) standard intern.
Probele au fost echilibrate la 30% 18 grade C într-o baie de apă cu circulație și apoi purjată
cu azot (75 ml / min) timp de 20 min. Compușii volatili au fost colectați pe un Tenax-TA
13
capcană. Volatilele capturate au fost desorurate folosind un sistem automat de desorbție
termică (ATD 400, Perkin Elmer, Norwalk, USA) și volatilele transferate într-o masă de
cromatografie în gaz spectrometru printr-o linie de transfer încălzită (2258C).
https://s3.amazonaws.com/academia.edu.documents/39611503/Ballabio-
2008.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1526043896&Signature=GL
QrkGUe7jLcRlFXY2XJo1PwL8s%3D&response-content-
disposition=inline%3B%20filename%3DClassification_of_GC-MS_measurements_of.pdf
Metode de clasificare
Trei abordări diferite au fost evaluate pentru a construi modele de clasificare: analiza
discreționară parțială din cele mai mici pătrate (PLS-DA), analiza extinsă a canalelor variabile
(ECVA) și liniară-analiza discriminatorie (LDA).
PLS-DA
14
PLS-DA poate fi considerată o extensie a LDA folosind variabilele cu reducerea asociată a
zgomotului . În PLS-DA interpretarea poate fi efectuată în raport cu originalul spațiu de date
cu dimensiuni mari, dar PLS suferă de un ad-hoc de natură și criterii de clasificare mai puțin
bine definite decât al mai multora metodele tradiționale de clasificare . Practic, PLS-DA
efectuează o reducere a dimensiunii la fel ca PLS. Modelul PLS-DA este folosit pentru a
clasifica probe necunoscute, adică le prezice calitatea de membru binar al fiecărui eșantion.
ECVA a fost recent propusă ca un nou clasificator capabil să facă față cu date collineare cu
dimensiuni mari . Acesta poate fi definit ca modificarea analizei standard a variantelor
Canonice (CVA).ECVA calculează variațiile canonice direct în originalul spațiu înalt
dimensional care face posibilă interpretarea modelului în legătură cu acest spațiu. Metoda
CVA modificată forțează discriminative în primele variații canonice și vectorii de greutate
aflați în metoda ECVA dețin aceeași valoare cu proprietăți ca cele ale metodei CVA
standard.
Evaluarea performanței clasificării modelelor prezentate s-au bazat pe valorile ratei non-
eroare (NER) , adică pe procentul de eșantioane atribuite corect, evaluate atât pe grupuri de
validare încrucișată și probe de testare externe.
Software-ul
S-au efectuat calcule în MATLAB 6.5 (Mathworks). PLS_Toolbox (Eigenvector Research, Inc.,
Manson, WA, SUA) a fost utilizat pentru PLS-DA; ECVA a fost efectuată cu MATLAB ,GA,
selecția și extragerea scorului au fost aplicate prin intermediul funcțiile MATLAB în interiorul
casei.
15
MATLAB
Rezultate
Alinierea datelor, extragerea scorului folosind PCA va fi mai eficientă, deoarece datele
aliniate pot fi explicate prin inferioritatea modelelor bilineare. Alinierea permite modelelelor
PCA să se concentreze pe variația dintre clase și nu pe vârf,schimbarea comportamentului
datorită procesului cromatografic.Datele alinitate sunt prezente in figura de mai jos.
După aliniere, PCA a fost aplicată pe matricea de date și pe primele două componente
principale, explicând 65% din variant ce au fost luate în considerare. Aceste componente au
fost utilizate pentru a împărțiți cele 62 de probe în formare (46 de eșantioane) și testați (16
în cinci grupe, unde clasele au fost reprezentate în mod egal, pentru a efectua o procedură
internă de validare încrucișată în timp ce are loc construirea modelelor de clasificare.
http://www.utdallas.edu/~herve/abdi-wireCS-PLS2010.pdf
16
1.4 Tehnici de recunoaștere a modelelor supravegheate
Au fost aplicate tehnici de recunoaștere a modelelor supravegheate la o mare varietate de
date chimice (cromatografice, spectrometrice, spectrofotometric, spectroscopic, senzorial,
etc.) cu diverse scopuri, cum ar fi profilarea, amprentarea, autentificarea, detectarea
falsificării, evaluarea calității alimentelor, date interpretare etc.
LDA este probabil cel mai frecvent utilizat model supravegheat, metoda de recunoaștere și
cea mai bine studiată. LDA este bazată pe determinarea funcțiilor liniare discriminante, care
maximizează raportul variației între clase și minimizarea raportului dintre variația în clasă. În
LDA, clasele trebuie să urmeze o distribuție normală multivariată și separată liniar. LDA
poate fi considerată ca PCA, ca metodă de reducere a caracteristicilor în în sensul că atât
LDA cât și PCA determină o dimensiune mai mică hiperplana pe care vor fi proiectate
punctele de dimensiune mai mare. Cu toate acestea, PCA selectează o direcție care
păstrează structura maximă între datele dintr-o dimensiune mai mică, LDA selectează o
direcție care realizează o separare maximă printre clasele de date. Variabila latentă obținută
în LDA este o combinație liniară a variabilelor inițiale. Această funcție se numește variantă
canonică, iar valorile sale sunt rădăcinile. Fiind k clase, k-1 variații canonice pot fi
determinate în cazul în care numărul de variabile este mai mare decât k .
LDA este o variantă a analizei discriminatorii, în care limitele de discriminare sunt liniare.
Pentru discriminare pot fi folosite și alte funcții ca funcție discriminativă cuadratoare (QDA)
și clasificare bayesiană care sunt, de asemenea, sub-cazuri de regularizare (ADR) .QDA, care
stabilește parabolice limite, este mai puțin supusă unor constrângeri în distribuția obiectelor
în spațiu decât LDA, dar în mod similar necesită numărul din eșantioane este mai mare decât
cea a variabilelor. ADR prezintă comparativ cu LDA și QDA, care este mai puțin supus la
constrângeri fără a necesita mai multe obiecte. Bayesianul,abordarea se bazează pe
principiul că apartenența la fiecare clasă are o probabilitate anterioară și măsurătorile sunt
utilizate în principal pentru a rafina aceasta .
Analiza cantitativă variată (CVA) este o altă tehnică discriminantă, cunoscută și ca analiză
canonică de corelare (CCA) .CVA diferă de LDA, de ex. în faptul că LDA utilizează un vector
care conține informațiile privind calitatea de membru, în timp ce CVA poate utiliza o
matrice.
Principiul metodei
Spectroscopia Raman (numită astfel după Sir C. V. Raman) este o tehnică spectroscopică
utilizată pentru a observa modurile vibraționale, rotaționale, și alte mișcări de frecvență
17
joasă într-un sistem.[1] Spectroscopia Raman este frecvent folosită în chimie pentru a oferi
o amprentă structurală prin care moleculele pot fi identificate.
https://ro.wikipedia.org/wiki/Spectroscopie_Raman
Materialefolosite :
Unt (Beavers Meadow Creamery Inc., PA și '' Finest '' Foodhold USA Inc., GA), untură
(Hatfield Quality Carne, PA), ulei de ficat de cod (E.R. Squibb și Sons Inc., NJ și Roberts
laboratory Inc., NJ), măsline extra virgine ,ulei ("Sensational" "Foodhold USA Inc., GA și
"Pompeian" Pompeian Inc., MD), ulei de porumb ("Finest" Foodhold USA Inc., GA și Mazola
Bestfoods, NJ), ulei de arahide (Nabisco Inc., NJ și The Hain Food Group Inc., NY), canola
(The Hain Food Group Inc., Y și "Crisco" Proctor și Gamble, OH), soia ulei (Hain Food Group
Inc., NY și "Crisco" Proctor și Gamble, OH), ulei de șofrănel (The Hain Celestial Group Inc.,
NY) și uleiul de cocos ("Parachute" Marico Industries Ltd., Mumbai, India) au fost obținute
de la magazin local. Chimicalele și solvenții utilizați în produsele noastre au avut un grad de
reactiv analitice.
Analiza FTIR
Un spectrometru Nicolet 870 (Nicolet Instrument Corp., Madison, WI) echipat cu o triglicină
deuterizată Sulfat (DTGS) a fost utilizat.
18
colectata de 11 ori și folosita pentru analiza statistică. Aceeași replicare a fost utilizată
pentru FT-NIR și FT-Raman.
Analiza FT-NIR
Spectrometrul Nicolet 870 echipat cu Detectorul DTGS a fost utilizat pentru analiza FT-NIR.
Analiza FT-Raman
Spectrele FT-Raman au fost obținute utilizând Nicolet 870 spectrometru cu modulul Nicolet
Raman 32B (Madison, WI) și cu laser HeNe cu putere maxima de 2,0 W. Sistemul a fost
echipat cu un InGaAs (Indium- Gallium Arsenide), separator XT-KBr de 180 ,oglinda
reflectorizantă cu un sistem complet motorizat ,element de ajustare a poziției.
Ieșirea laserului cu puterea de 2,0 W folosită pentru analiză a fost suficient de mică pentru
a preveni posibile daune provocate de laser. Datele au fost colectate la 32 de ore cu 256 de
scanări. Spectrele au fost obținute în intervalul de trecere Raman între 400 și 3700 cm-1.
Sistemul a fost operat folosind un software OMNIC (Versiunea 5.1, Madison, WI).
19
Analiza discriminatorie
Win-DAS (Wiley, Chichester, Marea Britanie) pachetul a fost utilizat pentru analiza calitativă.
Standardizarea zonelor din datele spectroscopice au fost efectuate pentru a compensa
diferențele brute în răspunsul spectral care au fost cauzate de efecte fizice, cum ar fi
artefactele instrumentale.
Au fost utilizate două metode de analiză discriminatorie pentru scopul clasificării multiple a
grupului: acestea sunt liniare analiza discriminatorie (LDA) și analiza variată canonică (CVA)
(Kemsley, 1998). Deoarece multidimensionale date (care apar atunci când numărul
variabilelor este mai mare decât numărul de observații) nu poate fi direct utilizate în
metodele de mai sus, analiza principală a componentelor (PCA) și analiză parțială parțială
(PLS) utilizate pentru comprimarea datelor, pentru a transforma originalul set de date
cuprinzând un număr mare de intercorelați care variază (numere de val) într - un set nou
redus ce variază înainte de CVA sau LDA.
Numărul de absorbție a iodului pentru probele de ulei și grăsime au fost determinate prin
metoda Hanus (AOAC, 1984).Constă în adăugarea unui amestec de iod și brom în acid acetic
glacial și estimarea excesului de halogen neutilizat prin titrare cu tiosulfat de sodium.
Rezultate
Este bine cunoscut faptul că fiecare ulei / grăsime diferă în compoziție, lungime și in gradul
nesaturat al acizilor grași ,precum șidupa pozițiile lor în lanț. Spectrele IR și Raman
reprezintă un model combinat de amprente unic pentru fiecare ulei / grăsime și au fost
utilizate pentru analiza discriminatorie. A al doilea set de analize a fost efectuat folosind
regiuni specificela vibrația de legătură C = C. Legătura dublă luată în considerare este o
legătură nesaturată și intensitățile, zonelesau înălțimile vârfului din această regiune ar putea
indica- gradul de nesaturare în acizii grași, steroli și -vitamine.
20
Concluzie
https://s3.amazonaws.com/academia.edu.documents/46014703/Supervised_pattern_recog
nition_in_food_a20160528-2288-
1r79eey.pdf?AWSAccessKeyId=AKIAIWOWYYGZ2Y53UL3A&Expires=1526981300&Signature
=WB0Ca0xGnk2MUp4DwEf%2BBBDyR88%3D&response-content-
disposition=inline%3B%20filename%3DSupervised_pattern_recognition_in_food_a.pdf
LDA este supusă unei constrângeri iar numărul de variabile nu ar trebui să depășească
numărul de obiecte.Rezolvarea la această problemă este de a aplica selecția sau reducerea
caracteristicilor menționate mai sus, iar cealaltă soluție este de a aplica metode cum ar fi
mai puține patrate partiale.
Modelarea parțială a celor mai mici pătrate este o proiecție multivariată ,metoda de
modelare a unei relații între variabilele dependente (Y) și variabile independente (X).
Principiul PLS este de a găsi componentele din matricea de intrare (X) care descriu cat de
mult ca posibil variațiile relevante în variabilele de intrare și in același timp au o corelație
maximă cu valoarea țintă în Y, acordând o mai mică importanță variațiilor care sunt
irelevante sau zgomotoase.
Deci, PLS modelează simultan X și Y pentru a găsi latenta de variabile în X care vor prezice
variabilele latente în Y. PLS maximizează covarianța dintre matricele X și Y. Parțial analiza
discriminatorie a celor mai mici pătrate, cunoscută și ca discriminantă PLS (DPLS), are ca
scop găsirea variabilelor și direcțiilor în spațiul multivariat care discriminează clasele stabilite
în setul de calibrare. Un număr optim de variabile latente poate fi estimată prin utilizarea
seturilor de validare încrucișate sau externe. În PLS-DA, o matrice "matricolă" Y este
construită cu zerouri și altele.
Există mai mulți algoritmi pentru PLS, fiecare cu anumite avantaje în funcție de cazul studiat.
Dintre acestea, non-liniara, algoritmul iterativ parțial minimal de pătrate (NIPALS) permite
calcularea componentelor principale unul câte unul.
ALGORITM PLS
21
Proprietățile regresiei PLS pot fi analizate dintr-o schiță a algoritmului original (numite
nipale). Primul pas este crearea a două matrice: E = X șiF = Y. Aceste matrice sunt apoi
centrate pe coloane și normalizate (adică transformat în scoruri Z). Suma din pătratele
acestor matrici sunt denumite SSX și SSY.
Înainte de a începe procesul de iterație, vectorul’’ U’’ este Inițializat cu valori aleatorii.
Algoritmul nipalilor efectuează următorii pași (în cele ce urmează simbolul α înseamnă "a
normaliza rezultatul funcționare“):
SOFTWARE
Regresia PLS necesită calcule sophisticate și, prin urmare, aplicarea sa depinde de
disponibilitatea software-ului. Pentru chimie, două dintre principale programe sunt
utilizate: primul numit simca-p a fost dezvoltat inițial de Wold, al doilea numit Unscrambler
a fost dezvoltat pentru prima dată de Martens.
http://www.utdallas.edu/~herve/abdi-wireCS-PLS2010.pdf
Metoda prezintă mai multe avantaje: (i) matematic ,simplitate, care nu îl împiedică să obțină
clasificarea rezultatelor bune (sau chiar mai bune) decât alte tehnici complexe de
22
recunoaștere a modelelor; (ii) este lipsită de date statistice, ipoteze, cum ar fi distribuirea
normală a variabilelor; și (iii) eficiența sa nu depinde de distribuția spațiului din clase. Pe de
altă parte, această tehnică este similară cu limitările la LDA. kNN nu poate funcționa bine
dacă există diferențe mari prezente în numărul de probe din fiecare clasă.
kNN oferă informații slabe despre structura a claselor și a importanței relative a fiecărei
variabile în clasificare. În plus, nu permite o grafică pentru reprezentarea rezultatelor, iar în
cazul unui număr mare de rezultate ,probele sau calculul poate deveni excesiv de lent.
Această idee poate fi extinsă la cei mai apropiați AT cu vecini vectorul y fiind atribuit clasei
reprezentate de majoritatea dintre cei mai apropiați vecini ai lui AT. Desigur,atunci cand
este considerat mai mult decat un vecin , posibilitatea de a exista o cravată între clase cu un
număr maxim de vecini în grupul de AT-cel există. Un mod simplu de a manipula
1.4.4 SIMCA
SIMCA este cea mai utilizată dintre tehnicile de modelare a claselor. În SIMCA, fiecare
categorie este modelată independent folosind PCA, și poate fi descrisă de un număr diferit
de componente principale.
Numărul componentelor principale pentru fiecare clasă din setul de antrenament este
determinat de validarea încrucișată. În acest fel, este suficient numărul componentelor
principale pentru a lua in considerare majoritatea variațiilor din cadrul fiecărei clase,
asigurând în același timp un nivel ridicat de semnal-zgomot prin faptul că nu include așa-
numitele secundare sau componente principale încărcate cu zgomot în modelul de clasă .
Opțiuni de model - setate la nivel de model și locale pentru acel particular model.
Unele opțiuni pot fi setate numai în opțiunile de model. Noi modele moștenesc
opțiunile de la nivelul proiectuluiOpțiuni model în secțiunea Set de lucrări din
capitolul Acasă.
23
Opțiuni de proiect - stabilite la nivel de proiect și sunt valabile pentru acel proiect și
toate modelele create după aplicarea modificărilor. Proiectele noi moștenesc setările
opțiunilor din fabrică.
Opțiuni SIMCA - se aplică software-ului. Modificările acestor opțiuni se aplică la toate
proiectele deschise după schimbare.
Opțiuni de montare
Prezentarea prezicerilor
Transformarea predicțiilor
Atunci când variabilele y au fost transformate, în mod prestabilit predicțiile sunt înapoi
transformate în unitățile originale. Bifați caseta de selectare.
24
Scalarea predicțiilor
Pentru a afișa predicția Y în aceeași unitate ca și cea a lucrării, selectați predicțiile Scale din
caseta de bifat.
Când lucrările au fost tăiate sau Winsorized, setul de predicții poate fi tăiat sau Winsorized
în același mod prin selectarea previziunilor Trim ca lucrări din Caseta de bifat. Implicit, setul
de predicții nu este tăiat și nici nu este Winsorized.
http://131.130.57.230/clarotest190/claroline/backends/download.php?url=L1N0YXQvU0lN
Q0EvVXNlciBHdWlkZSB0byBTSU1DQSAxMy5wZGY%3D&cidReset=true&cidReq=300152WS1
3
1.4 .5 UNEQ
Un test outlier este folosit pentru a decide dacă un obiect nou aparține unei anumite clase
sau nu. UNEQ se bazează pe Mahalanobis distanța (sau distanța generalizată) de la
centroidul de clasa. Atunci când distanța depășește o valoare critică, obiectul este o
depășire și, prin urmare, nu face parte din clasă. O proprietate principală din distanța
Mahalanobis este că dispersia internă în interiorul unei clae este luată în calcul la calcularea
distanței între indivizi și centroidul populației. O altă proprietate din distanța generalizată
este invarianța sa față descalarea variabilelor.
25
UNEQ necesită populații omogene și este foarte sensibilă la seturi de date dezechilibrate
mai ales daca raportul dintre obiecte si variabile este suficient de mare, cel puțin 3. Când
raportul este mai mic, distanța poate fi calculată în spațiul principal al componentei în loc de
spațiul original.
Distanța Mahalanobis
Unde, Cx este matricea variantă-covarianță; X este matricea de date care conține n obiecte.
Xc este coloana de date centrată pe coloană .
Biblioteca eigen a fost utilizată pentru calculul determinării matricei și a calculului invers.
Formatul fișierului de intrare: Acest program are un fișier de intrare în format CSV.
26
Formatul fișierului de ieșire:
27
Act de renunțare -Numai pentru scopuri academice.
http://nanobridges.eu/wp-content/uploads/2015/05/MahalanobisDistance_Manual.pdf
Arborele de clasificare și regresie este o metodă de construire a copacilor în care datele sunt
împărțite în mod repetat în grupuri .Arborele este construit într-un mod binar recursiv,
rezultând în nodurile conectate prin ramuri. Termenul "binar" implică faptul că fiecare grup
de obiecte, reprezentat de un "nod" într-un arbore de decizie, poate fi împărțit numai în
două grupuri.
Un nod care este în continuare împărțit în două noduri noi se numește nod părinte, iar cele
două noi sunt numite noduri copil. Nodurile fără noduri copil se numesc noduri terminale.
Se pot distinge două tipuri de arbori: arbori de clasificare, construit pentru răspunsuri
categorice, și arbori de regresie, pentru numerice. Un nou eșantion este alocat unui nod
terminal în conformitate cuvalorile variabilelor sale X.
Procedura CART se compune din trei etape principale. În primul rând ,o prima procedură în
trepte se efectuează pe setul de date în ordine pentru a construi un arbore complet de
28
decizie. Pornind de la un nod rădăcină, care include toate probele, fiecare nod părinte este
împărțit în două noduri copil de către cel mai bun splitter. Divizarea continuă până la toate
nodurile terminale îndeplinesc anumite criterii, de ex. până la terminale nodurile conțin
numai obiecte dintr-o clasă sau mai puțin decât o valoare predeterminată numărul
eșantioanelor în cazul în care clasificarea nu este completă inca.
Arborele decizional complet obținut în această primă etapă are o tendință de a supraviețui,
ceea ce duce la predicții slabe pentru probele necunoscute. Această problemă poate fi
rezolvată cu al doilea pas, constând In "tăierea" copacului.
Arborele complet conține multe noduri terminale, numărul total reprezentând dimensiunea
copacului. Criteriul de "tăiere minimă a costurilor - complexitate" este folosit pentru
În a treia etapă, cel mai bun sub-copac tăiat este selectat sub-copaci optimi pe baza calității
predicției pentru noi date prin efectuarea unei validări încrucișate sau prin utilizarea unui
sistem extern de seturi de teste.
În termeni cei mai generali, scopul analizelor prin intermediul algoritmilor de construire a
copacilor este acela de a determina un set de condiții logice (divizate) ,logice care să permită
predicția sau clasificarea exactă a cazurilor.
CLASIFICARE
29
Interpretarea acestui arbore este simplă: dacă lățimea petalei este mai mică sau egală cu
0,8, floarea respectivă ar fi clasificată ca Setosa; dacă lățimea petalei este mai mare de 0,8 și
mai mică sau egală cu 1,75, atunci floarea respectivă ar fi clasificată ca Versicol; altfel,
aparține clasei Virginic.
Regresia:
Abordarea generală de a obține predicții din câteva condiții simple, dacă-atunci, poate fi
aplicată și problemelor de regresie. Acest exemplu se bazează pe fișierul de date Poverty,
care conține cifrele recensământului din 1960 și 1970 pentru o selecție aleatorie de 30 de
județe. Întrebarea de cercetare (pentru acest exemplu) a fost aceea de a determina
corelațiile sărăciei, adică variabilele care prezic cel mai bine procentul de familii aflate sub
pragul sărăciei într-un județ. O reanaliză a acestor date, utilizând analiza arborelui de
regresie [și validarea încrucișată v-fold, dă următoarele rezultate:
Din nou, interpretarea acestor rezultate este destul de simplă: Județele în care procentul
gospodăriilor cu un telefon este mai mare de 72% are, în general, o rată a sărăciei mai
30
scăzută. Cea mai mare rată a sărăciei este evidentă în acele județe care arată mai puțin (sau
egal) cu 72% din gospodăriile cu telefon și unde populația se schimbă (de la recensământul
din 1960 până la recensământul din 170) este mai mică de -8,3 (minus 8,3) . Aceste rezultate
sunt simple, ușor de prezentat și clar clar și intuitiv: există unele județe bogate (unde
majoritatea gospodăriilor au un telefon), iar cele care au în general sărăcie mică. Apoi, există
județe care sunt, în general, mai puțin bogate, iar printre cele care au scăzut cel mai mult au
arătat cea mai mare rată a sărăciei. O revizuire rapidă a scatterplot-ului valorilor observate
vs. prezise arată cum discriminarea dintre cele două grupuri din urmă este deosebit de bine
"explicată" de modelul de copac.
http://www.statsoft.com/Textbook/Classification-and-Regression-Trees
În cazul clasificării, SVM este o metodă de obținere "optimă" a două clase într-un spațiu
vector independent privind distribuțiile probabilistice ale vectorilor de formare din seturile
de date. Limita "optimă" este definită ca cel mai distanțat hiperplan din ambele seturi, adică
"punctul de mijloc"între aceste seturi. Deși distribuția seturilor nu este cunoscuta, această
limită este de așteptat să fie clasificarea optimă din seturi, deoarece această limită este cea
mai izolată din ambele seturi.
Atunci când clasele sunt separate printr-o limită neliniară, metoda kernel-ului este folosită
pentru a găsi granița. Fundamentul conceptului metodei kernel-ului constă într-o
transformare a spațiului vectorial însuși într-un spațiu dimensional superior, în care clasele
pot fi separate liniar. În cazul regresiei, SVM performează regresia liniară în acest spațiu,
fără a penaliza mici erori .
SVM a devenit popular în zilele noastre, deși este dificil să găsim probleme care nu pot fi
rezolvate cu instrumente mult mai simple.
Vectorul mașină suport (SVM) efectuează clasificarea prin găsirea hiperplanului care
maximizează marja dintre cele două clase. Vectorii (cazurile) care definesc hyperplana sunt
vectorii de suport.
31
Algoritmul
Extindeți definiția de mai sus pentru problemele care nu pot fi separate liniar: aveți un
termen de penalizare pentru clasificări greșite.
Datele de hartă către un spațiu dimensional ridicat unde este mai ușor de clasificat cu
suprafețe de decizie liniară: reformulați problema astfel încât datele să fie mapate implicit în
acest spațiu.
32
Găsim w și b rezolvând următoarea funcție obiectiv folosind Programarea Quadratică.
Frumusețea SVM este că, dacă datele sunt separabile liniar, există o valoare minimă globală
unică. O analiză SVM ideală ar trebui să producă un hyperplane care separă complet vectorii
(cazurile) de două clase care nu se suprapun. Cu toate acestea, este posibil ca separarea
perfectă să nu fie posibilă sau poate duce la un model cu atât de multe cazuri pe care
modelul nu le clasifică corect. În această situație, SVM găsește hiperplana care maximizează
marja și minimizează clasificările greșite.
Cea mai simplă modalitate de a separa două grupuri de date este cu o linie dreaptă (1
dimensiune), un plan plan (2 dimensiuni) sau un hyperplane N-dimensional. Cu toate
acestea, există situații în care o regiune neliniară poate separa mai eficient grupurile. SVM
33
se ocupă de acest lucru prin utilizarea unei funcții kernel (neliniare) pentru a cartografia
datele într-un spațiu diferit unde un hyperplane (liniar) nu poate fi folosit pentru a face
separarea. Aceasta înseamnă că o funcție neliniară este învățată de o mașină de învățare
liniară într-un spațiu de dimensiuni mari, în timp ce capacitatea sistemului este controlată
de un parametru care nu depinde de dimensionalitatea spațiului. Aceasta se numește truc
de kernel, ceea ce înseamnă că funcția kernelului transformă datele într-un spațiu
caracteristic dimensional mai mare pentru a face posibilă efectuarea separării liniare.
Stabiliți datele în spațiu nou, apoi luați produsul interior al vectorilor noi. Imaginea
produsului interior al datelor este produsul intern al imaginilor datelor. Două funcții ale
kernel-ului sunt prezentate mai jos.
http://www.saedsayad.com/support_vector_machine.htm
34
1.4.8 Rețele neuronale artificiale
Un feed-forward ANN este compus dintr-un număr mare de artificiali neuronali dispuși într-
o structură paralelă. Neuronii sunt sortati într-un strat de intrare, care conține un neuron
pentru fiecare independent de variabilă (X); unul sau mai multe straturi ascunse, în cazul în
care datele sunt procesate; și un strat de ieșire, cu un neuron pentru fiecare dependentă (Y).
Deci, datele din stratul de intrare sunt propagate prin intermediul rețelei prin intermediul
sinapsei, care sunt asociate cu coeficienți de conectivitate numiți greutăți (w).
Straturile ascunse sunt în special importante pentru a face față problemelor de clasificare
neliniare. Cele mai frecvent utilizate ANNs sunt Kohonen-, contra funcția de bază radiativă și
neuronală probabilistică (PNN). Dar fără îndoială, cel mai popular, din tipurile de rețele
utilizate pe scară largă sunt ans-urile de propagare înapoi. Termenul de propagare înapoi se
referă la modul de eroare calculată la partea de ieșire care este propagată înapoi de
lamIesirea din stratul ascuns și, în final, la stratul de intrare.
O abordare pentru a determina cel mai bun număr de noduri ascunse este de a începe cu
cele mai simpla arhitectură, adică un strat ascuns, și să adăugăm noduri la un anumit timp,
până când rețeaua a învățat setul de antrenament . Dar cu numărul tot mai mare de noduri
ascunse, formarea devine excesivă consumatoare de timp, .
Calitatea ANN
Arhitectura și cele mai bune valori ale parametrilor implicați în procesul de învățare sunt
evaluate folosind eroarea medie pătrată a rădăcinii între valoarea așteptată și valoarea reală
a producției . Scalarea datelor este esențială pentru prevenirea numărului mai mare pentru
a suprascrie cele mai mici și pentru a preveni saturația prematură de noduri ascunse, care
împiedică procesul de învățare.
Un mare avantaj al ANN este cunoașterea cauzală a relației dintre variabilele de intrare și de
ieșire.Aceste relatii se învață prin cursuri succesive. Mai mult, ANN prezintă remarcabile
35
caracteristici atractive de procesare a informațiilor: (i) non-linearitatea, permițând o mai
bună adaptare la date; (ii) insensibilitatea la zgomot, oferind predicție precisă în prezența
incertitudiniierori de date și de măsurare; (iii) paralelism înalt, care presupune o prelucrare
rapidă și toleranță la defecțiuni hardware; (Iv) invățare și adaptabilitate, permițând
sistemului să actualizeze (să modifice) structura sa internă ca răspuns la schimbarea
mediului; și (v) generalizarea, permițând aplicarea modelului la informații neînvățate.
https://www.sciencedirect.com/science/article/pii/0950705196819204
Situația ideală este atunci când sunt disponibile suficiente probe pentru a crea formare
separată (independentă), calibrare și seturi de testare, fiecare set conținând eșantioane
reprezentative pentru fiecare clasă. Această procedură de validare este cunoscută sub
numele de validare externă. În acest tip de validare, setul de test este complet independent
de procesul de construire a modelului (selecție variabilă, estimarea parametrilor,
determinarea componentelor principale).Dar în analiza alimentelor, această situație ideală
nu este de obicei caz; prin urmare, metodele de validare încrucișată sunt utilizate în mod
obișnuit.
36
încrucișată internă. Abordarea acestei metode constă în atribuirea probelor la întâmplare la
un set de antrenament și un set de test, acesta din urmă conținând aproximativ 1 / k
eșantioanele (de obicei valoarea k este de 3, 4 sau 5).
În general, capacitatea de recunoaștere a unui model este mai bună decât capacitatea de
predicție. Dar dacă sunt substanțial diferite, asta înseamnă că regulile deciziei depind prea
mult de realitate si de obiectele din setul de antrenament, deci soluția obținută nu este
stabilă și, prin urmare, nu este de încredere.
Cele mai multe clasificări: sarcinile pot fi rezolvate de către LDA, CVA și PLS-DA. În cazul
clasificării binare, dacă există aceleași numere din eșantioane din fiecare clasă, rata de
succes este 50% (probabilitatea anterioară). Cu toate acestea, atunci când numărul de probe
în fiecare clasa diferă considerabil, rezultatele de clasificare pot fi mai proaste. Aceasta este
o limitare a unor tehnici multivariate, cum ar fi ca LDA, kNN și tehnicile de modelare a
claselor, care sunt foarte sensibile la dezechilibre mari în numărul de probe din fiecare clasă.
Deci, dacă numărul de obiecte din fiecare clasă de formare set nu este aproximativ egal,
decizia de aderare la clasă va fi părtinitoare față de clasă cu cei mai mulți reprezentanți. Prin
urmare, ori de câte ori este posibil, numărul egal de eșantioane în fiecare clasă ar trebui să
37
fie asigurată prin experimente proiectate. O atenție deosebită trebuie acordată validării
modelelor.
În prezent, nu există dovezi suficiente pentru a judeca care tehnica ar trebui să fie utilizată și
în ce circumstanțe. Ca o regula CAIMAN și QDA sunt cele mai bune tehnici de
clasificare;CART și LDA sunt al doilea cele mai bune, în timp ce SIMCA si UNEQ nu sunt atât
de utile în ciuda definiției și potențialului lor .
În unele cazuri simple, nu este nevoie să utilizați metode multivariate. Dacă unii markeri
(vârf compus, bandă spectrală) sunt prezente, prezența lor poate indica o clasă. Cu toate
acestea, dacă este așa markerii nu sunt evidenti în general sau nu sunt prezenți în fiecare
probă;atunci sunt necesare tehnici multivariate.
PLS folosit pentru sarcini discriminatorii nu a fost complet înțeles și descris încă. PLS-DA
poate fi considerat ca o analiză corelațională canonică penalizată, dar unele incertitudini
(codificarea, forma ilogică a produselor încrucișate între grupuri matrice, indiferent dacă
LDA depășește PLS) nu au fost rezolvate.Într-adevăr, PLS-DA funcționează mai bine dacă
numărul de grupuri care este mic. Practica recomandată pentru PLS-DA este de a folosi prag
de 0,5 atunci când clasele sunt codificate ca 0 și 1 sau 0 când este codificat ca -1 și +1.
Aplicarea acestor praguri, toate anticipate, valorile din cadrul unei clase sunt frecvent mai
mici de 0,5 (sau negative) când sunt definite mai mult de două clase.
38
2. Aplicații în analiza produselor alimentare
Câteva recenzii recente despre aplicațiile de chemometrie în analiza produselor alimentare
au fost publicate: recenzii generale pe analiza alimentară sau recenzii privind anumite
alimente, cum ar fi peștele ,carne vin bere sau miere .Alte recenzii se ocupă cu probleme
speciale, cum ar fi nasul electronic sau limba ,determinarea texturii produselor lactate,
aroma de vin , autentificarea produselor alimentare utilizând MIR ,analiza senzorială ,
viziunea informatică pentru evaluarea calității alimentelor, detectarea defecțiunilor din
carne sau a celor geografice originea alimentelor prin analiza multi-element și multi-izotop.
39
Majoritatea articolelor găsite, aproximativ 150, au fost legate de substanțe chimice sau
senzoriale din analiza alimentelor. Gama de produse alimentare studiate prin
recunoașterea modelului supravegheat unde tehnicile sunt cu siguranță largi, inclusiv vinul,
uleiurile comestibile, mierea, produse lactate, carne, fructe, băuturi, cereale, pește, aditivi,
etc. Tabelelu de mai jos rezumă informații despre datele de intrare, tratamentele cu date
multivariate și scopul de clasificare în domeniul analizei produselor alimentare. În general,
scopul acestor studii este de a dezvolta un model pentru clasificarea probelor de alimente în
funcție de diferitele criterii precum originea geografică, animală sau botanică; procese
tehnologice; stare de calitate; detectarea falsificării; etc. Unele exemple bune sunt date
după cum urmează. P'erez-Magariño și colab. ,vinuri de trandafir clasificate (70 de
eșantioane) aparținând a patru denumiri protejate spaniole din Origine (DOP), numită
Ribera del Duero (RD), Rioja (RJ), La Mancha (M) și Valdepeñnas (V), în funcție de geografia
lor origine.
40
(7 metale prin spectrometrie de absorbție atomică, conținut total de 6 familii a compușilor
polifenolici prin metode chimice tradiționale, 2 parametrii de culoare și 4 parametri
oenologici clasici) 10 variabile au fost în cele din urmă selectate de către stepwiseLDA.
Figura de mai jos arată graficul eșantioanelor pe spațiul definit de primele două variante
canonice. Abilitățile de recunoaștere ale modelului LDA au fost 98,2% pentru RD și 100%
pentru RJ și M-V și predicția abilitățile au fost de 95,3% pentru RD, 98,1% pentru RJ și 98,0%
pentru M-V.
Au fost cele mai bune abilități de clasificare obținute utilizând date derivate secundare ale
spectrelor între 400 și 1100 nm (100% din lovituri prin validare încrucișată). Figura
41
urmatoare prezintă rezultatele pentru validarea externă a modelului, care să permită 100 și
98,4% din predicția corectă pentru vinurile Riesling și Chardonnay, respectiv.
După cum arată exemplele detaliate de mai sus, modelul de tehnici supravegheate de
recunoaștere pote fi de mare ajutor, deoarece permite concluzii solide atunci când sunt
utilizate corect. In acest sens, o atenție deosebită trebuie acordată evitării practicilor
inadecvate cum ar fi utilizarea unui număr mic de eșantioane care nu reprezintă în mod
corespunzător variabilitatea din interiorul fiecărei categorii; utilizareade eșantioane
replicate ca probe pentru a mări artificial setul de date; utilizarea seturilor de eșantioane
neechilibrate; și nu funcționează orice fel de validare a modelelor. Mai mult, posibilitatea de
suprasarcinare ar trebui să fie studiată cu atenție dacă se vor supraveghea tehnicile sensibile
care la suprasolicitare sunt folosite, și ar trebui să suspecteze rezultatele prea optimiste.
42
3 .Concluzie
Utilizarea recunoașterii modelului supravegheat în analiza produselor alimentare este în
creștere exponențială, acoperind multe aspecte ale acestui domeniu. Prezentarea revizuirii
sugerează că o înțelegere a statisticilor fundamentale ale tehnicilor multivariate este încă
necesară. Câțiva autorii ar fi avut nevoie de ajutor, astfel încât să poată avea rezultate
fiabile și reprezentative și concluzii formate corect. Prin urmare, această revizuire include o
descriere sumară a bazei celor mai utilizate tehnici de recunoaștere a modelelor și a erorilor
și a concepțiilor greșite atunci când acestea sunt utlizate.
Mai mult, exemplele practice din acest referat au arătat utilitatea (potențială) a modelelor
supravegheate de recunoaștere chimia alimentelor și că o mare varietate de metode au fost
aplicate în mod obișnuit. Componenta principală in analiza este recomandată înainte de a fi
efectuată folosind orice tehnică supravegheată de recunoaștere a modelului. LDA este
tehnica cea mai frecvent utilizată supravegheată; întrucât QDA și CART sunt rareori utilizate,
în ciuda rezultatelor bune pe care le pot obține. CAIMAN este prea nou pentru a fi aplicat.
43