Sunteți pe pagina 1din 8

1.

Recunoasterea probelor
1.1 Introducere
Introducerea în prezent a instrumentelor analitice moderne permit producerea de
cantități mari de informații (variabile sau caracteristici) pentru un număr mare de probe ,
care pot fi analizate în timp relativ scurt. Acest lucru duce la disponibilitatea unor matrici
de date multivariate care necesită utilizarea unor proceduri matematice și statistice, în
scopul de a extrage eficient datele care ne sunt utile .

Tehnicile pentru recunoașterea tehnicilor supravegheate utilizează informațiile despre


clasa membrilor de mostre la un anumit tip de grup (clasă sau categorie) pentru a
clasifică noi probe necunoscute într-una din clasele cunoscute bazate pe modelul său de
măsurători .

Procedurile de recunoaștere a modelelor supravegheate utilizează o metodă comună ,o


strategie, indiferent de algoritmul aplicat, care constă în următoarele etape :

·0 Selectarea unei metode, a unei calibrări și a unui set de teste, care constau în
obiecte de membru de clasă cunoscute pentru care variabilele sunt măsurate.
Setul de calibrare este utilizat pentru optimizarea parametrilor caracteristici
pentru fiecare multivariat de tehnică.

·1 Selecție variabilă. Aceste variabile care conțîn informații pentru clasificarea vizată
sunt păstrate, în timp ce aceste variabile codează zgomotul și / sau fără nici o
putere de discriminare este eliminat.

·2 Construirea unui model folosind setul de antrenament. Un mathematic model


este derivat între un anumit număr de variabile măsurat pe eșantioanele care
constituie setul de antrenament și categoriile lor cunoscute.

·3 Validarea modelului utilizând un set independent de probe,pentru a evalua


fiabilitatea clasificării realizate.

Au existat mai multe tipuri de metode de recunoaștere a modelului aplicate în știința


alimentelor, dar ele diferă esențial de felul în care acestea obțîn clasificarea . Sunt două
tipuri de metode de obicei distinse într-o primă abordare: cele concentrate privind
discriminarea între clase, cum ar fi discriminarea liniară analiză (LDA), k-vecinii cel mai
apropiat (kNN), clasificarea și arbori de regresie (CART), analiză discriminatorie parțială
minimă (PLS-DA) și rețelele neuronale artificiale (ANN); și aceleaorientate spre cursuri
de modelare, cum ar fi soft independentmodelarea analogiei de clasă (SIMCA) și inegal
dispersateclase (UNEQ).

Tehnicile de discriminare sunt folosite pentru a construi modele bazate pe toate


categoriile implicate în discriminare, întrucât metodele disjuncte de modelare a claselor
creează o separare model pentru fiecare categorie. Unul dintre dezavantajele
discriminării metodelor este că eșantioanele sunt întotdeauna clasificate într-una din
categoriile respective, chiar dacă nu aparțîn niciuneia dintre ele. Metodele de modelare
a claselor iau în considerare acele obiecte care se potrivesc modelului pentru o categorie
că parte a modelului și clasificat că non-membri cei care nu. Cu toate acestea, în ceea ce
privește clasificarea abilități, examinările empirice recente arată că SIMCA nu este la fel
de puternic că și înainte; CAIMAN, CART și variantele de analiză discriminantă sunt mai
bune .

Tehnicile de recunoaștere a modelelor supravegheate pot fi de asemenea grupate că


parametrice / non-parametrice , deterministe /probabilistic sau liniar / neliniar. Tehnici
parametrice cum ar fi LDA, PLS-DA, SIMCA și UNEQ .Statistici în metodele non-
parametrice cum ar fi kNN și CART nu se bazează pe distribuție ,ipoteza, ceea ce face
estimarea probabilităților de clasificare corectă mai dificilă.La linia liniară / neliniară,
clasificarea se bazează pe natură funcțiilor discriminante, linear / non-linear, respectiv,
folosit pentru a discrimina printre clase.

1.2 Proceduri preliminare


Se presupune că datele analitice sunt obținute prin validare ,metode analitice în ceea ce
privește precizia, sensibilitatea, specificitate, incertitudine, robustețe și trasabilitate. În
plus, datele utilizate pentru formare ar trebui să fie suficient de mari pentru a le acoperi
variația posibilă cunoscută în domeniul problemei.

Supravegherea recunoașterii modelului necesită un set de antrenament cu obiecte de


categorii cunoscute pentru a obține un model pentru identificarea probelor
necunoscute. Prin urmare, este obligatoriu să stabiliți mai întâi dacă măsurătorile
chimice sunt de fapt bune,suficient pentru a se încadra în clasele predeterminate,
deoarece tehnicile de recunoaștere nu pot compensa modelele slab proiectate
,experimente sau date experimentale inadecvate . Această sarcină poate să fie dificilă
datorită faptului că tehnicile analitice modern sunt capabile să genereze atât de multe
date că informațiile esențiale nu pot fi evidente. Analiză datelor exploratorii (EDA) (și
recunoașterea modelului nesupravegheat) este utilizat în mod obișnuit pentru
simplificare și să obțînă o mai bună cunoaștere a seturilor de date. Provocarea este să
eliminați redundanța și zgomotul, păstrând în același timp semnificația informației.

Exemplu de test EDA printr-o nouă tehnică pe bază de microparticule pentru proteina C

Tehnicile noi de testare au fost aplicate la un test nou dezvoltat pe bază de


microparticule pentru proteina C reactivă (CRP). Prin utilizarea a două microparticule cu
dimensiuni diferite acoperite covalent cu doi anticorpi monoclonali cu reactivitate
diferită, o sensibilitate ridicată și o limită superioară de măsurare ce pot fi realizate
simultan, rezultând un domeniu dinamic remarcabil de larg.

Principiul metodei

(EDA) este o abordare a analizei seturilor de date pentru a rezuma principalele lor
caracteristici, adesea cu metode vizuale.

EDA diferă de analiza inițială a datelor (IDA), [1] care se axează mai mult pe verificarea
ipotezelor necesare pentru testarea modelului și a testelor de ipoteză și tratarea
valorilor lipsă și transformarea variabilelor după cum este necesar..

https://en.wikipedia.org/wiki/Exploratory_data_analysis

Modul de lucru

Această gamă a fost îmbunătățită suplimentar prin calcularea optimă a semnalului (rată
de răspuns) cu o nouă capacitate software a COBAS® INTEGRA, un analizor de chimie
clinică. Analiza a arătat o mare precizie între 2 mg / l și 160 mg / l, cu numai 2,5 μl
specimen. Limita de detecție a fost estimată că fiind de 0,3 mg / l CRP. Testul a fost de
patru până la opt ori mai sensibil și mai precis decât testele turbidimetrice sau
nepfelometrice existente, cu limite de măsurare superioare comparabile. Analiza a
arătat, de asemenea, o bună liniaritate și s-a corelat bine cu analizele comerciale. Acest
nou test pe bază de microparticule CRP oferă precizia necesara pentru a determina CRP
la concentrații scăzute, unde sunt avute în vedere noi implicații clinice, cum ar fi
prognosticul bolilor cardiovasculare. Gama dinamică largă a testului va duce suplimentar
la o reducere a numărului de analize repetate, îmbunătățind astfel eficacitatea
determinărilor CRP din laboratoarele clinice
În chimia alimentelor, datele brute folosite pentru tratamente chimice sunt în general
date fizice sau chimice: conductivitatea; pH; umiditate; aciditate totală; concentrații de
substanțe chimice specific în probele măsurate prin tehnici analitice (HPLC sau GC);
amprente, cum ar fi cromatograme sau spectroscopice măsurători (semnale specifice
sau spectre complete) obținute prin spectroscopie IR, RMN, MS, UV-vis sau fluorescență;
semnale de la senzori, cum ar fi nasul electronic sau limbi; și / sau date din analiză
senzorială a probelor. Selectate de regiunile spectrale sau semnalele specifice sau
lungimi de undă selectate de multe ori oferă rezultate mai bune în clasificări decât
utilizarea întregului spectral . Se pot selecta regiuni de semnal sau spectrale specifice
bazate pe o cunoaștere a semnalelor care indică prezența de grupuri chimice specifice
sau bazate pe tratamente chimice.

https://www.sciencedirect.com/science/article/pii/S0308814699002253

1.2.1 Procesarea semnalului

Datele digitale (de exemplu, spectrele, integralele de vârf, schimbările de vârf și pozițiile)
de multe ori depind de modul în care informațiile sunt prelucrate, deci o atenție
deosebită ar trebui acordată manipulării acestora. Spectrele și cromatogramele sunt
semnale secvențiale în timp sau în frecvență, pot fi procesate folosind diferite metode:
(i) netezirea, în ordinepentru a elimina zgomotul fără a extinde excesiv vârfurile; (Îi)
derivare, pentru a crește rezoluția; (iii) convoluție, pentru semnal, sporire; (iv)
transformarea Fourier (FT) în spectroscopie astfel că RMN și IR, conversia datelor brute
în "domeniul de timp" la "domeniul de frecvență"; (v) transformări wavelet, pentru
netezire sau compresie de date; (iv) metode bayesiene; (vii) ortogonalizarea, pentru a
elimina variațiile sistematice ale datelor care nu sunt corelate cu calitatea de membru al
clasei. Mai mult, combinații diferite din aceste metode sunt de asemenea utilizate
pentru prelucrarea semnalelor.
Transformarea Fourier-descriere

Principiul metodei

Transformarea Fourier necalificată se referă la transformarea funcțiilor unui argument


real continuu și produce o funcție continuă de frecvență, cunoscută sub numele de
distribuție de frecvență.

O funcție este transformată în alta și operația este reversibilă. Atunci când domeniul
funcției de intrare (inițială) este timpul (t), iar domeniul funcției de ieșire (finală) este
frecvența obișnuită, transformarea funcției s (t) la frecvența f este dată de numărul
complex:

Evaluarea acestei cantități pentru toate valorile lui f produce funcția de domeniu de
frecvență. Apoi s (t) poate fi reprezentat ca o recombinare a exponentialelor complexe
ale tuturor frecventelor posibile:

care este formula de transformare inversă. Numărul complex, S (f), transmite


amplitudinea și faza frecvenței f.
Metode bayesiene -Ex.Modelul linear

Modelele analizate în această secțiune sunt exemple ale modelului linear general în care
datele pot fi descrise în termenii unei combinații liniare de funcții de bază cu un aditiv
component de zgomot Gaussian. Astfel de modele pot fi utilizate ca o aproximare
rezonabilă la multe semnale, incluzând canalele de vorbire, de muzică și de comunicații
digitale.

Exprimăm modelul în formă generală:

unde gq (n) este valoarea unei funcții de model dependente de timp gq (t) evaluată la
momentul tn.

Exprimați în notație matrice-vector avem:

Unde:
d este o matrice N1 a punctelor de date

e este un vector N1 al probelor de zgomot

G este o matrice N Q ale cărei coloane sunt funcțiile de bază evaluate la fiecare punct

în seria de timp

b este un vector coeficient liniar Q1.

https://en.wikipedia.org/wiki/Fourier_analysis

1.2.2 Pre-tratarea datelor

Este esențială pentru a evita o greșeală.Primul pas în EDA cuprinde date univariate de
analiză utilizând statistici de bază și descriptive (de exemplu, calcul din medie, abaterea
standard, varianță, șiretură, kurtoză, corelație matrice, t-test, F-test, ANOVA, cutii de
carton și whisker și verificarea normalității). Apoi, prezența unor valori excepționale,
adică observații care par a sparge modelul sau gruparea ,indicată de marea majoritate a
probelor, ar trebui evaluate deoarece cele mai multe metode convenționale multivariate
sunt sensibile pentru ei. Astfel, trebuie identificate valori extreme și apoi decizia trebuie
luată în legătură cu acceptarea sau respingerea valorii exagerate în procesul de
modelare. În acest scop,analiza manuală convențională și eliminarea valorii extreme
,dar, recent, s-au dezvoltat metode robuste de analiza datelor multivariate, în vederea
reducerii sau eliminării acestora efect al punctelor de date periferice și să permită restul
să fie predominant pentru a determina rezultatele. Metodele robuste se bazează pe
metodele exploratorii și diagnosticarea convențională externă .

Valorile caracteristicilor măsurate pot fi diferite de ordinele de magnitudine și / sau pot


fi măsurate în unități diferite și / sau prin diferite metode sau instrumente analitice.
Deci, unele variabile ar putea cântări mai mult decât altele pe rezultate. În scopul de a
modifica influențele relative ale variabilelor pe un model, o data poate fi efectuată o pre-
tratare cunoscută ca ponderare și / sau scalare. Ponderea constă în a da fiecărei
variabile o valoare nouă, adică înmulțind valorile inițiale cu o constantă care diferă între
variabile. Astfel, contribuțiile individuale s-au ajustat în mod egal la rezultate. Cele mai
commune metode de scalare sunt următoarele (i) centrarea medie: media se scade din
fiecare variabilă; (ii) standardizarea (sau autoscaling): fiecare variabilă este mai întâi
centrată și apoi împărțită la deviația sa standard; (iii) normalizarea: variabilele sunt
împărțite de către rădăcina pătrată a sumei pătratelor variabile; (iv) constantă ,rata
sumelor: fiecare variabilă este împărțită la suma tuturor variabilelor pentru fiecare
eșantion; (v) variabila de normalizare: variabilele sunt normalizate cu privire la o singură
variabilă; (vi) transformarea domeniului: valoarea minimă pentru o variabilă este setată
la 0, valoarea maxima la 1, iar toate valorile intermediare se situează de-a lungul unui
interval liniar între 0 și 1 [3,17,18]. Există și alte abordări care constau în combinarea
metodele de pre-procesare menționate mai sus; ponderare din fiecare variabilă în
funcție de anumite criterii externe; logaritmică transformare, util atunci când există
diferențe mari în intensități; scalarea selectivă a variabilelor prin blocuri de date sau
categorii; transformarea constantă a lungimii vectorului; etc.

Tehnici de analiză a datelor multivariate

Metodele multivariate pot fi subdivizate în funcție de diferite aspecte. În primul rând, ele
sunt diferențiate în funcție de structura care trebuie descoperită sau verificată împreună
cu ele. Metodele de determinare a structurii includ:

Analiza factorilor: Reduce structura la date relevante și variabile individuale. Studiile cu


factori se concentrează pe variabile diferite, astfel încât acestea sunt subdivizate în
analiza principală a componentelor și analiza corespondenței.