Sunteți pe pagina 1din 8

ANALIZA COMPONENTELOR PRINCIPALE ÎN

TELEDETECŢIA SATELITARĂ

Sef de lucrări ing. ec. Iosif Vorovencii, Universitatea “Transilvania” din Braşov
Prof. dr. ing. Ioniţă Pădure, Universitatea “1 Decembrie 1918” Alba Iulia

Rezumat: In acest articol este prezentată metoda analizei componentelor principale (PCA)
ale imaginii ca tehnică de analiză multivariată folosită în teledetecţie. Aplicarea acesteia
presupune o transformare a unui set de date multispectrale al cărui rezultat îl constituie reducerea
dimensionalităţii datelor de la n benzi la 1 – 3 benzi. Acestea încorporează aproximativ 90 – 95%
din informaţia cuprinsă în benzile originale. Un loc important este reprezentat de stabilirea
numărului componentelor principale, analiza vectorilor şi valorilor proprii. Aplicarea PCA
conduce la obţinerea, pe lângă datele statistice, de imagini care pot fi studiate şi interpretate
vizual.

Abstract: In this paper is presented the method of principal components analisysis (PCA) of
the image like technique of multivariate analysis used in remote sensing. The application of this
suppose a transformation of a set of multispectral data which of the results is the reduction of
dimensionality of data from n bands to 1 – 3 bands. This contains aproximately 90 – 95% from
information comprises in original bands. A special place is represented by establish of number of
principal components, analysis of eigenvectors and eigenvalues. The application of PCA conducts
to obtain, besides statistical data, the images which can be studied and interpreted visual.

1. Aspecte generale

Inregistrările satelitare de teledetecţie se fac cu senzori specializaţi iar imaginile sunt


preluate în benzi cu lungimi de undă diferite astfel că acestea pot fi analizate fie pe benzi
individuale sau pot fi combinate între ele prin diferite metode pentru obţinerea unor rezultate
îmbunătăţite.
Analiza componentelor principale (Principal Components Analyses - PCA) este, poate,
cea mai veche şi mai bine cunoscută dintre tehnicile de analiză multivariată. Ea este semnalată în
diverse lucrări sub numele de “analize Karhunen-Loeve”, în oceanografie ca „analize EOF”
(Empirical Orthogonal Function) iar în matematică sub denumirea de „analize SVD” (Singular
Value Decomposition). Obiectul principal al metodei este studiul valorilor varianţei şi a corelaţiei
între benzi fără a construi noi variabile. In teledetecţie, metoda priveşte componentele principale ale
imaginii, referirile în text făcându-se în continuare prin folosirea termenului analiza componentelor
principale (PCA).
Transformarea imaginilor multispectrale, folosind analiza componentelor principale
permite o interpretare mai uşoară decât a imaginilor brute (Jensen, 1996). Metoda se dovedeşte a fi
eficace şi oportună întrucât, prin transformarea unui set de date multispectrale, se reduce
dimensionalitatea datelor de la n benzi la 1–3 benzi care, de obicei, conţin 90-95% din informaţia
cuprinsă în toate benzile originale (n).
Prima componentă principală (PC1) poate oferi cea mai mare cantitate de informaţie,
aproximativ 90%, din cele 7 (8) benzi originale, iar a doua (PC2) contribuie cu aproximativ 5% sau
mai mult. Componentele majore care explică variaţia în datele imaginii ce nu sunt rezultatul
schimbării sunt denumite “componente stabile” ( Collins şi Woodcock, 1996). Cele minore care
tind să îmbunătăţească contrastele spectrale între imaginile preluate la două date diferite se numesc
“componente schimbătoare”. In aceste condiţii problema ce se pune de fiecare dată este căutarea şi
stabilirea componentei principale care reprezintă schimbarea.
Aplicarea PCA are ca rezultat obţinerea unui elipsoid n–dimensional în spaţiul trăsăturilor
(“feature space”), iar originea axelor este translatată într-un nou set de axe dispuse ortogonal. Prima
componentă principală este asociată cu cantitatea maximă de varianţă reprezentată de axa mare a
elipsoidului, iar a doua conţine varianţa rămasă, de o valoare oricum inferioară primei. Varianţa se
găseşte în legătură directă cu răspunsul spectral al materialelor suprafeţelor detectate în imagine. In
aceste condiţii, analiza componentelor principale poate fi privită ca:
o rotaţie a axelor existente, într-o nouă poziţie din spaţiul definit de variabilele
originale, în care, noile variabile, definite prin această rotaţie, nu sunt corelate.
Prima variabilă nouă conţine cantitatea maximă de varianţă, a doua cantitatea
maximă de varianţă neexplicată de prima componentă, fiind ortogonală pe aceasta şi
aşa mai departe, până când cea mai mică din axe, ortogonală pe toate celelalte, este
considerată ultima;
o proiecţie a observaţiilor în axe ortogonale conţinute în spaţiul definit de
variabilele originale.
Noile axe sunt componentele principale ale imaginii, fiecare componentă succesivă având o
varianţă mai mică decât precedentele şi evidenţiind variabile şi combinaţii de variabile care indică
tipul de structuri al datelor. Aceste componente nu sunt corelate între ele, cele constante fiind
selectate ultimele şi efectiv, reprezintă vectorii proprii ai matricei varianţei-covarianţei.
Prima componentă principală (PC1) este condiţionată de strălucirea scenei, iar a doua
(PC2) este pusă în legătură cu nuanţa de verde, dacă în imagine sunt înregistrate suprafeţe mai
întinse acoperite cu vegetaţie. Crippen (1990) afirmă că PC1 reprezintă „aproximativ intensitatea”
iar PC2 şi PC3 indică „aproximativ cromacitatea”. Loughlin (1991) prezintă un exemplu unde PC3
este dominată de vegetaţie. Componentele cu ordinul mai mare pot fi considerate ca având o
creştere a “zgomotului” din imagine şi o descreştere a varianţei. Totuşi, numeroase studii au arătat
că unele componente de ordin ridicat au informaţie folositoare în diferenţierea obiectelor.
Transformările statistice, realizate prin analiza componentelor principale, înlocuiesc
corelaţiile bandă cu bandă iar varianţele sunt prezentate ortogonal în imaginile rezultate. Analiza
acestor componente se bazează pe informaţia statistică conţinută în fiecare imagine şi pe matricea
de covarianţă dintre imagini. Valorile proprii obţinute din transformarea imaginii descriu mărimea
fiecărei componente iar cele rezultate din analiza componentelor principale sunt împărţite uneori în
primare şi secundare, ultimele fiind semnificativ mai mici decât cele primare (Smith ş.a., 1985).
Analizele componentelor principale se pot face în două variante:
cu date standardizate, ce folosesc matricea corelaţiei sau deviaţia de la valoarea
medie a fiecărei imagini. PCA standardizată este folosită la identificarea
fenomenelor sau semnalelor care se propagă în timp cum ar fi analiza seriilor
temporale. Practic, fiecare bandă din imagine va contribui în mod egal la obţinerea
noilor componente;
cu date nestandardizate componentele principalele sunt calculate din matricea
covarianţei imaginilor. PCA nestandardizată este adesea folosită la investigarea
modelelor în domeniul spectral.
In studiile recente de cercetare prin analiza seriei de date temporale NOAA-AHVRR precum
şi pentru o varietate de alte tipuri de imagini satelitare se concluzionează că PCA standardizată este
superioară faţă de cea nestandardizată. Ambele opţiuni, standardizate şi nestandardizate, pot fi
prelucrate cu programele de analiză statistică a analizei componentelor principale.
Algoritmul de calcul pentru analiza componentelor principale este acelaşi în cazul celor
două situaţii cu o singură excepţie. Dacă, la un anumit punct, sunt posibile două sau mai multe
rotaţii care conţin aceeaşi cantitate de varianţă maximă, atunci oricare din acestea care ar fi folosită,
se consideră nedeterminată. In spaţiul bidimensional, norul de date poate să apară ca un cerc şi nu
ca o elipsă. In cerc orice rotaţie poate fi echivalentă cu o altă rotaţie. Intr-un nor de date cu formă
eliptică, prima componentă este paralelă cu axa mare a elipsei.
Aportul principal adus de analiza componentelor principale este diminuarea cantităţii de
date prin reducerea numărului de benzi fără a pierde multă informaţie. De exemplu, primele trei
benzi din vizibil (1, 2 şi 3) ale imaginilor Landsat TM sunt, de obicei, puternic corelate, ceea ce
înseamnă că acestea arată aproximativ la fel şi au informaţie redundantă pentru operaţiile de
clasificare a conţinutului lor. După aplicarea analizei componentelor principale, pentru aceste trei
benzi, s-a găsit că majoritatea informaţiei conţinută în cadrul acestora poate fi explicată de PCA
ceea ce înseamnă că un singur set de date poate înlocui cele trei benzi originale fără a se pierde
multă informaţie. Mai reţinem că prima componentă este puternic corelată cu indicele suprafeţei
foliare (LAI) sau cu desimea vegetaţiei iar a doua componentă este în legătură cu proporţia
participării solului în răspunsul spectral.
Linia solului poate fi definită prin unele legături între analiza componentelor principale şi
anumiţi indici ai vegetaţiei. Indicele perpendicular al vegetaţiei PVI (Perpendicular Vegetation
Index) este obţinut din transformarea ortogonală dintre două benzi, banda roşu şi banda infraroşu.
Prima componentă (PC1) corespunde liniei solului iar a doua componentă (PC2) indicelui
perpendicular al vegetaţiei.
Se poate afirma că fiecare componentă principală obţinută din datele de teledetecţie exprimă
clar caracteristicile fizice ale suprafeţei înregistrate în scenă. Semnificaţia fizică este diferită chiar în
acelaşi ordin al componentei principale dacă suprafeţele de cercetat şi lungimile de undă sunt
diferite.

2. Material folosit

Pentru analiza componentelor principale ale imaginii s-a folosit o înregistrare satelitară
Landsat 5 TM multispectral cu rezoluţia spaţială de 30 m. Imaginea reprezintă un cadru din scena
cu orbita 183, rândul 28 (185x185 km), având coordonatele centrului de 46o20’ latitudine şi 25o56’
longitudine. Anul preluării acesteia este 1989 şi acoperă porţiunea dintre munţii Piatra Craiului şi
munţii Bucegi, cuprinzând diferite categorii de folosinţă a terenului: pădure de răşinoase, foioase,
păşuni, fâneţe, teren agricol cultivat şi necultivat, teren intravilan, ş.a. Prelucrarea imaginii s-a făcut
cu programul Erdas Imagine v. 8.6 iar calculul statistic cu ajutorul programului Multispec.

3. Stabilirea componentelor principale

Aplicarea metodei analizei componentelor principale a avut ca scop obţinerea unor


imagini care să fie mai uşor interpretabile, mai sugestive şi care să furnizeze o cât mai mare
cantitate de informaţie. Efectiv, din motive întemeiate şi pentru a uşura munca, s-a căutat să se
lucreze doar cu o singură imagine care încorporează circa 90-95% din informaţia cuprinsă în cele 7
benzi. In acelaşi timp analiza componentelor principale a permis obţinerea unor imagini
îmbunătăţite din punct de vedere spectral.
Prima componentă principală, care reprezintă prima imagine, poate fi utilizată la stabilirea
eşantioanelor folosite pentru culegerea semnăturilor spectrale în clasificările conţinutului
înregistrărilor, în evidenţierea schimbărilor apărute în cadrul categoriilor de folosinţă a terenului şi
la probleme de interpretare vizuală în vederea diferenţierii acestora. Pentru imaginea folosită s-a
realizat histograma sub formă numerică şi s-au calculat vectorii şi valorile proprii corespunzătoare
(tab. 1 – 3).
Histograma numerică a fost întocmită în vederea evidenţierii intervalului înregistrărilor pe
fiecare bandă şi calcularea unor indicatori statistici, respectiv media, mediana şi abaterea standard
ce au fost folosite în analizele ulterioare. Din acest punct de vedere se constată că imaginea Landsat
5 TM, cu rezoluţia spaţială de 30 m, prezintă un interval al înregistrărilor de la 1 – 232 pentru
benzile de la 1 la 5 şi 7 şi între 100 – 175 pentru banda termală (6) (tab. 1).

Histograma numerică a imaginii Landsat 5 TM din 1989


Tabelul 1
Banda Intervalul înregistrărilor Media Mediana Abaterea standard
1 41 – 150 62,3 62 7,8
2 13 – 82 26,2 26 5,3
3 9 – 126 23,3 21 7,2
4 5 – 155 69,2 71 20,4
5 1 – 232 63,0 64 26,0
6 100 – 175 134,2 134 7,9
7 1 - 138 22,8 21 11,4

Valorile proprii după PCA pentru imaginea Landsat 5TM din 1989
Tabelul 2
Componenta Valoare Procent Procent Cum. Cum. log det. Trăsătură
proprie cumulat determinat medie
1 5,6724 81,0336 81,0336 5,6724e+000 1,7356e+000 146,59
2 0,6714 9,5918 90,6254 3,8086e+000 1,3373e+000 57,87
3 0,3073 4,3905 95,0159 1,1705e+000 1,5743e-001 73,10
4 0,2474 3,5347 98,5506 2,8962e-001 -1,2392e+000 40,09
5 0,0631 0,9014 99,4520 1,8274e-002 -4,0023e+000 20,12
6 0,0212 0,3025 99,7545 3,8698e-004 -7,8571e+000 2,49
7 0,0172 0,2455 100,0000 6,6495e-006 -1,1921e+001 -13,61

Valorile vectorilor proprii pentru cele 7 benzi ale imaginii Landsat 5TM din 1989
Tabelul 3
Componenta Bandă
1 2 3 4 5 6 7
1 0,38101 0,40585 0,39174 0,30519 0,39708 0,35723 0,39778
2 -0,29796 -0,19417 -0,39019 0,78658 0,22805 0,18428 -0,12885
3 -0,17117 -0,19396 -0,10034 -0,36141 -0,04244 0,88897 -0,01803
4 0,58180 0,17790 -0,06519 0,22428 -0,45814 0,20123 -0,57002
5 0,61358 -0,40670 -0,49747 -0,18422 0,38635 -0,08025 0,14489
6 -0,13289 0,46574 -0,14526 -0,26501 0,59376 -0,03124 -0,56619
7 -0,06419 0,58822 -0,64140 -0,05546 -0,27713 0,01588 0,39793

Valorile proprii reprezintă cantitatea de varianţă conţinută de fiecare componentă


ortogonală nouă în ordine descrescătoare, prezentată atât în valoare absolută cât şi în procente. In
urma analizelor efectuate s-a constatat că imaginea Landsat 5 TM are cea mai mare valoare proprie,
de 5,6724, şi cea mai mică de 0,0172 (tab. 2). Mărimea valorilor proprii reflectă cantitatea de
informaţie care diferită de la o bandă la alta, ceea ce înseamnă că prima componentă conţine tot
timpul cantitatea maximă de informaţie care se găseşte înregistrată pe imaginea satelitară.
Vectorii proprii, la rândul lor, reprezintă contribuţia fiecărei benzi în noua componentă şi
arată direcţia noilor axe; practic, aceştia sunt prezentaţi tabelar, formând o matrice, valorile lor fiind
analizate în continuare.
Numărul de componente care se reţin în analiză s-a stabilit prin două metode:
criteriul Kaiser, folosit pe scară largă, presupune reţinerea componentelor ai căror
vectori proprii sunt mai mari sau egali cu 1,000 (Kaiser, 1960);
criteriul Cattell (”scree test”) presupune reprezentarea grafică a numărului
componentelor pe axa X şi a valorilor proprii pe axa Y (Cattell, 1966). Numărul de
componente se deduce după grafice fiind dat de ruptura de pantă a dreptei şi anume
acolo unde graficul începe să se aplatizeze.
Ambele criterii au fost studiate în detaliu de mai mulţi cercetători. Teoretic, acestea pot fi
evaluate prin generarea de date întâmplătoare bazate pe un număr particular de componente şi
totodată trebuie verificat dacă numărul componentelor este evidenţiat cu precizie. In general,
criteriul Kaiser, reţine prea multe componente în timp ce ”scree test” conduce la mai puţine. Pentru
practică, hotărâtoare devine soluţia cea mai uşor interpretabilă deşi, de obicei, se examinează mai
multe soluţii, cu mai multe sau mai puţine componente.
Numărul de componente care s-au considerat în continuare s-a stabilit pe baza celui de al
doilea criteriu. In acest sens, s-au reprezentat grafic valorile proprii şi în dreptul componentei, unde
graficul a suferit o schimbare majoră, s-a considerat că acesta reprezintă numărul de componente
care trebuie luate în studiu şi folosit în analize (graficul 1). Astfel, în cazul imaginii folosite,
conform graficului, ar fi trebuit considerate primele două componente care încorporează 90,6254%
din varianţa totală. Totuşi, în analizele efectuate s-au avut în vedere primele trei componente
principale ce reprezintă 95,0156% din varianţă.

3 Valori proprii

0
PC 1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7

Graficul 1. Stabilirea numărului componentelor principale pentru


imaginea Landsat 5 TM din 1989

Deşi numărul de componente principale s-a stabilit pe această cale, au fost examinate mai
multe soluţii plecând chiar de la benzile fiecărei imagini. Pentru înregistrarea Landsat 5 TM din
1989 componentele obţinute în urma prelucrării prin această tehnică sunt în număr de şapte (planşa
1). Ca atare, în analize pot fi luate în considerare doar primele trei, suficiente prin cantitatea de
varianţă pe care o înglobează pentru alegerea, de exemplu, a eşantioanelor în vederea clasificării
supervizate a conţinutului imaginilor satelitare sau efectuarea diferitelor analize cu aceste imagini.
Vectorii proprii din prima componentă principală (PC1) au valori aproximativ apropiate
ceea ce arată că fiecare bandă a participat la combinaţie aproximativ la fel. Din intervalul acesta
strâns al valorilor, banda 2 a avut contribuţia cea mai mare (0,40585) iar banda 4 cea mai mică
(0,30519), toate benzile având valori pozitive. In cazul componentei a doua (PC2), participaţia cea
mai mare a avut-o banda 4 (0,78658), urmată de banda 5 (0,22805) şi banda 6 (0,18428), restul
benzilor având o contribuţie negativă. In sfârşit, pentru PC3 se constată că numai banda 6 are un
aport semnificativ şi pozitiv (0,88897), toate celelalte fiind negative (graficul 2).
PC1 PC2 PC3

PC4 PC5 PC6

Planşa 1. Componentele principale pentru imaginea


Landsat 5 TM din ‘89

PC7
1

0,8

0,6 PC 1
0,4 PC 2
PC 3
0,2
PC 4
0
PC 5
1 2 3 4 5 6 7
-0,2 PC 6
-0,4 PC 7

-0,6

-0,8

Graficul 2. Reprezentarea vectorilor proprii pentru imaginea Landsat 5 TM din 1989

4. Concluzii

In vederea aplicării analizei componentelor principale ale imaginii, ca metodă de analiză a


varianţei, pot fi studiate numai primele trei componente principale în care este concentrată cea mai
mare cantitate de varianţă. Aplicarea unei astfel de analize a determinat concentrarea în proporţie de
95-98% din varianţa întregii înregistrări în primele trei componente (PC1, PC2, PC3) pentru
imaginea folosită. Prima (PC1) s-a dovedit a avea în componenţă vectori proprii cu valori pozitive,
ceea ce arată că toate benzile au participat efectiv la obţinerea ei.
Se constată că valorile vectorilor proprii sunt distribuite într-un interval foarte strâns. In
acelaşi timp se observă că cele trei componente sunt ortogonale ceea ce arată că informaţia cuprinsă
în fiecare este diferită (tab. 2). La analiza componentelor principale, pe lângă calculul statistic, se
obţin şi imagini ce pot fi studiate şi interpretate vizual.

Bibliografie

1. COOLINS, J.B., WOODCOCK, C.E., 1996 – An Assessment of Several Linear Change Detection
Techniques for Mapping Forest Monitory Using Multitemporal Landsat TM Data.
Remote Sensing Environment, 56 (p. 66-77)
2. CRIPEN, R.E., 1990 – Calculating the vegetation index faster. Remote Sensing of Environment,
vol. 34 (p.71-73)
3. HOWARD, J., 1991 – Remote Sensing of Forest Resources Theory and Application. Editura
Champman & Hall (p. 3-23, 39, 318-351)
4. JENSEN, J.R., 1996 – Introductory Digital Image Processing. A Remote Sensing Perspective.
Prentice Hall. N.J.
5. LILLESLAND, T.M., KIEFER, R.W., 1987 – Remote sensing and image interpretation, 2nd edn.
Wiley and Sons, New York
6. LILLESAND, T., KIEFER, R., 1994 – Remote sensing and image interpretation. Third edition.
Editura John Wiley & Sons, Inc. SUA
7. PARHOW, E., 1996 – Progress in Environmental Remote Sensing Research and Application.
A.A. Balkema. Rotterdam (buletin articole)
8. SABINS, F.F., 1996 – Remote sensing: principles and interpretation. W.H. Freeman and
Company, New York
9. SMITH,O.M., 1985 – A new approach to quantifying abundabce of materials in multispectral
images. Proc. IEEE Int. Geosci. And Remote Sensing Symp. 94, IEEE, New York,
(p.2372-2374)
10. Teledetection et gestion des ressources, Volume VII. Publication de l’Association quebecoise de
teledetection, 1991 (Buletin articole)
11. Teledetection appliquee a la cartographie thematique et topographique, Quatriemes journees
scientifique du Reseau Teledetection de l’UREF, Montreal, 21-23 octobre 1991.
Publicată în 1993 sub îndrumarea Dubois, J-M.M. (Buletin articole)
12. VOROVENCII, I., 2005 - Cercetări privind posibilităţile de utilizare a imaginilor satelitare în
lucrările de amenajarea pădurilor. Teză de doctorat. Universitatea “Transilvania” din
Braşov.
13. ZHAO, G., MACCLEAN, A., 2000 – A comparison of canonical discriminant analysis and
principal components analysis for spectral transformation of Landsat TM data.
Photogrammetric Engineering and Remote Sensing, vol. 66, (p. 841-847)
14. WILSON, C., 1997 – A Comparison of Multispectral Change Detection Methods; principal
Components Analysis, Principal Components Analysis on Defference, Normalised
Defference Vegetation Index, and Kauth Thomas Transformation Using
Multitemporal Landsat MSS Data – Project for Course 45583

S-ar putea să vă placă și