Sunteți pe pagina 1din 64

BIOLOGIE COMPUTAIONAL

ANALIZA DE SIMILARITATE.
3.1. SIMILARITATE CALITATIV
(DEFINIIE & MSURI DE
SIMILARITATE)
Sorana D. BOLBOAC

Despre

SIMILARITATE: DEFINIIE
SIMILARITATE SAU OMOLOGIE
METODE DE CALCUL A SIMILARITII
MATRICEA DE SIMILARITATE

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

SIMILARITATE: DEFINIIE
Similar

= analog, apropiat, asemntor, asemenea,


corespondent, nrudit, (nv.) asemnat,
podobnic, semntor
= de aceeai natur, de acelai fel; asemntor,
analog

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

SIMILARITATE: DE CE?
Punct de plecare pentru determinarea i
nelegerea funciei proteinei (similaritate
structural i topologic a proteinelor)
Punct de plecare pentru identifiarea de noi
compui biologic activi (ex. compui chimici
cu aciune bactericid, erbicid, terapeutic,
etc.)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

SIMILARITATE SAU OMOLOGIE


Similaritate Omologie
25% similaritate = 100 AA o eviden
puternic a omologiei
Omologia = descendent al unui strmo comun

Structur 3D comun
Frecvent aceeai funcie
Omologia e totul sau nimic

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

RICHARD OWEN (1804-1892)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE
Caracter omolog = caracteristic a organismelor
derivate dintr-un strmo comun.
Owen (1847): coresponden structural (similaritate a
caracteristicilor datorit nrudirii)
Un caracter omolog poate fi:

Homoplazic: a evoluat independent dar din aceeai


surs ancestral.
Plesiomorfic: prezent la nivelul unei surse ancestrale
comune dar care s-a pierdut la nivelul unor descendeni
(urmai).
(sin)apomorfic: prezent la nivelul unei surse ancestrale
comune i respectiv la nivelul tuturor descendenilor
(urmailor).
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: EXEMPLU
Frunzele au diferite forme i funcii dar au structur
omoloag, derivat dintr-o surs ancestral comun

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: EXEMPLU
Omologie anatomic:
Aceeai structur de baz
Aceeai relaie cu alte pri ale corpului
Dezvoltare similar la nivelul embrionului

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: EXEMPLU
Globine umane

Sursa:http://books.google.ro/books?id=Emr0ZABQUAIC&pg=PA50&lpg=PA50&dq=hemoglobin+ho
mology+comparison&source=bl&ots=wM0DKEBJro&sig=o9LhrlfxCKleWliiWkmBPV3u1A0&hl=ro
&ei=5jwoTa3jB4is8gOItdClAg&sa=X&oi=book_result&ct=result&resnum=8&ved=0CFAQ6AEwBzg
K#v=onepage&q=hemoglobin%20homology%20comparison&f=false

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: EXEMPLU

Lanul beta al hemoglobinei


umane difer cu numrul
specificat de aminoacizi
pentru speciile:

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: EXEMPLU

Zuckerkandl E., L. Pauling. Evolutionary Divergence and


Convergence in Proteins, in Evolving Genes and Proteins, eds. V.
Bryson and H. Vogel (New York: Academic Press, 1965). pp. 97166.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: SECVENE GENETICE


Secvenele omoloage se mai numesc i secvene
conservate.
Omologia n structura secvenelor de aminoacizi sau
baze purinice i piridimidinice se face pe baza
similaritii secvenelor.
Similaritatea secvenelor poate ns s apar i n
absena unui strmo comun: similaritatea secvenelor
scurte poate s apar datorit ansei, secvenele pot fi
similare deoarece au fost selectate pentru a se lega de
o anumit protein (ex. factor de transcripie). Aceste
secvene sunt similare dar nu i omoloage.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: SECVENE GENETICE


Exprimarea de tipul procentul omologiei este
incorect. Pentru a cuantifica similaritatea ntre
secvene se utilizeaz expresii de tipul
procentul de identitate sau procentul de
similaritate.

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: DEFINIIE
Omologie: o gen n relaie cu alt gene, ambele
provenind de la o secven ADN ancestral
comun.
Speciaia: originea unei noi specii capabile s
triasc ntr-o modalitate nou n comparaie cu
specia din care a luat natere.
Paralogie: gene relaionate prin duplicaie ntr-un
genom. n cazul paralogiei funcia genei evolueaz
chiar dac este relaionat cu funcia iniial.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: DEFINIIE
Ortologie: gene ale speciilor diferite care
evolueaz dintr-o gen ancestral comun prin
speciaie. n mod normal, n cazul ortologiei
funcia se menine pe parcursul evoluiei .
Identificarea ortologiei este important pentru
predicia unei funcii a unei gene ntr-o nou
secven.

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: SECVENE GENETICE


Teoria Darwin-ist reinterpreteaz omologia ca strmo comun

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: SECVENE GENETICE


Ortologia apare prin speciaie

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

OMOLOGIE: SECVENE GENETICE


Paralogia apare prin duplicaie

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

EVOLUIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

EVOLUIE: EXEMPLU

Gena drojdiei este n relaie de tip ortogonal pentru toate genele


umane i ale viermilor; toate aceste gene sunt co-ortogonale cu
gena drojdiei
Sonnhammer & Koonin (2002) TIGs 18 619-220
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

EVOLUIE: EXEMPLU

Toate genele din clasa HA* sunt co-ortogonale


cu toate genele de tipul WA*
Sonnhammer & Koonin (2002) TIGs 18 619-220
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

EVOLUIE: EXEMPLU

Genele HA* sunt inparalogs una fa de alta


cnd comparm omul cu viermele
Sonnhammer & Koonin (2002) TIGs 18 619-220
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

EVOLUIE: EXEMPLU

Speciaie
Duplicaie
Genele HB i HA* are outparalogs cnd
comparm omul cu viermele
Sonnhammer & Koonin (2002) TIGs 18 619-220
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

SIMILARITATE vs OMOLOGIE
Proteinele umane i ale cimpanzeului sunt identice n
procent de 99%. Diferenele ntre secvenele AND
non-repetitive sunt ns mai mari.
Lanul alfa al hemoglobinei difer la om fa de cal cu
aproximativ 17 aminoacizi
LHRH (luteinizing hormone-releasing hormone) este
identic la amfibieni i mamifere dar diferit fa de cel
al psrilor, reptilelor i anumitor peti.
Citocromul C este foarte similar la om i cimpanzeu
(diferen de doar un aminoacid)
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

MATRICEA DE SIMILARITATE
Se utilizeaz pentru alinierea secvenelor
Scor mare pozitiv: caractere similare
Scor mic sau negativ: caractere nesimilare

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

MATRICEA DE SIMILARITATE
Alinierea secvenelor de amino-acizi:

Pentru baze identice se atribuie un scor de +1


n caz contrar se atribuie un scor de -1

Alinierea secvenelor de proteine:

Matricea de similaritate este mai complicat


datorit existenei a 20 aminoacizi
Matricea conine 400 de intrri

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

MATRICEA DE SIMILARITATE
Matrice mprit de diagonal
(Swindell, BMC Genomics,
2007 ):
Dreapta: culorile nchise
indic similaritate mare
ntre rnd i coloan
Stnga: nivelul se
semnificaie a similaritii

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

MATRICEA DE SIMILARITATE
Matricea de similaritate (Williams et al., 2001):

Calculat prin aplicarea coeficientului de corelaie


Culorile identific semnificaia coeficientului de corelaie

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Jaccard:

Coeficient de similaritate Jaccard


Statistic utilizat pentru similaritii i diversitii a
mai multor eantioane

|XY|
Formula de calcul: J (X, Y ) =
|XY|

Distana Jaccard: 1- J(X,Y)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Jaccard: exemplu
Fie dou eantioane X i Y.
Tabelul conine frecvena
absolut a caracterelor
pentru eantioanele X,
respectiv Y:

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Jaccard: exemplu
Aplicarea legii Totul sau
nimic (ex. prezent = 1 / absent
= 0)
Aplicarea formulei de calcul a
Indicelui Jaccard:

J = 4/5 = 0,80

Calcularea distanei Jaccard:

Jd = 1-0.80 = 0,20

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul Dice:

Formula de calcul: D = 2J/(1 + J)


D ia valori n intervalul [0, 1]
Pentru exemplul precedent: J = 0,80
D = 2*0,80/(1+0,80) = 0,89

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul Tanimoto:

Similaritatea cosin
Identificarea unghiului dintre 2 vectori de dimensiune n
Frecvent utilizat n compararea documentelor n text
minning
Formula de calcul

XY
T ( X, Y ) =
|| X ||2 + || Y ||2 X Y

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Tversky (abreviat cu S):

Msur asimetric a similaritii


Utilizat pentru compararea unei variate cu un prototip
Poate fi vzut ca o generalizare a coeficientului Dice sau
Tanimoto
S ia valori n intervalul [0, 1]
Datorit asimetriei, indicele Tversky nu ndeplinete
condiiile unei metrici de similaritate

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Tversky (abreviat cu S):

Formula de calcul:

|XY|
S(X, Y) =
| X Y | + | X Y | + | Y X |
unde , 0 sunt parametrii indicelui Tversky.
= = 1 coeficientul Tanimono
= = 0.5 coeficientul Dice

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Srensen (coeficientul de similaritate
Srensen):

Abreviere: QS
Compar similaritatea a dou eantioane.
Se aplic pentru variabile de tip calitativ.
Formula:
QS = 2C/(A+B)
unde A i B sunt numrul de specii n eantionul A,
respectiv B; C = numrul de specii comune celor dou
eantioane
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indicele Srensen (coeficientul de similaritate
Srensen):

Ia valori identice cu coeficientul Dice


Cunoscut i sub denumire de indicele Czekanowski
Transformat n distan: 1-QS
Identic cu distana Hellinger
Identic cu disimilaritatea Bray Curtis
n comparaie cu distana Euclidian, distana
Srensen i pstreaz sensibilitatea n seturi de date
heterogene i d greutate mai mic outlier-ilor
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Condiii de aplicare:

Acelai numr de specii & Acelai tip de specii

6 specii
36 indivizi

6 specii
36 indivizi

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele Simpson

Simbol: D
Definiie: probabilitatea ca doi indivizi extrai la
ntmplare din populaie s aparin aceleai specii
Formula de calcul:

n (n 1)

D=
i

D = (ni/N)2 sau

unde ni = numrul de indivizi al speciei i, N = numrul


de indivizi ai tuturor speciilor

N ( N 1)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele Simpson

D ia valori n intervalul [0, 1]


Interpretare:
0 = diversitate
1 = lipsa diversitii (cu ct valorare lui D este mai
mare cu att diversitatea este mai mic)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Mrimi derivate: Indicele de diversitate Simpson

Formula de calcul: 1-D


Ia valori n intervalul [0, 1]
Cu ct valoarea este mai mare cu att diversitatea n
eantion este mai mare
Reprezint probabilitatea ca 2 indivizi extrai la
ntmplare s aparin unor specii diferite

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Mrimi derivate: Reciproca Indicelui Simpson

Simbol: ds
Formula de calcul:

N ( N 1)
ds =
ni (ni 1)

ds = 1 eantionul conine o singur specie


Interpretare:
cu ct valoarea este mai mare cu att diversitatea este
mai mare
valoarea maxim pe care o poate lua este egal cu
numrul maxim de specii
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele de diversitate al lui Shanon (H):

Formula de calcul:
H = piln(pi)
unde pi = probabilitatea de apariie a speciei i
Interpretare: cu ct valoarea indicatorului e
mai mare cu att diversitatea e mai mare.

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele Simpson d o greutate mai mare speciilor mai
abundente din eantion. Existena Adugarea speciilor rare n
eantion determin doar modificri mici n valoarea lui D.
Exemplu

Compara similaritatea prin utilizarea indicelui Simpson i


derivailor (pai):
Identificarea eantioanelor de comparat (ariilor)
Identificarea i cuantificarea speciilor pentru fiecare
eantion
Aplicarea formulelor de calcul pentru identificarea
valorilor indexului Simpson i a derivailor
Interpretarea rezultatelor
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele Srensen

Scop: Analiza similaritii primilor 40 aa al concavalinei


Br n comparaie cu concavalia Ma
Material:

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele Srensen
Metod:
Realizarea tabelului de frecven pentru fiecare ir de
aminoacizi (Microsoft Excel [Data PivotTable and
PivotChart Report...])

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

COMPARAREA SIMILARITII
Indicele Srensen
Rezultat:
Calcularea parametrilor A, B i C:
A (Co-Br) = 16
B (Co-Ma) = 17
C = 16
Indicele Srensen: QS = 2C/(A+B) = 2*16/(16+17) =
0.9697
Distana Srensen = 1-QS = 1-0.9697 = 0.0303

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Indice de similaritate Kulczyski

Permite compararea a dou grupuri pentru determinarea


omogenitii acestora
i =T
Simbol: K
2 inf (Bip , Biq )
Formula de calcul:
K = i =1
p,q

i =T

B + B
i =1

i =T

ip

i =1

unde Kp,q = similaritatea ntre eantioanele p i q, Bip este


acoperirea speciei i n eantionul p; T = numrul total de
specii.
Ia valori n intervalul [0, 1]. Valoarea 1 indic similaritate
total (identitate); valoare 0 indic disimilaritate.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Msuri de corelaie ca indicatori de similaritate:

Coeficientul de corelaie Pearson


Coeficientul de corelaie Spearman
Coeficientul de corelaie semni-cantitativ
Coeficienii de corelaie Kendall tau
Coeficientul de corelaie Gamma

Iau valori n intervalul [-1, 1]

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Msuri de corelaie ca indicatori de similaritate

Interpretarea valorii coeficientului (regulile lui Colton):


[-0.25; 0.25] nu exist asociere;
(0.25; 0.50] / (- 0.25; - 0.50] = asociere slab
(0.50; 0.75] / (- 0.50; - 0.75] = asociere
moderat/bun;
> 0.75 / < - 0.75 = nivel foarte bun de asociere
Interpretarea valorii p asociate:
Pentru un prag de semnificaie de 5%: p < 0.05
corelaie semnificativ statistic
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul de corelaie Pearson:
variabile cantitative, scala interval sau raie

cuantific puterea i direcia legturii liniare dintre dou


variabile prin descrierea direciei i a gradului n care o
variabil este n relaie de liniaritate cu cealalt variabil
de interes
Este corect aplicat i interpretat dac:
Ambele variabile urmeaz o distribuie normal i
distribuia lor comun este bivariat normal
Exist asumpia unei relaii de liniaritate ntre cele
dou variabile
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul de corelaie Spearman (Spearman,
1904):

variabile cantitative care nu urmeaz o distribuie


normal / variabile calitative
msur non-parametric de cuantificare a relaiei dintre
dou caractere (evalueaz ct de bine o funcie monoton
poate descrie relaia dintre cele dou caractere)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul de corelaie Semi-Cantitativ (Bolboac
i Jntschi, 2006):
calcularea coeficientului de corelaie pe baza
formulei lui Pearson i, respectiv, a lui Spearman

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul de corelaie Kendall tau (Kendall, 1938;
1942):
coeficieni de corelaie non-parametrici utilizai
pentru evaluarea i testarea corelaiei dintre date noninterval ordinale

Interpretare:

Dac exist concordan ntre cele dou caractere msurate, valoarea


coeficientului e apropiat de 1.
Dac exist o discordan ntre cele dou caractere i un caracter este
reversul celuilalt, coeficientul de corelaie se apropie ca valoare de -1.
Dac cele dou caractere sunt independente unul fa de cellalt,
coeficientul de corelaie se apropie de 0.

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Coeficientul de corelaie Gamma (Goodman i
Kruskal, 1963):
Metod de determinare a coeficientului de corelaie
care n comparaie cu Kendall e mai rezistent la
existena perechilor de date cu ranguri egale.
Este utilizat cnd datele de analizat conin multe date
perechi cu ranguri egale (Siegel i Castellan, 1999)

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

INDICATORI DE SIMILARITATE
Distana Bray-Curtis:

(suma diferenelor
absolute)/(abundena
total)
= 13/(38+31)
= 0.1885

E1 E2 |E1-E2|
A
12 10
2
B
8 10
2
C
4
0
4
D
10 6
4
E
4
5
1
Total 38 31
13

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

MATRICEA DE SIMILARITATE
http://l.academicdirect.org/Agriculture/Colagen/StringAnalysis

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

MATRICEA DE SIMILARITATE

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

ALTE MARIMI DE SIMILARITATE

Coeficientul de potrivire
Coeficientul de suprapunere
Media armonic
Divergena simetriei
Algoritmul Ukkonen
Distana Monge Elkan
Distana Minkowski
Distana Jaro
Distana SoundEx
Distana Hellinger

Distana Levenshtein
Distana Hamming
Distana Needleman-Wunch
(Algoritmul Sellers)
Distana Smith-Waterman
Distana Gotoh Distance
(distana Smith-WatermanGotoh)
Distana bloc (distana L1)
Distana euclidian
Distana Soergel

BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8

S-ar putea să vă placă și