Documente Academic
Documente Profesional
Documente Cultură
ANALIZA DE SIMILARITATE.
3.1. SIMILARITATE CALITATIV
(DEFINIIE & MSURI DE
SIMILARITATE)
Sorana D. BOLBOAC
Despre
SIMILARITATE: DEFINIIE
SIMILARITATE SAU OMOLOGIE
METODE DE CALCUL A SIMILARITII
MATRICEA DE SIMILARITATE
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
SIMILARITATE: DEFINIIE
Similar
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
SIMILARITATE: DE CE?
Punct de plecare pentru determinarea i
nelegerea funciei proteinei (similaritate
structural i topologic a proteinelor)
Punct de plecare pentru identifiarea de noi
compui biologic activi (ex. compui chimici
cu aciune bactericid, erbicid, terapeutic,
etc.)
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
Structur 3D comun
Frecvent aceeai funcie
Omologia e totul sau nimic
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE
Caracter omolog = caracteristic a organismelor
derivate dintr-un strmo comun.
Owen (1847): coresponden structural (similaritate a
caracteristicilor datorit nrudirii)
Un caracter omolog poate fi:
OMOLOGIE: EXEMPLU
Frunzele au diferite forme i funcii dar au structur
omoloag, derivat dintr-o surs ancestral comun
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE: EXEMPLU
Omologie anatomic:
Aceeai structur de baz
Aceeai relaie cu alte pri ale corpului
Dezvoltare similar la nivelul embrionului
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE: EXEMPLU
Globine umane
Sursa:http://books.google.ro/books?id=Emr0ZABQUAIC&pg=PA50&lpg=PA50&dq=hemoglobin+ho
mology+comparison&source=bl&ots=wM0DKEBJro&sig=o9LhrlfxCKleWliiWkmBPV3u1A0&hl=ro
&ei=5jwoTa3jB4is8gOItdClAg&sa=X&oi=book_result&ct=result&resnum=8&ved=0CFAQ6AEwBzg
K#v=onepage&q=hemoglobin%20homology%20comparison&f=false
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE: EXEMPLU
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE: EXEMPLU
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE: DEFINIIE
Omologie: o gen n relaie cu alt gene, ambele
provenind de la o secven ADN ancestral
comun.
Speciaia: originea unei noi specii capabile s
triasc ntr-o modalitate nou n comparaie cu
specia din care a luat natere.
Paralogie: gene relaionate prin duplicaie ntr-un
genom. n cazul paralogiei funcia genei evolueaz
chiar dac este relaionat cu funcia iniial.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
OMOLOGIE: DEFINIIE
Ortologie: gene ale speciilor diferite care
evolueaz dintr-o gen ancestral comun prin
speciaie. n mod normal, n cazul ortologiei
funcia se menine pe parcursul evoluiei .
Identificarea ortologiei este important pentru
predicia unei funcii a unei gene ntr-o nou
secven.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
EVOLUIE: EXEMPLU
Sonnhammer & Koonin (2002) TIGs 18 619-220
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
EVOLUIE: EXEMPLU
EVOLUIE: EXEMPLU
EVOLUIE: EXEMPLU
EVOLUIE: EXEMPLU
Speciaie
Duplicaie
Genele HB i HA* are outparalogs cnd
comparm omul cu viermele
Sonnhammer & Koonin (2002) TIGs 18 619-220
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
SIMILARITATE vs OMOLOGIE
Proteinele umane i ale cimpanzeului sunt identice n
procent de 99%. Diferenele ntre secvenele AND
non-repetitive sunt ns mai mari.
Lanul alfa al hemoglobinei difer la om fa de cal cu
aproximativ 17 aminoacizi
LHRH (luteinizing hormone-releasing hormone) este
identic la amfibieni i mamifere dar diferit fa de cel
al psrilor, reptilelor i anumitor peti.
Citocromul C este foarte similar la om i cimpanzeu
(diferen de doar un aminoacid)
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
MATRICEA DE SIMILARITATE
Se utilizeaz pentru alinierea secvenelor
Scor mare pozitiv: caractere similare
Scor mic sau negativ: caractere nesimilare
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
MATRICEA DE SIMILARITATE
Alinierea secvenelor de amino-acizi:
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
MATRICEA DE SIMILARITATE
Matrice mprit de diagonal
(Swindell, BMC Genomics,
2007 ):
Dreapta: culorile nchise
indic similaritate mare
ntre rnd i coloan
Stnga: nivelul se
semnificaie a similaritii
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
MATRICEA DE SIMILARITATE
Matricea de similaritate (Williams et al., 2001):
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Jaccard:
|XY|
Formula de calcul: J (X, Y ) =
|XY|
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Jaccard: exemplu
Fie dou eantioane X i Y.
Tabelul conine frecvena
absolut a caracterelor
pentru eantioanele X,
respectiv Y:
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Jaccard: exemplu
Aplicarea legii Totul sau
nimic (ex. prezent = 1 / absent
= 0)
Aplicarea formulei de calcul a
Indicelui Jaccard:
J = 4/5 = 0,80
Jd = 1-0.80 = 0,20
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Coeficientul Dice:
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Coeficientul Tanimoto:
Similaritatea cosin
Identificarea unghiului dintre 2 vectori de dimensiune n
Frecvent utilizat n compararea documentelor n text
minning
Formula de calcul
XY
T ( X, Y ) =
|| X ||2 + || Y ||2 X Y
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Tversky (abreviat cu S):
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Tversky (abreviat cu S):
Formula de calcul:
|XY|
S(X, Y) =
| X Y | + | X Y | + | Y X |
unde , 0 sunt parametrii indicelui Tversky.
= = 1 coeficientul Tanimono
= = 0.5 coeficientul Dice
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Srensen (coeficientul de similaritate
Srensen):
Abreviere: QS
Compar similaritatea a dou eantioane.
Se aplic pentru variabile de tip calitativ.
Formula:
QS = 2C/(A+B)
unde A i B sunt numrul de specii n eantionul A,
respectiv B; C = numrul de specii comune celor dou
eantioane
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indicele Srensen (coeficientul de similaritate
Srensen):
COMPARAREA SIMILARITII
Condiii de aplicare:
6 specii
36 indivizi
6 specii
36 indivizi
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Indicele Simpson
Simbol: D
Definiie: probabilitatea ca doi indivizi extrai la
ntmplare din populaie s aparin aceleai specii
Formula de calcul:
n (n 1)
D=
i
D = (ni/N)2 sau
N ( N 1)
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Indicele Simpson
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Mrimi derivate: Indicele de diversitate Simpson
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Mrimi derivate: Reciproca Indicelui Simpson
Simbol: ds
Formula de calcul:
N ( N 1)
ds =
ni (ni 1)
COMPARAREA SIMILARITII
Indicele de diversitate al lui Shanon (H):
Formula de calcul:
H = piln(pi)
unde pi = probabilitatea de apariie a speciei i
Interpretare: cu ct valoarea indicatorului e
mai mare cu att diversitatea e mai mare.
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Indicele Simpson d o greutate mai mare speciilor mai
abundente din eantion. Existena Adugarea speciilor rare n
eantion determin doar modificri mici n valoarea lui D.
Exemplu
COMPARAREA SIMILARITII
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Indicele Srensen
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Indicele Srensen
Metod:
Realizarea tabelului de frecven pentru fiecare ir de
aminoacizi (Microsoft Excel [Data PivotTable and
PivotChart Report...])
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
COMPARAREA SIMILARITII
Indicele Srensen
Rezultat:
Calcularea parametrilor A, B i C:
A (Co-Br) = 16
B (Co-Ma) = 17
C = 16
Indicele Srensen: QS = 2C/(A+B) = 2*16/(16+17) =
0.9697
Distana Srensen = 1-QS = 1-0.9697 = 0.0303
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Indice de similaritate Kulczyski
i =T
B + B
i =1
i =T
ip
i =1
INDICATORI DE SIMILARITATE
Msuri de corelaie ca indicatori de similaritate:
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Msuri de corelaie ca indicatori de similaritate
INDICATORI DE SIMILARITATE
Coeficientul de corelaie Pearson:
variabile cantitative, scala interval sau raie
INDICATORI DE SIMILARITATE
Coeficientul de corelaie Spearman (Spearman,
1904):
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Coeficientul de corelaie Semi-Cantitativ (Bolboac
i Jntschi, 2006):
calcularea coeficientului de corelaie pe baza
formulei lui Pearson i, respectiv, a lui Spearman
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Coeficientul de corelaie Kendall tau (Kendall, 1938;
1942):
coeficieni de corelaie non-parametrici utilizai
pentru evaluarea i testarea corelaiei dintre date noninterval ordinale
Interpretare:
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Coeficientul de corelaie Gamma (Goodman i
Kruskal, 1963):
Metod de determinare a coeficientului de corelaie
care n comparaie cu Kendall e mai rezistent la
existena perechilor de date cu ranguri egale.
Este utilizat cnd datele de analizat conin multe date
perechi cu ranguri egale (Siegel i Castellan, 1999)
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
INDICATORI DE SIMILARITATE
Distana Bray-Curtis:
(suma diferenelor
absolute)/(abundena
total)
= 13/(38+31)
= 0.1885
E1 E2 |E1-E2|
A
12 10
2
B
8 10
2
C
4
0
4
D
10 6
4
E
4
5
1
Total 38 31
13
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
MATRICEA DE SIMILARITATE
http://l.academicdirect.org/Agriculture/Colagen/StringAnalysis
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
MATRICEA DE SIMILARITATE
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8
Coeficientul de potrivire
Coeficientul de suprapunere
Media armonic
Divergena simetriei
Algoritmul Ukkonen
Distana Monge Elkan
Distana Minkowski
Distana Jaro
Distana SoundEx
Distana Hellinger
Distana Levenshtein
Distana Hamming
Distana Needleman-Wunch
(Algoritmul Sellers)
Distana Smith-Waterman
Distana Gotoh Distance
(distana Smith-WatermanGotoh)
Distana bloc (distana L1)
Distana euclidian
Distana Soergel
BIOLOGIE COMPUTA
OMPUTAIONAL
IONAL BIODIVERSITATE & BIOCONSERVARE CURS 8