Sunteți pe pagina 1din 4

Chp 4 - Mesures de similarité :

Besoin d’avoir des mesures de similarité :


Différents algorithmes ont besoin de fonctions pour mesurer la similarité
(ou la dissimilarité) entre objets :
- L’algorithme KMeans a besoin de mesurer la similarité entre une
donnée et les centres des clusters, afin d’affecter la donnée au
cluster dont le centre est le plus proche.
- L’algorithme KNN a besoin de trouver les K voisins les plus proches
d’une donnée.
- Les moteurs de recherche d’images calculent la similarité entre la
requête et chaque image du dataset (collection d’images).
Illustration.
- Les outils de reconnaissance d’images ont besoin de mesurer la
similarité entre l’objet à reconnaitre et les images dont la classe est
connue déjà.

Cheval
et/ou
Herbe

Requête

Moteur de
recherche

dataset ou
WWW Résultats
Notion de similarité vs. dissimilarité :
Une mesure est une similarité si elle est :
 grande lorsque les deux objets se ressemblent
 et petite lorsque les deux objets ne se ressemblent pas
Une mesure est une dissimilarité dans le cas opposé, c'est-à-dire qu’elle
est :
 grande lorsque les deux objets ne se ressemblent pas
 et petite lorsque les deux objets se ressemblent
Exemples

Notion de distance (métrique) :


On dit qu’une mesure est une distance (ou une métrique) si elle vérifie les
propriétés suivantes :
- Positivité : D(x,y) ≥ 0
- Identité des indiscernables : D(x,x) = 0
- Symétrie : D(x,y) = D(y,x)
- Inégalité triangulaire : D(x,y) ≤ D(x,z) + D(z,y)

Quelques métriques :
 Distance de Manhattan (ou distance de l’échiquier ou L1) :
𝐿1 𝑋, 𝑌 = 𝑑𝑖=1 |𝑥𝑖 − 𝑦𝑖 |
 Distance Euclidienne (ou L2) :
𝑑
𝐿2 𝑋, 𝑌 = 𝑥𝑖 − 𝑦𝑖 2
𝑖=1

 Distance de Minkowski (ou Lq) :


𝑞 𝑑
𝐿𝑞 𝑋, 𝑌 = 𝑥𝑖 − 𝑦𝑖 𝑞
𝑖=1

 Distance de Mahalanobis :

𝐷 𝑋,  = 𝑋 −  𝑡  −1 𝑋 − 

Si  = 𝐼 on obtient la distance Euclidienne

Si  est diagonale, on obtient une distance Euclidienne


𝑑 𝑥 𝑖 −𝑦 𝑖 2
normalisée 𝐷 𝑋, 𝑌 = 𝑖=1 2𝑖

Quelques non distances :


𝑥1 𝑥2
 Similarité Cosinus : Soient deux vecteurs 𝑣1 𝑦 et 𝑣2 𝑦
1 2
𝑣1 .𝑣2
𝑆𝑖𝑚(𝑣1 , 𝑣2 ) = cos  = où
|𝑣1 |×|𝑣2 |
 est l’angle entre 𝑣1 et 𝑣2
et 𝑣1 . 𝑣2 est le produit scalaire des deux vecteurs

 Intersection d’histogrammes : L’intersection entre deux


histogrammes H et G est
𝑑
𝑖=1 min ⁡
(𝐻𝑖 ,𝐺𝑖 )
𝐼 𝐻, 𝐺 =
min ⁡
( 𝐻 ,|𝐺|)
Où |H| est la somme des éléments de H et |G| est la somme des
éléments de G. Illustration
G

Le nombre de pixels B
dans le sous-espace

Histogramme de la couleur

Application :
Application des mesures de similarité à la recherche du texte sur le Web :
Illustration
 Collecter des pages Web
 Compter la fréquence de chaque mot
 Constituer le vecteur représentatif de chaque page
 Comparer entre ces vecteurs en utilisant les différentes mesures de
similarités. Ex la cosinus.

S-ar putea să vă placă și