Trouver la classe avec les k plus proches voisins

Supposons que l’on a un problème de classification qui consiste à déterminer la classe d’appartenance de nouvelles instances Xi`Xi`. Le domaine de valeurs des classes possibles est 1,2,3`{1, 2, 3}`.

Selon la base de connaissance suivante, déterminez à la main (ou à l'aide d'un tableur) la classe de l’instance X6`X6`, dont les valeurs pour les attributs numériques A1`A1` à A5`A5` sont <3,12,4,7,8>`<3, 12, 4, 7, 8>`, à l’aide de l’algorithme des k-voisins les plus proches (K-NN) avec K=1`K=1` puis K=3`K=3`.

Montrez tous les calculs.

Instances A1 A2 A3 A4 A5 Classe
X1 3 5 4 6 1 1
X2 4 6 10 3 2 2
X3 8 3 4 2 6 3
X4 2 1 4 3 6 3
X5 2 5 1 4 8 2

Couleur d'un fruit

On cherche à prédire la couleur d’un fruit en fonction de sa largeur (L`L`) et de sa hauteur (H`H`).
On dispose des données d’apprentissage suivantes :

largeur hauteur couleur
2 6 red
5 6 yellow
2 5 orange
6 5 purple
1 2 red
4 2 blue
2 1 violet
6 1 green

Ces données sont placées dans un repère (L`L` en abscisse, H`H` en ordonnée), indiquez pour chaque point sa couleur.

L’objectif ici est d’étudier l’influence des voisins sur la propriété de couleur d’un fruit.

Soit U`U` le nouveau fruit de largeur L=1`L = 1`, et de hauteur H=4`H = 4`.

  1. Quelle est sa couleur si l'on considère 1 voisin ?
  2. Quelle est sa couleur si l'on considère 3 voisins ?
  3. Plutôt que le vote majoritaire, on voudrait considérer le vote des voisins pondérés par la distance. Chaque voisin vote selon un poids w`w` inversement proportionnel au carré de sa distance : w=1/d2`w = 1/d^2`. \On prend 3 voisins, quelle est la couleur de U`U` ? \Comparez vos résultats à ceux de la question 2.

Distance sur des données non numériques

Arrivé dans la cantina de la planète Tatooine, Han Solo décide de donner des indications à Luke pour qu’il ne provoque pas les extraterrestres belliqueux. Il repère quelques caractéristiques et vous demande de l’aider à fournir des éléments à Luke pour ne pas créer de problèmes et donc pouvoir définir un extraterrestre belliqueux.

Couleur Taille Poids Yeux par pair ? Belliqueux
jaune moyenne léger non non
jaune grande moyen oui oui
vert petite moyen oui oui
jaune petite moyen non non
rouge moyenne lourd non non
vert grande lourd non oui
vert moyenne lourd non oui
jaune petite léger oui oui

Élaborez une distance pour pouvoir mettre en œuvre KNN sur cet exemple.

Distance sur des données mixtes

Après avoir mis un place un entrepôt de données pour stocker les résultats des votes à différentes élections, l’objectif est de maintenant d’exploiter les différentes données de cet entrepôt. Différents partis politiques font donc appel à vous pour les aider à mieux comprendre leurs électeurs.

Un parti cherche à comprendre la composition des votants pour son candidat. Il fait donc appel à vos services pour identifier les différents profils des votants.

On a par exemple les deux votants suivants :

les attributs correspondent à :

Définissez formellement une distance permettant de considérer tous les attributs pour mettre en œuvre KNN.

Donnez la distance de V1 à V2 avec cette définition.


title: Algorithme des k plus proches voisins - exercices subtitle : Bloc 2 author: | | Département informatique, Univ. Lille | DIU Enseigner l'informatique au lycée

date: juin 2019