Les applications de machine learning ont besoin de moins de données que prévu

Une équipe combinée de chercheurs de l’Université de la Colombie-Britannique et de l’Université de l’Alberta a découvert qu’au moins certaines applications de machine Learning peuvent apprendre à partir de beaucoup moins d’exemples qu’on ne le pensait.

Dans leur article publié dans la revue Nature Machine Intelligence, le groupe décrit effectivement les tests qu’ils ont effectués avec des applications d’apprentissage automatique créées pour prédire certains types de structures moléculaires.

Le Machine Learning peut être utilisé dans une grande variété d’applications. L’une des plus connues est notamment d’apprendre à repérer des personnes ou des objets sur des photographies. De telles applications nécessitent généralement d’énormes quantités de données pour la formation. Dans ce nouvel effort, les chercheurs ont néanmoins découvert que dans certains cas, les applications de Machine Learning n’ont pas besoin d’une telle quantité de données pour être utiles.

Une application de Machine Learning dans le milieu médical

Les chercheurs cherchaient initialement des moyens de prédire la structure des drogues de synthèse illégales. Cela aiderait les chercheurs en médecine à s’y préparer si les personnes qui les consomment commencent à se présenter dans les salles d’urgence des hôpitaux. L’équipe s’est rendu compte que leur travail serait beaucoup plus facile s’ils pouvaient utiliser une application de machine learning. Malheureusement, il n’y a que 1 700 drogues de synthèse connues qui pourraient être utilisées pour former un tel système. Les chercheurs se sont demandé s’il serait possible de déterminer combien de données seraient nécessaires pour l’utilité d’un tel système. Ils se demandaient aussi s’il pourrait y avoir un moyen de modifier un algorithme ou les données utilisées pour l’entraîner. L’objectif étant d’utiliser moins de données disponibles.

Résultats corrects dans environ 50 % des cas

Pour le savoir, les chercheurs ont créé 8 500 modèles. Ils ont ainsi entraîné chacun d’entre eux sur des ensembles de données de taille différente. Des données provenant des 500 000 molécules du système simplifié de saisie des lignes d’entrée des molécules. Ils ont ensuite utilisé les modèles pour prédire les types de molécules possibles. Ce faisant, ils ont constaté que de nombreux modèles fonctionnaient assez bien avec l’ensemble de données limité. Ils ont également constaté que la capacité de prédiction de la plupart d’entre eux commençait à se stabiliser après seulement 10 000 à 20 000 enregistrements de données. Lorsqu’ils ont utilisé les modèles les plus performants pour effectuer leur recherche initiale, ils ont constaté que les résultats étaient corrects dans environ 50 % des cas.

Partager l'article :