Les applications de machine learning ont besoin de moins de données que prévu

Une équipe combinée de chercheurs de l’Université de la Colombie-Britannique et de l’Université de l’Alberta a découvert qu’au moins certaines applications de machine Learning peuvent apprendre à partir de beaucoup moins d’exemples qu’on ne le pensait.

Dans leur article publié dans la revue Nature Machine Intelligence, le groupe décrit effectivement les tests qu’ils ont effectués avec des applications d’apprentissage automatique créées pour prédire certains types de structures moléculaires.

Le Machine Learning peut être utilisé dans une grande variété d’applications. L’une des plus connues est notamment d’apprendre à repérer des personnes ou des objets sur des photographies. De telles applications nécessitent généralement d’énormes quantités de données pour la formation. Dans ce nouvel effort, les chercheurs ont néanmoins découvert que dans certains cas, les applications de Machine Learning n’ont pas besoin d’une telle quantité de données pour être utiles.

Une application de Machine Learning dans le milieu médical

Les chercheurs cherchaient initialement des moyens de prédire la structure des drogues de synthèse illégales. Cela aiderait les chercheurs en médecine à s’y préparer si les personnes qui les consomment commencent à se présenter dans les salles d’urgence des hôpitaux. L’équipe s’est rendu compte que leur travail serait beaucoup plus facile s’ils pouvaient utiliser une application de machine learning. Malheureusement, il n’y a que 1 700 drogues de synthèse connues qui pourraient être utilisées pour former un tel système. Les chercheurs se sont demandé s’il serait possible de déterminer combien de données seraient nécessaires pour l’utilité d’un tel système. Ils se demandaient aussi s’il pourrait y avoir un moyen de modifier un algorithme ou les données utilisées pour l’entraîner. L’objectif étant d’utiliser moins de données disponibles.

Résultats corrects dans environ 50 % des cas

Pour le savoir, les chercheurs ont créé 8 500 modèles. Ils ont ainsi entraîné chacun d’entre eux sur des ensembles de données de taille différente. Des données provenant des 500 000 molécules du système simplifié de saisie des lignes d’entrée des molécules. Ils ont ensuite utilisé les modèles pour prédire les types de molécules possibles. Ce faisant, ils ont constaté que de nombreux modèles fonctionnaient assez bien avec l’ensemble de données limité. Ils ont également constaté que la capacité de prédiction de la plupart d’entre eux commençait à se stabiliser après seulement 10 000 à 20 000 enregistrements de données. Lorsqu’ils ont utilisé les modèles les plus performants pour effectuer leur recherche initiale, ils ont constaté que les résultats étaient corrects dans environ 50 % des cas.

Cliquez pour commenter

Laisser un commentaire

ARTICLES SIMILAIRES

Yop mail conserve les emails 8 jours pour tests temporaires sans inscription

Yopmail est une adresse email éphémère, le genre que vous pourriez utiliser pour vous inscrire

9 mai 2026

Les désinstallations de ChatGPT explosent après l’accord d’OpenAI avec l’armée américaine

La récente annonce d’OpenAI concernant un accord stratégique avec le département de la Guerre surprend

5 mars 2026

Comment savoir si la chaîne du froid est rompue ?

La chaîne du froid est un processus essentiel pour garantir la sécurité et la qualité

26 janvier 2026

127.0.0.1:49342 apparaît lors de tests locaux et d’applications en développement

L’adresse 127.0.0.1 est un pilier incontournable dans l’univers du développement informatique local. Cette adresse, associée

5 janvier 2026

L’école 42 intensifie son engagement pour la diversité en IT grâce au programme « La Tech pour Toutes »

Le secteur de l’informatique peine à refléter la diversité de la société, créant un fossé

17 novembre 2025

Quand l’IA fait de nos objets connectés les nouveaux acteurs du divertissement

L’IA bouleverse les codes de la création. Ce n’est plus un outil, c’est un nouveau

27 octobre 2025