Il est courant d'utiliser les méthodes d'apprentissage automatique pour développer des modèles de pronostics précis et fiables permettant d'établir une classification des patients atteints d'une certaine maladie. La classification des patients, permet de regrouper les individus en fonction de leurs besoins et donc d'adapter le traitement du patient de manière pertinente. La disponibilité récente de données de patients atteints de la SLA (Sclérose Latérale Amyotrophique) a permis l'étude de différentes méthodes de pronostic et de classification. Certaines de ces méthodes d'apprentissage automatique ont réussi à exploiter les corrélations présentes dans les données pour mieux comprendre la progression de la maladie. Cependant, la quantité d'informations, c'est-à-dire le nombre de variables associées à un patient, peut perturber l'apprentissage car certaines variables ne sont pas pertinentes. Il est donc nécessaire de sélectionner un sous-ensemble des variables les plus appropriées de sorte à maximiser la qualité prédictive du modèle. La difficulté de cette stratégie est qu'elle est confrontée au problème de l'explosion combinatoire. En effet, le nombre de combinaisons possibles étant exponentiel, une énumération complète des sous-ensembles n'est pas réaliste. L'utilisation de méthodes statistiques et/ou de métaheuristiques permet d'approcher la solution optimale. De plus, un sous-ensemble de variables pourra mener à des performances différentes en fonction de la méthode d'apprentissage choisie (Régression logistique, Random forest, etc.). Le choix de la méthode d'apprentissage est généralement réalisé expérimentalement. La question est donc de déterminer, pour un jeu de données, le meilleur couple (métaheuristique, méthode d'apprentissage) permettant de maximiser la qualité prédictive du modèle obtenu.
Dans ce travail, nous effectuons une comparaison expérimentale de 7 métaheuristiques parmi les plus courantes (algorithmes génétiques, recuit simulé, essaim de particules, etc.) afin de déterminer le meilleur sous-ensemble de variables. Nous les associons avec 9 méthodes d'apprentissage parmi les plus courantes. Chaque couple (métaheuristique, méthode) est appliqué sur 13 jeux de données benchmarks ainsi que sur des jeux de données provenant du domaine médical, pour un total de 945 expériences.
Nos expériences semblent indiquer que les métaheuristiques sont plus efficaces que les méthodes statistiques puisque nous arrivons à obtenir un meilleur score sur 11 des 13 jeux de données. L'amélioration de la qualité prédictive peut aller jusqu'à 8 points. Nous avons appliqué notre méthodologie sur les données de patients atteints de la SLA. Nous obtenons une classification bien meilleure que dans, permettant ainsi une meilleure prise en charge des patients atteints de la SLA. Pour chacun de nos jeux de données la métaheuristique qui nous permet d'obtenir le meilleur résultat est une métaheuristique à base de population. En particulier, l'évolution différentielle semble être la métaheuristique la plus efficace. Les métaheuristiques à base de parcours semblent au contraire inadaptées. Les performances des métaheuristiques à base de population semblent décorrélées du choix de la méthode d'apprentissage. A partir de ces expériences, nous recommandons d'utiliser l'évolution différentielle pour sélectionner un sous-ensemble de variables, quelle que soit la méthode d'apprentissage utilisée.