Leçon 4 : Modèles Linéaires Généralisés et Méthodes Classiques d'Apprentissage Supervisé
Section outline
-
-
Bonjour à toutes et à tous,
Le jeu de données Carseats est mis à votre disposition sur Moodle. Vous pouvez le télécharger dès maintenant.
Description du dataset :
Le jeu de données Carseats contient des informations sur les ventes de sièges auto pour enfants dans différents magasins. Chaque ligne représente un magasin, avec des variables telles que :-
Sales
: Nombre de ventes (notre variable cible) -
Price
,Advertising
,Income
,Age
,Education
, et autres. -
ShelveLoc
,Urban
,US
: Variables catégorielles décrivant le contexte commercial
Remarque importante :
Nous utiliserons ce jeu de données dans l'exercice sur la régression de Poisson, dans lequel vous devrez implémenter la log-vraisemblance, le gradient, et la descente de gradient. Assurez-vous donc de bien le télécharger et de le conserver dans votre environnement Colab ou local.Bon travail!
-
-
Bonjour à toutes et à tous,
Nous rencontrons actuellement un problème technique avec Zoom, l'accès étant temporairement coupé.
L’équipe audiovisuelle est en train d’investiguer le problème.
Nous essaierons de commencer la séance dans quelques minutes. -
Bonjour à toutes et à tous,
Le problème d'accès à Zoom est généralisé et ce depuis 13h20 aujourd'hui. On essaiera de se connecter dès que possible. -
Rebonsoir à toutes et à tous,
Zoom est à nouveau accessible. Vous pouvez vous joindre désormais à la séance.
-
Bonjour à toutes et à tous,
L’énoncé du Devoir 4 : Méthodes Classiques d’Apprentissage Supervisé et Validation Croisée est désormais disponible sur Moodle. Vous avez 8 jours pour le compléter et le soumettre.
Vous trouverez :
-
L’énoncé du devoir (au format PDF), incluant les questions théoriques, les consignes de codage, et les éléments à analyser.
-
L'import direct du jeu de données
Digits
(fourni directement via la bibliothèquescikit-learn
), utilisé pour une tâche de reconnaissance optique de chiffres manuscrits.
Ce devoir vise à approfondir votre compréhension des modèles de classification, de leurs formulations théoriques, et de leur évaluation. Vous serez amenés à :
-
Implémenter une régression logistique multiclasse avec descente de gradient.
-
Implémenter l’Analyse Discriminante Linéaire (LDA) multiclasse selon deux approches complémentaires :
-
Une formulation bayésienne (modèle probabiliste),
-
Une formulation géométrique (critère de Rayleigh généralisé, aussi appelé critère de Fisher).
-
-
Comparer les deux formulations à l’aide de la validation croisée.
-
Analyser la convergence des métriques, les notions de biais/variance, et la qualité des prédictions via la matrice de confusion.
-
Répondre à des QCM théoriques portant sur les modèles, les métriques d’évaluation et les effets de la régularisation.
Modalités de remise : Un seul fichier PDF contenant :
-
Le code Python complété (classes, fonctions, visualisations) ;
-
Vos réponses aux questions ouvertes et aux QCM ;
-
Les résultats produits (métriques, graphiques, matrices, etc.) ;
-
Vos analyses personnelles (convergence, interprétabilité, biais/variance, comparaison des approches).
Instructions importantes :
-
Prenez le temps de lire l’ensemble du devoir avant de commencer. Cela vous aidera à mieux en comprendre la structure et à planifier vos réponses.
-
Répondez aux questions de façon rigoureuse, en justifiant vos choix avec des arguments clairs, mathématiques si nécessaire.
-
Remarque sur les QCM :
-
Lorsqu’il est demandé de fournir vos réponses, il peut y avoir plusieurs bonnes réponses.
-
Lorsqu’il est demandé votre réponse, une seule est attendue.
-
Besoin d’aide ? Je suis disponible pour répondre à vos questions pendant les séances de cours, par courriel, ou sur le forum du cours. Commencez le devoir le plus tôt possible afin de disposer du temps nécessaire pour bien le compléter et poser vos questions si besoin.
Bon travail à toutes et à tous et bonne chance !
-