Résumé de section

  • MTH8302

    Analyse de régression et analyse de variance

    * * * Hiver 2023 * * *

    • Bonjour à toutes et à tous,

      Le contenu de la première séance du cours a été ajouté. Voici les éléments disponibles :

      • Le plan du cours, décrivant les objectifs et le déroulement des séances ;
      • Les notions abordées lors de la première séance, incluant :
        • La notation utilisée dans le cours ;
        • Un rappel des concepts d’algèbre linéaire ;
      • Le notebook Jupyter avec des exemples illustrant les notions couvertes ;
      • Le script Python, reprenant les mêmes exemples pour une exécution dans un environnement Python standard ou Google Colab.

      Ces ressources sont à votre disposition pour approfondir votre compréhension et vous préparer pour les prochaines séances. N’hésitez pas à poser vos questions si vous avez des doutes ou des difficultés.

      Bonne lecture et bon travail !

    • Bonjour à toutes et à tous,

      Pour compléter notre dernière séance sur l'optimisation, j'ai ajouté à Moodle le matériel nécessaire pour vous permettre de mieux comprendre et visualiser les concepts discutés. Vous trouverez le code Python complet qui illustre les techniques d'optimisation telles que la descente de gradient et la méthode de Newton. Le matériel est disponible en deux formats :

      1. Notebook Jupyter (.ipynb): Ce fichier interactif comprend des explications détaillées, des exemples de code, et des graphiques intégrés pour une exploration dynamique des méthodes d'optimisation.
      2. Script Python (.py): Un script Python classique qui vous permet d'exécuter les exemples de code directement et de voir les résultats immédiatement.

      Je vous encourage à télécharger ces fichiers, à les exécuter et à explorer les exemples fournis pour renforcer votre compréhension des techniques d'optimisation abordées pendant le cours. N'hésitez pas à poser des questions ou à demander des éclaircissements.

      Bonne exploration et apprentissage !


    • Bonjour à toutes et à tous,

      Je tiens à vous informer que plusieurs étudiants ont rencontré des difficultés techniques lors de la soumission du devoir sur Moodle. Si vous avez soumis votre devoir en retard en raison de ces problèmes, le retard ne pénalisera pas votre note finale.

      Merci à ceux qui ont envoyé un courriel pour prévenir du problème de soumission.

    • Le dataset Boston Housing contient des informations sur le marché immobilier de Boston, avec 506 observations représentant des quartiers de la ville. Chaque observation inclut 13 variables explicatives, telles que le nombre moyen de pièces par logement (RM), le taux de criminalité (CRIM), ou encore le pourcentage de la population à faible statut socio-économique (LSTAT). L'objectif est de prédire la valeur médiane des logements (MEDV, en milliers de dollars) à partir de ces caractéristiques.

    • Bonjour à toutes et à tous,

      L'énoncé du Devoir 2 : Régression Linéaire et Analyse des Résidus est désormais disponible sur Moodle. Vous trouverez également le dataset Wage.csv, nécessaire pour compléter les exercices.

      Objectif du Devoir :

      Ce devoir vous permettra de vous familiariser avec les concepts fondamentaux de la régression linéaire, des tests d'hypothèses et de l'analyse des résidus. Vous serez amenés à :
      - Implémenter un modèle de régression linéaire simple et un modèle de régression linéaire multiple.
      - Réaliser un test t de significativité pour la régression linéaire simple et une analyse de la variance (ANOVA) pour le modèle multiple.
      - Analyser les résidus afin d’évaluer la qualité des modèles.
      - Comparer vos résultats avec ceux obtenus via statsmodels et scikit-learn.
      - Explorer et manipuler des données avec Pandas et NumPy.

      Du code partiellement complété vous est fourni. Vous devrez remplir certaines parties et répondre à des questions d’interprétation et d'analyse.

      Si vous aurez besoin d’aide ?
      N’hésitez pas à me poser vos questions en personne ou sur le forum du cours. Vous pouvez toujours me contacter en cas de besoin.

      Commencez le devoir dès que possible afin d’avoir le temps de poser vos questions et de le compléter sereinement.

      Bon travail à toutes et à tous !






    • Bonjour à toutes et à tous,

      J’ai mis en ligne un document de clarifications concernant :
      - L’estimation par maximum de vraisemblance dans le cas de la régression linéaire multiple.
      - Le calcul des intervalles de confiance et de prédiction (dans le cas de la régression linéaire multiple).

       Vous pouvez y retrouver :
      - Une explication détaillée de l’estimateur du maximum de vraisemblance en régression linéaire multiple.
      - La formulation mathématique des intervalles de confiance et de prédiction.
      - Des exemples illustrant leur interprétation et leur utilisation.

      Bonne lecture et bonne étude !

    • Bonjour à toutes et à tous,

      J’ai mis en ligne la version finale du document de la Leçon 2 : Régression Linéaire Multiple.

      Le contenu reste le même que celui des précédents transparents, avec des ajustements et mises au point pour une meilleure lisibilité et un affichage optimal des slides.

      Bonne lecture et bonne étude !


    • Bonjour à toutes et à tous,

      L'énoncé du Devoir 3 : "Méthodes de Régularisation" est désormais disponible sur Moodle. Vous avez 2 semaines pour le compléter et le soumettre.

      Vous trouverez :

      - L’énoncé du devoir (format PDF) avec le code Python à compléter.

      - Le jeu de données `Hitters`, disponible dans la librairie ISLP.

      Ce devoir vise à approfondir votre compréhension des méthodes de régularisation en régression linéaire. Vous serez amenés à :

      - Comprendre les formulations probabilistes des régularisations.

      - Établir les liens entre la régularisation et l'estimation Bayésienne (MAP).

      - Implémenter les méthodes Ridge, Lasso et Elastic Net par vous mêmes.

      - Étudier l’impact des hyperparamètres sur la performance du modèle et la sélection des variables.

      - Interpréter l’évolution des erreurs de prédiction et de la parcimonie des modèles.

      Modalités de remise : Un seul fichier PDF contenant toutes vos réponses y compris le code Python complété, les résultats affichés (graphiques, tableaux et autres) ainsi que vos analyses, vos réponses et justifications aux QCM.

      Instructions importantes :

      - Prenez le temps de lire l’ensemble du devoir avant de commencer. Cela vous permettra de mieux comprendre la logique des exercices et d’anticiper les connexions entre les questions.

      - Répondez aux questions avec des explications rigoureuses et, lorsque nécessaire, des arguments mathématiques.

      Remarque sur les QCM :

        - Lorsqu’il est demandé de fournir vos réponses, cela signifie qu’il peut y avoir plus d’une bonne réponse.

        - Lorsqu’il est demandé votre réponse, une seule est attendue.

      Si vous aurez besoin d’aide?

      N’hésitez pas à me poser vos questions pendant les séances du cours, par courriel, ou sur le forum du cours. Je suis disponible pour vous accompagner si vous rencontrez des difficultés.

      Commencez le devoir dès que possible pour avoir le temps de poser vos questions et le compléter sereinement.

      Bon travail à toutes et à tous et surtout, soyez curieux ! 

    • Bonjour à toutes et à tous,

      Le jeu de données Carseats est mis à votre disposition sur Moodle. Vous pouvez le télécharger dès maintenant.

      Description du dataset :
      Le jeu de données Carseats contient des informations sur les ventes de sièges auto pour enfants dans différents magasins. Chaque ligne représente un magasin, avec des variables telles que :

      • Sales : Nombre de ventes (notre variable cible)

      • Price, Advertising, Income, Age, Education, et autres.

      • ShelveLoc, Urban, US : Variables catégorielles décrivant le contexte commercial

      Remarque importante :
      Nous utiliserons ce jeu de données dans l'exercice sur la régression de Poisson, dans lequel vous devrez implémenter la log-vraisemblance, le gradient, et la descente de gradient. Assurez-vous donc de bien le télécharger et de le conserver dans votre environnement Colab ou local.

      Bon travail!


    • Bonjour à toutes et à tous,

      L’énoncé du Devoir 4 : Méthodes Classiques d’Apprentissage Supervisé et Validation Croisée est désormais disponible sur Moodle. Vous avez 8 jours pour le compléter et le soumettre.

      Vous trouverez :

      • L’énoncé du devoir (au format PDF), incluant les questions théoriques, les consignes de codage, et les éléments à analyser.

      • L'import direct du jeu de données Digits (fourni directement via la bibliothèque scikit-learn), utilisé pour une tâche de reconnaissance optique de chiffres manuscrits.

      Ce devoir vise à approfondir votre compréhension des modèles de classification, de leurs formulations théoriques, et de leur évaluation. Vous serez amenés à :

      • Implémenter une régression logistique multiclasse avec descente de gradient.

      • Implémenter l’Analyse Discriminante Linéaire (LDA) multiclasse selon deux approches complémentaires :

        • Une formulation bayésienne (modèle probabiliste),

        • Une formulation géométrique (critère de Rayleigh généralisé, aussi appelé critère de Fisher).

      • Comparer les deux formulations à l’aide de la validation croisée.

      • Analyser la convergence des métriques, les notions de biais/variance, et la qualité des prédictions via la matrice de confusion.

      • Répondre à des QCM théoriques portant sur les modèles, les métriques d’évaluation et les effets de la régularisation.

      Modalités de remise : Un seul fichier PDF contenant :

      • Le code Python complété (classes, fonctions, visualisations) ;

      • Vos réponses aux questions ouvertes et aux QCM ;

      • Les résultats produits (métriques, graphiques, matrices, etc.) ;

      • Vos analyses personnelles (convergence, interprétabilité, biais/variance, comparaison des approches).

      Instructions importantes :

      • Prenez le temps de lire l’ensemble du devoir avant de commencer. Cela vous aidera à mieux en comprendre la structure et à planifier vos réponses.

      • Répondez aux questions de façon rigoureuse, en justifiant vos choix avec des arguments clairs, mathématiques si nécessaire.

      • Remarque sur les QCM :

        • Lorsqu’il est demandé de fournir vos réponses, il peut y avoir plusieurs bonnes réponses.

        • Lorsqu’il est demandé votre réponse, une seule est attendue.

      Besoin d’aide ? Je suis disponible pour répondre à vos questions pendant les séances de cours, par courriel, ou sur le forum du cours. Commencez le devoir le plus tôt possible afin de disposer du temps nécessaire pour bien le compléter et poser vos questions si besoin.

      Bon travail à toutes et à tous et bonne chance !