MTH8302 - Analyse de régression et analyse de variance
Section outline
-
MTH8302
Analyse de régression et analyse de variance
* * * Hiver 2023 * * *
-
Bonjour à toutes et à tous,
Le contenu de la première séance du cours a été ajouté. Voici les éléments disponibles :
- Le plan du cours, décrivant les objectifs et le déroulement des séances ;
- Les notions abordées lors de la première séance, incluant :
- La notation utilisée dans le cours ;
- Un rappel des concepts d’algèbre linéaire ;
- Le notebook Jupyter avec des exemples illustrant les notions couvertes ;
- Le script Python, reprenant les mêmes exemples pour une exécution dans un environnement Python standard ou Google Colab.
Ces ressources sont à votre disposition pour approfondir votre compréhension et vous préparer pour les prochaines séances. N’hésitez pas à poser vos questions si vous avez des doutes ou des difficultés.
Bonne lecture et bon travail !
-
Bonjour à toutes et à tous,
Pour compléter notre dernière séance sur l'optimisation, j'ai ajouté à Moodle le matériel nécessaire pour vous permettre de mieux comprendre et visualiser les concepts discutés. Vous trouverez le code Python complet qui illustre les techniques d'optimisation telles que la descente de gradient et la méthode de Newton. Le matériel est disponible en deux formats :
- Notebook Jupyter (
.ipynb
): Ce fichier interactif comprend des explications détaillées, des exemples de code, et des graphiques intégrés pour une exploration dynamique des méthodes d'optimisation. - Script Python (
.py
): Un script Python classique qui vous permet d'exécuter les exemples de code directement et de voir les résultats immédiatement.
Je vous encourage à télécharger ces fichiers, à les exécuter et à explorer les exemples fournis pour renforcer votre compréhension des techniques d'optimisation abordées pendant le cours. N'hésitez pas à poser des questions ou à demander des éclaircissements.
Bonne exploration et apprentissage !
- Notebook Jupyter (
-
Bonjour à toutes et à tous,
Je tiens à vous informer que plusieurs étudiants ont rencontré des difficultés techniques lors de la soumission du devoir sur Moodle. Si vous avez soumis votre devoir en retard en raison de ces problèmes, le retard ne pénalisera pas votre note finale.
Merci à ceux qui ont envoyé un courriel pour prévenir du problème de soumission.
-
-
Bonjour à tous,
Le devoir 1 est désormais disponible sur Moodle. Vous trouverez dans le document toutes les consignes ainsi que les exercices à résoudre.
Date limite de soumission : Lundi 24 Février à 03h00
Modalités de soumission :
- Vous pouvez soumettre vos réponses sous forme de document pdf contenant toutes les réponses y compris le code source. Vous pouvez aussi soumettre vos documents sous forme de document manuscrit (scanné).
- Certaines questions nécessitent des visualisations et du code source. Pour ces questions, merci d’inclure les graphiques et les scripts correspondants dans votre soumission.
Thèmes abordés dans le devoir :
- Estimation par la méthode du maximum de vraisemblance (MLE)
- Dérivées Partielles
- Propriétés des estimateurs (biais, variance, consistance)
- Tests statistiques et intervalles de confiance
- Visualisation des lois des grands nombres et du théorème central limite
Je vous encourage à utiliser les notes de cours et les exercices comme support. Un forum de discussion est ouvert sur Moodle si vous avez des questions ou besoin de clarifications.
Bon travail à toutes et à tous.
-
Annonce : Correction de la série d’exercices en classe
Bonjour à toutes et à tous,
Lors de la prochaine séance, nous corrigerons ensemble la série d’exercices MTH8302 - Exercices 1. Cette série a pour objectif de vous préparer au Devoir 1, tout en introduisant des concepts que nous verrons en régression linéaire.
Nous aborderons notamment :
- L’estimation par maximum de vraisemblance (MLE) pour les lois exponentielle et binomiale,
- Le test t en régression linéaire,
- La loi des grands nombres et le théorème central limite, avec des visualisations.
Je vous encourage vivement à tenter de résoudre ces exercices, ou au moins à les parcourir et à y réfléchir avant la séance, afin de profiter pleinement de la correction et de poser vos questions sur les points qui vous semblent moins clairs.
N’oubliez pas d’apporter vos notes, vos calculs et, si possible, votre ordinateur pour les exercices nécessitant des visualisations ou des calculs numériques en Python.
À bientôt en classe !
-
Bonjour à toutes et à tous,
Voici les documents et références utilisés pour la Leçon 0, qui couvre les fondements mathématiques et statistiques nécessaires pour la suite du cours. Ces ressources vous aideront à consolider votre compréhension de l’algèbre linéaire, des probabilités, des statistiques et des concepts en deep learning.
Algèbre Linéaire et Optimisation
- Linear Algebra Review
Ce document est tiré du cours introductif au Machine Learning de Roger Grosse à l'Université de Toronto en 2021. - CS229 - Linear Algebra Notes
Notes sur l'algèbre linéaire et l'optimisation du cours CS229 à Stanford.
Disponible sur le site officiel : CS 229 Stanford
Rappels en Probabilités et Statistiques
- Rappel en Probabilités
- Rappel en Statistiques
- Rappel des Tests Statistiques
Ces documents sont issus du site Wikistat.fr, une référence utilisée dans la version précédente du cours.
Calcul Numérique et Optimisation en Deep Learning
- Deep Learning Book - Chapter 4
Le chapitre 4 du livre "Deep Learning" couvre le calcul numérique et l'optimisation.
Disponible en ligne : Deep Learning Book
Probabilités et Optimisation
- Deep Learning Foundations and Concepts
Ce nouveau livre couvre les bases des probabilités et de l'optimisation en deep learning.
Accès libre : Bishop Book
Solutions des exercices (chapitres 2-10) : Solutions Officielles
Je vous encourage à consulter ces ressources pour approfondir votre compréhension des concepts abordés en cours.
À bientôt en classe.
- Linear Algebra Review
-
Bonjour à toutes et à tous,
Comme discuté au début de la séance précédente, la dérivée de la forme quadratique doit être de la forme et non .
De plus, les propositions de la question 6 du problème 1 ont été rectifiées afin de correspondre aux dérivées secondes potentielles de la fonction étudiée.
Vous trouverez ici Devoir 1 avec ces rectifications. Veuillez télécharger la nouvelle version et en prendre compte dans votre travail.
N’hésitez pas à poser vos questions si nécessaire.
-
Bonjour à toutes et à tous,
Je mets à votre disposition des clarifications concernant les quatre premières questions du Problème 1 de la Série d'Exercices 1, ainsi que les détails relatifs au calcul des Hessiennes à partir des gradients des fonctions étudiées.
Ces explications incluent l’utilisation du produit extérieur, qui permet d’obtenir une représentation matricielle à partir d’une représentation vectorielle.
Par ailleurs, la solution de la question 2 du Problème 1 a été rectifiée en conséquence. La bonne solution à la Hessienne est :
Veuillez consulter le document mis à votre disposition ici et qui contient ces clarifications.
N’hésitez pas à poser vos questions si nécessaire.
Bonne étude
-
Bonjour à toutes et à tous,
Vous trouverez ici le notebook Jupyter ainsi que le script Python associés aux figures générées pour la partie du rappel mathématique portant sur :
- Les distributions de probabilités
- Les tests d'hypothèse
- Le calcul des intervalles de confiance
Ces ressources vous aideront à mieux répondre à certaines questions du devoir 1, notamment celles nécessitant la visualisation et la génération de code.
Bonne étude et bon travail à tous.
-
Bonjour à toutes et à tous,
Vous trouverez ici le notebook Jupyter ainsi que le script Python associés aux notions suivantes :
- Covariance
- Gaussienne Multivariée
- Loi des Grands Nombres
- Théorème Central Limite
Ces ressources vous permettront d'explorer ces concepts en profondeur et de mieux comprendre leur application, en particulier dans le cadre des exercices et du devoir 1.
Bonne étude et bon travail à tous.
-
-
Le fichier StudentGrades.csv est un jeu de données synthétique conçu pour vous permettre de manipuler un modèle de régression linéaire simple. Ce fichier contient deux variables :
- Heures étudiées : Nombre d'heures passées à étudier.
- Note obtenue : Score obtenu à un devoir en fonction du temps d'étude.
-
Le fichier Esperance_vie_pib.csv est un jeu de données conçu pour vous permettre de manipuler un modèle de régression linéaire simple. Ce fichier contient deux variables :
- PIB par habitant pour chaque pays.
- Espérance de vie en année pour chaque pays.
-
-
Le dataset Boston Housing contient des informations sur le marché immobilier de Boston, avec 506 observations représentant des quartiers de la ville. Chaque observation inclut 13 variables explicatives, telles que le nombre moyen de pièces par logement (RM), le taux de criminalité (CRIM), ou encore le pourcentage de la population à faible statut socio-économique (LSTAT). L'objectif est de prédire la valeur médiane des logements (MEDV, en milliers de dollars) à partir de ces caractéristiques.
-
Bonjour à toutes et à tous,
L'énoncé du Devoir 2 : Régression Linéaire et Analyse des Résidus est désormais disponible sur Moodle. Vous trouverez également le dataset Wage.csv, nécessaire pour compléter les exercices.
Objectif du Devoir :
Ce devoir vous permettra de vous familiariser avec les concepts fondamentaux de la régression linéaire, des tests d'hypothèses et de l'analyse des résidus. Vous serez amenés à :
- Implémenter un modèle de régression linéaire simple et un modèle de régression linéaire multiple.
- Réaliser un test t de significativité pour la régression linéaire simple et une analyse de la variance (ANOVA) pour le modèle multiple.
- Analyser les résidus afin d’évaluer la qualité des modèles.
- Comparer vos résultats avec ceux obtenus via statsmodels et scikit-learn.
- Explorer et manipuler des données avec Pandas et NumPy.
Du code partiellement complété vous est fourni. Vous devrez remplir certaines parties et répondre à des questions d’interprétation et d'analyse.Si vous aurez besoin d’aide ?
N’hésitez pas à me poser vos questions en personne ou sur le forum du cours. Vous pouvez toujours me contacter en cas de besoin.Commencez le devoir dès que possible afin d’avoir le temps de poser vos questions et de le compléter sereinement.
Bon travail à toutes et à tous !
-
Bonjour à toutes et à tous,
J’ai mis en ligne un document de clarifications concernant :
- L’estimation par maximum de vraisemblance dans le cas de la régression linéaire multiple.
- Le calcul des intervalles de confiance et de prédiction (dans le cas de la régression linéaire multiple).
Vous pouvez y retrouver :
- Une explication détaillée de l’estimateur du maximum de vraisemblance en régression linéaire multiple.
- La formulation mathématique des intervalles de confiance et de prédiction.
- Des exemples illustrant leur interprétation et leur utilisation.
Bonne lecture et bonne étude ! -
Bonjour à toutes et à tous,
J’ai mis en ligne la version finale du document de la Leçon 2 : Régression Linéaire Multiple.
Le contenu reste le même que celui des précédents transparents, avec des ajustements et mises au point pour une meilleure lisibilité et un affichage optimal des slides.Bonne lecture et bonne étude !
-
Bonjour à toutes et à tous,
L'énoncé du Devoir 3 : "Méthodes de Régularisation" est désormais disponible sur Moodle. Vous avez 2 semaines pour le compléter et le soumettre.
Vous trouverez :
- L’énoncé du devoir (format PDF) avec le code Python à compléter.
- Le jeu de données `Hitters`, disponible dans la librairie ISLP.
Ce devoir vise à approfondir votre compréhension des méthodes de régularisation en régression linéaire. Vous serez amenés à :
- Comprendre les formulations probabilistes des régularisations.
- Établir les liens entre la régularisation et l'estimation Bayésienne (MAP).
- Implémenter les méthodes Ridge, Lasso et Elastic Net par vous mêmes.
- Étudier l’impact des hyperparamètres sur la performance du modèle et la sélection des variables.
- Interpréter l’évolution des erreurs de prédiction et de la parcimonie des modèles.
Modalités de remise : Un seul fichier PDF contenant toutes vos réponses y compris le code Python complété, les résultats affichés (graphiques, tableaux et autres) ainsi que vos analyses, vos réponses et justifications aux QCM.
Instructions importantes :
- Prenez le temps de lire l’ensemble du devoir avant de commencer. Cela vous permettra de mieux comprendre la logique des exercices et d’anticiper les connexions entre les questions.
- Répondez aux questions avec des explications rigoureuses et, lorsque nécessaire, des arguments mathématiques.
- Remarque sur les QCM :
- Lorsqu’il est demandé de fournir vos réponses, cela signifie qu’il peut y avoir plus d’une bonne réponse.
- Lorsqu’il est demandé votre réponse, une seule est attendue.
Si vous aurez besoin d’aide?
N’hésitez pas à me poser vos questions pendant les séances du cours, par courriel, ou sur le forum du cours. Je suis disponible pour vous accompagner si vous rencontrez des difficultés.Commencez le devoir dès que possible pour avoir le temps de poser vos questions et le compléter sereinement.
Bon travail à toutes et à tous et surtout, soyez curieux !
-
-
Bonjour à toutes et à tous,
Le jeu de données Carseats est mis à votre disposition sur Moodle. Vous pouvez le télécharger dès maintenant.
Description du dataset :
Le jeu de données Carseats contient des informations sur les ventes de sièges auto pour enfants dans différents magasins. Chaque ligne représente un magasin, avec des variables telles que :-
Sales
: Nombre de ventes (notre variable cible) -
Price
,Advertising
,Income
,Age
,Education
, et autres. -
ShelveLoc
,Urban
,US
: Variables catégorielles décrivant le contexte commercial
Remarque importante :
Nous utiliserons ce jeu de données dans l'exercice sur la régression de Poisson, dans lequel vous devrez implémenter la log-vraisemblance, le gradient, et la descente de gradient. Assurez-vous donc de bien le télécharger et de le conserver dans votre environnement Colab ou local.Bon travail!
-