Semaine 10

Semaine 10

par Nicolas Saunier,
Nombre de réponses : 3

Bonsoir,

c'est déjà la dixième semaine de cours et nous allons parler de visualisation de données. J'ai cherché une vidéo d'introduction au sujet, incluant des citations d'Edouard Tufte dont nous parlerons la semaine prochaine. La vidéo est courte (~7 min, en anglais sur YouTube, mais vous pouvez mettre les sous-titres et avoir une traduction décente en français). L'exercice de cette semaine consiste à trouver et discuter une visualisation de données liées au transport. Votre texte devra rester bref et l'exercice doit être fait avant lundi 9 novembre à 18h. 

Salutations,

Nicolas

En réponse à Nicolas Saunier

Re: Semaine 10

par Étienne Beauchamp,
Le rapport du TP5 est à rendre le 23 novembre. Les critères et la pondération peuvent être consultés ici :

https://docs.google.com/spreadsheets/d/1fmOD7yzI4hkiusPkeMjkIh8PrSe24OpcRCGVpreKkmg/edit?usp=sharing

J'essayerai de vous remettre la correction des rapports du TP4 d'ici lundi.

Comme toujours, n'hésitez pas à me contacter si vous avez des questions sur le TP.

Bon après-midi !

Étienne
En réponse à Étienne Beauchamp

Re: Semaine 10

par Nicolas Saunier,

Bonjour,

un de vous nous a contacté à propos de la difficulté de développer un modèle avec plusieurs variables significatives pour le nombre d'accidents par année et secteur municipal. C'est possible que les variables soient peut corrélées et expliquent peut la variation du nombre d'accidents. Dans votre rapport, vous expliquerez les corrélations observées entre variables indépendantes, et entre la variable dépendante et les variables indépendantes. Autres suggestions:

  • Vous pouvez aussi tester si un modèle pour les données réduites en sommant le nombre d'accidents sur la période est meilleur (les autres variables explicatives ne changent pas selon les années). 
  • Vous devez faire attention à des données aberrantes en visualisant les nombres d'accidents par année et secteur.
  • En faisant quelques tests avec le fichier de la personne qui nous a contacté, il semble que la distribution des nombres d'accidents est très asymétrique: pour y remédier, vous pouvez transformer la variable à prédire, par exemple en prenant le logarithme.

Dans tous les cas, justifiez votre approche et décrivez vos résultats, même s'ils sont "décevants".

Nicolas

En réponse à Nicolas Saunier

Re: Semaine 10

par Nicolas Saunier,

Un sous-ensemble de 10% données des collisions routières est disponible sur Moodle (tirage aléatoire). Attention, les conclusions tirées à partir de ce fichier pourraient être (assez) différentes des analyses du fichier complet. Vous pouvez l'utiliser pour tester vos analyses, ou si vous avez des problèmes de temps de calcul pour certaines analyses.

https://moodle.polymtl.ca/mod/resource/view.php?id=404442

Nicolas