TP3

TP3

par Nicolas Saunier,
Nombre de réponses : 0

Bonjour,

un problème est apparu pour la question 2.3 de segmentation des patrons journaliers des temps de parcours. Pour certains jour-heures, il n'y a aucune observation. C'est un problème pour la representativité des données, mais aussi un problème pratique si vous utilisez Tanagra qui ne sait pas traiter par défaut des observations avec des données manquantes.

Si vous avez peu de jour-heures avec des données manquantes, il n'est peut être pas nécessaire de faire un traitement particulier (ces observations seront exclues de l'analyse des k-moyennes). Sinon, je vous suggère de faire de l'imputation de données, en mettant à la place des données manquantes la moyenne (ou autre statistique cohérente) des observations sur le reste des données.

Une autre difficulté pour utiliser Tanagra est comme on l'a vu en cours le format des chiffres décimaux (point ou virgule). Il semblerait que certains ordinateurs des laboratoires de Polytechnique utilisent le point même si la langue est le français. Dans ce cas, utilisez le bon fichier de données. Je vais ajouter dans l'exemple de cours deux version du fichier autos.tdm fonctionnant en point et virgule. Vous pouvez aussi ouvrir le fichier tdm (fichier texte) avec notepad++ et modifier le champ Database dans le fichier utilisé:

[Diagram] 
Title=Default title
Database=autos-virg.txt

Bonne fin de semaine,

Nicolas