Le continent fictif d’Hyperborée possède des données sur ses
logements. Vous devez appliquer les différentes notions vues en cours
pour analyser les données. Vous êtes guidés pour chaque partie. Prenez
soin de la rédaction et répondez précisément aux questions avec du code
et une réponse en langage naturel. Le barème n’est pas définitif. Durée
1h30. Le fichier complété est à soumettre sur Moodle : https://ecampus.paris-saclay.fr/course/view.php?id=38925#section-0.
Assurez-vous que le code s’exécute correctement et que le rendu HTML est
cohérent. N’oubliez pas de charger les extensions dans votre
environnement (par exemple, l’extension tree
pour les
arbres de décision).
Exécutez cette commande avant de travailler (fixer un seed permet la reproductibilité des résultats).
set.seed(42)
prix
: prix d’un logement
metreCarre
: la taille d’un logement en mètres
carrés
nombreDeChambres
: le nombre de chambres d’un
logement
nombrePrecedentProprio
: le nombre de propriétaires
précédents
annee
: l’année de construction d’un logement
sousSol
: la taille du sous-sol en mètres carrés
grenier
: la taille du grenier en mètres carrés
garage
: la taille du garage en mètres carrés
possedeCour
: le logement possède une cour (= 1) ou non
(= 0)
possedePiscine
: le logement possède une piscine (= 1)
ou non (= 0)
possedeProtectionTempête
: le logement possède une
protection tempête (= 1) ou non (= 0)
possedeStockage
: le logement possède un lieu de
stockage (= 1) ou non (= 0)
estNouveau
: le logement est nouveau ou a été renové
récemment (= 1) ou non (= 0)
richesseQuartier
: la richesse du quartier du logement
(de 0 à 10 avec 0 = très bas et 10 = très haut)
Importez le jeu de données “logements.csv”.
Donnez le nombre de logements et le nombre de variables.
Donnez le nombre de valeurs manquantes pour la variable
prix
. Donnez les index des valeurs manquantes. Supprimez
les logements ayant des valeurs manquantes.
Transformez les variables qualitatives en facteur (factor).
Pour la variable richesseQuartier
, transformez les 3
premieres modalites en “BASSE”, les 4 suivantes en “MOYENNE” et les 3
dernieres en “HAUTE”. Combien y a-t-il de logements dans un quartier
avec richesse “HAUTE” ?
Visualisez la distribution des mètres carrés. Qu’est-ce que vous observez ? Combien y a-t-il de valeurs aberrantes ? Supprimez les valeurs aberrantes du jeu de données.
Visualisez l’histogramme des mètres carrés des greniers. Les barres doivent être rouges. Donnez un titre et nommez l’axe des abscisses.
Visualisez la dispersion du prix selon qu’un logement possède une protection tempête ou non.
Y a-t-il des logements gratuits ?
Quand le premier logement fut-il construit ?
Donnez la moyenne des mètres carrés des logements ayant une cour, une piscine et un prix strictement inférieur à 50000.
Donnez L’écart-type du prix des logements construits en 413 ou situés dans un quartier avec comme richesse “BASSE” ou “HAUTE”.
Donnez la distribution des richesses des quartiers avec des logements ayant un sous-sol possèdant strictement moins de 7896 mètres carrés et un grenier avec plus de 100 mètres carrés (inclus).
Donnez le nombre de logements ayant le nombre maximum de chambres sur le continent.
Donnez le nombre de logements soit nouveaux/renovés soit ayant des mètres carrés strictement supérieurs à la moyenne des mètres carrés du continent.
On cherche à prédire le prix des logements.
Quelle est la variable continue qui a la plus grande corrélation
de Pearson avec prix
?
Transformez la variable prix
en facteur
(prixFacteur
) ayant deux modalités “BAS” et “HAUT”. Si le
prix est strictement inférieur au prix médian, alors le prix est “BAS”,
sinon il est “HAUT”.
Pourquoi faut-il diviser le jeu de données en deux (donnés d’entraînement et d’évaluation) pour l’entraînement de modèles prédictifs ?
Divisez le jeu de données en deux : les données d’entrainements sont les logements construits avant 415 (non inclus). Les données d’évaluation sont les logements restants (après l’année 415 inclus).
Combien y a-t-il de données d’entrainements ?
A quoi sert la fonction de vraisemblance pour la régression linéaire ?
Entraînez un modèle de régression linéaire pour prédire la
variable prix
à partir de la variable
metreCarre
sur les données d’entraînement.
Prédisez les données d’évaluation. Donnez l’erreur des moindres
carrés (MSE : Mean Squared Error
) sur les données
d’entrainement et sur les données d’évaluation. Quelle erreur est la
plus petite ? Est-ce cohérent ? Justifiez votre réponse.
Prédisez les prix des logements ayant comme mètres carrés respectifs 1000, 50 000 et 100 000.
Entraînez un modèle de régression linéaire pour prédire la
variable prix
à partir des variables
metreCarre
, richesseQuartier
,
possedePiscine
, possedeProtectionTempête
et
estNouveau
sur les données d’entraînement. Quelles sont les
variables significatives ? Interprétez l’influence des variables
significatives sur la prédiction du prix.
Est-ce que la prise en compte de plusieurs variables a permis d’augmenter la précision de notre modèle ?
Donnez les hypothèses du modèle de régression linéaire. Donnez une manière de vérifier une des hypothèses avec R.
Est-il possible d’entraîner une régression logistique à partir d’une transformation non-linéaire d’une variable explicative ?
Entraînez un modèle de régression logistique pour prédire la
variable prix
à partir des variables
metreCarre
, richesseQuartier
,
possedePiscine
, possedeProtectionTempête
et
estNouveau
sur les données d’entraînement. Quelles sont les
variables significatives ? Interprétez l’influence des variables
significatives sur la prédiction du prix.
Prédisez les données d’évaluation. Donnez la matrice de confusion sur les données d’évaluation et l’interpretez. Quelle est la précision du modèle ?
Construisez un arbre de régression pour prédire le
prix
à partir de toutes les variables explicatives sur les
données d’entrainement. On impose d’utiliser comme critère d’impureté la
deviance (et pas l’indice de gini !). Combien de
feuilles possède l’arbre construit ? Quel(s) sont/est les/la variable(s)
utilisée(s) par l’arbre ?
Affichez l’arbre construit et l’interpreter.
Elaguer l’arbre construit pour seulement avoir deux feuilles. Généralement, à quoi sert l’élagage ?
Pour notre problème, l’arbre de regression a-t-il une meilleure performance par rapport à la régression logistique ?
Quelle est la différence entre le bagging et la forêt aléatoire ?
Entraînez une forêt aléatoire sur les données d’entraînement avec 250 arbres et 6 variables choisies aléatoirement pour chaque séparation. Les performances ont-elles augmentées ? Y a-t-il des situations où les arbres sont plus intéressants que les forêts aléatoires ? Justifiez votre réponse.
Quels sont les deux moyens de quantifier à quel point une variable est importante pour la prédiction ? Justifiez votre réponse en analysant l’importance des variables avec ces deux indicateurs.