Découvrir Kinshasa avec Tidyverse
Introduction
Kinshasa est la capitale et la plus grande ville de la république démocratique du Congo (RDC) ainsi que d'Afrique ; elle s’étend sur 9965 km2. Avec une population estimée à plus de 15 millions d'habitants dans sa zone métropolitaine, elle est la troisième agglomération d'Afrique derrière Le Caire et Lagos, et constitue la plus grande agglomération francophone du monde, en ayant dépassé celle de Paris dans les années 20102, et figure parmi les agglomérations les plus peuplées au monde.
Tidyverse est une collection de packages R conçus pour la science des données. Tous ses packages partagent une philosophie de conception, une grammaire et des structures de données sous-jacentes.
Dans cet article, nous allons découvrir Kinshasa, en utilisant les différentes fonctions issues des packages faisant partie du tidyverse
. Il s'agira par exemple du package dplyr
pour la manipulation de données ou ggplot2
pour la visualisation.
Données
Il s'agit d'une base de données des quartiers de la ville de Kinshasa. Elle comprend des informations sur tous les quartiers de Kinshasa, leur communes, districts et populations. Chaque ligne est correspond à un quartier.
C'est une base qui est utilisée pour le tirage des unités administratives lors des opérations de collecte de données.
Explorer
La base est constituée de 353 observations (quartiers) et 4 variables suivantes :
- district : Le nom du district;
- Commune : Le nom de la commune;
- Quartier : Le nom du quartier;
- Population : La population du quartier en 2015.
NB : Suite aux morcellements des quartiers, le nombre de quartiers présenté ici peut être différent de la réalité. Aussi, les chiffres de la population ne sont pas non plus exactes suite au manque des recensements réguliers.
Avant de continuer, actualisons la population des quartiers pour 2022. Dans la base de données, elle est celle de 2015. Nous allons utiliser le taux de croissance naturelle de 3.1% pour ce faire. Par la même occasion, nous mettons en majuscule le contenu de la variable district.
Nombre de communes par district