Un webcrawler basé sur Scrapy pour extraire les arrêtés de péril du site de la ville de Marseille

Go to file

p 210282109b Table des matières & intro		4 years ago
crawler	rename	4 years ago
doc/img	doc : ajout carte jpg	4 years ago
.gitignore	suprression fichiers locaux uploadés par erreur	4 years ago
LICENSE	Initial commit	4 years ago
README.md	Table des matières & intro	4 years ago

README.md

Sommaire

Introduction
Installation
1. Linux/Unix/MacOS
2. Windows
Usage

Un webcrawler pour extraire les arrêtés de péril du site de Marseille

Les données sont inscrites manuellement sur le site de la mairie, et présentent de nombreux problèmes de structure et de nomemclature qui empêchent d'extraire proprement chaque arrêté.

On a donc recours à plusieurs regex successifs pour séparer les adresses et obtenir une table structurée. Certaines adresses sont perdues en chemin (environ une cinquantaine) mais l'essentiel est extrait.

Les données sont ensuite classées par type (périls & périls imminents, main-levées, interdictions d'occupation, etc.).

Il est ensuite possible d'en éditer une carte, sur Qgis par exemple, en retrouvant chaque adresse par geocoding.

Installation

Linux/Unix/MacOs

Dépendances

Python >=3.5

Environnement virtuel et modules python

Environnement virtuel

Mise en place d'un environnement virtuel pour scrapy dans lequel seront installées les dépendances :

    python -m venv scrapy-env
    source scrapy-env/bin/activate

Modules

    python -m pip install --upgrade pip
    python -m pip install regex
    python -m pip install scrapy

Windows

Dépendances

Python >= 3.5
Microsoft Visual C++ Build-tools

Ces modules doivent être installés :
Librairie libxml2 (documentation en haut de page)

Environnement virtuel et modules python

Environnement virtuel

Mise en place d'un environnement virtuel pour scrapy dans lequel seront installées les dépendances :

    python -m venv scrapy-env
    scrapy-env\Scripts\activate.bat

Modules

    python -m pip install --upgrade pip
    python -m pip install regex
    python -m pip install scrapy

Usage

On exporte l'output du crawler dans un fichier csv.

D'autres formats sont disponibles (json, xml, etc.) plus d'informations sur la documentation de scrapy

    cd src
    scrapy crawl perils -O perils.csv