diff --git a/README.md b/README.md index 6638af9..10f8584 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,46 @@ -# Windows -## Dépendances +# Sommaire +1. [Introduction](#intro) +2. [Installation](#install) + 1. [Linux/Unix/MacOS](#unix) + 2. [Windows](#win) +3. [Usage](#usage) + +# Un webcrawler pour extraire les arrêtés de péril du site de Marseille + +Les données sont inscrites manuellement sur le site de la mairie, et présentent de nombreux problèmes de structure et de nomemclature qui empêchent d'extraire proprement chaque arrêté. + +On a donc recours à plusieurs regex successifs pour séparer les adresses et obtenir une table structurée. Certaines adresses sont perdues en chemin (environ une cinquantaine) mais l'essentiel est extrait. + +Les données sont ensuite classées par type (périls & périls imminents, main-levées, interdictions d'occupation, etc.). + +Il est ensuite possible d'en éditer une carte, sur Qgis par exemple, en retrouvant chaque adresse par geocoding. + +Carte des périls de Marseille-Centre

+ + +# Installation +## Linux/Unix/MacOs +### Dépendances + +- Python >=3.5 + +### Environnement virtuel et modules python +#### Environnement virtuel + +Mise en place d'un environnement virtuel pour scrapy dans lequel seront installées les dépendances : + + python -m venv scrapy-env + source scrapy-env/bin/activate + + +#### Modules + python -m pip install --upgrade pip + python -m pip install regex + python -m pip install scrapy + + +## Windows +### Dépendances - [Python >= 3.5](https://www.python.org/downloads/windows/) - [Microsoft Visual C++ Build-tools](https://visualstudio.microsoft.com/visual-cpp-build-tools/) @@ -10,8 +51,8 @@ - [Librairie libxml2](https://www.lfd.uci.edu/~gohlke/pythonlibs/#libxml-python) (documentation en haut de page) -## Environnement virtuel et modules python -### Environnement virtuel +### Environnement virtuel et modules python +#### Environnement virtuel Mise en place d'un environnement virtuel pour scrapy dans lequel seront installées les dépendances : @@ -19,11 +60,15 @@ Mise en place d'un environnement virtuel pour scrapy dans lequel seront install scrapy-env\Scripts\activate.bat -### Modules +#### Modules python -m pip install --upgrade pip python -m pip install regex python -m pip install scrapy -## Lancement de scrapy +# Usage +On exporte l'output du crawler dans un fichier csv. + +D'autres formats sont disponibles (json, xml, etc.) plus d'informations sur la [documentation de scrapy](https://docs.scrapy.org/en/latest/topics/feed-exports.html) + cd src scrapy crawl perils -O perils.csv \ No newline at end of file