Table des matières & intro

4 years ago · 210282109b
parent d7e5eeff9f
commit 210282109b
1 changed files with 51 additions and 6 deletions
--- a/README.md
+++ b/README.md
@ -1,5 +1,46 @@
-# Windows
-## Dépendances
+# Sommaire
+1. [Introduction](#intro)
+2. [Installation](#install)
+    1. [Linux/Unix/MacOS](#unix)
+    2. [Windows](#win)
+3. [Usage](#usage)
+
+# Un webcrawler pour extraire les arrêtés de péril du site de Marseille <a name="intro"></a>
+
+Les données sont inscrites manuellement sur le site de la mairie, et présentent de nombreux problèmes de structure et de nomemclature qui empêchent d'extraire proprement chaque arrêté.
+
+On a donc recours à plusieurs regex successifs pour séparer les adresses et obtenir une table structurée. Certaines adresses sont perdues en chemin (environ une cinquantaine) mais l'essentiel est extrait.
+
+Les données sont ensuite classées par type (périls & périls imminents, main-levées, interdictions d'occupation, etc.).
+
+Il est ensuite possible d'en éditer une carte, sur Qgis par exemple, en retrouvant chaque adresse par geocoding.
+
+<a href="./doc/img/map.jpeg"><img src="./doc/img/map.jpeg" width="1024" alt="Carte des périls de Marseille-Centre"></a><br><br>
+
+
+# Installation <a name="install"></a>
+## Linux/Unix/MacOs <a name="unix"></a>
+### Dépendances 
+
+- Python >=3.5
+
+### Environnement virtuel et modules python
+#### Environnement virtuel
+
+Mise en place d'un environnement virtuel pour scrapy dans lequel seront installées les dépendances :
+
+        python -m venv scrapy-env
+        source scrapy-env/bin/activate
+
+
+#### Modules
+        python -m pip install --upgrade pip
+        python -m pip install regex
+        python -m pip install scrapy
+
+
+## Windows <a name="win"></a>
+### Dépendances
 - [Python >= 3.5](https://www.python.org/downloads/windows/)
 - [Microsoft Visual C++ Build-tools](https://visualstudio.microsoft.com/visual-cpp-build-tools/)

@ -10,8 +51,8 @@
 - [Librairie libxml2](https://www.lfd.uci.edu/~gohlke/pythonlibs/#libxml-python) (documentation en haut de page)


-## Environnement virtuel et modules python
-### Environnement virtuel
+### Environnement virtuel et modules python
+#### Environnement virtuel

 Mise en place d'un environnement virtuel pour scrapy dans lequel seront installées les dépendances :

@ -19,11 +60,15 @@ Mise en place d'un environnement virtuel pour scrapy dans lequel seront install
        scrapy-env\Scripts\activate.bat


-### Modules
+#### Modules
        python -m pip install --upgrade pip
        python -m pip install regex
        python -m pip install scrapy

-## Lancement de scrapy
+# Usage <a name="usage"></a>
+On exporte l'output du crawler dans un fichier csv. 
+
+D'autres formats sont disponibles (json, xml, etc.) plus d'informations sur la [documentation de scrapy](https://docs.scrapy.org/en/latest/topics/feed-exports.html)
+
        cd src
        scrapy crawl perils -O perils.csv