You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
34 lines
1.7 KiB
34 lines
1.7 KiB
import scrapy
|
|
# import regex
|
|
# from scrapy.loader import ItemLoader
|
|
# from itemloaders.processors import TakeFirst, MapCompose
|
|
# from w3lib.html import remove_tags
|
|
|
|
# # Une fonction qui sépare les adresses en fonction des noms de rue
|
|
# def splitStreet(value):
|
|
# # Le regex qui évalue là où il faut séparer la chaîne de caractère
|
|
# # (présence de "et / - + ainsi que"
|
|
# # sans que ce séparateur ne soit placé près d'un groupe de numéros de la même rue)
|
|
# expr = r"((?<!(\d\sa)|(\d\sb)|(\d\sbis)|(\d\ster)|(\d)|(\da)|(\db)|(\dbis)|(\dter)|(\d\s)|(\da\s)|(\db\s)|(\dbis\s)|(\dter\s)|(\d\sa\s)|(\d\sb\s)|(\d\sbis\s)|(\d\ster\s))\/|((?<!(\d))\s\bet)|(ainsi\sque)|((?<!(\d))\s-\s(?!(bt)|(bis)|(ter)))|(?<!(\d\sa)|(\d\sb)|(\d\sbis)|(\d\ster)|(\d)|(\da)|(\db)|(\dbis)|(\dter)|(\d\s)|(\da\s)|(\db\s)|(\dbis\s)|(\dter\s)|(\d\sa\s)|(\d\sb\s)|(\d\sbis\s)|(\d\ster\s))\+)"
|
|
# # Remplacement de chaque séparateur par un pipe ("|")
|
|
# subst = "|"
|
|
# repl = regex.sub(expr, subst, value, 0, regex.MULTILINE | regex.IGNORECASE)
|
|
# # Formattage (supression des espaces insécables et des ":")
|
|
# filtered = regex.sub('\\xa0|:', '', repl, 0, regex.MULTILINE | regex.IGNORECASE)
|
|
# # Séparation en liste
|
|
# splitted = regex.split('\|', filtered, regex.MULTILINE | regex.IGNORECASE)
|
|
# # Suppression des espaces en début et fin de chaîne
|
|
# stripped = [x.strip() for x in splitted]
|
|
# # Suppression des "None" de la liste (failsafe, ne devrait pas être nécessaire)
|
|
# result = list(filter(None, stripped))
|
|
# return result
|
|
|
|
|
|
|
|
class PerilsItem(scrapy.Item):
|
|
adrs = scrapy.Field()
|
|
dernierA = scrapy.Field()
|
|
As = scrapy.Field()
|
|
raw = scrapy.Field()
|
|
pass
|