You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

34 lines
1.7 KiB

import scrapy
# import regex
# from scrapy.loader import ItemLoader
# from itemloaders.processors import TakeFirst, MapCompose
# from w3lib.html import remove_tags
# # Une fonction qui sépare les adresses en fonction des noms de rue
# def splitStreet(value):
# # Le regex qui évalue là où il faut séparer la chaîne de caractère
# # (présence de "et / - + ainsi que"
# # sans que ce séparateur ne soit placé près d'un groupe de numéros de la même rue)
# expr = r"((?<!(\d\sa)|(\d\sb)|(\d\sbis)|(\d\ster)|(\d)|(\da)|(\db)|(\dbis)|(\dter)|(\d\s)|(\da\s)|(\db\s)|(\dbis\s)|(\dter\s)|(\d\sa\s)|(\d\sb\s)|(\d\sbis\s)|(\d\ster\s))\/|((?<!(\d))\s\bet)|(ainsi\sque)|((?<!(\d))\s-\s(?!(bt)|(bis)|(ter)))|(?<!(\d\sa)|(\d\sb)|(\d\sbis)|(\d\ster)|(\d)|(\da)|(\db)|(\dbis)|(\dter)|(\d\s)|(\da\s)|(\db\s)|(\dbis\s)|(\dter\s)|(\d\sa\s)|(\d\sb\s)|(\d\sbis\s)|(\d\ster\s))\+)"
# # Remplacement de chaque séparateur par un pipe ("|")
# subst = "|"
# repl = regex.sub(expr, subst, value, 0, regex.MULTILINE | regex.IGNORECASE)
# # Formattage (supression des espaces insécables et des ":")
# filtered = regex.sub('\\xa0|:', '', repl, 0, regex.MULTILINE | regex.IGNORECASE)
# # Séparation en liste
# splitted = regex.split('\|', filtered, regex.MULTILINE | regex.IGNORECASE)
# # Suppression des espaces en début et fin de chaîne
# stripped = [x.strip() for x in splitted]
# # Suppression des "None" de la liste (failsafe, ne devrait pas être nécessaire)
# result = list(filter(None, stripped))
# return result
class PerilsItem(scrapy.Item):
adrs = scrapy.Field()
dernierA = scrapy.Field()
As = scrapy.Field()
raw = scrapy.Field()
pass