Scrappy est écrit en Python 100% et peut être utilisé pour l'extraction de données simple, à la page surveillance, les moteurs de recherche Web et même pour un test de code.
Scrapy est pas un moteur de recherche dans le vrai sens du mot, mais il agit comme un (sans la partie de l'indexation). Néanmoins Scrapy peut être un excellent outil pour construire la logique de votre moteur de recherche sur.
La vraie puissance de ce cadre repose sur la polyvalence de son noyau, Scrapy étant un système sur lequel bâtir araignées de recherche génériques ou dédiés (crawlers) sur.
Même si cela peut sembler très compliqué pour les utilisateurs non-techniques, avec un rapide coup d'oeil sur la documentation et des tutoriels disponibles, il est assez simple de voir comment Scrapy a réussi à prendre tout le travail acharné de ce et de réduire l'ensemble du processus de simplement quelques lignes de code (pour plus facile, plus petites crawlers)
Quoi de neuf dans cette version:.
- chemin de requête Fin de citation avant de passer à ClientFTP, il échappe déjà chemins.
- Inclure essais / de la distribution source dans MANIFEST.in.
Quoi de neuf dans la version 1.0.1:
- chemin de la requête Unquote avant de passer à ClientFTP, déjà échapper chemins.
- Inclure essais / de la distribution source dans MANIFEST.in.
Ce qui est nouveau dans la version 0.24.6:
- Ajouter UTF8 tête de codage à des modèles
- console Telnet lie désormais à 127.0.0.1 par défaut
- Mise à jour de Debian / Ubuntu instructions d'installation
- Désactiver cordes intelligents dans les évaluations lxml XPath
- Restaurer système de fichiers cache base par défaut pour le cache HTTP middleware
- Exposer robot courant dans Scrapy shell
- Améliorer la suite de tests comparant CSV et exportateurs XML
- New hors site / filtrée et hors site / domaines statistiques
- process_links de soutien comme générateur CrawlSpider
Ce qui est nouveau dans la version 0.24.5:
- Ajouter UTF8 tête de codage à des modèles
- console Telnet lie désormais à 127.0.0.1 par défaut
- Mise à jour de Debian / Ubuntu instructions d'installation
- Désactiver cordes intelligents dans les évaluations lxml XPath
- Restaurer système de fichiers cache base par défaut pour le cache HTTP middleware
- Exposer robot courant dans Scrapy shell
- Améliorer la suite de tests comparant CSV et exportateurs XML
- New hors site / filtrée et hors site / domaines statistiques
- process_links de soutien comme générateur CrawlSpider
Quoi de neuf dans la version 0.22.0:
- Renommer scrapy.spider.BaseSpider à scrapy.spider .Spider
- Promouvoir informations sur les paramètres de démarrage et middleware à niveau INFO
- partiels de soutien dans get_func_args util
- Autoriser l'exécution des tests indiviual via tox
- Mettre à jour les extensions ignorées par lien extracteurs
- sélecteurs inscrivez espaces de noms EXSLT par défaut
- Unifier objet chargeurs similaires à sélecteurs renommer
- Assurez-classe RFPDupeFilter facilement dérivables
- Améliorer la couverture de test et venir Python 3 support
Quoi de neuf dans la version 0.20.1:
- include_package_data est nécessaire pour construire roues provenant de sources publiées.
Quoi de neuf dans la version 0.18.4:.
- AlreadyCalledError fixe remplaçant une demande en commande shell
- Correction de la paresse et au début start_requests se bloque.
Quoi de neuf dans la version 0.18.1:.
- l'importation supplémentaire Suppression ajoutée par la cerise ramassé changements
- Correction d'essais ramper sous torsadée pré 11.0.0.
- py26 ne peut pas formater zéro champs de longueur {}.
- erreurs test PotentiaDataLoss sur les réponses non liés.
- Offrez-réponses sans Content-Length ou Transfer-Encoding comme bonnes réponses.
- Ne pas comprennent ResponseFailed si http11 gestionnaire est pas activé.
Exigences :
- Python 2.7 ou supérieur
- Twisted 2.5.0 ou ultérieure
- libxml2 2.6.28 ou supérieur
- pyOpenSSL
Commentaires non trouvées