Apache Nutch

Logiciel capture d'écran:
Apache Nutch
Détails logiciels:
Version: 2.3 Mise à jour
Date de transfert: 17 Jul 15
Développeur: Sami Siren
Licence: Gratuit
Popularité: 12

Rating: 1.0/5 (Total Votes: 2)

Apache Nutch projet est une source ouverte et évolutive des logiciels web crawler, hautement extensible et libre basée sur le Web qui repose sur Apache Lucene (version Java) bibliothèque.
Il ajoute spécificités du Web, comme un robot, une base de données lien-graphe, analyseurs pour HTML et d'autres formats de documents, etc. Il est développé et distribué par la Fondation Apache, il deux branches distinctes.
Étant modulaire et enfichable, Apache Nutch a ses avantages, en fournissant des interfaces extensibles comme Parse, Index et ScoringFilter pour les implémentations personnalisées, telles que Apache Tika pour l'analyse.
En outre, Apache Nutch est conçu pour fonctionner sur une seule machine, mais il est plus puissant lors de l'exécution dans un cluster Hadoop. Existe indexation enfichable pour Elastic Recherche, Apache Solr, etc

Quoi de neuf dans cette version:.

  • Nutch-1779 Appliquer le formatage au code (lewismc)
  • Nutch-1907 sortie incorrecte de outlinks aux hôtes au sein HostDbUpdateReducer (lewismc)
  • Nutch-1,856 document webpage.avsc et host.avsc (lewismc)
  • Nutch-1834 GeneratorMapper comportement dépend du niveau de journal (Gerhard Gossen via snagel)
  • Nutch-1899 mise à niveau Restlet lib pour prévenir l'échec de la construction (de Talat)
  • Nutch-1797 remove paquet utilisé oanhtml (Saurabh Chhajed via snagel)
  • Nutch 1888 Spécifiez HTMLMapper à utiliser dans TikaParser (Halil Simsek via jnioche)
  • Nutch-1,897 facile débogage des erreurs plug-in XML (Markus)
  • Nutch-1823 mise à niveau vers ElasticSearch 1.4.1 (Phu Kieu, Markus, lewismc)
  • Nutch-1829 Générateur: incapable de distinguer les erreurs réelles (Mathieu Bouchard, jnioche, snagel)
  • Générateur Nutch-1778 ne se connectent pas nombre d'URL dans le lot correctement (jnioche via snagel)
  • Nutch-1,877 filtre suffixe d'URL à ignorer la chaîne de requête par défaut (Markus via snagel)
  • Nutch-1,825 protocole http peut accrocher à certaines pages Web (Phu Kieu via snagel)
  • Nutch 1483 ne peut pas analyser le système de fichiers avec le protocole fichier plugin (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • Nutch-1 885 Protocole fichier devrait traiter liens symboliques comme des redirections (Mengying Wang, snagel)
  • Nutch-1880 URLUtil ne devrait pas ajouter des barres obliques supplémentaires pour les URL de fichier (snagel)
  • Nutch-1879 Regex URL normalisateur devrait supprimer plusieurs barres obliques après protocole file: (snagel)
  • Nutch-1820 champ de supprimer & quot; orig & quot; qui duplique & quot; id & quot; (lewismc, snagel)
  • Mise à niveau Nutch-1843 à 0,5 Gora (Talat, lewismc, Kiril Menchikov, drazzib)
  • Nutch-1 883 bin / crawl: utilisez la fonction pour exécuter bin / nutch et vérifier la valeur de sortie (snagel)
  • Nutch-1882 cible éclipse fourmi pour ajouter le chemin de sortie de src / test (snagel)
  • Nutch-Port 1,827 Nutch-1467 et Nutch-1561 à 2.x (snagel)
  • Mise à niveau Nutch-1876 à chenilles Commons 0.5 (jnioche)
  • Nutch-cible de 1 866 éclipse fourmi ne doit pas supprimer l'exécution (nimafl via lewismc)
  • Nutch-1,859 Faire port webapp Nutch configurable (Nima Falaki via lewismc)
  • Bug Nutch-1848 en cas DashboardPage.html compteur (Nima Falaki via lewismc)
  • Nutch-841 Créer une application Web basée Wicket-pour Nutch (Fjodor Vershinin via lewismc)
  • Nutch-1,832 Faire travaux Nutch sans un indexeur (Mattmann via lewismc)
  • Nutch-1840, la fonction de décrire en SolrIndexWriter est pas correcte (kaveh minooie via jnioche)
  • Mise à niveau Nutch-1837 à 1,6 Tika (lewismc)
  • Nutch-1829 Générateur: incapable de distinguer de vrais erreurs (Mathieu Bouchard via jnioche)
  • Nutch-1828 bin / exploration: une mauvaise manipulation d'erreurs Nutch (Mathieu Bouchard via jnioche)
  • Nutch-1693 TextMD5Signature calculé sur le contenu textuel (Tien Nguyen Manh, Markus via snagel)
  • Nutch-1409 remove obsolète propriétés db. {défaut, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle via snagel)
  • Nutch-1 819 BatchID dans GeneratorJob (Fjodor Vershinin via lewismc)
  • utilisation Nutch-même id 1 708 lors de l'indexation et de la suppression des redirections (snagel)
  • Nutch-1 817 Retirer pom.xml de la source (jnioche)
  • Nutch-1811 bin / JUnit nutch utiliser JUnit 4 lanceur de test (de snagel)
  • Nutch-1 776 chemin Connexion de fichier plugin.folder incorrecte (Diaa via snagel)
  • Nutch-1566 bin / nutch pour permettre espaces dans les chemins (tejasp, snagel)
  • Nutch-1605 détecteur de type MIME reconnaît xlsx que fichier zip (de snagel)
  • Nutch-385 Améliorer la description de la configuration de filet lié pour l'outil de récupération (jnioche, lufeng)
  • Nutch 1798 script Crawl ne pas appeler commande d'index correctement (Aaron Bedward via jnioche)
  • Nutch-1 769 API REST refactoring (Fjodor Vershinin via lewismc)
  • Nutch-1 633 slf4j est fourni par Hadoop et ne devrait pas être inclus dans le fichier de travail (kaveh de minooie via jnioche)
  • Nutch-1 787 mise à jour et complète page d'aperçu API doc (de snagel)
  • Nutch-1 767 supprimer un traitement spécial de & quot; params & quot; dans les liens relatifs (snagel)
  • Nutch-1718 redéfinissent http.robots.agent comme & quot; & quot noms d'agents supplémentaires; (snagel, Tejas Patil, Daniel Kugel)
  • Nutch-1 796 Assurer Gora objet constructeurs sont utilisés comme s'opposer aux constructeurs vides (snagel via lewismc)
  • Nutch-1 590 [SÉCURITÉ] Cadre vulnérabilité d'injection dans Javadoc publié (jnioche)
  • Nutch-1736 Impossible de récupérer page si-tête de réponse HTTP contient Transfer-Encoding: chunked (SJC via jnioche)
  • Nutch-1782 NodeWalker pour revenir noeud courant (Markus)
  • Nutch-1781 Mise à jour gora - * - mapping.xml et gora.proeprties pour refléter Gora 0,4 (lewismc)
  • Mise à niveau Nutch-1768 ElasticSearch 1.1.0 (jnioche)
  • -stats de readdb Nutch-1634 montre le résultat deux fois (kaveh minooie via jnioche)
  • Nutch 1780 TTL et gc_grace_seconds attributs sont absents de fichier gora-Cassandra-mapping.xml (kaveh minooie via lewismc)
  • Nutch-1676 Ajouter le support SSL rudimentaire protocole http (jnioche, Markus)
  • Nutch-1 674 Utilisez un filtre BatchID pour permettre à balayage (GORA-119) pour Fetch, Parse, mise à jour, Index (Tien Nguyen Manh et Alparslan Avci via jnioche)
  • Mise à niveau Nutch-1714 à 0,4 Gora (Alparslan Avci via jnioche)
  • Nutch-1 752 règles robots.txt Cache selon le protocole: hôte: port (snagel)
  • Nutch-1 613 Délais dans le protocole lors de l'exploration-httpclient même hôte avec & gt; 2 fils (brian44 via jnioche)
  • fetcher Nutch-1182 pour connecter les threads d'arrêt (snagel)
  • Nutch-1 618 Turn off exécution spéculative pour le chargement (Talat)
  • Nutch-1657 ORIGINAL_CHAR_ENCODING et CHAR_ENCODING_FOR_CONVERSION jamais mis en HTMLParser (Talat)
  • Le réducteur de Nutch-1725 CleaningJob ne commet pas docs supprimés. (ilhamikalkan via Talat)
  • Nutch-1 728 indexeur-solr plugin est pas supprimer les docs de Solr (ilhamikalkan via Talat)
  • Nutch-1753 Eclipse problème de dependecy pour 2.x (Talat)
  • Nutch-1720 lignes en double dans HttpBase.java (Walter Tietze via jnioche)
  • Nutch-797 URL pas correctement construit lorsque la cible du lien commence par un & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab via snagel)
  • Mise à niveau Nutch-1759 à chenilles Commons 0.4 (jnioche)
  • Nutch-1700 de supprimer du code obsolète dans src / plugin / Creative / build.xml (lewismc)
  • Nutch-1,761 script Crawl ne parvient pas à trouver le fichier de travail si pas commencé à partir de l'intérieur bin dir (David Hosking, jnioche)
  • Nutch-1,603 postal analyseur plaint fichier PDF à propos tronquée (de snagel via lewismc)
  • Nutch 1743 parsechecker pour montrer outlinks (snagel)
  • Nutch-1732 Meilleure ligne de cmd analyse pour NutchServer (Fjodor Vershinin via lewismc)
  • Nutch-1751 ancres vides ne doivent pas index (Sertac Turkel via lewismc)
  • Nutch-1733 parse-html pour soutenir HTML5 définitions charset (snagel)
  • Nutch-1727 longueur configurable pour les TLD (Sertac Turkel via lewismc)
  • Nutch-1 738 Expose nombre d'URL générées par lot dans GeneratorJob (Talat UYARER via ewismc)
  • indexchecker Nutch-1671 à ajouter digérer champ (snagel, lufeng)
  • Nutch-1 645 cas de test Junit pour Adaptive Fetch classe annexe (Yasin Kilinc, Lufeng, Sertac Urkel via snagel)
  • Nutch-1478 Parse-metatags et index des métadonnées Plugin pour la série 2.x Nutch (de Kiran, Nguyen Tien Anh, Talat UYARER, Vangelis Karvounis via lewismc)
  • Mise à niveau Nutch-1729 et Tika 1,5 (jnioche)
  • Nutch-1721 de mise à niveau à chenilles commune 0,3 (tejasp)
  • Nutch-1 719 DomainStatistics échoue dans 2.x parce URL est pas non inversée (Gerhard Gossen via lewismc)

  • versions
  • Nutch-1253 Incompatible neko et Xerces (snagel, lewismc, Talat UYARER)
  • Nutch-1715 RobotRulesParser ajoute supplémentaire '*' pour le nom des robots (de tejasp)
  • Nutch-356 Plugin référentiel cache peut conduire à des fuites de mémoire (Enrico Triolo, Dogacan Guney via Markus)
  • Nutch-1164 Ecrire des tests JUnit pour le protocole HTTP (Sertac Turkel via tejasp)
  • Nutch-1,710 Ajouter gora journalisation des packages à log4j.properties (lewismc)
  • Nutch-1 655 Indexer Plugin pour Elastic Recherche (Talat UYARER via lewismc)
  • Nutch-1699 Tika Parser - image Parse Bug (Mehmet Zahid Yuzuguldu, snagel via lewismc)
  • Nutch-1 568 ports architecture indexation enfichable à 2.x (Talat UYARER via lewismc)
  • inlinks Nutch-1672 sont ajoutés deux fois dans DbUpdateReducer (Tien Nguyen Manh via lewismc)
  • Nutch-1667 updatedb ignorer toujours BatchID (Tien Nguyen Manh via lewismc)
  • Nutch-1 695 NutchDocument.toString () (Markus via lewismc)
  • Nutch-1696 Activer l'utilisation du (Gora) dépendances SNAPSHOT (lewismc)
  • Nutch-1681 En URLUtil.java, méthode de ToUnicode ne fonctionne pas correctement (A

Commentaires à Apache Nutch

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!