Apache Nutch

Logiciel capture d'écran:
Apache Nutch
Détails logiciels:
Version: 2.3
Date de transfert: 1 Mar 15
Licence: Gratuit
Popularité: 128

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch a été construit au-dessus de Apache Lucene , un moteur de recherche puissant Java.
Nutch développeurs ont modifié le code source Lucene, la transformation de la base de code Lucene de données agnostique dans un projet dédié pour rechercher des données sur le Web en particulier.
Cette technologie peut être utilisée pour effectuer une recherche sur vos propres pages Web comme un serveur de recherche intégré, ou à ramper le Web à la recherche de données pour analyser et gratter dans votre base de données.
Nutch peut fonctionner sur une seule machine, mais fonctionne mieux dans Hadoop grappes.
Divers plugins sont disponibles pour élargir son spectre d'utilisation

Quoi de neuf dans cette version:.

  • Assurez balises en double ne existe pas en microformat-reltag tag jeu.
  • Une meilleure valeur pour retomber champ de date.
  • Débarrassez-vous de la.
  • redouté
  • Mise à niveau vers Hadoop 1.2.0.
  • Mise à niveau vers Tika 1.3.

Ce qui est nouveau dans la version 2.0:.

  • Rebaptisé HTMLParseFilter dans ParseFilter
  • Supprimer reste robots / code de blocage IP dans lib-http.
  • l'exploitation forestière à Port SLF4J.
  • analyseur externe soutient attribut encoding.
  • paramètres de configuration Ivy ne comprennent pas Gora.
  • injecteur devrait ajouter les métadonnées avant d'appeler injectedScore.
  • Port Nutch référence pour Nutchbase.
  • Ajouter parse-html dos.
  • format de date manquant MoreIndexingFilter.
  • Délai d'attente Parser.
  • Intervalle entre les tentatives Date sanitaire est mis à 0.
  • Générer une sortie de journal pour solr indexeur et dedup.
  • Amélioration NutchConfiguration.
  • SolrDeleteDuplicates doit cloner les objets SolrRecord.
  • libs Hadoop autochtones ne sont pas disponibles par le biais maven.
  • séparer les environnements de build et d'exécution.

Ce qui est nouveau dans la version 1.5:

  • Cette version inclut plusieurs améliorations, y compris les mises à niveau de plusieurs composants principaux, y compris Tika 1.1 et Hadoop 1.0.0, l'amélioration de LinkRank et éléments de WebGraph ainsi que un certain nombre de nouveaux plugins couvrant liste noire, le filtrage et l'analyse pour ne en nommer que quelques-uns.

Quoi de neuf dans la version 1.4:.

  • Ajouté Solr 4x (tronc) exemple schéma
  • Ajout de '/ runtime' à SVN ignorer.
  • application / xhtml + xml doit être activé dans plugin.xml de parse-html; permettre à plusieurs types MIME pour plugin.xml.
  • parse-tika fixe et analyser-html pour utiliser la résolution de l'URL par rapport à la RFC-3986.
  • surclassés dans Tika 0,10. NOTE:. RTF nouvelle analyseur de Tika peut ignorer plus de texte dans les documents malformés que précédemment - voir TIKA-748 pour plus de détails
  • cibles Ajouté sonar pour Ant build.xml.
  • Mise à niveau à la version 3.4.0 SolrJ.
  • target Ant pmd est cassé.
  • Mise à niveau de schéma Solr à la version 1.4.

Ce qui est nouveau dans la version 1.3:

  • Cette version inclut plusieurs améliorations (support amélioré RSS analyse, serré intégration avec Apache Tika, le soutien de l'analyse externe, une meilleure identification de la langue et un ordre de grandeur plus petite version source archive -!. seulement environ 2 Mo)

Quoi de neuf dans la version 1.2:.

  • Assurez-index plus plug-in configurable
  • Configurable protocole de fichier répertoire parent ramper.
  • Délai d'attente Parser.
  • Le site est encore Lucene marque.
  • Intervalle entre les tentatives Date sanitaire est mis à 0.

Ce qui est nouveau dans la version 1.0:.

  • Permettre aux analyseurs de retourner plusieurs objets Parse
  • Retiré redondante pot commons-logging de l'ontologie plugin.
  • Bug dans SegmentReader provoque boucle infinie.
  • Filtre de notation devrait distribuer des notes à tous les outlinks à la fois.
  • Réduire le nombre d'avertissements dans le noyau nutch.

Logiciel similaire

ack
ack

10 Feb 16

Searchkick
Searchkick

10 Feb 16

anysearch.js
anysearch.js

13 May 15

D'autres logiciels de développeur Apache Software Foundation

Apache Lens
Apache Lens

10 Dec 15

Apache Axiom
Apache Axiom

6 Mar 16

Apache Curator
Apache Curator

10 Feb 16

Commentaires à Apache Nutch

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!