Apache Lucene

Logiciel capture d'écran:
Apache Lucene
Détails logiciels:
Version: 5.3.1 / 4.10.4 / 3.6.2 Mise à jour
Date de transfert: 10 Dec 15
Licence: Gratuit
Popularité: 241

Rating: nan/5 (Total Votes: 0)

Apache Lucene est adapté pour toute application qui nécessite un soutien pour la recherche de texte intégral, tout en gardant serveur consommation de ressources vers le bas et produire des résultats rapides et de haute précision.

Lucene est largement considéré comme l'un des meilleurs moteurs de recherche autour, étant au cœur de nombreux autres outils de recherche, le plus célèbre étant Apache Solr .

Lucene est entièrement écrit en Java et depuis qu'il a été publié par la Fondation Apache, il a été porté sur de nombreuses autres langues et existe diverses fixations et les emballages comme tiers développé un logiciel.

Ce qui est nouveau dans cette version:

  • Tous les accès de fichier utilise désormais les API de NIO.2 de Java qui donnent Lucene forte sécurité de l'indice en termes de meilleure gestion des erreurs et commits plus sûres.
  • Chaque segment de Lucene stocke désormais un identifiant unique par segment et par-commit pour aider à la réplication précise des fichiers d'index.
  • Lors de la fusion, IndexWriter maintenant vérifie toujours les segments entrants pour corruption avant de fusionner. Cela peut signifier, sur la mise à 5.0.0, que la fusion peut découvrir depuis longtemps la corruption latente dans un index 4.x plus.

Ce qui est nouveau dans la version 5.2.1 / 4.10.4 / 3.6.2:

  • Tous les fichiers accès utilise désormais les API de Java NIO.2 qui donnent Lucene forte sécurité de l'indice en termes de meilleure gestion des erreurs et commits plus sûres.
  • Chaque segment de Lucene stocke désormais un identifiant unique par segment et par-commit pour aider à la réplication précise des fichiers d'index.
  • Lors de la fusion, IndexWriter maintenant vérifie toujours les segments entrants pour corruption avant de fusionner. Cela peut signifier, sur la mise à 5.0.0, que la fusion peut découvrir depuis longtemps la corruption latente dans un index 4.x plus.

Ce qui est nouveau dans la version 5.1.0 / 4.10.4 / 3.6.2:

  • Tous les fichiers accès utilise désormais les API de Java NIO.2 qui donnent Lucene forte sécurité de l'indice en termes de meilleure gestion des erreurs et commits plus sûres.
  • Chaque segment de Lucene stocke désormais un identifiant unique par segment et par-commit pour aider à la réplication précise des fichiers d'index.
  • Lors de la fusion, IndexWriter maintenant vérifie toujours les segments entrants pour corruption avant de fusionner. Cela peut signifier, sur la mise à 5.0.0, que la fusion peut découvrir depuis longtemps la corruption latente dans un index 4.x plus.

Ce qui est nouveau dans la version 5.0.0 / 4.10.3 / 3.6.2:

  • Nouveaux Conditions méthodes .getMin / Max pour récupérer les termes les plus élevés et les plus bas par champ.
  • Nouveau IDVersionPostingsFormat, optimisé pour les recherches d'identification qui associent une version monotone croissante par ID.
  • mise à jour atomique d'un ensemble de valeurs doc champs.
  • De nombreuses optimisations de performance des valeurs doc recherche en temps.
  • Nouvelle (par défaut) Lucene49NormsFormat pour mieux compresser certains cas tels que les champs de très courtes.
  • Type de New SORTED_NUMERIC pour le traitement efficace des champs numériques de valeurs multiples.
  • Indexer passe flux jeton précédent pour faciliter la réutilisation.
  • MoreLikeThis accepte plusieurs valeurs par champ.
  • Toutes les classes qui estiment leur utilisation de la RAM de mettre en œuvre dès maintenant une nouvelle interface des comptes.
  • Les fichiers sont maintenant Lucene écrit par (Fichier) OutputStream sur toutes les plateformes, complètement interdisant cherchant avec simplifiées API IO.
  • Améliorer le message d'erreur de confusion lorsque MMapDirectory ne peut pas créer une nouvelle carte.

Quoi de neuf dans la version 4.8.0:

  • Lucene a une nouvelle API Rescorer / QueryRescorer à effectuer renotation deuxième passe ou reclassement des résultats de recherche en utilisant les fonctions de notation plus chers après la collecte de premier passage succès.
  • AnalyzingInfixSuggester prend désormais en charge l'autosuggestion en temps quasi-réel.
  • affichages d'impact triés simplifiée (en utilisant SortingMergePolicy et EarlyTerminatingCollector) à utiliser Trier la classe de Lucene pour exprimer l'ordre de tri.
  • vrac notation et la notation à base d'itération à la normale ont été séparés, de sorte que certaines requêtes peuvent faire notation vrac plus efficacement.
  • commuté à MurmurHash3 pour hacher termes lors de l'indexation.
  • IndexWriter prend désormais en charge la mise à jour des champs de valeur doc binaires.
  • HunspellStemFilter utilise maintenant 10 à 100 fois moins de RAM. Il embarque également tous les dictionnaires OpenOffice connus sans erreur.
  • Lucene maintenant fsyncs également les métadonnées de répertoire sur commits, si le système d'exploitation et système de fichiers permettent (Linux, MacOSX sont connus pour travailler).
  • Lucene utilise maintenant Java 7 fonctions du système de fichiers sous le capot, afin que les fichiers d'index peuvent être supprimés sur Windows, même quand les lecteurs sont encore ouvertes.
  • Un bug grave dans NativeFSLockFactory a été fixée, ce qui pourrait permettre à plusieurs IndexWriters d'acquérir le même verrou. Le fichier de verrouillage est plus supprimé à partir du répertoire d'index, même lorsque la serrure est pas tenu.

Quoi de neuf dans la version 4.7.0:

  • Lors du tri par String (SortField.STRING), vous pouvez maintenant spécifier si les valeurs manquantes doivent être triés en premier (par défaut), ou en dernier.
  • Support NRT pour les systèmes de fichiers qui ne disposent pas de supprimer le dernier près ou ne peut pas supprimer tout sémantique référencés.
  • Ajouté LongBitSet pour gérer plus de 2.1B morceaux (sinon utilisez FixedBitSet).
  • Analyzer ajoutée pour kurde.
  • Ajout du support de la charge utile à FileDictionary (Proposer) et la rendre plus configurable.
  • Ajout d'une nouvelle BlendedInfixSuggester, qui est comme AnalyzingInfixSuggester mais stimule suggestions qui correspondent à des jetons avec des positions inférieures.
  • Ajouté SimpleQueryParser:. analyseur pour les requêtes de l'homme entré
  • Ajouté multitermquery (jokers, préfixe, etc) pour PostingsHighlighter.

Ce qui est nouveau dans la version 4.6.0:

  • Ajout du support pour les mises à jour sur le terrain de NumericDocValues ​​(sans ré indexer le document) à travers IndexWriter.updateNumericDocValue (durée, String, Long).
  • Nouveau FreeTextSuggester peut prédire le mot suivant en utilisant un modèle de langage ngram simple, utile pour & quot; longue queue & quot; suggestions.
  • Un nouveau module d'expression permet de personnalisé le classement avec la syntaxe de script-like.
  • Une nouvelle DirectDocValuesFormat peut contenir toutes les valeurs de doc en tas que Java non compressé tableaux indigènes.
  • Term.hasFreqs peuvent maintenant déterminer si un domaine donné indexé par-doc
  • fréquences terme.

Ce qui est nouveau dans la version 4.5.0:

  • nouvelles implémentations en mémoire DocIdSet qui sont surtout mieux FixedBitSet que sur de petits ensembles:. WAH8DocIdSet, PFORDeltaDocIdSet et EliasFanoDocIdSet
  • CachingWrapperFilter cache désormais des filtres avec WAH8DocIdSet par défaut, qui a la même utilisation de la mémoire FixedBitSet dans le pire des cas, mais il est plus petit et plus rapide sur les petits ensembles.
  • TokenStreams réglés maintenant l'incrément de position dans end (), afin que nous puissions gérer trous de fuite.
  • IndexWriter clone plus le IndexWriterConfig donné.
  • Divers corrections de bugs et optimisations depuis la version 4.4.

Ce qui est nouveau dans la version 4.4.0:

  • Nouveau module Replicator: répliquer révision de l'indice entre le serveur et client.
  • Nouveau AnalyzingInfixSuggester:. trouve des suggestions basées sur les matchs à toute jetons dans la suggestion, et pas seulement sur la base de correspondance de préfixe pur
  • Nouveau PatternCaptureGroupTokenFilter:. émettre plusieurs jetons, un pour chaque groupe de capture dans une ou plusieurs expressions régulières Java
  • Nouveau module Lucene Facet.

Quoi de neuf dans la version 4.3.0:

  • Nouveau SearcherTaxonomyManager gère quasi-temps réel de rouvre deux IndexSearcher et TaxonomyReader (pour facettage).
  • Ajout d'une nouvelle méthode de facette au module de facette à calculer facette compte en utilisant SortedSetDocValuesField, sans un indice de taxonomie distincte.
  • Des améliorations significatives de performance pour minShouldMatch BooleanQuery raison de sauter résultant dans les requêtes jusqu'à 4000% plus vite.
  • de
  • Divers corrections de bugs et optimisations depuis la version 4.2.1.

Ce qui est nouveau dans la version 4.1.0:

  • Lucene ne cherche plus lors de l'écriture des fichiers (tous les champs sont écrits dans une manière de append-only). Cela signifie qu'il fonctionne par défaut avec append-only ruisseaux, HDFS, etc ..
  • Nouveau suggèrent implémentations: AnalyzingSuggester, où la forme sous-jacente (calculé à partir d'un lucene Analyzer) utilisé pour des suggestions est distinct du texte retourné et FuzzySuggester, qui permet en outre d'en correspondance inexacte sur l'entrée
  • .
  • le soutien quasi-temps réel a été ajouté au module de facette.
  • Nouveau surligneur (postingshighlighter) ajouté au module de surligneur.
  • Ajouté FilterStrategy à FilteredQuery pour plus de flexibilité dans l'exécution de la requête filtrée.
  • Ajouté CommonTermsQuery pour accélérer les requêtes avec des conditions très fréquentes. Fréquences à terme sont efficacement détectées lors de la requête -. Pas de temps de préparation nécessaire indice
  • Plusieurs corrections de bugs et optimisations depuis la version 4.0.

Quoi de neuf dans la version 4.0 alpha:

  • Les formats d'index des termes, des listes d'affectations, stockés champs, terme
  • vecteurs, etc. sont enfichables via l'API Codec. Vous pouvez choisir parmi les implémentations fournis ou personnaliser le format d'index avec votre propre Codec pour répondre à vos besoins.
  • performances nettement plus rapide lors de l'utilisation d'un filtre lors de la recherche.

  • répertoires basés
  • du système de fichiers peuvent limiter la vitesse IO (Mo / s) des discussions de fusion, de réduire IO discorde entre la fusion et la recherche fils.
  • FuzzyQuery est 100-200 fois plus rapide que dans les versions antérieures.
  • Un nouveau correcteur orthographique, DirectSpellChecker, trouve corrections possibles
  • directement contre le principal indice de recherche sans nécessiter un index séparé.

Ce qui est nouveau dans la version 3.6.0:

  • En plus de Java 5 et Java 6, ce presse a maintenant plein soutien Java 7 (JDK 7u1 minimum requis).
  • filtres TypeTokenFilter jetons en fonction de leur TypeAttribute.
  • bogues décalage fixe dans un certain nombre de CharFilters, tokenizers et TokenFilters qui pourraient conduire à des exceptions au cours de souligner.
  • Ajout de codeurs phonétiques: Metaphone, Soundex, Caverphone, Beider-Morse, etc
  • .
  • CJKBigramFilter et CJKWidthFilter remplacent CJKTokenizer.
  • kuromoji analyseur morphologique tokenizes texte japonais, produisant à la fois des mots composés et leur segmentation.
  • Indice statique élagage (Carmel élagage) supprime affectations à faible fréquence dans le document-terme.
  • QueryParser interprète maintenant '*' comme une fin ouverte pour les requêtes de gamme.
  • FieldValueFilter exclut les documents manquants le champ spécifié.
  • CheckIndex et IndexUpgrader vous permettent de spécifier la mise en œuvre de FSDirectory spécifique à utiliser avec la nouvelle option -dir-impl de ligne de commande.
  • FST peuvent maintenant ne recherche inversée (par sortie) dans certains cas, et peuvent être emballés pour réduire leur taille. Il ya maintenant une méthode pour récupérer TOP N chemins les plus courts à partir d'un noeud de départ dans un FST.
  • Nouveau WFSTCompletionLookup suggester soutient à granulométrie fine de classement pour des suggestions.
  • suggesters base de FST utilisent maintenant hors ligne (sur disque) sorte, au lieu de tri en mémoire, quand le pré-tri des suggestions.
  • ToChildBlockJoinQuery rejoint dans la direction opposée (parent à des documents de l'enfant).
  • Nouvelle-temps de requête de jonction est plus souple (mais moins performant) que l'indice-temps rejoint.
  • Ajouté HTMLStripCharFilter de dépouiller les balises HTML.

Ce qui est nouveau dans la version 3.5.0:

  • Ajout d'un très substantiel (3-5x) RAM la réduction nécessaire pour maintenir l'indice des termes sur l'ouverture d'une IndexReader.
  • Ajouté IndexSearcher.searchAfter qui renvoie des résultats après un ScoreDoc spécifié (ex dernier document sur la page précédente) pour soutenir profondes cas d'utilisation de pagination.
  • Ajouté SearcherManager à gérer le partage et IndexSearchers réouverture sur plusieurs threads de recherche. Instances de IndexReader sous-jacents sont fermés en toute sécurité si pas plus référencé.
  • Ajouté SearcherLifetimeManager qui fournit en toute sécurité une vue cohérente de l'indice entre plusieurs demandes (par exemple paging / drilldown).
  • Rebaptisé IndexWriter.optimize à forcemerge pour décourager l'utilisation de cette méthode car elle est horriblement coûteux et plus rarement justifiée.

Ce qui est nouveau dans la version 3.3.0:

  • Le module de vérificateur d'orthographe comprend maintenant suggérer / auto-complétion fonctionnalité, avec trois implémentations:. Jaspell, ternaire Trie et états finis
  • Support pour fusionner les résultats de plusieurs éclats, à la fois pour & quot; normale & quot; résultats de la recherche (TopDocs.merge) ainsi que les résultats regroupés en utilisant le module de regroupement (SearchGroup.merge, TopGroups.merge).
  • Une mise en œuvre optimisée de KStem, un égrappoir moins agressif pour l'anglais.
  • passe-regroupement unique mise en œuvre fondé sur le document de bloc indexation.
  • Amélioration MMapDirectory (maintenant aussi l'implémentation par défaut retourné par FSDirectory.open sur Linux 64 bits).
  • NRTManager simplifie la manipulation quasi-temps réel de recherche avec plusieurs threads de recherche, permettant à l'application de contrôler les changements indexation doit être visible à laquelle les demandes de recherche.
  • TwoPhaseCommitTool facilite l'exécution d'une multi-ressources en deux phases commis, y compris IndexWriter.
  • La politique de fusion par défaut, TieredMergePolicy, a une nouvelle méthode (ensemble / getReclaimDeletesWeight) pour contrôler l'agressivité qu'il cible les segments avec des suppressions, et est maintenant plus agressive qu'auparavant par défaut.
  • outil de PKIndexSplitter divise un indice d'une peine à mi-parcours.

Quoi de neuf dans la version 3.2.0:

  • Un nouveau module de regroupement, sous Lucene / contrib / résultats de la recherche groupement, permet d'être regroupés par une valeur unique champ indexé.
  • Un nouvel outil de IndexUpgrader convertit totalement un ancien index au format actuel.
  • Une nouvelle implémentation de Directory, NRTCachingDirectory, met en cache les petits segments dans la mémoire RAM, de réduire la charge d'E / S pour les applications avec rapide NRT rouvrir taux.
  • Une nouvelle mise en œuvre de Collector, CachingCollector, est capable de rassembler les résultats de recherche (ID de documents et éventuellement aussi scores) et ensuite de les rejouer. Ceci est utile pour les collectionneurs qui nécessitent deux ou plusieurs passes pour produire des résultats.
  • Indice un bloc de document à l'aide de nouvelles addDocuments ou updateDocuments méthodes de IndexWriter. Ces API expérimentales veiller à ce que le bloc de documents restera à jamais contigus dans l'indice, permettant d'avenir intéressantes fonctionnalités telles que le regroupement et la rejoint.
  • Une nouvelle politique de fusion par défaut, TieredMergePolicy, qui est plus efficace en raison d'être en mesure de fusionner les segments non contigus.
  • NumericField est maintenant renvoyé correctement lorsque vous chargez un document stocké (précédemment vous avez reçu un champ normal de retour, avec la valeur numérique chaîne convertie).

Ce qui est nouveau dans la version 3.1.0:.

  • ConstantScoreQuery permet maintenant envelopper directement une requête
  • IndexWriter est maintenant configuré avec une nouvelle API de constructeur indépendant, IndexWriterConfig. Vous pouvez maintenant contrôler préalablement fixé taraudage limite de IndexWriter en appelant setMaxThreadStates.
  • IndexWriter.getReader est remplacé par IndexReader.open (IndexWriter). En outre, vous pouvez maintenant spécifier si les suppressions doivent être résolus lorsque vous ouvrez un lecteur NRT.
  • MultiSearcher est obsolète; ParallelMultiSearcher a été absorbé directement dans IndexSearcher.
  • Sur Windows 64 bits et Solaris JVM, MMapDirectory est maintenant l'implémentation par défaut (retourné par FSDirectory.open). MMapDirectory permet également démappage si la JVM prend en charge.
  • Nouveau TotalHitCountCollector compte simplement le nombre total de visites.
  • API ReaderFinishedListener permet caches externes pour expulser les entrées une fois par segment est terminé.

Ce qui est nouveau dans la version 3.0.1:.

  • Supprimer la synchronisation inutiles dans FuzzyTermEnum
  • Lors de la résolution termes supprimés, faire en terme ordre de tri pour une meilleure performance.
  • Ne gardez pas mal avertissement sur la même durée immense, quand IndexWriter.infoStream est sur.
  • Fix Min / MaxPayloadFunction retourne 0 quand une seule charge utile est présente.
  • Requêtes constitué de toutes les clauses de zéro-Boost (par exemple, texte: foo ^ 0) triée de façon incorrecte et produit docids invalides
  • .
  • Suppression de la ScoreTerm de classe interne protégé de FuzzyQuery. Le changement a été nécessaire parce que le comparateur de cette classe a dû être changé d'une manière incompatible. La classe n'a jamais été destiné à être public.

Ce qui est nouveau dans la version 2.9.2:

  • BooleanQuery ignorait disableCoord dans son hashCode et égal méthodes , causer de mauvaises choses se produisent lorsque le cache BooleanQueries.
  • Ne gardez pas mal avertissement sur la même durée immense, quand IndexWriter.infoStream est sur.
  • A taux d'indexation élevés, NRT lecteur pourrait perdre temporairement suppressions.

Quoi de neuf dans la version 3.0.0:

  • Suppression de la propriété système pour définir la mise en œuvre de la classe SegmentReader.
  • Changer le type de SnapshotDeletionPolicy # snapshot () de IndexCommitPoint à IndexCommit de retour. Code qui utilise cette méthode doit être recompilé contre Lucene 3.0 pour fonctionner. Le IndexCommitPoint déjà obsolète est également supprimé.
  • Fournir un AttributeFactory de commodité qui crée une instance Token pour tous les attributs de base.
  • Supprimer récursivité dans NumericRangeTermEnum.
  • Optimiser Levenshtein calcul dans FuzzyQuery.

Logiciel similaire

Apache Blur
Apache Blur

13 Apr 15

sitemap.js
sitemap.js

10 Feb 16

Reds
Reds

1 Mar 15

Apache Nutch
Apache Nutch

1 Mar 15

D'autres logiciels de développeur Apache Software Foundation

Apache Xalan Java
Apache Xalan Java

13 Apr 15

Apache Airavata
Apache Airavata

6 Mar 16

Apache OFBiz
Apache OFBiz

4 Jun 15

Commentaires à Apache Lucene

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!
Recherche par catégorie