Apache Solr est un serveur de recherche open source, gratuit, indépendant de la plate-forme et hautes performances basé sur le projet Apache Lucene, utilisant des API XML / HTTP et JSON. Le projet est actuellement en cours d'incubation à la Fondation Apache Software.
Caractéristiques en un coup d'oeil
Les fonctionnalités clés incluent la surbrillance, la recherche par facettes, la mise en cache, la réplication, une interface d'administration basée sur le Web, des fonctions avancées de recherche de texte intégral, ainsi que des interfaces ouvertes basées sur des standards tels que HTTP , XML et JSON.
De plus, il comprend des interfaces d'administration HTML complètes, des statistiques de serveur, la réplication automatique d'index, la récupération automatique et le basculement, l'indexation en temps réel, adaptable et flexible avec une configuration XML.
Le projet est schemaless, permettant à l'utilisateur de démarrer rapidement avec Apache Solr. Les modes Schema et Schemaless sont pris en charge en ce moment, mais ce dernier conduira à un environnement de production solide.
Différents types sont supportés par Solr, y compris les types de champs, qui vous aideront à mélanger et à faire correspondre les analyseurs Lucene sans écrire de code. En outre, le projet prend en charge les champs dynamiques pouvant être activés à la volée.
Parmi les autres fonctionnalités intéressantes, citons la fonctionnalité champ de copie qui permet aux utilisateurs d'analyser facilement le même contenu en utilisant différentes méthodes, la prise en charge de types explicites pour éliminer le besoin de deviner les types de champs, les configurations personnalisées basées sur des fichiers externes. ainsi que de nombreux autres composants d'analyse de texte.
Sous le capot et la disponibilité
En jetant un oeil sous le capot d'Apache Solr, nous pouvons remarquer que l'application a été entièrement écrite dans le langage de programmation Java et prend en charge les distributions 32 bits et 64 bits de Linux, ainsi que Microsoft Windows et Mac OS X systèmes d'exploitation.
Pour votre commodité, il est distribué en tant qu'archives binaires et sources, de sorte que vous pouvez facilement démarrer avec Apache Solr dans un minimum de temps et sans trop de tracas.
Qu'est-ce que new dans cette version:
- Le superviseur ne peut jamais traiter les derniers messages.
- Renommer le noyau en mode autonome solr n'est pas conservé.
- L'analyse des paramètres rq de QueryComponent ne tient plus compte du paramètre defType.
- Fixez NPE dans SolrQueryParser lorsque les termes de requête dans une clause de filtre sont réduits à zéro.
Quoi de neuf dans la version:
- En plus de nombreuses autres améliorations dans le cadre de sécurité, Solr inclut désormais un AuthenticationPlugin implémentant HTTP Basic Auth qui stocke les informations d'identification de manière sécurisée dans ZooKeeper. C'est un moyen simple d'exiger un nom d'utilisateur et un mot de passe pour quiconque accède à l'écran d'administration ou aux API de Solr.
- AuthorizationPlugin construit qui fournit un contrôle fin sur la mise en œuvre d'ACL pour diverses ressources avec des règles de permission qui sont stockées dans ZooKeeper.
- L'API facette JSON peut maintenant changer le domaine pour les commandes de facettes, en faisant essentiellement une jointure de blocs et en passant des parents aux enfants, ou des enfants aux parents avant de calculer les données de facette.
- Améliorations majeures des performances de la nouvelle API Facet Module / JSON Facet.
- Facettes de requête et de plage sous des facettes de pivot. Tout comme l'API facette JSON, les facettes pivotantes permettent d'imbriquer d'autres types de facettes, tels que des facettes de plage et de requête.
- Plus comme les options de l'analyseur de requêtes. Le MoreLikeThis QParser prend désormais en charge toutes les options fournies par le gestionnaire MLT. L'analyseur de requêtes est beaucoup plus polyvalent que le gestionnaire car il fonctionne en mode cloud ainsi que partout où une requête normale peut être spécifiée.
- Ajout du support de l'API de schéma dans SolrJ
- Ajout d'un mode de scoring pour la jointure de requête et la jonction de blocs.
- Nouveau format de réponse Smile
Nouveautés dans la version 4.10.3:
- Solr 4.10.2 inclut 10 corrections de bugs, ainsi que Lucene 4.10.2 et ses 2 corrections de bugs.
Nouveautés dans la version 4.6.1:
- Apache Tika 1.4
- Carrot2 3.8.0
- Velocity 1.7 et Velocity Tools 2.0
- Apache UIMA 2.3.1
- Apache ZooKeeper 3.4.5
- Corrections de bugs:
- SOLR-5408: CollapsingQParserPlugin ne fonctionne pas correctement lorsque plusieurs critères de tri sont utilisés
- (Brandon Chapman, Joel Bernstein)
- SOLR-5416: CollapsingQParserPlugin casse la balise / exclut la facette
- (David Boychuck, Joel Bernstein)
- SOLR-5442: Le client Python ne peut pas analyser la réponse proxy lorsqu'il est servi par Tomcat.
- (Patrick Hunt, Gregory Chanan, Vamsee Yarlagadda, Romain Rigaux, Mark Miller)
- SOLR-5445: Les réponses mandatées doivent propager tous les en-têtes plutôt que le premier pour chaque clé.
- (Patrick Hunt, Mark Miller)
- SOLR-5479: La logique de nouvelle tentative de SolrCmdDistributor s'arrête si un leader de la requête ne peut être trouvé en 1 seconde.
- (Mark Miller)
- SOLR-5532: La validation du type de contenu SolrJ est trop stricte pour certains conteneurs Web / proxies.
- (Jakob Furrer, Hossman, Shawn Heisey, Uwe Schindler, Mark Miller)
- SOLR-5547: La création d'un alias de collection à l'aide de CollectionAdminRequest de SolrJ définit le nom de l'alias et les collections sur l'alias avec la même valeur.
- (Aaron Schram, Mark Miller)
- SOLR-5577: L'expiration probable de ZooKeeper ne devrait pas ralentir les mises à jour d'un montant donné, mais plutôt couper les mises à jour après un certain temps.
- (Mark Miller, Christine Poerschke, Ramkumar Aiyengar)
- SOLR-5580: NPE lors de la création d'un core avec à la fois shard explicite et coreNodeName.
- (YouPeng Yang, Mark Miller)
- SOLR-5552: Le processus de récupération de leader peut sélectionner le mauvais leader si toutes les répliques d'un fragment sont en panne et tentent de récupérer ainsi que de perdre les mises à jour qui auraient dû être récupérées.
- (Timothy Potter, Mark Miller)
- SOLR-5569 Une réplique ne doit pas essayer de récupérer un leader tant qu'elle n'a pas publié qu'elle est ACTIVE.
- (Mark Miller)
- SOLR-5568 SolrCore ne peut pas décider d'être le leader juste parce que l'état du cluster indique qu'aucun autre SolrCore n'est actif.
- (Mark Miller)
- SOLR-5496: Nous devrions partager un gestionnaire de connexion http entre les HttpClients non-search et nous assurer que tous les gestionnaires de connexions http soient arrêtés.
- (Mark Miller)
- SOLR-5583: ConcurrentUpdateSolrServer # blockUntilFinished peut attendre indéfiniment si le service de l'exécuteur est arrêté.
- (Mark Miller)
- SOLR-5586: Tous les ZkCmdExecutor doivent être initialisés avec le délai d'expiration du client zk.
- (Mark Miller)
- SOLR-5587: Les implémentations ElectionContext doivent utiliser ZkCmdExecutor # ensureExists pour s'assurer que leurs chemins d'élection sont correctement créés.
- (Mark Miller)
- SOLR-5540: HdfsLockFactory doit explicitement créer le répertoire parent du verrou si nécessaire.
- (Mark Miller)
- SOLR-4709: Le rechargement du noyau après la réplication si les fichiers de configuration ont changé peut échouer en raison d'une condition de concurrence. (Mark Miller, Hossman))
- SOLR-5503: Réessayez moins agressivement les requêtes 'forward to leader' - plutôt que sur IOException et le statut 500, ConnectException.
- (Mark Miller)
- SOLR-5588: PeerSync ne considère pas tous les échecs de connexion comme réussis.
- (Mark Miller)
- SOLR-5564: hl.maxAlternateFieldLength doit s'appliquer au champ d'origine lors de la tentative de repli
- (janhoy)
- SOLR-5608: n'autorise pas un SolrCore fermé à publier un état sur ZooKeeper.
- (Mark Miller, Shawn Heisey)
- SOLR-5615: Deadlock en essayant de récupérer après une expiration de session ZK.
- (Ramkumar Aiyengar, Mark Miller)
- SOLR-5543: Les swaps de base entraînaient des entrées de base dupliquées dans solr.xml lors de l'utilisation de la persistance de solr.xml.
- (Bill Bell, Alan Woodward)
- SOLR-5618: Corrige les fausses alertes de cache dans queryResultCache lorsque hashCodes sont égales et que des requêtes de filtres en double existent dans l'une des requêtes
- (hossman)
- SOLR-4260: ConcurrentUpdateSolrServer # blockUntilFinished peut retourner avant que toutes les mises à jour précédemment ajoutées soient terminées. Cela peut entraîner la perte des mises à jour distribuées destinées aux réplicas.
- (Markus Jelsma, Timothy Potter, Joel Bernstein, Mark Miller)
- SOLR-5645: Un rechargement de SolrCore via le CoreContainer essayera de s'inscrire à nouveau dans zk avec le nouveau SolrCore.
- (Mark Miller)
- SOLR-5636: SolrRequestParsers effectue des recherches xpath à chaque requête, ce qui peut entraîner des problèmes de concurrence.
- (Mark Miller)
- SOLR-5658: commitWithin et overwrite ne sont pas distribués aux réplicas maintenant que SolrCloud utilise javabin pour distribuer les mises à jour.
- (Mark Miller, Varun Thacker, Élodie Sannier, shalin)
- Optimisations:
- SOLR-5576: améliore la simultanéité lors de l'enregistrement et en attendant que tous les SolrCore enregistrent un état DOWN.
- (Christine Poerschke via Mark Miller)
Nouveautés dans la version 4.6.0:
- De nombreuses améliorations et améliorations pour les options de fractionnement de partition
- Nouveau AnalyzingInfixLookupFactory pour exploiter le AnalyzingInfixSuggester
- Nouveau CollapsingQParserPlugin pour l'effondrement de champs haute performance sur des champs de cardinalité élevée
- Nouvelles API SolrJ pour la gestion des collections
- Nouveau DocBasedVersionConstraintsProcessorFactory prenant en charge les règles de gestion de versions doc-centric configurées par l'utilisateur
- Nouveau format d'index par défaut: Lucene46Codec
- Nouveau type EnumField
Nouveautés dans la version 4.5.1:
- Solr 4.5.1 contient une poignée de corrections de bogues, dont 2 considérées comme très graves.
Nouveautés dans la version 4.5.0:
- Support de partitionnement personnalisé, routage amélioré et facettes multithread.
Nouveautés dans la version 4.2.0:
- API REST côté lecture pour le schéma. Vous avez toujours voulu introspecter le schéma sur http? Maintenant vous pouvez. On dirait que le côté d'écriture viendra après.
- Les DocValues ont été intégrés dans Solr. DocValues peut être chargé beaucoup plus rapidement que le cache de champ et peut également utiliser différents algorithmes de compression ainsi que dans la RAM ou sur les représentations du disque. Les requêtes de facettage, de tri et de fonction en profitent toutes. Qu'en est-il du système d'exploitation qui gère la facette et le tri des caches? Pas plus de tuning 60 gigaoctets de tas? Que diriez-vous d'une nouvelle méthode de facettage DocValues par segment? Facette numérique améliorée? Doux.
- Alias de collection. Vous avez des données basées sur le temps? Voulez-vous ré-indexer dans une collection temporaire, puis l'échanger en production? Terminé. Restez à l'écoute pour Shard Aliasing.
- Réponses de l'API de collection. L'API des collections était encore très récente dans la version 4.0, et bien qu'elle ait amélioré un peu les choses en 4.1, des réponses étaient certainement nécessaires, mais ont manqué la coupure. Au départ, nous avons pris la décision de rendre l'API Collection super tolérante aux fautes, ce qui rendait les réponses plus difficiles à faire. Personne ne veut chercher dans les fichiers journaux pour voir comment les choses se sont déroulées. Fait en 4.2.
- Interagir avec n'importe quelle collection sur n'importe quel noeud. Jusqu'au 4.2, vous ne pouviez interagir qu'avec un nœud de votre cluster s'il hébergeait au moins une réplique de la collection que vous vouliez interroger / mettre à jour. Ne plus interroger un nœud, qu'il ait ou non une partie de votre collection et obtenir une réponse par proxy.
- Autoriser les noms de partition personnalisés afin que les nouvelles adresses d'hôte puissent prendre le relais pour les partitions retirées. Travailler sur Amazon sans ips élastique? Ceci est pour vous.
- Optimisations de Lucene 4.2 telles que les vecteurs de termes compressés.
Quoi de neuf dans la version 3.3.0:
- Regroupement / regroupement de champs
- Une nouvelle implémentation de suggestion / autocomplétion basée sur un automate offrant un ordre de grandeur plus faible de la consommation de RAM.
- KStemFilterFactory, une implémentation optimisée d'un stemmer moins agressif pour l'anglais.
- Solr utilise par défaut une nouvelle stratégie de fusion plus efficace (TieredMergePolicy). Voir http://s.apache.org/merging pour plus d'informations.
- Corrections de bogues importantes, y compris l'utilisation de RAM extrêmement élevée dans la correction d'orthographe.
- Corrections de bugs et améliorations d'Apache Lucene 3.3
Nouveautés dans la version 3.2.0:
- Possibilité de spécifier overwrite et commitWithin comme paramètres de requête lors de l'utilisation du format de mise à jour JSON
- TermQParserPlugin, utile lors de la génération de requêtes de filtre à partir de termes renvoyés à partir de la facette de champ ou du composant terms.
- DebugComponent prend désormais en charge l'utilisation d'une NamedList pour modéliser les objets Explanation dans ses réponses au lieu de Explanation.toString
- Améliorations des intégrations UIMA et Carrot2
- Corrections de bugs et améliorations d'Apache Lucene 3.2
Nouveautés dans la version 3.2.0:
- Des améliorations ont été apportées à la mise à jour JSON.
- Le regroupement des résultats de recherche et l'intégration UIMA ont été améliorés.
- Les bugs ont été corrigés.
Commentaires non trouvées