Apache Tika

Logiciel capture d'écran:
Apache Tika
Détails logiciels:
Version: 1.9 Mise à jour
Date de transfert: 20 Jul 15
Licence: Gratuit
Popularité: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika a été développé comme une boîte à outils de bas niveau pour la recherche de contenu à l'intérieur d'autres fichiers.
Tika ne fait pas beaucoup sur son propre être une bibliothèque simple, mais il peut être intégré dans des outils plus puissants comme les moteurs de recherche, les systèmes de gestion d'actifs numériques ou CMS pour fournir un système de recherche en fichier entièrement fonctionnelle.
La bibliothèque peut accéder à la tête de tout le fichier des informations de fichier global rapide, ou il peut aller très profond et chercher même dans le corps du fichier de différents types de données, au format texte ou binaire.
Une large gamme de types de fichiers sont pris en charge et Tika peut également être utilisé avec d'autres langages de programmation grâce à une série de liaisons tiers et les emballages.

Ce qui est nouveau dans ce communiqué :

  • Cette version inclut des corrections de bugs et de nouvelles fonctionnalités, y compris un nouveau Tesseract OCR Parser; un nouvel analyseur de GDAL; plus formats, et des améliorations globales soutenue dans la stabilité Tika.

Ce qui est nouveau dans la version 1.8:

  • Cette version inclut des corrections de bugs et de nouvelles fonctionnalités, y compris un nouveau Tesseract OCR Parser; un nouvel analyseur de GDAL; plus formats, et des améliorations globales soutenue dans la stabilité Tika.

Ce qui est nouveau dans la version 1.7:

  • Cette version inclut des corrections de bugs et de nouvelles fonctionnalités, y compris un nouveau Tesseract OCR Parser; un nouvel analyseur de GDAL; plus formats, et des améliorations globales soutenue dans la stabilité Tika.

Ce qui est nouveau dans la version 1.6:

  • Cette version inclut des corrections de bugs et de nouvelles fonctionnalités, y compris une nouvelle traduction API, plus de formats pris en charge, et les améliorations globales de la stabilité Tika.

Quoi de neuf dans la version 1.5:.

  • Correction d'un bug dans la manipulation du traitement de fichiers intégré dans les fichiers PDF
  • Ajouté SourceCodeParser au support de Java, Groovy fichiers, C ++.
  • Mise à jour Tika Server pour soutenir des charges utiles multipart / form-data.
  • Mise à jour Tika Server pour CXF 2.7.8.
  • Mise à jour Tika Server pour accepter les demandes de plus des adresses génériques.
  • Ajout d'une option pour utiliser autre NonSequentialPDFParser.
  • Contenu de AcroForms PDF est maintenant extrait.
  • astérisques invalides fixes de diapositive en PPT.
  • cas de test Ajouté à confirmer la manipulation de l'auto-date PPT et PPTX.

Ce qui est nouveau dans la version 1.4:

  • Suppression d'un fichier test de HTML avec un texte GPL mal choisi il.
  • Améliorations à tika-serveur pour lui permettre de produire text / html et text / xml contenu.
  • Des améliorations ont été apportées à la Compresseur Parser pour gérer les fichiers g'zipped qui nécessitent l'option decompressConcatenated mis à true.
  • a adressé une erreur typographique qui empêchait de détection des fichiers de awk.

Quoi de neuf dans la version 1.2:

  • Apache Tika 1.2 contient un certain nombre d'améliorations et de corrections de bugs.

Quoi de neuf dans la version 1.0:

  • Apache Tika 1.0 contient un certain nombre d'améliorations et de corrections de bugs.

Quoi de neuf dans la version 0.9:.

  • Cette version inclut plusieurs corrections de bugs importants et de nouvelles fonctionnalités

Ce qui est nouveau dans la version 0.8:

  • Identification de la langue est maintenant configurable dynamiquement géré via un fichier de config chargé à partir du chemin de classe.
  • Tika prend désormais en charge l'analyse Fils en enveloppant la bibliothèque Rome sous-jacent.
  • Un guide de démarrage rapide pour Tika analyse a contribué.
  • Une approche pour la plomberie par des attributs XHTML a été ajouté.
  • Le type de support d'informations hiérarchie est désormais prise en compte lors de la sélection du meilleur analyseur pour un document d'entrée donné.
  • Soutien à l'analyse de données scientifiques formats communs, y compris netCDF et HDF4 / 5 a été ajouté.
  • Les tests unitaires pour Windows ont été corrigés, permettant TestParsers à remplir.

Ce qui est nouveau dans la version 0.7:

  • fichier MP3 analyse a été améliorée, y compris l'extraction Channel et SampleRate et soutien ID3v2. En outre, la détection analyse audio mime a également été améliorée pour le format MIDI.
  • Tika repose non plus sur X11 pour ses fonctionnalités d'analyse RTF.
  • Un bug thread-safe dans la AutoDetectParser a été découvert et pris en compte.
  • Mise à niveau vers PDFBox 1.0.0. La nouvelle version de PDFBox améliore les performances d'analyse de PDF et corrige un certain nombre de questions d'extraction de texte.

Exigences :

  • Java 6 ou supérieur

Logiciel similaire

BitStruct
BitStruct

12 May 15

Flyer.js
Flyer.js

1 Mar 15

getSize
getSize

10 Feb 16

SproutCore
SproutCore

28 Feb 15

D'autres logiciels de développeur Apache Software Foundation

Commentaires à Apache Tika

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!