Apache Tika

Logiciel capture d'écran:
Apache Tika
Détails logiciels:
Version: 1.4
Date de transfert: 20 Feb 15
Licence: Gratuit
Popularité: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika est une boîte à outils open source conçu pour détecter et extraire les métadonnées, ainsi que le contenu du texte structuré à partir de plusieurs documents, en utilisant rien d'autre que bibliothèques existantes de l'analyseur.
Apache Tika prend en charge les formats de documents suivants: HyperText Markup Language (HTTP), formats XML et dérivés, les formats de document Microsoft Office, OpenDocument Format (ODF), Portable Document Format (PDF), électronique format de publication (EPF), Rich Text Format (RTF ), les formats de compression et d'emballage, les formats texte / image / son / vidéo, le format mbox, et les fichiers et les archives de classe Java.
Auparavant, Apache Tika est un sous-projet de la bibliothèque de logiciels Apache Lucene. Maintenant, il est distribué comme un ensemble autonome par l'Apache Software Foundation

Quoi de neuf dans cette version:.

  • Suppression d'un fichier test de HTML avec un texte GPL mal choisi en elle (TIKA-1129).
  • Améliorations à tika-serveur lui permettent de produire text / html et text / xml contenu (TIKA-1126, TIKA-1127).
  • Des améliorations ont été apportées à la Compresseur Parser pour gérer les fichiers g'zipped qui nécessitent l'option decompressConcatenated valeur true (TIKA-1096).
  • a adressé une erreur typographique qui empêchait de détection des fichiers awk (TIKA-1081).
  • Ajout d'un nouveau point final à JAX-RS REST le serveur de Tika qui ne détecte le type-media basée sur une petite partie du document présenté (TIKA-1047).
  • RTF:. Les listes ordonnées et non ordonnées sont maintenant extraites (TIKA-de 1062)
  • MP3: durée Audio est maintenant extrait (TIKA-991)
  • fichiers Java .class:. Mise à niveau de 3.1 à ASM ASM 4.1 pour analyser le bytecode Java (TIKA-1053)
  • Mime Types: Définitions étendues à éventuellement inclure lien (URL) et UTI, ainsi que les détails de plusieurs formats courants (TIKA-1012 / TIKA-1083)
  • Exceptions lors de l'analyse de documents OLE10 intégré, lors de l'analyse des informations sommaires de documents Office, et lors de l'enregistrement documennts embarqués dans TikaCLI êtes maintenant connecté au lieu d'annuler l'extraction (TIKA-1074)
  • MS Word: caractère ligne de tableau est désormais remplacé par saut de ligne (TIKA-1128)
  • XML: ElementMetadataHandlers peut désormais accepter éventuellement des valeurs en double et vides (TIKA-1133)
  • .

Exigences :

  • Java 2 Standard Edition Runtime Environment

D'autres logiciels de développeur The Apache Software Foundation

Commentaires à Apache Tika

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!