PDFTextStream projet est une bibliothèque d'extraction de texte PDF et métadonnées disponibles pour Java, Python, et .NET.
Il prend en charge toutes les versions de la spécification de document PDF, (y compris v1.6, utilisés par Acrobat 7), l'extraction de texte codé en utilisant des jeux de caractères à deux octets (y compris le chinois, japonais et coréen), le décryptage de 40 bits et 128 documents de bits chiffré, et l'extraction de toutes les métadonnées de documents fournis par les documents PDF (y compris les données de formulaire, des signets et annotations).
Intégration facile avec Jakarta Lucene est inclus
Quoi de neuf dans cette version:.
- Cette version comprend une variété de correctifs fait pour assurer PDFTextStream est capable d'extraire du texte à partir des documents PDF qui sont non conformes à la spécification PDF.
- Il comprend également une variété d'améliorations de performance.
Quoi de neuf dans la version 2.3.0:
- Ajout d'une méthode .isStruckThrough () pour com. snowtide.pdf.TextUnit, indiquant si un personnage a une barré établi à travers elle.
- Amélioration de l'appui de PDFTextStream pour les mappages de caractères intégrées.
- Le calcul des espaces entre les mots a été fixé à comptabiliser correctement espaces qui ne sont explicitement codée dans les documents source de PDF.
- Amélioration de la manipulation de PDFTextStream des codages de contenu composites, qui pouvaient auparavant échouer entraînant certaines gammes de contenu PDF étant 'ignoré' lors de l'extraction.
- Correction d'un bogue dans VisualOutputTarget où le texte d'une seule ligne serait divisé sur plusieurs lignes
- Amélioration de l'alignement vertical du texte extrait à l'aide VisualOutputTarget
- Amélioration extraits VisualOutputTarget-produit pour éliminer parasite autre espace entre les mots étroitement adjacentes
Quoi de neuf dans la version 2.2.5:
- Cette version ajoute le support pour extraire les données des formulaires XFA que XML.
- Il améliore considérablement les performances de l'extraction de texte utilisant VisualOutputTarget. Soutien pour les documents PDF plus de 2 Go.
- Un correctif pour un bug où les encodages de polices Type1 embarqués étaient auparavant ne est pas appliquée correctement dans certaines circonstances.
- Un correctif pour un problème où récent contenu dans les documents PDF mis à jour a été parfois ignorée.
- Un correctif pour un problème où les signets et les métadonnées PDFDocEncoding codé ne étaient pas décodés correctement.
- Un .getDestinationName () dans com.snowtide.pdf.Bookmark.
Exigences :
- Apache Lucene
Commentaires non trouvées