PDFMiner fonctionne en prenant d'abord le contenu d'un fichier PDF et de le convertir en un format plus malléable comme le HTML.
De là, le texte et les données sont extraites et analysées, et sur la base de règles prédéfinies séparés et présentés à l'utilisateur ou envoyés à d'autres plus puissants outils d'analyse de données.
Si l'analyse de texte est pas ce que vous avez l'intention de le faire, vous pouvez facilement configurer PDFMiner simplement extraire ou tout simplement de convertir les données PDF ainsi.
Ses fonctions peuvent travailler séparément les uns des autres et de permettre un spectre d'utilisation plus large grâce à elle
Caractéristiques :.
- 100% Python code, pas de C ou C ++
- Parse PDF
- Analyser les fichiers PDF
- Convertir des fichiers PDF vers d'autres formats
- extracteur de TdM
- Obtenir seulement étiqueté contenu
- Soutien à un grand nombre de fonctionnalités texte PDF
- Soutien à un grand nombre de types de police à l'intérieur des fichiers PDF
- le cryptage de base (RC4) support
Ce qui est nouveau dans cette version:
- méthode PDFDocument.initialize () est retiré et ne sont plus nécessaires . Un mot de passe est donné comme un argument d'un constructeur PDFDocument.
Ce qui est nouveau dans la version 20110515:.
- modifications de l'API
- classe LTPolygon a été rebaptisé LTCurve.
Ce qui est nouveau dans la version 20110227:.
- Corrections de bugs et améliorations de l'analyse de la mise en page
Ce qui est nouveau dans la version 20101226:.
- Un couple de corrections de bugs et améliorations mineures
Ce qui est nouveau dans la version 20101017:.
- Un couple de corrections de bugs et une amélioration mineure
Ce qui est nouveau dans la version 20100424:.
- Correction de bugs et de petites améliorations sur l'extraction de TOC
Exigences :
- Python 2.4 jusqu'à 3
Limitations :.
- PDFMiner peut être 20 fois plus lent que C / C ++ - logiciel basé
Commentaires non trouvées