Jericho HTML Parser

Logiciel capture d'écran:
Jericho HTML Parser
Détails logiciels:
Version: 3.3
Date de transfert: 20 Feb 15
Développeur: Martin Jericho
Licence: Gratuit
Popularité: 56

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser est une source ouverte, simple, mais puissante bibliothèque entièrement écrit en Java.
Il permet aux programmeurs de manipuler et analyser des parties d'un document HTML.
Jerich HTML Parser comporte également des fonctions formulaire HTML manipulation de haut niveau

Ce qui est nouveau dans cette version:.

  • Correction de bugs:
  • [3581664] CharacterReference.decode () ne décode pas les entités contenant des chiffres - & frac12; & Frac14; & Frac34; & SUP1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor ne respecte pas TEXTAREA
  • [3519131] Rendu sortie incorrecte lorsque construit avec un objet Element.
  • [3538829] Sortie de rendu des polices décoration sur des frontières de blocs incorrect.
  • Segment.getAllStartTags (nom) et Segment.getFirstElement (nom) ne fonctionnent pas si l'argument contient des caractères majuscules.
  • Le délimiteur de fin d'une balise de serveur commun intérieur d'une balise de serveur échappé est faussement reconnu comme séparateur de la balise échappé de fin.
  • modifications susceptibles d'affecter LE COMPORTEMENT des programmes existants:
  • [3427073] Segment.getStyleURISegments () comprend maintenant contenu de l'élément de style ainsi que les valeurs d'attributs de style.
  • [3427927] Segment.getURIAttributes () comprend maintenant les attributs d'archivage d'éléments d'objets et d'applet.
  • Commentaires ne sont plus reconnus à l'intérieur des éléments de script pendant parse séquentielle complète. Auparavant, ils ont été reconnus pour la compatibilité avec les principaux navigateurs, mais le comportement du navigateur moderne a changé.
  • modifié le niveau de toutes les erreurs d'analyse syntaxique journal de INFO à l'erreur, et le niveau de la Source.fullSequentialParse () message d'avertissement du journal WARN à INFO. Les niveaux précédents ont donné le message d'avertissement d'une gravité plus élevé que les erreurs d'analyse, ce qui empêche les systèmes d'exploitation de cacher le message de conseil tout en montrant des erreurs d'analyse. avertissements de codage de caractères restent inchangés au niveau WARN.
  • a changé le comportement de la méthode Renderer.renderHyperlinkURL (StartTag) de sorte que les URL relatives ne sont pas rendus.
  • modifié le comportement du moteur de rendu afin que le contenu de l'élément de lien hypertexte ne est pas rendue si elle est la même que l'URL du lien hypertexte, en ignorant tout http:. // Préfixe ou / suffixe
  • EndTag.tidy () supprime maintenant espace avant la parenthèse fermante.
  • ajoutée Source (Fichier) constructeur.
  • méthode ajoutée OutputDocument.getSegment ().
  • Ajouté OutputDocument.remove (commencer int, int end) méthode.
  • méthode ajoutée Renderer.setHRLineLength ().
  • Ajouté RenderToText.jsp échantillon de webapp.
  • méthode ajoutée Segment.getRowColumnVector ().
  • Détection de codage ignore désormais codages communs spécifiés dans les meta tags qui ont une taille de l'unité de code incompatible avec l'encodage préliminaire.
  • Mise à jour vers les API de témoins suivants: slf4j-api-1.7.2, log4j-1.2.17

Ce qui est nouveau dans la version 3.1:

  • Correction de bugs:
  • [2793556] Infini boucle sur Segment.getAllStartTags ()
  • Boucle infinie sur Segment.getAllElements ()
  • Segment.getFirst * méthodes retournés segments en dehors du segment de délimitation.
  • Segment.getAllElements méthodes ne retournent pas tous les éléments enfermés dans certaines circonstances.
  • erreurs de documentation fixes dans Segment.getAllElements méthodes.
  • classe Ajouté StreamedSource.
  • modifications susceptibles d'affecter LE COMPORTEMENT des programmes existants:
  • Changement ParseText de la classe à l'interface.
  • Segment.getNodeIterator () retourne désormais les références de caractères que nœuds distincts.

  • Balise
  • Ajout de méthodes de recherche fondées sur les expressions régulières de valeur d'attribut.

  • Balise
  • Ajout de méthodes de recherche basées sur l'attribut de classe HTML.
  • propriété Source.LegacyNodeIteratorCompatabilityMode statique Ajouté temporairement pour restaurer Segment.getNodeIterator () fonctionnalité à celle des versions précédentes.
  • char Suppression [] méthodes de recherche basés dans ParseText.
  • Ajouté CharacterReference.appendCharTo (Appendable) méthode.
  • Ajouté OutputDocument (Segment) constructeur.
  • exemple de programme Ajouté StreamedSourceCopy.

Ce qui est nouveau dans la version 3.0:

  • Correction de bugs:
  • Les références de caractères représentant des caractères unicode supplémentaires ne ont pas été décodés correctement paires unitaires UTF-16 de code.
  • [2188446] Element.getDepth () et Element.getParentElement () ont donné des résultats incorrects si appelé parse sur le mode de la demande.
  • Les commentaires sont maintenant reconnus à l'intérieur de & lt; Script & gt; éléments.

  • CHANGEMENTS
  • API qui ne sont pas compatibles:
  • Changement de nom du paquet à net.htmlparser.jericho
  • Les valeurs d'attribut doit maintenant être une chaîne plutôt que CharSequence.
  • toutes les méthodes obsolètes supprimés / classes des versions précédentes.
  • Tous les trouver * méthodes obsolètes en faveur de méthodes obtenir * afin d'appliquer une convention de nommage uniforme dans toutes les méthodes de recherche de marqueur.

  • Les classes balise
  • , ÉLÉMENTS ET HTMLElements ne implémentent l'interface HTMLElementName. (Utiliser l'importation statique au lieu)
  • Toutes les collections maintenant stongly tapé utilisant génériques.
  • Changement de classe FormControlOutputStyle d'énumération.
  • Changement de classe FormControlType d'énumération.
  • Ajouté CharStreamSource.appendTo (Appendable) méthode.
  • méthode ajoutée Source.iterator ().
  • Source implémente désormais Iterable.
  • utilise en interne StringBuilder pour une meilleure performance.
  • Ajouté Source.getNextStartTag (StartTagType) méthode.
  • Ajouté Source.getNextEndTag (EndTagType) méthode.
  • Ajouté Source.getPreviousStartTag (StartTagType) méthode.
  • Ajouté Source.getPreviousEndTag (EndTagType) méthode.
  • Ajouté Segment.getAllStartTags (StartTagType) méthode.
  • Ajout tous Segment.getFirst * méthodes.
  • Ajouté Renderer.renderHyperlinkURL (StartTag) méthode.
  • exemple de programme Ajouté HTMLSanitiser.
  • Mise à jour vers SLF4J-api-1.5.6

Exigences :

  • Java 2 Standard Edition Runtime Environment

Logiciel similaire

txt2html
txt2html

3 Jun 15

Moo
Moo

20 Feb 15

PyYAML
PyYAML

12 May 15

MarkupSafe
MarkupSafe

11 May 15

D'autres logiciels de développeur Martin Jericho

Commentaires à Jericho HTML Parser

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!