Jericho HTML Parser

Logiciel capture d'écran:
Jericho HTML Parser
Détails logiciels:
Version: 3.4
Date de transfert: 10 Dec 15
Développeur: Martin Jericho
Licence: Gratuit
Popularité: 105

Rating: 5.0/5 (Total Votes: 1)

Il peut éditer côté serveur et côté client balises, tout en reproduisant in extenso un code HTML non reconnu ou non valide.

Il fournit également des fonctions formulaire HTML manipulation de haut niveau

Caractéristiques :.

  • La présence de HTML mal formaté ne pas interférer avec l'analyse du reste du document, ce qui rend la bibliothèque idéal pour une utilisation avec & quot; le monde réel & quot; HTML qui étouffe les autres analyseurs.
  • ASP, JSP, PSP, PHP et Mason balises de serveur sont explicitement reconnus par l'analyseur. Cela signifie que HTML normale est toujours analysée correctement, même si il ya des balises de serveur intérieur d'eux, ce qui est fréquent, par exemple lors de la création dynamique des attributs d'élément.
  • Une nouvelle option d'analyse de flux basé en utilisant la classe StreamedSource, qui permet un traitement efficace de la mémoire de gros fichiers en utilisant un itérateur de l'événement. Ceci est essentiellement une alternative StAX avec la capacité de traiter HTML et XML non validant, ainsi que plusieurs autres fonctionnalités non disponibles dans d'autres analyseurs de streaming.
  • Dans sa forme standard, il est ni un événement ni arbre analyseur base, mais utilise plutôt une combinaison de simple recherche plein texte, la reconnaissance de l'étiquette efficace et un cache balise de position. Le texte de l'ensemble du document source est d'abord chargé en mémoire, puis seulement les segments pertinents recherché les caractères pertinents de chaque opération de recherche.
  • Par rapport à un analyseur en fonction de l'arbre comme DOM, les besoins en mémoire et de ressources peut être beaucoup mieux si seulement de petites sections du document doivent être analysées ou modifié. HTML incorrecte ou mal formaté peut facilement être ignoré, contrairement analyseurs base d'arbres qui doivent identifier chaque nœud dans le document de haut en bas.
  • Par rapport à un analyseur basé sur les événements tels que SAX, l'interface est sur un niveau beaucoup plus élevé et plus intuitive, et une représentation de l'arbre de la hiérarchie de l'élément document est facilement créé si nécessaire.
  • Le début et de positions extrêmes dans le document source de tous les segments analysés sont accessibles, permettant une modification des segments sélectionnés seulement du document sans avoir à reconstruire l'ensemble du document à partir d'un arbre.
  • Le numéro de la ligne et de la colonne de chaque position dans le document source sont facilement accessibles.
  • Fournit une interface simple mais complet pour l'analyse et la manipulation des contrôles de formulaire HTML, y compris l'extraction et la population de valeurs initiales, et la conversion en lecture seule ou d'affichage de données modes. Analyse des contrôles de formulaire de données permet aussi reçu de la forme pour être stocké et présenté d'une manière appropriée.
  • Built-in fonctionnalité pour extraire tout le texte de balisage HTML, apte à alimenter dans un moteur de recherche de texte tel que Apache Lucene.
  • Built-in fonctionnalité pour rendre le balisage HTML avec formatage de texte simple.
  • Built-in fonctionnalité au format HTML code source qui met en retrait des éléments en fonction de leur profondeur dans la hiérarchie de l'élément document. (Cliquez ici pour une démonstration en ligne)
  • Built-in fonctionnalité compacte code source HTML en supprimant tous les espaces inutiles.
  • types de points de mesure peuvent être facilement définis et enregistrés pour la reconnaissance par l'analyseur.

Ce qui est nouveau dans cette version:.

  • ajoutée Source (Fichier) constructeur
  • méthode ajoutée OutputDocument.getSegment ().
  • Ajouté OutputDocument.remove (commencer int, int fin) méthode.
  • méthode ajoutée Renderer.setHRLineLength ().
  • Ajouté RenderToText.jsp échantillon de webapp.
  • méthode ajoutée Segment.getRowColumnVector ().
  • Détection d'encodage ignore désormais codages communs spécifiés dans les meta tags qui ont une taille de l'unité de code incompatible avec l'encodage préliminaire.

Ce qui est nouveau dans la version 3.1:

  • Correction de bugs:
  • Boucle infinie sur Segment.getAllStartTags ()
  • Boucle infinie sur Segment.getAllElements ()
  • Segment.getFirst * méthodes retournés segments en dehors du segment de délimitation.
  • Segment.getAllElements méthodes ne retournent pas tous les éléments enfermés dans certaines circonstances.
  • les erreurs de documentation fixes dans Segment.getAllElements méthodes.
  • classe Ajouté StreamedSource.
  • Les changements qui pourraient influer sur le comportement des programmes existants:
  • Changement ParseText de la classe à l'interface.
  • Segment.getNodeIterator () retourne désormais les références de caractères que nœuds distincts.

  • balise
  • Ajout de méthodes de recherche basées sur des expressions régulières de valeur d'attribut.
  • de
    balise
  • Ajout de méthodes de recherche fondées sur l'attribut de classe HTML.
  • de
  • propriété Source.LegacyNodeIteratorCompatabilityMode statique Ajouté temporairement à restaurer Segment.getNodeIterator () fonctionnalité à celle des versions précédentes.
  • char Suppression [] méthodes de recherche basés dans ParseText.
  • Ajouté CharacterReference.appendCharTo (Annexable) méthode.
  • Ajouté OutputDocument (Segment) constructeur.
  • exemple de programme Ajouté StreamedSourceCopy.

Logiciel similaire

Radiant MediaLyzer
Radiant MediaLyzer

10 Feb 16

Scrapy
Scrapy

1 Oct 15

Tunes
Tunes

1 Mar 15

Packery
Packery

10 Feb 16

D'autres logiciels de développeur Martin Jericho

Commentaires à Jericho HTML Parser

Commentaires non trouvées
Ajouter un commentaire
Tourner sur les images!
Recherche par catégorie