Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Software ətraflı:
Version: 3.3
Tarixi Upload: 20 Feb 15
Geliştirici: Martin Jericho
Lisenziya: Pulsuz
Məşhurluq: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML Parser Java tamamilə yazılı açıq mənbə, sadə, hələ güclü kitabxanadır.
Bu proqramçılar manipulyasiya və HTML sənəd hissələri təhlil etməyə imkan verir.
Jerich HTML Parser yüksək səviyyəli HTML forma manipulyasiya funksiyaları özündə birləşdirir

Bu azad Yeni nədir.

  • Bug giderir:
  • [3581664] CharacterReference.decode () rəqəm olan müəssisələr deşifre deyil - & frac12; & Frac14; & Frac34; & Sup1; & Sup2; & Sup3; & There4;
  • [3311286] SourceCompactor textarea hörmət etmir
  • [3519131] Renderer çıxış bir Element obyekt ilə inşa zaman yanlış.
  • [3538829] blok sərhədləri font bəzək Renderer çıxış səhv.

  • Dəlil yuxarı halda simvol varsa
  • Segment.getAllStartTags (adı) və Segment.getFirstElement (adı) iş deyil.
  • qaçan bir server tag daxilində ortaq server tag son sınırlayıcı yalan xilas tag son sınırlayıcı kimi tanınır.

  • Mövcud proqramların DAVRANIŞ təsir edən
  • DƏYİŞİKLİKLƏR:
  • [3427073] Segment.getStyleURISegments () İndi stil element content, eləcə də stil atributu dəyərlər daxildir.
  • [3427927] Segment.getURIAttributes () İndi obyekt və kiçik elementləri arxiv atributları daxildir.
  • artıq tam ardıcıl parse zamanı script elementləri içərisində tanınmış Şərhlər. Əvvəllər onlar əsas brauzerlərdə lakin müasir browser davranış dəyişib ilə uyğunluğu üçün tanınmış.
  • səhv INFO bütün təhlil səhvlər log səviyyəsi dəyişdi, və Source.fullSequentialParse () məsləhət mesaj log səviyyədə INFO XƏBƏRDARLIĞI. Əvvəlki səviyyəsi təhlil səhvlər göstərən isə məsləhət mesaj gizlətmək olan giriş sistemləri qarşısının alınması, təhlil səhvlər daha məsləhət mesaj daha yüksək şiddəti verdi. Character encoding xəbərdarlıq səviyyədə XƏBƏRDARLIĞI dəyişməz qalır.

  • Nisbi URL'leri göstərilən deyil ki
  • Renderer.renderHyperlinkURL (StartTag) metodu davranış dəyişdi.

  • Bu hiperlink URL eyni əgər köprü element content hər hansı bir http məhəl, göstərilən deyil belə
  • Renderer davranış dəyişdi. // Prefiks və / şəkilçi
  • EndTag.tidy () İndi yekun bracket əvvəl ağ rədd et.
  • Added Source (File) konstruktor.
  • Added OutputDocument.getSegment () metodu.
  • Added OutputDocument.remove metodu (int, int son başlayır).
  • Added Renderer.setHRLineLength () metodu.
  • Added RenderToText.jsp webapp nümunə.
  • Added Segment.getRowColumnVector () metodu.
  • Encoding aşkar artıq ilkin kodlama ilə bir araya sığmayan kodu vahid ölçüsü var meta tags göstərilən ümumi kodlamaları məhəl qoymur.
  • aşağıdakı Çetele API Yükseltildi: slf4j-api-1.7.2, log4j-1.2.17

versiyası 3.1 yeni nədir:

  • Bug giderir:
  • Segment.getAllStartTags haqqında [2793556] Sonsuz loop ()
  • Segment.getAllElements üzrə Sonsuz loop ()
  • Segment.getFirst * üsulları bounding seqment xaricində seqmentləri döndü.
  • Segment.getAllElements üsulları bəzi hallarda bütün əlavə elementləri dönmədi.

  • Segment.getAllElements üsulları
  • Sabit sənədlərin səhvlər.
  • Added StreamedSource sinif.

  • Mövcud proqramların DAVRANIŞ təsir edən
  • DƏYİŞİKLİKLƏR:

  • Sinif ParseText dəyişdi
  • interface.
  • Segment.getNodeIterator () indi ayrı-ayrı qovşaqlarının kimi xarakter istinadlar qaytarır.

  • Atributu dəyər normal ifadeler əsasında
  • Əlavə tag axtarış üsulları.

  • HTML sinif atributu əsasında
  • Əlavə tag axtarış üsulları.
  • Əlavə statik Source.LegacyNodeIteratorCompatabilityMode əmlak müvəqqəti əvvəlki versiyasını ki, Segment.getNodeIterator () funksionallığı bərpa etmək üçün.

  • ParseText da
  • silindi char [] based axtarış üsulları.
  • Added CharacterReference.appendCharTo (Appendable) metodu.
  • Added OutputDocument (Seqment) konstruktor.
  • Added StreamedSourceCopy nümunə proqramı.

versiya 3.0 yeni nədir:

  • Bug giderir:

  • Unicode əlavə simvol təmsil
  • Character istinadlar UTF-16 kodu vahid cüt düzgün kontormerinin deyil.

  • Tələb rejimi parse adlı əgər
  • [2188446] Element.getDepth () və Element.getParentElement () səhv nəticələr döndü.
  • Şərhlər indi daxili & lt tanınır; script & gt; elementləri.

  • Uyğun geriyə DEYİL
  • API DƏYİŞİKLİKLƏR:
  • dəyişdi paket adı net.htmlparser.jericho üçün
  • Atribut dəyərlər indi String daha çox CharSequence olmalıdır.

  • Əvvəlki versiyasını
  • silindi bütün deprecated üsulları / dərsləri.
  • Bütün tag axtarış üsulları arasında ardıcıl adlandırma qurultayının tətbiq etmək üçün * almaq üsulları lehinə deprecated * üsulları tapa bilərsiniz.
  • Tag, Element və HTMLElements dərsləri artıq HTMLElementName interface həyata keçirir. (Əvəzinə statik idxal istifadə)
  • Bütün kolleksiyalarda indi stongly generics istifadə çap.
  • enum üçün FormControlOutputStyle sinif dəyişdi.

  • Enum üçün
  • dəyişdi FormControlType sinif.
  • Added CharStreamSource.appendTo (Appendable) metodu.
  • Added Source.iterator () metodu.
  • Source indi Iterable həyata keçirir.
  • Məcburi daha yaxşı performans üçün StringBuilder istifadə edir.
  • Added Source.getNextStartTag (StartTagType) metodu.
  • Added Source.getNextEndTag (EndTagType) metodu.
  • Added Source.getPreviousStartTag (StartTagType) metodu.
  • Added Source.getPreviousEndTag (EndTagType) metodu.
  • Added Segment.getAllStartTags (StartTagType) metodu.
  • Bütün Segment.getFirst * üsulları Added.
  • Added Renderer.renderHyperlinkURL (StartTag) metodu.
  • Added HTMLSanitiser nümunə proqramı.
  • Yükseltildi slf4j-api-1.5.6 üçün

tələblər

  • Java 2 Standard Edition Runtime Environment

Oxşar proqram

generateDS.py
generateDS.py

15 Apr 15

JCAM Engine
JCAM Engine

3 Jun 15

Markdoc
Markdoc

11 May 15

Geliştirici digər proqram Martin Jericho

Şərh Jericho HTML Parser

Şərhlər tapılmadı
Şərh əlavə
Images yandırın!