Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Software ətraflı:
Version: 3.4
Tarixi Upload: 10 Dec 15
Geliştirici: Martin Jericho
Lisenziya: Pulsuz
Məşhurluq: 105

Rating: 5.0/5 (Total Votes: 1)

Birə hər hansı tanınmayan və ya etibarsız HTML səsləndirmə isə

Bu server-yan və klient tags redaktə edə bilərsiniz.

O, həmçinin yüksək səviyyəli HTML forma manipulyasiya funksiyaları təmin edir

Features . Of

  • iştirakı real-dünya & quot; pis biçimlendirilmiş HTML & quot ilə istifadə üçün kitabxana ideal edir sənədin qalan bir təhlil müdaxilə etmir; Digər parsers şoklar HTML.
  • ASP, JSP, PSP, PHP və Mason server tags aydın parser tərəfindən tanınır. Bu normal HTML hələ dinamik element atributları qəbulu Məsələn üçün ümumi olan, onların içərisində server tags var, hətta düzgün ayrıştırılan deməkdir.
  • bir hadisə iterator istifadə edərək böyük faylları yaddaş səmərəli emal etməyə imkan verir StreamedSource sinif istifadə edərək, yeni bir axın əsasən təhlil seçimi. Bu mahiyyətcə digər streaming parsers mövcud deyil HTML və qeyri-doğrulama XML, eləcə də bir sıra digər xüsusiyyətləri emal qabiliyyəti ilə bir Stax alternativ deyil.
  • bir hadisə də ağac based parser deyil, sadə mətn axtarış, səmərəli tag tanınması və bir tag mövqeyi cache bir arada istifadə edir qiymətləndirilir standart formada. bütün əsas sənədin mətni ilk yaddaş instantly, sonra yalnız müvafiq seqmentləri hər əməliyyat-axtarış müvafiq simvol üçün axtarış.

  • Sənədin yalnız kiçik bölmələr ayrıştırılan və ya redaktə etmək lazımdır, əgər
  • Belə DOM kimi bir ağac əsaslı parser ilə müqayisədə, yaddaş və resurs tələblərinə daha yaxşı ola bilər. Yanlış və ya pis biçimlendirilmiş HTML asanlıqla üstdən-aşağı sənəddə hər node müəyyən etməlidir ağac əsaslı parsers fərqli olaraq, göz ardı edilə bilər.
  • Belə SAX kimi bir hadisə əsasında parser ilə müqayisədə, interface daha yüksək səviyyədə və daha çox intuitiv və tələb əgər sənəd element iyerarxiya bir ağac təmsil asanlıqla yaradılmışdır.
  • başlayacaq və bütün ayrıştırılan seqmentləri mənbəyi sənəddə son mövqeləri bir ağac bütün sənəd yenidən qurulması olmadan sənədin yalnız seçilmiş seqmentləri modifikasiyası imkan erişilebilir.
  • mənbə sənəd hər mövqe satır və sütun sayı asanlıqla əlçatan edir.
  • ilkin dəyərləri çıxarılması və əhalinin, o cümlədən HTML forma nəzarət təhlili və manipulyasiya üçün bir sadə, lakin hərtərəfli interfeys təmin edir, və dönüşüm oxumaq yalnız və ya data ekran rejimi. Də data şəklində alınan imkan verir forma nəzarət təhlili saxlanılır və müvafiq qaydada təqdim ediləcək.
  • Daxili funksionallığı belə Apache Lucene kimi bir mətn axtarış mühərriki daxil qidalanma üçün uyğun HTML biçimlendirme bütün mətn, çıxarış.
  • Daxili funksionallığı sadə mətn biçimlendirme ilə HTML biçimlendirme göstərməyə.
  • Daxili funksionallığı sənəd element tabeliyi öz dərinliyinə görə elementləri abzas HTML kodunu format. (Online nümayiş etdirmək üçün buraya basın)
  • Daxili yığcam HTML mənbə kodu funksionallığı bütün lazımsız ağ kosmik aradan qaldırılması.
  • Xüsusi tag növləri asanlıqla müəyyən və parser tərəfindən tanınması üçün qeydiyyatdan ola bilər.

Bu azad yeni nədir.

  • Added Source (File) konstruktor
  • Added OutputDocument.getSegment () metodu.
  • Added OutputDocument.remove metodu (int, int son başlayır).
  • Added Renderer.setHRLineLength () metodu.
  • Added RenderToText.jsp webapp nümunə.
  • Added Segment.getRowColumnVector () metodu.
  • Encoding aşkar indi ilkin kodlama ilə bir araya sığmayan kodu vahid ölçüsü var meta tags nəzərdə tutulmuş ümumi kodlamaları məhəl qoymur.

versiyası 3.1 yeni nədir:

  • Bug giderir:
  • Segment.getAllStartTags on Infinite loop ()
  • Segment.getAllElements on Infinite loop ()
  • Segment.getFirst * üsulları bounding seqment xaricində seqmentləri döndü.
  • Segment.getAllElements üsulları bəzi hallarda bütün əlavə elementləri qayıtmayıb.

  • Segment.getAllElements üsulları
  • Sabit sənədlərin səhvlər.
  • Added StreamedSource sinif.

  • Mövcud proqramların davranış təsir göstərə bilər
  • Bu dəyişiklikləri:

  • Sinif ParseText dəyişdi
  • interfeys.
  • Segment.getNodeIterator () indi ayrı-ayrı qovşaqlarının kimi xarakter istinadlar qaytarır.

  • Atributu dəyəri normal ifadeler əsasında
  • Əlavə tag axtarış üsulları.

  • HTML sinif atributu əsasında
  • Əlavə tag axtarış üsulları.
  • Əlavə statik Source.LegacyNodeIteratorCompatabilityMode əmlak müvəqqəti əvvəlki versiyasını ki Segment.getNodeIterator () funksionallığı bərpa etmək üçün.

  • ParseText da
  • silindi char [] based axtarış üsulları.
  • Added CharacterReference.appendCharTo (Appendable) metodu.
  • Added OutputDocument (Seqment) konstruktor.
  • Added StreamedSourceCopy nümunə proqram.

Oxşar proqram

Stylus
Stylus

1 Mar 15

Brython
Brython

9 Feb 16

FluentDOM
FluentDOM

22 Jul 15

Geliştirici digər proqram Martin Jericho

Şərh Jericho HTML Parser

Şərhlər tapılmadı
Şərh əlavə
Images yandırın!
Kateqoriya axtarış