Apache Tika

Software screenshot:
Apache Tika
Software ətraflı:
Version: 1.4
Tarixi Upload: 20 Feb 15
Lisenziya: Pulsuz
Məşhurluq: 6

Rating: nan/5 (Total Votes: 0)

Apache Tika aşkar və parser kitabxana heç bir şey istifadə lakin mövcud bir neçə sənəd metadata, eləcə də strukturlaşdırılmış mətn content çıxarış üçün nəzərdə tutulmuşdur bir açıq mənbə Toolbar edir.
Apache Tika aşağıdakı sənəd formatlarını dəstəkləyir: Hypertext Markup Language (HTTP), XML və əldə formatları, Microsoft Office sənəd format, OpenDocument Format (odf), Portable Document Format (PDF), Elektron nəşr Format (AƏF), Zəngin Mətn Formatı (RTF ), sıxılma və qablaşdırma formatları, text / audio / image / video formatları, mbox format və Java class faylları və arxiv.
Əvvəllər Apache Tika Apache Lucene proqram kitabxana sub-layihə idi. İndi Apache Software Fondu tərəfindən bağımsız bir paket olaraq bölüşdürülür

Bu azad yeni nədir.

  • bir silindi bu (TIKA-1129) bir zəif seçilmiş GPL mətn test HTML fayl.

  • Tika-server
  • Təkmilləşdirilməsi bu text / html və mətn / xml məzmun (TIKA-1126, TİKA-1127) istehsal üçün imkan.
  • təkmilləşdirilməsi doğru (TIKA-1096) müəyyən decompressConcatenated seçimi tələb g'zipped faylları idarə etmək üçün Compressor Parser edilmişdir.
  • awk faylları (TİKA-1081).
  • aşkar mane olan bir bədii səhv Ünvanlı
  • yalnız (TIKA-1047) təqdimatına kiçik bir hissəsi əsasında media-növü algılar Tikan JAX-RS REST server yeni son nöqtə Added.
  • RTF:. Sifariş və unordered siyahıları artıq hasil olunur (TIKA-1062)
  • MP3 Audio müddəti artıq çıxarılır (TİKA-991)
  • Java Class faylları. Java bytecodes (TIKA-1053) təhlil üçün ASM 3.1 ASM 4.1 upgrade
  • Mime növləri: anlayışlar isteğe şamil Link (URL) və iye, o cümlədən bir neçə ümumi formatları (TİKA-1012 / TİKA-1083)
  • üçün detalları ilə birlikdə
  • İstisnalar zaman Office sənədlər xülasə məlumat təhlil, OLE10 əlaqədar sənədləri təhlil və TikaCLI daxil documennts qənaət zaman İndi əvəzinə hasilatı Aborting bir daxil (TİKA-1074)
  • MS Word: line cədvəlli xarakter indi newline (TIKA-1128)
  • ilə əvəz olunur
  • XML: ElementMetadataHandlers İndi isteğe cüt və boş dəyərlər qəbul edə bilər (TIKA-1133)
  • .

tələblər

  • Java 2 Standard Edition Runtime Environment

Geliştirici digər proqram The Apache Software Foundation

Apache OpenOffice
Apache OpenOffice

20 Jan 18

jakarta-tomcat
jakarta-tomcat

2 Jun 15

Apache OpenNLP
Apache OpenNLP

20 Feb 15

Şərh Apache Tika

Şərhlər tapılmadı
Şərh əlavə
Images yandırın!