Apache Tika aşkar və parser kitabxana heç bir şey istifadə lakin mövcud bir neçə sənəd metadata, eləcə də strukturlaşdırılmış mətn content çıxarış üçün nəzərdə tutulmuşdur bir açıq mənbə Toolbar edir.
Apache Tika aşağıdakı sənəd formatlarını dəstəkləyir: Hypertext Markup Language (HTTP), XML və əldə formatları, Microsoft Office sənəd format, OpenDocument Format (odf), Portable Document Format (PDF), Elektron nəşr Format (AƏF), Zəngin Mətn Formatı (RTF ), sıxılma və qablaşdırma formatları, text / audio / image / video formatları, mbox format və Java class faylları və arxiv.
Əvvəllər Apache Tika Apache Lucene proqram kitabxana sub-layihə idi. İndi Apache Software Fondu tərəfindən bağımsız bir paket olaraq bölüşdürülür
Bu azad yeni nədir.
- bir silindi bu (TIKA-1129) bir zəif seçilmiş GPL mətn test HTML fayl.
- Təkmilləşdirilməsi bu text / html və mətn / xml məzmun (TIKA-1126, TİKA-1127) istehsal üçün imkan.
- təkmilləşdirilməsi doğru (TIKA-1096) müəyyən decompressConcatenated seçimi tələb g'zipped faylları idarə etmək üçün Compressor Parser edilmişdir.
- awk faylları (TİKA-1081). aşkar mane olan bir bədii səhv Ünvanlı
- yalnız (TIKA-1047) təqdimatına kiçik bir hissəsi əsasında media-növü algılar Tikan JAX-RS REST server yeni son nöqtə Added.
- RTF:. Sifariş və unordered siyahıları artıq hasil olunur (TIKA-1062)
- MP3 Audio müddəti artıq çıxarılır (TİKA-991)
- Java Class faylları. Java bytecodes (TIKA-1053) təhlil üçün ASM 3.1 ASM 4.1 upgrade
- Mime növləri: anlayışlar isteğe şamil Link (URL) və iye, o cümlədən bir neçə ümumi formatları (TİKA-1012 / TİKA-1083) üçün detalları ilə birlikdə
- İstisnalar zaman Office sənədlər xülasə məlumat təhlil, OLE10 əlaqədar sənədləri təhlil və TikaCLI daxil documennts qənaət zaman İndi əvəzinə hasilatı Aborting bir daxil (TİKA-1074)
- MS Word: line cədvəlli xarakter indi newline (TIKA-1128) ilə əvəz olunur
- XML: ElementMetadataHandlers İndi isteğe cüt və boş dəyərlər qəbul edə bilər (TIKA-1133) .
Tika-server
tələblər
- Java 2 Standard Edition Runtime Environment
Şərhlər tapılmadı