Apache Nutch üst inşa edilmişdir Apache Lucene, güclü Java search engine.
Nutch developers xüsusi Web haqqında məlumat axtarış üçün həsr olunmuş layihə data-aqnostik Lucene codebase dəyişdirir, Lucene codebase redaktə edilib.
Bu texnologiya daxili axtarış server kimi öz Web pages axtarış, və ya analiz və verilənlər bazası daxil qaşımaq üçün məlumat axtarır Web tarama üçün istifadə edilə bilər.
Nutch bir maşın run, lakin Hadoop qruplar daha yaxşı işləyir bilər.
Müxtəlif plugins onun istifadə spektri genişləndirilməsi üçün mövcuddur
Bu azad Yeni nədir.
- cüt tags yoxdur təmin etmək microformat-reltag tag dəsti.
- A daha yaxşı tarix sahəsində dəyər geri düşür.
- dreaded. qurtarmaq
- Hadoop 1.2.0 yükseltin.
- Tika 1.3 yükseltin.
2.0 yeni nədir.
- ParseFilter daxil HTMLParseFilter Renamed
- lib-http. qalan robotlar / IP blok kodu Sil
- Port giriş slf4j üçün.
- Xarici parser encoding atributu dəstəkləyir.
- Ivy konfiqurasiya parametrləri Gora daxil deyil.
- Injector injectedScore zəng əvvəl metadata əlavə etmək lazımdır.
- Nutchbase Port Nutch benchmark.
- geri analiz-html əlavə edin.
- MoreIndexingFilter itkin tarix format.
- Ayrıştırıcısı üçün fasiləsi.
- tarama tarixi Yeniden Dene interval 0 müəyyən edilir.
- solr indexer və DeDup üçün log çıxış yaradın.
- Təkmilləşdirilmiş NutchConfiguration.
- SolrDeleteDuplicates SolrRecord obyektlərin klon lazımdır.
- Native hadoop libs.
- ayrı-ayrı qurmaq və iş mühit.
Maven vasitəsilə mövcud deyil
nədir Versiya 1.5 Yeni
- Bu azad daxil olmaqla bir neçə əsas komponentdən yükseltmeleri daxil olmaqla bir sıra təkmilləşdirilməsi daxildir Tika 1.1 və Hadoop 1.0.0, LinkRank təkmilləşdirilməsi və WebGraph elementləri, eləcə də qara damğalama, filtreleme əhatə edən və bir neçə ad təhlil yeni plugins bir sıra.
Versiya 1.4 yeni nədir.
- Added Solr 4x (magistral) misal şeması
- Əlavə / iş "ignore svn üçün.
- Application / xhtml + xml parse-html bir plugin.xml effektiv olmalıdır; plugin.xml üçün çox mimetypes imkan verir.
- Sabit analiz-tika və RFC-3986 başına nisbi URL qətnamə istifadə üçün html analiz.
- Tika 0.10 Yükseltildi. Qeyd:. Əvvəlkindən daha bad sənədlər daha çox mətn ignore bilər Tikan yeni RTF parser - ətraflı məlumat üçün TİKA-748 bax
- Added Sonar hədəfləri.
- .
- Ant pmd hədəf pozuldu.
- Versiya 1.4 Yükseltildi Solr şeması.
Ant build.xml üçün
Versiya 3.4.0 üçün SolrJ Yükseltildi
nədir Versiya 1.3 Yeni
- Bu azad bir neçə irəliləyişlər (təkmilləşdirilmiş RSS təhlil dəstək daxildir, sıx Apache Tika, xarici təhlil dəstəyi, təkmilləşdirilmiş dil müəyyən edilməsi və bal gücündə kiçik mənbə azad tarball əmri ilə inteqrasiya -. yalnız 2MB haqqında)
Versiya 1.2 yeni nədir.
- Make index daha plug-in yapılandırılabilir
- Yapılandırılabilir fayl protokol valideyn directory tarama.
- Ayrıştırıcısı üçün fasiləsi.
- Veb hələ Lucene markalı olunur.
- tarama tarixi Yeniden Dene interval 0 müəyyən edilir.
nədir 1.0 versiyasını Yeni:.
- parsers çox Parse obyektlərin qayıtmaq üçün imkan verir
- silindi lazımsız Commons-giriş jar.
- SegmentReader Bug sonsuz loop səbəb olur.
- Qiymətləndirilməsi filter bir dəfə bütün outlinks hesab yaymaq lazımdır.
- nutch əsas xəbərdarlıq sayının azaldılması.
Ontologiya plugin
Şərhlər tapılmadı