Apache Nutch

Software screenshot:
Apache Nutch
Software ətraflı:
Version: 2.3
Tarixi Upload: 1 Mar 15
Lisenziya: Pulsuz
Məşhurluq: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch üst inşa edilmişdir Apache Lucene, güclü Java search engine.
Nutch developers xüsusi Web haqqında məlumat axtarış üçün həsr olunmuş layihə data-aqnostik Lucene codebase dəyişdirir, Lucene codebase redaktə edilib.
Bu texnologiya daxili axtarış server kimi öz Web pages axtarış, və ya analiz və verilənlər bazası daxil qaşımaq üçün məlumat axtarır Web tarama üçün istifadə edilə bilər.
Nutch bir maşın run, lakin Hadoop qruplar daha yaxşı işləyir bilər.
Müxtəlif plugins onun istifadə spektri genişləndirilməsi üçün mövcuddur

Bu azad Yeni nədir.

  • cüt tags yoxdur təmin etmək microformat-reltag tag dəsti.
  • A daha yaxşı tarix sahəsində dəyər geri düşür.
  • dreaded.
  • qurtarmaq
  • Hadoop 1.2.0 yükseltin.
  • Tika 1.3 yükseltin.

2.0 yeni nədir.

  • ParseFilter daxil HTMLParseFilter Renamed
  • lib-http.
  • qalan robotlar / IP blok kodu Sil
  • Port giriş slf4j üçün.
  • Xarici parser encoding atributu dəstəkləyir.
  • Ivy konfiqurasiya parametrləri Gora daxil deyil.
  • Injector injectedScore zəng əvvəl metadata əlavə etmək lazımdır.
  • Nutchbase Port Nutch benchmark.
  • geri analiz-html əlavə edin.
  • MoreIndexingFilter itkin tarix format.
  • Ayrıştırıcısı üçün fasiləsi.
  • tarama tarixi Yeniden Dene interval 0 müəyyən edilir.
  • solr indexer və DeDup üçün log çıxış yaradın.
  • Təkmilləşdirilmiş NutchConfiguration.
  • SolrDeleteDuplicates SolrRecord obyektlərin klon lazımdır.

  • Maven vasitəsilə mövcud deyil
  • Native hadoop libs.
  • ayrı-ayrı qurmaq və iş mühit.

nədir Versiya 1.5 Yeni

  • Bu azad daxil olmaqla bir neçə əsas komponentdən yükseltmeleri daxil olmaqla bir sıra təkmilləşdirilməsi daxildir Tika 1.1 və Hadoop 1.0.0, LinkRank təkmilləşdirilməsi və WebGraph elementləri, eləcə də qara damğalama, filtreleme əhatə edən və bir neçə ad təhlil yeni plugins bir sıra.

Versiya 1.4 yeni nədir.

  • Added Solr 4x (magistral) misal şeması
  • Əlavə / iş "ignore svn üçün.
  • Application / xhtml + xml parse-html bir plugin.xml effektiv olmalıdır; plugin.xml üçün çox mimetypes imkan verir.
  • Sabit analiz-tika və RFC-3986 başına nisbi URL qətnamə istifadə üçün html analiz.
  • Tika 0.10 Yükseltildi. Qeyd:. Əvvəlkindən daha bad sənədlər daha çox mətn ignore bilər Tikan yeni RTF parser - ətraflı məlumat üçün TİKA-748 bax

  • Ant build.xml üçün
  • Added Sonar hədəfləri.

  • Versiya 3.4.0 üçün SolrJ Yükseltildi
  • .
  • Ant pmd hədəf pozuldu.
  • Versiya 1.4 Yükseltildi Solr şeması.

nədir Versiya 1.3 Yeni

  • Bu azad bir neçə irəliləyişlər (təkmilləşdirilmiş RSS təhlil dəstək daxildir, sıx Apache Tika, xarici təhlil dəstəyi, təkmilləşdirilmiş dil müəyyən edilməsi və bal gücündə kiçik mənbə azad tarball əmri ilə inteqrasiya -. yalnız 2MB haqqında)

Versiya 1.2 yeni nədir.

  • Make index daha plug-in yapılandırılabilir
  • Yapılandırılabilir fayl protokol valideyn directory tarama.
  • Ayrıştırıcısı üçün fasiləsi.
  • Veb hələ Lucene markalı olunur.
  • tarama tarixi Yeniden Dene interval 0 müəyyən edilir.

nədir 1.0 versiyasını Yeni:.

  • parsers çox Parse obyektlərin qayıtmaq üçün imkan verir

  • Ontologiya plugin
  • silindi lazımsız Commons-giriş jar.
  • SegmentReader Bug sonsuz loop səbəb olur.
  • Qiymətləndirilməsi filter bir dəfə bütün outlinks hesab yaymaq lazımdır.
  • nutch əsas xəbərdarlıq sayının azaldılması.

Oxşar proqram

useful.filter.js
useful.filter.js

12 May 15

Sphinx
Sphinx

12 May 15

Zoie
Zoie

13 May 15

Tipue drop
Tipue drop

20 Jul 15

Geliştirici digər proqram Apache Software Foundation

Apache OpenJPA
Apache OpenJPA

20 Jul 15

Apache Samza
Apache Samza

1 Oct 15

Apache TomEE
Apache TomEE

10 Feb 16

Apache Thrift
Apache Thrift

13 Apr 15

Şərh Apache Nutch

Şərhlər tapılmadı
Şərh əlavə
Images yandırın!