Apache Nutch

Software screenshot:
Apache Nutch
Software ətraflı:
Version: 2.3 Yenil?nib
Tarixi Upload: 17 Jul 15
Geliştirici: Sami Siren
Lisenziya: Pulsuz
Məşhurluq: 12

Rating: 1.0/5 (Total Votes: 2)

Apache Nutch layihə Apache Lucene (Java version) kitabxana qurur ki, açıq mənbə, genişlənən, yüksək genişlənən və Web-based web browser proqramdır.
Bu Bu Apache Fondu, iki ayrı filial tərəfindən hazırlanmış və yayılır s browser, bir link-graph verilənlər bazası, HTML və digər sənəd formatları üçün parsers kimi Web xüsusiyyətləri, əlavə edir.
Modul və pluggable olan Apache Nutch belə təhlil üçün Apache Tika kimi xüsusi tətbiq üçün Parse, Index və ScoringFilter kimi genişlənən interfeys təmin etməklə, onun faydaları var.
Bundan əlavə, Apache Nutch bir maşın çalıştırmak üçün nəzərdə tutulmuşdur, lakin Hadoop çoxluq çalışan zaman daha güclü edir. Pluggable endeksleme və s Elastic axtarış, Apache Solr üçün mövcuddur

Bu azad yeni nə:.

  • NUTCH-1779 müraciət kodu format (lewismc)
  • HostDbUpdateReducer (lewismc) çərçivəsində Host üçün Outlinks of NUTCH-1907 yanlış çıxdı
  • NUTCH-1856 Document webpage.avsc və host.avsc (lewismc)
  • NUTCH-1834 GeneratorMapper davranış (snagel vasitəsilə Gerhard Gossen) log səviyyəsindən asılıdır
  • build uğursuzluq (Tələt) qarşısını almaq üçün NUTCH-1899 upgrade restlet lib
  • NUTCH-1797 aradan qaldırılması istifadə olunmamış paketi oanhtml (snagel vasitəsilə Saurabh Chhajed)
  • NUTCH-1888 TikaParser (jnioche vasitəsilə Halil Şimşək) istifadə etmək HTMLMapper daxil
  • plugin XML səhvlər NUTCH-1897 asan hata (Markus)
  • NUTCH-1823 Upgrade elasticsearch üçün 1.4.1 (Phu Kieu Markus, lewismc)
  • NUTCH-1829 Generator: real səhvlər ayırmaq iqtidarında (Mathieu Bouchard, jnioche, snagel)
  • NUTCH-1778 Generator doğru toplu URL sayı giriş deyil (jnioche vasitəsilə snagel)
  • NUTCH-1877 Suffix URL filter default sorğu simli ignore (snagel vasitəsilə Markus)
  • NUTCH-1825 protokol-http müəyyən web pages üçün asmaq bilər (snagel vasitəsilə Phu Kieu)
  • NUTCH-1483 protokol fayl plugin ilə fayl tarama bilməz (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • NUTCH-1885 Protokol fayl istiqamətləndirmə kimi rəmzi links (Mengying Wang, snagel) yanaşmalıyıq
  • NUTCH-1880 URLUtil fayl URL üçün əlavə slashes əlavə olmaz (snagel)
  • NUTCH-1879 Regex URL Normalizer fayl sonra çox slashes aradan qaldırılması lazımdır: protokol (snagel)
  • NUTCH-1820 aradan qaldırılması sahəsində & quot; orig & quot; olan dublikatları & quot; id & quot; (Lewismc, snagel)
  • Gora 0.5 NUTCH-1843 Upgrade (Talat, lewismc, Kiril Menşikov, drazzib)
  • NUTCH-1883 bin / tarama: istifadə funksiyası bin / nutch run və exit dəyəri yoxlamaq üçün (snagel)
  • NUTCH-1882 ant tutulması hədəf src / test çıxış yolunu əlavə etmək üçün (snagel)
  • NUTCH-1827 Port NUTCH-1467 və NUTCH-1561 2.x (snagel)
  • Crawler Commons NUTCH-1876 Upgrade 0.5 (jnioche)
  • NUTCH-1866 ant tutulması hədəf uzunluğu silmək olmaz (nimafl vasitəsilə lewismc)
  • NUTCH-1859 Nutch webapp port yapılandırılabilir olun (lewismc vasitəsilə Nima Falaki)
  • DashboardPage.html hallarda counter NUTCH-1848 Bug (lewismc vasitəsilə Nima Falaki)
  • NUTCH-841 Nutch (lewismc vasitəsilə Fjodor Verşinin) üçün Wicket-based Web Application yarat
  • NUTCH-1832 (mattmann vasitəsilə lewismc)
  • bir indexer olmadan Nutch iş olun
  • NUTCH-1840 SolrIndexWriter təsvir funksiyası doğru deyil (jnioche vasitəsilə Kaveh minooie)
  • Tika 1.6 (lewismc) üçün NUTCH-1837 Upgrade
  • NUTCH-1829 Generator: real səhvlər ayırmaq iqtidarında (jnioche vasitəsilə Mathieu Bouchard)
  • NUTCH-1828 bin / tarama: nutch səhvlərin yanlış user (jnioche vasitəsilə Mathieu Bouchard)
  • NUTCH-1693 TextMD5Signature mətnşünaslıq məzmun (Tien Nguyen Mảnh, Markus vasitəsilə snagel) hesablanır
  • NUTCH-1409 aradan qaldırılması deprecated xassələri db. {Default, max} .fetch.interval, generate.max.per.host.by.ip (snagel vasitəsilə Matthias Agethle)
  • GeneratorJob (lewismc vasitəsilə Fjodor Verşinin) in NUTCH-1819 batchId
  • NUTCH-1708 istifadə eyni id zaman indeksləşdirilməsi və silinməsi yönləndirmələri (snagel)
  • NUTCH-1817 mənbədən pom.xml Sil (jnioche)
  • NUTCH-1811 bin / JUnit 4 test runner (snagel) istifadə nutch JUnit
  • NUTCH-1776 Log səhv plugin.folder fayl yolu (snagel vasitəsilə Diaa)
  • NUTCH-1566 bin / yolları ağ (tejasp, snagel) imkan nutch
  • NUTCH-1605 MIME növü detector Zip faylı (snagel)
  • kimi XLSX tanıyır
  • NUTCH-385 Alıcısı (jnioche, Donghai) üçün mövzu ilə bağlı konfiqurasiya təsviri təkmilləşdirilməsi

  • Düzgün
  • NUTCH-1798 Tarama script zəng index command (Aaron Bedward jnioche vasitəsilə)
  • NUTCH-1769 REST API refactoring (lewismc vasitəsilə Fjodor Verşinin)
  • NUTCH-1633 slf4j Hadoop tərəfindən təmin edilir və (jnioche vasitəsilə Kaveh minooie) iş fayl daxil edilməməlidir
  • NUTCH-1787 yeniləmə və tam API doc ümumi səhifə (snagel)
  • NUTCH-1767 xüsusi müalicə aradan qaldırılması & quot; Parametreler & quot; nisbi links (snagel)
  • NUTCH-1718 yenidən http.robots.agent olarak kimi əlavə agent adları & quot; (Snagel, Tejas Patil, Daniel Kugel)

  • Boş inşaatçılara (lewismc vasitəsilə snagel) qarşı kimi
  • NUTCH-1796 təmin Gora obyekt qurucuları istifadə olunur
    Nəşr Javadoc da
  • NUTCH-1590 [SECURITY] Frame injection zəifliyi (jnioche)

  • Http cavab header Transfer-Kodlama varsa
  • NUTCH-1736 səhifə almaq Veri: öbekli (GAŞ vasitəsilə jnioche)
  • NUTCH-1782 NodeWalker cari node (Markus) qayıtmaq üçün
  • NUTCH-1781 Update gora - * - mapping.xml və gora.proeprties Gora 0,4 əks etdirmək üçün (lewismc)
  • ElasticSearch 1.1.0 (jnioche) üçün NUTCH-1768 Upgrade
  • NUTCH-1634 readdb -stats iki dəfə nəticə göstərir (Kaveh minooie jnioche vasitəsilə)
  • NUTCH-1780 TTL və atributları gora-Cassandra-mapping.xml faylı itkin gc_grace_seconds (Kaveh minooie lewismc vasitəsilə)
  • NUTCH-1676 protokol-http (jnioche Markus) üçün rudimentary SSL dəstək əlavə et
  • NUTCH-1674 İstifadə batchId filter imkan (GORA-119) scan Fetch üçün Parse, Update, Index (jnioche vasitəsilə Tien Nguyen Manh və Alparslan Avcı)
  • Gora 0.4 NUTCH-1714 Upgrade (jnioche vasitəsilə Alparslan Avcı)
  • NUTCH-1752 Cache robots.txt qaydaları protokol başına: Ev sahibi: port (snagel)
  • in NUTCH-1613 aşımları protokolu-HttpClient ilə & gt eyni ana tarama zaman 2 mövzuları (brian44 vasitəsilə jnioche)
  • hung mövzuları daxil NUTCH-1182 alıcısı (snagel)
  • NUTCH-1618 alma (talat)
  • üçün spekulyativ icra söndürün
  • NUTCH-1657 ORIGINAL_CHAR_ENCODING və HTMLParser (Tələt) müəyyən vaxt CHAR_ENCODING_FOR_CONVERSION
  • NUTCH-1725 CleaningJob nin reduktor silinmiş docs törətmək deyil. (Tələt vasitəsilə ilhamikalkan)
  • NUTCH-1728 indexer-solr plugin Solr olan docs silmək deyil (ilhamikalkan vasitəsilə talat)
  • 2.x üçün NUTCH-1753 Eclipse dependecy problem (talat)
  • HttpBase.java (jnioche vasitəsilə Walter Tietze) in NUTCH-1720 Duplicate xətləri
  • link hədəf & quot ilə başlayır zaman NUTCH-797 URL düzgün inşa deyil; & quot; (Doug Cook, Robert Hohman, Stondet, snagel vasitəsilə ab)
  • Crawler Commons NUTCH-1759 Upgrade 0.4 (jnioche)

  • Src / plugin
  • NUTCH-1700 çıxarın deprecated kodu / creativecommons / build.xml (lewismc)
  • NUTCH-1761 Tarama script bin dir daxilində açılmış əgər iş faylı tapmaq üçün uğursuz (David Hosking, jnioche)
  • NUTCH-1603 Poçt parser haqqında qaralar PDF faylı (lewismc vasitəsilə snagel)
  • şikayət
  • NUTCH-1743 parsechecker outlinks göstərmək üçün (snagel)
  • NUTCH-1732 (lewismc vasitəsilə Fjodor Verşinin) NutchServer üçün təhlil Better cmd line
  • NUTCH-1751 Boş Çapa olmamalıdır index (lewismc vasitəsilə Sertac TÜRKEL)
  • NUTCH-1733 parse-html dəstək HTML5 charset anlayışlar (snagel)
  • NUTCH-1727 TLD'lerin üçün Yapılandırılabilir uzunluğu (lewismc vasitəsilə Sertac TÜRKEL)
  • NUTCH-1738 GeneratorJob (ewismc vasitəsilə Talat UYARER) Batch başına yaradılan URL sayı ifşa
  • sahəsində (snagel, Lufeng) həzm əlavə etmək üçün NUTCH-1671 indexchecker
  • NUTCH-1645 JUnit Test Case Adaptive üçün Schedule sinif Fetch (Yasin Qılınc, Donghai, snagel vasitəsilə Sertaç Urkel)

  • Nutch 2.x seriyası üçün
  • NUTCH-1478 Parse-metatags və index-metadata plugin (Kıran, Nguyen anh Tien, Talat UYARER, lewismc vasitəsilə Vangelis Karvounis)
  • Tika 1.5 (jnioche) üçün NUTCH-1729 Upgrade
  • NUTCH-1721 ümumi browser yükseltin 0.3 (tejasp)

  • URL (lewismc vasitəsilə Gerhard Gossen) unreversed deyil, çünki
  • NUTCH-1719 DomainStatistics 2.x uğursuz
  • NUTCH-1253 Incompatable neko və Xerces versiyasını (snagel, lewismc, Talat UYARER)
  • NUTCH-1715 RobotRulesParser robotlar adı (tejasp)
  • üçün '*' əlavə edir
  • NUTCH-356 Plugin depo cache yaddaş sızıntısı gətirib çıxara bilər (Enrico Triolo, Dogacan Güney vasitəsilə markus)

  • Protokol-http (tejasp vasitəsilə Sertac Türkel) üçün
  • NUTCH-1164 Write JUnit testlər

  • Log4j.properties üçün
  • NUTCH-1710 Add gora paketi giriş (lewismc)
  • (lewismc vasitəsilə Talat UYARER) Elastik axtarış NUTCH-1655 Indexer Plugin
  • NUTCH-1699 Tika Parser - Image Parse Bug (Mehmet Zahid Yuzuguldu, lewismc vasitəsilə snagel)
  • NUTCH-1568 port pluggable endeksleme memarlıq 2.x (lewismc vasitəsilə Talat UYARER)
  • NUTCH-1672 inlinks (lewismc vasitəsilə Tien Nguyen Mảnh) DbUpdateReducer iki dəfə əlavə olunur
  • NUTCH-1667 Updatedb həmişə görməməzlikdən batchId (lewismc vasitəsilə Tien Nguyen Manh)
  • NUTCH-1695 NutchDocument.toString () (Markus vasitəsilə lewismc)
  • NUTCH-1696 istifadə Enable (Gora) Anlık asılılıqlar (lewismc)
  • URLUtil.java In NUTCH-1681, toUNICODE metodu düzgün iş deyil (A

Şərh Apache Nutch

Şərhlər tapılmadı
Şərh əlavə
Images yandırın!