Apache Lucene də aşağı server resurs istehlak saxlanılması və sürətli və yüksək dəqiqlik nəticələr isə , tam mətn axtarış üçün dəstək tələb edir hər hansı bir proqram üçün uygundur.
Lucene geniş bir çox digər axtarış araçları əsas olan, ən yaxşı axtarış motorları biri kimi hesab olunur, ən məşhur olan Apache Solr .
Lucene Java və Apache Fondu tərəfindən azad olunur ci ildən tamamilə yazılır, bir çox digər dillərdə idxal və üçüncü proqram inkişaf kimi müxtəlif birləşdirilməsi və sarmalayıcılarının mövcud olmuşdur.
Bu azad Yeni nədir:
- Bütün fayl giriş indi istifadə edir daha yaxşı səhv rəftar baxımından Lucene güclü index təhlükəsizlik vermək Java NIO.2 API və təhlükəsiz götürür.
- Hər Lucene seqmenti artıq unikal id seqment başına və index faylları dəqiq təkrarçılığın yardım üçün başına törətmək saklar.
- birləşməsi zamanı IndexWriter indi həmişə birləşmə əvvəl korrupsiyaya daxil olan seqmentləri yoxlayır. Bu 5.0.0 yükseltmek, ki, birləşmə uzun sürən köhnə 4.x indeksi gizli korrupsiya açmaq bilər, demək olar.
versiya yeni nədir 5.2.1 / 4.10.4 / 3.6.2:
- Bütün faylı giriş indi daha yaxşı səhv rəftar və təhlükəsiz öhdəliyini baxımından Lucene güclü index təhlükəsizlik vermək Java NIO.2 API istifadə edir.
- Hər Lucene seqmenti artıq unikal id seqment başına və index faylları dəqiq təkrarçılığın yardım üçün başına törətmək saklar.
- birləşməsi zamanı IndexWriter indi həmişə birləşmə əvvəl korrupsiyaya daxil olan seqmentləri yoxlayır. Bu 5.0.0 yükseltmek, ki, birləşmə uzun sürən köhnə 4.x indeksi gizli korrupsiya açmaq bilər, demək olar.
versiya yeni nədir 5.1.0 / 4.10.4 / 3.6.2:
- Bütün faylı giriş indi daha yaxşı səhv rəftar və təhlükəsiz öhdəliyini baxımından Lucene güclü index təhlükəsizlik vermək Java NIO.2 API istifadə edir.
- Hər Lucene seqmenti artıq unikal id seqment başına və index faylları dəqiq təkrarçılığın yardım üçün başına törətmək saklar.
- birləşməsi zamanı IndexWriter indi həmişə birləşmə əvvəl korrupsiyaya daxil olan seqmentləri yoxlayır. Bu 5.0.0 yükseltmek, ki, birləşmə uzun sürən köhnə 4.x indeksi gizli korrupsiya açmaq bilər, demək olar.
5.0.0 / 4.10.3 / 3.6.2 versiyası yeni nədir:
- New şərtləri .getMin / Max üsulları sahəsində hər və ən yüksək şərtləri almaq üçün.
- New IDVersionPostingsFormat.
- doc bir sıra Atom yeniləmə sahələri qiymətləndirir.
- doc dəyərlər Axtarış-time performans üçün çoxsaylı optimallaşdırılması.
- New (default) Lucene49NormsFormat daha belə çox qısa sahələri kimi müəyyən hallarda kompres.
- multi qiymətləndirilir rəqəmli sahələrində səmərəli emalı üçün New SORTED_NUMERIC docvalues növü.
- Indexer asan təkrar istifadə üçün əvvəlki mö'cüzə axın keçir.
- MoreLikeThis sahəsində birdən çox dəyərləri qəbul edir.
- onların RAM istifadə qiymətləndirmək Bütün siniflər indi yeni bir hesabat interfeys həyata keçirir.
- Lucene faylları indi tamamilə sadələşdirilmiş IO API ilə axtaran disallowing, bütün platformlarda (File) OutputStream tərəfindən yazılmışdır.
- MMapDirectory yeni bir xəritə yaratmaq bilməz zaman confusing səhv mesajı təkmilləşdirilməsi.
ID başına monotonically artan versiyası şərik ID lookups üçün optimize
versiyası 4.8.0 yeni nədir:
- Lucene yeni Rescorer / QueryRescorer API var yerinə yetirmək üçün ilk pass hit toplandıqdan sonra daha bahalı qol funksiyaları istifadə edərək ikinci pass rescoring və ya axtarış nəticələri reranking.
- AnalyzingInfixSuggester indi yaxın real-vaxt autosuggest dəstəkləyir.
- Sadələşdirilmiş təsir sıralanır ilanları sort üçün bildirmək Lucene nin Sort sinif istifadə etmək (SortingMergePolicy və EarlyTerminatingCollector istifadə edərək,).
- Bulk qol və normal iterator-based qol ayrıldı, belə ki, bəzi sorğu daha səmərəli toplu qol edə bilərsiniz.
- endeksleme zamanı şərtlərini hash MurmurHash3 keçid.
- IndexWriter indi ikili doc dəyəri sahələrində yenilənməsi dəstəkləyir.
- HunspellStemFilter indi az RAM 100x 10 istifadə edir. O, həmçinin səhv olmadan bütün məlum OpenOffice lüğətlər yükler.
- Lucene indi də, öhdəliyini Directory metadata fsyncs.
- Lucene indi oxucu hələ də açıq, hətta zaman, başlıq altında Java 7 fayl sistemi funksiyaları istifadə edir.
- NativeFSLockFactory bir ciddi səhv çox IndexWriters eyni kilidi əldə etmək üçün imkan bilər, müəyyən edilib. lock file lock keçirilən hətta index kataloq silinir artıq.
Əməliyyat sistemi və fayl sistemi (Linux, MacOSX iş məlumdur) imkan varsa
Index faylları Windows edə bilər, belə ki,
versiyası 4.7.0 yeni nədir:
- String (SortField.STRING) çeşidlənməsi zaman, İndi itkin dəyərlər ilk (default) və ya son sıralanır lazımdır belirtebilirsiniz.
- fayl sistemi üçün NRT dəstək.
- Added LongBitSet çox 2.1B bit idarə olunması üçün (başqa istifadə FixedBitSet).
- Kürd üçün əlavə Analyzer.
- Əlavə taşıma kapasitesi fileDictionary (gəlir) üçün dəstək və daha yapılandırılabilir edir.
- AnalyzingInfixSuggester kimi, lakin aşağı mövqeləri ilə ayələr uyğunlaşdı təkliflər gücləndirir yeni BlendedInfixSuggester, əlavə edib.
- Added SimpleQueryParser. Insan daxil sorğu üçün parser
- PostingsHighlighter Əlavə multitermquery (joker, prefiks və s.)
Son yaxın silmək yoxdur və ya istinad semantika isə silə bilməzsiniz
nədir versiyası 4.6.0 Yeni
- olmadan NumericDocValues sahəsində yenilikləri üçün əlavə dəstək (yenidən IndexWriter.updateNumericDocValue vasitəsilə sənəd) indeksasiyası (Term, String, Long).
- New FreeTextSuggester bir quot & üçün faydalı sadə Ngram dil model istifadə edərək, növbəti sözü proqnozlaşdırmaq olar; təkliflər.
- A yeni ifadə modul script kimi sintaksis ilə Xüsusi rütbəli üçün imkan verir.
- sıkıştırılmamış java doğma seriallarda kimi yığın-yığın bütün doc dəyərlər aça bilər yeni DirectDocValuesFormat.
- Term.hasFreqs indi müəyyən edə bilər
- müddətli tezliklərin.
Uzun quyruq & quot;
Bir sahəsində başına doc yönümlü əgər
nədir versiyası 4.5.0 Yeni
- New-yaddaş DocIdSet tətbiq olan xüsusilə yaxşı kiçik dəstləri FixedBitSet daha. WAH8DocIdSet, PFORDeltaDocIdSet və EliasFanoDocIdSet
- CachingWrapperFilter indi ən pis halda FixedBitSet eyni yaddaş istifadə, lakin kiçik dəstləri kiçik və daha sürətli edir ismarıcları WAH8DocIdSet ilə filtreler önbelleğe alır.
- TokenStreams indi sonunda () mövqeyi artım təyin, belə ki, biz deşik arxada idarə edə bilərsiniz.
- IndexWriter artıq verilmiş IndexWriterConfig clones.
- Müxtəlif bugfixes və optimallaşdırılması.
4.4 azad ildən
nədir versiyası 4.4.0 Yeni
- Yeni Replicator modulu: server arasında index versiyaların kopya və müştəri.
- Yeni AnalyzingInfixSuggester. Təklif hər hansı ayələr oyunları əsasında təkliflər tapır, yalnız saf prefiks eşleme əsasında deyil
- Yeni PatternCaptureGroupTokenFilter. Çox ayələr, bir və ya daha Java regexes hər ələ qrup üçün bir buraxmaq
- Yeni Lucene Facet modulu.
nədir versiyası 4.3.0 Yeni
- Yeni SearcherTaxonomyManager idarə yaxın real-time of BİRLİYİ FƏALİYYƏTİNİ BƏRPA IndexSearcher və (faceting üçün) TaxonomyReader. həm
- ayrı taksonomisi index olmadan sayar SortedSetDocValuesField istifadə qranit, hesablamaq üçün qranit modulu üçün yeni qranit üsul əlavə edib.
- Əhəmiyyətli performans təkmilləşdirilməsi.
- Müxtəlif bugfixes və optimallaşdırılması.
Səbəbiylə 4000% daha sürətli sorğu nəticəsində atlama üçün minShouldMatch BooleanQuery üçün
4.2.1 azad ildən
nədir versiyası 4.1.0 Yeni
- Bütün alanlar (faylları yazarkən Lucene artıq çalışır ) bir əlavə yalnız şəkildə yazılmışdır. Bu əlavə yalnız axını ilə default, hdfs, və s .. çalışır deməkdir
- Yeni tətbiq gəlir: təkliflər üçün istifadə (bir Lucene Analyzer hesablanır) əsas forması əlavə giriş qeyri-dəqiq uyğun üçün imkan verir geri mətn və FuzzySuggester, ayrı AnalyzingSuggester .
- Yaxın zamanlı dəstək qranit modulu əlavə edildi.
- Yeni Vurğulayıcı (postingshighlighter) Vurğulayıcı modul əlavə edib.
- süzülür sorğu icrası daha çox rahatlıq üçün FilteredQuery Added FilterStrategy.
- Added CommonTermsQuery çox yüksək tez-tez şərtləri ilə queries sürətləndirmək üçün. Term tezliklərin səmərəli query zamanda aşkar -. Hazırlanması tələb olunan heç bir index vaxt
- Bir neçə bugfixes və optimallaşdırılması.
4.0 azad ildən
version 4.0-alfa yeni nədir:
- baxımından index formatları, ilanları siyahıları, saxlanılır sahələri, müddəti
- istiqamətini, və s. Codec API vasitəsilə pluggable var. Siz göstərilən tətbiq seçin və ya sizin ehtiyaclarını ödəmək üçün öz codec ilə index format edə bilərsiniz.
- Əhəmiyyətli sürətli performans.
- Fayl sistemi əsasında rehberler birləşməsi və mövzuları axtarış arasında IO mübahisə azaltmaq üçün birləşməsi mövzuları IO (MB / san)-limit dizaynını bilər.
- FuzzyQuery son relizlər artıq 100-200 dəfə daha sürətli edir.
- A yeni spell checker, DirectSpellChecker mümkün düzəlişlər tapır
- birbaşa ayrı index tələb olmadan əsas axtarış müqayisədə.
Axtarış zamanı Filter istifadə edərək
versiyası 3.6.0 yeni nədir:
- Java 5 və Java 6 Bundan əlavə azad indi tam Java 7 dəstək (minimum JDK 7u1 tələb olunur) var.
- TypeTokenFilter filtreler ayələr onların TypeAttribute əsaslanır.
- vurğulayaraq zamanı istisnalar gətirib çıxara bilər CharFilters, Tokenizers və TokenFilters bir sıra Sabit ofset bugs.
- Əlavə fonetik enkoderler: s Metaphone, Soundex, Caverphone, Beider-Morse, .
- CJKBigramFilter və CJKWidthFilter CJKTokenizer dəyişin.
- Kuromoji morfoloji analizator mürəkkəb sözlər və onların seqmentasiyası, həm də istehsal Yapon mətn tokenizes.
- Static index budama (Carmel budama) aşağı ərzində sənəd müddətli tezliyi ilə ilanları rədd et.
- QueryParser indi şərh '*'.
- FieldValueFilter müəyyən sahəyə itkin sənədləri istisna edir.
- CheckIndex və IndexUpgrader yeni -dir-impl command-line seçimi ilə istifadə üçün xüsusi FSDirectory həyata müəyyən etməyə imkan verir.
- FSTs indi bəzi hallarda (çıxış) axtarış ləğv edə bilərsiniz və onların ölçüsünü azaltmaq üçün dolu ola bilər. Bir FST bir start node üst N qısa yolları almaq üçün bir üsul artıq var.
- Yeni WFSTCompletionLookup suggester dəstəkləyir finer-dənəvər təkliflər üçün Reytinqde.
- FST əsasında suggesters indi offline (disk-based) sort, əvəzinə in-yaddaş növ istifadə edin.
- ToChildBlockJoinQuery (uşaq sənədləri aşağı valideyn) əks istiqamətdə qoşulur.
- Yeni sorğu-time qoşulması index-time qoşulur daha çevik (lakin az performant) təşkil edir.
- Added HTMLStripCharFilter HTML biçimlendirme soyunmaq üçün.
Sıra sorğu üçün açıq sonuna kimi
Təklif pre-çeşidlənməsi zaman
versiyası 3.5.0 yeni nədir:
- Əlavə, bir çox əhəmiyyətli (3-5X) RAM azaldılması IndexReader açılması şərtləri index keçirilməsi tələb olunur.
- Added IndexSearcher.searchAfter (əvvəlki səhifə məsələn son sənəd) dərin paging istifadə halları dəstək.
- Added SearcherManager çox axtarış mövzuları arasında mübadiləsi və açılması IndexSearchers idarə etmək. Artıq istinad əgər əsas IndexReader hallarda təhlükəsiz bağlıdır.
- Added SearcherLifetimeManager.
- Bu metodu istifadə çəkindirmək üçün forceMerge üçün.
Müəyyən ScoreDoc sonra nəticələri qaytarır
Təhlükəsiz çox sorğu arasında index (məsələn, paging / Keşfi) bir ardıcıl görünüşü təmin edir
Bu horribly bahalı və nadir hallarda artıq haqlı ci ildən IndexWriter.optimize Renamed
nədir versiyası 3.3.0 Yeni
- imla kontrolü yapma modulu indi / avtomatik tam gəlir daxildir üç tətbiq ilə işlevselliği:. Jaspell, ternary Trie, və Sonlu Dövlət
- həm olarak üçün çox shards nəticəsində birləşməsi üçün dəstək; normal & quot; Axtarış nəticələri (TopDocs.merge), eləcə də qruplaşdırılması modulu (SearchGroup.merge, TopGroups.merge). istifadə qruplaşdırılmış nəticələri
- KStem, İngilis dili üçün bir az aqressiv Stemmer bir optimize həyata keçirilməsi.
- Single-pass blok Sənəd indeksləşdirilməsi əsaslanır.
- MMapDirectory təkmilləşdirilməsi (indi də 64-bit Linux FSDirectory.open geri default həyata keçirilməsi).
- NRTManager asanlaşdırır user yaxın real-vaxt çox axtarış mövzuları ilə axtarış imkan görünən olmalıdır ki endeksleme dəyişikliklər nəzarət etmək üçün proqram olan axtarış sorğu. üçün
- TwoPhaseCommitTool bir çox resurs IndexWriter, o cümlədən törətmək iki mərhələli həyata asanlaşdırır.
- default birləşməsi siyasəti TieredMergePolicy, bu silme ilə seqmentləri hədəf necə aqressiv nəzarət etmək üçün yeni üsul (set / getReclaimDeletesWeight) var və ismarıcları indi daha aqressiv edir.
- PKIndexSplitter alət bir orta nöqtəsi müddətli bir index olur.
Həyata qruplaşdırılması
versiyası 3.2.0 yeni nədir:
- Yeni qruplaşdırılması modulu, Lucene altında / contrib / qruplaşdırılması imkan verir search results bir qiymətləndirilir indexed sahəsində qruplaşdırılmış olunacaq.
- Yeni IndexUpgrader alət tam cari format köhnə index çevirir.
- Yeni Directory həyata keçirilməsi, NRTCachingDirectory, NRT dərəcələri açılması sürətli applications üçün I / O yükü azaltmaq üçün, RAM kiçik seqmentləri önbelleğe alır.
- A yeni Collector həyata keçirilməsi, CachingCollector (isteğe də sənəd kimlikleri və puanları) axtarış Xit toplamaq və sonra onları replay bilər. Bu nəticələr üçün iki və ya daha çox keçir tələb Collectors üçün faydalıdır.
- Index IndexWriter yeni addDocuments ya updateDocuments metodlarından istifadə edərək sənəd blok. Bu eksperimental API sənədlərin blok əbədi maraqlı gələcək imkan qruplaşdırılması kimi xüsusiyyətləri və qoşulur indeksi bitişik qalır ki, təmin.
- Yeni default birləşməsi siyasəti TieredMergePolicy.
- NumericField indi saxlanılır sənəd yük zaman doğru geri (əvvəllər siz rəqəmli dəyəri konvertasiya simli ilə geri normal sahəsi alıb).
Qeyri-bitişik seqmentləri daxil edə daha səmərəli
versiyası 3.1.0 yeni nədir.
- ConstantScoreQuery indi birbaşa Sorğu
- IndexWriter indi yeni bir ayrı builder API, IndexWriterConfig ilə yapılandırılmış. İndi setMaxThreadStates zəng IndexWriter əvvəllər sabit daxili mövzu limit nəzarət edə bilərsiniz.
- IndexWriter.getReader IndexReader.open (IndexWriter) ilə əvəz olunur. Bundan əlavə siz indi bir NRT oxucu açtığınızda siler həll olunmalıdır belirtebilirsiniz.
- MultiSearcher deprecated edir; ParallelMultiSearcher IndexSearcher birbaşa sorulur edilmişdir.
64bit Windows və Solaris JVMs On- MMapDirectory (FSDirectory.open geri) default həyata keçirilməsi indi. JVM dəstəkləyir əgər MMapDirectory də unmapping imkan verir.
- Yeni TotalHitCountCollector yalnız Xit ümumi sayı sayar.
Bir seqment başa dəfə- ReaderFinishedListener API entries çıxarılması üçün xarici önbelleğe imkan verir.
versiyası 3.0.1 yeni nədir.
- FuzzyTermEnum gereksiz sinxronizasiya aradan qaldırılması
- daha yaxşı performans üçün müddət sort üçün bunu.
- səhv IndexWriter.infoStream haqqında eyni böyük müddət haqqında xəbərdarlıq saxlamaq etməyin.
- yalnız bir taşıma kapasitesi mövcuddur zaman Min / MaxPayloadFunction 0 qaytarır Fix.
- Sorğu bütün sıfır təkan müddəalar ibarət (məsələn, mətn: foo ^ 0) düzgün sıralanır və etibarsız docids istehsal .
- FuzzyQuery müdafiə daxili sinif ScoreTerm silindi. Bu sinif müqayisə bir araya sığmayan şəkildə dəyişdirilə çünki dəyişiklik lazım idi. class ictimai olmaq üçün nəzərdə heç vaxt.
Silinmiş şərtləri həllində zaman
versiyası 2.9.2 da yeni nə:
- BooleanQuery və hashCode ildə disableCoord məhəl edilmişdir üsulları bərabərdir BooleanQueries caching zaman, pis şeylər baş səbəb olur.
- səhv IndexWriter.infoStream haqqında eyni böyük müddət haqqında xəbərdarlıq saxlamaq etməyin.
- NRT oxucu müvəqqəti əhatəsindədir itirə bilər.
Yüksək endeksleme dərəcələri
versiyası 3.0.0 yeni nədir:
- SegmentReader sinif həyata qurmaq üçün sistem əmlak silindi.
- IndexCommit üçün IndexCommitPoint olan SnapshotDeletionPolicy # snapshot () dəyişməsi qaytarılması növü. Bu metoddan istifadə edir Kodu işləmək üçün Lucene 3.0 qarşı recompiled lazımdır. əvvəllər deprecated IndexCommitPoint də çıxarılır.
- bütün əsas atributları üçün Token instansiya yaradan rahatlığı AttributeFactory təmin edir.
- NumericRangeTermEnum da recursion çıxarın.
- FuzzyQuery da Optimize Levenshtein Məsafə hesablanması.
Şərhlər tapılmadı