基于流程引擎的網(wǎng)上服務(wù)平臺(tái)的研究與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-2?Lucene系統(tǒng)架構(gòu)??
ir*〇〇x??圖3-2?Lucene系統(tǒng)架構(gòu)??從圖3-1中可以清楚看到,Lucene主要由三大部分組成:基礎(chǔ)結(jié)構(gòu)封裝、索引核心、對(duì)外??接口。其中,索引核心是整個(gè)系統(tǒng)的重點(diǎn)部分,它可以直接操作索引文件。Lucene在被設(shè)計(jì)時(shí)??所應(yīng)用的一條基本思想是:引入額外的抽象層,降低耦....
圖3心子,扭助k關(guān)健詞提職效果
圖3-6?Lucene關(guān)鍵詞提取效果??在上面實(shí)驗(yàn)中,利用TextRank算法提取的關(guān)鍵詞為:“父親,收入,經(jīng)濟(jì),穩(wěn)定,且不,??返家,約,一個(gè)月,需要,微薄”,Lucene方法提取的關(guān)鍵詞為:“收入,父親,臥病在床,照??顧,返家,穩(wěn)定,常常,奶奶,承擔(dān),且不”,通過(guò)對(duì)比發(fā)現(xiàn)其....
圖3-8余弦相似度??兩個(gè)向量的余弦值的點(diǎn)積公式為公式3-3所示:??
值越趨近于1,代表兩個(gè)向量越趨近于重合,他們的方向更加一致,相應(yīng)的相似度也??越高。在文本相似度判定中,由于文本特征向量在定義上的特殊性,其余弦值范圍為[0,1],即??向量夾角越趨向于90°,則兩向量越不相似[39]。如圖3-8所示。??1?I??-??x?I??圖3-8余弦相....
圖3-9?SimHash值的生成圖解??假設(shè)輸出的fingerprint為f位,算法的步驟如下[42]:??
離由二者的海明距離(Hamming?Distance)來(lái)確定,這樣就可以將兩篇文章的相似度計(jì)算轉(zhuǎn)換成文??本的海明距離計(jì)算了。通常我們可以通過(guò)比較兩篇文章的f-bit的指紋的海明距離是不是小于3,??來(lái)確定兩篇文章是否相似。SimHash值的生成圖解如圖3-9所示。??featu....
本文編號(hào):3957131
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3957131.html