天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Lucene的商品垂直搜索引擎研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-05-02 01:10

  本文關(guān)鍵詞:基于Lucene的商品垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著網(wǎng)絡(luò)信息資源的急劇增長(zhǎng),人們?cè)絹?lái)越多地關(guān)注如何快速有效地從海量的網(wǎng)絡(luò)信息中,抽取出潛在的、有價(jià)值的信息,使之有效地在管理和決策中發(fā)揮作用。垂直搜索引擎具有專(zhuān)、精、深的特點(diǎn),可通過(guò)面向某一特定的領(lǐng)域、人群或需求僅搜索網(wǎng)絡(luò)中的特定主題信息,并且聚合信息、處理索引,提供有價(jià)值的相關(guān)服務(wù)和信息,從而提高用戶(hù)檢索時(shí)的準(zhǔn)確率。 現(xiàn)在網(wǎng)絡(luò)上進(jìn)行商品交易的活動(dòng)越來(lái)越多,在這里將針對(duì)這種應(yīng)用來(lái)設(shè)計(jì)商品搜索引擎,以方便用戶(hù)能夠在短時(shí)間內(nèi)找到自己需要的商品,并及時(shí)購(gòu)買(mǎi),那么這就涉及到了商品垂直搜索引擎的實(shí)現(xiàn)。 本文提出了電子商務(wù)系統(tǒng)中的一個(gè)商品垂直搜索引擎。首先用python寫(xiě)爬蟲(chóng)從現(xiàn)有的B2C網(wǎng)站京東、天貓上抓取商品數(shù)據(jù),也可以自己手動(dòng)地添加商品數(shù)據(jù)到數(shù)據(jù)庫(kù),這里專(zhuān)門(mén)開(kāi)發(fā)了后臺(tái)數(shù)據(jù)添加模塊。接著探討了基于MD5數(shù)字簽名的數(shù)據(jù)消重算法,經(jīng)過(guò)試驗(yàn)在查準(zhǔn)率、查全率和響應(yīng)時(shí)間上都滿(mǎn)足實(shí)際需求。然后借鑒關(guān)聯(lián)規(guī)則理論對(duì)中文詞語(yǔ)進(jìn)行定義,在此基礎(chǔ)上構(gòu)建Autoword自動(dòng)構(gòu)詞算法,該算法可以從大量中文語(yǔ)料庫(kù)中動(dòng)態(tài)地構(gòu)造詞表,并以此為基礎(chǔ)進(jìn)行中文文本挖掘工作。針對(duì)電子商務(wù)系統(tǒng)中商品結(jié)構(gòu)化信息的特點(diǎn),結(jié)合現(xiàn)有的TF-IDF算法提出了一種改進(jìn)的排序算法,并在該系統(tǒng)中應(yīng)用了全文檢索和數(shù)據(jù)庫(kù)查詢(xún)兩種技術(shù)。全文檢索技術(shù)和數(shù)據(jù)庫(kù)的結(jié)合既支持了相關(guān)度排序,提高了檢索速度,又能靈活查詢(xún)和使用商品的結(jié)構(gòu)化信息和實(shí)時(shí)信息,并通過(guò)結(jié)果展示以及與其他電子商務(wù)網(wǎng)站的橫向比較驗(yàn)證了該算法的優(yōu)越性,F(xiàn)有的搜索引擎大都采用了輸入—輸出的響應(yīng)模式,該模式?jīng)]有考慮用戶(hù)反饋,本文提出了基于用戶(hù)交互的自適應(yīng)算法,探討了智能排序,從而利用用戶(hù)數(shù)據(jù)對(duì)排序結(jié)果作優(yōu)化。最后,本文完成了系統(tǒng)的總體框架搭建及實(shí)現(xiàn)。本人在學(xué)位論文中所做的主要工作如下: 1、爬蟲(chóng)與數(shù)據(jù)消重模塊設(shè)計(jì)與實(shí)現(xiàn) 在本系統(tǒng)中的數(shù)據(jù)源為兩部分,一部分是用python腳本寫(xiě)的爬蟲(chóng)程序從起始URL開(kāi)始,以廣度優(yōu)先算法從現(xiàn)有的B2C網(wǎng)站京東、天貓上爬取到的數(shù)據(jù),還有就是自己手動(dòng)添加到數(shù)據(jù)庫(kù)里的數(shù)據(jù),這里專(zhuān)門(mén)開(kāi)發(fā)了后臺(tái)數(shù)據(jù)添加模塊。 優(yōu)秀的垂直搜索引擎需要一個(gè)高質(zhì)量的數(shù)據(jù)來(lái)源,高質(zhì)量的搜索結(jié)果必然依賴(lài)于高質(zhì)量的數(shù)據(jù),為了避免得到重復(fù)、相似或者信息不完整的搜索結(jié)果,數(shù)據(jù)的正確性是至關(guān)重要的。本文設(shè)計(jì)了基于MD5數(shù)字簽名的數(shù)據(jù)消重算法,經(jīng)過(guò)實(shí)驗(yàn)在查準(zhǔn)率、查全率和響應(yīng)時(shí)間上都滿(mǎn)足實(shí)際需求。 2、基于關(guān)聯(lián)規(guī)則的自動(dòng)構(gòu)詞算法研究 詞語(yǔ)是中文文本的基本元素,漢語(yǔ)語(yǔ)言模型在中文文本挖掘中起關(guān)鍵作用。中文文本挖掘是個(gè)高維度的數(shù)據(jù)處理技術(shù),挖掘算法對(duì)維度的大小比較敏感,挖掘效果依賴(lài)于詞庫(kù)的質(zhì)量。另外,現(xiàn)存的漢語(yǔ)語(yǔ)言模型一般都是基于統(tǒng)計(jì)的,,比如N-gram語(yǔ)言模型以及各種改進(jìn)模型,都具有較高的計(jì)算復(fù)雜度。為降低語(yǔ)言模型的計(jì)算復(fù)雜度、提高詞庫(kù)的質(zhì)量和構(gòu)詞效率,本文借鑒關(guān)聯(lián)規(guī)則理論對(duì)中文詞語(yǔ)進(jìn)行定義,在此基礎(chǔ)上構(gòu)建Autoword自動(dòng)構(gòu)詞算法,該算法可以從大量中文語(yǔ)料庫(kù)中動(dòng)態(tài)地構(gòu)造詞表,并以此為基礎(chǔ)進(jìn)行中文文本挖掘工作。最后通過(guò)實(shí)驗(yàn)證明本文提出的自動(dòng)構(gòu)詞算法的有效性。 3、排序優(yōu)化算法的改進(jìn)和研究 針對(duì)電子商務(wù)系統(tǒng)中商品結(jié)構(gòu)化信息的特點(diǎn),結(jié)合現(xiàn)有的TF-IDF算法提出了一種改進(jìn)的排序算法,并在該系統(tǒng)中應(yīng)用了全文檢索和數(shù)據(jù)庫(kù)查詢(xún)兩種技術(shù)。全文檢索技術(shù)和數(shù)據(jù)庫(kù)的結(jié)合既支持了相關(guān)度排序,提高了檢索速度,又能靈活查詢(xún)和使用商品的結(jié)構(gòu)化信息和實(shí)時(shí)信息,并通過(guò)結(jié)果展示以及與其他電子商務(wù)網(wǎng)站的橫向比較驗(yàn)證了該算法的優(yōu)越性。 現(xiàn)有搜索引擎大都采用了輸入—輸出的響應(yīng)模式,該模式?jīng)]有考慮用戶(hù)反饋。本文還提出了基于用戶(hù)交互的自適應(yīng)算法,探討了智能排序,從而利用用戶(hù)數(shù)據(jù)對(duì)排序結(jié)果作優(yōu)化。 4、總體框架搭建及實(shí)現(xiàn) 分析和掌握了Lucene主要架構(gòu)和各個(gè)部件,搭建了完整的開(kāi)發(fā)環(huán)境,詳細(xì)地研究其中的索引模塊和檢索模塊實(shí)現(xiàn)機(jī)制和原理,通過(guò)對(duì)搜索引擎以及結(jié)合Lucene自身的特定制定本次設(shè)計(jì)需要實(shí)現(xiàn)的功能,開(kāi)發(fā)了一個(gè)基于Lucene的商品垂直搜索引擎。它具有一下特點(diǎn):(1)能夠接受python爬蟲(chóng)爬取的數(shù)據(jù),也有自己的后臺(tái)數(shù)據(jù)手動(dòng)添加模塊;(2)支持分詞查詢(xún);(3)運(yùn)用Lucene工具包編程實(shí)現(xiàn)了網(wǎng)頁(yè)內(nèi)容索引;(4)運(yùn)用Ajax技術(shù)實(shí)現(xiàn)搜索服務(wù)的網(wǎng)頁(yè)交互,生成動(dòng)態(tài)網(wǎng)頁(yè),返回用戶(hù)搜索結(jié)果;(5)運(yùn)用Spring框架實(shí)現(xiàn)系統(tǒng)的后臺(tái)管理,運(yùn)用JSP技術(shù)實(shí)現(xiàn)系統(tǒng)的前臺(tái)開(kāi)發(fā);(6)支持全文搜索;(7)能夠高亮顯示搜索關(guān)鍵字;(8)顯示查詢(xún)所用的時(shí)間;(9)顯示搜索歷史、過(guò)濾關(guān)鍵字;(10)能夠清除查詢(xún)歷史。 其中分詞、全文搜索和排序都可以結(jié)合Lucene提供的類(lèi)庫(kù)以及本文研究的相關(guān)算法實(shí)現(xiàn),而關(guān)鍵字高亮度顯示只需要借助Highlighter的幫助,通過(guò)數(shù)據(jù)庫(kù)持久化保存數(shù)據(jù)。
【關(guān)鍵詞】:關(guān)聯(lián)規(guī)則 自動(dòng)構(gòu)詞 全文檢索 用戶(hù)反饋 智能排序
【學(xué)位授予單位】:東華大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.3
【目錄】:
  • 摘要4-7
  • Abstract7-13
  • 第一章 緒論13-19
  • 1.1 引言13
  • 1.2 課題的研究背景及意義13-15
  • 1.3 國(guó)內(nèi)外相關(guān)研究綜述15-16
  • 1.4 論文的主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)16-17
  • 1.4.1 爬蟲(chóng)與數(shù)據(jù)消重模塊設(shè)計(jì)與實(shí)現(xiàn)16
  • 1.4.2 基于關(guān)聯(lián)規(guī)則的自動(dòng)構(gòu)詞算法研究16-17
  • 1.4.3 排序算法的改進(jìn)和研究17
  • 1.4.4 總體框架搭建及實(shí)現(xiàn)17
  • 1.5 論文的結(jié)構(gòu)安排17-19
  • 第二章 商品垂直搜索引擎理論及關(guān)鍵技術(shù)19-32
  • 2.1 引言19-20
  • 2.2 搜索引擎原理20-23
  • 2.2.1 爬蟲(chóng)21
  • 2.2.2 索引21-22
  • 2.2.3 存儲(chǔ)22
  • 2.2.4 查詢(xún)22-23
  • 2.3 全文檢索和倒排索引技術(shù)23-25
  • 2.4 全文檢索引擎框架 Lucene25-28
  • 2.5 JSP、Tomcat 服務(wù)器與 AJAX28-30
  • 2.6 系統(tǒng)質(zhì)量的評(píng)測(cè)標(biāo)準(zhǔn)30-31
  • 2.7 本章小結(jié)31-32
  • 第三章 爬蟲(chóng)與數(shù)據(jù)消重模塊的設(shè)計(jì)與實(shí)現(xiàn)32-47
  • 3.1 引言32
  • 3.2 爬蟲(chóng)模塊設(shè)計(jì)與實(shí)現(xiàn)32-40
  • 3.2.1 爬蟲(chóng)原理32-33
  • 3.2.2 抓取策略33-34
  • 3.2.3 正則表達(dá)式基礎(chǔ)34-35
  • 3.2.4 本文的爬蟲(chóng)實(shí)例與手動(dòng)后臺(tái)數(shù)據(jù)添加模塊35-40
  • 3.3 數(shù)據(jù)消重的設(shè)計(jì)與實(shí)現(xiàn)40-46
  • 3.3.1 重復(fù)數(shù)據(jù)的產(chǎn)生背景和消重的重要意義40
  • 3.3.2 重復(fù)數(shù)據(jù)的產(chǎn)生背景40
  • 3.3.3 數(shù)據(jù)消重的重要意義40
  • 3.3.4 數(shù)據(jù)消重的一般方法40-41
  • 3.3.5 MD5 算法原理41-44
  • 3.3.6 本文設(shè)計(jì)的 MD5 指紋消重算法44-45
  • 3.3.7 實(shí)驗(yàn)45-46
  • 3.4 本章小結(jié)46-47
  • 第四章 基于關(guān)聯(lián)規(guī)則的自動(dòng)構(gòu)詞算法研究47-56
  • 4.1 引言47
  • 4.2 相關(guān)理論47-48
  • 4.3 基于關(guān)聯(lián)規(guī)則理論的詞語(yǔ)定義48-49
  • 4.4 Autoword 自動(dòng)構(gòu)詞算法49-53
  • 4.4.1 提取文字序列頻繁集50-51
  • 4.4.2 構(gòu)造字典樹(shù)51-52
  • 4.4.3 挖掘詞語(yǔ)52-53
  • 4.5 實(shí)驗(yàn)53-55
  • 4.6 本章小結(jié)55-56
  • 第五章 排序優(yōu)化算法的改進(jìn)和研究56-66
  • 5.1 引言56
  • 5.2 改進(jìn)的排序優(yōu)化算法的設(shè)計(jì)與實(shí)現(xiàn)56-62
  • 5.2.1 全文檢索和數(shù)據(jù)庫(kù)查詢(xún)的結(jié)合56-57
  • 5.2.2 改進(jìn)的排序優(yōu)化算法57-58
  • 5.2.3 改進(jìn)的排序優(yōu)化算法結(jié)果展示及橫向比較58-61
  • 5.2.4 改進(jìn)的排序優(yōu)化算法的局限61-62
  • 5.3 自適應(yīng)算法設(shè)計(jì)與實(shí)現(xiàn)62-65
  • 5.3.1 自適應(yīng)系統(tǒng)的基本理論62-63
  • 5.3.2 系統(tǒng)原理圖63
  • 5.3.3 反饋?zhàn)赃m應(yīng)搜索的系統(tǒng)結(jié)構(gòu)63-64
  • 5.3.4 用戶(hù)興趣采集技術(shù)64
  • 5.3.5 用戶(hù)興趣度的計(jì)算64
  • 5.3.6 算法設(shè)計(jì)64-65
  • 5.3.7 實(shí)現(xiàn)方案65
  • 5.4 本章小結(jié)65-66
  • 第六章 總體框架搭建及實(shí)現(xiàn)66-75
  • 6.1 引言66
  • 6.2 系統(tǒng)分析66-68
  • 6.3 框架的搭建及實(shí)現(xiàn)68-73
  • 6.3.1 集成開(kāi)發(fā)環(huán)境的配置68-69
  • 6.3.2 lucene 部署配置69
  • 6.3.3 建立索引69-71
  • 6.3.4 前臺(tái) Web 頁(yè)面結(jié)構(gòu)71-72
  • 6.3.5 后臺(tái)數(shù)據(jù)編輯實(shí)現(xiàn)72-73
  • 6.4 系統(tǒng)測(cè)試73-74
  • 6.4.1 測(cè)試重要性73-74
  • 6.4.2 測(cè)試用例74
  • 6.5 本章小結(jié)74-75
  • 第七章 總結(jié)與展望75-78
  • 7.1 總結(jié)75-76
  • 7.1.1 爬蟲(chóng)與數(shù)據(jù)消重模塊設(shè)計(jì)與實(shí)現(xiàn)75
  • 7.1.2 基于關(guān)聯(lián)規(guī)則的自動(dòng)構(gòu)詞算法研究75-76
  • 7.1.3 排序優(yōu)化算法的改進(jìn)和研究76
  • 7.1.4 總體框架搭建及實(shí)現(xiàn)76
  • 7.2 展望76-78
  • 參考文獻(xiàn)78-82
  • 攻讀碩士學(xué)位期間發(fā)表(錄用)的論文82-83
  • 致謝83

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 任惠靜;;基于Lucene的面向主題搜索引擎的索引技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年04期

2 蘇菲,王丹力,戴國(guó)忠;基于標(biāo)記的規(guī)則統(tǒng)計(jì)模型與未登錄詞識(shí)別算法[J];計(jì)算機(jī)工程與應(yīng)用;2004年15期

3 王映龍;楊炳儒;宋澤鋒;陳卓;唐建軍;;基因序列相似程度的LCS算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年31期

4 劉君強(qiáng);孫曉瑩;潘云鶴;;關(guān)聯(lián)規(guī)則挖掘技術(shù)研究的新進(jìn)展[J];計(jì)算機(jī)科學(xué);2004年01期

5 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計(jì)算機(jī)工程;2011年11期

6 白萬(wàn)民;蘇希樂(lè);;Heritrix在垂直搜索引擎中的應(yīng)用[J];計(jì)算機(jī)時(shí)代;2011年09期

7 李效東,顧毓清;基于DOM的Web信息提取[J];計(jì)算機(jī)學(xué)報(bào);2002年05期

8 秦進(jìn),陳笑蓉,汪維家,陸汝占;文本分類(lèi)中的特征抽取[J];計(jì)算機(jī)應(yīng)用;2003年02期

9 李偉;吳及;呂萍;;基于前后向語(yǔ)言模型的語(yǔ)音識(shí)別詞圖生成算法[J];計(jì)算機(jī)應(yīng)用;2010年10期

10 寇蘇玲;蔡慶生;;中文文本分類(lèi)中的特征選擇研究[J];計(jì)算機(jī)仿真;2007年03期


  本文關(guān)鍵詞:基于Lucene的商品垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。



本文編號(hào):340005

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/340005.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)d7ae0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产中文字幕久久黄色片| 成年人视频日本大香蕉久久| 日韩精品中文字幕亚洲| 国产美女精品午夜福利视频 | 亚洲中文字幕在线乱码av| 国产精品一级香蕉一区| 亚洲国产精品一区二区| 三级理论午夜福利在线看| 亚洲伦理中文字幕在线观看| 久久精品福利在线观看| 国产精品乱子伦一区二区三区| 国产在线小视频你懂的| 欧美av人人妻av人人爽蜜桃| 欧美日韩国产亚洲三级理论片| 综合久综合久综合久久| 国产精品视频久久一区| 久久精品偷拍视频观看| 国产精品久久香蕉国产线| 高清一区二区三区四区五区| 激情五月激情婷婷丁香| 国产超碰在线观看免费| 国产精品日韩精品一区| 一区二区三区四区亚洲另类| 日韩精品人妻少妇一区二区| 久久精品视频就在久久| 亚洲视频在线观看你懂的| 黄色国产精品一区二区三区| 日本女人亚洲国产性高潮视频| 后入美臀少妇一区二区| 国产精品午夜视频免费观看| 亚洲男人天堂成人在线视频| 免费在线观看欧美喷水黄片| 精品女同在线一区二区| 久久福利视频视频一区二区| 国产一区二区三区精品免费| 五月天丁香婷婷一区二区| 国产精品一区二区传媒蜜臀| 国产又粗又长又大高潮视频| 日韩欧美高清国内精品| 久久精品福利在线观看| 国产一区二区熟女精品免费|