天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 管理論文 > 工商管理論文 >

垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用

發(fā)布時(shí)間:2017-04-15 03:10

  本文關(guān)鍵詞:垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展一方面給我們提供了極其豐富的信息,另一方面也加大了信息過濾的難度。互聯(lián)網(wǎng)用戶越來越依賴于搜索引擎來縮小信息檢索的范圍,從而更高效地獲取自己感興趣的內(nèi)容。但是,用戶的期望結(jié)果是小而精,通用搜索引擎追求的目標(biāo)是大而全,與用戶的特定需求南轅北轍。在這種背景下,垂直搜索引擎應(yīng)運(yùn)而生。如果把互聯(lián)網(wǎng)當(dāng)作一個(gè)服務(wù)提供者,則其成熟的一條重要標(biāo)志就是由通用化向訂制化發(fā)展,垂直搜索引擎的出現(xiàn)即是這種轉(zhuǎn)換的具體表現(xiàn),也是搜索引擎未來的發(fā)展方向。首先,本文結(jié)合互聯(lián)網(wǎng)的發(fā)展史,綜述了垂直搜索引擎的出現(xiàn)背景及意義。以煙草行業(yè)為例,深入分析了企業(yè)日益增長的信息檢索需求與通用搜索引擎固有局限性之間的矛盾,論證了垂直搜索引擎應(yīng)用于企業(yè)的必要性與可行性。然后結(jié)合筆者在煙草企業(yè)的實(shí)習(xí)經(jīng)歷,設(shè)計(jì)并實(shí)現(xiàn)了一種針對煙草行業(yè)的垂直搜索引擎。在對垂直搜索引擎的整體架構(gòu)和關(guān)鍵技術(shù)充分研究的基礎(chǔ)上,提出了一種“三度過濾”的主題判別方法,并提高了PageRank算法在實(shí)際應(yīng)用中的適應(yīng)性。然后對開源項(xiàng)目Lucene進(jìn)行了本地化改造,最終開發(fā)出一款適用于煙草行業(yè)的垂直搜索引擎。本文主要研究內(nèi)容如下:(1)在研習(xí)搜索引擎典型架構(gòu)的基礎(chǔ)上,詳細(xì)闡述了中文分詞、倒排索引和鏈接分析三項(xiàng)關(guān)鍵技術(shù)的實(shí)現(xiàn)原理。通過橫向?qū)Ρ瓤偨Y(jié)出了各種搜索模型的優(yōu)缺點(diǎn),以布爾模型實(shí)現(xiàn)基礎(chǔ)的文本篩選,以空間向量模型實(shí)現(xiàn)高級的匹配運(yùn)算,從而建立起符合煙草行業(yè)特點(diǎn)的搜索模型,兼具簡單易行和支持相關(guān)性評分兩方面優(yōu)勢。(2)編程模擬了Page Rank算法的迭代過程,對出鏈-入鏈矩陣中的黑洞問題和PageRank向量的數(shù)據(jù)失衡問題進(jìn)行了深入的分析。黑洞問題會(huì)造成部分網(wǎng)頁壟斷PageRank得分,使評分結(jié)果有失客觀性與科學(xué)性;而數(shù)據(jù)失衡問題會(huì)造成迭代過程的收斂速度過慢,無法應(yīng)用于大規(guī)模的計(jì)算。本文通過引入馬爾科夫鏈理論對模型加入兩次隨機(jī)性調(diào)整,使之更符合上網(wǎng)者隨機(jī)瀏覽網(wǎng)頁的過程,從根本上杜絕了黑洞問題的產(chǎn)生并加快了PageRank的收斂速度。(3)提出了一種“三度過濾”的主題判別方法。借助煙草行業(yè)的專業(yè)詞庫,在主題判別的過程中將預(yù)判因子、元信息因子、詞庫因子納入主題相關(guān)度的計(jì)算,有效過濾了與主題無關(guān)的網(wǎng)頁,大大提高了搜索引擎的查準(zhǔn)率。另一方面,該算法得出的預(yù)判因子還用于調(diào)整URL隊(duì)列的優(yōu)先級,幫助主題爬蟲優(yōu)先抓取主題相關(guān)度更高的網(wǎng)頁。(4)通過對Lucene源代碼的本地化改造,實(shí)現(xiàn)了開源項(xiàng)目與系統(tǒng)開發(fā)的兼容性整合。結(jié)合原始的空間向量模型,對影響網(wǎng)頁歡迎度與主題相關(guān)度的各項(xiàng)因子進(jìn)行調(diào)整,將查詢詞的詞頻、詞類、通用性以及文檔長度納入綜合統(tǒng)計(jì),并對不同的查詢域進(jìn)行差異化加權(quán),最終得出了符合煙草行業(yè)特點(diǎn)的評分公式。
【關(guān)鍵詞】:垂直搜索 PageRank算法 主題判別 網(wǎng)絡(luò)爬蟲 文檔排序
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3;F426.8
【目錄】:
  • 摘要4-6
  • Abstract6-12
  • 第一章 緒論12-23
  • 1.1 研究背景及意義12-14
  • 1.2 國內(nèi)外研究現(xiàn)狀14-17
  • 1.3 搜索模型概述17-20
  • 1.3.1 布爾搜索模型17-18
  • 1.3.2 向量空間搜索模型18-19
  • 1.3.3 概率搜索模型19-20
  • 1.3.4 元搜索模型20
  • 1.3.5 四種搜索模型的對比20
  • 1.4 研究內(nèi)容20-22
  • 1.5 本文組織結(jié)構(gòu)22-23
  • 第二章 搜索引擎的整體架構(gòu)與關(guān)鍵技術(shù)23-44
  • 2.1 搜索引擎的體系結(jié)構(gòu)23-28
  • 2.1.1 爬蟲模塊24-26
  • 2.1.2 預(yù)處理模塊26-27
  • 2.1.3 查詢服務(wù)模塊27-28
  • 2.2 中文分詞28-35
  • 2.2.1 基于詞典的分詞28-30
  • 2.2.2 基于統(tǒng)計(jì)的分詞30-35
  • 2.3 倒排索引35-40
  • 2.3.1 索引結(jié)構(gòu)35-38
  • 2.3.2 文檔評分38-40
  • 2.4 鏈接分析40-44
  • 2.4.1 PageRank算法41
  • 2.4.2 HITS算法41-44
  • 第三章 PageRank算法的適應(yīng)性改進(jìn)44-53
  • 3.1 引言44
  • 3.2 PageRank的原始求和方法44-46
  • 3.3“黑洞”問題46-47
  • 3.4 馬爾科夫修正47-52
  • 3.5 本章小結(jié)52-53
  • 第四章 針對煙草行業(yè)的主題判別53-61
  • 4.1 引言53
  • 4.2 種子URL的選取53-54
  • 4.3 超鏈接判別54-56
  • 4.4 元信息判別56-59
  • 4.5 詞庫判別59-60
  • 4.6 本章小結(jié)60-61
  • 第五章 垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)61-83
  • 5.1 需求分析61-64
  • 5.1.1 功能需求61-62
  • 5.1.2 性能需求62-63
  • 5.1.3 可靠性和可用性需求63
  • 5.1.4 開發(fā)平臺(tái)63-64
  • 5.2 主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)64-71
  • 5.2.1 網(wǎng)頁抓取64-68
  • 5.2.2 異步I/O68-71
  • 5.3 文檔評分及排序71-77
  • 5.3.1 Lucene工具包71-72
  • 5.3.2 向量空間模型72-74
  • 5.3.3 適用于煙草行業(yè)的評分公式74-77
  • 5.4 查詢交互頁面77-79
  • 5.4.1 高亮顯示技術(shù)77-78
  • 5.4.2 頁面設(shè)計(jì)78-79
  • 5.5 搜索引擎的評價(jià)原則79-82
  • 5.5.1 查全率與查準(zhǔn)率79-80
  • 5.5.2 本系統(tǒng)與通用搜索引擎的對比80-82
  • 5.6 本章小結(jié)82-83
  • 第六章 總結(jié)與展望83-85
  • 6.1 全文總結(jié)83-84
  • 6.2 研究展望84-85
  • 參考文獻(xiàn)85-89
  • 致謝89-90
  • 攻讀學(xué)位期間的研究成果90

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期

2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期

3 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期

4 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期

5 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期

6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期

7 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期

9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期

10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國會(huì)計(jì)信息化年會(huì)論文集[C];2011年

中國重要報(bào)紙全文數(shù)據(jù)庫 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報(bào);2006年

2 王艷;垂直搜索引擎市場看好[N];中國旅游報(bào);2000年

3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報(bào)海外版;2000年

4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日報(bào);2007年

5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報(bào);2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報(bào);2008年

8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年

9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計(jì)算機(jī)報(bào);2000年

10 ;沱沱網(wǎng)“亮劍”國際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報(bào);2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 王桂紅;農(nóng)產(chǎn)品市場價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年

2 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

3 吳燕瑋;基于行業(yè)知識(shí)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年

4 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年

5 錢永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2015年

6 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

7 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

8 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年

9 朱鵬;英文語料庫垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年

10 楊小丹;面向教育資源c\索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年


  本文關(guān)鍵詞:垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。



本文編號(hào):307475

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/gongshangguanlilunwen/307475.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c0018***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com