垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用
本文關(guān)鍵詞:垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展一方面給我們提供了極其豐富的信息,另一方面也加大了信息過濾的難度。互聯(lián)網(wǎng)用戶越來越依賴于搜索引擎來縮小信息檢索的范圍,從而更高效地獲取自己感興趣的內(nèi)容。但是,用戶的期望結(jié)果是小而精,通用搜索引擎追求的目標(biāo)是大而全,與用戶的特定需求南轅北轍。在這種背景下,垂直搜索引擎應(yīng)運(yùn)而生。如果把互聯(lián)網(wǎng)當(dāng)作一個(gè)服務(wù)提供者,則其成熟的一條重要標(biāo)志就是由通用化向訂制化發(fā)展,垂直搜索引擎的出現(xiàn)即是這種轉(zhuǎn)換的具體表現(xiàn),也是搜索引擎未來的發(fā)展方向。首先,本文結(jié)合互聯(lián)網(wǎng)的發(fā)展史,綜述了垂直搜索引擎的出現(xiàn)背景及意義。以煙草行業(yè)為例,深入分析了企業(yè)日益增長的信息檢索需求與通用搜索引擎固有局限性之間的矛盾,論證了垂直搜索引擎應(yīng)用于企業(yè)的必要性與可行性。然后結(jié)合筆者在煙草企業(yè)的實(shí)習(xí)經(jīng)歷,設(shè)計(jì)并實(shí)現(xiàn)了一種針對煙草行業(yè)的垂直搜索引擎。在對垂直搜索引擎的整體架構(gòu)和關(guān)鍵技術(shù)充分研究的基礎(chǔ)上,提出了一種“三度過濾”的主題判別方法,并提高了PageRank算法在實(shí)際應(yīng)用中的適應(yīng)性。然后對開源項(xiàng)目Lucene進(jìn)行了本地化改造,最終開發(fā)出一款適用于煙草行業(yè)的垂直搜索引擎。本文主要研究內(nèi)容如下:(1)在研習(xí)搜索引擎典型架構(gòu)的基礎(chǔ)上,詳細(xì)闡述了中文分詞、倒排索引和鏈接分析三項(xiàng)關(guān)鍵技術(shù)的實(shí)現(xiàn)原理。通過橫向?qū)Ρ瓤偨Y(jié)出了各種搜索模型的優(yōu)缺點(diǎn),以布爾模型實(shí)現(xiàn)基礎(chǔ)的文本篩選,以空間向量模型實(shí)現(xiàn)高級的匹配運(yùn)算,從而建立起符合煙草行業(yè)特點(diǎn)的搜索模型,兼具簡單易行和支持相關(guān)性評分兩方面優(yōu)勢。(2)編程模擬了Page Rank算法的迭代過程,對出鏈-入鏈矩陣中的黑洞問題和PageRank向量的數(shù)據(jù)失衡問題進(jìn)行了深入的分析。黑洞問題會(huì)造成部分網(wǎng)頁壟斷PageRank得分,使評分結(jié)果有失客觀性與科學(xué)性;而數(shù)據(jù)失衡問題會(huì)造成迭代過程的收斂速度過慢,無法應(yīng)用于大規(guī)模的計(jì)算。本文通過引入馬爾科夫鏈理論對模型加入兩次隨機(jī)性調(diào)整,使之更符合上網(wǎng)者隨機(jī)瀏覽網(wǎng)頁的過程,從根本上杜絕了黑洞問題的產(chǎn)生并加快了PageRank的收斂速度。(3)提出了一種“三度過濾”的主題判別方法。借助煙草行業(yè)的專業(yè)詞庫,在主題判別的過程中將預(yù)判因子、元信息因子、詞庫因子納入主題相關(guān)度的計(jì)算,有效過濾了與主題無關(guān)的網(wǎng)頁,大大提高了搜索引擎的查準(zhǔn)率。另一方面,該算法得出的預(yù)判因子還用于調(diào)整URL隊(duì)列的優(yōu)先級,幫助主題爬蟲優(yōu)先抓取主題相關(guān)度更高的網(wǎng)頁。(4)通過對Lucene源代碼的本地化改造,實(shí)現(xiàn)了開源項(xiàng)目與系統(tǒng)開發(fā)的兼容性整合。結(jié)合原始的空間向量模型,對影響網(wǎng)頁歡迎度與主題相關(guān)度的各項(xiàng)因子進(jìn)行調(diào)整,將查詢詞的詞頻、詞類、通用性以及文檔長度納入綜合統(tǒng)計(jì),并對不同的查詢域進(jìn)行差異化加權(quán),最終得出了符合煙草行業(yè)特點(diǎn)的評分公式。
【關(guān)鍵詞】:垂直搜索 PageRank算法 主題判別 網(wǎng)絡(luò)爬蟲 文檔排序
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.3;F426.8
【目錄】:
- 摘要4-6
- Abstract6-12
- 第一章 緒論12-23
- 1.1 研究背景及意義12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-17
- 1.3 搜索模型概述17-20
- 1.3.1 布爾搜索模型17-18
- 1.3.2 向量空間搜索模型18-19
- 1.3.3 概率搜索模型19-20
- 1.3.4 元搜索模型20
- 1.3.5 四種搜索模型的對比20
- 1.4 研究內(nèi)容20-22
- 1.5 本文組織結(jié)構(gòu)22-23
- 第二章 搜索引擎的整體架構(gòu)與關(guān)鍵技術(shù)23-44
- 2.1 搜索引擎的體系結(jié)構(gòu)23-28
- 2.1.1 爬蟲模塊24-26
- 2.1.2 預(yù)處理模塊26-27
- 2.1.3 查詢服務(wù)模塊27-28
- 2.2 中文分詞28-35
- 2.2.1 基于詞典的分詞28-30
- 2.2.2 基于統(tǒng)計(jì)的分詞30-35
- 2.3 倒排索引35-40
- 2.3.1 索引結(jié)構(gòu)35-38
- 2.3.2 文檔評分38-40
- 2.4 鏈接分析40-44
- 2.4.1 PageRank算法41
- 2.4.2 HITS算法41-44
- 第三章 PageRank算法的適應(yīng)性改進(jìn)44-53
- 3.1 引言44
- 3.2 PageRank的原始求和方法44-46
- 3.3“黑洞”問題46-47
- 3.4 馬爾科夫修正47-52
- 3.5 本章小結(jié)52-53
- 第四章 針對煙草行業(yè)的主題判別53-61
- 4.1 引言53
- 4.2 種子URL的選取53-54
- 4.3 超鏈接判別54-56
- 4.4 元信息判別56-59
- 4.5 詞庫判別59-60
- 4.6 本章小結(jié)60-61
- 第五章 垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)61-83
- 5.1 需求分析61-64
- 5.1.1 功能需求61-62
- 5.1.2 性能需求62-63
- 5.1.3 可靠性和可用性需求63
- 5.1.4 開發(fā)平臺(tái)63-64
- 5.2 主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)64-71
- 5.2.1 網(wǎng)頁抓取64-68
- 5.2.2 異步I/O68-71
- 5.3 文檔評分及排序71-77
- 5.3.1 Lucene工具包71-72
- 5.3.2 向量空間模型72-74
- 5.3.3 適用于煙草行業(yè)的評分公式74-77
- 5.4 查詢交互頁面77-79
- 5.4.1 高亮顯示技術(shù)77-78
- 5.4.2 頁面設(shè)計(jì)78-79
- 5.5 搜索引擎的評價(jià)原則79-82
- 5.5.1 查全率與查準(zhǔn)率79-80
- 5.5.2 本系統(tǒng)與通用搜索引擎的對比80-82
- 5.6 本章小結(jié)82-83
- 第六章 總結(jié)與展望83-85
- 6.1 全文總結(jié)83-84
- 6.2 研究展望84-85
- 參考文獻(xiàn)85-89
- 致謝89-90
- 攻讀學(xué)位期間的研究成果90
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊堅(jiān)爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
2 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書館學(xué)研究;2006年12期
3 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國科技信息;2007年05期
4 胡華梁;何進(jìn);鐘元生;;圖書垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期
5 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
6 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期
7 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
8 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
9 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期
10 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國會(huì)計(jì)信息化年會(huì)論文集[C];2011年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報(bào);2006年
2 王艷;垂直搜索引擎市場看好[N];中國旅游報(bào);2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報(bào)海外版;2000年
4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日報(bào);2007年
5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報(bào);2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報(bào);2008年
8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計(jì)算機(jī)報(bào);2000年
10 ;沱沱網(wǎng)“亮劍”國際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報(bào);2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場價(jià)格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年
2 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
3 吳燕瑋;基于行業(yè)知識(shí)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
4 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年
5 錢永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2015年
6 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
7 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
8 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年
9 朱鵬;英文語料庫垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
10 楊小丹;面向教育資源c\索引擎的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
本文關(guān)鍵詞:垂直搜索引擎在煙草行業(yè)的研究與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):307475
本文鏈接:http://sikaile.net/gongshangguanlilunwen/307475.html