結(jié)合用戶興趣模型的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)
本文選題:用戶興趣模型 + 垂直搜索引擎 ; 參考:《北京郵電大學(xué)》2017年碩士論文
【摘要】:近年來(lái),互聯(lián)網(wǎng)時(shí)代對(duì)于公眾的影響在不斷深化。用戶在享受豐富多樣的信息帶來(lái)的生活便捷的同時(shí),也體驗(yàn)到信息過(guò)量帶來(lái)的困擾。在大量信息中,用戶不能快速定位到有價(jià)值的信息資源,在一定程度上降低了信息的利用率,造成了“資源浪費(fèi)”。通用搜索引擎已經(jīng)不能滿足固定用戶更深入的需求,具體表現(xiàn)在信息覆蓋率和準(zhǔn)確率低,返回內(nèi)容不夠精確,無(wú)效信息偏多等方面。為了解決通用搜索引擎存在的問(wèn)題,提升用戶在搜索過(guò)程中的用戶體驗(yàn),本文設(shè)計(jì)和實(shí)現(xiàn)了結(jié)合用戶興趣模型的垂直搜索引擎,并構(gòu)建API,加入到C++工程中,為用戶提供通信領(lǐng)域內(nèi)的專業(yè)知識(shí)檢索服務(wù)。對(duì)用戶搜索過(guò)程中的不同行為進(jìn)行采集和分類,通過(guò)更新后的基于混合行為的用戶興趣模型計(jì)算興趣度,為各個(gè)頁(yè)面計(jì)算出更為可靠評(píng)分值,為用戶提供個(gè)性化的檢索結(jié)果。具體工作如下:首先,本文明確了期望該系統(tǒng)解決的關(guān)鍵問(wèn)題,介紹了搜索引擎的工作流程,和在開(kāi)發(fā)過(guò)程中涉及到的關(guān)鍵技術(shù),重點(diǎn)分析了網(wǎng)頁(yè)鏈接去重的解決思路。其次,本文詳細(xì)介紹了用戶興趣模型的分析和建模過(guò)程,重點(diǎn)描述了在Python環(huán)境下的用戶數(shù)據(jù)采集方式,和用戶行為分類標(biāo)準(zhǔn)。在此基礎(chǔ)上,作者提出基于混合行為的用戶興趣模型,突出了用戶閱讀時(shí)間的特殊性,在閱讀時(shí)間出現(xiàn)異常的情況下,利用其它行為來(lái)表征用戶興趣度。再次,本文介紹了系統(tǒng)的總體架構(gòu)設(shè)計(jì),建立起以網(wǎng)頁(yè)抓取模塊,索引與檢索模塊,頁(yè)面展示模塊為核心內(nèi)容的架構(gòu)體系。利用基于Python語(yǔ)言的Scrapy開(kāi)源爬蟲(chóng)框架、BeautifulSoup網(wǎng)頁(yè)解析庫(kù)、Whoosh索引檢索庫(kù)和Flask框架,對(duì)垂直搜索引擎系統(tǒng)進(jìn)行開(kāi)發(fā)。在開(kāi)發(fā)過(guò)程中,指出了 Scrapy框架原有的URL去重方法內(nèi)存耗費(fèi)過(guò)大的問(wèn)題,并借助布隆過(guò)濾器對(duì)原有方案進(jìn)行了改進(jìn)。根據(jù)實(shí)際經(jīng)驗(yàn),制定了兩種防止爬蟲(chóng)被ban的策略。為解決Whoosh中文分詞效果不理想的問(wèn)題,使用jieba開(kāi)源分詞組件對(duì)原有分詞功能進(jìn)行了改進(jìn)。最后對(duì)原型系統(tǒng)進(jìn)行了長(zhǎng)達(dá)32天的跟蹤測(cè)試,從查全率、查準(zhǔn)率、響應(yīng)時(shí)間和死鏈比率4個(gè)方面對(duì)本系統(tǒng)進(jìn)行了評(píng)估,通過(guò)收集用戶評(píng)價(jià)和反饋意見(jiàn),得出測(cè)試結(jié)論。
[Abstract]:In recent years, the impact of the Internet era on the public is deepening. Users not only enjoy the convenience of life brought by rich and diverse information, but also experience the troubles caused by excessive information. In a large amount of information, the user can not locate the valuable information resource quickly, which reduces the utilization rate of the information to a certain extent and causes "resource waste". The general search engine can no longer meet the deeper needs of fixed users, such as low information coverage and accuracy, inaccuracy of return content, more invalid information and so on. In order to solve the problems existing in the general search engine and enhance the user's experience in the search process, this paper designs and implements a vertical search engine based on user interest model, and constructs API, which is added to C project. To provide users with professional knowledge retrieval services in the field of communications. The different behaviors in the process of user search are collected and classified, and the interest degree is calculated by the updated model of user interest based on mixed behavior, so that the more reliable score is calculated for each page, and the personalized retrieval result is provided for the user. The specific work is as follows: firstly, this paper clarifies the key problems expected to be solved by the system, introduces the workflow of the search engine, and the key technologies involved in the development process. Secondly, this paper introduces the analysis and modeling process of user interest model in detail, especially describes the user data collection method and user behavior classification standard in Python environment. On this basis, the author proposes a user interest model based on mixed behavior, which highlights the particularity of the user's reading time. In the case of abnormal reading time, other behaviors are used to characterize the user's interest. Thirdly, this paper introduces the overall architecture design of the system, and establishes an architecture system with web capture module, index and retrieval module, page display module as the core content. The vertical search engine system is developed by using the Scrapy open source crawler framework based on Python, Beautiful Soup web page parsing library, whosh index retrieval library and Flask framework. In the process of development, the problem of excessive memory consumption in the original URL de-heavy method of Scrapy framework is pointed out, and the original scheme is improved with the help of Bloom filter. Based on practical experience, two strategies to prevent reptiles from being subjected to ban are proposed. In order to solve the problem that the effect of Chinese word segmentation in Whoosh is not satisfactory, the original function of word segmentation is improved by using jieba open source partitioning component. Finally, the prototype system is tested for 32 days. The system is evaluated from four aspects: recall rate, recall rate, response time and dead chain ratio. The test results are obtained by collecting user evaluation and feedback.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 肖冬梅;垂直搜索引擎研究[J];圖書(shū)館學(xué)研究;2003年02期
2 楊堅(jiān)爭(zhēng);李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
3 羅麗姍;;垂直搜索引擎發(fā)展概述[J];圖書(shū)館學(xué)研究;2006年12期
4 嚴(yán)宏偉;何俊;;基于房源分析系統(tǒng)的垂直搜索引擎關(guān)鍵技術(shù)的探討[J];中國(guó)科技信息;2007年05期
5 胡華梁;何進(jìn);鐘元生;;圖書(shū)垂直搜索引擎的設(shè)計(jì)[J];計(jì)算機(jī)與現(xiàn)代化;2007年08期
6 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
7 畢建濤;霍云福;;垂直搜索引擎贏利模式探討[J];大連大學(xué)學(xué)報(bào);2008年03期
8 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年02期
9 孔祥春;李義杰;鄭凱明;;垂直搜索引擎應(yīng)用研究[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年07期
10 楊皖蘇;閆冬;;垂直搜索引擎發(fā)展策略探討[J];商業(yè)時(shí)代;2009年23期
相關(guān)會(huì)議論文 前10條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國(guó)會(huì)計(jì)信息化年會(huì)論文集[C];2011年
5 吳曉;李丹寧;林潔;冀肖榆;李丹;;個(gè)性化搜索引擎中用戶興趣模型的研究[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
6 徐志明;宋毅;馮子威;李生;;一種基于分類的用戶興趣模型[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
7 柏桂榮;章勇;;基于RSS的用戶興趣模型研究[A];2009通信理論與技術(shù)新發(fā)展——第十四屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2009年
8 周延泉;張傳福;張瑞華;李蕾;何華燦;;移動(dòng)個(gè)性化信息服務(wù)中的用戶興趣模型[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
9 米曉紅;;一種基于LSI的用戶興趣模型構(gòu)建方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
10 張艷;章勇;;基于RSS信息服務(wù)的自適應(yīng)用戶興趣模型研究[A];第七屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 北大縱橫管理顧問(wèn)公司高級(jí)顧問(wèn)戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國(guó)經(jīng)營(yíng)報(bào);2006年
2 王艷;垂直搜索引擎市場(chǎng)看好[N];中國(guó)旅游報(bào);2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日?qǐng)?bào)海外版;2000年
4 楊國(guó)民;國(guó)內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日?qǐng)?bào);2007年
5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭(zhēng)未破題[N];法制日?qǐng)?bào);2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開(kāi)源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場(chǎng)[N];經(jīng)理日?qǐng)?bào);2008年
8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國(guó)計(jì)算機(jī)報(bào);2000年
10 ;沱沱網(wǎng)“亮劍”國(guó)際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來(lái)B2B差異化變革[N];中國(guó)貿(mào)易報(bào);2007年
相關(guān)博士學(xué)位論文 前5條
1 王曄;垂直搜索引擎若干問(wèn)題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問(wèn)題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 楊孟祥;結(jié)合用戶興趣模型的垂直搜索引擎的設(shè)計(jì)和實(shí)現(xiàn)[D];北京郵電大學(xué);2017年
2 韓冰;垂直搜索引擎?zhèn)性化推薦研究與應(yīng)用[D];大連理工大學(xué);2009年
3 關(guān)小敏;垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
4 吳燕瑋;基于行業(yè)知識(shí)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2012年
5 柳力麗;旅游垂直搜索引擎的品牌傳播研究[D];西南大學(xué);2015年
6 錢(qián)永杰;面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實(shí)現(xiàn)[D];曲阜師范大學(xué);2015年
7 袁鳳云;垂直搜索引擎關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
8 任睿麗;面向旅游業(yè)的垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 張高偉;基于ElasticSearch的分布式視頻垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2014年
10 朱鵬;英文語(yǔ)料庫(kù)垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2015年
,本文編號(hào):1860779
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1860779.html