個性化新聞搜索引擎的研究與設(shè)計
本文選題:垂直搜索 + 個性化。 參考:《電子科技大學》2012年碩士論文
【摘要】:隨著計算機各項技術(shù)的不斷發(fā)展,信息化時代已經(jīng)到來。如何讓用戶在海量的數(shù)據(jù)中快速并且準確的獲取自己所需要的信息,是互聯(lián)網(wǎng)行業(yè)一個亟待解決的問題。為此,搜索引擎應(yīng)運而生。垂直搜索是搜索引擎中一個重要的組成部分,它能幫助用戶在自己的專業(yè)領(lǐng)域快速的獲取信息,,可以獲得比通用搜索更高的搜索效率和更準確的搜索結(jié)果。另外,個性化技術(shù)能針對不同的用戶給出不同的檢索方案,它對提高用戶的檢索滿意度有很大幫助。目前大多數(shù)的搜索引擎是通過匹配索引關(guān)鍵詞進行數(shù)據(jù)檢索,并沒有考慮到各個用戶所關(guān)心的信息領(lǐng)域,所以搜索引擎檢索出的相當一部分結(jié)果與用戶的需求并不相關(guān)。垂直搜索引擎的個性化研究是解決這種檢索結(jié)果相關(guān)性瓶頸的一種有效方法。 本文從垂直搜索引擎的基本概念,基本原理,組成結(jié)構(gòu)以及工作流程入手,研究了網(wǎng)絡(luò)爬蟲模塊,索引模塊及關(guān)鍵詞檢索模塊等,并結(jié)合用戶興趣模型,設(shè)計了一種適合于垂直搜索引擎的個性化搜索解決方案,最后實現(xiàn)了個性化垂直搜索引擎的一個實例。網(wǎng)絡(luò)爬蟲模塊從各大門戶網(wǎng)站中進行數(shù)據(jù)爬取,并結(jié)合主題相關(guān)度進行URL篩選;索引模塊引入了文本分類技術(shù),在保證索引效率的基礎(chǔ)上對不同類別的文本在構(gòu)建索引時區(qū)別考慮;檢索模塊結(jié)合了用戶興趣模型和文本分類技術(shù),提升了檢索結(jié)果與用戶意圖之間的相關(guān)性。 本文的研究內(nèi)容和創(chuàng)新點主要包括三個方面。第一,提出了一種個性化垂直搜索中可行的專業(yè)爬蟲解決方案。目前的垂直搜索引擎并沒有充分的考慮URL主題相關(guān)性過濾,這將導致大量噪聲網(wǎng)頁產(chǎn)生。本文把URL相關(guān)性過濾機制引入到專業(yè)爬蟲中,并對網(wǎng)絡(luò)爬行策略進行了改進,提高了專業(yè)爬蟲的信息采集效率。第二,提出了一種適合于垂直搜索的文本分類方法。目前的垂直搜索引擎主要是通過欄目標題等進行分類,它們存在人工干預強,分類過程不靈活等問題。本文將通用搜索的特征選擇以及文本分類算法引入到垂直搜索中,并對其改進和優(yōu)化,使其更適合垂直搜索引擎。第三,本文引入了適合垂直搜索的個性化建模方法,并通過相關(guān)反饋技術(shù)完善興趣模型,讓搜索引擎具有更強的個性化能力。
[Abstract]:With the continuous development of computer technology, the information age has come. How to make users get the information they need quickly and accurately in the massive data is an urgent problem in the Internet industry. Therefore, the search engine emerges as the times require. Vertical search is an important part of search engine, it can help users to obtain information quickly in their own professional field, and can obtain higher search efficiency and more accurate search results than general search. In addition, personalized technology can provide different retrieval schemes for different users, which is of great help to improve users' search satisfaction. At present, most search engines do data retrieval by matching index keywords, and do not consider the information field concerned by each user, so a considerable part of the search engine retrieval results are not related to the needs of users. The personalized research of vertical search engine is an effective method to solve the bottleneck of relevance of retrieval results. This paper starts with the basic concept, basic principle, composition structure and workflow of vertical search engine, and studies the web crawler module. Index module and keyword retrieval module, combined with user interest model, designed a personalized search solution suitable for vertical search engine. Finally, an example of personalized vertical search engine was implemented. The web crawler module crawls the data from the major web portals, and combines the topic relevance to the URL filtering, and the index module introduces the text classification technology. On the basis of ensuring the efficiency of index, different types of text are considered when constructing index, and the retrieval module combines user interest model and text classification technology. The research content and innovation of this paper mainly include three aspects. First, a professional crawler solution in personalized vertical search is proposed. The current vertical search engine does not fully consider URL topic correlation filtering, which will lead to a large number of noisy pages. In this paper, the URL correlation filtering mechanism is introduced into the professional crawler, and the network crawling strategy is improved to improve the information collection efficiency of the professional crawler. Secondly, a text classification method suitable for vertical search is proposed. At present, vertical search engines are mainly classified by column titles, which have some problems such as strong manual intervention and inflexible classification process. In this paper, the feature selection and text classification algorithm of general search is introduced into vertical search, and it is improved and optimized to make it more suitable for vertical search engine. Thirdly, this paper introduces the personalized modeling method suitable for vertical search, and improves the interest model through the relevant feedback technology, so that the search engine has stronger individuation ability.
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前10條
1 單麗莉;劉秉權(quán);孫承杰;;文本分類中特征選擇方法的比較與改進[J];哈爾濱工業(yè)大學學報;2011年S1期
2 林鴻飛;基于Web的信息過濾機制[J];計算機工程與應(yīng)用;2002年02期
3 陳燕娜,邵志清;基于全文搜索的中文搜索引擎設(shè)計技術(shù)[J];計算機工程與應(yīng)用;2002年17期
4 賀凡;楊曉春;于戈;李琳;石磊;;Key-Tree:一種增強目錄索引接口有限查詢能力的方法[J];計算機科學;2004年10期
5 閆鵬;鄭雪峰;朱建勇;肖峗泓;;一種優(yōu)化的k-NN文本分類算法[J];計算機科學;2009年10期
6 李雪蕾,張冬茉;一種基于向量空間模型的文本分類方法[J];計算機工程;2003年17期
7 周登朋;謝康林;;Lucene搜索引擎[J];計算機工程;2007年18期
8 鮑鈺;;基于Web日志的個性化搜索引擎模型的發(fā)現(xiàn)[J];計算機應(yīng)用研究;2009年05期
9 劉少輝,董明楷,張?,李蓉,史忠植;一種基于向量空間模型的多層次文本分類方法[J];中文信息學報;2002年03期
10 劉麗;;元搜索引擎檢索性能分析[J];情報探索;2011年04期
相關(guān)碩士學位論文 前6條
1 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學;2009年
2 董平;關(guān)聯(lián)特征提取與貝葉斯網(wǎng)絡(luò)的文本分類研究[D];華南理工大學;2011年
3 王治江;面向領(lǐng)域的垂直搜索系統(tǒng)研究與實現(xiàn)[D];大連理工大學;2009年
4 周佳慶;實時垂直搜索引擎數(shù)據(jù)抓取調(diào)度研究[D];浙江大學;2010年
5 文義;基于LUCENE的群體個性化搜索引擎研究[D];武漢理工大學;2010年
6 羅浩;基于CLucene和Larbin的企業(yè)搜索引擎的研究與實現(xiàn)[D];電子科技大學;2010年
本文編號:2007319
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2007319.html