網(wǎng)絡(luò)搜索引擎的相關(guān)技術(shù)研究
本文選題:搜索引擎 切入點(diǎn):索引建立 出處:《山東科技大學(xué)》2011年碩士論文 論文類型:學(xué)位論文
【摘要】:網(wǎng)絡(luò)搜索引擎(如google、百度等)作為一種特殊的信息檢索系統(tǒng),其特殊之處就在于它的檢索范圍是針對(duì)整個(gè)Web網(wǎng)頁資源的。互聯(lián)網(wǎng)上的信息資源數(shù)量巨大、并且處于不斷地變化更新當(dāng)中,最為重要的是Web網(wǎng)頁文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,其中經(jīng)常包含導(dǎo)航、廣告信息、無用鏈接等與網(wǎng)頁主題無關(guān)的內(nèi)容,其復(fù)雜程度遠(yuǎn)高于普通的文本文檔。而一般的信息檢索系統(tǒng)(如文獻(xiàn)檢索系統(tǒng))大部分都是基于空間向量模型而設(shè)計(jì)的,無法適應(yīng)Web資源的以上特性,這就使得網(wǎng)絡(luò)搜索引擎與基于空間向量模型的信息檢索系統(tǒng)在工作原理上會(huì)出現(xiàn)很大的不同。本文著重從索引建立、查詢擴(kuò)展、相關(guān)網(wǎng)頁排序三個(gè)方面來闡述它們的不同之處。 本文的主要內(nèi)容是:詳細(xì)介紹了網(wǎng)絡(luò)搜索引擎索引組織結(jié)構(gòu),并針對(duì)Web網(wǎng)頁中包含有大量無關(guān)信息如廣告、導(dǎo)航等影響索引的效率的問題,給出了網(wǎng)頁預(yù)處理及文本提取的實(shí)現(xiàn)算法,去除了Web網(wǎng)頁文檔中的重復(fù)網(wǎng)頁、噪音內(nèi)容以及噪音鏈接,提高了搜索引擎的索引效率。本文提出了結(jié)合用戶興趣和服務(wù)器端日志發(fā)掘的相關(guān)搜索的實(shí)現(xiàn)算法。針對(duì)傳統(tǒng)PageRank算法會(huì)出現(xiàn)“主題漂移”現(xiàn)象,帶來許多與用戶所需信息無關(guān)的噪聲信息的缺點(diǎn),本文提出了基于頁面主題相關(guān)性的PageRank算法,從網(wǎng)頁的超鏈接、網(wǎng)頁內(nèi)容以及用戶點(diǎn)擊行為三個(gè)方面判斷網(wǎng)頁文檔與查詢主題相關(guān)性,進(jìn)而避免出現(xiàn)過多的與檢索主題不相關(guān)的網(wǎng)頁信息。最后本文提出了一種自動(dòng)摘要的實(shí)現(xiàn)算法,通過計(jì)算網(wǎng)頁文檔中每個(gè)句子的權(quán)重值,得到最能表達(dá)該網(wǎng)頁主題內(nèi)容的句子作為摘要反饋給用戶,方便用戶直觀、快速地獲取網(wǎng)頁文檔的主題內(nèi)容,從而不斷改進(jìn)搜索關(guān)鍵詞,檢索出所需要的網(wǎng)頁信息。
[Abstract]:Network search engine (such as Google, Baidu, etc.) as a special information retrieval system, its particularity lies in its search range is for the entire Web web resources. The number of information resources on the Internet is huge, and is updated constantly changes, the most important is the Web page document itself is semi structured or no structure, which often contain navigation, advertising information, useless links "has nothing to do with the theme of the content, its complexity is much higher than ordinary text document. General information retrieval systems (such as document retrieval system) are mostly designed based on vector space model, can not adapt to these characteristics of Web resources, which makes web search engine based on vector space model of information retrieval system will be very different in principle. This paper focuses on indexing, query expansion, related network Page sorting has three aspects to illustrate their differences.
The main contents of this paper are: introduces the network search engine index structure, and according to the Web web page contains a large number of irrelevant information such as advertising, navigation and other effects of the index efficiency, realize the algorithm of web page preprocessing and text extraction, removal of duplicated web pages Web web page in the document, content and noise link noise, improve the index efficiency of search engine. This paper presents an algorithm to search relevant user interest and server log mining. Traditional PageRank algorithm will appear "topic drift" phenomenon, bring a lot of noise information and user information required is independent of the shortcomings, this paper proposes a PageRank algorithm for page topic relevance based on the links on the web, the three aspects of web content and web user click behavior judgment document and query relevance, and avoid "Not too much information related with retrieval subject. Finally this paper put forward an algorithm to realize automatic summarization, by calculating the weight of each sentence in the document of" value, get the best expression of the theme of "sentences as the feedback to the user, direct view of the convenience of users, subject content quickly obtain document thus, continuous improvement of search keywords to retrieve the information needed."
【學(xué)位授予單位】:山東科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:G354
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 徐家樹,覃征,陳偉雄,步建華;Web頁面相關(guān)度算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
2 譚義紅,林亞平;向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘[J];計(jì)算機(jī)工程與應(yīng)用;2003年13期
3 蔣效宇;樊孝忠;陳康;;基于用戶查詢的中文自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年05期
4 樊勇;鄭家恒;;網(wǎng)頁去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期
5 曲維光,陳小荷,吉根林;基于框架的詞語搭配自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2004年23期
6 王鐘斐;王彪;;基于錨文本相似度的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程;2010年24期
7 張培軍;;網(wǎng)絡(luò)搜索引擎的現(xiàn)狀及發(fā)展[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2008年09期
8 陸勇,侯漢清;用于信息檢索的同義詞自動(dòng)識(shí)別及其進(jìn)展[J];南京農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2004年03期
9 徐建民;崔琰;劉清江;;基于同義詞關(guān)系改進(jìn)的局部共現(xiàn)查詢擴(kuò)展[J];情報(bào)雜志;2010年09期
10 崔航,文繼榮,李敏強(qiáng);基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型[J];軟件學(xué)報(bào);2003年09期
相關(guān)碩士學(xué)位論文 前8條
1 楊春偉;Web挖掘及其在網(wǎng)絡(luò)搜索引擎中的應(yīng)用研究[D];中國石油大學(xué);2007年
2 操衛(wèi)平;基于結(jié)構(gòu)化向量空間模型的中文信息檢索系統(tǒng)研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2008年
3 何金鳳;基于中文信息檢索的文本預(yù)處理研究[D];電子科技大學(xué);2008年
4 王梁;基于向量空間的信息檢索算法研究[D];長春理工大學(xué);2009年
5 鄧錚;基于網(wǎng)頁分塊思想的搜索引擎索引系統(tǒng)[D];天津大學(xué);2009年
6 李新友;信息檢索中的查詢擴(kuò)展技術(shù)研究[D];廣西師范大學(xué);2010年
7 孫軒;主題搜索引擎的關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2010年
8 孫珊珊;基于網(wǎng)頁聚類的搜索引擎結(jié)果排序[D];中國石油大學(xué);2010年
,本文編號(hào):1646906
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1646906.html