天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

網(wǎng)絡(luò)搜索引擎的相關(guān)技術(shù)研究

發(fā)布時(shí)間:2018-03-22 03:34

  本文選題:搜索引擎 切入點(diǎn):索引建立 出處:《山東科技大學(xué)》2011年碩士論文 論文類型:學(xué)位論文


【摘要】:網(wǎng)絡(luò)搜索引擎(如google、百度等)作為一種特殊的信息檢索系統(tǒng),其特殊之處就在于它的檢索范圍是針對(duì)整個(gè)Web網(wǎng)頁資源的。互聯(lián)網(wǎng)上的信息資源數(shù)量巨大、并且處于不斷地變化更新當(dāng)中,最為重要的是Web網(wǎng)頁文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,其中經(jīng)常包含導(dǎo)航、廣告信息、無用鏈接等與網(wǎng)頁主題無關(guān)的內(nèi)容,其復(fù)雜程度遠(yuǎn)高于普通的文本文檔。而一般的信息檢索系統(tǒng)(如文獻(xiàn)檢索系統(tǒng))大部分都是基于空間向量模型而設(shè)計(jì)的,無法適應(yīng)Web資源的以上特性,這就使得網(wǎng)絡(luò)搜索引擎與基于空間向量模型的信息檢索系統(tǒng)在工作原理上會(huì)出現(xiàn)很大的不同。本文著重從索引建立、查詢擴(kuò)展、相關(guān)網(wǎng)頁排序三個(gè)方面來闡述它們的不同之處。 本文的主要內(nèi)容是:詳細(xì)介紹了網(wǎng)絡(luò)搜索引擎索引組織結(jié)構(gòu),并針對(duì)Web網(wǎng)頁中包含有大量無關(guān)信息如廣告、導(dǎo)航等影響索引的效率的問題,給出了網(wǎng)頁預(yù)處理及文本提取的實(shí)現(xiàn)算法,去除了Web網(wǎng)頁文檔中的重復(fù)網(wǎng)頁、噪音內(nèi)容以及噪音鏈接,提高了搜索引擎的索引效率。本文提出了結(jié)合用戶興趣和服務(wù)器端日志發(fā)掘的相關(guān)搜索的實(shí)現(xiàn)算法。針對(duì)傳統(tǒng)PageRank算法會(huì)出現(xiàn)“主題漂移”現(xiàn)象,帶來許多與用戶所需信息無關(guān)的噪聲信息的缺點(diǎn),本文提出了基于頁面主題相關(guān)性的PageRank算法,從網(wǎng)頁的超鏈接、網(wǎng)頁內(nèi)容以及用戶點(diǎn)擊行為三個(gè)方面判斷網(wǎng)頁文檔與查詢主題相關(guān)性,進(jìn)而避免出現(xiàn)過多的與檢索主題不相關(guān)的網(wǎng)頁信息。最后本文提出了一種自動(dòng)摘要的實(shí)現(xiàn)算法,通過計(jì)算網(wǎng)頁文檔中每個(gè)句子的權(quán)重值,得到最能表達(dá)該網(wǎng)頁主題內(nèi)容的句子作為摘要反饋給用戶,方便用戶直觀、快速地獲取網(wǎng)頁文檔的主題內(nèi)容,從而不斷改進(jìn)搜索關(guān)鍵詞,檢索出所需要的網(wǎng)頁信息。
[Abstract]:Network search engine (such as Google, Baidu, etc.) as a special information retrieval system, its particularity lies in its search range is for the entire Web web resources. The number of information resources on the Internet is huge, and is updated constantly changes, the most important is the Web page document itself is semi structured or no structure, which often contain navigation, advertising information, useless links "has nothing to do with the theme of the content, its complexity is much higher than ordinary text document. General information retrieval systems (such as document retrieval system) are mostly designed based on vector space model, can not adapt to these characteristics of Web resources, which makes web search engine based on vector space model of information retrieval system will be very different in principle. This paper focuses on indexing, query expansion, related network Page sorting has three aspects to illustrate their differences.
The main contents of this paper are: introduces the network search engine index structure, and according to the Web web page contains a large number of irrelevant information such as advertising, navigation and other effects of the index efficiency, realize the algorithm of web page preprocessing and text extraction, removal of duplicated web pages Web web page in the document, content and noise link noise, improve the index efficiency of search engine. This paper presents an algorithm to search relevant user interest and server log mining. Traditional PageRank algorithm will appear "topic drift" phenomenon, bring a lot of noise information and user information required is independent of the shortcomings, this paper proposes a PageRank algorithm for page topic relevance based on the links on the web, the three aspects of web content and web user click behavior judgment document and query relevance, and avoid "Not too much information related with retrieval subject. Finally this paper put forward an algorithm to realize automatic summarization, by calculating the weight of each sentence in the document of" value, get the best expression of the theme of "sentences as the feedback to the user, direct view of the convenience of users, subject content quickly obtain document thus, continuous improvement of search keywords to retrieve the information needed."

【學(xué)位授予單位】:山東科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類號(hào)】:G354

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 徐家樹,覃征,陳偉雄,步建華;Web頁面相關(guān)度算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

2 譚義紅,林亞平;向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘[J];計(jì)算機(jī)工程與應(yīng)用;2003年13期

3 蔣效宇;樊孝忠;陳康;;基于用戶查詢的中文自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2008年05期

4 樊勇;鄭家恒;;網(wǎng)頁去重方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年12期

5 曲維光,陳小荷,吉根林;基于框架的詞語搭配自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2004年23期

6 王鐘斐;王彪;;基于錨文本相似度的PageRank改進(jìn)算法[J];計(jì)算機(jī)工程;2010年24期

7 張培軍;;網(wǎng)絡(luò)搜索引擎的現(xiàn)狀及發(fā)展[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2008年09期

8 陸勇,侯漢清;用于信息檢索的同義詞自動(dòng)識(shí)別及其進(jìn)展[J];南京農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2004年03期

9 徐建民;崔琰;劉清江;;基于同義詞關(guān)系改進(jìn)的局部共現(xiàn)查詢擴(kuò)展[J];情報(bào)雜志;2010年09期

10 崔航,文繼榮,李敏強(qiáng);基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型[J];軟件學(xué)報(bào);2003年09期

相關(guān)碩士學(xué)位論文 前8條

1 楊春偉;Web挖掘及其在網(wǎng)絡(luò)搜索引擎中的應(yīng)用研究[D];中國石油大學(xué);2007年

2 操衛(wèi)平;基于結(jié)構(gòu)化向量空間模型的中文信息檢索系統(tǒng)研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2008年

3 何金鳳;基于中文信息檢索的文本預(yù)處理研究[D];電子科技大學(xué);2008年

4 王梁;基于向量空間的信息檢索算法研究[D];長春理工大學(xué);2009年

5 鄧錚;基于網(wǎng)頁分塊思想的搜索引擎索引系統(tǒng)[D];天津大學(xué);2009年

6 李新友;信息檢索中的查詢擴(kuò)展技術(shù)研究[D];廣西師范大學(xué);2010年

7 孫軒;主題搜索引擎的關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2010年

8 孫珊珊;基于網(wǎng)頁聚類的搜索引擎結(jié)果排序[D];中國石油大學(xué);2010年



本文編號(hào):1646906

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1646906.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eda3f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产中文字幕一区二区| 亚洲天堂精品1024| 好吊视频一区二区在线| 在线观看国产成人av天堂野外| 九九久久精品久久久精品| 国产女同精品一区二区| 日韩中文无线码在线视频| 精品精品国产自在久久高清| 九九热精彩视频在线免费 | 亚洲国产另类久久精品| 欧美大粗爽一区二区三区 | 少妇在线一区二区三区| 国产永久免费高清在线精品| 中文字幕精品一区二区三| 亚洲天堂精品一区二区| 国产欧美高清精品一区| 老司机精品一区二区三区| 免费亚洲黄色在线观看| 激情五月综五月综合网| 午夜久久久精品国产精品| 欧美黑人暴力猛交精品| 日韩精品综合免费视频| 国产免费观看一区二区| 亚洲熟女诱惑一区二区| 果冻传媒在线观看免费高清| 欧美视频在线观看一区| 国产午夜免费在线视频| 欧美日韩最近中国黄片| 亚洲一区二区三区熟女少妇| 麻豆视传媒短视频免费观看| 九九视频通过这里有精品| 亚洲国产欧美精品久久| 绝望的校花花间淫事2| 亚洲淫片一区二区三区| 日韩偷拍精品一区二区三区 | 亚洲最大的中文字幕在线视频| 国产精品久久三级精品| 国产精品日韩欧美一区二区| 日本久久中文字幕免费| 亚洲一区二区精品久久av| 欧美人妻盗摄日韩偷拍|