新聞垂直搜索引擎中文分詞網(wǎng)頁(yè)去重應(yīng)用及研究.pdf 免費(fèi)在線閱讀前50頁(yè)
本文關(guān)鍵詞:新聞垂直搜索引擎中文分詞與網(wǎng)頁(yè)去重的應(yīng)用與研究,由筆耕文化傳播整理發(fā)布。
文檔介紹:
分類號(hào):TP3910710-2011124065碩士學(xué)位論文新聞垂直搜索引擎中文分詞與網(wǎng)頁(yè)去重的應(yīng)用與研究李小三導(dǎo)師姓名職稱王衛(wèi)亞教授申請(qǐng)學(xué)位級(jí)別碩士學(xué)科專業(yè)名稱信號(hào)與信息處理論文提交日期2014年6月2日論文答辯日期2014年6月9日學(xué)位授予單位長(zhǎng)安大學(xué)TheApplicationandResearchofChineseWordSegmentationandWebDeduplicationinNewsVerticalSearchEngineADissertationSubmittedfortheDegreeofMasterCandidateLiXiaosanSupervisorProf.WangWeiyaChang’anUniversity,Xi’an,ChinaI摘要自互聯(lián)網(wǎng)誕生以來(lái),網(wǎng)絡(luò)信息每年幾乎都成指數(shù)量增長(zhǎng)。搜索引擎是人們獲得互聯(lián)網(wǎng)信息的重要工具,但是傳統(tǒng)的搜索引擎利用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)上大規(guī)模的搜集到的信息其中很多信息是完全重復(fù)或近似重復(fù)的,還有很多信息是用戶不需要的,這樣就加重了用戶使用搜索引擎的負(fù)擔(dān)。而垂直搜索引擎能夠精確的獲得用戶關(guān)心的相關(guān)領(lǐng)域信息。垂直搜索引擎不像通用搜索引擎那樣,它僅僅搜集某一特定領(lǐng)域相關(guān)的網(wǎng)頁(yè)內(nèi)容。本文首先描述了垂直搜索引擎的工作原理,并討論了垂直搜索引擎的幾個(gè)關(guān)鍵技術(shù),主要技術(shù)包括:網(wǎng)絡(luò)爬蟲技術(shù)、中文分詞技術(shù)、網(wǎng)頁(yè)預(yù)處理技術(shù)、網(wǎng)頁(yè)去重技術(shù)、索引和檢索技術(shù)等。對(duì)包含這幾項(xiàng)關(guān)鍵技術(shù)的功能模塊進(jìn)...
內(nèi)容來(lái)自轉(zhuǎn)載請(qǐng)標(biāo)明出處.
本文關(guān)鍵詞:新聞垂直搜索引擎中文分詞與網(wǎng)頁(yè)去重的應(yīng)用與研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):145667
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/145667.html