基于統(tǒng)計(jì)機(jī)器翻譯與主題傳播的聚焦爬蟲的研究與實(shí)現(xiàn)
本文關(guān)鍵詞: 聚焦爬蟲 錨文本 統(tǒng)計(jì)機(jī)器翻譯 主題傳播 主題相關(guān)度預(yù)測(cè) 文本分類 出處:《浙江大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:搜索引擎的發(fā)展使得互聯(lián)網(wǎng)的使用變得更加便捷。人們通過搜索引擎,可以方便地從互聯(lián)網(wǎng)上搜索到各行各業(yè)的相關(guān)信息;ヂ(lián)網(wǎng)的數(shù)據(jù)規(guī)?梢杂煤A啃稳,而現(xiàn)在的搜索引擎只收錄了互聯(lián)網(wǎng)所有資源中的一部分。爬蟲是搜索引擎中一個(gè)重要部分,對(duì)于搜索引擎有著至關(guān)重要的作用。如何在有限的資源情況下爬取更多與人們感興趣內(nèi)容相關(guān)的網(wǎng)頁,成為工業(yè)界和學(xué)術(shù)界的熱門話題,聚焦爬蟲也因此應(yīng)運(yùn)而生。 本文的主要研究?jī)?nèi)容是基于統(tǒng)計(jì)機(jī)器翻譯的錨文本主題相關(guān)度預(yù)測(cè)與基于網(wǎng)頁主題傳播的聚焦爬蟲算法及其實(shí)現(xiàn)。一般情況下錨文本較短,在大多現(xiàn)有使用錨文本的聚焦爬蟲中,都對(duì)錨文本進(jìn)行了上下文擴(kuò)展。然而對(duì)于一個(gè)與主題不相關(guān)的錨文本,在上下文擴(kuò)展之后可能引入與主題相關(guān)的內(nèi)容。本文將錨文本與主題之間的關(guān)系視為噪聲信道中信息編碼的過程,進(jìn)而提出了基于統(tǒng)計(jì)機(jī)器翻譯的錨文本主題相關(guān)度預(yù)測(cè)算法。然而僅僅使用錨文本這樣的網(wǎng)頁內(nèi)容,很可能會(huì)丟掉一些雖然與主題不相關(guān)但是卻包含大量與主題相關(guān)外鏈的網(wǎng)頁。使用網(wǎng)頁鏈接結(jié)構(gòu)分析是解決上述問題的一個(gè)方法。本文在前人工作的基礎(chǔ)上,提出了基于網(wǎng)頁主題傳播的聚焦爬蟲算法,并將錨文本主題相關(guān)度預(yù)測(cè)算法融入到網(wǎng)頁主題傳播模型中,旨在提高聚焦爬蟲的效果。 本文最終設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)聚焦爬蟲系統(tǒng)原型,從互聯(lián)網(wǎng)上爬取大量的特定主題數(shù)據(jù),并將本文提出的算法與一些經(jīng)典的聚焦爬取算法作了分析與比較。實(shí)驗(yàn)結(jié)果表明本文提出的算法具有更好的效果。
[Abstract]:The development of the search engine makes use of the Internet has become more convenient. People can search through the search engine, easily from the Internet to the relevant information from all walks of life. The Internet can be used to describe the massive scale of data, and now the search engine contains only a part of the Internet resources. Crawler is an important part of search engine which plays a crucial role in the search engines. How to take up more people interested in the content of the web page in the limited resources, has become a hot topic in academia and industry, focused crawler also arises at the historic moment.
The main content of this paper is the anchor text topic relevance statistical prediction based on Machine Translation and based on focused crawler algorithm and its theme "spread. In general the anchor text is short, in most of the existing crawler using the anchor text, the anchor text of context extension. However for a irrelevant the anchor text, in the context of expansion after the possibility of introducing relevant content and topic. The relationship between anchor text and theme as a process of information encoding channel noise, and then put forward the anchor text subject correlation prediction algorithm based on the statistics of Machine Translation. However, only use the anchor text page content that is likely to lose although some are not related to the topic but contains a large number of related to the theme of the chain page. Use the homepage link structure analysis is to solve the above problems a Based on previous works, we propose a focused crawler algorithm based on Web Topic propagation, and integrate anchor text topic correlation prediction algorithm into webpage topic propagation model, aiming to improve the effect of focused crawler.
The final design and a focused crawler system prototype, crawling specific topic a lot of data from the Internet, and will focus on the algorithm proposed in this paper and some classical algorithms are analysed and compared. The experimental results show that the proposed algorithm has better effect.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馮志偉;;機(jī)器翻譯與語言研究(下)[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2007年04期
2 張濤;;機(jī)器翻譯的發(fā)展與基于短語的統(tǒng)計(jì)機(jī)器翻譯[J];山西廣播電視大學(xué)學(xué)報(bào);2009年04期
3 王麗;韓習(xí)武;;雙語詞典在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2010年16期
4 林政;呂雅娟;劉群;馬希榮;;Web平行語料挖掘及其在機(jī)器翻譯中的應(yīng)用[J];中文信息學(xué)報(bào);2010年05期
5 郎君;;統(tǒng)計(jì)機(jī)器翻譯中翻譯模型的約簡(jiǎn)概述[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
6 周玉,宗成慶,徐波;基于多層過濾的統(tǒng)計(jì)機(jī)器翻譯[J];中文信息學(xué)報(bào);2005年03期
7 強(qiáng)靜;張建;;基于短語的統(tǒng)計(jì)機(jī)器翻譯中短語抽取算法改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2008年13期
8 孫廣范;宋金平;肖健;袁琦;;句法調(diào)序的統(tǒng)計(jì)機(jī)器翻譯方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年36期
9 任高舉;吐爾根·伊布拉音;艾山·吾買爾;;統(tǒng)計(jì)機(jī)器翻譯中漢維短語對(duì)抽取的研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期
10 李響;徐金安;姜文斌;呂雅娟;劉群;;面向移動(dòng)終端的統(tǒng)計(jì)機(jī)器翻譯解碼定點(diǎn)化方法[J];中文信息學(xué)報(bào);2011年02期
相關(guān)會(huì)議論文 前10條
1 杜金華;王莎;;西安理工大學(xué)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)技術(shù)報(bào)告(英文)[A];機(jī)器翻譯研究進(jìn)展——第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集[C];2011年
2 于惠;謝軍;熊皓;呂雅娟;劉群;林守勛;;基于篇章上下文的統(tǒng)計(jì)機(jī)器翻譯方法[A];機(jī)器翻譯研究進(jìn)展——第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集[C];2011年
3 梁芳麗;李淼;李文;陳雷;烏達(dá)巴拉;;統(tǒng)計(jì)機(jī)器翻譯中的源語言重排序方法研究[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 朱海;李淼;張建;烏達(dá)巴拉;;系統(tǒng)融合方法在漢蒙統(tǒng)計(jì)機(jī)器翻譯上的應(yīng)用[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
5 董興華;周俊林;郭樹盛;吐爾洪·吾司曼;;基于短語的漢維(維漢)統(tǒng)計(jì)機(jī)器翻譯研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
6 王春榮;寶美榮;王斯日古楞;;內(nèi)蒙古師范大學(xué)CWMT2011蒙漢機(jī)器翻譯系統(tǒng)評(píng)測(cè)技術(shù)報(bào)告[A];機(jī)器翻譯研究進(jìn)展——第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集[C];2011年
7 姚樹杰;肖桐;朱靖波;;基于句對(duì)質(zhì)量和覆蓋度的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語料選取[A];第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
8 李響;徐金安;劉群;呂雅娟;姜文斌;;移動(dòng)終端機(jī)器翻譯設(shè)備的解碼定點(diǎn)化方法[A];第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
9 巢文涵;李舟軍;;ZZX_MT系統(tǒng)CWMT2011評(píng)測(cè)報(bào)告[A];機(jī)器翻譯研究進(jìn)展——第七屆全國(guó)機(jī)器翻譯研討會(huì)論文集[C];2011年
10 張育;李良友;貢正仙;周國(guó)棟;;粘貼模型在依存語法統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 任悅采寫 本報(bào)記者 方妍;照片買家說,,網(wǎng)頁繁復(fù)不招喜歡[N];中國(guó)攝影報(bào);2009年
2 鳴澗;走近3D夢(mèng)幻網(wǎng)頁(3)[N];中國(guó)電腦教育報(bào);2002年
3 湖南 Ringfo;防止你的網(wǎng)頁被“偷拍”[N];電腦報(bào);2002年
4 路人甲;在網(wǎng)頁上圈圈點(diǎn)點(diǎn)[N];電腦報(bào);2004年
5 湖南 郭榮輝;網(wǎng)頁圖片保存四法[N];電子報(bào);2005年
6 鳴澗;網(wǎng)頁的編輯[N];中國(guó)電腦教育報(bào);2002年
7 鳴澗;初次握手3D網(wǎng)頁[N];中國(guó)電腦教育報(bào);2002年
8 遼寧 張策;滾動(dòng)的字幕 滾動(dòng)的網(wǎng)頁[N];中國(guó)電腦教育報(bào);2002年
9 李芳香;和網(wǎng)頁垃圾說再見[N];中國(guó)電腦教育報(bào);2002年
10 馬淑芬 記者 吳岳福;寶清 率先啟動(dòng)“村村通網(wǎng)頁”工程[N];黑龍江日?qǐng)?bào);2010年
相關(guān)博士學(xué)位論文 前10條
1 蔣宏飛;基于同步樹替換文法的統(tǒng)計(jì)機(jī)器翻譯方法研究[D];哈爾濱工業(yè)大學(xué);2010年
2 段楠;統(tǒng)計(jì)機(jī)器翻譯的一致性解碼方法研究[D];天津大學(xué);2012年
3 劉樂茂;統(tǒng)計(jì)機(jī)器翻譯判別式訓(xùn)練方法研究[D];哈爾濱工業(yè)大學(xué);2013年
4 梁華參;基于短語的統(tǒng)計(jì)機(jī)器翻譯模型訓(xùn)練中若干關(guān)鍵問題的研究[D];哈爾濱工業(yè)大學(xué);2013年
5 劉水;融入頭—修飾詞調(diào)序模型的短語統(tǒng)計(jì)機(jī)器翻譯方法研究[D];哈爾濱工業(yè)大學(xué);2011年
6 黃書劍;統(tǒng)計(jì)機(jī)器翻譯中的詞對(duì)齊研究[D];南京大學(xué);2012年
7 陳毅東;基于短語的統(tǒng)計(jì)機(jī)器翻譯模型若干關(guān)鍵技術(shù)研究[D];廈門大學(xué);2008年
8 林建方;詞搭配抽取及在信息檢索中的應(yīng)用研究[D];哈爾濱工業(yè)大學(xué);2010年
9 朱聰慧;漢英動(dòng)詞次范疇相關(guān)技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2009年
10 荊濤;面向領(lǐng)域網(wǎng)頁的語義標(biāo)注若干問題研究[D];吉林大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 甘錫云;基于統(tǒng)計(jì)機(jī)器翻譯與主題傳播的聚焦爬蟲的研究與實(shí)現(xiàn)[D];浙江大學(xué);2013年
2 李函章;統(tǒng)計(jì)機(jī)器翻譯中語料選擇方法研究[D];黑龍江大學(xué);2010年
3 宋美娜;基于詞綴特征的漢蒙統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)[D];內(nèi)蒙古大學(xué);2010年
4 李天寧;詞對(duì)齊技術(shù)研究及統(tǒng)計(jì)機(jī)器翻譯平臺(tái)的構(gòu)建[D];東北大學(xué);2009年
5 張濤;面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯研究與應(yīng)用[D];昆明理工大學(xué);2011年
6 李磊;基于依存句法的漢語—納西語統(tǒng)計(jì)機(jī)器翻譯研究[D];昆明理工大學(xué);2013年
7 張育;基于依存語法的統(tǒng)計(jì)機(jī)器翻譯研究[D];蘇州大學(xué);2011年
8 寶美榮;融入形態(tài)學(xué)分析的漢蒙統(tǒng)計(jì)機(jī)器翻譯研究[D];內(nèi)蒙古師范大學(xué);2012年
9 王春榮;基于層次短語的漢蒙統(tǒng)計(jì)機(jī)器翻譯后處理研究[D];內(nèi)蒙古師范大學(xué);2013年
10 銀花;基于短語的蒙漢統(tǒng)計(jì)機(jī)器翻譯研究[D];內(nèi)蒙古師范大學(xué);2011年
本文編號(hào):1446292
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1446292.html