基于數(shù)據(jù)挖掘的主題種子站點(diǎn)提取器的研究
本文關(guān)鍵詞: Web信息檢索 數(shù)據(jù)挖掘 主題搜索 出處:《軟件》2013年02期 論文類型:期刊論文
【摘要】:近年來(lái),主題搜索引擎由于其在主題上的高相關(guān)性,使搜索結(jié)果的查準(zhǔn)率得到了極大的提高,然而由于受到主題爬蟲的限制,可選的種子站點(diǎn)的有效數(shù)量較少,使得搜索反饋的結(jié)果的數(shù)量不夠多,直接影響到了搜索引擎的查全率。本文為解決這個(gè)問(wèn)題,結(jié)合元搜索引擎的優(yōu)勢(shì),提出一種通過(guò)多搜索引擎來(lái)為主題爬蟲提供種子站點(diǎn)的方法,并通過(guò)計(jì)算相關(guān)度,更有效地去除噪音鏈接,使得種子站點(diǎn)的相關(guān)性得到保障,最后通過(guò)Nutch1.2的主題爬蟲功能,驗(yàn)證了本種子站點(diǎn)提取器能夠高效地獲得大量相關(guān)度較高的種子站點(diǎn)。
[Abstract]:In recent years, due to its high relevance in the topic, the search results accuracy rate has been greatly improved, but due to the constraints of the topic crawler, the number of alternative seed sites is relatively small. So that the number of search feedback results is not enough, which directly affects the recall of search engines. In order to solve this problem, this paper combines the advantages of meta search engines. This paper proposes a method of providing seed sites for topic crawlers through multi-search engines. By calculating the correlation degree, noise links are removed more effectively, so that the correlation of seed sites is guaranteed. Finally, through the theme crawler function of Nutch1.2, it is proved that the seed site extractor can efficiently obtain a large number of high correlation seed sites.
【作者單位】: 華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院;
【分類號(hào)】:TP311.13
【正文快照】: 1引言1.1主題搜索引擎隨著搜索引擎在網(wǎng)絡(luò)應(yīng)用中的地位越來(lái)越重,用戶對(duì)于主題搜索的相關(guān)度要求也越來(lái)越高,而主題搜索引擎無(wú)疑在主題相關(guān)度上比起一般關(guān)鍵字檢索有著更大的優(yōu)勢(shì),目前世界幾大通用搜索引擎也都不約而同地提供了主題檢索的服務(wù),如Google提供的學(xué)術(shù)主題檢索,圖片
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胡劍,陳學(xué)廣,費(fèi)奇,汪建平;數(shù)據(jù)挖掘及其在 SXWG_EIS 中的應(yīng)用[J];華中理工大學(xué)學(xué)報(bào);1998年09期
2 周錦華,顏文耀,周少華;數(shù)據(jù)挖掘系統(tǒng)的一種實(shí)現(xiàn)策略[J];廣東水利水電;1998年01期
3 鄭宏珍,柳明欣;數(shù)據(jù)挖掘及其工具的選擇[J];計(jì)算機(jī)應(yīng)用;1999年S1期
4 ;“挖掘”不止[J];互聯(lián)網(wǎng)周刊;1999年18期
5 張新光,王建華;數(shù)據(jù)倉(cāng)庫(kù)信息處理技術(shù)研究[J];齊齊哈爾大學(xué)學(xué)報(bào);2000年03期
6 李繼曄 ,邵華;從數(shù)據(jù)挖掘到知識(shí)發(fā)現(xiàn)[J];軟件工程師;2000年07期
7 朱亦斌,馬亮;數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法探討[J];教育信息化;2000年03期
8 任其昌,袁友偉;數(shù)據(jù)挖掘在包裝產(chǎn)品網(wǎng)絡(luò)營(yíng)銷中的應(yīng)用[J];包裝工程;2001年03期
9 熊和金;數(shù)據(jù)挖掘的模糊統(tǒng)計(jì)法及其在交通流中的應(yīng)用[J];武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版);2001年04期
10 牛紀(jì)海,徐濟(jì)仁,盧業(yè)華,陳家松;數(shù)據(jù)挖掘及其在通信偵察信號(hào)處理中的應(yīng)用[J];電子工程師;2001年11期
相關(guān)會(huì)議論文 前10條
1 郭學(xué)軍;陳曉云;;粗集方法在數(shù)據(jù)挖掘中的應(yīng)用[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
2 徐慧;;基于Web的文獻(xiàn)數(shù)據(jù)挖掘[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
3 朱揚(yáng)勇;黃超;;基于多維模型的交互式數(shù)據(jù)挖掘框架[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
4 薛魯華;張楠;;聚類分析在Web數(shù)據(jù)挖掘中的應(yīng)用[A];北京市第十三次統(tǒng)計(jì)科學(xué)討論會(huì)論文選編[C];2006年
5 孫迎;;醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A];中華醫(yī)學(xué)會(huì)第十次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
6 周紅梅;薛青;;數(shù)據(jù)挖掘技術(shù)及其在裝備作戰(zhàn)仿真系統(tǒng)中的應(yīng)用[A];第五屆全國(guó)仿真器學(xué)術(shù)會(huì)論文集[C];2004年
7 薛曉東;李海玲;;數(shù)據(jù)挖掘的客戶關(guān)系管理應(yīng)用[A];科技、工程與經(jīng)濟(jì)社會(huì)協(xié)調(diào)發(fā)展——河南省第四屆青年學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2004年
8 代廣珍;徐超;;基于Web的數(shù)據(jù)挖掘研究綜述[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
9 張榮祖;朱揚(yáng)勇;;一個(gè)可視化數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)預(yù)處理技術(shù)[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
10 曹波偉;薛青;鄭長(zhǎng)偉;于屏崗;陳辰;;基于數(shù)據(jù)挖掘的裝備維修管理智能分析模型研究[A];'2010系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 張立明;數(shù)據(jù)挖掘之道[N];網(wǎng)絡(luò)世界;2003年
2 □中國(guó)電信股份有限公司北京研究院 張舒博 □北京郵電大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
3 謝立宏博士;企業(yè)的“黃金眼”數(shù)據(jù)挖掘決策支持[N];中國(guó)計(jì)算機(jī)報(bào);2002年
4 吳勇毅;危機(jī)下,,數(shù)據(jù)挖掘與提供信息決策是關(guān)健[N];中國(guó)冶金報(bào);2009年
5 創(chuàng)智集團(tuán)副總裁 胡樂群博士;數(shù)據(jù)挖掘在CRM中的應(yīng)用[N];中國(guó)計(jì)算機(jī)報(bào);2002年
6 國(guó)能科諾賽仕企業(yè)數(shù)據(jù)挖掘?qū)嶒?yàn)室 趙紀(jì)元;挖掘數(shù)據(jù)中的“寶藏”[N];中國(guó)計(jì)算機(jī)報(bào);2001年
7 易明;XML促進(jìn)Web數(shù)據(jù)挖掘[N];通信產(chǎn)業(yè)報(bào);2007年
8 王瑋 蔡蓮紅;數(shù)據(jù)挖掘走入語(yǔ)音處理[N];計(jì)算機(jī)世界;2001年
9 趙新生;數(shù)據(jù)挖掘與水文現(xiàn)代化建設(shè)[N];黃河報(bào);2005年
10 電腦商報(bào)記者 謝濤;數(shù)據(jù)挖掘:未來(lái)政府信息化的重要環(huán)節(jié)[N];電腦商報(bào);2007年
相關(guān)博士學(xué)位論文 前10條
1 劉革平;基于數(shù)據(jù)挖掘的遠(yuǎn)程學(xué)習(xí)評(píng)價(jià)研究[D];西南師范大學(xué);2005年
2 王濤;挖掘序列模式和結(jié)構(gòu)化模式的精簡(jiǎn)集[D];華中科技大學(xué);2006年
3 郭斯羽;動(dòng)態(tài)數(shù)據(jù)中的數(shù)據(jù)挖掘研究[D];浙江大學(xué);2002年
4 許兆新;基于元知識(shí)的數(shù)據(jù)挖掘系統(tǒng)研究[D];哈爾濱工程大學(xué);2003年
5 蘇健;基于粗糙集的數(shù)據(jù)挖掘與決策支持方法研究[D];浙江大學(xué);2002年
6 楊風(fēng)召;高維數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的研究[D];復(fù)旦大學(xué);2003年
7 佘春東;數(shù)據(jù)挖掘算法分析及其并行模式研究[D];電子科技大學(xué);2004年
8 宋杰;生物信息數(shù)據(jù)挖掘中的若干方法及其應(yīng)用研究[D];大連理工大學(xué);2005年
9 張英;基于支持向量機(jī)的過(guò)程工業(yè)數(shù)據(jù)挖掘技術(shù)研究[D];浙江大學(xué);2005年
10 馬海兵;頻繁模式挖掘相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 馬麗娜;基于Web的數(shù)據(jù)挖掘技術(shù)研究[D];山東師范大學(xué);2002年
2 黎衛(wèi)英;數(shù)據(jù)挖掘在中職幼教課程改革中的應(yīng)用[D];福建師范大學(xué);2009年
3 張煜輝;數(shù)據(jù)挖掘和SPC在生產(chǎn)過(guò)程質(zhì)量控制中應(yīng)用研究[D];上海交通大學(xué);2009年
4 李坤然;數(shù)據(jù)挖掘在股市趨勢(shì)預(yù)測(cè)的應(yīng)用研究[D];中南林業(yè)科技大學(xué);2008年
5 鄭宏;數(shù)據(jù)挖掘可視化技術(shù)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
6 杜金剛;數(shù)據(jù)挖掘在電信客戶關(guān)系管理及數(shù)據(jù)業(yè)務(wù)營(yíng)銷中的應(yīng)用[D];北京郵電大學(xué);2010年
7 徐路;基于決策樹的數(shù)據(jù)挖掘算法的研究及其在實(shí)際中的應(yīng)用[D];電子科技大學(xué);2009年
8 劉華敏;數(shù)據(jù)挖掘在高職院校學(xué)生成績(jī)分析中的應(yīng)用[D];安徽大學(xué);2011年
9 李森;基于數(shù)據(jù)挖掘的旅游電子商務(wù)系統(tǒng)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
10 梁小鷗;數(shù)據(jù)挖掘在高職教學(xué)管理中的應(yīng)用[D];華南理工大學(xué);2011年
本文編號(hào):1471503
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1471503.html