面向主題搜索的網絡爬蟲信息采集策略研究
本文關鍵詞:面向主題搜索的網絡爬蟲信息采集策略研究
【摘要】:基于主題搜索的主題網絡爬蟲,只抓取與用戶主題相關的頁面。在深入分析主題頁面分布特征和主題相關性判別算法的基礎上,提出了一個面向主題搜索的網絡爬蟲模型,它很好地克服了通用搜索引擎準確率偏低、信息內容相對陳舊、信息分布范圍不均衡等不足。實驗結果表明,盡管基于主題爬蟲的搜索增加了內存使用率,但也成倍提升了搜索的準確性,提高了抓取效率以及抓取結果的利用率。
【作者單位】: 儀征技師學院電子信息系;
【關鍵詞】: 搜索引擎 主題爬蟲 信息采集
【分類號】:TP391.3
【正文快照】: 0引言當前,互聯網迅速發(fā)展,網絡上多元化信息呈指數級增長,大數據時代已經到來,網絡逐漸變成涵蓋全球的非結構化數據庫。鑒于網絡的分布式特性,網絡上的各種信息多是無規(guī)律的,很難對它進行結構化管理。如何高效提取和利用這些信息成為網絡信息檢索技術研究的重點。傳統(tǒng)通用搜
【參考文獻】
中國碩士學位論文全文數據庫 前1條
1 朱良峰;主題網絡爬蟲的研究與設計[D];南京理工大學;2008年
【共引文獻】
中國期刊全文數據庫 前1條
1 王二紅;壽永熙;馬志強;李靜;;多線程搜索器的設計與實現[J];內蒙古農業(yè)大學學報(自然科學版);2010年03期
中國碩士學位論文全文數據庫 前10條
1 王佳;支持Ajax技術的主題網絡爬蟲系統(tǒng)研究與實現[D];北京交通大學;2011年
2 龔真平;基于web文獻的數據挖掘研究應用[D];西南交通大學;2011年
3 單大甫;基于網絡評論的文本傾向性分類技術的研究與實現[D];國防科學技術大學;2010年
4 李蓉;面向主題的搜索引擎的設計與實現[D];華東交通大學;2011年
5 邢敏玲;基于網頁分塊的主題爬蟲方法研究[D];重慶大學;2011年
6 盧振;面向教育新聞的主題爬蟲設計與實現[D];華中科技大學;2011年
7 嚴鴻毅;基于聚焦爬蟲的網上藥品信息監(jiān)測系統(tǒng)[D];浙江工業(yè)大學;2011年
8 呂賽輝;主題爬蟲關鍵技術研究及應用[D];浙江工業(yè)大學;2009年
9 劉鵬鵬;面向患者需求的醫(yī)學搜索引擎的研究與實現[D];浙江大學;2010年
10 張紅云;基于頁面分析的主題網絡爬蟲的研究[D];武漢理工大學;2010年
【二級參考文獻】
中國期刊全文數據庫 前9條
1 瞿鋒;陳紀元;;漢語自動分詞算法綜述[J];福建電腦;2006年04期
2 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關學習的網頁信息提取方法[J];華中科技大學學報(自然科學版);2007年07期
3 李學勇,歐陽柳波,李國徽,鐘敏娟;網絡蜘蛛搜索策略比較研究[J];計算機工程與應用;2004年04期
4 李永平,程莉,葉衛(wèi)國;基于隱含語義的kNN文本分類研究[J];計算機工程與應用;2004年06期
5 歐陽柳波,李學勇,李國徽,王鑫;專業(yè)搜索引擎搜索策略綜述[J];計算機工程;2004年13期
6 劉金紅;陸余良;;主題網絡爬蟲研究綜述[J];計算機應用研究;2007年10期
7 馬亮,陳群秀,王俊,徐國偉;智能Web中文主題信息收集系統(tǒng)IRobot的設計[J];中文信息學報;2002年05期
8 崔維梅;范榮鵬;;搜索引擎技術的現狀和熱點[J];青年記者;2006年16期
9 傅向華,馮博琴,馬兆豐,何明;可在線增量自學習的聚焦爬行方法[J];西安交通大學學報;2004年06期
中國博士學位論文全文數據庫 前1條
1 董道國;高維數據索引結構研究[D];復旦大學;2005年
中國碩士學位論文全文數據庫 前4條
1 陳杰;主題搜索引擎中網絡蜘蛛搜索策略研究[D];浙江大學;2006年
2 王思力;面向大規(guī)模信息檢索的中文分詞技術研究[D];中國科學院研究生院(計算技術研究所);2006年
3 劉瑋瑋;搜索引擎中主題爬蟲的研究與實現[D];南京理工大學;2006年
4 馮月;基于專業(yè)搜索引擎網絡蜘蛛搜索策略研究[D];電子科技大學;2007年
【相似文獻】
中國期刊全文數據庫 前10條
1 彭軻;廖聞劍;;基于瀏覽器服務的網絡爬蟲[J];硅谷;2009年04期
2 王江紅;朱麗君;李彩虹;;一種新型網絡爬蟲的設計與實現[J];微計算機信息;2010年03期
3 于成龍;于洪波;;網絡爬蟲技術研究[J];東莞理工學院學報;2011年03期
4 焦賽美;;網絡爬蟲技術的研究[J];瓊州學院學報;2011年05期
5 宋海洋;劉曉然;錢?;;一種新的主題網絡爬蟲爬行策略[J];計算機應用與軟件;2011年11期
6 劉金紅;陸余良;;主題網絡爬蟲研究綜述[J];計算機應用研究;2007年10期
7 鄒海亮;孫莉;;可定制的聚焦網絡爬蟲[J];電子科技;2009年01期
8 楊松梅;;網絡爬蟲[J];硅谷;2009年15期
9 張紅云;劉煒;熊前興;;一種基于語義本體的網絡爬蟲模型[J];計算機應用與軟件;2009年11期
10 張洪辰;;新浪微博數據抓取——高級搜索[J];信息與電腦(理論版);2013年11期
中國重要會議論文全文數據庫 前4條
1 夏詔杰;郭力;李曉霞;;化學主題網絡爬蟲的研究[A];第十屆全國計算(機)化學學術會議論文摘要集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網絡爬蟲的設計與實現[A];2010年全國通信安全學術會議論文集[C];2010年
3 張軍;于浩;內野寬治;;UGC中產品評論信息的挖掘[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
4 徐劍;柯貴明;;網絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年
中國碩士學位論文全文數據庫 前10條
1 龔秋艷;并行網絡爬蟲設計與實現[D];華東師范大學;2010年
2 么士宇;基于分布式計算的網絡爬蟲技術研究[D];大連海事大學;2011年
3 陳奮;過濾型網絡爬蟲的研究與設計[D];廈門大學;2007年
4 金梅;網絡爬蟲性能提升與功能拓展的研究與實現[D];吉林大學;2012年
5 芮虎;比價購物平臺中網絡爬蟲的設計與實現[D];華東理工大學;2013年
6 趙茉莉;網絡爬蟲系統(tǒng)的研究與實現[D];電子科技大學;2013年
7 譚龍遠;基于領域的網絡爬蟲技術的研究與實現[D];武漢理工大學;2009年
8 張紅云;基于頁面分析的主題網絡爬蟲的研究[D];武漢理工大學;2010年
9 趙鵬程;分布式書籍網絡爬蟲系統(tǒng)的設計與實現[D];西南交通大學;2014年
10 于懷寶;面向建材信息的網絡爬蟲系統(tǒng)的設計與實現[D];北京交通大學;2015年
,本文編號:940671
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/940671.html