網(wǎng)頁(yè)信息智能采集與分類的研究與實(shí)現(xiàn)
本文選題:信息采集 + 信息抽取 ; 參考:《河北工業(yè)大學(xué)》2014年碩士論文
【摘要】:隨著科學(xué)技術(shù)的飛速發(fā)展,我們已經(jīng)進(jìn)入了數(shù)字信息化時(shí)代。Internet作為當(dāng)今世界上最大的信息庫(kù),也成為人們獲取信息的最主要手段。由于網(wǎng)絡(luò)上的信息資源有著海量、動(dòng)態(tài)、異構(gòu)、半結(jié)構(gòu)化等特點(diǎn),且缺乏統(tǒng)一的組織和管理,所以如何快速、準(zhǔn)確地從海量的信息資源中尋找到自己所需的信息己經(jīng)成為網(wǎng)絡(luò)用戶需要迫切解決的一大難題。因而基于Web的網(wǎng)絡(luò)信息的采集與分類便成為人們研究的熱點(diǎn)。 傳統(tǒng)的Web信息采集的目標(biāo)就是盡可能多地采集信息頁(yè)面,,甚至是整個(gè)Web上的資源,在這一過程中它并不太在意采集的順序和被采集頁(yè)面的相關(guān)主題。這就使得所采集頁(yè)面的內(nèi)容過于雜亂,大大消耗了系統(tǒng)資源和網(wǎng)絡(luò)資源。這就需要采用有效的采集方法以減少采集網(wǎng)頁(yè)的雜亂和重復(fù)等情況的發(fā)生。如何在較大程度上解決信息雜亂無章的現(xiàn)象,并方便用戶準(zhǔn)確地定位所需要的信息,僅靠人工的方式來分類是不切實(shí)際的。因此,網(wǎng)頁(yè)自動(dòng)分類是組織和管理信息的有效手段。這也是本文研究的一個(gè)重要內(nèi)容。 本文首先介紹了課題背景、研究意義和國(guó)內(nèi)外的研究現(xiàn)狀,闡述了網(wǎng)頁(yè)采集和網(wǎng)頁(yè)分類的相關(guān)理論、主要技術(shù)和算法,包括網(wǎng)頁(yè)爬蟲技術(shù)、網(wǎng)頁(yè)去重技術(shù)、中文分詞技術(shù)、特征提取技術(shù)、網(wǎng)頁(yè)分類技術(shù)等。在此基礎(chǔ)上,設(shè)計(jì)了網(wǎng)頁(yè)信息智能采集與分類系統(tǒng),本系統(tǒng)主要包括信息采集和信息分類兩部分。信息采集部分,主要采用了基于主題的廣度優(yōu)先策略算法的網(wǎng)絡(luò)爬蟲和基于規(guī)則模板的網(wǎng)頁(yè)信息抽取方法,把自由或者半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),同時(shí)采用基于數(shù)據(jù)庫(kù)的信息排重和發(fā)布排重方法對(duì)信息進(jìn)行排重。信息分類部分,根據(jù)用戶的需求,通過采用分詞和特征提取等技術(shù)相結(jié)合的SVM算法對(duì)信息進(jìn)行分類,為用戶提供全方位的信息服務(wù)。
[Abstract]:With the rapid development of science and technology, we have entered the digital information age. Internet, as the largest information base in the world today, has also become the most important means for people to obtain information. Because the information resources on the network have the characteristics of massive, dynamic, heterogeneous, semi-structured, and lack of unified organization and management, so how to quickly, It has become an urgent problem for network users to find the information they need from the massive information resources. Therefore, the collection and classification of network information based on Web has become a hot topic. The goal of traditional Web information collection is to collect as many information pages as possible, even the resources on the whole Web. In this process, it does not pay much attention to the order of collection and the related topics of the collected pages. This makes the content of the collected pages too messy, and consumes the system resources and network resources. It is necessary to adopt effective collection methods to reduce the clutter and repetition of web pages. It is impractical to classify the information in a manual way only by how to solve the disorder of information to a large extent and to locate the information accurately and conveniently. Therefore, the automatic classification of web pages is an effective means to organize and manage information. This is also an important part of this study. This paper first introduces the background of the subject, the significance of the research and the current research situation at home and abroad, and expounds the relevant theories, main techniques and algorithms of web page collection and classification, including web crawler technology, web page de-reduplication technology, Chinese word segmentation technology, etc. Feature extraction technology, web page classification technology and so on. On this basis, an intelligent web information collection and classification system is designed. The system mainly includes two parts: information collection and information classification. In the part of information collection, we mainly adopt the method of web crawler based on topic breadth-first strategy and web page information extraction based on rule template to transform free or semi-structured data into structured data. At the same time, the information weight based on database and the method of publishing weight are used to calculate the weight of the information. In the part of information classification, according to the needs of users, the SVM algorithm which combines word segmentation and feature extraction is used to classify the information to provide users with comprehensive information services.
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 松濤;“吸”盡網(wǎng)絡(luò)中有用的網(wǎng)頁(yè)信息[J];電腦知識(shí)與技術(shù);2004年13期
2 朱精南,趙明生;網(wǎng)頁(yè)版面信息分析[J];計(jì)算機(jī)工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于語義Web的網(wǎng)頁(yè)推薦模型[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年09期
4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];中國(guó)電化教育;2004年09期
5 賈海龍,任玉珍;網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];新鄉(xiāng)師范高等?茖W(xué)校學(xué)報(bào);2005年05期
6 劉肖冰;淺談網(wǎng)頁(yè)藝術(shù)設(shè)計(jì)[J];安陽師范學(xué)院學(xué)報(bào);2005年05期
7 孫迎春;;網(wǎng)頁(yè)設(shè)計(jì)研究[J];南平師專學(xué)報(bào);2005年03期
8 文濤;網(wǎng)頁(yè)的視覺傳達(dá)設(shè)計(jì)與分析[J];沈陽教育學(xué)院學(xué)報(bào);2005年01期
9 宋春暉;網(wǎng)頁(yè)設(shè)計(jì)中的美學(xué)應(yīng)用分析[J];海南師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2005年01期
10 張秀虎;;淺談網(wǎng)頁(yè)的訪問權(quán)限[J];教育信息化;2005年17期
相關(guān)會(huì)議論文 前10條
1 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
2 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
3 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
4 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年
5 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2000年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁(yè)工程開辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年
2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年
4 錢鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年
5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報(bào);2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報(bào);2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年
相關(guān)博士學(xué)位論文 前10條
1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
3 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年
4 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
5 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
6 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年
7 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
8 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
9 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年
10 余偉;基于用戶個(gè)性挖掘的Web社區(qū)營(yíng)銷研究[D];武漢大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 高文梁;改進(jìn)的基于歷史信息分析的網(wǎng)頁(yè)排序算法[D];大連理工大學(xué);2009年
2 劉輝;網(wǎng)頁(yè)信息過濾系統(tǒng)的研究與設(shè)計(jì)[D];蘇州大學(xué);2009年
3 趙胤;海量網(wǎng)頁(yè)搜集系統(tǒng)的設(shè)計(jì)[D];東北大學(xué) ;2009年
4 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁(yè)去重方法研究[D];山西大學(xué);2005年
5 黃永光;基于網(wǎng)頁(yè)挖掘的搜索引擎若干技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2006年
6 張超群;基于網(wǎng)頁(yè)分塊技術(shù)的主題爬行[D];吉林大學(xué);2007年
7 張雅潔;網(wǎng)頁(yè)視覺基礎(chǔ)設(shè)計(jì)與應(yīng)用研究[D];東北師范大學(xué);2007年
8 黃文蓓;基于網(wǎng)頁(yè)分割和摘要的小屏幕設(shè)備網(wǎng)頁(yè)自適應(yīng)技術(shù)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2008年
9 劉華暉;需求概念圖導(dǎo)引下的網(wǎng)頁(yè)檢索結(jié)果分析[D];上海交通大學(xué);2011年
10 程歡;網(wǎng)頁(yè)中動(dòng)態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學(xué);2011年
本文編號(hào):1789849
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1789849.html