【摘要】:目前,每天都有大量的網(wǎng)站發(fā)布各種電信行業(yè)信息,這些信息具有很強的行業(yè)特殊性。面對如此眾多海量的新聞,如何幫助用戶從互聯(lián)網(wǎng)中整合和處理電信行業(yè)數(shù)據(jù)已經(jīng)成為擺在電信行業(yè)網(wǎng)站面前的重要問題。通過對行業(yè)信息進行分類,能夠為用戶提供信息的甄別和類別檢索,縮小用戶對新聞的檢索范圍,從而能夠提高用戶關(guān)注新聞的效率,同時提高網(wǎng)站的服務(wù)質(zhì)量和訪問量。為此針對行業(yè)信息,進行電信行業(yè)新聞的整合具有非常重要的意義。對于網(wǎng)絡(luò)信息的收集和整合,網(wǎng)絡(luò)爬蟲是必不可少的工具之一。針對某一個特定的行業(yè)或領(lǐng)域設(shè)計具有針對性的網(wǎng)絡(luò)爬蟲,能夠給行業(yè)信息整合帶來很大的方便。為此,針對電信行業(yè)新聞的收集,需要設(shè)計一套符合電信行業(yè)的爬蟲系統(tǒng),實現(xiàn)對電信行業(yè)相關(guān)信息的全面收集與整合。本文就是在這種背景下,為了解決電信行業(yè)新聞?wù)系碾y題,提出了基于web的新聞?wù)习l(fā)布系統(tǒng),一方面為用戶搜集重要的電信行業(yè)信息,另一方面也提高了用戶黏性,并且減少用戶在海量數(shù)據(jù)中搜索需要新聞的時間。本文目的是設(shè)計實現(xiàn)一個針對電信行業(yè)的新聞發(fā)布系統(tǒng)。首先介紹了課題的研究背景和現(xiàn)狀,然后介紹了系統(tǒng)實現(xiàn)的相關(guān)技術(shù)如中文分詞技術(shù)和TF-IDF方法。通過需求分析明確系統(tǒng)的功能和性能需求之后,本系統(tǒng)利用信息抓取技術(shù),并設(shè)計電信行業(yè)信息爬蟲來高效準(zhǔn)確的搜集電信行業(yè)門戶網(wǎng)站信息。然后,對于不同的網(wǎng)站設(shè)置不同的模板進行解析,提取頁面正文信息。對于解析的新聞提取關(guān)鍵字,并對于文本進行分類處理。對于整合后的信息,系統(tǒng)將其存儲在數(shù)據(jù)庫中,通過后臺管理,對于新聞信息進一步處理。最后通過友好的頁面展示給系統(tǒng)用戶,便于用戶瀏覽和進一步使用。在本文中,整個模塊在Microsoft.NET開發(fā)平臺下,使用C#語言實現(xiàn)該系統(tǒng)。
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 熊忠陽;藺顯強;張玉芳;牙漫;;結(jié)合網(wǎng)頁結(jié)構(gòu)與文本特征的正文提取方法[J];計算機工程;2013年12期
2 趙旭劍;金培權(quán);岳麗華;;TTP:一個面向中文新聞網(wǎng)頁的主題時間解析器[J];小型微型計算機系統(tǒng);2013年05期
3 劉娟;趙曉楠;;網(wǎng)頁主題相關(guān)性判別的聚焦爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機與現(xiàn)代化;2012年10期
4 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報;2011年03期
5 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學(xué)學(xué)報;2009年04期
6 李衛(wèi)疆;趙鐵軍;樸星海;;一種新的面向主題的爬行算法[J];計算機應(yīng)用研究;2009年05期
7 陳竹敏;馬軍;韓曉暉;雷景生;;面向主題爬取的多粒度URLs優(yōu)先級計算方法[J];中文信息學(xué)報;2009年03期
8 牛強;王志曉;陳岱;夏士雄;;基于SVM的中文網(wǎng)頁分類方法的研究[J];計算機工程與設(shè)計;2007年08期
9 鄭冬冬,趙朋朋,崔志明;Deep Web爬蟲研究與設(shè)計[J];清華大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
10 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
,
本文編號:
2578810
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2578810.html