三網(wǎng)融合下實(shí)時(shí)文本新聞的選擇與分類技術(shù)研究

發(fā)布時(shí)間：2019-01-12 13:06

【摘要】：近年來(lái)隨著科技與社會(huì)的發(fā)展,三網(wǎng)融合成為大勢(shì)所趨。然而,三網(wǎng)融合在帶來(lái)更全面更快捷更廣泛服務(wù)的同時(shí),也帶來(lái)了巨大的安全隱患�；ヂ�(lián)網(wǎng)的特點(diǎn)是實(shí)時(shí)便捷全面,然而信息量大信息質(zhì)量參差不齊。因此,三網(wǎng)融合后對(duì)網(wǎng)上信息內(nèi)容的監(jiān)管成為三網(wǎng)融合需要解決的重要問(wèn)題。新聞是網(wǎng)絡(luò)上信息傳遞的主要載體,對(duì)網(wǎng)絡(luò)新聞的監(jiān)管是內(nèi)容監(jiān)管的重要組成部分。文本分類與聚類技術(shù)是文本挖掘領(lǐng)域的重要技術(shù),分類后的新聞易于管理與鑒別。分類在一定程度上解決了信息雜亂的問(wèn)題,是信息過(guò)濾目標(biāo)營(yíng)銷性能預(yù)測(cè)和醫(yī)療診斷等領(lǐng)域的基礎(chǔ),因此對(duì)文本分類的研究具有重要意義。HUSTRIM系統(tǒng)是三網(wǎng)融合環(huán)境下的內(nèi)容監(jiān)管系統(tǒng)。通過(guò)對(duì)內(nèi)容的安全監(jiān)控和管理為全網(wǎng)內(nèi)容可監(jiān)可管提供保證,其新聞選擇分類為三網(wǎng)融合下新聞內(nèi)容的監(jiān)管提供支持。HUSTRIM采用網(wǎng)絡(luò)爬蟲(chóng)新聞鏈接分析基于行塊分布函數(shù)的正文抽取等技術(shù),獲取有效的新聞?wù)男畔?采用樸素bayes與k-means相結(jié)合的方法對(duì)新聞進(jìn)行先分類再聚類。HUSTRIM新聞選擇分類包括新聞獲取模塊正文提取模塊樸素bayes分類模塊和k-means聚類模塊。從互聯(lián)網(wǎng)爬取了近700個(gè)網(wǎng)頁(yè)新聞信息,借助搜狗實(shí)驗(yàn)室文本分類語(yǔ)料庫(kù)對(duì)這700個(gè)網(wǎng)頁(yè)新聞進(jìn)行了分類和聚類。通過(guò)實(shí)驗(yàn)得到了正文抽取過(guò)程的最佳閥值樸素bayes分類的最佳特征屬性維數(shù)和k-means聚類的最佳k值。
[Abstract]:In recent years, with the development of science and technology and society, the integration of three networks has become the trend of the times. However, triangulation is leading to a more comprehensive approach? Faster? More extensive service at the same time, but also brought huge security risks. The Internet is characterized by real-time? Convenient? Comprehensive, but large amount of information? The quality of information is uneven. Therefore, the supervision of the online information content becomes an important problem to be solved after the integration of three networks. News is the main carrier of information transmission on the network, and the supervision of network news is an important part of content supervision. Text classification and clustering technology is an important technology in the field of text mining, the classified news is easy to manage and identify. Classification solves the problem of information clutter to a certain extent, is information filtering? Target marketing? Because of the foundation of performance prediction and medical diagnosis, the research on text classification is of great significance. HUSTRIM system is a content monitoring system under the environment of three-network convergence. Through the security monitoring and management of the content for the entire web content can be monitored and managed to provide assurance, its news selection classification for the three-network integration of the supervision of news content to provide support. HUSTRIM using web crawlers? News link analysis? Based on line block distribution function of text extraction technology to obtain effective news text information; using the combination of simple bayes and k-means to classify news first and then clustering. HUSTRIM news selection classification includes news acquisition module. Text extraction module? Naive bayes classification module and k-means clustering module. Nearly 700 web pages were crawled from the Internet and classified and clustered with Sogou's laboratory text classification corpus. The optimal threshold of the text extraction process is obtained by experiments. The best feature attribute dimension of naive bayes classification and the best k value of k-means clustering.
【學(xué)位授予單位】：華中科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 朱松巖;;網(wǎng)頁(yè)設(shè)計(jì)之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2009年03期

2 安琳;;國(guó)外網(wǎng)頁(yè)信息存檔項(xiàng)目及相關(guān)問(wèn)題研究[J];圖書(shū)館建設(shè);2009年12期

3 蔣桂梅;;網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性[J];電腦知識(shí)與技術(shù);2010年05期

4 龍正義;;網(wǎng)頁(yè)長(zhǎng)期保存的策略與方法研究[J];檔案管理;2010年03期

5 李志義;梁士金;;國(guó)內(nèi)網(wǎng)頁(yè)去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書(shū)情報(bào)工作;2011年07期

6 王爍;;美國(guó)網(wǎng)頁(yè)歸檔項(xiàng)目——Internet Archive發(fā)展研究[J];蘭臺(tái)世界;2012年17期

7 栗勇兵;韓平;董啟雄;;網(wǎng)頁(yè)信息自動(dòng)提取的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年18期

8 何立波;周世波;;網(wǎng)頁(yè)設(shè)計(jì)中的藝術(shù)研究[J];考試周刊;2011年25期

9 秦永平;網(wǎng)頁(yè)信息共享技術(shù)[J];計(jì)算機(jī)應(yīng)用;2000年02期

10 項(xiàng)鎮(zhèn);網(wǎng)頁(yè)設(shè)計(jì)新概念[J];江西教育學(xué)院學(xué)報(bào)(自然科學(xué));2001年06期

相關(guān)會(huì)議論文前10條

1 吳建軍;;談網(wǎng)頁(yè)設(shè)計(jì)的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國(guó)測(cè)繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會(huì)優(yōu)秀論文選編[C];2005年

2 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（技術(shù)報(bào)告篇）[C];2002年

3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁(yè)相關(guān)度研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁(yè)信息的一種網(wǎng)頁(yè)結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議（HHME2005）論文集[C];2005年

5 曹淮;晁丁丁;;3D元素在網(wǎng)頁(yè)信息傳達(dá)中的應(yīng)用研究[A];2006年中國(guó)機(jī)械工程學(xué)會(huì)年會(huì)暨中國(guó)工程院機(jī)械與運(yùn)載工程學(xué)部首屆年會(huì)論文集[C];2006年

6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁(yè)文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集（上冊(cè)）[C];2008年

7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁(yè)信息結(jié)構(gòu)的網(wǎng)頁(yè)體裁聚類分析[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集（上）[C];2008年

8 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

9 于滿泉;譚松波;許洪波;;網(wǎng)頁(yè)內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集（技術(shù)報(bào)告篇）[C];2000年

相關(guān)重要報(bào)紙文章前10條

1 本報(bào)記者曾居仁　通訊員郝金榮;貴州“萬(wàn)村千鄉(xiāng)”網(wǎng)頁(yè)工程開(kāi)辟為農(nóng)服務(wù)新渠道[N];中國(guó)氣象報(bào);2012年

2 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年

3 羅震宇　嚴(yán)小斌;一種新型WEB開(kāi)發(fā)技術(shù)的探討[N];中國(guó)冶金報(bào);2011年

4 錢(qián)鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年

5 星之海洋;邁出網(wǎng)頁(yè)制作的第一步[N];電腦報(bào);2004年

6 河南張金貴;FrontPage2000組件詳解（四）[N];電腦報(bào);2001年

7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國(guó)證券報(bào);2004年

8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國(guó)電腦教育報(bào);2004年

9 八戒;眨眼之間答案立現(xiàn)[N];電腦報(bào);2013年

10 ;網(wǎng)絡(luò)應(yīng)用天龍八“步” 申請(qǐng)上網(wǎng)賬號(hào)[N];電腦報(bào);2002年

相關(guān)博士學(xué)位論文前10條

1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年

2 龔昌盛;基于語(yǔ)義標(biāo)注的網(wǎng)頁(yè)廣告加載模型研究[D];武漢大學(xué);2010年

3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年

4 黃華軍;網(wǎng)頁(yè)信息隱藏與隱秘信息檢測(cè)研究[D];湖南大學(xué);2007年

5 徐晴陽(yáng);基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年

6 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年

7 劉馨月;Web挖掘中的鏈接分析與話題檢測(cè)研究[D];大連理工大學(xué);2012年

8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年

9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年

10 宗校軍;中文網(wǎng)頁(yè)定題采集及分類研究[D];華中科技大學(xué);2006年

相關(guān)碩士學(xué)位論文前10條

1 敖志敏;基于網(wǎng)頁(yè)相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年

2 楊尋;地域文化的視覺(jué)元素在旅游網(wǎng)頁(yè)設(shè)計(jì)中的應(yīng)用研究[D];西南交通大學(xué);2015年

3 張W，

本文編號(hào)：2407810

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2407810.html

上一篇：中國(guó)商品在俄羅斯市場(chǎng)的營(yíng)銷策略研究
下一篇：某煙草公司數(shù)據(jù)中心系統(tǒng)設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

三網(wǎng)融合下實(shí)時(shí)文本新聞的選擇與分類技術(shù)研究