基于進(jìn)化模糊規(guī)則的Web新聞內(nèi)容分類技術(shù)研究
發(fā)布時(shí)間:2021-08-02 12:33
在如今的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)每分每秒都會(huì)產(chǎn)生大量的行業(yè)數(shù)據(jù),數(shù)據(jù)量之大幾乎超出了現(xiàn)有的處理及分析工具的能力。另外,隨著現(xiàn)代技術(shù)和生活水平的發(fā)展,人們對(duì)事物的認(rèn)識(shí)也在不斷演變。其中,Web新聞是人們每天都要接觸的,他作為一種非常具代表性的數(shù)據(jù),Web新聞內(nèi)容以其多種多樣的內(nèi)容,實(shí)時(shí)發(fā)生且不斷更新的性質(zhì),一直以來都是人們獲取知識(shí),了解時(shí)事的必要渠道。面對(duì)爆炸式出現(xiàn)的新聞內(nèi)容時(shí),如何快速直接的找到個(gè)人想要了解的新聞內(nèi)容,并且能適應(yīng)人們不斷進(jìn)步的認(rèn)知,這是一個(gè)熱門的研究課題。那么如何適應(yīng)Web新聞?lì)悓俜彪s且不斷更新和演變的現(xiàn)狀和趨勢(shì),對(duì)大量的新聞數(shù)據(jù)實(shí)現(xiàn)進(jìn)化模糊機(jī)制的分類,就有著非常重要的研究價(jià)值。本課題圍繞在進(jìn)化模糊規(guī)則下對(duì)Web新聞內(nèi)容分類的目標(biāo),從Web新聞內(nèi)容的提取,并基于進(jìn)化模糊規(guī)則對(duì)新聞內(nèi)容進(jìn)行分類研究,研究內(nèi)容如下:1.基于進(jìn)化模糊規(guī)則的新聞內(nèi)容分類模型框架的建立。通過對(duì)各種已有的方法進(jìn)行理解和實(shí)驗(yàn)評(píng)估,明白了現(xiàn)有框架如何建立的前提下,本文構(gòu)建了基于進(jìn)化模糊規(guī)則的Web新聞內(nèi)容分類模型框架。確立了該框架的兩個(gè)重要核心部分:Web新聞內(nèi)容的識(shí)別提取和基于進(jìn)化模糊規(guī)則的新聞內(nèi)容分類。將文...
【文章來源】:河南科技大學(xué)河南省
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新聞圖片示例
其中在執(zhí)行正向傳播的子過程的時(shí)候,計(jì)算節(jié)點(diǎn)的權(quán)值還有傳播到該位置的節(jié)點(diǎn)的閾值,通過相關(guān)的非線性變換計(jì)算后生成的輸出值作,使它用于該輸出的節(jié)點(diǎn),當(dāng)輸出的值與期望的值差值非常大的時(shí)候,網(wǎng)絡(luò)就會(huì)執(zhí)行第二個(gè)過程,就是誤差的反向傳播的子過程。執(zhí)行這一過程時(shí),將讓各層所有的單元都通過反向傳導(dǎo)獲得該輸出的誤差,然后改變每一層之間的鏈接強(qiáng)度以及各個(gè)之間的連接閾值最后用梯度下降誤差,就是這樣反復(fù)進(jìn)行很多次訓(xùn)練后,一定會(huì)得到一個(gè)最小誤差,這時(shí)候的各層對(duì)應(yīng)的權(quán)值和閾值就是我們通過訓(xùn)練想得到的,最后就停止訓(xùn)練就可以了。這個(gè)通過我們這樣訓(xùn)練的網(wǎng)絡(luò)模型就可以處理具有相似的輸入信息的數(shù)據(jù),并自動(dòng)找到我們需要的最小誤差時(shí)的各種訊息。而在本課題中將會(huì)使用一個(gè)雙層 BP 神經(jīng)網(wǎng)絡(luò),它的試驗(yàn)方法和原理也是一樣的,通過將輸入特征數(shù)字化,即轉(zhuǎn)化為特征值進(jìn)行歸一化后通過輸入層輸入神經(jīng)網(wǎng)絡(luò),即可通過要輸出的輸出值和網(wǎng)絡(luò)的訓(xùn)練來得到映射的規(guī)則。本篇文章所構(gòu)建的雙層 BP 神經(jīng)網(wǎng)絡(luò)模型如圖 2-1 所示。
在本研究方法中,首先將定位過的候選文本區(qū)域進(jìn)行二值化處理,然圖像進(jìn)行豎直方向上的灰度投影,并將投影后得到的一維數(shù)組進(jìn)行快換(FFT),然后通過頻譜特性來分析文字成行排列的周期特性。然的重要特征作為輸入構(gòu)建 BP 神經(jīng)網(wǎng)絡(luò)分類器。最后,通過實(shí)驗(yàn)獲得分出非文本區(qū)域和文本區(qū)域。實(shí)驗(yàn)結(jié)果表明,該方法不僅適用于 W和視頻中的文字定位,對(duì)自然場(chǎng)景中的定位效果也有提高。實(shí)驗(yàn)還和本濾除方法也做了比較,濾除效果也好于它們。2 圖片中文字定位的特點(diǎn)分析Web 新聞圖像的文本中包含著許多重要的信息,最主要的是它可能主題相關(guān)和概括性的信息。由于尺寸,各種字體,線條方向,不同的圖像中的弱字符和復(fù)雜的背景等因素的影響[40-42],給文字定位的準(zhǔn)一定的困難[43]。例如,Gatos B[44]定位方法對(duì)圖像中的文字進(jìn)行定位了候選文本區(qū)域,定位效果如圖 3-2 所示。
【參考文獻(xiàn)】:
期刊論文
[1]PCA和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的大米外觀品質(zhì)識(shí)別[J]. 仲偉峰,馬麗霞,何小溪. 哈爾濱理工大學(xué)學(xué)報(bào). 2015(04)
[2]基于ELM的機(jī)器人自適應(yīng)跟蹤控制[J]. 李軍,乃永強(qiáng). 電機(jī)與控制學(xué)報(bào). 2015(04)
[3]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰. 軟件學(xué)報(bào). 2014(09)
[4]基于PSO改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)手套手勢(shì)識(shí)別[J]. 李東潔,李君祥,張?jiān)?曾禛. 電機(jī)與控制學(xué)報(bào). 2014(08)
[5]大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J]. 張引,陳敏,廖小飛. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
[6]基于新聞要素的在線新事件檢測(cè)[J]. 李營那,阮彤,顧春華. 計(jì)算機(jī)應(yīng)用與軟件. 2013(12)
[7]大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 孟小峰,慈祥. 計(jì)算機(jī)研究與發(fā)展. 2013(01)
[8]一種改進(jìn)的KNN文本分類[J]. 鐘將,劉榮輝. 計(jì)算機(jī)工程與應(yīng)用. 2012(02)
[9]基于統(tǒng)計(jì)的自動(dòng)化Web新聞?wù)某槿J]. 林子熠,沈備軍. 計(jì)算機(jī)應(yīng)用與軟件. 2010(12)
[10]一種Web評(píng)論自動(dòng)抽取方法[J]. 劉偉,嚴(yán)華梁,肖建國,曾建勛. 軟件學(xué)報(bào). 2010(12)
碩士論文
[1]基于支持向量機(jī)和深度學(xué)習(xí)的分類算法研究[D]. 劉樹春.華東師范大學(xué) 2015
本文編號(hào):3317572
【文章來源】:河南科技大學(xué)河南省
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
新聞圖片示例
其中在執(zhí)行正向傳播的子過程的時(shí)候,計(jì)算節(jié)點(diǎn)的權(quán)值還有傳播到該位置的節(jié)點(diǎn)的閾值,通過相關(guān)的非線性變換計(jì)算后生成的輸出值作,使它用于該輸出的節(jié)點(diǎn),當(dāng)輸出的值與期望的值差值非常大的時(shí)候,網(wǎng)絡(luò)就會(huì)執(zhí)行第二個(gè)過程,就是誤差的反向傳播的子過程。執(zhí)行這一過程時(shí),將讓各層所有的單元都通過反向傳導(dǎo)獲得該輸出的誤差,然后改變每一層之間的鏈接強(qiáng)度以及各個(gè)之間的連接閾值最后用梯度下降誤差,就是這樣反復(fù)進(jìn)行很多次訓(xùn)練后,一定會(huì)得到一個(gè)最小誤差,這時(shí)候的各層對(duì)應(yīng)的權(quán)值和閾值就是我們通過訓(xùn)練想得到的,最后就停止訓(xùn)練就可以了。這個(gè)通過我們這樣訓(xùn)練的網(wǎng)絡(luò)模型就可以處理具有相似的輸入信息的數(shù)據(jù),并自動(dòng)找到我們需要的最小誤差時(shí)的各種訊息。而在本課題中將會(huì)使用一個(gè)雙層 BP 神經(jīng)網(wǎng)絡(luò),它的試驗(yàn)方法和原理也是一樣的,通過將輸入特征數(shù)字化,即轉(zhuǎn)化為特征值進(jìn)行歸一化后通過輸入層輸入神經(jīng)網(wǎng)絡(luò),即可通過要輸出的輸出值和網(wǎng)絡(luò)的訓(xùn)練來得到映射的規(guī)則。本篇文章所構(gòu)建的雙層 BP 神經(jīng)網(wǎng)絡(luò)模型如圖 2-1 所示。
在本研究方法中,首先將定位過的候選文本區(qū)域進(jìn)行二值化處理,然圖像進(jìn)行豎直方向上的灰度投影,并將投影后得到的一維數(shù)組進(jìn)行快換(FFT),然后通過頻譜特性來分析文字成行排列的周期特性。然的重要特征作為輸入構(gòu)建 BP 神經(jīng)網(wǎng)絡(luò)分類器。最后,通過實(shí)驗(yàn)獲得分出非文本區(qū)域和文本區(qū)域。實(shí)驗(yàn)結(jié)果表明,該方法不僅適用于 W和視頻中的文字定位,對(duì)自然場(chǎng)景中的定位效果也有提高。實(shí)驗(yàn)還和本濾除方法也做了比較,濾除效果也好于它們。2 圖片中文字定位的特點(diǎn)分析Web 新聞圖像的文本中包含著許多重要的信息,最主要的是它可能主題相關(guān)和概括性的信息。由于尺寸,各種字體,線條方向,不同的圖像中的弱字符和復(fù)雜的背景等因素的影響[40-42],給文字定位的準(zhǔn)一定的困難[43]。例如,Gatos B[44]定位方法對(duì)圖像中的文字進(jìn)行定位了候選文本區(qū)域,定位效果如圖 3-2 所示。
【參考文獻(xiàn)】:
期刊論文
[1]PCA和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的大米外觀品質(zhì)識(shí)別[J]. 仲偉峰,馬麗霞,何小溪. 哈爾濱理工大學(xué)學(xué)報(bào). 2015(04)
[2]基于ELM的機(jī)器人自適應(yīng)跟蹤控制[J]. 李軍,乃永強(qiáng). 電機(jī)與控制學(xué)報(bào). 2015(04)
[3]大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰. 軟件學(xué)報(bào). 2014(09)
[4]基于PSO改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)手套手勢(shì)識(shí)別[J]. 李東潔,李君祥,張?jiān)?曾禛. 電機(jī)與控制學(xué)報(bào). 2014(08)
[5]大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J]. 張引,陳敏,廖小飛. 計(jì)算機(jī)研究與發(fā)展. 2013(S2)
[6]基于新聞要素的在線新事件檢測(cè)[J]. 李營那,阮彤,顧春華. 計(jì)算機(jī)應(yīng)用與軟件. 2013(12)
[7]大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 孟小峰,慈祥. 計(jì)算機(jī)研究與發(fā)展. 2013(01)
[8]一種改進(jìn)的KNN文本分類[J]. 鐘將,劉榮輝. 計(jì)算機(jī)工程與應(yīng)用. 2012(02)
[9]基于統(tǒng)計(jì)的自動(dòng)化Web新聞?wù)某槿J]. 林子熠,沈備軍. 計(jì)算機(jī)應(yīng)用與軟件. 2010(12)
[10]一種Web評(píng)論自動(dòng)抽取方法[J]. 劉偉,嚴(yán)華梁,肖建國,曾建勛. 軟件學(xué)報(bào). 2010(12)
碩士論文
[1]基于支持向量機(jī)和深度學(xué)習(xí)的分類算法研究[D]. 劉樹春.華東師范大學(xué) 2015
本文編號(hào):3317572
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3317572.html
最近更新
教材專著