天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

面向新聞網(wǎng)頁的主題識別及自動分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2024-02-04 20:38
  隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展與普及,網(wǎng)絡(luò)資源正在呈現(xiàn)爆炸式增長,其主要表現(xiàn)形式則是以網(wǎng)頁這一載體而存在的。雖然互聯(lián)網(wǎng)豐富的信息資源帶來了一定的便利性,但是用戶無法在海量的信息資源中快速定位到自己所需的信息,因此網(wǎng)頁分類這個(gè)問題就應(yīng)運(yùn)而生。隨著分類技術(shù)的發(fā)展,網(wǎng)頁分類對準(zhǔn)確率和效率提出了更高的要求;此外新聞網(wǎng)頁作為日常獲取信息的媒介,大多數(shù)新聞網(wǎng)站的分類標(biāo)準(zhǔn)并不統(tǒng)一,采用分類技術(shù)可以有效地對不同新聞網(wǎng)站的網(wǎng)頁進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化分類與管理。首先,本文為明確系統(tǒng)的需求,對系統(tǒng)的整體任務(wù)概述、功能需求和業(yè)務(wù)整體過程進(jìn)行了分析,闡明了設(shè)計(jì)新聞網(wǎng)頁主題識別及自動分類系統(tǒng)的必要性。其次,針對新聞網(wǎng)頁特性表示問題,對網(wǎng)頁分類特征進(jìn)行分析,完成網(wǎng)頁內(nèi)容特征選擇工作;研究分析了LDA主題模型,完成新聞網(wǎng)頁文本的主題識別,獲取主題詞,將得到的內(nèi)容特征和主題詞共同作為文本特征;提出一種特征項(xiàng)、特征向量和標(biāo)簽結(jié)構(gòu)位置三元組的方式對網(wǎng)頁特征集進(jìn)行表示。通過對每一個(gè)文本特征引入對應(yīng)的結(jié)構(gòu)特征,并將其轉(zhuǎn)化為結(jié)構(gòu)向量,完成聯(lián)合特征向量構(gòu)建。再次,針對網(wǎng)頁分類模型問題,分析與研究了機(jī)器學(xué)習(xí)分類模型和卷積神經(jīng)網(wǎng)絡(luò)分類模型;诟倪M(jìn)...

【文章頁數(shù)】:84 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖3-5特征詞向量示例圖

圖3-5特征詞向量示例圖

哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-25-詞向量設(shè)置成k維,k是指在進(jìn)行詞嵌入向量轉(zhuǎn)化時(shí)映射成的K維實(shí)數(shù)向量,把結(jié)構(gòu)向量設(shè)置成m維大小,k和m決定了聯(lián)合特征矩陣的列寬度。將上述得到的網(wǎng)頁的聯(lián)合特征矩陣共同作為分類模型的輸入,進(jìn)行模型的學(xué)習(xí)訓(xùn)練。3.5實(shí)驗(yàn)與分析本節(jié)以真實(shí)環(huán)境下爬取的新....


圖3-6主題-詞分布圖

圖3-6主題-詞分布圖

哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-26-在表3-1中,本文以“足球”特征詞為例,得到相似特征詞,同時(shí)得到兩個(gè)詞在語義空間的相似度值。通過以上實(shí)驗(yàn)分析得到,使用詞嵌入特征向量可以在語義上進(jìn)行相似度計(jì)算,相比于傳統(tǒng)的空間向量表示模型對特征項(xiàng)進(jìn)行表示,可以充分學(xué)習(xí)文本的語義關(guān)系,保留了詞....


圖4-5CNN網(wǎng)絡(luò)架構(gòu)圖

圖4-5CNN網(wǎng)絡(luò)架構(gòu)圖

哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-30-一種,CNN網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層組成[46]。CNN的網(wǎng)絡(luò)架構(gòu)圖如圖4-5所示。圖4-5CNN網(wǎng)絡(luò)架構(gòu)圖輸入層,就是把一個(gè)網(wǎng)頁的特征向量矩陣作為輸入數(shù)據(jù)送入CNN模型,并且和卷積層連接起來,進(jìn)行卷積操作。特征矩陣中的每一....


圖4-8精確率對比圖

圖4-8精確率對比圖

哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-38-的卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)頁分類方法TFCNN[18](TextFeaturesConvoltionalNeuralNetworks,TFCNN),TFCNN是基于在CNN模型的基礎(chǔ)上只使用網(wǎng)頁的文本特征向量作為模型的特征矩陣,來進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。圖4....



本文編號:3895819

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3895819.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶67097***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com