天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

面向網(wǎng)絡(luò)教育新聞文本的區(qū)域分類方法研究

發(fā)布時間:2021-07-02 12:08
  隨著互聯(lián)網(wǎng)的快速發(fā)展和普及,網(wǎng)上教育新聞數(shù)據(jù)也越來越多。為了讓關(guān)注教育新聞的相關(guān)人員根據(jù)需要,方便地獲取到我國34個行政區(qū)中特定區(qū)域的教育新聞。本文通過收集大量的教育新聞文本,建立了帶標(biāo)記的教育新聞文本集,設(shè)計(jì)了適用教育新聞文本的區(qū)域分類方法。本文主要工作可以概括為:(1)為了降低人工標(biāo)記文本集的成本,本文對網(wǎng)絡(luò)教育新聞文本集的自動標(biāo)記法進(jìn)行了研究,提出了一種基于CGLTF-IDF特征提取和半監(jiān)督聚類的教育新聞文本集自動標(biāo)記方法。首先,通過網(wǎng)絡(luò)爬蟲進(jìn)行文本獲取并對其進(jìn)行清洗;其次,收集教育地理名詞形成教育地理詞庫,并對文檔-逆文檔頻率(TF-IDF)特征提取方法進(jìn)行改進(jìn),設(shè)計(jì)了適用于教育新聞文本的特征提取方法(CGLTF-IDF);然后,為了形成高質(zhì)量帶標(biāo)記的訓(xùn)練集,提出了基于權(quán)值的樣本選擇標(biāo)記策略;最后,構(gòu)建了基于CGLTF-IDF特征提取和半監(jiān)督聚類的教育新聞文本集自動標(biāo)記模型,并對文本集進(jìn)行標(biāo)記。實(shí)驗(yàn)結(jié)果表明此種方法可以有效地對網(wǎng)絡(luò)教育新聞文本集進(jìn)行標(biāo)記,從而為后期研究提供可訓(xùn)練的數(shù)據(jù)集。(2)為了對教育新聞文本進(jìn)行行政區(qū)域分類,本文設(shè)計(jì)了一種基于投票策略的教育新聞文本的區(qū)域分類... 

【文章來源】:西安理工大學(xué)陜西省

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要工作
    1.4 論文組織結(jié)構(gòu)
2 相關(guān)理論
    2.1 文本預(yù)處理
        2.1.1 中文分詞
        2.1.2 去停用詞
    2.2 文本表示
        2.2.1 文本特征提取及選擇
        2.2.2 文本特征表示
    2.3 文本分類算法
        2.3.1 樸素貝葉斯
        2.3.2 卷積神經(jīng)網(wǎng)絡(luò)
        2.3.3 長短期記憶網(wǎng)絡(luò)
    2.4 文本自動標(biāo)記方法分析
        2.4.1 主動學(xué)習(xí)
        2.4.2 半監(jiān)督學(xué)習(xí)
    2.5 性能評價標(biāo)準(zhǔn)
    2.6 本章小結(jié)
3 網(wǎng)絡(luò)教育新聞文本集的自動標(biāo)記方法研究
    3.1 網(wǎng)絡(luò)教育新聞獲取
        3.1.1 網(wǎng)絡(luò)爬蟲
        3.1.2 Scrapy爬蟲框架
        3.1.3 網(wǎng)絡(luò)教育新聞數(shù)據(jù)獲取流程
    3.2 教育地理詞庫構(gòu)建
    3.3 教育新聞文本預(yù)處理
        3.3.1 中文分詞
        3.3.2 去停用詞
    3.4 CGLTF-IDF特征提取及文本表示
        3.4.1 CGLTF-IDF特征提取
        3.4.2 文本表示
    3.5 基于權(quán)值的教育新聞文本標(biāo)記選擇策略
    3.6 基于CGLTF-IDF和半監(jiān)督聚類的文本集自動標(biāo)記器
    3.7 實(shí)驗(yàn)
        3.7.1 實(shí)驗(yàn)數(shù)據(jù)
        3.7.2 實(shí)驗(yàn)結(jié)果及分析
    3.8 本章小結(jié)
4 網(wǎng)絡(luò)教育新聞文本的區(qū)域分類方法研究
    4.1 文本向量表示
    4.2 基于樸素貝葉斯的分類模型
        4.2.1 模型構(gòu)建
        4.2.2 實(shí)驗(yàn)
    4.3 基于深度學(xué)習(xí)的分類模型
        4.3.1 基于卷積神經(jīng)網(wǎng)絡(luò)的分類模型構(gòu)建
        4.3.2 基于LSTM的分類模型構(gòu)建
        4.3.3 實(shí)驗(yàn)
    4.4 基于投票策略的教育新聞的區(qū)域分類模型
        4.4.1 模型構(gòu)建
        4.4.2 實(shí)驗(yàn)
    4.5 教育新聞分類模型應(yīng)用
    4.6 本章小結(jié)
5 總結(jié)與展望
    5.1 本文工作總結(jié)
    5.2 未來工作展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間主要研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌.  計(jì)算機(jī)應(yīng)用. 2018(11)
[2]基于深度學(xué)習(xí)的專利分類方法[J]. 馬建紅,王瑞楊,姚爽,劉雙耀.  計(jì)算機(jī)工程. 2018(10)
[3]字符級卷積神經(jīng)網(wǎng)絡(luò)短文本分類算法[J]. 劉敬學(xué),孟凡榮,周勇,劉兵.  計(jì)算機(jī)工程與應(yīng)用. 2019(05)
[4]基于詞向量特征擴(kuò)展的中文短文本分類研究[J]. 雷朔,劉旭敏,徐維祥.  計(jì)算機(jī)應(yīng)用與軟件. 2018(08)
[5]基于主動學(xué)習(xí)先驗(yàn)的半監(jiān)督K-means聚類算法[J]. 柴變芳,呂峰,李文斌,王垚.  計(jì)算機(jī)應(yīng)用. 2018(11)
[6]基于半監(jiān)督聚類方法的測試用例選擇技術(shù)[J]. 程雪梅,楊秋輝,翟宇鵬,陳偉.  計(jì)算機(jī)科學(xué). 2018(01)
[7]K最近鄰算法理論與應(yīng)用綜述[J]. 毋雪雁,王水花,張煜東.  計(jì)算機(jī)工程與應(yīng)用. 2017(21)
[8]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英.  計(jì)算機(jī)工程. 2018(07)
[9]主動學(xué)習(xí)算法研究進(jìn)展[J]. 楊文柱,田瀟瀟,王思樂,張錫忠.  河北大學(xué)學(xué)報(自然科學(xué)版). 2017(02)
[10]基于Hash結(jié)構(gòu)詞典的雙向最大匹配分詞法[J]. 陳之彥,李曉杰,朱淑華,付丹龍,邢詒海.  計(jì)算機(jī)科學(xué). 2015(S2)

碩士論文
[1]面向商品的垂直搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王海濤.北京交通大學(xué) 2018
[2]基于深度學(xué)習(xí)中文分詞的研究[D]. 王夢鴿.西安郵電大學(xué) 2018
[3]基于分布式框架的網(wǎng)絡(luò)教育新聞熱點(diǎn)話題發(fā)現(xiàn)研究[D]. 柳笛.天津師范大學(xué) 2018
[4]主動學(xué)習(xí)文本分類方法及其應(yīng)用研究[D]. 梁昕露.福州大學(xué) 2016
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[6]木棉教育新聞平臺的設(shè)計(jì)與實(shí)現(xiàn)[D]. 劉崇.華南理工大學(xué) 2015
[7]基于HMM的教育新聞抽取與分類研究[D]. 梁吉光.南京師范大學(xué) 2012



本文編號:3260435

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3260435.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d1b8c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com