天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 行政管理論文 >

政府通告文本分類系統(tǒng)的設計與實現(xiàn)

發(fā)布時間:2020-07-26 09:59
【摘要】:近年來,隨著互聯(lián)網(wǎng)數(shù)據(jù)時代的發(fā)展,政務信息逐漸公開透明化,如何提高政府在公共事務上的管理效率成了一個熱門話題。政府在公共事務管理上通常是通過制定一系列政策來完成,因此,如何組織和管理政府的政策信息成了解決這一問題的關鍵點。本文利用文本挖掘技術,以文本分類的方式對政府政策文本數(shù)據(jù)進行挖掘分析,為政府政策文本數(shù)據(jù)提供有效分析手段,促進政務信息管理朝著智能化方向發(fā)展。國內(nèi)外對文本分類技術的研究大多建立在現(xiàn)成語料庫上,而針對具體領域的應用研究很少。本文以政府網(wǎng)站上的政策文本為數(shù)據(jù)源,利用18096篇政策文本進行分類研究。提取出其中十個大類作為文本數(shù)據(jù)的分類目標,通過數(shù)據(jù)清洗和特征工程構(gòu)建文本模型,利用文本分類算法結(jié)合分類評價指標綜合對比文本分類效果,建立并調(diào)用分類器模型完成分類系統(tǒng)設計與實現(xiàn)。本文的主要工作內(nèi)容如下:(1)通過網(wǎng)絡爬蟲獲取政府網(wǎng)站的政策文本信息和類別信息,構(gòu)建政策公告文本語料庫,為政策文本分類提供研究基礎。(2)對政策文本分詞后的詞語進行特征選擇,提出混合特征選擇方法MFS,對原始文本語料進行降維處理,將其與TF-IDF、MI、CHI等傳統(tǒng)特征選擇方法進行對比,該方法表現(xiàn)出較好的分類效果。(3)將主題模型LDA應用到文本分類的研究上,作為文本降維的手段,LDA主題模型能將文本空間從數(shù)萬維降低到數(shù)十維,并得到良好的分類效果。(4)將深度學習模型應用到文本分類任務中,利用Word2vec結(jié)合TextCNN構(gòu)造文本分類模型,對比分析在大規(guī)模語料庫和自建語料庫上的文本分類效果,實驗表明在小規(guī)模語料庫上深度學習模型容易出現(xiàn)過擬合現(xiàn)象。本文通過對比分析,確定了以MFS為特征選擇方法,利用TF-IDF進行文本建模,以SVM為分類算法構(gòu)建政策通告文本分類模型,經(jīng)過語料庫訓練得到的分類器在每個類別的測試集上達到92%的平均準確率,調(diào)用訓練好的文本分類模型實現(xiàn)了一個的網(wǎng)頁端的文本分類系統(tǒng)。
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:D63;TP391.1
【圖文】:

架構(gòu)圖,神經(jīng)網(wǎng)絡,架構(gòu)


圖 2-3 NNLM 神經(jīng)網(wǎng)絡架構(gòu)圖神經(jīng)網(wǎng)絡中的參數(shù)為

本文編號:2770620

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/zhengwuguanli/2770620.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶19d89***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com