天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文本挖掘的學(xué)術(shù)文獻(xiàn)內(nèi)容智能識別方法研究

發(fā)布時(shí)間:2021-01-25 00:08
  作為人工智能領(lǐng)域的前沿課題之一,文本挖掘(Text Mining)是以文本數(shù)據(jù)為研究對象,以數(shù)理統(tǒng)計(jì)分析為理論基礎(chǔ),結(jié)合機(jī)器學(xué)習(xí)與自然語言處理等相關(guān)方法,提取文本隱含信息以及知識的計(jì)算機(jī)處理技術(shù)。為解決傳統(tǒng)人力分析方法在處理規(guī);瘜W(xué)術(shù)文檔集時(shí)效率低下的問題,本文以切割布局問題(Cutting and Packing Problem,C&P)學(xué)術(shù)文獻(xiàn)為研究對象,旨在結(jié)合文本挖掘與機(jī)器學(xué)習(xí)相關(guān)方法,實(shí)現(xiàn)該類文獻(xiàn)內(nèi)容類別的智能化解析及識別,從而為規(guī)模化學(xué)術(shù)文檔集的分析和處理提供更加高效的途徑。主要研究工作包括以下幾個(gè)方面:(1)根據(jù)本文的研究對象和研究目標(biāo),研究了 C&P問題的基本概念和該類學(xué)術(shù)文獻(xiàn)的主要內(nèi)容類別,并以國際主流運(yùn)籌學(xué)期刊為數(shù)據(jù)來源,建立了文檔數(shù)據(jù)集,作為本文算法模型的測試對象。(2)基于Python編程語言及其第三方庫,構(gòu)建了包括文檔格式的轉(zhuǎn)換、文本數(shù)據(jù)降噪、文本切分、停用詞去除、詞性標(biāo)注以及詞干提取等步驟在內(nèi)的文本數(shù)據(jù)預(yù)處理流程。(3)對比經(jīng)典特征提取方法,選擇并建立了基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的文本特征提取模型。主要包括樣本訓(xùn)練數(shù)據(jù)的生成、全連接神經(jīng)網(wǎng)絡(luò)的... 

【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:124 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于文本挖掘的學(xué)術(shù)文獻(xiàn)內(nèi)容智能識別方法研究


圖2-2文檔格式轉(zhuǎn)換流程圖??Figure?2-2?Document?format?conversion?flowchart??

噪聲去除,文本數(shù)據(jù),前后對比


??噪聲去除前后的樣例文本數(shù)據(jù)對比如圖2-3所示。??In?this?paper,?we?study?the?circular?packing?this?paper?study?the?circular?packing??problem?Its?objective?is?lo?pack?j?set?ol?n?problem?Its?objective?pack?set?circular??circular?pieces?into?ii?rectangular?plate?R?of?pieces?into?rectangular?plate?fixed??fixed?dimensions?I?x?\\?Each?piece’s?type?dimensions?Each?pieces?type??i.?i?1?m,?is?characterized?by?its?characterized?its?radius?and?its?demand??radius?ri?and?its?demand?bi?.?The?objective?The?objective?determine?the?packing??is?((xi?)2?4?(yi?—?yj?)2?-?(!?i?.?fj?z]?pattern?corresponding?the?minimum??>?0,?j?l?i?1,?,n:?j?I?a?(xi?ri?unused?area?for?the?circular?pieces?placed??)zi?>?0

文本數(shù)據(jù),詞性,標(biāo)簽


?????????■????樣例文本數(shù)據(jù)詞性標(biāo)簽如圖2-4所示??’this,,DT'?I?’paper'?■>?,NN,?I?'study'?^?'VBZ'?i?'the'?->?'DT'??'circular''JJ'?!?’packing’?+?'NN,?I?’problem,今?TW?1?'Its'?^?'PRPS'??'objective'?^?'JJ'?i?'pack'?'NN'?I?'set'?^?'VBN'?i?'circular1?今?’JJ’??'pieces'->?'NNS'?!?'into'?^?'IN'?I?'rectangular'^?'JJ'?I?'plate'->?'NN'??'fixed'?'VBN'?!?'dimensions'?'NNS'?I?'Each'?'DT'?I?'piece'?'NN'??'type'?'NN'?I?'characterized'?->?'VBD'?I?'its'?'PRP¥'?I?'radius'?'NN'??'and'?'CC'?|?'its'?^?'PRP¥'?I?’demand'今?’NN'?i?'The’?+?'DT'??'objective'->?'JJ'?|?'determine'?^?'NN'?i?'the'?'DT'?|?'packing'^?'NN'??'determine'?'NN'?|?'the'?'DT'?|?'packing'?'NN'?|?'pattern'?'NN'??’the1?+?'DT’?丨'minimum’?+

【參考文獻(xiàn)】:
期刊論文
[1]卷積神經(jīng)網(wǎng)絡(luò)中激活函數(shù)的一種改進(jìn)[J]. 劉小文,郭大波,李聰.  測試技術(shù)學(xué)報(bào). 2019(02)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的反向傳播算法改進(jìn)[J]. 楊鶴標(biāo),龔文彥.  計(jì)算機(jī)工程與設(shè)計(jì). 2019(01)
[3]高性能正則表達(dá)式匹配算法綜述[J]. 付哲,李軍.  計(jì)算機(jī)工程與應(yīng)用. 2018(20)
[4]基于深度學(xué)習(xí)的自動(dòng)文摘句排序方法[J]. 何凱霖,丁曉峰.  計(jì)算機(jī)工程與設(shè)計(jì). 2017(12)
[5]基于LDA的社科文獻(xiàn)主題建模方法[J]. 李昌亞,劉方方.  計(jì)算機(jī)技術(shù)與發(fā)展. 2018(02)
[6]基于正則表達(dá)式的Web頁面信息抽取技術(shù)研究[J]. 羅糧,朱儒明.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(15)
[7]大數(shù)據(jù)背景下BCC語料庫的研制[J]. 荀恩東,饒高琦,肖曉悅,臧嬌嬌.  語料庫語言學(xué). 2016(01)
[8]大規(guī)模中文語料庫檢索技術(shù)研究[J]. 余一驕,劉芹.  計(jì)算機(jī)科學(xué). 2015(02)
[9]基于余弦距離度量學(xué)習(xí)的偽K近鄰文本分類算法[J]. 彭凱,汪偉,楊煜普.  計(jì)算機(jī)工程與設(shè)計(jì). 2013(06)
[10]基于LDA模型的中文微博話題意見領(lǐng)袖挖掘[J]. 馮時(shí),景珊,楊卓,王大玲.  東北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(04)

碩士論文
[1]梯度下降法在機(jī)器學(xué)習(xí)中的應(yīng)用[D]. 孫婭楠.西南交通大學(xué) 2018
[2]基于語境和停用詞驅(qū)動(dòng)的中文自動(dòng)分詞研究[D]. 江兆中.合肥工業(yè)大學(xué) 2010



本文編號:2998177

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2998177.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1130d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com