基于機(jī)器學(xué)習(xí)的文獻(xiàn)挖掘算法研究
發(fā)布時(shí)間:2021-10-10 03:58
隨著科研人員數(shù)量的不斷增長(zhǎng),學(xué)術(shù)文獻(xiàn)也是與日增長(zhǎng),這就使得對(duì)文獻(xiàn)分類具有十分重要的意義。應(yīng)用于多領(lǐng)域文檔集合的分類算法種類繁多,應(yīng)用廣泛,然而,諸如文本全是關(guān)于室內(nèi)定位或者全是關(guān)于醫(yī)學(xué)等這樣窄領(lǐng)域的文獻(xiàn)分類應(yīng)用,是一個(gè)極其困難的任務(wù)。盡管在科學(xué)研究中發(fā)揮著很重要的作用,卻沒有得到很好的研究。本文的研究重點(diǎn)是針對(duì)SpringerLink窄域文獻(xiàn)數(shù)據(jù)進(jìn)行處理,提取出好的文本特征,并得到好的分類效果,主要工作如下:(1)本文在傳統(tǒng)LDA分類模型的基礎(chǔ)上,引入詞向量表示,融合詞向量語義,提出基于LDA和Word2vec特征擴(kuò)展文本表示方法,分別從主題和詞語上下文語義上學(xué)習(xí)特征。在“indoor location”和“computer science”文獻(xiàn)語料下的實(shí)驗(yàn)結(jié)果表明,基于LDA和Word2vec的特征擴(kuò)展分類性能明顯優(yōu)于LDA、LDA-w2v兩種基礎(chǔ)模型,其更加精細(xì)地表達(dá)了短文本語義信息,一定程度上克服了短文本稀疏問題和主題聚焦性差的問題,并且基于LDA和Word2vec的特征擴(kuò)展分類本質(zhì)上是一種半監(jiān)督學(xué)習(xí)方法,無需大量標(biāo)注語料集。(2)為了更好的解決主題聚焦性差問題,本文引入摘要提取...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SpringerLink網(wǎng)頁結(jié)構(gòu)圖
994-2018年“indoorlocation”、“computerscience”主題在各個(gè)研究方向的學(xué)術(shù)文獻(xiàn)發(fā)
摘要中句子間的距離示例
【參考文獻(xiàn)】:
期刊論文
[1]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[2]基于主題相似度的宏觀篇章主次關(guān)系識(shí)別方法[J]. 蔣峰,褚曉敏,徐昇,李培峰,朱巧明. 中文信息學(xué)報(bào). 2018(01)
[3]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國(guó). 數(shù)據(jù)采集與處理. 2014(01)
[4]基于LDA主題模型的短文本分類方法[J]. 張志飛,苗奪謙,高燦. 計(jì)算機(jī)應(yīng)用. 2013(06)
[5]基于LDA模型的文本分類研究[J]. 姚全珠,宋志理,彭程. 計(jì)算機(jī)工程與應(yīng)用. 2011(13)
[6]文本分類中基于基尼指數(shù)的特征選擇算法研究[J]. 尚文倩,黃厚寬,劉玉玲,林永民,瞿有利,董紅斌. 計(jì)算機(jī)研究與發(fā)展. 2006(10)
[7]中文文本分類中的特征選擇研究[J]. 周茜,趙明生,扈旻. 中文信息學(xué)報(bào). 2004(03)
[8]基于最大熵模型的組塊分析[J]. 李素建,劉群,楊志峰. 計(jì)算機(jī)學(xué)報(bào). 2003(12)
[9]分類法的發(fā)展趨勢(shì)簡(jiǎn)論[J]. 侯漢清. 情報(bào)科學(xué). 1981(01)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):3427598
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:75 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
SpringerLink網(wǎng)頁結(jié)構(gòu)圖
994-2018年“indoorlocation”、“computerscience”主題在各個(gè)研究方向的學(xué)術(shù)文獻(xiàn)發(fā)
摘要中句子間的距離示例
【參考文獻(xiàn)】:
期刊論文
[1]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻(xiàn)為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(01)
[2]基于主題相似度的宏觀篇章主次關(guān)系識(shí)別方法[J]. 蔣峰,褚曉敏,徐昇,李培峰,朱巧明. 中文信息學(xué)報(bào). 2018(01)
[3]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國(guó). 數(shù)據(jù)采集與處理. 2014(01)
[4]基于LDA主題模型的短文本分類方法[J]. 張志飛,苗奪謙,高燦. 計(jì)算機(jī)應(yīng)用. 2013(06)
[5]基于LDA模型的文本分類研究[J]. 姚全珠,宋志理,彭程. 計(jì)算機(jī)工程與應(yīng)用. 2011(13)
[6]文本分類中基于基尼指數(shù)的特征選擇算法研究[J]. 尚文倩,黃厚寬,劉玉玲,林永民,瞿有利,董紅斌. 計(jì)算機(jī)研究與發(fā)展. 2006(10)
[7]中文文本分類中的特征選擇研究[J]. 周茜,趙明生,扈旻. 中文信息學(xué)報(bào). 2004(03)
[8]基于最大熵模型的組塊分析[J]. 李素建,劉群,楊志峰. 計(jì)算機(jī)學(xué)報(bào). 2003(12)
[9]分類法的發(fā)展趨勢(shì)簡(jiǎn)論[J]. 侯漢清. 情報(bào)科學(xué). 1981(01)
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國(guó)科學(xué)技術(shù)大學(xué) 2017
本文編號(hào):3427598
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3427598.html
最近更新
教材專著