天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于特征向量構(gòu)建的文本分類(lèi)方法研究

發(fā)布時(shí)間:2022-02-19 01:41
  文本是多樣信息的來(lái)源,由于其非結(jié)構(gòu)化特性,從中獲取見(jiàn)解耗時(shí)過(guò)多且相對(duì)困難。文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域中的經(jīng)典主題,是根據(jù)內(nèi)容分配預(yù)定義標(biāo)簽或類(lèi)別的過(guò)程。神經(jīng)網(wǎng)絡(luò)作為處理文本分類(lèi)的主流技術(shù),是一種自動(dòng)化預(yù)測(cè)分析方法;谏窠(jīng)網(wǎng)絡(luò)模型來(lái)構(gòu)建特征向量的文本表示方法能夠準(zhǔn)確獲取詞義、語(yǔ)義信息,但易呈現(xiàn)高稀疏性,且文本分類(lèi)模型中針對(duì)特定情況常會(huì)出現(xiàn)分類(lèi)性能不佳的情況。面對(duì)上述問(wèn)題,本文進(jìn)行了如下研究:(1)文本表示方面。針對(duì)GloVe模型在詞向量表示訓(xùn)練過(guò)程中存在大批量無(wú)關(guān)詞的問(wèn)題,本文提出了一種基于WT-GloVe的詞向量加權(quán)模型。首先,借助基于詞間距和類(lèi)間貢獻(xiàn)度的特征加權(quán)算法進(jìn)行特征詞提取;其次,根據(jù)GloVe模型的自身缺點(diǎn)提出了一種過(guò)濾無(wú)關(guān)詞方法,以提高詞向量訓(xùn)練質(zhì)量;最后,結(jié)合基于詞間距和類(lèi)間分布的特征加權(quán)算法以及無(wú)關(guān)詞過(guò)濾后的GloVe共同生成了加權(quán)詞向量模型,有效獲取特征詞的重要程度及語(yǔ)義信息,構(gòu)成新的詞向量加權(quán)模型。實(shí)驗(yàn)結(jié)果表明,相同環(huán)境下與其它同類(lèi)模型相比,基于WT-GloVe的詞向量加權(quán)模型能有效提高分類(lèi)效果。(2)文本分類(lèi)方面。針對(duì)fastText模型在中文文本分類(lèi)時(shí),子詞嵌... 

【文章來(lái)源】:西安理工大學(xué)陜西省

【文章頁(yè)數(shù)】:70 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀及存在問(wèn)題
        1.2.1 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.2 現(xiàn)存問(wèn)題及難點(diǎn)
    1.3 研究框架及內(nèi)容
        1.3.1 研究框架
        1.3.2 研究?jī)?nèi)容
    1.4 本文組織結(jié)構(gòu)
2 相關(guān)理論概述
    2.1 傳統(tǒng)文本表示方法
        2.1.1 布爾模型
        2.1.2 空間向量模型
        2.1.3 主題模型
    2.2 TF-IDF算法
    2.3 Word embedding模型
        2.3.1 CBOW模型
        2.3.2 Skip-gram模型
        2.3.3 Glo Ve模型
    2.4 文本分類(lèi)方法
        2.4.1 支持向量機(jī)模型
        2.4.2 fast Text模型
    2.5 評(píng)估指標(biāo)
    2.6 本章小結(jié)
3 基于WT-Glo Ve的詞向量加權(quán)模型
    3.1 理論基礎(chǔ)
    3.2 基于WT-Glo Ve的詞向量加權(quán)模型
        3.2.1 基于WDID-TFIDF的特征加權(quán)算法
        3.2.2 基于WT-Glo Ve的詞向量加權(quán)模型
    3.3 實(shí)驗(yàn)與結(jié)果分析
        3.3.1 實(shí)驗(yàn)數(shù)據(jù)
        3.3.2 實(shí)驗(yàn)設(shè)置
        3.3.3 實(shí)驗(yàn)分析
    3.4 本章小結(jié)
4 基于STL-fast Text的文本分類(lèi)模型
    4.1 理論基礎(chǔ)
    4.2 基于STL-fast Text的文本分類(lèi)模型
        4.2.1 基于SLF-TFIDF的低頻詞加權(quán)算法
        4.2.2 基于STL-fast Text的文本分類(lèi)模型
    4.3 實(shí)驗(yàn)與結(jié)果分析
        4.3.1 實(shí)驗(yàn)數(shù)據(jù)
        4.3.2 實(shí)驗(yàn)設(shè)置
        4.3.3 實(shí)驗(yàn)分析
    4.4 本章小結(jié)
5 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間主要研究成果


【參考文獻(xiàn)】:
期刊論文
[1]基于LDA主題模型的文本相似度計(jì)算[J]. 王振振,何明,杜永萍.  計(jì)算機(jī)科學(xué). 2013(12)
[2]一種基于Sigmoid函數(shù)的改進(jìn)協(xié)同過(guò)濾推薦算法[J]. 方耀寧,郭云飛,扈紅超,蘭巨龍.  計(jì)算機(jī)應(yīng)用研究. 2013(06)
[3]基于SVM算法的文本分類(lèi)技術(shù)研究[J]. 崔建明,劉建明,廖周宇.  計(jì)算機(jī)仿真. 2013(02)
[4]基于信息熵的TFIDF文本分類(lèi)特征選擇算法研究[J]. 陳國(guó)松,黃大榮.  湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版). 2008(04)
[5]基于PLSA模型的文本分割[J]. 石晶,戴國(guó)忠.  計(jì)算機(jī)研究與發(fā)展. 2007(02)
[6]文本分類(lèi)綜述[J]. 靳小波.  自動(dòng)化博覽. 2006(S1)
[7]支持向量機(jī)(SVM)的研究進(jìn)展[J]. 李曉宇,張新峰,沈蘭蓀.  測(cè)控技術(shù). 2006(05)

博士論文
[1]文本分類(lèi)及其相關(guān)技術(shù)研究[D]. 李榮陸.復(fù)旦大學(xué) 2005

碩士論文
[1]基于布爾模型的網(wǎng)頁(yè)查重算法研究[D]. 連浩.中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所) 2006



本文編號(hào):3631957

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3631957.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b9b6c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
熟女乱一区二区三区丝袜| 亚洲中文字幕剧情在线播放| 国产精品午夜福利免费阅读| 久久亚洲精品成人国产| 日韩一区二区三区久久| 91麻豆精品欧美一区| 老司机精品视频在线免费看| 亚洲av又爽又色又色| 国产精品久久男人的天堂| 在线九月婷婷丁香伊人| 在线懂色一区二区三区精品| 经典欧美熟女激情综合网| 国产精品免费视频久久| 午夜视频成人在线免费| 97人摸人人澡人人人超碰| 在线日韩中文字幕一区| 国产熟女一区二区三区四区| 亚洲欧美国产网爆精品| 日韩丝袜诱惑一区二区| 久久精品国产亚洲av麻豆尤物| 日本人妻免费一区二区三区| 午夜亚洲精品理论片在线观看| 狠狠做五月深爱婷婷综合| 亚洲伦理中文字幕在线观看| 欧美精品亚洲精品日韩专区| 日韩在线视频精品视频| 99久热只有精品视频最新| 亚洲香艳网久久五月婷婷| 国产又大又硬又粗又黄| 熟妇久久人妻中文字幕| 日韩在线欧美一区二区| 99久久精品国产麻豆| 中日韩免费一区二区三区| 欧美一级特黄大片做受大屁股| 神马午夜福利免费视频| 国产精品视频一区麻豆专区| 欧美区一区二区在线观看| 91欧美日韩中在线视频| 国产一区二区三区草莓av| 好吊妞视频这里有精品| 成人午夜视频在线播放|