天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文文本分類(lèi)技術(shù)研究及應(yīng)用

發(fā)布時(shí)間:2022-05-02 22:42
  互聯(lián)網(wǎng)的發(fā)展為第三次科技革命插上翅膀,讓人類(lèi)進(jìn)入信息爆炸的時(shí)代,每一天這個(gè)世界上的信息總量都在以恐怖的速度巨量攀升,我們的大腦每時(shí)每刻都在主動(dòng)或被動(dòng)地接收處理大量的信息。在這個(gè)時(shí)間越來(lái)越寶貴的信息高速時(shí)代,如何從龐雜的信息中精確地查找、過(guò)濾、分辨我們需要的信息是極為重要的,作為信息的重要載體,如何對(duì)文本進(jìn)行快速的區(qū)分至關(guān)重要,文本分類(lèi)技術(shù)也由此應(yīng)運(yùn)而生。文本分類(lèi)技術(shù)從上個(gè)世紀(jì)70年代誕生至今,它的地位也越來(lái)越發(fā)重要。因此對(duì)文本分類(lèi)相關(guān)技術(shù)的研究與應(yīng)用也有著重要的意義。首先,本文介紹了文本分類(lèi)的背景,目前國(guó)內(nèi)外取得的研究進(jìn)展。接著本文立足于提高文本分類(lèi)的穩(wěn)定性和準(zhǔn)確性,研究了文本分類(lèi)的相關(guān)技術(shù),對(duì)其中的各個(gè)環(huán)節(jié)包括文本的預(yù)處理階段、文本特征選擇算法、文本特征加權(quán)算法、文本表示模型、文本分類(lèi)算法都作了詳盡介紹,并就文本的特征選擇和加權(quán)算法以及文本分類(lèi)技術(shù)的應(yīng)用進(jìn)行了深入的研究,主要的研究?jī)?nèi)容如下:針對(duì)CHI卡方檢驗(yàn)特征算法對(duì)于低頻詞存在缺陷的情況,進(jìn)行了兩點(diǎn)改進(jìn)。其一,引入了考慮類(lèi)別內(nèi)影響的DT(Document&Term)因子,它包括詞頻和文本頻率因子。其二,引入類(lèi)別偏離因子,加... 

【文章頁(yè)數(shù)】:64 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究背景
    1.2 文本分類(lèi)的國(guó)內(nèi)外研究現(xiàn)狀
    1.3 論文主要工作及內(nèi)容安排
        1.3.1 研究?jī)?nèi)容
        1.3.2 組織結(jié)構(gòu)
第2章 文本分類(lèi)原理
    2.1 概述
    2.2 預(yù)處理階段
        2.2.1 分詞
        2.2.2 去停用詞
    2.3 表示模型
        2.3.1 布爾模型
        2.3.2 向量空間模型
        2.3.3 概率模型
    2.4 特征選擇
        2.4.1 文檔頻率
        2.4.2 信息增益
        2.4.3 互信息
    2.5 特征加權(quán)
    2.6 文本分類(lèi)算法
        2.6.1 K近鄰分類(lèi)
        2.6.2 樸素貝葉斯
        2.6.3 支持向量機(jī)
    2.7 本章小結(jié)
第3章 卡方檢驗(yàn)特征選擇算法改進(jìn)
    3.1 普通卡方檢驗(yàn)原理
    3.2 卡方檢驗(yàn)的缺點(diǎn)
    3.3 卡方檢驗(yàn)的改進(jìn)
        3.3.1 DT因子
        3.3.2 類(lèi)別偏離因子
        3.3.3 ICHI算法
    3.4 實(shí)驗(yàn)分析
        3.4.1 實(shí)驗(yàn)數(shù)據(jù)集
        3.4.2 評(píng)價(jià)指標(biāo)
        3.4.3 中文分詞工作
        3.4.4 實(shí)驗(yàn)對(duì)比
    3.5 本章小結(jié)
第4章 TF-IDF算法改進(jìn)與W2V-CF模型
    4.1 Word2vec詞向量模型
    4.2 TF-IDF算法原理
    4.3 TF-IDF算法的缺陷和改進(jìn)
    4.4 W2V-CF模型
    4.5 實(shí)驗(yàn)分析
        4.5.1 詞向量訓(xùn)練
        4.5.2 實(shí)驗(yàn)對(duì)比
    4.6 本章小結(jié)
第5章 網(wǎng)頁(yè)文件內(nèi)容分類(lèi)隔離系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    5.1 TCP協(xié)議與反向代理簡(jiǎn)介
        5.1.1 TCP協(xié)議簡(jiǎn)介
        5.1.2 TCP連接
        5.1.3 TCP反向代理
    5.2 HTTP協(xié)議
    5.3 系統(tǒng)架構(gòu)
    5.4 模塊設(shè)計(jì)
        5.4.1 反向代理模塊
        5.4.2 HTTP解析模塊
        5.4.3 內(nèi)容分類(lèi)與解析模塊
        5.4.4 控制顯示模塊
    5.5 實(shí)驗(yàn)結(jié)果
        5.5.1 實(shí)驗(yàn)環(huán)境搭建
        5.5.2 系統(tǒng)測(cè)試
    5.6 本章小結(jié)
結(jié)論
致謝
參考文獻(xiàn)
攻讀碩士期間發(fā)表的論文及科研成果


【參考文獻(xiàn)】:
期刊論文
[1]WordNG-Vec:一種應(yīng)用于CNN文本分類(lèi)的詞向量模型[J]. 王勇,何養(yǎng)明,鄒輝,黎春,陳薈西.  小型微型計(jì)算機(jī)系統(tǒng). 2019(03)
[2]不同特征粒度在微博短文本分類(lèi)中作用的比較研究[J]. 劉小敏,王昊,李心蕾,鄧三鴻.  情報(bào)科學(xué). 2018(12)
[3]文本分類(lèi)TF-IDF算法的改進(jìn)研究[J]. 葉雪梅,毛雪岷,夏錦春,王波.  計(jì)算機(jī)工程與應(yīng)用. 2019(02)
[4]基于改進(jìn)特征加權(quán)的樸素貝葉斯分類(lèi)算法[J]. 丁月,汪學(xué)明.  計(jì)算機(jī)應(yīng)用研究. 2019(12)
[5]結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬(wàn)龍,龐海龍,崔巖.  計(jì)算機(jī)應(yīng)用研究. 2019(09)
[6]基于詞向量的文本特征選擇方法研究[J]. 陳磊,李俊.  小型微型計(jì)算機(jī)系統(tǒng). 2018(05)
[7]基于知識(shí)圖譜的智能答疑系統(tǒng)研究[J]. 陳志云,商月,錢(qián)冬明.  計(jì)算機(jī)應(yīng)用與軟件. 2018(02)
[8]基于主題模型的垃圾郵件過(guò)濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 寇曉淮,程華.  電信科學(xué). 2017(11)
[9]基于改進(jìn)TF-IDF特征提取的文本分類(lèi)模型研究[J]. 周源,劉懷蘭,杜朋朋,廖嶺.  情報(bào)科學(xué). 2017(05)
[10]一種基于改進(jìn)的TF-IDF和支持向量機(jī)的中文文本分類(lèi)研究[J]. 郭太勇.  軟件. 2016(12)

博士論文
[1]基于特征選擇的文本分類(lèi)方法研究[D]. 胡小娟.吉林大學(xué) 2018

碩士論文
[1]改進(jìn)的特征選擇算法及其在文本分類(lèi)中的應(yīng)用[D]. 朱永強(qiáng).電子科技大學(xué) 2018
[2]文本分類(lèi)中特征降維算法的研究與應(yīng)用[D]. 劉楠楠.電子科技大學(xué) 2018
[3]基于word2vec詞向量的文本分類(lèi)研究[D]. 朱磊.西南大學(xué) 2017
[4]基于CHI和KNN的文本特征選擇與分類(lèi)算法的研究[D]. 樊存佳.北京工業(yè)大學(xué) 2016
[5]基于改進(jìn)TF-IDF特征提取的文本分類(lèi)模型的設(shè)計(jì)與實(shí)現(xiàn)[D]. 杜朋朋.華中科技大學(xué) 2016
[6]基于語(yǔ)義加權(quán)的中文文本相似度計(jì)算研究[D]. 杜坤.西安電子科技大學(xué) 2015
[7]多級(jí)文本分類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 王文果.東北大學(xué) 2012
[8]基于中文信息檢索的文本預(yù)處理研究[D]. 何金鳳.電子科技大學(xué) 2008



本文編號(hào):3650101

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3650101.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)48be3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com