天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

中文文本分類技術(shù)研究及應(yīng)用

發(fā)布時間:2022-05-02 22:42
  互聯(lián)網(wǎng)的發(fā)展為第三次科技革命插上翅膀,讓人類進入信息爆炸的時代,每一天這個世界上的信息總量都在以恐怖的速度巨量攀升,我們的大腦每時每刻都在主動或被動地接收處理大量的信息。在這個時間越來越寶貴的信息高速時代,如何從龐雜的信息中精確地查找、過濾、分辨我們需要的信息是極為重要的,作為信息的重要載體,如何對文本進行快速的區(qū)分至關(guān)重要,文本分類技術(shù)也由此應(yīng)運而生。文本分類技術(shù)從上個世紀(jì)70年代誕生至今,它的地位也越來越發(fā)重要。因此對文本分類相關(guān)技術(shù)的研究與應(yīng)用也有著重要的意義。首先,本文介紹了文本分類的背景,目前國內(nèi)外取得的研究進展。接著本文立足于提高文本分類的穩(wěn)定性和準(zhǔn)確性,研究了文本分類的相關(guān)技術(shù),對其中的各個環(huán)節(jié)包括文本的預(yù)處理階段、文本特征選擇算法、文本特征加權(quán)算法、文本表示模型、文本分類算法都作了詳盡介紹,并就文本的特征選擇和加權(quán)算法以及文本分類技術(shù)的應(yīng)用進行了深入的研究,主要的研究內(nèi)容如下:針對CHI卡方檢驗特征算法對于低頻詞存在缺陷的情況,進行了兩點改進。其一,引入了考慮類別內(nèi)影響的DT(Document&Term)因子,它包括詞頻和文本頻率因子。其二,引入類別偏離因子,加... 

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 課題研究背景
    1.2 文本分類的國內(nèi)外研究現(xiàn)狀
    1.3 論文主要工作及內(nèi)容安排
        1.3.1 研究內(nèi)容
        1.3.2 組織結(jié)構(gòu)
第2章 文本分類原理
    2.1 概述
    2.2 預(yù)處理階段
        2.2.1 分詞
        2.2.2 去停用詞
    2.3 表示模型
        2.3.1 布爾模型
        2.3.2 向量空間模型
        2.3.3 概率模型
    2.4 特征選擇
        2.4.1 文檔頻率
        2.4.2 信息增益
        2.4.3 互信息
    2.5 特征加權(quán)
    2.6 文本分類算法
        2.6.1 K近鄰分類
        2.6.2 樸素貝葉斯
        2.6.3 支持向量機
    2.7 本章小結(jié)
第3章 卡方檢驗特征選擇算法改進
    3.1 普通卡方檢驗原理
    3.2 卡方檢驗的缺點
    3.3 卡方檢驗的改進
        3.3.1 DT因子
        3.3.2 類別偏離因子
        3.3.3 ICHI算法
    3.4 實驗分析
        3.4.1 實驗數(shù)據(jù)集
        3.4.2 評價指標(biāo)
        3.4.3 中文分詞工作
        3.4.4 實驗對比
    3.5 本章小結(jié)
第4章 TF-IDF算法改進與W2V-CF模型
    4.1 Word2vec詞向量模型
    4.2 TF-IDF算法原理
    4.3 TF-IDF算法的缺陷和改進
    4.4 W2V-CF模型
    4.5 實驗分析
        4.5.1 詞向量訓(xùn)練
        4.5.2 實驗對比
    4.6 本章小結(jié)
第5章 網(wǎng)頁文件內(nèi)容分類隔離系統(tǒng)的設(shè)計與實現(xiàn)
    5.1 TCP協(xié)議與反向代理簡介
        5.1.1 TCP協(xié)議簡介
        5.1.2 TCP連接
        5.1.3 TCP反向代理
    5.2 HTTP協(xié)議
    5.3 系統(tǒng)架構(gòu)
    5.4 模塊設(shè)計
        5.4.1 反向代理模塊
        5.4.2 HTTP解析模塊
        5.4.3 內(nèi)容分類與解析模塊
        5.4.4 控制顯示模塊
    5.5 實驗結(jié)果
        5.5.1 實驗環(huán)境搭建
        5.5.2 系統(tǒng)測試
    5.6 本章小結(jié)
結(jié)論
致謝
參考文獻
攻讀碩士期間發(fā)表的論文及科研成果


【參考文獻】:
期刊論文
[1]WordNG-Vec:一種應(yīng)用于CNN文本分類的詞向量模型[J]. 王勇,何養(yǎng)明,鄒輝,黎春,陳薈西.  小型微型計算機系統(tǒng). 2019(03)
[2]不同特征粒度在微博短文本分類中作用的比較研究[J]. 劉小敏,王昊,李心蕾,鄧三鴻.  情報科學(xué). 2018(12)
[3]文本分類TF-IDF算法的改進研究[J]. 葉雪梅,毛雪岷,夏錦春,王波.  計算機工程與應(yīng)用. 2019(02)
[4]基于改進特征加權(quán)的樸素貝葉斯分類算法[J]. 丁月,汪學(xué)明.  計算機應(yīng)用研究. 2019(12)
[5]結(jié)合改進的CHI統(tǒng)計方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖.  計算機應(yīng)用研究. 2019(09)
[6]基于詞向量的文本特征選擇方法研究[J]. 陳磊,李俊.  小型微型計算機系統(tǒng). 2018(05)
[7]基于知識圖譜的智能答疑系統(tǒng)研究[J]. 陳志云,商月,錢冬明.  計算機應(yīng)用與軟件. 2018(02)
[8]基于主題模型的垃圾郵件過濾系統(tǒng)的設(shè)計與實現(xiàn)[J]. 寇曉淮,程華.  電信科學(xué). 2017(11)
[9]基于改進TF-IDF特征提取的文本分類模型研究[J]. 周源,劉懷蘭,杜朋朋,廖嶺.  情報科學(xué). 2017(05)
[10]一種基于改進的TF-IDF和支持向量機的中文文本分類研究[J]. 郭太勇.  軟件. 2016(12)

博士論文
[1]基于特征選擇的文本分類方法研究[D]. 胡小娟.吉林大學(xué) 2018

碩士論文
[1]改進的特征選擇算法及其在文本分類中的應(yīng)用[D]. 朱永強.電子科技大學(xué) 2018
[2]文本分類中特征降維算法的研究與應(yīng)用[D]. 劉楠楠.電子科技大學(xué) 2018
[3]基于word2vec詞向量的文本分類研究[D]. 朱磊.西南大學(xué) 2017
[4]基于CHI和KNN的文本特征選擇與分類算法的研究[D]. 樊存佳.北京工業(yè)大學(xué) 2016
[5]基于改進TF-IDF特征提取的文本分類模型的設(shè)計與實現(xiàn)[D]. 杜朋朋.華中科技大學(xué) 2016
[6]基于語義加權(quán)的中文文本相似度計算研究[D]. 杜坤.西安電子科技大學(xué) 2015
[7]多級文本分類系統(tǒng)的設(shè)計與實現(xiàn)[D]. 王文果.東北大學(xué) 2012
[8]基于中文信息檢索的文本預(yù)處理研究[D]. 何金鳳.電子科技大學(xué) 2008



本文編號:3650101

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3650101.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶48be3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com