天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于層次主題模型的網(wǎng)絡(luò)熱點(diǎn)分析研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-02-13 00:54
  隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動(dòng)設(shè)備的普及,文本數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),每天所積累、存儲(chǔ)的數(shù)據(jù)量越來(lái)越多。面對(duì)如此海量的數(shù)據(jù),如何從眾多雜亂無(wú)章的數(shù)據(jù)中獲取到實(shí)際需要和關(guān)注的信息變得困難異常。因此,找到一種有效避免信息過(guò)載,從海量數(shù)據(jù)中快速獲取有效信息的方法,在今天已經(jīng)成為熱點(diǎn)問(wèn)題之一。雖然搜索引擎的出現(xiàn)為人們從海量數(shù)據(jù)中尋找有用信息提供了極大的幫助。然而搜索引擎一般是基于關(guān)鍵詞匹配來(lái)完成信息的查找,查詢結(jié)果是離散化和碎片化的,不能很好的體現(xiàn)獲取信息的時(shí)序性和關(guān)聯(lián)性。所以主題模型在信息提取中的應(yīng)用,對(duì)于用戶在新聞資訊中個(gè)性化和垂直化的分析需求具有非常重要的現(xiàn)實(shí)意義。本文主要從關(guān)鍵詞提取、層次主題發(fā)現(xiàn)、主題演變可視化分析和網(wǎng)絡(luò)熱點(diǎn)分析系統(tǒng)集成4個(gè)方面展開研究與實(shí)現(xiàn)。1)關(guān)鍵詞提取,基于TextRank模型進(jìn)行研究,分析了當(dāng)前TextRank模型關(guān)鍵詞提取的特點(diǎn),提出了一種詞在文檔內(nèi)的詞距和位置分布加權(quán)的TextRank模型,應(yīng)用于網(wǎng)絡(luò)新聞文本的關(guān)鍵詞提取。詞在文檔內(nèi)的詞距和位置分布加權(quán)是馬爾可夫鏈的應(yīng)用擴(kuò)展,通過(guò)迭代計(jì)算權(quán)重用于生成TextRank模型的概率轉(zhuǎn)移矩陣。本文改進(jìn)模型與其他模型進(jìn)行實(shí)... 

【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:75 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文研究?jī)?nèi)容與主要工作
        1.3.1 文本關(guān)鍵詞提取
        1.3.2 文本層次主題發(fā)現(xiàn)
        1.3.3 主題演變可視化分析
        1.3.4 網(wǎng)絡(luò)熱點(diǎn)分析系統(tǒng)集成
    1.4 文章組織結(jié)構(gòu)
    1.5 本章小結(jié)
第二章 相關(guān)技術(shù)介紹
    2.1 文本數(shù)據(jù)采集
    2.2 文本數(shù)據(jù)預(yù)處理
        2.2.1 分詞
        2.2.2 停用詞
        2.2.3 詞選擇
    2.3 文本表示模型
        2.3.1 詞袋模型
        2.3.2 Word2Vec模型
    2.4 文本建模
        2.4.1 K-means模型
        2.4.2 LDA模型
        2.4.3 TextRank模型
        2.4.4 HLTA模型
        2.4.5 PEM-HLTA模型
    2.5 可視化及工具
    2.6 本章小結(jié)
第三章 文本關(guān)鍵詞提取
    3.1 數(shù)據(jù)獲取及預(yù)處理
    3.2 TextRank模型及改進(jìn)
    3.3 實(shí)驗(yàn)
        3.3.1 評(píng)價(jià)標(biāo)準(zhǔn)
        3.3.2 結(jié)果及分析
    3.4 本章小結(jié)
第四章 文本層次主題提取
    4.1 數(shù)據(jù)集及預(yù)處理
        4.1.1 詞預(yù)處理
        4.1.2 文檔BoW表示
        4.1.3 互信息
    4.2 PEM-HLTA算法及改進(jìn)
TF-IDF的詞選擇">        4.2.1 基于PWTF-IDF的詞選擇
        4.2.2 改進(jìn)Aitken加速PEM-HLTA
    4.3 實(shí)驗(yàn)
        4.3.1 評(píng)價(jià)標(biāo)準(zhǔn)
        4.3.2 結(jié)果及分析
    4.4 本章小結(jié)
第五章 主題演變可視化分析
    5.1 主題數(shù)據(jù)生成及預(yù)處理
        5.1.1 主題數(shù)據(jù)生成
        5.1.2 主題文檔關(guān)聯(lián)度計(jì)算
        5.1.3 主題熱度計(jì)算
        5.1.4 主題相似度計(jì)算
    5.2 可視化分析模型
    5.3 可視化分析實(shí)驗(yàn)
    5.4 本章小結(jié)
第六章 網(wǎng)絡(luò)熱點(diǎn)分析系統(tǒng)集成
    6.1 網(wǎng)絡(luò)熱點(diǎn)分析系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
    6.2 數(shù)據(jù)層模塊功能介紹
    6.3 基礎(chǔ)層模塊功能介紹
        6.3.1 數(shù)據(jù)采集模塊設(shè)計(jì)
        6.3.2 詞向量字典
    6.4 核心層模塊功能介紹
        6.4.1 核心算法功能數(shù)據(jù)流程設(shè)計(jì)
        6.4.2 核心算法功能模塊設(shè)計(jì)
        6.4.3 核心層與可視層數(shù)據(jù)傳輸模塊設(shè)計(jì)
    6.5 可視層模塊功能介紹
    6.6 本章小結(jié)
第七章 總結(jié)與展望
    7.1 總結(jié)
    7.2 未來(lái)研究方向
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文


【參考文獻(xiàn)】:
期刊論文
[1]多源媒體文本主題演變的可視分析[J]. 張怡,邵裕東,張加萬(wàn).  計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2017(12)
[2]基于改進(jìn)的TF-IDF算法及共現(xiàn)詞的主題詞抽取算法[J]. 公冶小燕,林培光,任威隆,張晨,張春云.  南京大學(xué)學(xué)報(bào)(自然科學(xué)). 2017(06)
[3]基于詞向量和EMD距離的短文本聚類[J]. 黃棟,徐博,許侃,林鴻飛,楊志豪.  山東大學(xué)學(xué)報(bào)(理學(xué)版). 2017(07)
[4]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國(guó)棟,張麗.  軟件學(xué)報(bào). 2017(09)
[5]一種基于TextRank的單文本關(guān)鍵字提取算法[J]. 柳林青,余瀚,費(fèi)寧,陳春玲.  計(jì)算機(jī)應(yīng)用研究. 2018(03)
[6]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[7]新聞數(shù)據(jù)可視分析系統(tǒng)[J]. 肖劍楠,劉夢(mèng)塵,劉世霞.  計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2016(11)
[8]在線社交網(wǎng)絡(luò)中地域性話題發(fā)現(xiàn)[J]. 曹玖新,胥帥,陳高君,趙力陽(yáng),周濤,劉波.  計(jì)算機(jī)學(xué)報(bào). 2017(07)
[9]融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J]. 寧建飛,劉降珍.  現(xiàn)代圖書情報(bào)技術(shù). 2016(06)
[10]基于因果模型的主題熱度計(jì)算與預(yù)測(cè)方法[J]. 杜慧,郭巖,范意興,張瑾,余智華,程學(xué)旗.  中文信息學(xué)報(bào). 2016(02)

博士論文
[1]概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應(yīng)用[D]. 周厚奎.浙江大學(xué) 2017



本文編號(hào):3031710

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3031710.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶de32b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com