基于隱含語義分析的微博熱點(diǎn)話題發(fā)現(xiàn)策略
發(fā)布時間:2021-08-23 12:22
作為一個社會化媒體,微博的應(yīng)用已經(jīng)深入到人們的日常生活中,成為大家發(fā)布和傳播信息、獲取知識的重要平臺。文本是網(wǎng)絡(luò)信息的主要載體,包含著網(wǎng)民的觀點(diǎn)與思想傾向,對網(wǎng)絡(luò)輿情分析和話題發(fā)現(xiàn)具有重大應(yīng)用價值和研究意義。然而,社會化媒體上的大部分文本信息都屬于短文本,短文本信息的不完整性、海量性和奇異性導(dǎo)致輿情分析和熱點(diǎn)話題發(fā)現(xiàn)十分困難。本文首先分析了中文微博信息的特點(diǎn),然后結(jié)合國內(nèi)外話題發(fā)現(xiàn)的研究現(xiàn)狀和相關(guān)技術(shù),提出一個適用于中文微博的熱點(diǎn)話題發(fā)現(xiàn)方法。論文主要做了以下幾個方面的工作:(1)短文本固有的特征稀疏和樣本類別分布不均衡等特點(diǎn),使得計算普通文本特征權(quán)重的方法難以直接套用。為此,提出一種針對短文本的基于綜合類頻的特征權(quán)重算法。該算法引入反文檔頻和相關(guān)性頻率的概念,綜合考慮了樣本在正類和負(fù)類中的分布情況。實(shí)驗(yàn)表明,相對于其他特征權(quán)重方法,該方法的微平均和宏平均值均在90%以上,能增強(qiáng)樣本在負(fù)類中的類別區(qū)分能力,改善短文本分類的查準(zhǔn)率和查全率。(2)采用隱含語義分析的方法對微博文本進(jìn)行分析。傳統(tǒng)向量空間模型通常基于特征詞的匹配,但網(wǎng)絡(luò)文本中存在大量的同義、多義詞,導(dǎo)致文本相似度的評估結(jié)果不夠...
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
中國手機(jī)網(wǎng)民規(guī)模及其占網(wǎng)民比例Fig1.1ScaleofChina’sMobilePhoneUsersanditsProportioninCitizen
用戶關(guān)注的微博內(nèi)容Fig1.2ContentofMicroblogUsersConcerned
新浪微博首頁Fig1.3HomeofSinaMicro-blog
【參考文獻(xiàn)】:
期刊論文
[1]基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J]. 馬雯雯,魏文晗,鄧一貴. 計算機(jī)工程與應(yīng)用. 2014(01)
[2]微博突發(fā)話題檢測方法研究[J]. 邱云飛,程亮. 計算機(jī)工程. 2012(09)
[3]一種中文微博新聞話題檢測的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦. 計算機(jī)科學(xué). 2012(01)
[4]基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 劉志明,劉魯. 計算機(jī)工程與應(yīng)用. 2012(01)
[5]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計算機(jī)研究與發(fā)展. 2011(10)
[6]淺析微博中的“微輿情”[J]. 李心妍,劉俐俐. 新聞世界. 2011(07)
[7]基于劃分和層次的混合動態(tài)聚類算法[J]. 郝洪星,朱玉全,陳耿,李米娜. 計算機(jī)應(yīng)用研究. 2011(01)
[8]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機(jī)科學(xué). 2009(08)
[9]新的CDF文本分類特征提取方法[J]. 熊忠陽,蔣健,張玉芳. 計算機(jī)應(yīng)用. 2009(07)
[10]面向短文本的動態(tài)組合分類算法[J]. 閆瑞,曹先彬,李凱. 電子學(xué)報. 2009(05)
碩士論文
[1]中文微博客熱點(diǎn)話題檢測與跟蹤技術(shù)研究[D]. 孫勝平.北京交通大學(xué) 2011
[2]中文短文本分類的相關(guān)技術(shù)研究[D]. 崔爭艷.河南大學(xué) 2011
[3]微博客熱點(diǎn)話題發(fā)現(xiàn)策略研究[D]. 楊冠超.浙江大學(xué) 2011
[4]改進(jìn)的K均值算法在中文文本聚類中的研究[D]. 李梅.安徽大學(xué) 2010
[5]網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D]. 秦宏宇.哈爾濱工程大學(xué) 2010
[6]基于向量空間模型的中文文本聚類方法的研究[D]. 姚清耘.上海交通大學(xué) 2008
[7]基于劃分的聚類算法研究[D]. 鄭柏杰.重慶大學(xué) 2005
本文編號:3357858
【文章來源】:重慶大學(xué)重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
中國手機(jī)網(wǎng)民規(guī)模及其占網(wǎng)民比例Fig1.1ScaleofChina’sMobilePhoneUsersanditsProportioninCitizen
用戶關(guān)注的微博內(nèi)容Fig1.2ContentofMicroblogUsersConcerned
新浪微博首頁Fig1.3HomeofSinaMicro-blog
【參考文獻(xiàn)】:
期刊論文
[1]基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J]. 馬雯雯,魏文晗,鄧一貴. 計算機(jī)工程與應(yīng)用. 2014(01)
[2]微博突發(fā)話題檢測方法研究[J]. 邱云飛,程亮. 計算機(jī)工程. 2012(09)
[3]一種中文微博新聞話題檢測的方法[J]. 鄭斐然,苗奪謙,張志飛,高燦. 計算機(jī)科學(xué). 2012(01)
[4]基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 劉志明,劉魯. 計算機(jī)工程與應(yīng)用. 2012(01)
[5]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計算機(jī)研究與發(fā)展. 2011(10)
[6]淺析微博中的“微輿情”[J]. 李心妍,劉俐俐. 新聞世界. 2011(07)
[7]基于劃分和層次的混合動態(tài)聚類算法[J]. 郝洪星,朱玉全,陳耿,李米娜. 計算機(jī)應(yīng)用研究. 2011(01)
[8]高性能網(wǎng)絡(luò)爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機(jī)科學(xué). 2009(08)
[9]新的CDF文本分類特征提取方法[J]. 熊忠陽,蔣健,張玉芳. 計算機(jī)應(yīng)用. 2009(07)
[10]面向短文本的動態(tài)組合分類算法[J]. 閆瑞,曹先彬,李凱. 電子學(xué)報. 2009(05)
碩士論文
[1]中文微博客熱點(diǎn)話題檢測與跟蹤技術(shù)研究[D]. 孫勝平.北京交通大學(xué) 2011
[2]中文短文本分類的相關(guān)技術(shù)研究[D]. 崔爭艷.河南大學(xué) 2011
[3]微博客熱點(diǎn)話題發(fā)現(xiàn)策略研究[D]. 楊冠超.浙江大學(xué) 2011
[4]改進(jìn)的K均值算法在中文文本聚類中的研究[D]. 李梅.安徽大學(xué) 2010
[5]網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D]. 秦宏宇.哈爾濱工程大學(xué) 2010
[6]基于向量空間模型的中文文本聚類方法的研究[D]. 姚清耘.上海交通大學(xué) 2008
[7]基于劃分的聚類算法研究[D]. 鄭柏杰.重慶大學(xué) 2005
本文編號:3357858
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3357858.html
最近更新
教材專著