融合PAM和主題偏好TextRank的歷史沿革信息抽取
本文選題:信息抽取 + 歷史沿革; 參考:《計(jì)算機(jī)應(yīng)用研究》2017年01期
【摘要】:針對(duì)從自然標(biāo)注大數(shù)據(jù)中抽取歷史沿革主題信息的問(wèn)題,提出了一種融合PAM主題模型與主題偏好TextRank的方法。該方法利用PAM主題模型獲取歷史沿革主題基于其他相關(guān)主題的分布和不同主題基于詞的分布;主題偏好TextRank算法則根據(jù)PAM所獲得的主題和詞的分布,在隨機(jī)游走的過(guò)程中更加偏好于與歷史沿革主題相關(guān)度大的節(jié)點(diǎn),從而更有利于抽取歷史沿革主題信息。因歷史沿革主題特征復(fù)雜,與其他主題關(guān)聯(lián)度大,詞項(xiàng)本身是否表達(dá)歷史沿革主題信息也并不明確,因此PAM既可以獲取基于詞空間的分布,又可以獲取基于主題分布,對(duì)解決這類問(wèn)題有很大的幫助。利用已獲取的主題信息,主題偏好TextRank算法偏向于與歷史沿革主題相關(guān)的節(jié)點(diǎn)進(jìn)行隨機(jī)游走,使得抽取結(jié)果趨向于歷史沿革主題,從而提高了抽取的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該方法在抽取歷史沿革主題信息上更有效。
[Abstract]:To solve the problem of extracting historical topic information from natural annotation big data, a method of combining PAM topic model with topic preference TextRank is proposed. This method uses the PAM theme model to obtain the distribution of historical themes based on other related topics and the distributions of different themes based on words, and the TextRank algorithm of topic preference is based on the distribution of topics and words obtained by PAM. In the process of random walk, we prefer the node with high correlation with historical evolution theme, which is more advantageous to extract historical topic information. Because of the complexity of historical evolution theme and its correlation with other themes, it is not clear whether the word item itself expresses historical theme information, so PAM can obtain the distribution based on word space as well as topic distribution. It will be of great help in solving such problems. Using the obtained topic information, the topic preference TextRank algorithm is biased towards the nodes associated with historical topics for random walk, which makes the extraction results tend to historical topics, thus improving the accuracy of extraction. The experimental results show that the proposed method is more effective in extracting historical subject information.
【作者單位】: 內(nèi)蒙古師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61562068) 內(nèi)蒙古自然科學(xué)基金資助項(xiàng)目(2013MS0912) 內(nèi)蒙古師范大學(xué)研究生科研創(chuàng)新基金資助項(xiàng)目(CXJJS14078)
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁(yè)面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國(guó)鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲(chóng)技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2008年12期
10 朱夢(mèng)麟;李光耀;周毅敏;;基于樹(shù)比較的Web頁(yè)面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
相關(guān)會(huì)議論文 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識(shí)別及表示[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲(chóng)初始URL的研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁(yè)主題信息抽取[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁(yè)主題信息自動(dòng)提取[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評(píng)論發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
相關(guān)博士學(xué)位論文 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 解琰;主題優(yōu)化過(guò)濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語(yǔ)義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁(yè)的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲(chóng)及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 韓琳;基于貝葉斯主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年
9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年
10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲(chóng)技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
,本文編號(hào):1914600
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1914600.html