時(shí)間相關(guān)文本序列挖掘的關(guān)鍵技術(shù)研究
本文選題:話題突破點(diǎn) 切入點(diǎn):文檔連貫度 出處:《清華大學(xué)》2014年博士論文 論文類(lèi)型:學(xué)位論文
【摘要】:在當(dāng)今信息化社會(huì),以新聞、微博、專(zhuān)利、產(chǎn)品評(píng)論等為代表的時(shí)間相關(guān)文本序列為人們的工作生活提供了重要的信息來(lái)源。文本時(shí)序信息指時(shí)間相關(guān)文本序列中隨時(shí)間變化的信息,此類(lèi)信息刻畫(huà)了時(shí)間相關(guān)文本序列在時(shí)間維度上動(dòng)態(tài)變化的過(guò)程,對(duì)于文檔的建模與分析具有重要作用。本文針對(duì)時(shí)間相關(guān)文本序列中各類(lèi)文本時(shí)序信息的特點(diǎn),圍繞話題突破點(diǎn)檢測(cè)、文檔連貫度建模、文本相似度計(jì)算以及文檔重要性量化等關(guān)鍵技術(shù)展開(kāi)研究,取得了具有一定理論意義和實(shí)用價(jià)值的成果。本文的研究?jī)?nèi)容包括: 1.針對(duì)新聞話題動(dòng)態(tài)演化的特點(diǎn),提出了一種話題突破點(diǎn)檢測(cè)算法。該方法通過(guò)對(duì)新聞報(bào)道序列中的主題強(qiáng)度波動(dòng)進(jìn)行建模,自動(dòng)檢測(cè)出一個(gè)新聞話題在其演化過(guò)程中發(fā)生重要轉(zhuǎn)折的突破點(diǎn),并基于突破點(diǎn)生成該話題的時(shí)間線摘要。實(shí)驗(yàn)結(jié)果表明,該方法可以有效檢測(cè)出持續(xù)性新聞話題發(fā)展過(guò)程中的重要時(shí)間點(diǎn)并生成摘要,從而幫助用戶(hù)快速地了解一個(gè)新聞話題的發(fā)展進(jìn)程。 2.針對(duì)新聞故事線間持續(xù)交互的特點(diǎn),提出了一種文檔連貫度建模方法。該方法綜合時(shí)間連續(xù)性、實(shí)體關(guān)聯(lián)度和主題一致性三個(gè)維度對(duì)新聞報(bào)道間的連貫程度進(jìn)行分析,,并進(jìn)一步挖掘一個(gè)新聞話題下發(fā)生交互的故事線及其對(duì)應(yīng)的新聞事件。實(shí)驗(yàn)結(jié)果表明,基于文檔連貫度生成的新聞結(jié)構(gòu)化摘要可以有效揭示出一個(gè)新聞話題下多條故事線間的交互關(guān)系與相互影響。 3.針對(duì)新聞熱點(diǎn)詞匯隨時(shí)間變化的特點(diǎn),提出了一種新聞事件相關(guān)的文本相似度計(jì)算方法。該方法從新聞報(bào)道序列中抽取熱點(diǎn)新聞事件的相關(guān)詞匯,通過(guò)分析詞匯隨時(shí)間動(dòng)態(tài)變化的顯著程度計(jì)算長(zhǎng)度不均衡的文本(例如“微博-新聞”)間的相似度;谇f(wàn)規(guī)模微博數(shù)據(jù)的實(shí)驗(yàn)結(jié)果表明,該方法相比傳統(tǒng)的文本相似度計(jì)算方法可以更有效地從微博數(shù)據(jù)中在線挖掘熱點(diǎn)新聞事件的用戶(hù)評(píng)論。 4.針對(duì)科學(xué)文獻(xiàn)中技術(shù)發(fā)展趨勢(shì)的特點(diǎn),提出了一種文檔重要性量化算法。該方法通過(guò)對(duì)專(zhuān)利文獻(xiàn)中技術(shù)主題的活躍度建模,挖掘并篩選出一個(gè)領(lǐng)域下重要的技術(shù)主題及其發(fā)展趨勢(shì),并根據(jù)技術(shù)主題的活躍度趨勢(shì)量化專(zhuān)利文檔的創(chuàng)新性和影響力。實(shí)驗(yàn)結(jié)果表明,該方法可以有效發(fā)現(xiàn)一個(gè)領(lǐng)域下最具創(chuàng)新性和影響力的專(zhuān)利集合,從而幫助企業(yè)完成專(zhuān)利授權(quán)與投資等知識(shí)產(chǎn)權(quán)管理工作。
[Abstract]:In today's information society, with news, Weibo, patent, Product reviews provide an important source of information for people to work and live in time-dependent text sequences. Text temporal information refers to the time-dependent information in time-dependent text sequences. This kind of information depicts the dynamic changes of time-dependent text sequences in time dimension and plays an important role in document modeling and analysis. The research focuses on the key technologies of topic breakthrough detection, document coherence modeling, text similarity calculation and document importance quantification, and has achieved some theoretical and practical results. The research contents of this paper include:. 1. According to the characteristics of news topic dynamic evolution, a topic breakthrough detection algorithm is proposed. The breakthrough points of an important turning point in the evolution of a news topic are automatically detected, and the time-line summary of the topic is generated based on the breakthrough point. The experimental results show that, This method can effectively detect the important time points in the process of continuous news topic development and generate abstracts so as to help users quickly understand the development process of a news topic. 2. According to the characteristics of continuous interaction between news story lines, a document coherence modeling method is proposed, which integrates three dimensions: time continuity, entity correlation and thematic consistency, and analyzes the coherence between news reports. Furthermore, the interactive story lines and their corresponding news events under a news topic are excavated. The experimental results show that, The structured news abstracts based on document coherence can effectively reveal the interaction and interaction of multiple story lines under a news topic. 3. According to the characteristics of news hot words changing with time, a text similarity calculation method is proposed, which extracts the relevant words of hot news events from news report sequences. By analyzing the significance of the dynamic change of vocabulary over time, the similarity between texts with unbalanced length (such as Weibo-News) is calculated. Compared with the traditional text similarity calculation method, this method can effectively mine user comments of hot news events online from Weibo data. 4. According to the characteristics of technology development trend in scientific literature, a document importance quantization algorithm is proposed. Mining and screening of important technical topics and their development trends in a field, and quantifying the innovation and influence of patent documents according to the active trend of technical topics. The experimental results show that, This method can effectively find the most innovative and influential patent set in a field, thus helping enterprises to complete intellectual property management such as patent licensing and investment.
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 焦健;瞿有利;;知網(wǎng)的話題更新與跟蹤算法研究[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 宋濤;施水才;房祥;呂學(xué)強(qiáng);;基于改進(jìn)的潛在語(yǔ)義分析的文本聚類(lèi)[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年03期
3 倉(cāng)玉;洪宇;姚建民;朱巧明;;基于時(shí)序話題模型的新事件檢測(cè)[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
4 苗蕊;劉魯;劉志明;;基于隱馬爾可夫模型的突發(fā)事件新聞報(bào)道的爆發(fā)性分析[J];系統(tǒng)工程;2010年08期
5 仲兆滿(mǎn);劉宗田;李存華;;事件本體模型及事件類(lèi)排序[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期
6 陳艷紅;宗乾進(jìn);袁勤儉;;國(guó)外微博研究熱點(diǎn)、趨勢(shì)及研究方法:基于信息計(jì)量學(xué)的視角[J];國(guó)際新聞界;2013年09期
7 翟東海;CUI Jing-jing;NIE Hong-yu;DU Jia;;New event detection based on sorted subtopic matching algorithm[J];Journal of Chongqing University(English Edition);2013年04期
8 牛洪林;孫海萍;;基于CSSCI(2000~2011)的我國(guó)體育學(xué)學(xué)科知識(shí)圖譜研究[J];圖書(shū)與情報(bào);2014年01期
9 胡榜利;覃山羽;黃鑫;楊光業(yè);陳斌冠;鄧?yán)?蔡金華;;內(nèi)鏡逆行胰膽管造影術(shù)的文獻(xiàn)計(jì)量學(xué)研究[J];重慶醫(yī)學(xué);2014年10期
10 王嬋;王小捷;袁彩霞;;面向話題追蹤的Dirichlet過(guò)程混合模型[J];北京郵電大學(xué)學(xué)報(bào);2012年03期
相關(guān)會(huì)議論文 前8條
1 高繼平;丁X;;基于德溫特專(zhuān)利數(shù)據(jù)庫(kù)兩岸納米專(zhuān)利的定量研究[A];經(jīng)濟(jì)發(fā)展方式轉(zhuǎn)變與自主創(chuàng)新——第十二屆中國(guó)科學(xué)技術(shù)協(xié)會(huì)年會(huì)(第四卷)[C];2010年
2 張輝;李國(guó)輝;陳俊;;一種基于新聞要素建模的新事件探測(cè)方法[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【oral】[C];2011年
3 高繼平;丁X;;基于德溫特專(zhuān)利數(shù)據(jù)庫(kù)兩岸納米專(zhuān)利的定量研究[A];第12屆中國(guó)科協(xié)年會(huì)第31分會(huì)場(chǎng)海峽兩岸區(qū)域合作與協(xié)同發(fā)展論壇論文集[C];2010年
4 駱衛(wèi)華;于滿(mǎn)泉;許洪波;王斌;程學(xué)旗;;基于多策略?xún)?yōu)化的分治多層聚類(lèi)算法的話題發(fā)現(xiàn)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 李軍;李涓子;;新聞專(zhuān)題內(nèi)子話題劃分[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 周春姐;孟小峰;文潔;;Flickr中的復(fù)合事件檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
7 邱均平;柴雯;;國(guó)際科學(xué)計(jì)量學(xué)研究的進(jìn)展與趨勢(shì)[A];第十屆中國(guó)科技政策與管理學(xué)術(shù)年會(huì)論文集——分6:區(qū)域創(chuàng)新與綠色發(fā)展(Ⅰ)[C];2014年
8 杜剛;張晨;朱艷云;杜雪濤;孟德香;;移動(dòng)偽基站定位和軌跡追蹤技術(shù)研究[A];2014全國(guó)無(wú)線及移動(dòng)通信學(xué)術(shù)大會(huì)論文集[C];2014年
相關(guān)博士學(xué)位論文 前10條
1 陳偉;基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究[D];浙江大學(xué);2010年
2 張曉艷;新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
3 謝興;社會(huì)網(wǎng)絡(luò)中興趣發(fā)現(xiàn)與信息組織的研究[D];復(fù)旦大學(xué);2011年
4 龐杰;知識(shí)流動(dòng)理論框架下的科學(xué)前沿與技術(shù)前沿研究[D];大連理工大學(xué);2011年
5 于滿(mǎn)泉;面向人物追蹤的知識(shí)挖掘研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
6 洪宇;基于語(yǔ)義結(jié)構(gòu)和時(shí)序特征的話題檢測(cè)與跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
7 付劍鋒;面向事件的知識(shí)處理研究[D];上海大學(xué);2010年
8 張?zhí)斐?實(shí)時(shí)數(shù)據(jù)流相關(guān)性分析與挖掘技術(shù)研究[D];東北大學(xué);2008年
9 李小寧;藥品監(jiān)管的多元參與:科學(xué)計(jì)量學(xué)的視角[D];大連理工大學(xué);2010年
10 趙旭劍;中文新聞話題動(dòng)態(tài)演化及其關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 印文濤;基于星型K部圖的網(wǎng)絡(luò)視頻話題挖掘和可視化的研究[D];浙江大學(xué);2011年
2 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年
3 喬文妤;高校BBS平臺(tái)信息有序化研究[D];南京大學(xué);2011年
4 王甲坤;基于互聯(lián)網(wǎng)的話題分類(lèi)及敏感話題發(fā)現(xiàn)技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
5 張鵬飛;WEB挖掘技術(shù)在網(wǎng)絡(luò)警情監(jiān)控中的應(yīng)用研究[D];華北電力大學(xué);2011年
6 徐東亮;基于聚類(lèi)分析的網(wǎng)絡(luò)論壇輿情信息挖掘技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
7 孔旗;基于并行機(jī)器學(xué)習(xí)的大規(guī)模專(zhuān)利分類(lèi)[D];上海交通大學(xué);2011年
8 王巖;基于共現(xiàn)鏈的微博情感分析技術(shù)的研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
9 劉豐;基于微博的突發(fā)事件檢測(cè)和信息傳播建模[D];哈爾濱工業(yè)大學(xué);2011年
10 李璐e
本文編號(hào):1600455
本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/1600455.html