天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

演進(jìn)式動(dòng)態(tài)新聞文檔摘要生成方法研究

發(fā)布時(shí)間:2018-10-31 10:43
【摘要】:在現(xiàn)今社會(huì),隨著近十年計(jì)算機(jī)科學(xué)迅猛發(fā)展的浪潮,多文檔摘要技術(shù)已經(jīng)逐漸成長為一個(gè)令人興奮并充滿著挑戰(zhàn)的研究前沿,往往通過自然語言處理和信息檢索的聯(lián)合技術(shù)來加以解決。面對(duì)著當(dāng)今互聯(lián)網(wǎng)上的信息快速增長,找尋信息的人們往往會(huì)發(fā)現(xiàn)自己很難能跟上信息更新的頻率和速度。新聞信息如洪水一般在互聯(lián)網(wǎng)上洶涌襲來,人們很容易被“淹沒”在浩如煙海的信息中,不知道從何開始。因此,人們認(rèn)為對(duì)新聞信息的自動(dòng)理解已經(jīng)成為Web信息處理的一個(gè)重要成分。 對(duì)于一個(gè)演進(jìn)式的新聞主題而言,人們往往有著多重興趣,如:該事件是如何起始的,如何發(fā)展的,當(dāng)前狀況又是如何,但是傳統(tǒng)的新聞理解技術(shù)并不足以應(yīng)對(duì)用戶的這種需求。普通的搜索引擎僅僅只能按照它們的理解對(duì)新聞數(shù)據(jù)按照查詢相關(guān)度來進(jìn)行排序,但是它們很難應(yīng)對(duì)各種意圖模糊的新聞主題類查詢。再比如說,即使搜索引擎返回給用戶的結(jié)果排序十分理想(雖然這不太可能),用戶也不太會(huì)愿意將這些文檔一一閱讀。人們希望能夠有一種簡單瀏覽的方式來掌握整個(gè)事態(tài)的發(fā)展流程和演化軌跡。而新聞?wù)獎(jiǎng)t正是一個(gè)很好的解決方式,可以提供一個(gè)經(jīng)過了壓縮,具有極大信息含量的文檔重組織和展現(xiàn)形式,可以讓用戶能輕松掌握事件的發(fā)展。我們提出了“時(shí)序年表”(Timeline)的概念,把一個(gè)演進(jìn)式的新聞按照時(shí)間的維度,動(dòng)態(tài)的摘要生成為一系列相互獨(dú)立又互相依賴的子摘要,從而提供了一個(gè)展示事件發(fā)展全景概況的靈活方式。 本文具體工作和創(chuàng)新性如下: 1.我們提出了一個(gè)面向新聞文檔的全新文本分段算法。相比于傳統(tǒng)的多文檔摘要任務(wù)而言,演進(jìn)式新聞文檔摘要面向的是更為龐大的海量新聞數(shù)據(jù)集。因此,我們?cè)陂_始摘要生成工作之前,首先會(huì)進(jìn)行一些針對(duì)新聞特征的預(yù)處理。由于一篇新聞文檔并非是完全不可再分的:一篇新聞文檔通常包含了不止一個(gè)事件,而每個(gè)事件可能代表著某個(gè)新聞主題的某個(gè)側(cè)面,因此我們從新聞文檔中,抽取出具有原子事件特征的新聞元片段。在同一篇新聞文檔中的所有新聞元事件在一定程度上也是彼此互相獨(dú)立的。所以,對(duì)于它們而言,并不是所有新聞元都和某個(gè)特定的新聞主題緊密關(guān)聯(lián)。經(jīng)過一個(gè)細(xì)粒度的事件元提取過程,我們可以去除一些事件無關(guān)的描述性語句或者過濾掉和當(dāng)前新聞主題無關(guān)的新聞元事件,通過這種方式對(duì)海量數(shù)據(jù)進(jìn)行一步壓縮和預(yù)處理。這項(xiàng)工作的挑戰(zhàn)也很明顯,我們需要應(yīng)對(duì)來自文法(如文本,命名實(shí)體,時(shí)間等)、句法(句子位移,連接詞等)以及視覺要素上的一些約束來進(jìn)行新聞元片段提取。 2.我們引入了一種全新的摘要任務(wù)“演進(jìn)式動(dòng)態(tài)新聞文檔摘要”,并提出了兩種解決的算法框架,這些算法框架都可以推廣到所有依賴式摘要生成問題中。給定一個(gè)新聞主題文檔集合,系統(tǒng)會(huì)自動(dòng)輸出一個(gè)時(shí)間年表,而該時(shí)間年表下的一系列子摘要代表著該事件隨著時(shí)間推移的發(fā)展軌跡。兩個(gè)方法之一是基于全局優(yōu)先圖排序算法和局部優(yōu)先圖排序算法的優(yōu)化結(jié)合框架,考慮到句子之間跨時(shí)間的依賴關(guān)系以及同時(shí)間下的相互依賴關(guān)系。其中,跨時(shí)間依賴關(guān)系是通過一個(gè)時(shí)序投影函數(shù),將所有其他時(shí)間結(jié)點(diǎn)下的句子都投影到某個(gè)特定的時(shí)間平面上來加以建模的。第二種方式是一個(gè)基于約束條件下的迭代式句子替換框架,從一個(gè)句子集合中優(yōu)選出最佳句子的子集合生成摘要:子摘要之間不是完全獨(dú)立的,而是通過鄰居子摘要來互相優(yōu)化互相精煉生成,反映出新聞演進(jìn)式的特征。對(duì)于每一個(gè)子摘要,我們都從兩種角度去考量評(píng)價(jià):一種是局部的,基于周圍鄰居時(shí)間結(jié)點(diǎn);一種是全局的,基于全數(shù)據(jù)時(shí)間結(jié)點(diǎn)。 3.我們首次提出了視覺化演進(jìn)式動(dòng)態(tài)新聞文檔摘要的概念,并提出了針對(duì)視覺化摘要和基于迭代式互相增強(qiáng)算法框架的解決方法。給定某個(gè)新聞主題以及相關(guān)帶有時(shí)間標(biāo)簽的文檔集,系統(tǒng)會(huì)生成一個(gè)帶視覺信息的演進(jìn)式動(dòng)態(tài)新聞文檔摘要,,其中分別包含文字部分以及圖片部分,兩個(gè)部分互為說明互為補(bǔ)充。每個(gè)子摘要代表著事件的發(fā)展過程,被全局信息的優(yōu)化條件所約束。在這里,圖片信息可以被用作提示句子摘要信息的線索,從而改變傳統(tǒng)文本摘要的生成方式,這一點(diǎn)將是非常有利的。對(duì)于視覺化演進(jìn)式動(dòng)態(tài)新聞文檔摘要的生成,我們使用了兩個(gè)異質(zhì)數(shù)據(jù)流,其中圖片數(shù)據(jù)流在以往文檔摘要的生成方法中是往往被忽略了的。此外,由于我們要同時(shí)使用兩種異質(zhì)數(shù)據(jù)流,我們需要通過翻譯模型來建立兩個(gè)語義維度的橋梁跨越語義隔閡。對(duì)于每個(gè)子摘要而言都包含有兩個(gè)部分:文本部分和圖片部分。對(duì)圖片的選擇會(huì)影響到對(duì)文本的選擇,反之亦然。我們提出了一個(gè)有效的方式來保證這兩部分能夠很好的通過互相增強(qiáng)的方式匹配起來,并且通過全局-局部的約束,將各個(gè)子摘要的生成進(jìn)行統(tǒng)一優(yōu)化。 4.我們提出了兩種可能整合到演進(jìn)式動(dòng)態(tài)新聞文檔摘要中的擴(kuò)展特性。第一種是引入用戶個(gè)性化。因?yàn)橛脩粲兄鴤(gè)人的喜好,所以可能對(duì)自己喜歡閱讀什么樣的內(nèi)容具有某種傾向性,很明顯的是對(duì)于所有用戶都生成一個(gè)一模一樣的摘要是不夠的。我們提出了一個(gè)交互式的摘要生成方法,允許用戶可以使用“點(diǎn)擊”和“查看”的方式來和摘要生成系統(tǒng)進(jìn)行交互。人機(jī)交互的方式支持用戶點(diǎn)擊句子,并且查看該內(nèi)容的來源文檔,提供了實(shí)時(shí)的偽相關(guān)反饋。這種隱式的“點(diǎn)擊日志”能反映出人們的興趣。由于用戶的點(diǎn)擊可能比較稀疏,我們使用了“點(diǎn)擊平滑”的方式來擴(kuò)大點(diǎn)擊數(shù)據(jù)的影響。第二種可擴(kuò)展的方向是引入大眾熱點(diǎn)信息,我們使用了Twitter網(wǎng)社交媒體的數(shù)據(jù)來捕獲這樣的輔助信息。Twitter系統(tǒng)并不是只有一系列的帖子組成:在帖子的背后是一個(gè)潛在的用戶關(guān)系網(wǎng)絡(luò)圖,包括用戶之間的“粉絲”關(guān)系,和帖子之間的“轉(zhuǎn)發(fā)”關(guān)系。對(duì)于大眾熱點(diǎn)信息,應(yīng)該是熱門的并且盡可能避免重復(fù)。我們通過一個(gè)對(duì)用戶以及帖子兩種異質(zhì)結(jié)點(diǎn)進(jìn)行共同排序的框架,整合信息熱度和信息差異性,基于隨機(jī)游走的排序框架甄選出大眾熱點(diǎn)信息。
[Abstract]:......
【學(xué)位授予單位】:北京大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王霞;;讓文檔段首自動(dòng)空兩格[J];電腦愛好者(普及版);2007年12期

2 陳曉蘇,鄧凡,肖道舉;協(xié)同編著系統(tǒng)實(shí)現(xiàn)中的若干問題探討[J];華中理工大學(xué)學(xué)報(bào);2000年04期

3 耿新,周志華,陳世福;基于混合投影函數(shù)的眼睛定位[J];軟件學(xué)報(bào);2003年08期

4 ;QAz疑室[J];少年電腦世界;2005年09期

5 王靜;蔣愛德;;基于投影函數(shù)和梯度方向的快速人眼定位方法[J];科技信息(學(xué)術(shù)研究);2007年25期

6 梁靜;羅年學(xué);張瑞;李星星;;三種對(duì)流層投影函數(shù)的比較及對(duì)定位的影響[J];測繪信息與工程;2009年03期

7 陳曉蘇,鄧凡,肖道舉;基于Web的協(xié)同編著系統(tǒng)的設(shè)計(jì)[J];華中理工大學(xué)學(xué)報(bào);2000年01期

8 杜志軍;王陽生;;正面人臉圖像中眼睛的定位算法[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2009年06期

9 程國;丁正生;劉亞亞;;基于混合投影峰分析的人眼定位方法[J];五邑大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期

10 向世明,趙國英,陳睿,賈富倉,李華;積厚文檔掃描圖像校正[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2005年01期

相關(guān)會(huì)議論文 前10條

1 高鵬飛;董洋洋;尹倩倩;;對(duì)流層投影函數(shù)改進(jìn)算法研究[A];第三屆中國衛(wèi)星導(dǎo)航學(xué)術(shù)年會(huì)電子文集——S08衛(wèi)星導(dǎo)航模型與方法[C];2012年

2 李軼;胡霞;明東;萬柏坤;;一種改進(jìn)的混合投影函數(shù)新算法[A];中國生物醫(yī)學(xué)工程進(jìn)展——2007中國生物醫(yī)學(xué)工程聯(lián)合學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2007年

3 陳丹雯;吳玲達(dá);;一種基于互增強(qiáng)原則的視頻檢索重排序方法[A];第三屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2007)論文集[C];2007年

4 駱金超;楊粉花;;淺談對(duì)流層對(duì)GPS定位的影響[A];江蘇省測繪學(xué)會(huì)2007'學(xué)術(shù)年會(huì)論文集[C];2008年

5 張碩;李建中;王宏志;何震瀛;;基于擴(kuò)展編碼的在線XML文檔加載機(jī)制[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 彭菲;劉維湘;陳自強(qiáng);尤江生;袁克虹;;基于內(nèi)容圖像搜索的醫(yī)學(xué)圖像數(shù)據(jù)庫建立[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

7 何靖;陳

本文編號(hào):2301878


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2301878.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶193f1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com