不同粒度下的話題表示生成方法研究
發(fā)布時(shí)間:2021-10-21 05:13
日前網(wǎng)絡(luò)信息爆炸式增長(zhǎng),把信息按話題組織的同時(shí),還需要將話題以簡(jiǎn)潔明了的方式展示給用戶,通過(guò)有效簡(jiǎn)潔的文字表征話題(話題表示),以使用戶迅速了解話題大意,獲取所需信息更高效;谌斯ぞ帉(xiě)的精練話題表示雖然效果好,但耗時(shí)費(fèi)力,目前自動(dòng)生成的話題表示效果欠佳。事件是細(xì)粒度的話題,同樣受關(guān)注。因此針對(duì)事件和話題兩種不同粒度研究自動(dòng)生成堪比人工編寫(xiě)的精練話題表示很有必要。本文研究事件和話題兩種粒度的話題表示自動(dòng)生成,事件和話題由多文檔描述,旨在生成形式如熱搜詞的精練準(zhǔn)確、語(yǔ)義明確完整、可讀性好的話題表示,其比標(biāo)題和摘要簡(jiǎn)潔。本文主要工作如下:(1)事件粒度的話題表示生成方法研究本文利用同一事件有不同的報(bào)道描述但它們內(nèi)容往往高度相似的特點(diǎn),提出一種抽取式的話題表示生成方法,把事件文檔集中的標(biāo)題作為處理對(duì)象,通過(guò)提取事件文檔標(biāo)題集中按原序組合的共性信息,并對(duì)這些共性信息篩選甚至壓縮來(lái)生成該事件的話題表示。在真實(shí)事件數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明該方法能較好地生成精練準(zhǔn)確、語(yǔ)義明確完整且可讀性好的話題表示。(2)話題粒度的話題表示生成方法研究本文針對(duì)話題由多個(gè)相關(guān)事件構(gòu)成,其內(nèi)容復(fù)雜、涵蓋面廣、動(dòng)態(tài)變化但圍繞...
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院大學(xué)人工智能學(xué)院)北京市
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2本文的組織結(jié)構(gòu)??Figure?1.2?The?organizational?structure?of?this?thesis??8??
?不同粒度下的話題表示生成方法研究???〇UtPUt?L3yer?^??—?I??圖2.7循環(huán)神經(jīng)網(wǎng)絡(luò)??Figure?2.7?Recurrent?Neural?Network??循環(huán)神經(jīng)網(wǎng)絡(luò)在t時(shí)刻隱藏層的狀態(tài)ht的更新公式為:??h,=f(Uh,_l+Wx,+b)?(2-17)??其中,向量jc,?e,表示在t時(shí)刻網(wǎng)絡(luò)的輸入,為狀態(tài)輸入權(quán)重矩??陣,AeT?"為偏置向量,/(?)為非線性激活函數(shù)。表明隱藏層狀態(tài)ht不僅和當(dāng)前??時(shí)刻的輸入xt有關(guān),也與上一時(shí)刻隱藏層的狀態(tài)hM有關(guān),即RNN會(huì)對(duì)前面的??信息進(jìn)行記憶學(xué)習(xí)并應(yīng)用于當(dāng)前輸出的計(jì)算中。??RNN的參數(shù)通過(guò)反向傳播算法進(jìn)行學(xué)習(xí),當(dāng)輸入序列較長(zhǎng)時(shí),會(huì)存在梯度??爆炸或消失問(wèn)題。為了解決上述問(wèn)題,研究者對(duì)RNN進(jìn)行了改進(jìn),提出很多基??于RNN的擴(kuò)展模型,如:雙向RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM?(Long?Short?Term??Memory?Network)、門(mén)控循環(huán)單元?GRU?(Gated?Recurrent?Unit)等。??2.5.2深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用??深度學(xué)習(xí)廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,涉及信息提娶文本匹配、問(wèn)答系??統(tǒng)、機(jī)器翻譯、自動(dòng)文摘等多項(xiàng)任務(wù)。這里對(duì)深度學(xué)習(xí)在機(jī)器翻譯和自動(dòng)文摘的??工作進(jìn)行簡(jiǎn)要回顧。??機(jī)器翻譯(Machine?translation,?MT)是自然語(yǔ)言處理中最典型的任務(wù),它??是使用計(jì)算機(jī)將一種語(yǔ)言的文檔自動(dòng)翻譯成另外一種語(yǔ)言。有研究者嘗試在傳統(tǒng)??的機(jī)器翻譯框架中引入將神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[5U21,并取得了顯著提升。Sutskever??等人153]采用端到端的深度學(xué)習(xí)模型對(duì)文本進(jìn)行翻譯,首先
?不同粒度下的話題表示生成方法研究???本研究以由多篇文檔進(jìn)行描述的事件作為研究對(duì)象,其研宄內(nèi)容是事件粒度??的話題表示自動(dòng)生成,即:輸入事件的文檔集合,輸出該事件形式如熱搜詞的精??練話題表示。圖3.1抽象展示了本研宄的研究?jī)?nèi)容。??[=)——話題表示生成方法???精練話題表示??苺件文檔集??圖3.1事件粒度的話題表示生成流程??Figure?3.1?Event?grained?topic?representation?generation?process??本研宄具有以下難點(diǎn):雖然事件下的多篇文檔是相關(guān)的,都在報(bào)道同一件事,??但是由于報(bào)道的用語(yǔ)習(xí)慣以及表達(dá)方式的不同,對(duì)同一件事存在不同的描述。比??如,對(duì)于“清華大學(xué)發(fā)現(xiàn)古墓”這個(gè)事件,有“清華大學(xué)校園內(nèi)發(fā)現(xiàn)近百座古墓,??暫未發(fā)現(xiàn)陪葬品”、“清華歷史系師生熱議發(fā)現(xiàn)古墓群:期待、興奮”等相關(guān)報(bào)??道文章。表3.1展示了部分報(bào)道該事件的文章標(biāo)題。那么,如何從文檔集內(nèi)不同??的描述中獲得該事件的主要內(nèi)容,如何保證生成的話題表示簡(jiǎn)短精練且有好的可??讀性。??表3.1事件內(nèi)的相關(guān)報(bào)道樣例??Table?3.1?Examples?of?related?reports?in?event??事件:清華大學(xué)發(fā)現(xiàn)古墓??清華大學(xué)校內(nèi)發(fā)現(xiàn)近百座古墓暫未發(fā)現(xiàn)陪葬品??K?清華歷史系師生熱議發(fā)現(xiàn)古墓群:期待、興奮??it????|?清華大學(xué)發(fā)現(xiàn)古墓:幾乎無(wú)陪葬品,墓主或?yàn)槠矫??白勺??標(biāo)?_?'??題?清華大學(xué)校園內(nèi)發(fā)現(xiàn)95座古墓下面到底有什么???據(jù)考古人員認(rèn)定清華大學(xué)發(fā)現(xiàn)的古墓屬于明清朝代??如果對(duì)事件的一組文檔直接采用己有的關(guān)鍵詞語(yǔ)抽娶自動(dòng)
本文編號(hào):3448315
【文章來(lái)源】:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院大學(xué)人工智能學(xué)院)北京市
【文章頁(yè)數(shù)】:90 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1.2本文的組織結(jié)構(gòu)??Figure?1.2?The?organizational?structure?of?this?thesis??8??
?不同粒度下的話題表示生成方法研究???〇UtPUt?L3yer?^??—?I??圖2.7循環(huán)神經(jīng)網(wǎng)絡(luò)??Figure?2.7?Recurrent?Neural?Network??循環(huán)神經(jīng)網(wǎng)絡(luò)在t時(shí)刻隱藏層的狀態(tài)ht的更新公式為:??h,=f(Uh,_l+Wx,+b)?(2-17)??其中,向量jc,?e,表示在t時(shí)刻網(wǎng)絡(luò)的輸入,為狀態(tài)輸入權(quán)重矩??陣,AeT?"為偏置向量,/(?)為非線性激活函數(shù)。表明隱藏層狀態(tài)ht不僅和當(dāng)前??時(shí)刻的輸入xt有關(guān),也與上一時(shí)刻隱藏層的狀態(tài)hM有關(guān),即RNN會(huì)對(duì)前面的??信息進(jìn)行記憶學(xué)習(xí)并應(yīng)用于當(dāng)前輸出的計(jì)算中。??RNN的參數(shù)通過(guò)反向傳播算法進(jìn)行學(xué)習(xí),當(dāng)輸入序列較長(zhǎng)時(shí),會(huì)存在梯度??爆炸或消失問(wèn)題。為了解決上述問(wèn)題,研究者對(duì)RNN進(jìn)行了改進(jìn),提出很多基??于RNN的擴(kuò)展模型,如:雙向RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM?(Long?Short?Term??Memory?Network)、門(mén)控循環(huán)單元?GRU?(Gated?Recurrent?Unit)等。??2.5.2深度學(xué)習(xí)在自然語(yǔ)言處理中的應(yīng)用??深度學(xué)習(xí)廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域,涉及信息提娶文本匹配、問(wèn)答系??統(tǒng)、機(jī)器翻譯、自動(dòng)文摘等多項(xiàng)任務(wù)。這里對(duì)深度學(xué)習(xí)在機(jī)器翻譯和自動(dòng)文摘的??工作進(jìn)行簡(jiǎn)要回顧。??機(jī)器翻譯(Machine?translation,?MT)是自然語(yǔ)言處理中最典型的任務(wù),它??是使用計(jì)算機(jī)將一種語(yǔ)言的文檔自動(dòng)翻譯成另外一種語(yǔ)言。有研究者嘗試在傳統(tǒng)??的機(jī)器翻譯框架中引入將神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型[5U21,并取得了顯著提升。Sutskever??等人153]采用端到端的深度學(xué)習(xí)模型對(duì)文本進(jìn)行翻譯,首先
?不同粒度下的話題表示生成方法研究???本研究以由多篇文檔進(jìn)行描述的事件作為研究對(duì)象,其研宄內(nèi)容是事件粒度??的話題表示自動(dòng)生成,即:輸入事件的文檔集合,輸出該事件形式如熱搜詞的精??練話題表示。圖3.1抽象展示了本研宄的研究?jī)?nèi)容。??[=)——話題表示生成方法???精練話題表示??苺件文檔集??圖3.1事件粒度的話題表示生成流程??Figure?3.1?Event?grained?topic?representation?generation?process??本研宄具有以下難點(diǎn):雖然事件下的多篇文檔是相關(guān)的,都在報(bào)道同一件事,??但是由于報(bào)道的用語(yǔ)習(xí)慣以及表達(dá)方式的不同,對(duì)同一件事存在不同的描述。比??如,對(duì)于“清華大學(xué)發(fā)現(xiàn)古墓”這個(gè)事件,有“清華大學(xué)校園內(nèi)發(fā)現(xiàn)近百座古墓,??暫未發(fā)現(xiàn)陪葬品”、“清華歷史系師生熱議發(fā)現(xiàn)古墓群:期待、興奮”等相關(guān)報(bào)??道文章。表3.1展示了部分報(bào)道該事件的文章標(biāo)題。那么,如何從文檔集內(nèi)不同??的描述中獲得該事件的主要內(nèi)容,如何保證生成的話題表示簡(jiǎn)短精練且有好的可??讀性。??表3.1事件內(nèi)的相關(guān)報(bào)道樣例??Table?3.1?Examples?of?related?reports?in?event??事件:清華大學(xué)發(fā)現(xiàn)古墓??清華大學(xué)校內(nèi)發(fā)現(xiàn)近百座古墓暫未發(fā)現(xiàn)陪葬品??K?清華歷史系師生熱議發(fā)現(xiàn)古墓群:期待、興奮??it????|?清華大學(xué)發(fā)現(xiàn)古墓:幾乎無(wú)陪葬品,墓主或?yàn)槠矫??白勺??標(biāo)?_?'??題?清華大學(xué)校園內(nèi)發(fā)現(xiàn)95座古墓下面到底有什么???據(jù)考古人員認(rèn)定清華大學(xué)發(fā)現(xiàn)的古墓屬于明清朝代??如果對(duì)事件的一組文檔直接采用己有的關(guān)鍵詞語(yǔ)抽娶自動(dòng)
本文編號(hào):3448315
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3448315.html
最近更新
教材專著