基于帶有通配符序列模式和概率主題模型的多文檔摘要技術(shù)研究
發(fā)布時(shí)間:2021-07-09 20:51
隨著信息技術(shù)的迅猛發(fā)展,人們可以獲取大量的文本數(shù)據(jù);例如:Web新聞、科技文獻(xiàn)、數(shù)字圖書、電子郵件和微博等。如何有效地組織和管理海量的文本數(shù)據(jù),快速、準(zhǔn)確地從中找到用戶所需的信息,成為智能信息處理研究領(lǐng)域面臨的挑戰(zhàn)之一。為此,從大量文檔中提取簡潔摘要信息的多文檔摘要技術(shù)吸引了研究人員的廣泛興趣。近年來,電子商務(wù)和社交網(wǎng)絡(luò)的快速發(fā)展催生出大量的書評影評、網(wǎng)絡(luò)聊天、產(chǎn)品介紹等形式的短文本。這些短文本數(shù)據(jù)包含了大量有價(jià)值的隱含信息,對人們的日常生活產(chǎn)生了很大的影響。與長文檔處理方法相比,因?yàn)槎涛臋n詞匯具有非常少的詞共現(xiàn)信息,使得傳統(tǒng)的多文檔摘要方法直接進(jìn)行處理時(shí)效果不佳。因此,有效地提供精簡內(nèi)容的多文檔摘要技術(shù)具有重要的研究價(jià)值和現(xiàn)實(shí)意義。本文在長文檔的摘要技術(shù)和短文檔的摘要技術(shù)研究的基礎(chǔ)上,提出幾種基于帶通配符序列模式和概率主題模型的多文檔摘要技術(shù)算法。主要研究工作如下:(1)提出一種基于閉合模式的多文檔摘要算法。從詞的計(jì)算角度上說,已有的多文檔摘要提取方法可以分為基于詞的方法和基于本體的方法:基于詞的方法很難處理一詞多義和多詞一義的問題,基于本體的方法考慮了詞語的語義信息,但是受限于具體...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:112 頁
【學(xué)位級別】:博士
【部分圖文】:
圖3.6基于模式的摘要算法的架構(gòu)??Fi.?3.6?The?outline?ofattern-based?summarization??
.linn?I?-??i圓I??ROUGE-2?R0UGB4??圖3.?7不同方法在ROUG-2和ROUGE-4上F-measures的對比??Fig.?3.7?Comparison?of?the?methods?in?terms?of?ROUGE-2?and?ROUGE-4?F-measures??3.4.3實(shí)驗(yàn)結(jié)果分析??這一節(jié)將討論更多實(shí)驗(yàn)的細(xì)節(jié)。我們采用相對提高對比結(jié)果,這里相對提高定??義為(6-a)/a,其中M皮拿來與a比較。實(shí)驗(yàn)中6是PatSum算法,a是我們將比較??的算法。表3.9顯示了?PatSum與其他方法比較的結(jié)果。??表3.9中,“+”意味著PatSum有更好的結(jié)果,是相反的意思。相比于最好??的基于本體的方法(Yago),?PatSum?分別提高了?0.07,?0.09,?0.07,?0.18,?0.18?和?0.18。??相比于基于詞的方法MSSF,PatSum分別提高了?0.04,?0.04;?0.04,?0.18,?0.18和0.18。??此外,其他的發(fā)現(xiàn)如下:??(1)
諶?祿?詿?ㄅ浞?蛄心J降畝轡牡嫡??惴ㄑ繡常崳?當(dāng)參數(shù)X變化情況下,PatSum的性能如圖3.8所示?梢钥闯觯(dāng)增加參數(shù)入??的值,性能先增加后降低。因?yàn)椋氐墓δ苁菣?quán)衡信息性和新穎性的,當(dāng)X是非常小??時(shí),PatSum沒考慮內(nèi)容的信息性。相對應(yīng)地,當(dāng)人大于某一個(gè)閾值時(shí)(e.g.,0.5),少??考慮了算法的新穎性。因?yàn)樾畔⑿院托路f性對摘要系統(tǒng)都至關(guān)重要,最好的實(shí)驗(yàn)??結(jié)果是人等于0/5〇wp=4)。??當(dāng)最小支持度變化情況下,PatSum的性能如圖3.9所示。在情況下,??PatSum可以得到最好的結(jié)果。進(jìn)一步的結(jié)果如圖3.9(b)所示,當(dāng)X從2到7,PatSum??相對穩(wěn)定。因?yàn)槲覀兊乃惴軌蚪鉀Q算法中低頻問題,意味著PatSum很少被最小??支持度影響。當(dāng)sup足夠大的時(shí)候(大于6),實(shí)驗(yàn)結(jié)果很差歸功于僅僅挖掘出很少??的模式。??0.103?-?0.02?-??0.102?-??0.101?0.019???\??i?ai?—?V?i?V??S?0.099?1?0.018?-?\??!?0.098?-?*?I??0.097?Q.Q17?_?**??0.096?-??0?095?^?0.016???????????2?3?4?5?6?7?23456?7???sup??sup??(a)?ROUGE-2?F-measure?(b)?ROUGE-4?F-measure??圖3.?9參數(shù)sup對PatSum性能的影響(1=0.5)??Fig.?3.9?Impact?of?sup?on?the?PatSum?performance?under?X
【參考文獻(xiàn)】:
期刊論文
[1]帶通配符和One-Off條件的序列模式挖掘[J]. 吳信東,謝飛,黃詠明,胡學(xué)鋼,高雋. 軟件學(xué)報(bào). 2013(08)
[2]一種求解MPMGOOC問題的啟發(fā)式算法[J]. 武優(yōu)西,吳信東,江賀,閔帆. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
本文編號:3274475
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:112 頁
【學(xué)位級別】:博士
【部分圖文】:
圖3.6基于模式的摘要算法的架構(gòu)??Fi.?3.6?The?outline?ofattern-based?summarization??
.linn?I?-??i圓I??ROUGE-2?R0UGB4??圖3.?7不同方法在ROUG-2和ROUGE-4上F-measures的對比??Fig.?3.7?Comparison?of?the?methods?in?terms?of?ROUGE-2?and?ROUGE-4?F-measures??3.4.3實(shí)驗(yàn)結(jié)果分析??這一節(jié)將討論更多實(shí)驗(yàn)的細(xì)節(jié)。我們采用相對提高對比結(jié)果,這里相對提高定??義為(6-a)/a,其中M皮拿來與a比較。實(shí)驗(yàn)中6是PatSum算法,a是我們將比較??的算法。表3.9顯示了?PatSum與其他方法比較的結(jié)果。??表3.9中,“+”意味著PatSum有更好的結(jié)果,是相反的意思。相比于最好??的基于本體的方法(Yago),?PatSum?分別提高了?0.07,?0.09,?0.07,?0.18,?0.18?和?0.18。??相比于基于詞的方法MSSF,PatSum分別提高了?0.04,?0.04;?0.04,?0.18,?0.18和0.18。??此外,其他的發(fā)現(xiàn)如下:??(1)
諶?祿?詿?ㄅ浞?蛄心J降畝轡牡嫡??惴ㄑ繡常崳?當(dāng)參數(shù)X變化情況下,PatSum的性能如圖3.8所示?梢钥闯觯(dāng)增加參數(shù)入??的值,性能先增加后降低。因?yàn)椋氐墓δ苁菣?quán)衡信息性和新穎性的,當(dāng)X是非常小??時(shí),PatSum沒考慮內(nèi)容的信息性。相對應(yīng)地,當(dāng)人大于某一個(gè)閾值時(shí)(e.g.,0.5),少??考慮了算法的新穎性。因?yàn)樾畔⑿院托路f性對摘要系統(tǒng)都至關(guān)重要,最好的實(shí)驗(yàn)??結(jié)果是人等于0/5〇wp=4)。??當(dāng)最小支持度變化情況下,PatSum的性能如圖3.9所示。在情況下,??PatSum可以得到最好的結(jié)果。進(jìn)一步的結(jié)果如圖3.9(b)所示,當(dāng)X從2到7,PatSum??相對穩(wěn)定。因?yàn)槲覀兊乃惴軌蚪鉀Q算法中低頻問題,意味著PatSum很少被最小??支持度影響。當(dāng)sup足夠大的時(shí)候(大于6),實(shí)驗(yàn)結(jié)果很差歸功于僅僅挖掘出很少??的模式。??0.103?-?0.02?-??0.102?-??0.101?0.019???\??i?ai?—?V?i?V??S?0.099?1?0.018?-?\??!?0.098?-?*?I??0.097?Q.Q17?_?**??0.096?-??0?095?^?0.016???????????2?3?4?5?6?7?23456?7???sup??sup??(a)?ROUGE-2?F-measure?(b)?ROUGE-4?F-measure??圖3.?9參數(shù)sup對PatSum性能的影響(1=0.5)??Fig.?3.9?Impact?of?sup?on?the?PatSum?performance?under?X
【參考文獻(xiàn)】:
期刊論文
[1]帶通配符和One-Off條件的序列模式挖掘[J]. 吳信東,謝飛,黃詠明,胡學(xué)鋼,高雋. 軟件學(xué)報(bào). 2013(08)
[2]一種求解MPMGOOC問題的啟發(fā)式算法[J]. 武優(yōu)西,吳信東,江賀,閔帆. 計(jì)算機(jī)學(xué)報(bào). 2011(08)
本文編號:3274475
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/3274475.html
最近更新
教材專著