天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)站層次結(jié)構(gòu)和主題模型LDA的網(wǎng)站自動(dòng)摘要

發(fā)布時(shí)間:2018-04-29 20:19

  本文選題:Web網(wǎng)頁(yè) + 網(wǎng)站自動(dòng)摘要。 參考:《計(jì)算機(jī)工程》2017年04期


【摘要】:近年來自動(dòng)摘要方面的研究大多是關(guān)于多文檔和Web網(wǎng)頁(yè)的,而對(duì)網(wǎng)站自動(dòng)摘要的研究較少。為此,基于主題模型隱含狄利克雷分布(LDA)和網(wǎng)站層次結(jié)構(gòu)提出一個(gè)可以自動(dòng)生成網(wǎng)站摘要的算法。該算法可獲取整個(gè)網(wǎng)站內(nèi)的網(wǎng)頁(yè)信息并進(jìn)行整合,根據(jù)提出的句子權(quán)重公式計(jì)算句子權(quán)重,選取權(quán)重最高的句子作為網(wǎng)站摘要。以20個(gè)商業(yè)和學(xué)術(shù)網(wǎng)站作為實(shí)驗(yàn)對(duì)象,使用ROUGE評(píng)測(cè)標(biāo)準(zhǔn),結(jié)果表明,與僅使用主題模型LDA獲取的網(wǎng)站摘要相比,不帶停用詞的ROUGE-1和ROUGE-L提高0.32,帶停用詞的ROUGE-1提高0.39,ROUGE-L提高0.38。與網(wǎng)站首頁(yè)摘要相比,不帶停用詞的ROUGE-1提高0.03,ROUGE-L提高0.06,帶停用詞的ROUGE-1提高0.08,ROUGE-L提高0.07。
[Abstract]:In recent years, the research on automatic summary is mostly about multi-document and Web pages, but the research on automatic summary of Web site is less. For this reason, an algorithm for automatically generating web abstracts is proposed based on the implicit Delikley distribution (LDAs) and the hierarchical structure of the web site. The algorithm can obtain and integrate the web page information of the whole website, calculate the sentence weight according to the proposed sentence weight formula, and select the sentence with the highest weight as the summary of the website. Using 20 commercial and academic websites as experimental subjects and using ROUGE evaluation criteria, the results show that the ROUGE-1 and ROUGE-L without deactivating words and ROUGE-1 with deactivated words are 0.32 and 0.39% higher than those obtained by using LDA only, and 0.39% of ROUGE-1 with deactivated words are increased by 0.38. Compared with the first page summary of the website, the ROUGE-1 without deactivation words increased 0.03% ROUGE-L increased 0.06%, the ROUGE-1 with deactivated words increased 0.08% ROUGE-L increased 0.07%.
【作者單位】: 華東師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系;
【基金】:國(guó)家科技支撐計(jì)劃項(xiàng)目(2015BAH01F02) 上海張江國(guó)家自主創(chuàng)新示范區(qū)專項(xiàng)發(fā)展資金計(jì)劃項(xiàng)目(201411-JA-B108-002)
【分類號(hào)】:TP391.1;TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 沈洲,王永成,許一震,吳芳芳;一種面向新聞文獻(xiàn)的自動(dòng)摘要系統(tǒng)的研究與實(shí)踐[J];計(jì)算機(jī)工程;2000年09期

2 沈洲,王永成,韓客松;一種基于主題敏感辭分析的新聞文獻(xiàn)自動(dòng)摘要系統(tǒng)的研究與實(shí)踐[J];高技術(shù)通訊;2001年09期

3 張雷生,萬(wàn)紹俊,許鵬文;簡(jiǎn)單中文自動(dòng)摘要系統(tǒng)研究[J];裝備指揮技術(shù)學(xué)院學(xué)報(bào);2004年03期

4 王建會(huì);周水庚;胡運(yùn)發(fā);;基于聚類的自動(dòng)摘要[J];模式識(shí)別與人工智能;2004年03期

5 黃水清;李志燕;梁剛;;面向計(jì)算機(jī)類文獻(xiàn)的自動(dòng)摘要系統(tǒng)的研究與實(shí)現(xiàn)[J];圖書與情報(bào);2006年03期

6 陳珂;殷凡;;中文自動(dòng)摘要綜述[J];福建電腦;2007年02期

7 李念峰;;基于自動(dòng)摘要的網(wǎng)絡(luò)情報(bào)收集系統(tǒng)研究[J];現(xiàn)代情報(bào);2007年11期

8 郭琳虹;張小松;;文本自動(dòng)摘要的方法研究[J];福建電腦;2008年06期

9 龍華;何中市;伍星;李雙慶;;基于依存內(nèi)容單元的金字塔自動(dòng)摘要評(píng)估[J];計(jì)算機(jī)工程;2009年13期

10 洪田玉;陳志剛;;一種跨語(yǔ)言的自動(dòng)摘要技術(shù)[J];電腦與信息技術(shù);2009年04期

相關(guān)會(huì)議論文 前8條

1 章彥星;張銘;鄧志鴻;;基于特征的用戶評(píng)論自動(dòng)摘要[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年

2 吳中勤;黃萱菁;吳立德;;基于有監(jiān)督分類技術(shù)的文本自動(dòng)摘要研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

3 王暉;馬軍;;面向Web論壇的多文檔摘要方法[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

4 張奇;黃萱菁;吳立德;;一種新的句子相似度度量及其在文本自動(dòng)摘要中的應(yīng)用[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

5 李芳;何婷婷;;面向查詢的多模式自動(dòng)摘要研究[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年

6 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動(dòng)摘要算法[A];2013年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第五分冊(cè))[C];2013年

7 王荀;李素建;宋濤;姜伯平;;服務(wù)于內(nèi)容側(cè)面發(fā)現(xiàn)的框架識(shí)別[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

8 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動(dòng)摘要[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

相關(guān)博士學(xué)位論文 前2條

1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年

2 耿煥同;范例推理與互聯(lián)網(wǎng)文本信息處理研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 王馨;網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)研究[D];河北大學(xué);2015年

2 李子健;專題摘要自動(dòng)生成技術(shù)研究[D];浙江大學(xué);2015年

3 熊嬌;基于詞項(xiàng)—句子—文檔三層圖模型的多文檔自動(dòng)摘要[D];江西師范大學(xué);2015年

4 程園;輿情分析中維吾爾文文本自動(dòng)摘要研究[D];新疆大學(xué);2015年

5 梁入文;基于文本意見挖掘的煙臺(tái)大學(xué)教學(xué)評(píng)價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

6 楊瑞;在線網(wǎng)絡(luò)中文本自動(dòng)摘要系統(tǒng)研究和實(shí)現(xiàn)[D];南京航空航天大學(xué);2014年

7 唐亞娟;基于文本挖掘的糧食情報(bào)分析技術(shù)與系統(tǒng)實(shí)現(xiàn)[D];河南工業(yè)大學(xué);2015年

8 董非;基于圖的主觀性多文本自動(dòng)摘要方法研究和實(shí)現(xiàn)[D];上海交通大學(xué);2015年

9 程娟;中文文檔自動(dòng)摘要技術(shù)[D];山東大學(xué);2006年

10 周凱;中文突發(fā)事件新聞自動(dòng)摘要的研究[D];上海交通大學(xué);2008年

,

本文編號(hào):1821401

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1821401.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dd2f4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本深夜福利在线播放| 不卡一区二区在线视频| 黑色丝袜脚足国产一区二区| 亚洲第一区欧美日韩在线| 国产又色又爽又黄又大| 成人国产激情在线视频| 亚洲天堂国产精品久久精品| 日本不卡一区视频欧美| 中文人妻精品一区二区三区四区| 精品国产日韩一区三区| 高清一区二区三区不卡免费| 国产综合香蕉五月婷在线| 真实偷拍一区二区免费视频| 欧美精品专区一区二区| 国产精品一级香蕉一区| 欧美一级特黄特色大色大片| 日韩一本不卡在线观看| 色婷婷丁香激情五月天| 黑丝国产精品一区二区| 日韩中文字幕免费在线视频| 欧美日韩在线第一页日韩| 嫩呦国产一区二区三区av| 91蜜臀精品一区二区三区| 欧美黑人暴力猛交精品| 人妻少妇av中文字幕乱码高清| 香蕉久久夜色精品国产尤物 | 欧美激情视频一区二区三区| 亚洲黑人精品一区二区欧美| 91精品视频免费播放| 中文字幕乱码免费人妻av| 麻豆最新出品国产精品| 亚洲一区二区精品免费视频| 亚洲国产精品久久琪琪| 亚洲高清欧美中文字幕| 国产内射一级二级三级| 亚洲精品伦理熟女国产一区二区 | 亚洲高清亚洲欧美一区二区| 欧美极品欧美精品欧美| 亚洲综合日韩精品欧美综合区| 亚洲综合伊人五月天中文| 久久国产人妻一区二区免费|