天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

網(wǎng)站自動摘要及其若干關(guān)鍵技術(shù)研究

發(fā)布時間:2018-05-05 02:01

  本文選題:網(wǎng)站 + 網(wǎng)站自動文摘 ; 參考:《華東師范大學(xué)》2017年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,大量的網(wǎng)絡(luò)數(shù)據(jù)正以飛快的速度增長;ヂ(lián)網(wǎng)逐漸成為人們獲取知識的主要途徑。搜索引擎的出現(xiàn)幫助用戶解決了一部分查找信息的問題,但是搜索引擎存在著精度不高的缺點(diǎn)。為了更好的篩選搜索引擎返回的信息,把自動摘要技術(shù)運(yùn)用到網(wǎng)絡(luò)文本上來成了必要的發(fā)展。在互聯(lián)網(wǎng)上的各類信息提供者中,網(wǎng)站是其中的一個主要來源,然而隨著網(wǎng)站復(fù)雜度的不斷增長,用戶尋找信息的難度也不斷增加。網(wǎng)站自動摘要可以幫助解決這個問題。目前,開放式分類目錄DMOZ(Open Directory Project)等由志愿者人工總結(jié)的網(wǎng)站自動摘要已經(jīng)廣泛應(yīng)用于各個領(lǐng)域之中。但是人工生成的網(wǎng)站摘要需要花費(fèi)大量的人力和時間維護(hù),并且具有主觀性。為此本文提出了適用于學(xué)術(shù)機(jī)構(gòu)網(wǎng)站和綜合類網(wǎng)站的自動摘要方法。目前對于網(wǎng)站自動摘要的研究還不多,主要的網(wǎng)絡(luò)自動摘要研究聚焦于網(wǎng)頁的自動摘要生成。但是網(wǎng)頁自動摘要生成方法并不適用于網(wǎng)站。想要獲取網(wǎng)站的自動摘要,主要存在著幾個關(guān)鍵問題:1)網(wǎng)站文本內(nèi)容的抽取。網(wǎng)站內(nèi)包含多個網(wǎng)頁,不同于網(wǎng)頁自動摘要,只需將單個網(wǎng)頁的內(nèi)容抽取出來,網(wǎng)站自動摘要需要抽取網(wǎng)站內(nèi)多個頁面的內(nèi)容。同時網(wǎng)頁文本結(jié)構(gòu)形式多變,存在著較多的鏈接、導(dǎo)航條、廣告條等非文本信息,如何從繁雜的網(wǎng)頁中抽取出文本信息是首先要解決的問題。2)目前有基于統(tǒng)計(jì)特征、基于關(guān)聯(lián)圖等多文檔自動摘要方法,但是直接將這些方法移植于網(wǎng)站自動摘要上來并不適合。因?yàn)檫@些方法并沒有考慮文摘生成環(huán)境和網(wǎng)站這一特性。3)大型綜合類網(wǎng)站內(nèi)層次結(jié)構(gòu)復(fù)雜,網(wǎng)頁內(nèi)容繁多,如何獲取這類網(wǎng)站的描述信息并且基于此生成摘要是一個關(guān)鍵問題。對此,本文分析了現(xiàn)有單文檔和多文檔的自動摘要方法的優(yōu)缺點(diǎn),分析了這些方法不宜直接用來生成網(wǎng)站摘要的原因。從網(wǎng)站內(nèi)容抽取開始,逐步生成網(wǎng)站自動摘要。本文的具體工作和成果包括:首先,本文提出了一種抽取網(wǎng)站文本信息的算法。生成網(wǎng)站摘要的前提是要獲取網(wǎng)站的內(nèi)容。本文算法首先采用了寬度優(yōu)先搜索策略獲取網(wǎng)站中的網(wǎng)頁,然后將頁面源碼解析成DOM樹,利用基于統(tǒng)計(jì)的方法來實(shí)現(xiàn)網(wǎng)站文本信息的抽取。這種方法可以克服傳統(tǒng)包裝器方法需要提前確定規(guī)則的缺點(diǎn)。通過實(shí)驗(yàn)分析,本方法可以很好地抽取出適用于接下來生成網(wǎng)站摘要算法的網(wǎng)站綜合文本。然后,在生成的網(wǎng)站綜合文本上,本文提出了一種基于網(wǎng)站層次結(jié)構(gòu)和主題模型LDA的網(wǎng)站自動摘要算法(H-LDA)。該算法充分利用了句子的"網(wǎng)站"特性,結(jié)合傳統(tǒng)文檔的統(tǒng)計(jì)特征生成句子的網(wǎng)站層次結(jié)構(gòu)特征。該算法適用于學(xué)術(shù)機(jī)構(gòu)網(wǎng)站,這類網(wǎng)站層次結(jié)構(gòu)比較分明。實(shí)驗(yàn)證明本文方法生成的摘要比從網(wǎng)站首頁獲取的信息多。還比較了利用網(wǎng)站層次結(jié)構(gòu)比單獨(dú)用LDA效果要好。最后,提出了適用于層次結(jié)構(gòu)復(fù)雜,網(wǎng)站內(nèi)頁面數(shù)量繁多的綜合類網(wǎng)站自動摘要算法(SE-LDA)。該算法利用搜索引擎獲取這類網(wǎng)站的描述信息,并且利用"搜索引擎排序"特性,從統(tǒng)計(jì)特征和語義理解兩個方面生成網(wǎng)站摘要。實(shí)驗(yàn)證明了本方法的可行性,并且生成摘要比從網(wǎng)站首頁獲取的信息多。最后通過對比實(shí)驗(yàn)驗(yàn)證了 SE-LDA比H-LDA更加適于綜合類網(wǎng)站。
[Abstract]:This paper analyzes the advantages and disadvantages of the automatic summarization of Web sites . Finally , the comparison experiment proves that SE - LDA is more suitable for comprehensive web sites than H - LDA .

【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前8條

1 劉娜;路瑩;唐曉君;李明霞;;基于LDA重要主題的多文檔自動摘要算法[J];計(jì)算機(jī)科學(xué)與探索;2015年02期

2 馮永;唐黎;;視覺與標(biāo)簽信息的Deep Web查詢頁面內(nèi)容提取[J];重慶大學(xué)學(xué)報(bào);2012年06期

3 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期

4 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;主題模型LDA的多文檔自動文摘[J];智能系統(tǒng)學(xué)報(bào);2010年02期

5 龔書;瞿有利;田盛豐;;基于語義的自動文摘研究綜述[J];北京交通大學(xué)學(xué)報(bào);2009年05期

6 王茹,宋瀚濤,陸玉昌;基于樹自動機(jī)的網(wǎng)頁數(shù)據(jù)抽取[J];北京理工大學(xué)學(xué)報(bào);2004年09期

7 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期

8 王志琪;王永成;劉傳漢;;論自動文摘及其分類[J];情報(bào)學(xué)報(bào);2005年02期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 沈怡濤;基于視覺特征和文本結(jié)構(gòu)分析的中文網(wǎng)頁自動摘要技術(shù)研究[D];華東師范大學(xué);2014年

2 王麒;基于領(lǐng)域本體的Web文檔自動摘要關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];華東師范大學(xué);2007年



本文編號:1845672

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1845672.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d9f8a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com