基于OWL本體構(gòu)建的網(wǎng)頁圖文摘要提取算法研究
本文關(guān)鍵詞:基于OWL本體構(gòu)建的網(wǎng)頁圖文摘要提取算法研究
更多相關(guān)文章: 圖文摘要 圖片選擇算法 文本摘要算法 頁面本體
【摘要】:隨著各種網(wǎng)頁數(shù)據(jù)挖掘方式的發(fā)展,人們?cè)贗nternet使用中能夠更為快捷、精確地獲取自己想要的信息。網(wǎng)頁正文提取作為網(wǎng)絡(luò)數(shù)據(jù)挖掘的研究熱點(diǎn),目前只能對(duì)網(wǎng)頁的文本摘要進(jìn)行提取,然而在人類接收的信息中,有80%來自于視覺,即圖片信息,因此未來網(wǎng)頁數(shù)據(jù)挖掘的發(fā)展趨勢(shì)是人們不僅僅只需要文本摘要,也需要圖片摘要。此外隨著移動(dòng)顯示設(shè)備技術(shù)的發(fā)展,手機(jī)媒體傳播信息成為了人們獲取熱點(diǎn)信息的一個(gè)重要途徑,因此就更需要對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行摘要提取,以便使用手機(jī)媒體時(shí),能夠更為快捷、精準(zhǔn)、直觀地獲取人們需要的信息。由此可見,未來對(duì)于網(wǎng)頁正文提取研究的熱點(diǎn)在于對(duì)網(wǎng)頁的文字和圖片進(jìn)行摘要提取,讓圖片也能夠像文字那樣更形象化地表達(dá)出網(wǎng)頁的重要信息。本文把這樣一種新的摘要組合形式,定義為網(wǎng)頁圖文摘要。 目前,與網(wǎng)頁圖文摘要提取的相關(guān)技術(shù)已在網(wǎng)易新聞手機(jī)客戶端、今日頭條手機(jī)客戶端、Zake、Flipboard等移動(dòng)應(yīng)用產(chǎn)品上投入使用,這些產(chǎn)品對(duì)于新聞網(wǎng)頁的處理大同小異。但手機(jī)客戶端能閱讀到的新聞內(nèi)容,大多還停留在新聞信息人工輸入階段,由于人工處理的繁瑣性,這就使得新聞的更新速度受到了限制。另外今日頭條和Zaker等產(chǎn)品在以列表展示新聞時(shí),只給出了新聞標(biāo)題,沒有新聞圖片進(jìn)行展示說明,然而有的新聞?wù)谋旧泶嬖趫D片,這樣的處理就局限了用戶的閱讀需求。而Flipboard的處理方式是當(dāng)新聞?wù)拇嬖诙鄰垐D片時(shí),新聞列表只默認(rèn)顯示第一張圖片。網(wǎng)易新聞在進(jìn)行摘要提取時(shí),僅僅只對(duì)文本進(jìn)行了處理,列表中展示的部分圖片在原新聞網(wǎng)頁中有時(shí)并不存在,這樣的處理方式常常給讀者帶來不便。 針對(duì)以上問題,本文提出了一種基于OWL本體構(gòu)建的網(wǎng)頁圖文摘要算法(Extracting the Graphic-Text Abstract of Webpage Based on OWL,EGTAO)。本算法首先利用網(wǎng)絡(luò)本體語言(Web Ontology Language,OWL)構(gòu)建網(wǎng)頁頁面本體模型;然后根據(jù)該模型分別利用文本摘要算法和圖片選擇算法對(duì)文本和圖片進(jìn)行提取,在提取過程中,充分考慮文本、圖片的語義特性,實(shí)現(xiàn)更為準(zhǔn)確化、更為人性化的圖文摘要提取。本文的研究工作主要包括以下三個(gè)方面: 第一,本文使用網(wǎng)絡(luò)本體語言(Web Ontology Language, OWL)構(gòu)建OWL網(wǎng)頁頁面本體模型(Ontology Model of WebPage, OMW).在基于傳統(tǒng)的DOM Tree表示網(wǎng)頁結(jié)構(gòu)的基礎(chǔ)上,通過對(duì)網(wǎng)頁各部分信息進(jìn)行分類,建立各部分之間的屬性關(guān)系ObjectProperty,然后通過這些屬性關(guān)系將網(wǎng)頁各部分關(guān)聯(lián)起來,最終得到OWL網(wǎng)頁頁面本體模型。在此過程中使用了Protege本體構(gòu)建工具,它能夠清晰地展示出網(wǎng)頁各部分之間的關(guān)聯(lián)。 第二,本文使用網(wǎng)頁圖片選擇算法對(duì)網(wǎng)頁文正文部分的圖片進(jìn)行圖片選擇。本圖片選擇算法在基于OWL頁面本體模型的基礎(chǔ)之上,通過遍歷模型,提取圖片的語義屬性及圖片在網(wǎng)頁中的alt屬性,將影響圖片提取的多個(gè)影響因素都結(jié)合起來進(jìn)行歸一化處理,優(yōu)化最終的影響因素,最終選取得到對(duì)網(wǎng)頁正文最具代表性的圖片。 第三,本文使用網(wǎng)頁文本摘要提取算法對(duì)網(wǎng)頁正文部分的文本進(jìn)行文本摘要的提取。本文本摘要算法在基于OWL頁面本體模型的基礎(chǔ)之上,結(jié)合傳統(tǒng)的基于DOM Tree的網(wǎng)頁正文提取算法,通過遍歷模型,提取文本的主題關(guān)鍵詞、主題標(biāo)題、主題句等語義屬性,將影響文本提取的多個(gè)影響因素都結(jié)合起來進(jìn)行歸一化處理,優(yōu)化最終的影響因素,最終提取得到對(duì)網(wǎng)頁正文最具代表性的文本。 實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的方法相比,本文提出的基于OWL本體構(gòu)建的網(wǎng)頁圖文摘要提取算法在圖文摘要提取領(lǐng)域中,具有更好的準(zhǔn)確性、代表性和提取內(nèi)容相關(guān)性。本文所提到的圖文摘要,特別是圖片提取部分的研究,對(duì)未來移動(dòng)應(yīng)用的發(fā)展、移動(dòng)設(shè)備的跨屏技術(shù)以及搜索引擎的搜索效率的提高具有一定的促進(jìn)作用,同時(shí)對(duì)推進(jìn)網(wǎng)頁數(shù)據(jù)挖掘研究從理論層面過度到工業(yè)實(shí)現(xiàn)層面也具有較積極的意義。
【關(guān)鍵詞】:圖文摘要 圖片選擇算法 文本摘要算法 頁面本體
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要5-7
- Abstract7-9
- 第1章 緒論9-15
- 1.1 選題背景和意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 國(guó)外研究現(xiàn)狀10-11
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀11-12
- 1.3 論文的主要工作12-13
- 1.4 論文的組織結(jié)構(gòu)13-15
- 第2章 相關(guān)理論15-27
- 2.1 本體15-23
- 2.1.1 本體的概念15-17
- 2.1.2 本體描述語言17-20
- 2.1.3 本體的構(gòu)建方法與工具20-21
- 2.1.4 本體的應(yīng)用21
- 2.1.5 網(wǎng)頁結(jié)構(gòu)本體表示21-23
- 2.2 摘要提取技術(shù)23-25
- 2.2.1 摘要的分類23-24
- 2.2.2 摘要提取技術(shù)的分類24-25
- 2.3 本章小結(jié)25-27
- 第3章 基于OWL本體構(gòu)建的網(wǎng)頁圖文摘要提取算法研究27-47
- 3.1 問題分析27-29
- 3.1.1 網(wǎng)頁文本摘要問題分析27-28
- 3.1.2 網(wǎng)頁圖片選擇問題分析28-29
- 3.2 EGTAO總體思想29-30
- 3.3 構(gòu)建網(wǎng)頁頁面本體模型OMW30-37
- 3.3.1 OMW相關(guān)定義及形式化30-32
- 3.3.2 OMW構(gòu)建過程32-37
- 3.4 網(wǎng)頁圖片選擇算法37-42
- 3.4.1 網(wǎng)頁圖片選擇算法概述37
- 3.4.2 網(wǎng)頁圖片選擇算法參數(shù)分析37-39
- 3.4.3 網(wǎng)頁圖片選擇算法39-42
- 3.5 網(wǎng)頁文本摘要算法42-46
- 3.5.1 網(wǎng)頁文本摘要算法概述42
- 3.5.2 網(wǎng)頁文本摘要算法參數(shù)分析42-43
- 3.5.3 網(wǎng)頁文本摘要算法43-46
- 3.6 圖文摘要合成46
- 3.7 本章小結(jié)46-47
- 第4章 實(shí)驗(yàn)47-55
- 4.1 實(shí)驗(yàn)方案47
- 4.2 實(shí)驗(yàn)準(zhǔn)備47-49
- 4.3 實(shí)驗(yàn)的實(shí)現(xiàn)及評(píng)價(jià)49-55
- 4.3.1 實(shí)驗(yàn)結(jié)果比較49-51
- 4.3.2 實(shí)驗(yàn)結(jié)果分析51-55
- 第5章 結(jié)束語55-57
- 5.1 本文的工作總結(jié)55-56
- 5.2 將來的工作展望56-57
- 參考文獻(xiàn)57-61
- 致謝61-63
- 在學(xué)校期間所發(fā)表的論文63
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 譚娟;李伯虎;;面向語義的C4ISR/Sim集成系統(tǒng)設(shè)計(jì)[J];北京航空航天大學(xué)學(xué)報(bào);2006年10期
2 張德政;阿孜古麗;劉潔卉;;基于圖分析的領(lǐng)域知識(shí)獲取技術(shù)[J];北京科技大學(xué)學(xué)報(bào);2007年S2期
3 唐培麗,王樹明,胡明;基于語義的漢語文獻(xiàn)主題詞提取算法研究[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2005年05期
4 唐培麗;解飛;陳志雨;;基于概念檢索的中文搜索引擎研究[J];長(zhǎng)春大學(xué)學(xué)報(bào);2006年04期
5 張澤清;;基于領(lǐng)域本體的語義檢索技術(shù)研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年06期
6 張澤清;;基于Ontology的人力資源語義檢索技術(shù)研究[J];長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年02期
7 李雪瑞;趙冬青;;空間信息本體的開發(fā)[J];測(cè)繪科學(xué);2006年03期
8 魏震方;王世華;沈華;;位置服務(wù)上下文計(jì)算本體形式化實(shí)現(xiàn)方法[J];測(cè)繪科學(xué);2010年01期
9 林周佳;;基于語義網(wǎng)技術(shù)的數(shù)字化檔案館研究[J];檔案與建設(shè);2006年04期
10 劉光蓉;;“C程序設(shè)計(jì)”課程內(nèi)容本體構(gòu)建[J];電化教育研究;2008年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 畢魯雁;焦宗夏;范圣韜;趙四軍;;基于本體的機(jī)載機(jī)電系統(tǒng)故障診斷研究[A];第五屆全國(guó)流體傳動(dòng)與控制學(xué)術(shù)會(huì)議暨2008年中國(guó)航空學(xué)會(huì)液壓與氣動(dòng)學(xué)術(shù)會(huì)議論文集[C];2008年
2 張德政;劉潔卉;;基于圖分析的領(lǐng)域知識(shí)獲取技術(shù)[A];著力提高高等教育質(zhì)量,努力增強(qiáng)高校創(chuàng)新與服務(wù)能力——北京市高等教育學(xué)會(huì)2007年學(xué)術(shù)年會(huì)論文集(上冊(cè))[C];2008年
3 王宏生;趙文;張路;;基于DOM解析的OWL本體關(guān)系數(shù)據(jù)庫存儲(chǔ)模式設(shè)計(jì)[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年
4 王丹;趙榮娟;;P2P系統(tǒng)中一種基于代理的RDF文檔查詢模型[A];2006年全國(guó)開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(二)[C];2006年
5 汪婷婷;吳軍華;朱瑩;劉一田;;基于RDF/XML的網(wǎng)格資源分層描述[A];2006年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
6 蔣鵬;;基于本體的電子政務(wù)文檔智能檢索方法的研究[A];信息經(jīng)濟(jì)學(xué)與電子商務(wù):第十三屆中國(guó)信息經(jīng)濟(jì)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2008年
7 林建祥;;LOGO思想與可拓、創(chuàng)新、智慧[A];第六屆中國(guó)科學(xué)家論壇論文匯編[C];2007年
8 胡金柱;舒江波;陳志偉;杜志強(qiáng);竇桂琴;;基于本體構(gòu)件的工作流檢索研究[A];第四屆中國(guó)軟件工程大會(huì)論文集[C];2007年
9 王紅濱;劉大昕;;元數(shù)據(jù)提取綜述[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年
10 王浩然;徐建良;張巍;;一種XML元數(shù)據(jù)的自動(dòng)語義標(biāo)注方法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 胡沙;面向服務(wù)的模具企業(yè)信息系統(tǒng)集成平臺(tái)關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2010年
2 陳一稀;基于關(guān)系數(shù)據(jù)庫的遺留系統(tǒng)向語義Web移植的研究[D];浙江大學(xué);2010年
3 聶雪軍;內(nèi)容感知存儲(chǔ)系統(tǒng)中信息信息生命周期管理關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2011年
4 張珊;REST式GIS服務(wù)聚合研究及軟件開發(fā)[D];華東師范大學(xué);2011年
5 汪楚嬌;語義環(huán)境下提升機(jī)故障人工免疫診斷方法研究[D];中國(guó)礦業(yè)大學(xué);2010年
6 李淑霞;地名本體及其在地理空間數(shù)據(jù)組織中的應(yīng)用研究[D];解放軍信息工程大學(xué);2009年
7 張小旺;超協(xié)調(diào)描述邏輯[D];北京大學(xué);2011年
8 尹勝;網(wǎng)絡(luò)化協(xié)作加工資源優(yōu)化配置方法及其加工支持系統(tǒng)研究[D];重慶大學(xué);2011年
9 聶雪軍;內(nèi)容感知存儲(chǔ)系統(tǒng)中信息生命周期管理關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2010年
10 羅芳;意見挖掘中若干關(guān)鍵問題研究[D];武漢理工大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙永華;多學(xué)科本體構(gòu)建與集成技術(shù)研究[D];山東科技大學(xué);2010年
2 楊立志;基于語義網(wǎng)的圖像檢索算法的研究[D];廣西師范學(xué)院;2010年
3 肖好冰;本體構(gòu)建與網(wǎng)絡(luò)交流平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];中國(guó)海洋大學(xué);2010年
4 蘆榮松;基于產(chǎn)品研發(fā)的IGDSS知識(shí)表示及其推理機(jī)制研究[D];中國(guó)海洋大學(xué);2010年
5 雷傲雄;基于本體的面向服務(wù)架構(gòu)建模研究[D];江西師范大學(xué);2010年
6 毛敏芹;對(duì)搜索引擎擴(kuò)充語義信息功能方法研究[D];華東師范大學(xué);2010年
7 趙少華;基于本體論的汽車故障診斷知識(shí)建模及知識(shí)系統(tǒng)的研究[D];華東理工大學(xué);2011年
8 胡青;語義目錄的實(shí)現(xiàn)機(jī)制研究[D];武漢科技大學(xué);2010年
9 龔華明;旅游本體知識(shí)庫的構(gòu)建及推理應(yīng)用研究[D];昆明理工大學(xué);2009年
10 羅曉麗;面向語義Web服務(wù)的分布式服務(wù)發(fā)現(xiàn)研究[D];解放軍信息工程大學(xué);2009年
,本文編號(hào):844657
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/844657.html