面向網(wǎng)頁內(nèi)容無障礙訪問的導航欄抽取與正文抽取
本文關(guān)鍵詞:面向網(wǎng)頁內(nèi)容無障礙訪問的導航欄抽取與正文抽取
更多相關(guān)文章: 導航欄抽取 正文抽取 無障礙檢測
【摘要】:殘疾人由于自身的身體局限,在互聯(lián)網(wǎng)高速發(fā)展的時代難以充分享受網(wǎng)絡(luò)社會的便利性。與早期的網(wǎng)頁HTML元素布局簡單,內(nèi)容以文本內(nèi)容為主相比,現(xiàn)今的網(wǎng)頁不僅包含各種多媒體元素,而且使用了更多的CSS樣式結(jié)構(gòu)和JavaScript動態(tài)結(jié)構(gòu),HTML元素繁多,加劇了殘疾人信息獲取的障礙,同時,由于技術(shù)更新快,網(wǎng)頁設(shè)計多樣化等原因,網(wǎng)頁設(shè)計普遍存在大量的不一致問題,進一步加劇了殘疾人訪問互聯(lián)網(wǎng)的障礙。中國殘聯(lián)致力于幫助殘疾人更好的融入互聯(lián)網(wǎng)社會,保證殘疾人的利益,聯(lián)合工業(yè)和信息化部電信研究院發(fā)布了網(wǎng)站無障礙標準。在工信部發(fā)布的網(wǎng)站無障礙標準中,有兩條重要標準:“網(wǎng)頁可以快捷鍵跳過導航欄以及網(wǎng)頁標題和正文的相關(guān)性”。跳過導航欄可以幫助殘疾人快速進入目標網(wǎng)頁,在本文中,我們提出了一種新穎的、針對殘疾人瀏覽頻率高的資訊、新聞類網(wǎng)頁中抽取網(wǎng)頁導航欄的方法,基于這兩種類型網(wǎng)頁的特點,使用基于鏈接文本比例,鄰近行編輯距離以及編輯距離梯度變化三個特征,最后使用無監(jiān)督聚類的方法,有效、快速地在指定網(wǎng)頁中抽取導航欄,并在一系列網(wǎng)站的抽取實驗中達到了90%以上的準確率,并實現(xiàn)了一個可以自動標注網(wǎng)頁導航欄的系統(tǒng)。網(wǎng)頁標題和正文的相關(guān)性標準可以有效地減少殘疾人的閱讀障礙,使殘疾人快速獲取每個網(wǎng)頁的主要內(nèi)容,過濾無關(guān)的網(wǎng)頁信息,不同于以往的正文抽取算法需要重建DOM樹以及訓練模型的方法,在本文中,我們提出了一種引入高斯平滑函數(shù)的抽取標簽文本比例以及變化率的無監(jiān)督方法,可以在不需要訓練數(shù)據(jù)和DOM樹的情況下有效、準確地在一系列網(wǎng)頁中抽取網(wǎng)頁正文。
【關(guān)鍵詞】:導航欄抽取 正文抽取 無障礙檢測
【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
- 摘要5-6
- Abstract6-12
- 第1章 緒論12-19
- 1.1 課題背景12-17
- 1.1.1 網(wǎng)站無障礙標準12-13
- 1.1.2 網(wǎng)頁導航欄抽取算法發(fā)展13-15
- 1.1.3 網(wǎng)頁正文抽取算法發(fā)展15-17
- 1.2 本文的結(jié)構(gòu)和工作17-18
- 1.2.1 本文工作17
- 1.2.2 本文結(jié)構(gòu)17-18
- 1.3 本章小結(jié)18-19
- 第2章 理論基礎(chǔ)和相關(guān)技術(shù)19-36
- 2.1 WCAG 2.0指南19-20
- 2.2 HTML與DOM樹20-22
- 2.2.1 HTML20-21
- 2.2.2 DOM樹21-22
- 2.3 網(wǎng)頁內(nèi)容提取22-31
- 2.3.1 基于網(wǎng)站Style Tree的網(wǎng)頁模板抽取算法24-26
- 2.3.2 基于網(wǎng)頁DOM樹距離度量的模板抽取方法26-27
- 2.3.3 基于文本比例的正文抽取方法27-28
- 2.3.4 基于標記窗的正文抽取方法28-30
- 2.3.5 基于最大子串分割的正文抽取算法30-31
- 2.4 聚類算法31-34
- 2.4.1 層次聚類31-33
- 2.4.2 劃分聚類33-34
- 2.5 本章小結(jié)34-36
- 第3章 基于鏈接文字比例與URL編輯距離的網(wǎng)頁導航欄抽取36-47
- 3.1 問題描述36-38
- 3.2 算法原理38-39
- 3.3 算法設(shè)計39-46
- 3.3.1 鏈接文字比例39-40
- 3.3.2 鄰近行編輯距離40-44
- 3.3.3 編輯距離變化率44-45
- 3.3.4 聚類抽取導航欄45-46
- 3.4 本章小結(jié)46-47
- 第4章 基于標簽文字比例與高斯平滑的網(wǎng)頁正文抽取47-56
- 4.1 問題描述47-48
- 4.2 算法原理48-49
- 4.3 算法設(shè)計49-55
- 4.3.1 HTML標簽文字比例49-53
- 4.3.2 標簽文字比例變化率53-54
- 4.3.3 閾值以及聚類抽取網(wǎng)頁正文54-55
- 4.4 本章小結(jié)55-56
- 第5章 實驗及結(jié)果分析56-66
- 5.1 實驗環(huán)境和實驗數(shù)據(jù)集準備56
- 5.1.1 實驗環(huán)境56
- 5.1.2 實驗數(shù)據(jù)集準備56
- 5.2 基于鏈接文字比例與URL編輯距離的網(wǎng)頁導航欄抽取56-61
- 5.2.1 實驗數(shù)據(jù)集準備56-57
- 5.2.2 實驗評價標準57-58
- 5.2.3 實驗結(jié)果與分析58-61
- 5.3 基于標簽文字比例的網(wǎng)頁正文抽取61-64
- 5.3.1 實驗數(shù)據(jù)集準備61
- 5.3.2 實驗評價標準61
- 5.3.3 實驗結(jié)果與分析61-64
- 5.4 本章小結(jié)64-66
- 第6章 總結(jié)與展望66-68
- 6.1 總結(jié)66-67
- 6.2 展望67-68
- 參考文獻68-72
- 致謝72
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 史文崇;;鼠標定位即時顯隱導航欄的創(chuàng)建[J];河北科技師范學院學報;2006年02期
2 魯冬;;基于原子構(gòu)件的導航欄設(shè)計[J];計算技術(shù)與自動化;2010年04期
3 何麗萍;;淺談網(wǎng)頁導航欄設(shè)計的有效性[J];河南機電高等?茖W校學報;2009年01期
4 王怡;Web站點應(yīng)該包括的十項內(nèi)容(一)[J];網(wǎng)絡(luò)與信息;1999年01期
5 李太壽;盧昭彬;;基于原子構(gòu)件的導航欄設(shè)計[J];計算機時代;2013年06期
6 王志軍;;文檔隱私,一刪了之[J];電腦迷;2008年02期
7 王志軍;;不錯過新聞事件的最新動態(tài)[J];電腦迷;2011年22期
8 李云峰;;與世界杯同行[J];電腦愛好者(普及版);2006年07期
9 ;讓工作更簡單的網(wǎng)絡(luò)服務(wù)[J];電腦迷;2011年15期
10 劉劉;;輕松恢復Windows7系統(tǒng)導航欄目錄默認設(shè)置[J];網(wǎng)絡(luò)與信息;2012年06期
中國重要報紙全文數(shù)據(jù)庫 前5條
1 湖南 陳楚楚;創(chuàng)建導航欄[N];中國電腦教育報;2000年
2 ;另類超級鏈接[N];中國電腦教育報;2002年
3 7star;給導航欄蒙板遮蓋[N];中國電腦教育報;2002年
4 浙江 吳孝燕 陳潔;實現(xiàn)法庭多媒體示證[N];電腦報;2001年
5 山東 realrocking;清新“蘋果”的風格[N];電腦報;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 王朋朋;面向網(wǎng)頁內(nèi)容無障礙訪問的導航欄抽取與正文抽取[D];浙江大學;2015年
,本文編號:686302
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/686302.html