基于半監(jiān)督結(jié)構(gòu)學(xué)習(xí)的網(wǎng)頁分割
本文選題:網(wǎng)頁分割 + 半監(jiān)督學(xué)習(xí); 參考:《南京大學(xué)》2017年碩士論文
【摘要】:網(wǎng)頁分割旨在按照人眼視覺感知網(wǎng)頁布局結(jié)構(gòu)的方式,將網(wǎng)頁劃分為不同類型的信息區(qū)、功能塊。現(xiàn)有的分割算法或采用啟發(fā)式規(guī)則判斷或構(gòu)建機(jī)器學(xué)習(xí)模型識別網(wǎng)頁區(qū)塊,啟發(fā)式規(guī)則多著眼于網(wǎng)頁的局部特征,并未對網(wǎng)頁的整體結(jié)構(gòu)進(jìn)行全面的分析,而基于監(jiān)督學(xué)習(xí)的網(wǎng)頁分割算法依賴于有標(biāo)記樣本的數(shù)量和質(zhì)量,在樣本較少的場景下難以取得較好的泛化性能。針對這些缺點(diǎn),本文提出了一種基于半監(jiān)督結(jié)構(gòu)學(xué)習(xí)的網(wǎng)頁分割方法,通過構(gòu)建網(wǎng)頁對應(yīng)的分割圖,將網(wǎng)頁分割任務(wù)轉(zhuǎn)化為分割圖上的標(biāo)記指派問題,利用0-1整數(shù)線性規(guī)劃在分割圖上求解最優(yōu)標(biāo)記分配策略,并通過協(xié)同結(jié)構(gòu)支持向量機(jī)模型學(xué)習(xí)得到網(wǎng)頁聯(lián)合特征表示的權(quán)重向量,進(jìn)而更好地解決網(wǎng)頁分割問題。本文的工作主要包括三個(gè)方面:1)綜述分析現(xiàn)有的網(wǎng)頁分割方法的優(yōu)勢與不足,針對多數(shù)算法著眼于局部未對網(wǎng)頁整體結(jié)構(gòu)進(jìn)行分析的情況,本文構(gòu)建網(wǎng)頁對應(yīng)的分割圖結(jié)構(gòu),圖中的頂點(diǎn)為網(wǎng)頁的虛擬分割邊,頂點(diǎn)之間的有向連接反映了分割邊的依賴關(guān)系,基于分割圖,將網(wǎng)頁分割任務(wù)轉(zhuǎn)化為分割圖上的標(biāo)記指派問題,建立結(jié)構(gòu)學(xué)習(xí)模型求解最優(yōu)解。2)針對結(jié)構(gòu)學(xué)習(xí)問題涉及的聯(lián)合特征表示、標(biāo)簽推理、參數(shù)學(xué)習(xí)三個(gè)方面,本文抽取了分割圖節(jié)點(diǎn)的局部特征、上下文特征兩類特征群,構(gòu)建分割圖與對應(yīng)標(biāo)記的聯(lián)合特征表示;將分割圖上的標(biāo)簽推理轉(zhuǎn)化為0-1整數(shù)線性規(guī)劃問題,通過求解其對應(yīng)的線性規(guī)劃松弛問題得到原問題的最優(yōu)解;提出協(xié)同結(jié)構(gòu)支持向量機(jī)算法,通過訓(xùn)練多個(gè)分歧的結(jié)構(gòu)支持向量機(jī)模型,利用多學(xué)習(xí)器集成的優(yōu)勢,共同決策得出最優(yōu)分割方案。3)在搜集的網(wǎng)頁分割數(shù)據(jù)集上,評估基于協(xié)同支持向量機(jī)的網(wǎng)頁分割方法與傳統(tǒng)的結(jié)構(gòu)支持向量機(jī)模型分割得到的網(wǎng)頁分割塊的準(zhǔn)確度,同時(shí)與現(xiàn)有的網(wǎng)頁分割算法做比較,實(shí)驗(yàn)表明:基于協(xié)同結(jié)構(gòu)支持向量機(jī)的網(wǎng)頁分割方法能很好地利用未標(biāo)注的網(wǎng)頁樣本,提升網(wǎng)頁分割算法性能,同時(shí),該方法也優(yōu)于其他對比的網(wǎng)頁分割方法。
[Abstract]:The purpose of web page segmentation is to divide web pages into different types of information regions and function blocks according to the way of human visual perception of web page layout structure. The existing segmentation algorithms use heuristic rules to judge or build machine learning models to identify web pages. Heuristic rules focus on the local features of web pages, and the overall structure of web pages is not comprehensively analyzed. However, the supervised learning algorithm depends on the quantity and quality of labeled samples, so it is difficult to achieve better generalization performance in the scenario with fewer samples. Aiming at these shortcomings, this paper proposes a semi-supervised structure learning method for web page segmentation. By constructing the corresponding segmentation graph, the task of web page segmentation is transformed into a label assignment problem on the segmentation graph. 0-1 integer linear programming is used to solve the optimal label allocation strategy on the partition graph, and the weight vector of the joint feature representation of the web page is obtained by using the cooperative structure support vector machine model, and the problem of web page segmentation is solved better. The work of this paper mainly includes three aspects: 1) summarizing and analyzing the advantages and disadvantages of the existing methods of web page segmentation. In view of the fact that most algorithms focus on the local failure to analyze the whole structure of the web page, this paper constructs the corresponding segmentation graph structure of the web page. The vertices in a graph are virtual segmentation edges of a web page, and the directed connection between vertices reflects the dependency of the segmentation edges. Based on the segmentation graph, the task of web page segmentation is transformed into a label assignment problem on the segmentation graph. In order to solve the problem of structural learning, two kinds of feature groups, namely joint feature representation, label reasoning and parameter learning, are extracted in this paper. The joint feature representation of the segmentation graph and the corresponding label is constructed, the label reasoning on the partition graph is transformed into 0-1 integer linear programming problem, and the optimal solution of the original problem is obtained by solving the corresponding linear programming relaxation problem. A collaborative structure support vector machine (CSCVM) algorithm is proposed. By training several different structural support vector machine (SVM) models and making use of the advantages of multi-Learner integration, the optimal segmentation scheme. 3) is obtained on the collected web page segmentation data set. The accuracy of the web page segmentation method based on cooperative support vector machine (CSVM) and the traditional structural support vector machine (SVM) model is evaluated. At the same time, it is compared with the existing web page segmentation algorithms. The experimental results show that the method of web page segmentation based on cooperative structure support vector machine can make good use of unlabeled web page samples and improve the performance of page segmentation algorithm. At the same time, this method is better than other compared methods.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 賈海洋;陳娟;劉大有;;貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)搜索空間分析[J];計(jì)算機(jī)工程與科學(xué);2010年09期
2 王雙成;林士敏;陸玉昌;;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)分析[J];計(jì)算機(jī)科學(xué);2000年10期
3 高曉光;肖秦琨;;非平穩(wěn)隨機(jī)系統(tǒng)動態(tài)貝葉斯結(jié)構(gòu)學(xué)習(xí)關(guān)系網(wǎng)[J];航空學(xué)報(bào);2007年06期
4 冀俊忠;張鴻勛;胡仁兵;劉椿年;;基于禁忌搜索的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)算法[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年08期
5 周本達(dá);田旭;;基于遺傳算法和強(qiáng)化學(xué)習(xí)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法[J];微型機(jī)與應(yīng)用;2007年S1期
6 張少中,王秀坤;基于約束最大信息熵的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法[J];小型微型計(jì)算機(jī)系統(tǒng);2005年06期
7 馬壯,楊善林,胡小建;貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)的研究現(xiàn)狀及發(fā)展趨勢[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年08期
8 程澤凱;秦鋒;徐浩;;TANC-BIC結(jié)構(gòu)學(xué)習(xí)算法的改進(jìn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年05期
9 肖秦琨;高曉光;高嵩;王海蕓;;DBN結(jié)構(gòu)學(xué)習(xí)度量分解性能分析[J];系統(tǒng)工程與電子技術(shù);2009年04期
10 郭文強(qiáng);高曉光;任佳;;分段平穩(wěn)變結(jié)構(gòu)DBN模型區(qū)域內(nèi)的結(jié)構(gòu)學(xué)習(xí)[J];系統(tǒng)工程與電子技術(shù);2012年04期
相關(guān)會議論文 前3條
1 鄧志東;張秀葦;;具有結(jié)構(gòu)學(xué)習(xí)的神經(jīng)模糊推理模型及其在fRNA基因預(yù)測中的應(yīng)用[A];2005年中國智能自動化會議論文集[C];2005年
2 劉向南;王浩;姚宏亮;;一種基于x~2測試的貪婪搜索結(jié)構(gòu)學(xué)習(xí)算法[A];2011中國儀器儀表與測控技術(shù)大會論文集[C];2011年
3 程澤凱;泰鋒;;貝葉斯網(wǎng)絡(luò)分類器結(jié)構(gòu)學(xué)習(xí):基于啟發(fā)式的G2算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
相關(guān)博士學(xué)位論文 前4條
1 曹杰;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)與應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2017年
2 張韜政;結(jié)構(gòu)學(xué)習(xí)中的輔助問題研究[D];北京郵電大學(xué);2011年
3 雷菊陽;復(fù)雜環(huán)境下動態(tài)系統(tǒng)結(jié)構(gòu)學(xué)習(xí)[D];上海交通大學(xué);2009年
4 李剛;知識發(fā)現(xiàn)的圖模型方法[D];中國科學(xué)院軟件研究所;2001年
相關(guān)碩士學(xué)位論文 前10條
1 趙夢夢;同調(diào)結(jié)構(gòu)學(xué)習(xí)算法及其應(yīng)用研究[D];蘇州大學(xué);2015年
2 許晴;基于Finsler幾何的結(jié)構(gòu)學(xué)習(xí)算法研究[D];蘇州大學(xué);2015年
3 劉培娜;基于非負(fù)編碼和SPNs結(jié)構(gòu)學(xué)習(xí)的圖像分類算法研究[D];哈爾濱工業(yè)大學(xué);2015年
4 張順;不完全數(shù)據(jù)圖模型的結(jié)構(gòu)學(xué)習(xí)[D];山東師范大學(xué);2016年
5 李國梁;貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的混合優(yōu)化方法研究[D];西北工業(yè)大學(xué);2015年
6 李碩豪;基于圖分塊的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)研究[D];國防科學(xué)技術(shù)大學(xué);2014年
7 馮瀚洋;基于半監(jiān)督結(jié)構(gòu)學(xué)習(xí)的網(wǎng)頁分割[D];南京大學(xué);2017年
8 曾杰鵬;基于繼承的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法研究與應(yīng)用[D];華南理工大學(xué);2012年
9 胡仁兵;動態(tài)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的研究[D];北京工業(yè)大學(xué);2009年
10 張鴻勛;基于K2評分的貝葉斯網(wǎng)結(jié)構(gòu)學(xué)習(xí)算法的研究[D];北京工業(yè)大學(xué);2009年
,本文編號:1797787
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1797787.html