結合主動學習的多記錄網(wǎng)頁屬性抽取方法
本文關鍵詞:結合主動學習的多記錄網(wǎng)頁屬性抽取方法,由筆耕文化傳播整理發(fā)布。
【摘要】:屬性抽取可分為對齊和語義標注兩個過程,現(xiàn)有對齊方法中部分含有相同標簽不同語義的屬性會錯分到同一個組,而且為了提高語義標注的精度,通常需要大量的人工標注訓練集.為此,文中提出結合主動學習的多記錄網(wǎng)頁屬性抽取方法.針對屬性錯分問題,引入屬性的淺層語義,減少相同標簽語義不一致的影響.在語義標注階段,基于網(wǎng)頁的文本、視覺和全局特征,采用基于主動學習的SVM分類方法獲得帶有語義的結構化數(shù)據(jù).同時在主動學習的策略選擇方面,通過引入樣本整體信息,構建基于不確定性度量的策略,選擇語義分類預測不準的樣本進行標注.實驗表明,在論壇、微博等多個數(shù)據(jù)集上,相比現(xiàn)有方法,文中方法抽取效果更好.
【作者單位】: 福州大學物理與信息工程學院;福建江夏學院電子信息科學學院;福州大學數(shù)學與計算機科學學院;福州大學福建省網(wǎng)絡計算與智能信息處理重點實驗室;
【關鍵詞】: 屬性抽取 語義分類 主動學習
【基金】:國家自然科學基金青年基金項目(No.61300105) 教育部博士點基金聯(lián)合項目(No.2012351410010) 福建省科技重大專項項目(No.2013H6012) 福州市科技計劃項目(No.2013-PT-45,2012-G-113)資助~~
【分類號】:TP391.1;TP393.092
【正文快照】: Supported by Young Scientists Found of National Natural Science Foundation of China(No.61300105),Joint Ph.D.Programs Foun-dation of Ministry of Education of China(No.2012351410010),Key Project of Science and Technology of Fujian Province(No.2013H6012),Pr
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 呂英杰;葉強;李一軍;;模糊綜合評判理論在網(wǎng)頁自動分類中的應用[J];計算機工程;2007年15期
2 張俊英;胡俠;卜佳俊;;網(wǎng)頁文本信息自動提取技術綜述[J];計算機應用研究;2009年08期
3 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁正文信息抽取新方法[J];大連理工大學學報;2009年04期
4 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計算機工程與應用;2009年25期
5 周序生;李爽;;網(wǎng)頁自動分類的建模與仿真研究[J];計算機仿真;2011年10期
6 張小娣;宋余慶;;基于網(wǎng)頁正文邏輯段落和長句提取的網(wǎng)頁去重算法[J];圖書情報研究;2012年02期
7 周楊;;基于關鍵長句及正文長度預分類的網(wǎng)頁去重算法研究[J];軟件導刊;2012年10期
8 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計算機應用;2008年S2期
9 劉娟;趙曉楠;;網(wǎng)頁主題相關性判別的聚焦爬蟲系統(tǒng)的設計與實現(xiàn)[J];計算機與現(xiàn)代化;2012年10期
10 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁主題文本抽取[J];廣西師范大學學報(自然科學版);2009年01期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
2 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
3 劉菁菁;林鴻飛;;基于結構和鏈接擴展的中文網(wǎng)頁分類研究[A];2007年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2007年
4 張志強;梁婷婷;謝曉芹;;一種基于用戶標記的搜索結果排序算法[A];第26屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2009年
5 朱春江;陸宇e,
本文編號:492375
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/492375.html