基于LDA主題模型的圖書網(wǎng)頁書目信息提取研究
本文關(guān)鍵詞:基于LDA主題模型的圖書網(wǎng)頁書目信息提取研究
更多相關(guān)文章: 圖書網(wǎng)頁 書目信息 LDA 信息提取
【摘要】:以圖書網(wǎng)頁為對象,主要研究書目信息提取方法。該方法首先利用LDA對書名與各描述性段落組合的混合文本進行建模,然后分別計算書名與各段落之間的相似度提取書目信息,有效地避免傳統(tǒng)方法不能很好反映文檔間相似性的不足。實驗證明,該模型針對圖書網(wǎng)頁書目信息的提取準確率達到87.4%,較傳統(tǒng)方法有了顯著提高,同時也為圖書網(wǎng)頁信息組織管理和自動分類研究奠定了基礎(chǔ)。
【作者單位】: 武漢大學(xué)信息管理學(xué)院;武漢大學(xué)信息資源研究中心;
【關(guān)鍵詞】: 圖書網(wǎng)頁 書目信息 LDA 信息提取
【基金】:湖北省高校圖工委基金項目(2012YB02)
【分類號】:TP393.092;G254
【正文快照】: 1引言Web頁面采用HTML語言設(shè)計,網(wǎng)頁內(nèi)包含各種網(wǎng)頁標簽,同普通文本相比,其表現(xiàn)力更強;但是,許多有用信息通常被大量噪聲所包圍,如導(dǎo)航欄、鏈接、廣告、版權(quán)聲明等。因此,網(wǎng)頁文檔在豐富人們信息來源的同時,也給人們獲得有用信息帶來了極大的困難。面對浩瀚的網(wǎng)絡(luò)信息資源,如
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡凌云;胡桂蘭;徐勇;李龍澍;;基于Web的新聞文本分類技術(shù)的研究[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2010年06期
2 張惠君;李娟;;基于OPAC的館藏評價方法探究[J];圖書與情報;2010年04期
3 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期
4 陳蕾蕾;張如靜;;面向Web的新聞網(wǎng)頁正文信息抽取策略研究[J];電腦知識與技術(shù);2008年S2期
5 夏天;;基于擴展標記樹的網(wǎng)頁正文抽取[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2011年01期
6 薛永大;;網(wǎng)頁分類技術(shù)研究綜述[J];電腦知識與技術(shù);2012年25期
7 李文;鄭邦習(xí);鄧武;;基于XML和DOM技術(shù)的Web信息抽取模型[J];大連交通大學(xué)學(xué)報;2013年03期
8 陳天;黃敏;;Web信息抽取中的數(shù)據(jù)交叉定位[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2008年05期
9 彭濤;孟宇;左萬利;王英;胡亮;;主題爬行中的隧道穿越技術(shù)[J];計算機研究與發(fā)展;2010年04期
10 邱江濤;唐常杰;李川;朱軍;;基于塊分布的新聞網(wǎng)頁內(nèi)容提取[J];吉林大學(xué)學(xué)報(工學(xué)版);2009年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 張友華;面向智能服務(wù)的Web內(nèi)容計算研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2006年
2 高琰;基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究[D];中南大學(xué);2007年
3 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學(xué);2007年
4 車海燕;面向中文自然語言Web文檔的自動知識抽取和知識融合[D];吉林大學(xué);2008年
5 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
6 王欣;WEB應(yīng)用系統(tǒng)安全檢測關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2011年
7 趙旭劍;中文新聞話題動態(tài)演化及其關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2012年
8 孫妮;B2C購物網(wǎng)站商品評價的效應(yīng)研究[D];對外經(jīng)濟貿(mào)易大學(xué);2014年
9 劉洋;基于信息場的信息影響力評估方法及在引文分析中的應(yīng)用[D];上海大學(xué);2014年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 雷斌;基于Java技術(shù)的智能化搜索引擎的研究與設(shè)計[D];哈爾濱工程大學(xué);2010年
2 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學(xué);2010年
3 楊芹;基于最大熵模型的中文網(wǎng)頁分類器設(shè)計和實現(xiàn)[D];蘇州大學(xué);2010年
4 范春曉;基于XML的Web信息抽取技術(shù)研究[D];沈陽理工大學(xué);2010年
5 付濤;藏文網(wǎng)頁除噪技術(shù)研究[D];西北民族大學(xué);2010年
6 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
7 徐艷艷;本體技術(shù)在協(xié)同學(xué)習(xí)交互信息處理中的應(yīng)用研究[D];山東師范大學(xué);2011年
8 李雷;基于Nutch的農(nóng)業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學(xué);2011年
9 杜佳倫;面向用戶體驗需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年
10 王偉;基于網(wǎng)絡(luò)信息的熱點事件發(fā)現(xiàn)與分析研究[D];華東師范大學(xué);2011年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期
10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學(xué)院學(xué)報(自然科學(xué));2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應(yīng)用研究[A];2006年中國機械工程學(xué)會年會暨中國工程院機械與運載工程學(xué)部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W,
本文編號:778917
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/778917.html