天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Web的異構(gòu)學(xué)術(shù)信息抽取與聚合方法研究

發(fā)布時間:2020-04-10 11:26
【摘要】:互聯(lián)網(wǎng)時代,海量網(wǎng)頁信息層出不窮,科技學(xué)術(shù)領(lǐng)域更是如此。每年有大量的學(xué)術(shù)期刊論文發(fā)表,也有很多學(xué)術(shù)人物信息在互聯(lián)網(wǎng)上公開。如果想了解某個學(xué)術(shù)期刊或?qū)W術(shù)人物,并不能輕松獲得,需要在互聯(lián)網(wǎng)上點擊一系列超鏈接才有可能找到。對于科研人員而言,能否快速獲得學(xué)術(shù)信息非常必要。在此背景下,本文研究了基于Web的異構(gòu)學(xué)術(shù)信息抽取與聚合方法,提出自動化的算法框架以幫助研究人員從互聯(lián)網(wǎng)大量的異構(gòu)網(wǎng)頁中迅速挖掘所需信息。本文的主要工作如下:1.針對基于web的學(xué)術(shù)期刊信息抽取與聚合問題,本文提出了C-HMM算法框架。該框架中的正文提取算法(Content Extraction)可提取網(wǎng)頁中的主要信息,實現(xiàn)了降噪的效果;隱馬爾可夫模型(HMM)可同時對多個網(wǎng)站進行抽取,相較于現(xiàn)有的啟發(fā)式算法提升了模型的泛化能力。C-HMM算法框架分為三個步驟:首先,通過爬蟲爬取期刊主頁;然后,對主頁信息進行預(yù)處理和正文提取;最后,利用HMM對期刊信息進行抽取與聚合。2.針對基于web的學(xué)術(shù)人物信息抽取與聚合問題,本文提出了F-HMM算法框架。該框架中的fastText算法可對網(wǎng)頁信息塊進行預(yù)標注,此算法解決了關(guān)鍵字詞典無法對人物多種信息塊預(yù)標注的問題;隱馬爾可夫模型(HMM)刻畫了信息塊的時序信息,提升了模型效果。F-HMM算法框架與C-HMM框架有以下三點不同:(1)采用SVM對學(xué)術(shù)人物主頁進行選擇,取代期刊主頁選擇時采用的關(guān)鍵詞匹配策略;(2)由于學(xué)術(shù)人物主頁結(jié)構(gòu)復(fù)雜,正文提取算法可能會過濾有用信息,因此舍棄;(3)采用fastText算法取代了原有的關(guān)鍵詞匹配方法,對信息塊進行預(yù)標注。3.上述兩個工作是吉林省重點科技研發(fā)項目“大數(shù)據(jù)和移動互聯(lián)時代的快速知識共享系統(tǒng)研究、開發(fā)與應(yīng)用”的重要組成部分。作者將上述工作以及論文、新聞和征稿信息的自動化爬蟲系統(tǒng)加入到《學(xué)術(shù)頭條》APP的開發(fā)中,方便了研究人員快速獲取學(xué)術(shù)信息。目前APP擁有7000多名用戶、400多萬篇論文、6000多種期刊以及670多萬個學(xué)術(shù)人物,實際測試結(jié)果表明,本文工作取得了良好的效果。
【圖文】:

隱馬爾可夫模型,半結(jié)構(gòu)化,移除,語音識別


圖 2.2 隱馬爾可夫模型M 被認為 是 處理語音識別 (Speech Recognition )POS)任務(wù)相對成功的模型。然而,對于半結(jié)構(gòu)化的網(wǎng)美。一般情況下,人們將移除了 HTML 標簽的網(wǎng)頁信

框架圖,框架圖,架構(gòu),科學(xué)家


圖 2.3 CBOW 和 Skip-gram 框架圖fastText 模型是 Facebook 的科學(xué)家 Tomas Mikolov 在 2016 年提出的模型,如圖 2所示,它的架構(gòu)和 Word2Vec 中的 CBOW 的架構(gòu)類似,,所以稱 fastText 是 words2ve所衍生的。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP391.1;TP393.092

【相似文獻】

相關(guān)期刊論文 前10條

1 羅丹;錢志剛;盧東兵;王輔之;;某校醫(yī)學(xué)研究生學(xué)術(shù)信息素養(yǎng)影響因素分析[J];濟寧醫(yī)學(xué)院學(xué)報;2016年03期

2 占南;;科研人員個人學(xué)術(shù)信息再現(xiàn)行為影響因素研究[J];情報資料工作;2016年05期

3 孫學(xué)軍;;讀文獻要重視非學(xué)術(shù)信息[J];科技導(dǎo)報;2014年36期

4 沈蕓;;微學(xué)術(shù)信息的采集、傳播與服務(wù)模式研究[J];圖書館工作與研究;2015年06期

5 ;《馬克思主義哲學(xué)研究》稿約[J];馬克思主義哲學(xué)研究;2016年02期

6 劉彩娥;;論研究生學(xué)術(shù)信息素養(yǎng)的培養(yǎng)與提高[J];大學(xué)圖書情報學(xué)刊;2014年05期

7 王禹;;圖書館網(wǎng)上免費學(xué)術(shù)信息資源的挖掘與建設(shè)[J];農(nóng)業(yè)圖書情報學(xué)刊;2012年09期

8 王卓;;從學(xué)術(shù)信息服務(wù)角度解析圖書館開架借閱的問題及相應(yīng)對策[J];科技情報開發(fā)與經(jīng)濟;2012年24期

9 姜曉曦;;學(xué)術(shù)信息素養(yǎng)在信息類型與獲取方式方面的變化分析[J];情報雜志;2011年09期

10 陳云梅;;網(wǎng)上免費學(xué)術(shù)信息資源的挖掘[J];農(nóng)業(yè)圖書情報學(xué)刊;2011年12期

相關(guān)會議論文 前9條

1 李海東;;淺析學(xué)術(shù)信息資源的共享與開放[A];信息時代的學(xué)術(shù)交流——中國科協(xié)第四屆學(xué)術(shù)交流理論研討會論文集[C];2009年

2 韓躍平;;信息技術(shù)在學(xué)術(shù)交流中的應(yīng)用研究[A];信息時代的學(xué)術(shù)交流——中國科協(xié)第四屆學(xué)術(shù)交流理論研討會論文集[C];2009年

3 王孝達;;再論學(xué)報學(xué)術(shù)信息系統(tǒng)[A];科技編輯出版研究文集(第五集)[C];1998年

4 Patrice Malard;;專注科學(xué),關(guān)愛母嬰,關(guān)注心理發(fā)展與早期教育[A];第十八屆全國心理學(xué)學(xué)術(shù)會議摘要集——心理學(xué)與社會發(fā)展[C];2015年

5 ;2005年主要工作情況[A];《圓明園》學(xué)刊第十七期——慶祝中國圓明園學(xué)會成立35周年特刊[C];2014年

6 肖兵;塔世根·加帕爾;;我國學(xué)術(shù)信息資源標準化建設(shè)的藍本——學(xué)習(xí)《中國學(xué)術(shù)期刊(光盤版)檢索與評價數(shù)據(jù)規(guī)范》[A];慶祝中華人民共和國成立50周年編輯學(xué)論文集[C];1999年

7 ;投稿須知[A];實證社會科學(xué)(第五卷)[C];2018年

8 李單丹;;淺析信息化環(huán)境下學(xué)術(shù)交流形式的變革[A];信息時代的學(xué)術(shù)交流——中國科協(xié)第四屆學(xué)術(shù)交流理論研討會論文集[C];2009年

9 俞祖華;;序[A];中國近現(xiàn)代史料專題研究[C];2011年

相關(guān)重要報紙文章 前10條

1 記者 孫海悅;深度解讀學(xué)術(shù)信息開放與共享[N];中國新聞出版廣電報;2018年

2 陳君;開創(chuàng)少數(shù)民族文字學(xué)術(shù)信息全文數(shù)據(jù)服務(wù)[N];科技日報;2007年

3 本報記者 楊光;用云計算技術(shù)構(gòu)建豐富的學(xué)術(shù)信息資源[N];中國信息化周報;2013年

4 陳玉梅 焦寶 社會科學(xué)戰(zhàn)線雜志社;提升傳播中華文化的能力[N];中國社會科學(xué)報;2015年

5 吉林省社會科學(xué)院《社會科學(xué)戰(zhàn)線》雜志社 焦寶 陳玉梅;大數(shù)據(jù)背景下的綜合性學(xué)術(shù)期刊[N];中國社會科學(xué)報;2016年

6 楊莉;怎樣幫助學(xué)生戒除“網(wǎng)”癮[N];銅仁日報;2007年

7 記者  李含;建設(shè)研究型、數(shù)字化的一流圖書館[N];新清華;2006年

8 中國科協(xié)副主席、中國工程院院士 胡啟恒;開放獲取是科學(xué)家的責(zé)任[N];光明日報;2005年

9 記者 周凡愷;CALIS三期項目建設(shè)在津啟動[N];天津日報;2010年

10 曾軍;有反饋才是真推廣[N];醫(yī)藥經(jīng)濟報;2013年

相關(guān)博士學(xué)位論文 前3條

1 葉磊;數(shù)字環(huán)境下學(xué)術(shù)信息生態(tài)系統(tǒng)健康研究[D];華中師范大學(xué);2017年

2 占南;科研人員個人學(xué)術(shù)信息管理行為研究[D];武漢大學(xué);2015年

3 杜暉;基于耦合關(guān)系的學(xué)術(shù)信息資源深度聚合研究[D];武漢大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 劉子玉;基于Web的異構(gòu)學(xué)術(shù)信息抽取與聚合方法研究[D];吉林大學(xué);2019年

2 陳夢鴿;河北省高校碩士研究生學(xué)術(shù)信息素養(yǎng)提升研究[D];河北經(jīng)貿(mào)大學(xué);2019年

3 楊林;基于微信的高校師生學(xué)術(shù)信息分享驅(qū)動因素研究[D];河北大學(xué);2019年

4 胡方丹;我國學(xué)術(shù)信息資源產(chǎn)業(yè)發(fā)展策略研究[D];南昌航空大學(xué);2017年

5 羅丹;醫(yī)學(xué)研究生學(xué)術(shù)信息素養(yǎng)評價體系研究[D];山東大學(xué);2015年

6 李淳;研究生學(xué)術(shù)信息查尋行為研究[D];南京航空航天大學(xué);2007年

7 宋敏霞;基于學(xué)術(shù)博客的圖書館學(xué)術(shù)信息服務(wù)研究[D];華中師范大學(xué);2011年

8 王振華;學(xué)術(shù)信息開放存取政策研究[D];黑龍江大學(xué);2009年

9 梁子棟;基于ISP模型的學(xué)生用戶學(xué)術(shù)信息查詢模式研究[D];南京大學(xué);2015年

10 李洋;網(wǎng)上學(xué)術(shù)信息質(zhì)量評價研究[D];吉林大學(xué);2010年



本文編號:2622168

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2622168.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4d0a6***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com