天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

基于時間序列的學科熱點主題預測

發(fā)布時間:2020-05-27 17:16
【摘要】:在特定學科研究領域中,從科技文獻中快速和正確地識別研究熱點主題是了解該學科研究領域發(fā)展狀況的重要手段,也是推動科技政策制定的重要環(huán)節(jié)。本文采用Relim算法從“動物遺傳與育種”領域文獻中識別出研究熱點主題,并采用了四種機器學習算法對研究熱點主題進行預測,發(fā)現(xiàn)集成后的預測模型對時間序列預測效果較好,選擇提前兩步的預測效果最好。實驗結果表明熱點主題預測有助于了解未來一段時間內的研究熱點主題狀況。本文的主要研究工作:(1)基于Relim算法的研究熱點主題識別。主要通過對若干個識別主題算法的對比研究,在前人研究基礎上確定將Relim算法作為識別主題的核心算法,實現(xiàn)了從動物遺傳與育種領域的科技文獻中對研究熱點主題的自動挖掘。本文從實驗數(shù)據(jù)中共挖掘了“animal”、“association”、“behavior”、“animal_association_behavior”、“breed”等283個熱點主題。為了去除冗余的數(shù)據(jù),對研究熱點主題進行精簡,精簡后為“animal_association_behavior”和“breed”等250個熱點主題。將2000-2017年精簡的主題的頻數(shù)按年份順序排列得到時間序列。(2)基于機器學習算法對熱點主題的演變趨勢預測。本文采用了線性回歸、支持向量機、徑向基函數(shù)回歸、徑向基函數(shù)神經網絡四種機器學習算法,對單個主題“breed”進行預測。對比發(fā)現(xiàn)對于同一時間序列,由于不同算法彼此間的多樣化或獨立性的本質,導致四個單個預測模型的均方誤差、均方根誤差、平均絕對誤差值之間存在著巨大的差異。通過將單個預測模型的預測值進行綜合加權(集成預測)作為對熱點主題演變趨勢的預測模型。在集成預測模型中,將性能表現(xiàn)不好的預測模型與性能較好的預測模型進行加權組合,最終可以得到性能更加穩(wěn)定的集成預測模型。通過對主題“weight body”提前五步的預測實驗,發(fā)現(xiàn)提前2步的預測方案是最優(yōu)的。最后,利用集成預測模型對主題“ability”、“acid”、“activation”進行提前2步的預測。主題“ability”在2017年之后,主題的頻數(shù)有下降的趨勢;主題“acid”在2017年到2018年頻數(shù)有下降的趨勢,但是2019年,主題的頻數(shù)有所回升;主題“activation”在2017年之后主題的頻數(shù)保持平穩(wěn)的狀態(tài)。實驗結果表明,該方法能夠較為準確地從動物遺傳與育種領域的文獻集合中預測該領域熱點主題,特別是對未來2年的熱點主題預測具有較好的預測結果。該方法也同樣適合基于科技文獻的其他學科或領域的熱點主題預測,幫助用戶快速了解未來一段時間內的研究熱點主題狀況。
【圖文】:

技術路線圖,技術路線,學科,熱點


圖 1.1 學科熱點主題的預測的技術路線Figure 1.1 the technical roadmap of subject hot topic forecastin測的技術路線主要包括以下幾個方面:建:從 Web of Science 數(shù)據(jù)庫中采集數(shù)據(jù),主要包括處理:利用自然語言處理技術對數(shù)據(jù)集作預處理,自停用詞,詞性標注,刪除動詞、代詞、連詞,保留的建立:對每個文檔建立二進制矩陣,每個句子由一其中向量的大小就是詞匯表的大;利用頻繁項數(shù)據(jù)集算法 Relim 發(fā)現(xiàn)主題,并對主題進陣的建立:每個主題由一個向量表示,其中向量的關聯(lián)性分析;測:使用集合預測模型來預測研究主題的未來趨勢。結構體安排如下:

趨勢圖,科技文獻,發(fā)文量,趨勢


圖 3.2 動物遺傳與育種領域的科技文獻的發(fā)文趨勢Figure 3.2 the scientific and technical literature trend in the field of animal genetics and breeding從圖 3.2 可以看出動物遺傳與育種領域的科技文獻的發(fā)文趨勢的具體變化為:發(fā)文量最多的是 2016 年,發(fā)文量為 6787 篇;發(fā)文量最少的是 2001 年,發(fā)文量為 2587 篇。從年發(fā)文量的發(fā)展趨勢來看,除 2007 年發(fā)文量驟升,2000-2007 年發(fā)文量處于緩慢上升狀態(tài),表明動物遺傳與育種領域的主題的研究熱度處于緩慢上升趨勢;除了 2015 年發(fā)文量驟降之外,其他年份的發(fā)文量總體處于一種波浪形且整體屬于上升的狀態(tài)。3.2 二進制矩陣的表示預處理階段的主要目的是將每個句子轉換為事務,通過提取所有關鍵字來創(chuàng)建二進制向量矩陣。對于每個文檔,以句子為維度,句子向量中有關鍵字的位置都標為 1,而沒有的關鍵字的位置被標記為 0,所有的事務向量可以被表示為一個二元二進制矩陣。圖 3.3 表示的是文檔轉換為事務,,再將事務轉換為二元二進制向量矩陣的過程。摘要和標題在句子層面上分別都使用了自然語言處理的方法進行規(guī)范化,然后轉化為向量空間中的向量,其中,句子中的關鍵字是維度。對每個句子形成二元二進制關聯(lián)矩陣,在進行主題挖掘的過程中使
【學位授予單位】:中國農業(yè)科學院
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP181;G254

【相似文獻】

相關期刊論文 前10條

1 畢凌燕;王騰宇;左文明;;基于概率模型的微博熱點主題識別實證研究[J];情報理論與實踐;2014年02期

2 谷志軍;;當代西方問責研究:理論框架、熱點主題及其啟示[J];中國行政管理;2017年07期

3 程肖;陸蓓;諶志群;;熱點主題詞提取方法研究[J];現(xiàn)代圖書情報技術;2010年10期

4 郝曉玲;黃蕾;戴志宏;李艷紅;;基于經濟論壇數(shù)據(jù)的熱點主題挖掘研究[J];情報科學;2016年05期

5 陸蓓;程肖;諶志群;;基于改進蟻群聚類的熱點主題發(fā)現(xiàn)算法研究[J];現(xiàn)代圖書情報技術;2010年04期

6 陳國權;黃振威;;地方政府創(chuàng)新研究的熱點主題與理論前瞻[J];浙江大學學報(人文社會科學版)預印本;2010年06期

7 趙智興;段鑫星;;“雙一流”建設研究的熱點主題與前沿窺探[J];廣西社會科學;2019年03期

8 武強;邰楊芳;賀培鳳;;國內信息行為研究的熱點主題分析[J];中華醫(yī)學圖書情報雜志;2017年08期

9 丁晟春;王楠;吳靚嬋媛;;基于關鍵詞共現(xiàn)和社區(qū)發(fā)現(xiàn)的微博熱點主題識別研究[J];現(xiàn)代情報;2018年03期

10 凌健;毛笛;;國際學科建設領域的熱點主題和研究前沿探析[J];教育評論;2018年09期

相關會議論文 前2條

1 賀謙;肖輝;孔萍;;基于共詞聚類的國內DRGs研究熱點探析[A];2017年中國衛(wèi)生統(tǒng)計學學術年會論文集[C];2017年

2 張東軍;王斌;;體育組織文化研究現(xiàn)狀與展望[A];第8屆全國運動心理學學術會議論文匯編[C];2006年

相關重要報紙文章 前10條

1 記者 陳健;政策利好有望催生熱點主題[N];上海金融報;2017年

2 本報記者 張煥昀;機構看好熱點主題績優(yōu)股[N];中國證券報;2017年

3 本報見習記者 張穎曉;改革催生投資機會 華夏領先聚焦熱點主題[N];證券日報;2015年

4 日信證券 楊震宇;圍繞熱點主題謹慎做多[N];中國證券報;2009年

5 金百臨咨詢 秦洪;震蕩筑底中把握兩大熱點主題[N];證券時報;2011年

6 中國航空工業(yè)發(fā)展研究中心助理研究員 劉亞威;未來飛機制造的幾個熱點主題[N];中國航空報;2013年

7 民族證券 黃博;國企改革或成下半年熱點主題[N];上海證券報;2016年

8 申銀萬國 金澤斐;零售業(yè)增速雖快 但趨勢依然向下[N];上海證券報;2008年

9 劉一潔;畫面美和文字美缺一不可[N];中國新聞出版廣電報;2018年

10 記者 傅春榮;眾籌產業(yè)9月“首秀”投洽會[N];中華工商時報;2015年

相關博士學位論文 前1條

1 安璐;基于自組織映射的期刊主題研究[D];武漢大學;2009年

相關碩士學位論文 前10條

1 聶秀萍;基于時間序列的學科熱點主題預測[D];中國農業(yè)科學院;2019年

2 尚笑可;近十年來漢語國際教育研究的熱點主題與研究前沿[D];遼寧師范大學;2018年

3 張景;基于CBOW-LDA主題模型的Stack Overflow網站熱點主題發(fā)現(xiàn)研究[D];武漢大學;2018年

4 方志超;基于多元數(shù)據(jù)對象的科學計量學熱點主題識別研究[D];大連理工大學;2017年

5 吳靚嬋媛;基于社區(qū)發(fā)現(xiàn)的網絡輿情熱點主題識別研究[D];南京理工大學;2017年

6 張舒;基于信息抽取技術的博客知識發(fā)現(xiàn)研究[D];揚州大學;2007年

7 朱紅艷;國內公共圖書館法人治理結構知識圖譜構建與分析[D];安徽大學;2016年

8 馬明;肺癌治療研究的熱點主題及其演化軌跡分析[D];中國協(xié)和醫(yī)科大學;2009年

9 王晶;基于社交媒體的熱點主題挖掘及主題演化分析[D];西南大學;2016年

10 蔣玉桃;熱點主題的探測系統(tǒng)研究及技術實現(xiàn)[D];電子科技大學;2015年



本文編號:2683868

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2683868.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶d2216***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com