天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題的數(shù)據(jù)API檢索平臺關鍵技術的研究與實現(xiàn)

發(fā)布時間:2018-03-17 16:41

  本文選題:互聯(lián)網(wǎng)文檔數(shù)據(jù) 切入點:數(shù)據(jù)API 出處:《浙江大學》2017年碩士論文 論文類型:學位論文


【摘要】:在當前的互聯(lián)網(wǎng)時代,存在著數(shù)據(jù)增長迅速,然而信息龐雜,用戶想要從海量數(shù)據(jù)中搜索有用的信息費時費力的問題。用戶需要的是更詳細、細分的信息,針對這種情況,本文提出了一種基于主題的數(shù)據(jù)API檢索平臺。本文設計的分布式、可擴展的基于主題的數(shù)據(jù)API檢索平臺,首先將海量的互聯(lián)網(wǎng)信息采集到子系統(tǒng)中,然后對數(shù)據(jù)進行分類,對每一類的數(shù)據(jù)通過檢索的方式提供給用戶,用戶通過選取自己感興趣的信息來消費平臺中的數(shù)據(jù)。為了提供這樣一個數(shù)據(jù)API檢索平臺,首先是能夠?qū)⒋罅康木W(wǎng)頁抓取下來,并且需要此功能支持水平擴展和穩(wěn)定性。此外為了減少人工成本,又能有效的提取網(wǎng)頁中的信息,本文提出了半自動化的基于模板的網(wǎng)頁信息提取方法。面對海量的互聯(lián)網(wǎng)文檔數(shù)據(jù),需要提供一種合理的方式對數(shù)據(jù)進行分類,以便用戶有針對性的選擇對自己有用的數(shù)據(jù)。為此,本文設計了基于主題的數(shù)據(jù)分類和檢索系統(tǒng)。通過基于LDA主題模型來推斷文檔中的主題分布,然后根據(jù)主題分布建立相應的API主題和相應的API-Key?紤]到API主題及對應的API-Key數(shù)據(jù)量很大,所以需要對這些API主題提供檢索方式,通過基于相似度的方式來對檢索出來的API主題進行排序,最后將API主題及其對應的結(jié)果數(shù)據(jù)集返回給用戶。本平臺提供多方面的數(shù)據(jù),通過簡單的API接口提供給用戶,不論是科研還是商業(yè)用戶,都可以消費該平臺中的數(shù)據(jù)。最后通過實驗分析,證明本平臺具有一定的科研和商業(yè)價值。
[Abstract]:In the current era of the Internet, there is a rapid growth of data, but the quantity of information, the user wants to search data from the mass of useful information and time-consuming problem. Users need more detailed information, segmentation, in view of this situation, this paper proposes a retrieval platform theme data based on API. This paper designed the distributed, scalable data retrieval platform based on the API theme, the massive Internet information collection subsystem, and then classify the data provided to the user for each type of data through the retrieval, user consumption platform using the data in the selected information of interest to them. In order to provide such a API data retrieval platform, the first is to a large number of web crawling down, and this supports horizontal expansion and stability. In order to reduce labor costs, but also can effectively. Take the information in the web page, proposed web information extraction method based on template semi automation. The face of the Internet document data, the need to provide a reasonable way to classify the data, so that users targeted selection of useful data on their own. Therefore, this paper designs the data classification and retrieval based on based on the LDA system. Through the topic model to infer the topic distribution of the document, and then establish the corresponding distribution according to the theme of API themes and corresponding API-Key. considering the amount of data and the corresponding API-Key API theme is very big, so need to provide the retrieval of these API theme, through the similarity based method to sort the retrieved API theme finally, the API theme and the corresponding results are returned to the user. The data set provides many data of the platform, available to the user through a simple API interface, Whether it is scientific or business users, the platform can consume data. Finally, through experimental analysis, it proved that this platform has a certain scientific and commercial value.

【學位授予單位】:浙江大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.3

【相似文獻】

相關期刊論文 前10條

1 高俊波;安博文;王曉峰;;在線論壇中潛在影響力主題的發(fā)現(xiàn)研究[J];計算機應用;2008年01期

2 吳玲達,謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計算機應用研究;2005年05期

3 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設計與實現(xiàn)[J];計算機工程與應用;2005年31期

4 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學學報(自然科學版);2012年08期

5 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計算機信息;2010年27期

6 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設計[J];指揮信息系統(tǒng)與技術;2013年04期

7 關慧芬;師軍;;基于本體的主題爬蟲技術研究[J];計算機仿真;2009年10期

8 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期

9 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期

10 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術;2008年12期

相關會議論文 前6條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學術會議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

相關博士學位論文 前5條

1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學;2014年

2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學;2013年

3 吳永輝;面向?qū)I(yè)領域的網(wǎng)絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年

4 薛利;面向證券應用的WEB主題觀點挖掘若干關鍵問題研究[D];復旦大學;2013年

5 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應用[D];浙江大學;2017年

相關碩士學位論文 前10條

1 解琰;主題優(yōu)化過濾方法研究與應用[D];大連海事大學;2015年

2 楊春艷;基于語義和引用加權(quán)的文獻主題提取研究[D];浙江大學;2015年

3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學;2014年

4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學;2015年

5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學;2015年

6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實現(xiàn)[D];陜西師范大學;2015年

7 韓琳;基于貝葉斯主題爬蟲的研究與實現(xiàn)[D];北京工業(yè)大學;2015年

8 黎楠;面向?qū)@闹黝}挖掘技術研究及應用[D];北京工業(yè)大學;2015年

9 劉學江;超大規(guī)模社交網(wǎng)絡中基于結(jié)構(gòu)與主題的社團挖掘[D];電子科技大學;2015年

10 黃文強;安卓技術信息的主題爬蟲技術研究與實現(xiàn)[D];東南大學;2015年

,

本文編號:1625603

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1625603.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶554df***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com