專業(yè)信息定向采集與多維搜索系統(tǒng)
本文選題:分布式爬蟲 + 信息抽取; 參考:《浙江大學(xué)》2017年碩士論文
【摘要】:決策依靠經(jīng)驗(yàn)、直覺和邏輯驅(qū)動,但大數(shù)據(jù)時代以來,特別對專業(yè)領(lǐng)域來講,決策越來越依靠數(shù)據(jù)驅(qū)動;ヂ(lián)網(wǎng)上存在大量領(lǐng)域相關(guān)文本信息,這些信息多以新聞報道、博客、社區(qū)門戶等形式存在。多維搜索是一種基于排序與分類的搜索技術(shù),如何將這些技術(shù)應(yīng)用到互聯(lián)網(wǎng)專業(yè)領(lǐng)域數(shù)據(jù)是一個非常復(fù)雜的流程,涉及內(nèi)容從如何從互聯(lián)網(wǎng)采集信息、保證HTML文本質(zhì)量到自然語言處理與多維搜索技術(shù)等。本文結(jié)合分布式定向爬蟲、數(shù)據(jù)清洗、文本分析、多維搜索等技術(shù),構(gòu)建了一個面向?qū)I(yè)領(lǐng)域的互聯(lián)網(wǎng)定向數(shù)據(jù)采集與多維搜索系統(tǒng)。本文基于一個實(shí)際的應(yīng)用例子,聚焦于實(shí)現(xiàn)一個簡單易用且可擴(kuò)展的系統(tǒng)用于專業(yè)領(lǐng)域的互聯(lián)網(wǎng)文本分析。本文主要工作包括:1)基于專業(yè)領(lǐng)域互聯(lián)網(wǎng)數(shù)據(jù)采集需求,構(gòu)建了一個分布式定向爬蟲。與全文抓取不同,分布式定向爬蟲要求從互聯(lián)網(wǎng)快速抓取深層次、精確化的結(jié)構(gòu)化數(shù)據(jù);2)構(gòu)建信息抽取通道,用于清洗加工分布式爬蟲采集下來的數(shù)據(jù)。步驟主要包括去除網(wǎng)頁噪音、進(jìn)行內(nèi)容查重、丟棄無關(guān)專業(yè)領(lǐng)域數(shù)據(jù)、文本分詞與實(shí)體抽取;3)為使系統(tǒng)更具備交互性,系統(tǒng)提供對采集數(shù)據(jù)的多維檢索服務(wù)。在數(shù)據(jù)加工的基礎(chǔ)上,根據(jù)專業(yè)領(lǐng)域概念體系,提供多維搜索以輔助全文檢索服務(wù);
[Abstract]:Decision-making is driven by experience, intuition and logic, but since big data's time, especially in the professional field, decision-making has been more and more data-driven. There are a large number of related text information on the Internet, mostly in the form of news reports, blogs, community portals and so on. Multidimensional search is a kind of search technology based on sorting and classification. How to apply these technologies to the data of Internet professional domain is a very complicated process, which involves how to collect information from the Internet. Ensure HTML text quality to natural language processing and multidimensional search technology. Based on distributed directional crawler, data cleaning, text analysis, multidimensional search and other technologies, an Internet oriented data acquisition and multidimensional search system for professional field is constructed in this paper. Based on a practical application example, this paper focuses on the implementation of a simple and extensible system for Internet text analysis in specialized fields. The main work of this paper includes: (1) A distributed oriented crawler is constructed based on the requirement of Internet data acquisition in professional domain. Different from full-text crawling, distributed directional crawlers need to quickly capture deep and accurate structured data from the Internet and construct information extraction channels for cleaning and processing the data collected by distributed crawlers. The steps mainly include removing the noise of the web page, checking the content, discarding the irrelevant domain data, extracting the text word and entity 3) in order to make the system more interactive, the system provides the multi-dimensional retrieval service to the collected data. On the basis of data processing, according to the concept system of professional domain, multi-dimensional search is provided to assist the full-text retrieval service.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 呂宜男;;計(jì)算機(jī)輔助搜索系統(tǒng)[J];機(jī)械與電子;1991年05期
2 楊春賀,白煜煒,宋永梅;超媒體搜索系統(tǒng)的實(shí)現(xiàn)方案[J];網(wǎng)絡(luò)與信息;2000年07期
3 張戩慧;王洪斌;;獸藥類科技文獻(xiàn)信息搜索系統(tǒng)的構(gòu)建研究[J];情報探索;2009年09期
4 莫倩;張傳想;;互聯(lián)網(wǎng)科技專家搜索系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年05期
5 張鐘華;基于單片微計(jì)算機(jī)的新型核磁共振信號鎖定及搜索系統(tǒng)[J];計(jì)量學(xué)報;1988年04期
6 董飚,莊衛(wèi)華;新聞搜索系統(tǒng)的研究[J];烏魯木齊職業(yè)大學(xué)學(xué)報;2003年01期
7 程傳鵬;王天志;;一種自反饋式元搜索系統(tǒng)的設(shè)計(jì)[J];中原工學(xué)院學(xué)報;2011年04期
8 金傳升;;Racal公司向亞太地區(qū)出售COMINT/DF系統(tǒng)[J];通信技術(shù);1992年04期
9 劉山根;;硬盤搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];軟件導(dǎo)刊;2013年12期
10 陳灶芳 ,黃國濤;用于互聯(lián)網(wǎng)信息搜索系統(tǒng)的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)與實(shí)現(xiàn)[J];廣東科技;2005年01期
相關(guān)會議論文 前7條
1 李燕軍;;淺談互聯(lián)網(wǎng)信息搜索系統(tǒng)的應(yīng)用[A];第十九次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2004年
2 劉雷;呂英華;楊文翰;;一種新型的漏泄電磁波搜索系統(tǒng)[A];電波科學(xué)學(xué)報[C];2011年
3 張雪;劉正捷;陳軍亮;江彩華;;招聘網(wǎng)搜索系統(tǒng)的可用性研究[A];第二屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國人機(jī)交互學(xué)術(shù)會議(CHCI'06)論文集[C];2006年
4 趙一雷;徐真昊;;多分子構(gòu)象搜索系統(tǒng)構(gòu)建及應(yīng)用[A];中國化學(xué)會第28屆學(xué)術(shù)年會第13分會場摘要集[C];2012年
5 戰(zhàn)曉蘇;林宗楷;李正國;蘇忠;張少華;;基于MAS的信息資源協(xié)同搜索系統(tǒng)的系統(tǒng)結(jié)構(gòu)[A];中國圖象圖形學(xué)會第十屆全國圖像圖形學(xué)術(shù)會議(CIG’2001)和第一屆全國虛擬現(xiàn)實(shí)技術(shù)研討會(CVR’2001)論文集[C];2001年
6 陸慧娟;唐文彬;程倬;王訓(xùn)斌;;基于WebGIS的散車配貨和位置服務(wù)公共搜索系統(tǒng)[A];第四屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會議論文集[C];2008年
7 張永華;洪鋒;李明祿;薛廣濤;;個性化的P2P內(nèi)容搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會議論文集(三)[C];2006年
相關(guān)重要報紙文章 前3條
1 黃寰;地震救助生命搜索系統(tǒng)誕生[N];中國礦業(yè)報;2004年
2 特約記者 李積軒;美研制新型掃雷系統(tǒng)[N];中國船舶報;2002年
3 李彬彬;藍(lán)帆、網(wǎng)擎攜手打造一流搜索引擎[N];中國商報;2000年
相關(guān)碩士學(xué)位論文 前10條
1 呂佳;基于Elastic Search的分布式日志搜索系統(tǒng)設(shè)計(jì)[D];復(fù)旦大學(xué);2013年
2 高玉民;基于solr的搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2015年
3 劉佳奇;酒店訂購平臺搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2016年
4 賴友強(qiáng);應(yīng)用于戶外的無人機(jī)應(yīng)急搜索系統(tǒng)研究[D];西京學(xué)院;2016年
5 陳芊芊;基于solr搜索引擎的在線問答搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2015年
6 周鑫;基于文本的手機(jī)視頻搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
7 仲維東;E-Learning課程資源存儲搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2016年
8 吳夢瀟;基于HADOOP的分布式云平臺搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2016年
9 張鋒;支持布爾查詢的桌面搜索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];天津工業(yè)大學(xué);2017年
10 白福裕;專業(yè)信息定向采集與多維搜索系統(tǒng)[D];浙江大學(xué);2017年
,本文編號:1783978
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1783978.html