天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向特定領(lǐng)域的主題搜索系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-03-28 07:49

  本文選題:主題搜索 切入點(diǎn):網(wǎng)頁過濾 出處:《北京郵電大學(xué)》2012年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)信息量的爆炸式增長,網(wǎng)絡(luò)中出現(xiàn)了大量的垃圾信息以及重復(fù)信息。通用的搜索引擎已經(jīng)難以滿足用戶專業(yè)化、個(gè)性化的搜索需求,主題搜索應(yīng)運(yùn)而生。基于主題搜索的研究現(xiàn)狀,本文對面向特定領(lǐng)域的主題搜索系統(tǒng)進(jìn)行了深入的研究。 目前互聯(lián)網(wǎng)中有海量的政府企業(yè)的招標(biāo)/中標(biāo)信息,對于企業(yè)來說,及時(shí)地掌握國內(nèi)招標(biāo)信息意義重大,故本文將特定領(lǐng)域設(shè)為“招標(biāo)”領(lǐng)域,研究并實(shí)現(xiàn)面向招標(biāo)領(lǐng)域的主題搜索系統(tǒng)。論文主要研究工作和成果包括: 第一,提出了基于雙重特征選擇的網(wǎng)頁過濾方法。對CHI特征選擇算法進(jìn)行改進(jìn),提出了雙重特征選擇算法,并結(jié)合改進(jìn)的TF-IDF公式,使用SVM分類器進(jìn)行二元分類。實(shí)驗(yàn)表明,該方法具有更好的網(wǎng)頁過濾效果。 第二,提出了適用于招標(biāo)領(lǐng)域站點(diǎn)的增量搜集模型�;谡袠�(biāo)領(lǐng)域站點(diǎn)的七個(gè)特點(diǎn),從增量搜集的對象、增量搜集的方法以及增量搜集的時(shí)間三個(gè)方面對模型進(jìn)行闡述,并通過實(shí)驗(yàn)證明了該模型的有效性。 第三,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)面向招標(biāo)領(lǐng)域的主題搜索系統(tǒng)。本文具體對該系統(tǒng)的主題爬蟲模塊、網(wǎng)頁過濾模塊、網(wǎng)頁解析模塊、文本分類模塊以及增量搜集模塊進(jìn)行了詳細(xì)的設(shè)計(jì)與實(shí)現(xiàn),并達(dá)到了較好的運(yùn)行效果。 本文對面向招標(biāo)領(lǐng)域的主題搜索系統(tǒng)的研究,可以滿足政府企業(yè)對最新招標(biāo)/中標(biāo)信息的需求,具有重大的現(xiàn)實(shí)意義。
[Abstract]:With the explosive growth of Internet information, there is a lot of spam and repeated information in the network. The general search engine has been difficult to meet the specialized and personalized search needs of users. Topic search emerges as the times require. Based on the current research situation of topic search, this paper makes a deep research on the topic search system oriented to specific fields. At present, there is a huge amount of bidding / winning information of government enterprises on the Internet, which is of great significance for enterprises to grasp domestic bidding information in a timely manner. Therefore, this paper designates a specific field as a "bidding" field. Research and implementation of the subject search system in the field of bidding. The main research work and achievements include:. Firstly, a method of web page filtering based on double feature selection is proposed. The CHI feature selection algorithm is improved, and the dual feature selection algorithm is proposed. Combined with the improved TF-IDF formula, SVM classifier is used for binary classification. This method has better web filtering effect. Secondly, an incremental collection model suitable for bidding site is proposed. Based on the seven characteristics of bidding site, the model is described from three aspects: the object of incremental collection, the method of incremental collection and the time of incremental collection. The validity of the model is proved by experiments. Thirdly, we design and implement a subject search system oriented to the bidding field. In this paper, the theme crawler module, the web filtering module, the web page analysis module are introduced. The text classification module and the incremental collection module are designed and implemented in detail, and good results are achieved. In this paper, the research on the subject search system in the field of bidding can meet the needs of the government enterprises for the latest bidding / winning information, which is of great practical significance.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 祁文青;;一種改進(jìn)的中文分詞算法[J];黃石理工學(xué)院學(xué)報(bào);2007年04期

2 肖婷;唐雁;;改進(jìn)的χ~2統(tǒng)計(jì)文本特征選擇方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年14期

3 雷凱;王東海;;搜索引擎增量式搜集的實(shí)現(xiàn)與評測[J];計(jì)算機(jī)工程;2008年13期

4 李廣建;喬建忠;;全自動(dòng)生成網(wǎng)頁信息抽取包裝器的主要技術(shù)方法研究[J];情報(bào)理論與實(shí)踐;2010年01期

5 王夢云,曹素青;基于字頻向量的中文文本自動(dòng)分類系統(tǒng)[J];情報(bào)學(xué)報(bào);2000年06期

6 陳海龍;搜索引擎的評價(jià)標(biāo)準(zhǔn)及方法研究[J];情報(bào)雜志;2001年09期

7 周文帥;馮速;;漢語分詞技術(shù)研究現(xiàn)狀與應(yīng)用展望[J];山西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年01期

8 蘇貴洋,馬穎華,李建華;一種基于內(nèi)容的信息過濾改進(jìn)模型[J];上海交通大學(xué)學(xué)報(bào);2004年12期

9 張春霞,郝天永;漢語自動(dòng)分詞的研究現(xiàn)狀與困難[J];系統(tǒng)仿真學(xué)報(bào);2005年01期

10 孫文勝;;有線電視業(yè)務(wù)招標(biāo)指南[J];中國有線電視;2011年02期

相關(guān)博士學(xué)位論文 前2條

1 陳定權(quán);自動(dòng)主題搜索的應(yīng)用研究[D];中國科學(xué)院研究生院(文獻(xiàn)情報(bào)中心);2003年

2 李榮陸;文本分類及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2005年

相關(guān)碩士學(xué)位論文 前5條

1 張朝威;面向企業(yè)競爭情報(bào)的主題搜索研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

2 孫浩;基于主動(dòng)學(xué)習(xí)的文本過濾系統(tǒng)的研究[D];北京郵電大學(xué);2011年

3 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

4 劉沛e,

本文編號:1675430


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1675430.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶87bea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com