面向企業(yè)信息的Web聚焦搜索的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2018-03-10 14:03

本文選題：聚焦搜索　切入點(diǎn)：聚焦爬蟲　出處：《南京師范大學(xué)》2013年碩士論文　論文類型：學(xué)位論文

【摘要】：從海量網(wǎng)絡(luò)資源中獲取企業(yè)基本信息,為企業(yè)的客戶關(guān)系管理、潛在競(jìng)爭(zhēng)對(duì)手發(fā)現(xiàn)等提供信息支持,對(duì)于企業(yè)的生存和發(fā)展壯大具有重要意義。鑒于通用搜索引擎處理這類問題時(shí)存在的局限性,本文設(shè)計(jì)實(shí)現(xiàn)了面向企業(yè)信息的聚焦搜索來滿足此類需求。 Web中的企業(yè)信息頁面可以分為兩大類：企業(yè)信息以結(jié)構(gòu)化表格形式呈現(xiàn)的POI頁面、企業(yè)信息以非結(jié)構(gòu)化文本形式呈現(xiàn)的TOI頁面。兩類頁面結(jié)構(gòu)差異較大,聚焦搜索過程需分開進(jìn)行。聚焦爬蟲和信息抽取是實(shí)現(xiàn)聚焦搜索的兩個(gè)核心任務(wù),圍繞聚焦搜索的這兩個(gè)核心任務(wù),且面向企業(yè)信息的兩種不同表現(xiàn)形式,本文主要展開了如下幾個(gè)方面的研究工作： 1、面向POI的聚焦爬蟲�，F(xiàn)有聚焦爬蟲研究多是面向主題的,對(duì)于面向POI的用戶需求目前還較缺乏相關(guān)研究。本文利用樸素貝葉斯與支持向量機(jī)等分類器模型,通過設(shè)計(jì)有效的特征模板,實(shí)現(xiàn)了面向POI的聚焦爬蟲。實(shí)驗(yàn)結(jié)果表明利用爬蟲對(duì)面向POI的用戶需求進(jìn)行聚焦是可行的。 2、面向TOI的聚焦爬蟲�，F(xiàn)有聚焦爬蟲在處理文本頁面時(shí),大多直接對(duì)頁面內(nèi)的所有文本進(jìn)行處理,這就引入了較多的噪音內(nèi)容。本文采用改進(jìn)的頁面相關(guān)性分析算法,僅獲取與主題最相關(guān)的五塊文本,對(duì)不同塊賦予相應(yīng)的權(quán)重,利用分類模型方法判斷整體的相關(guān)性,實(shí)現(xiàn)了面向TOI的聚焦爬蟲。實(shí)驗(yàn)也采用樸素貝葉斯和支持向量機(jī)分類模型,實(shí)驗(yàn)結(jié)果與基于頁面全部文本實(shí)現(xiàn)的聚焦爬蟲Baseline系統(tǒng)相比,收獲率平均高出20%左右,最高差值可達(dá)51.35%,充分說明了改進(jìn)的頁面相關(guān)性算法是非常有效的。 3、企業(yè)信息抽取。以聚焦爬蟲獲取的相關(guān)網(wǎng)頁集為數(shù)據(jù)源,抽取POI域、TOI域內(nèi)的企業(yè)信息。POI域內(nèi)的企業(yè)信息布局規(guī)范,結(jié)構(gòu)規(guī)律性較強(qiáng),因此僅采用包裝器方式對(duì)相對(duì)簡(jiǎn)單的POI域進(jìn)行信息抽取。對(duì)于相對(duì)較復(fù)雜的TOI域內(nèi)的企業(yè)信息,本文采用統(tǒng)計(jì)學(xué)習(xí)模型將任務(wù)分解為兩步進(jìn)行抽�。合扰袛嘁粋€(gè)句子是否包含槽信息,然后判斷句中短語所屬的槽類別,根據(jù)句子和短語的聯(lián)合概率確定最終的槽填充內(nèi)容。實(shí)驗(yàn)定義了8種企業(yè)屬性作為待填充槽,各類槽的平均F-measure達(dá)到93.8%,比基于規(guī)則方法實(shí)現(xiàn)的Baseline系統(tǒng)結(jié)果平均高出7.6%,充分顯示了算法的有效性。
[Abstract]:To obtain the basic information of the enterprise from the massive network resources, to provide the information support for the customer relationship management of the enterprise, the discovery of potential competitors, etc. In view of the limitations of general search engine in dealing with this kind of problems, this paper designs and implements focused search for enterprise information to meet this kind of requirements. The enterprise information pages in Web can be divided into two categories: the POI pages in which the enterprise information is presented in the form of structured tables, and the TOI pages in which the enterprise information is presented in the form of unstructured text. Focusing crawler and information extraction are the two core tasks of focusing search. The main work of this paper is as follows:. 1. Focus crawler for POI. Most of the existing focused crawler research is theme-oriented, but there is still a lack of relevant research on POI user requirements. In this paper, we use naive Bayes and support vector machine classifier model, and other classifier models, such as naive Bayes and support vector machine, are used in this paper. An effective feature template is designed to realize the POI oriented focused crawler. The experimental results show that it is feasible to use the crawler to focus the POI oriented user requirements. 2, focus crawler for TOI. Most of the existing focused crawlers directly process all the text in the page, which introduces more noise content. In this paper, the improved page correlation analysis algorithm is used. Only five pieces of text that are most relevant to the topic are obtained, the corresponding weights are given to the different blocks, and the whole correlation is judged by the classification model method, and the focused crawler oriented to TOI is realized. The experiment also uses naive Bayes and support vector machine classification models. Compared with the focused crawler Baseline system based on all page text, the experimental results show that the average harvest rate is about 20% and the maximum difference is 51.35, which fully shows that the improved page correlation algorithm is very effective. 3. Enterprise information extraction. Taking the relevant web page set obtained by focused crawler as data source, extracting enterprise information layout standard in POI domain and TOI domain, the structure is more regular. Therefore, only the wrapper is used to extract information from the relatively simple POI domain. For the enterprise information in the relatively complex TOI domain, In this paper, a statistical learning model is used to decompose the task into two steps: first to determine whether a sentence contains slot information, and then to determine the slot category of the phrase in the sentence. According to the joint probability of sentences and phrases, the final slot filling content is determined. Eight kinds of enterprise attributes are defined as the slots to be filled. The average F-measure of various grooves is 93.8, which is 7.6 times higher than the average result of the rule-based Baseline system, which fully shows the effectiveness of the algorithm.
【學(xué)位授予單位】：南京師范大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2013
【分類號(hào)】：TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 葉碧云,劉青;基于Web技術(shù)的設(shè)備管理信息系統(tǒng)[J];洪都科技;2003年02期

2 何志勇 ,何紹榮;基于WEB的學(xué)生成績(jī)管理系統(tǒng)[J];自貢師范高等�？茖W(xué)校學(xué)報(bào);2003年04期

3 劉慶紅;基于Web的綜合教務(wù)管理信息系統(tǒng)的分析與設(shè)計(jì)[J];吉林省經(jīng)濟(jì)管理干部學(xué)院學(xué)報(bào);2004年01期

4 賈志娟,胡明生;基于Web的答疑系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];河南紡織高等�？茖W(xué)校學(xué)報(bào);2004年03期

5 王斌,劉浙;基于Web的電力調(diào)度自動(dòng)化系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2004年11期

6 尹健康,宋紅文,朱伏平,杜祥兵;基于Web的設(shè)備管理信息系統(tǒng)設(shè)計(jì)與研究[J];西南科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年03期

7 盛志偉,劉仕筠,劉雙虎;基于Web的網(wǎng)絡(luò)考試系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2005年07期

8 耿道武;Web服務(wù)提供銀行中間業(yè)務(wù)新形式[J];華南金融電腦;2005年08期

9 石建玲,印建平,葛敬霞,李紅彥;基于Web設(shè)備管理信息系統(tǒng)中設(shè)備分類編碼規(guī)則的研究[J];現(xiàn)代制造工程;2005年09期

10 尤超常;淺談WEB數(shù)據(jù)挖掘[J];中國科技信息;2005年04期

相關(guān)會(huì)議論文前10條

1 黃海林;孫向陽;;基于Web的大學(xué)物理試題管理系統(tǒng)的設(shè)計(jì)[A];湖北省物理學(xué)會(huì)、武漢物理學(xué)會(huì)成立70周年慶典暨2002年學(xué)術(shù)年會(huì)論文集[C];2002年

2 于莉莉;張毅;;基于Web的人力資源管理系統(tǒng)研究與設(shè)計(jì)[A];2008全國制造業(yè)信息化標(biāo)準(zhǔn)化論壇論文集[C];2008年

3 李中華;;企業(yè)Web應(yīng)用安全威脅與防護(hù)[A];創(chuàng)新·融合·發(fā)展——?jiǎng)?chuàng)新型煤炭企業(yè)發(fā)展與信息化高峰論壇論文集[C];2010年

4 劉兵;何新林;張偉;吳東峰;何小蓮;;基于Web的奎屯河流域水庫調(diào)度自動(dòng)化系統(tǒng)研究[A];第三屆全國水力學(xué)與水利信息學(xué)大會(huì)論文集[C];2007年

5 劉穎;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年

6 張玉艷;黃國棟;馮文堂;侯金奎;;一種模型驅(qū)動(dòng)的WEB報(bào)表系統(tǒng)開發(fā)方法[A];第二十七屆中國控制會(huì)議論文集[C];2008年

7 李毅;顧健;顧鐵軍;;系統(tǒng)等級(jí)保護(hù)中的Web應(yīng)用安全評(píng)估[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集（第二十四卷）[C];2009年

8 葉良;劉富強(qiáng);鄧戈;趙忠;;基于WEB的數(shù)字視頻監(jiān)控系統(tǒng)開發(fā)[A];第十二屆全國煤礦自動(dòng)化學(xué)術(shù)年會(huì)論文專輯[C];2002年

9 劉巖;閻欽運(yùn);張剛;;基于WEB的企業(yè)人力資源管理系統(tǒng)的研究與實(shí)現(xiàn)[A];第十七屆全國煤礦自動(dòng)化學(xué)術(shù)年會(huì)、中國煤炭學(xué)會(huì)自動(dòng)化專業(yè)委員會(huì)學(xué)術(shù)會(huì)議論文集[C];2007年

10 粟智;;基于Web技術(shù)下的分析實(shí)驗(yàn)室計(jì)算機(jī)網(wǎng)絡(luò)管理系統(tǒng)的開發(fā)與設(shè)計(jì)[A];2003年藥物分析論壇“熱分析在藥物分析中的應(yīng)用”專題學(xué)術(shù)研討會(huì)論文集[C];2003年

相關(guān)重要報(bào)紙文章前10條

1 本報(bào)記者劉繼安;準(zhǔn)備好了嗎？WEB教師[N];中國教育報(bào);2001年

2 張承東;Web智能考核廣告[N];網(wǎng)絡(luò)世界;2009年

3 科訊;WEB教師——一個(gè)全新職業(yè)的透析[N];科技日?qǐng)?bào);2001年

4 王雅麗;博客社區(qū)齊上陣銀行借Web 2.0拉攏未來客戶[N];中國計(jì)算機(jī)報(bào);2008年

5 本報(bào)記者黃智軍;Web應(yīng)用呼喚新型安全系統(tǒng)[N];計(jì)算機(jī)世界;2009年

6 居易;WEB教師熱門起來[N];組織人事報(bào);2001年

7 本報(bào)記者趙曉濤;四問“Web防御與云安全”[N];網(wǎng)絡(luò)世界;2008年

8 本報(bào)記者徐恒;手機(jī)瀏覽器：競(jìng)爭(zhēng)不斷加劇 Web大勢(shì)所趨[N];中國電子報(bào);2009年

9 電腦商報(bào)記者張戈;Web應(yīng)用安全正當(dāng)時(shí)[N];電腦商報(bào);2010年

10 李晨;Web應(yīng)用安全應(yīng)貫穿生命周期[N];人民郵電;2009年

相關(guān)博士學(xué)位論文前10條

1 孫慧峰;基于協(xié)同過濾的個(gè)性化Web推薦[D];北京郵電大學(xué);2012年

2 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學(xué);2007年

3 張建武;面向Web應(yīng)用的安全評(píng)測(cè)技術(shù)研究[D];北京郵電大學(xué);2012年

4 龍慧云;基于進(jìn)程代數(shù)的Web服務(wù)數(shù)據(jù)和組合的形式化方法研究[D];貴州大學(xué);2009年

5 孫濤;面向市場(chǎng)情報(bào)分析的Web實(shí)體事件融合問題研究[D];山東大學(xué);2014年

6 謝琪;基于協(xié)同過濾與QoS的個(gè)性化Web服務(wù)推薦研究[D];重慶大學(xué);2012年

7 劉方方;Web服務(wù)合成與可用性的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2007年

8 劉曉光;網(wǎng)絡(luò)化制造中Web服務(wù)自動(dòng)組合的若干關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2008年

9 李杰;基于服務(wù)質(zhì)量的Web服務(wù)模型及應(yīng)用研究[D];中國科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2005年

10 許洪波;大規(guī)模信息過濾技術(shù)研究及其在Web問答系統(tǒng)中的應(yīng)用[D];中國科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2003年

相關(guān)碩士學(xué)位論文前10條

1 曾確令;基于WEB挖掘的消費(fèi)者細(xì)分及推薦應(yīng)用研究[D];吉林大學(xué);2009年

2 袁桂蘭;WEB分布式數(shù)據(jù)庫系統(tǒng)的研究與實(shí)現(xiàn)[D];中國人民解放軍信息工程大學(xué);2002年

3 李超俊;基于Web的客戶信息管理系統(tǒng)的開發(fā)[D];吉林大學(xué);2011年

4 焦威;面向Web應(yīng)用的構(gòu)件組裝系統(tǒng)研究與實(shí)現(xiàn)[D];西安理工大學(xué);2009年

5 李吉平;基于Web技術(shù)的森林資源信息管理系統(tǒng)研建[D];西北農(nóng)林科技大學(xué);2009年

6 白潔婷;基于Web的在線虛擬實(shí)驗(yàn)室的研究[D];華中科技大學(xué);2009年

7 吳卉;基于Web的機(jī)械零件庫瀏覽系統(tǒng)的研發(fā)[D];南京航空航天大學(xué);2010年

8 田振強(qiáng);基于Web的小麥信息管理系統(tǒng)的構(gòu)建[D];河南農(nóng)業(yè)大學(xué);2010年

9 張平;基于Web技術(shù)的壓鑄模具協(xié)同設(shè)計(jì)原理與應(yīng)用系統(tǒng)研究[D];四川大學(xué);2005年

10 謝春麗;基于數(shù)據(jù)挖掘的Web行為特征分析與研究[D];蘇州大學(xué);2003年

，

本文編號(hào)：1593656

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1593656.html

上一篇：近7年合作數(shù)字參考咨詢研究的國內(nèi)外文獻(xiàn)定量分析
下一篇：基于索引屬性改進(jìn)的OPIC算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向企業(yè)信息的Web聚焦搜索的設(shè)計(jì)與實(shí)現(xiàn)