面向企業(yè)信息的Web聚焦搜索的設(shè)計與實現(xiàn)
本文選題:聚焦搜索 切入點:聚焦爬蟲 出處:《南京師范大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:從海量網(wǎng)絡(luò)資源中獲取企業(yè)基本信息,為企業(yè)的客戶關(guān)系管理、潛在競爭對手發(fā)現(xiàn)等提供信息支持,對于企業(yè)的生存和發(fā)展壯大具有重要意義。鑒于通用搜索引擎處理這類問題時存在的局限性,本文設(shè)計實現(xiàn)了面向企業(yè)信息的聚焦搜索來滿足此類需求。 Web中的企業(yè)信息頁面可以分為兩大類:企業(yè)信息以結(jié)構(gòu)化表格形式呈現(xiàn)的POI頁面、企業(yè)信息以非結(jié)構(gòu)化文本形式呈現(xiàn)的TOI頁面。兩類頁面結(jié)構(gòu)差異較大,聚焦搜索過程需分開進(jìn)行。聚焦爬蟲和信息抽取是實現(xiàn)聚焦搜索的兩個核心任務(wù),圍繞聚焦搜索的這兩個核心任務(wù),且面向企業(yè)信息的兩種不同表現(xiàn)形式,本文主要展開了如下幾個方面的研究工作: 1、面向POI的聚焦爬蟲,F(xiàn)有聚焦爬蟲研究多是面向主題的,對于面向POI的用戶需求目前還較缺乏相關(guān)研究。本文利用樸素貝葉斯與支持向量機等分類器模型,通過設(shè)計有效的特征模板,實現(xiàn)了面向POI的聚焦爬蟲。實驗結(jié)果表明利用爬蟲對面向POI的用戶需求進(jìn)行聚焦是可行的。 2、面向TOI的聚焦爬蟲,F(xiàn)有聚焦爬蟲在處理文本頁面時,大多直接對頁面內(nèi)的所有文本進(jìn)行處理,這就引入了較多的噪音內(nèi)容。本文采用改進(jìn)的頁面相關(guān)性分析算法,僅獲取與主題最相關(guān)的五塊文本,對不同塊賦予相應(yīng)的權(quán)重,利用分類模型方法判斷整體的相關(guān)性,實現(xiàn)了面向TOI的聚焦爬蟲。實驗也采用樸素貝葉斯和支持向量機分類模型,實驗結(jié)果與基于頁面全部文本實現(xiàn)的聚焦爬蟲Baseline系統(tǒng)相比,收獲率平均高出20%左右,最高差值可達(dá)51.35%,充分說明了改進(jìn)的頁面相關(guān)性算法是非常有效的。 3、企業(yè)信息抽取。以聚焦爬蟲獲取的相關(guān)網(wǎng)頁集為數(shù)據(jù)源,抽取POI域、TOI域內(nèi)的企業(yè)信息。POI域內(nèi)的企業(yè)信息布局規(guī)范,結(jié)構(gòu)規(guī)律性較強,因此僅采用包裝器方式對相對簡單的POI域進(jìn)行信息抽取。對于相對較復(fù)雜的TOI域內(nèi)的企業(yè)信息,本文采用統(tǒng)計學(xué)習(xí)模型將任務(wù)分解為兩步進(jìn)行抽。合扰袛嘁粋句子是否包含槽信息,然后判斷句中短語所屬的槽類別,根據(jù)句子和短語的聯(lián)合概率確定最終的槽填充內(nèi)容。實驗定義了8種企業(yè)屬性作為待填充槽,各類槽的平均F-measure達(dá)到93.8%,比基于規(guī)則方法實現(xiàn)的Baseline系統(tǒng)結(jié)果平均高出7.6%,充分顯示了算法的有效性。
[Abstract]:To obtain the basic information of the enterprise from the massive network resources, to provide the information support for the customer relationship management of the enterprise, the discovery of potential competitors, etc. In view of the limitations of general search engine in dealing with this kind of problems, this paper designs and implements focused search for enterprise information to meet this kind of requirements. The enterprise information pages in Web can be divided into two categories: the POI pages in which the enterprise information is presented in the form of structured tables, and the TOI pages in which the enterprise information is presented in the form of unstructured text. Focusing crawler and information extraction are the two core tasks of focusing search. The main work of this paper is as follows:. 1. Focus crawler for POI. Most of the existing focused crawler research is theme-oriented, but there is still a lack of relevant research on POI user requirements. In this paper, we use naive Bayes and support vector machine classifier model, and other classifier models, such as naive Bayes and support vector machine, are used in this paper. An effective feature template is designed to realize the POI oriented focused crawler. The experimental results show that it is feasible to use the crawler to focus the POI oriented user requirements. 2, focus crawler for TOI. Most of the existing focused crawlers directly process all the text in the page, which introduces more noise content. In this paper, the improved page correlation analysis algorithm is used. Only five pieces of text that are most relevant to the topic are obtained, the corresponding weights are given to the different blocks, and the whole correlation is judged by the classification model method, and the focused crawler oriented to TOI is realized. The experiment also uses naive Bayes and support vector machine classification models. Compared with the focused crawler Baseline system based on all page text, the experimental results show that the average harvest rate is about 20% and the maximum difference is 51.35, which fully shows that the improved page correlation algorithm is very effective. 3. Enterprise information extraction. Taking the relevant web page set obtained by focused crawler as data source, extracting enterprise information layout standard in POI domain and TOI domain, the structure is more regular. Therefore, only the wrapper is used to extract information from the relatively simple POI domain. For the enterprise information in the relatively complex TOI domain, In this paper, a statistical learning model is used to decompose the task into two steps: first to determine whether a sentence contains slot information, and then to determine the slot category of the phrase in the sentence. According to the joint probability of sentences and phrases, the final slot filling content is determined. Eight kinds of enterprise attributes are defined as the slots to be filled. The average F-measure of various grooves is 93.8, which is 7.6 times higher than the average result of the rule-based Baseline system, which fully shows the effectiveness of the algorithm.
【學(xué)位授予單位】:南京師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 葉碧云,劉青;基于Web技術(shù)的設(shè)備管理信息系統(tǒng)[J];洪都科技;2003年02期
2 何志勇 ,何紹榮;基于WEB的學(xué)生成績管理系統(tǒng)[J];自貢師范高等?茖W(xué)校學(xué)報;2003年04期
3 劉慶紅;基于Web的綜合教務(wù)管理信息系統(tǒng)的分析與設(shè)計[J];吉林省經(jīng)濟(jì)管理干部學(xué)院學(xué)報;2004年01期
4 賈志娟,胡明生;基于Web的答疑系統(tǒng)設(shè)計與實現(xiàn)[J];河南紡織高等專科學(xué)校學(xué)報;2004年03期
5 王斌,劉浙;基于Web的電力調(diào)度自動化系統(tǒng)的實現(xiàn)[J];計算機與現(xiàn)代化;2004年11期
6 尹健康,宋紅文,朱伏平,杜祥兵;基于Web的設(shè)備管理信息系統(tǒng)設(shè)計與研究[J];西南科技大學(xué)學(xué)報(自然科學(xué)版);2004年03期
7 盛志偉,劉仕筠,劉雙虎;基于Web的網(wǎng)絡(luò)考試系統(tǒng)的設(shè)計與實現(xiàn)[J];計算機與現(xiàn)代化;2005年07期
8 耿道武;Web服務(wù)提供銀行中間業(yè)務(wù)新形式[J];華南金融電腦;2005年08期
9 石建玲,印建平,葛敬霞,李紅彥;基于Web設(shè)備管理信息系統(tǒng)中設(shè)備分類編碼規(guī)則的研究[J];現(xiàn)代制造工程;2005年09期
10 尤超常;淺談WEB數(shù)據(jù)挖掘[J];中國科技信息;2005年04期
相關(guān)會議論文 前10條
1 黃海林;孫向陽;;基于Web的大學(xué)物理試題管理系統(tǒng)的設(shè)計[A];湖北省物理學(xué)會、武漢物理學(xué)會成立70周年慶典暨2002年學(xué)術(shù)年會論文集[C];2002年
2 于莉莉;張毅;;基于Web的人力資源管理系統(tǒng)研究與設(shè)計[A];2008全國制造業(yè)信息化標(biāo)準(zhǔn)化論壇論文集[C];2008年
3 李中華;;企業(yè)Web應(yīng)用安全威脅與防護(hù)[A];創(chuàng)新·融合·發(fā)展——創(chuàng)新型煤炭企業(yè)發(fā)展與信息化高峰論壇論文集[C];2010年
4 劉兵;何新林;張偉;吳東峰;何小蓮;;基于Web的奎屯河流域水庫調(diào)度自動化系統(tǒng)研究[A];第三屆全國水力學(xué)與水利信息學(xué)大會論文集[C];2007年
5 劉穎;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計與實現(xiàn)[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
6 張玉艷;黃國棟;馮文堂;侯金奎;;一種模型驅(qū)動的WEB報表系統(tǒng)開發(fā)方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李毅;顧健;顧鐵軍;;系統(tǒng)等級保護(hù)中的Web應(yīng)用安全評估[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
8 葉良;劉富強;鄧戈;趙忠;;基于WEB的數(shù)字視頻監(jiān)控系統(tǒng)開發(fā)[A];第十二屆全國煤礦自動化學(xué)術(shù)年會論文專輯[C];2002年
9 劉巖;閻欽運;張剛;;基于WEB的企業(yè)人力資源管理系統(tǒng)的研究與實現(xiàn)[A];第十七屆全國煤礦自動化學(xué)術(shù)年會、中國煤炭學(xué)會自動化專業(yè)委員會學(xué)術(shù)會議論文集[C];2007年
10 粟智;;基于Web技術(shù)下的分析實驗室計算機網(wǎng)絡(luò)管理系統(tǒng)的開發(fā)與設(shè)計[A];2003年藥物分析論壇“熱分析在藥物分析中的應(yīng)用”專題學(xué)術(shù)研討會論文集[C];2003年
相關(guān)重要報紙文章 前10條
1 本報記者 劉繼安;準(zhǔn)備好了嗎?WEB教師[N];中國教育報;2001年
2 張承東;Web智能考核廣告[N];網(wǎng)絡(luò)世界;2009年
3 科訊;WEB教師——一個全新職業(yè)的透析[N];科技日報;2001年
4 王雅麗;博客社區(qū)齊上陣 銀行借Web 2.0拉攏未來客戶[N];中國計算機報;2008年
5 本報記者 黃智軍;Web應(yīng)用呼喚新型安全系統(tǒng)[N];計算機世界;2009年
6 居易;WEB教師熱門起來[N];組織人事報;2001年
7 本報記者 趙曉濤;四問“Web防御與云安全”[N];網(wǎng)絡(luò)世界;2008年
8 本報記者 徐恒;手機瀏覽器:競爭不斷加劇 Web大勢所趨[N];中國電子報;2009年
9 電腦商報記者 張戈;Web應(yīng)用安全正當(dāng)時[N];電腦商報;2010年
10 李晨;Web應(yīng)用安全應(yīng)貫穿生命周期[N];人民郵電;2009年
相關(guān)博士學(xué)位論文 前10條
1 孫慧峰;基于協(xié)同過濾的個性化Web推薦[D];北京郵電大學(xué);2012年
2 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學(xué);2007年
3 張建武;面向Web應(yīng)用的安全評測技術(shù)研究[D];北京郵電大學(xué);2012年
4 龍慧云;基于進(jìn)程代數(shù)的Web服務(wù)數(shù)據(jù)和組合的形式化方法研究[D];貴州大學(xué);2009年
5 孫濤;面向市場情報分析的Web實體事件融合問題研究[D];山東大學(xué);2014年
6 謝琪;基于協(xié)同過濾與QoS的個性化Web服務(wù)推薦研究[D];重慶大學(xué);2012年
7 劉方方;Web服務(wù)合成與可用性的若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2007年
8 劉曉光;網(wǎng)絡(luò)化制造中Web服務(wù)自動組合的若干關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2008年
9 李杰;基于服務(wù)質(zhì)量的Web服務(wù)模型及應(yīng)用研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
10 許洪波;大規(guī)模信息過濾技術(shù)研究及其在Web問答系統(tǒng)中的應(yīng)用[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 曾確令;基于WEB挖掘的消費者細(xì)分及推薦應(yīng)用研究[D];吉林大學(xué);2009年
2 袁桂蘭;WEB分布式數(shù)據(jù)庫系統(tǒng)的研究與實現(xiàn)[D];中國人民解放軍信息工程大學(xué);2002年
3 李超俊;基于Web的客戶信息管理系統(tǒng)的開發(fā)[D];吉林大學(xué);2011年
4 焦威;面向Web應(yīng)用的構(gòu)件組裝系統(tǒng)研究與實現(xiàn)[D];西安理工大學(xué);2009年
5 李吉平;基于Web技術(shù)的森林資源信息管理系統(tǒng)研建[D];西北農(nóng)林科技大學(xué);2009年
6 白潔婷;基于Web的在線虛擬實驗室的研究[D];華中科技大學(xué);2009年
7 吳卉;基于Web的機械零件庫瀏覽系統(tǒng)的研發(fā)[D];南京航空航天大學(xué);2010年
8 田振強;基于Web的小麥信息管理系統(tǒng)的構(gòu)建[D];河南農(nóng)業(yè)大學(xué);2010年
9 張平;基于Web技術(shù)的壓鑄模具協(xié)同設(shè)計原理與應(yīng)用系統(tǒng)研究[D];四川大學(xué);2005年
10 謝春麗;基于數(shù)據(jù)挖掘的Web行為特征分析與研究[D];蘇州大學(xué);2003年
,本文編號:1593656
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1593656.html