基于Web的企業(yè)信息獲取技術(shù)的研究與應(yīng)用
本文選題:企業(yè)信息 + 模式抽取; 參考:《沈陽航空航天大學(xué)》2014年碩士論文
【摘要】:互聯(lián)網(wǎng)包含了豐富的信息資源,成為了企業(yè)獲取信息的主要途徑。然而由于互聯(lián)網(wǎng)上的海量信息,如何從海量信息中找到企業(yè)所需要的信息仍為一個難題。因此,基于Web的企業(yè)信息獲取技術(shù)成為目前研究的熱點。 本文從企業(yè)的產(chǎn)品出發(fā),基于Web發(fā)現(xiàn)產(chǎn)品的生產(chǎn)企業(yè),找到企業(yè)的首頁。企業(yè)首頁上含有大量的有關(guān)企業(yè)的產(chǎn)品介紹、企業(yè)榮譽、發(fā)展目標(biāo)等信息,獲得了企業(yè)首頁就可以全面地、及時地獲取企業(yè)信息。 本文主要工作如下: 首先,針對企業(yè)名稱的命名特點,本文提出了基于LCS的企業(yè)名模式抽取算法。本文首先根據(jù)已知的企業(yè)信息建立索引,實現(xiàn)給定產(chǎn)品名檢索出相應(yīng)的生產(chǎn)企業(yè),然后基于LCS算法提取企業(yè)名稱的最長公共子序列,最后根據(jù)最長公共子序列和企業(yè)名稱相匹配的方法抽取出企業(yè)名模式。實驗結(jié)果表明,該方法可以有效的抽取出企業(yè)名模式作為查詢擴(kuò)展的擴(kuò)展詞集。 其次,本文采用了基于貝葉斯的信息過濾方法。該方法將基于搜索引擎搜索到的網(wǎng)頁利用貝葉斯分類器過濾后,獲取企業(yè)的首頁,將非企業(yè)首頁過濾掉。在分類器選擇特征時,本文提出了基于網(wǎng)頁鏈接塊的導(dǎo)航條錨文本抽取方法,根據(jù)網(wǎng)頁鏈接間字符的間距來識別網(wǎng)頁塊,,抽取平均長度為3-5個字且數(shù)量在兩個以上的錨文本,將這些錨文本作為特征詞。本文選取了機械類、電力電氣類、建筑建材類、材料類等產(chǎn)品做實驗,實驗結(jié)果表明,該方法取得了較好的效果。
[Abstract]:The Internet contains abundant information resources and becomes the main way for enterprises to obtain information. However, due to the huge amount of information on the Internet, how to find the information needed by enterprises from the mass information is still a difficult problem. Therefore, the technology of enterprise information acquisition based on Web has become a hot topic. This article from the enterprise's product, based on the Web discovery product production enterprise, finds the enterprise home page. The first page of the enterprise contains a lot of information about the product introduction, honor and development goal of the enterprise, so that the first page of the enterprise can obtain the information of the enterprise comprehensively and in time. The main work of this paper is as follows: Firstly, according to the naming characteristics of enterprise name, this paper proposes an algorithm of enterprise name pattern extraction based on LCS. In this paper, first of all, the index is built according to the known enterprise information, and the corresponding manufacturing enterprise is retrieved by the given product name, and then the longest common sub-sequence of the enterprise name is extracted based on the LCS algorithm. Finally, the enterprise name pattern is extracted by matching the longest common subsequence with the enterprise name. The experimental results show that this method can extract the enterprise name schema effectively as the extended word set of query. Secondly, the information filtering method based on Bayes is adopted in this paper. In this method, the web pages searched by search engine are filtered by Bayesian classifier, then the first page of the enterprise is obtained, and the non-enterprise homepage is filtered out. When the classifier selects features, this paper proposes a navigation bar anchor text extraction method based on the web link block, which can identify the web page block according to the distance between the characters of the page link, and extract the anchor text with an average length of 3-5 words and more than two words. These anchor texts are used as feature words. In this paper, mechanical, electric, building building materials and other products are selected for experiments. The experimental results show that the method has achieved good results.
【學(xué)位授予單位】:沈陽航空航天大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092;TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 林國俊;葉飛躍;耿冬;鄭國良;;基于語義的概念查詢擴(kuò)展[J];計算機工程與設(shè)計;2009年06期
2 鞏玉璽;王大玲;;一種改進(jìn)的基于偽相關(guān)反饋的查詢擴(kuò)展[J];微計算機信息;2009年15期
3 黃名選;張師超;嚴(yán)小衛(wèi);;基于查詢行為和關(guān)聯(lián)規(guī)則的相關(guān)反饋查詢擴(kuò)展[J];計算機工程;2009年10期
4 張超盟;李戰(zhàn)懷;溫宗臣;;局部上下文分析剪枝概念樹的查詢擴(kuò)展[J];計算機工程;2009年14期
5 羅小聰;;基于專用雙語詞典的查詢擴(kuò)展[J];現(xiàn)代計算機(專業(yè)版);2009年10期
6 李衛(wèi)疆;趙鐵軍;王憲剛;;基于上下文的查詢擴(kuò)展[J];計算機研究與發(fā)展;2010年02期
7 黃明初;鐘威;何擁軍;蒙斌;;數(shù)字檔案檢索的查詢擴(kuò)展方法[J];廣西科學(xué)院學(xué)報;2010年04期
8 王旭陽;蕭波;;基于本體和局部上下文分析的查詢擴(kuò)展方法[J];計算機工程;2012年07期
9 朱鯤鵬;魏芳;;基于用戶日志挖掘的查詢擴(kuò)展方法[J];計算機應(yīng)用與軟件;2012年06期
10 曹均闊;吳麗華;;一種基于依賴關(guān)系的綜合查詢擴(kuò)展方法[J];計算機與數(shù)字工程;2012年11期
相關(guān)會議論文 前10條
1 黃明初;鐘威;何擁軍;蒙斌;;基于查詢擴(kuò)展的數(shù)字檔案檢索策略[A];廣西計算機學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
2 呂碧波;趙軍;;基于相關(guān)文檔池建模的查詢擴(kuò)展[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
3 林建方;李生;鄭德權(quán);;基于詞語搭配關(guān)系的查詢擴(kuò)展方法[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
4 張志強;孟慶海;謝曉芹;;個性化的社會標(biāo)簽查詢擴(kuò)展技術(shù)研究[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集A輯二[C];2010年
5 丁國棟;白碩;王斌;;一種基于局部共現(xiàn)的查詢擴(kuò)展方法[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
6 李東園;白宇;蔡東風(fēng);;基于用戶日志分析的查詢擴(kuò)展研究[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
7 王秉卿;張奇;吳立德;黃萱菁;;機器學(xué)習(xí)的查詢擴(kuò)展在博客檢索中的應(yīng)用[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
8 王秉卿;黃萱菁;;基于線性模型的查詢擴(kuò)展方法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
9 晉松;林鴻飛;蘇綏;;基于標(biāo)簽共現(xiàn)的查詢擴(kuò)展研究[A];中國計算機語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
10 郭文;史曉東;陳毅東;;跨語言信息檢索中的查詢擴(kuò)展[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
相關(guān)重要報紙文章 前2條
1 鐘威 何擁軍;數(shù)字檔案信息擴(kuò)展查詢功能需求分析及實現(xiàn)方式[N];中國檔案報;2011年
2 瀟然;擴(kuò)展名信息全攻略[N];中國電腦教育報;2005年
相關(guān)博士學(xué)位論文 前2條
1 仲兆滿;事件本體及其在查詢擴(kuò)展中的應(yīng)用[D];上海大學(xué);2011年
2 王俊義;正負(fù)相關(guān)反饋與查詢擴(kuò)展技術(shù)的研究[D];內(nèi)蒙古大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 姚小同;查詢擴(kuò)展技術(shù)研究[D];北京郵電大學(xué);2009年
2 許威;基于概念格的查詢擴(kuò)展系統(tǒng)及建格算法研究[D];北京郵電大學(xué);2008年
3 胡保祥;基于查詢?nèi)罩镜牟樵償U(kuò)展研究[D];北京郵電大學(xué);2013年
4 董靜;基于信任網(wǎng)絡(luò)的查詢擴(kuò)展技術(shù)研究[D];哈爾濱工程大學(xué);2013年
5 晉松;基于社會化標(biāo)注的查詢擴(kuò)展技術(shù)研究[D];大連理工大學(xué);2010年
6 瞿國忠;查詢擴(kuò)展技術(shù)研究[D];華中師范大學(xué);2007年
7 胡珍新;面向用戶的查詢擴(kuò)展研究與實現(xiàn)[D];江西師范大學(xué);2004年
8 黃名選;基于完全加權(quán)關(guān)聯(lián)規(guī)則挖掘的查詢擴(kuò)展研究[D];廣西師范大學(xué);2007年
9 韓開旭;基于查詢擴(kuò)展的油田網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)[D];東北石油大學(xué);2011年
10 鄧飛;基于本體的查詢擴(kuò)展研究[D];遼寧科技大學(xué);2011年
本文編號:1836738
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1836738.html