面向中文搜索引擎的網(wǎng)頁結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間：2022-01-01 11:13

　　搜索引擎是一種特殊的檢索系統(tǒng),其信息來源于互聯(lián)網(wǎng),處理的格式大多為HTML,而中文搜索引擎相比英文搜索引擎在編碼、分詞等問題上都有其自身特點。筆者針對中文搜索引擎提出了一種網(wǎng)頁結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計方案,并使用Python語言實現(xiàn)。該系統(tǒng)由網(wǎng)頁抓取、網(wǎng)頁信息提取、敏感詞過濾三部分組成,最后可獲得結(jié)構(gòu)化的網(wǎng)頁有效信息。其中,網(wǎng)頁抓取采用寬度優(yōu)先搜索的策略;網(wǎng)頁信息提取部分采用基于標(biāo)簽的文本提取方法;敏感詞過濾部分針對中文特點提出了一種過濾算法,該算法在模式串長度較短的情況下平均復(fù)雜度為O（n）。實踐證明,該系統(tǒng)與Lucene等檢索系統(tǒng)結(jié)合即可提供中文搜索引擎服務(wù)。

【文章來源】：信息與電腦(理論版). 2016,(23)

【文章頁數(shù)】：3 頁

【部分圖文】：

系統(tǒng)的運韋澎l制

文本,標(biāo)簽,內(nèi)容,關(guān)鍵信息

?奈謀臼導(dǎo)噬顯謁?唇擁降囊趁嬤幸汛?在，因此，<a>標(biāo)簽中的文本不應(yīng)作為該網(wǎng)頁的關(guān)鍵信息。因此，首先過濾掉<a>標(biāo)簽中的文本。然后，剩下的內(nèi)容中<head>的描述性內(nèi)容和<title><h1><h2><h6><p>標(biāo)簽的文本即為該頁面的關(guān)鍵內(nèi)容。因此，信息提取的流程用偽代碼可以描述為：HTML=抓取的網(wǎng)頁內(nèi)容去掉HTML中的<a>標(biāo)簽M=<meta>標(biāo)簽里的keywords文本和description文本T=<title>標(biāo)簽中的文本H=<h?>標(biāo)簽中的文本P=<p>標(biāo)簽中的文本關(guān)鍵信息即為M+T+H+P在對于上面的流程，可以很容易通過Python的beautifulsoup庫實現(xiàn)。圖1系統(tǒng)的運行機(jī)制—173—

【參考文獻(xiàn)】：
期刊論文
[1]中文搜索引擎現(xiàn)狀與展望[J]. 都云程,盧獻(xiàn)華. 中文信息學(xué)報. 1999(03)

本文編號：3562255

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3562255.html

上一篇：文冠果MAPK16基因全長cDNA序列與生物信息學(xué)分析
下一篇：閉式整體葉盤流道粗加工分層區(qū)域邊界刀路刀軸計算方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向中文搜索引擎的網(wǎng)頁結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計與實現(xiàn)