面向中文搜索引擎的網(wǎng)頁結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-01-01 11:13
搜索引擎是一種特殊的檢索系統(tǒng),其信息來源于互聯(lián)網(wǎng),處理的格式大多為HTML,而中文搜索引擎相比英文搜索引擎在編碼、分詞等問題上都有其自身特點(diǎn)。筆者針對中文搜索引擎提出了一種網(wǎng)頁結(jié)構(gòu)化信息獲取系統(tǒng)的設(shè)計(jì)方案,并使用Python語言實(shí)現(xiàn)。該系統(tǒng)由網(wǎng)頁抓取、網(wǎng)頁信息提取、敏感詞過濾三部分組成,最后可獲得結(jié)構(gòu)化的網(wǎng)頁有效信息。其中,網(wǎng)頁抓取采用寬度優(yōu)先搜索的策略;網(wǎng)頁信息提取部分采用基于標(biāo)簽的文本提取方法;敏感詞過濾部分針對中文特點(diǎn)提出了一種過濾算法,該算法在模式串長度較短的情況下平均復(fù)雜度為O(n)。實(shí)踐證明,該系統(tǒng)與Lucene等檢索系統(tǒng)結(jié)合即可提供中文搜索引擎服務(wù)。
【文章來源】:信息與電腦(理論版). 2016,(23)
【文章頁數(shù)】:3 頁
【部分圖文】:
系統(tǒng)的運(yùn)韋澎l制
?奈謀臼導(dǎo)噬顯謁?唇擁降囊趁嬤幸汛?在,因此,<a>標(biāo)簽中的文本不應(yīng)作為該網(wǎng)頁的關(guān)鍵信息。因此,首先過濾掉<a>標(biāo)簽中的文本。然后,剩下的內(nèi)容中<head>的描述性內(nèi)容和<title><h1><h2><h6><p>標(biāo)簽的文本即為該頁面的關(guān)鍵內(nèi)容。因此,信息提取的流程用偽代碼可以描述為:HTML=抓取的網(wǎng)頁內(nèi)容去掉HTML中的<a>標(biāo)簽M=<meta>標(biāo)簽里的keywords文本和description文本T=<title>標(biāo)簽中的文本H=<h?>標(biāo)簽中的文本P=<p>標(biāo)簽中的文本關(guān)鍵信息即為M+T+H+P在對于上面的流程,可以很容易通過Python的beautifulsoup庫實(shí)現(xiàn)。圖1系統(tǒng)的運(yùn)行機(jī)制—173—
【參考文獻(xiàn)】:
期刊論文
[1]中文搜索引擎現(xiàn)狀與展望[J]. 都云程,盧獻(xiàn)華. 中文信息學(xué)報(bào). 1999(03)
本文編號(hào):3562255
【文章來源】:信息與電腦(理論版). 2016,(23)
【文章頁數(shù)】:3 頁
【部分圖文】:
系統(tǒng)的運(yùn)韋澎l制
?奈謀臼導(dǎo)噬顯謁?唇擁降囊趁嬤幸汛?在,因此,<a>標(biāo)簽中的文本不應(yīng)作為該網(wǎng)頁的關(guān)鍵信息。因此,首先過濾掉<a>標(biāo)簽中的文本。然后,剩下的內(nèi)容中<head>的描述性內(nèi)容和<title><h1><h2><h6><p>標(biāo)簽的文本即為該頁面的關(guān)鍵內(nèi)容。因此,信息提取的流程用偽代碼可以描述為:HTML=抓取的網(wǎng)頁內(nèi)容去掉HTML中的<a>標(biāo)簽M=<meta>標(biāo)簽里的keywords文本和description文本T=<title>標(biāo)簽中的文本H=<h?>標(biāo)簽中的文本P=<p>標(biāo)簽中的文本關(guān)鍵信息即為M+T+H+P在對于上面的流程,可以很容易通過Python的beautifulsoup庫實(shí)現(xiàn)。圖1系統(tǒng)的運(yùn)行機(jī)制—173—
【參考文獻(xiàn)】:
期刊論文
[1]中文搜索引擎現(xiàn)狀與展望[J]. 都云程,盧獻(xiàn)華. 中文信息學(xué)報(bào). 1999(03)
本文編號(hào):3562255
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3562255.html
最近更新
教材專著