一種基于漢字筆順特征的關(guān)鍵詞變體匹配方法
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1原始短消息處理流程圖
如圖1所示,本文提出的關(guān)鍵詞變體匹配方法主要包括兩個(gè)子過程:合并短消息中包含的拆分字和關(guān)鍵詞變體匹配。2.1合并拆分字
圖2左中右拆分字合并示意圖
如圖2所示,以短消息“金月月鳥娛樂城”為例,展示了左中右結(jié)構(gòu)拆分字的檢測與合并過程。由于是左中右結(jié)構(gòu),故參與合并的漢字有3個(gè)。圖中左側(cè)使用長度為3的滑動(dòng)窗口窮舉了短消息中任意3個(gè)相鄰漢字組合的可能,其中每一行是一種組合的可能性。針對每一行,都需要檢測窗口中的3個(gè)漢字是否能夠合并成....
圖3“王古月”和“瑚”的筆順對比示意圖
如圖4所示,首先將漢字常用的28個(gè)筆畫用01~28進(jìn)行編號,建立漢字筆畫編號表;然后以每個(gè)關(guān)鍵詞包含的關(guān)鍵字作為索引,關(guān)鍵詞id作為值建立一個(gè)索引表,通過此索引表能夠快速得到每個(gè)關(guān)鍵詞由哪些關(guān)鍵字組成,如查詢關(guān)鍵字“炸”,則能夠快速得到關(guān)鍵詞庫中包含“炸”的關(guān)鍵詞為“炸金花”和“....
圖5形近字匹配及金字塔匹配法示意圖
圖4關(guān)鍵詞庫、按字索引關(guān)鍵詞、按頭4筆或末4筆索引形近字示意圖(3)根據(jù)疑似形近字id得到包含這些疑似形近字的關(guān)鍵詞id。如根據(jù)id為1和4疑似形近字得到id為1、3和2的疑似匹配關(guān)鍵詞!皝怼焙汀巴妗蔽床樵兊揭伤菩谓,則其疑似形近字記為“無”,相應(yīng)的,疑似匹配關(guān)鍵詞記為“無....
本文編號:3936026
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/3936026.html