中文農(nóng)業(yè)搜索引擎字符編碼識別
本文關(guān)鍵詞:中文農(nóng)業(yè)搜索引擎字符編碼識別
更多相關(guān)文章: 編碼識別 卡方檢驗 多元線性回歸 GB Big
【摘要】:針對農(nóng)業(yè)網(wǎng)頁中漢字編碼標(biāo)識混亂的情況,提出了一種綜合運用編碼規(guī)則和網(wǎng)頁文本特征的字符編碼識別模型。利用卡方檢驗算法,結(jié)合最小二乘多元線性回歸方法,得到了基于網(wǎng)頁文本特征的字符識別模型。實驗結(jié)果顯示,在適當(dāng)?shù)倪x取閾值(r=1,閾值=屬于某一編碼的字符數(shù)/網(wǎng)頁總字符數(shù))和文本特征數(shù)(≥65)的基礎(chǔ)上,模型準(zhǔn)確率達(dá)到100%,且結(jié)果穩(wěn)定。
【作者單位】: 新疆農(nóng)業(yè)大學(xué)計算機(jī)與信息工程學(xué)院;
【基金】:新疆維吾爾自治區(qū)科技攻關(guān)項目(200931103)
【分類號】:TP393.092;TP391.3
【正文快照】: 隨著農(nóng)業(yè)信息化建設(shè)的不斷推進(jìn),農(nóng)業(yè)網(wǎng)站數(shù)量增長迅速[1]。隨著網(wǎng)頁數(shù)量的增長,人們查找真正需要信息的難度也相應(yīng)增加了。這就催生了人們對信息查找工具——搜素引擎的需求。通過搜索引擎人們可以更加有效率的獲得信息、產(chǎn)品和服務(wù)。由于中文網(wǎng)頁使用的漢字編碼種類眾多,如果
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機(jī)工程與應(yīng)用;2003年22期
2 熊忠陽;張鵬招;張玉芳;;基于χ~2統(tǒng)計的文本分類特征選擇方法的研究[J];計算機(jī)應(yīng)用;2008年02期
3 李培峰,朱巧明,錢培德;多文種環(huán)境下漢字內(nèi)碼識別算法的研究[J];中文信息學(xué)報;2004年02期
4 謝謙;芮建武;吳健;;編碼字符集標(biāo)準(zhǔn)及分類研究[J];中文信息學(xué)報;2006年05期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學(xué)報;2009年S1期
2 李玉擰;周蘭珍;操衛(wèi)平;;基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2008年09期
3 付雪峰;劉邱云;;不確定性推理在文本分類上的應(yīng)用研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2007年04期
4 江祥奎,原思聰;中文網(wǎng)頁分類中的網(wǎng)頁特征提取方法[J];電腦開發(fā)與應(yīng)用;2005年10期
5 張東娜;劉博;;一個基于加權(quán)和組合降維的web文本分類系統(tǒng)[J];電腦知識與技術(shù);2008年07期
6 朱坤紅;鄧蓉;;基于知識樹的文本自動分類方法探索[J];電腦知識與技術(shù);2010年22期
7 盛魁;趙鵬;;中文網(wǎng)頁自動分類綜述[J];電腦知識與技術(shù);2010年27期
8 張瑜;張德賢;;基于類別比例因子和類內(nèi)均分度的χ~2統(tǒng)計改進(jìn)[J];電子科技;2010年12期
9 劉巧英;楊天朋;孫玉強(qiáng);;基于網(wǎng)站結(jié)構(gòu)和內(nèi)容的Web Server加速技術(shù)研究[J];福建電腦;2009年07期
10 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預(yù)警[J];系統(tǒng)工程;2010年07期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 侯松;周斌;賈焰;;分詞結(jié)果的再搭配對文本分類效果的增強(qiáng)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
2 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 崔磊;陳清才;郭鴻志;王曉龍;;HowNet與維基百科知識融合中的義類屬性自動構(gòu)建方法[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前9條
1 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
2 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年
3 李培峰;基于語義的多文種信息處理平臺SMIPP的研究[D];蘇州大學(xué);2006年
4 龔才春;短文本語言計算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2008年
5 劉林泉;水聲綜合測控系統(tǒng)關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2008年
6 黃永文;中文產(chǎn)品評論挖掘關(guān)鍵技術(shù)研究[D];重慶大學(xué);2009年
7 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學(xué);2012年
8 劉楠;面向微博短文本的情感分析研究[D];武漢大學(xué);2013年
9 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 程澤凱,陸小藝;文本分類中的特征選擇方法[J];安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2004年03期
2 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進(jìn)研究[J];計算機(jī)工程與應(yīng)用;2005年01期
3 魯松,李曉黎,白碩,王實;文檔中詞語權(quán)重計算方法的改進(jìn)[J];中文信息學(xué)報;2000年06期
4 陳治綱,何丕廉,孫越恒,鄭小慎;基于向量空間模型的文本分類系統(tǒng)的研究與實現(xiàn)[J];中文信息學(xué)報;2005年01期
5 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學(xué)學(xué)報(自然科學(xué)版);2001年07期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何香玲,張躍,鄭鋼;串行通信中的字節(jié)與字符[J];工業(yè)控制計算機(jī);2002年03期
2 小金;字符引發(fā)的信息安全問題 來自字符的威脅[J];新電腦;2004年09期
3 李喜宇;;編程中字符編碼的兼容問題[J];山西財經(jīng)大學(xué)學(xué)報(高等教育版);2008年S1期
4 黃明志;閆大順;;頁面字符編碼的分析及其應(yīng)用[J];仲愷農(nóng)業(yè)工程學(xué)院學(xué)報;2009年03期
5 洪漢妮;;字符編碼即將統(tǒng)一[J];電子測試;2000年05期
6 劉志基;簡說“古文字三級字符全拼編碼檢字系統(tǒng)”[J];辭書研究;2002年01期
7 魏再超;;計算機(jī)字符編碼問題[J];福建電腦;2012年07期
8 陸明真;宋國文;蔣林濤;;Telematic業(yè)務(wù)的發(fā)展趨向及規(guī)程變化(續(xù))[J];電信科學(xué);1993年05期
9 李瑩;字符的顯示途徑及直接寫屏技術(shù)[J];電腦技術(shù);1998年03期
10 金永濤;顯示屏幕上任意字符編碼[J];電腦;1994年08期
中國重要會議論文全文數(shù)據(jù)庫 前5條
1 馬麗;馬寧;王燕鳳;;民文版軟件的國際化與本地化[A];第三屆全國軟件測試會議與移動計算、柵格、智能化高級論壇論文集[C];2009年
2 莊仁峰;王健平;原軼;;短信端口字符化技術(shù)的應(yīng)用研究[A];2007年中國通信學(xué)會“移動增值業(yè)務(wù)與應(yīng)用”學(xué)術(shù)年會論文集[C];2007年
3 當(dāng)周才讓(趙維納);德熙嘉措·趙晨星;;藏文吾美長腿體字庫的設(shè)計與實現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
4 范顯鑌;;漢語編碼文字的定義、特點和用途[A];中國中文信息學(xué)會漢字編碼專業(yè)委員會第九屆年會暨學(xué)術(shù)研討會論文集[C];2011年
5 契嘎·德熙嘉措;當(dāng)周才讓;;基于信息處理的藏文字的結(jié)構(gòu)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
中國重要報紙全文數(shù)據(jù)庫 前3條
1 記者 尚明洲邋通訊員 朱慧瑜;廣東移動“短信端口字符化技術(shù)”獲專利[N];人民郵電;2008年
2 ;施樂PARC四十年大事記[N];網(wǎng)絡(luò)世界;2010年
3 中國科學(xué)院軟件研究所 副所長 中科紅旗軟件技術(shù)有限公司 董事長 孫玉芳;信息社會的靈魂[N];科技日報;2001年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 芮建武;操作系統(tǒng)國際化基礎(chǔ)的研究與實踐[D];中國科學(xué)院研究生院(軟件研究所);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王甜甜;基于關(guān)鍵字符的Word文檔脆弱水印算法[D];西南交通大學(xué);2013年
2 周珩珩;藏語言文字信息化處理與未收錄字符的動態(tài)實現(xiàn)[D];中國人民解放軍信息工程大學(xué);2002年
3 徐彩虹;字符二維條碼的編解碼技術(shù)研究[D];浙江工業(yè)大學(xué);2012年
4 楊俊燕;中文互聯(lián)網(wǎng)數(shù)據(jù)壓縮的單字符編碼優(yōu)化方法研究和實現(xiàn)[D];電子科技大學(xué);2012年
5 陳炳煌;具有字符疊加和測距功能的車載視頻檢測裝置的研發(fā)[D];中南大學(xué);2008年
6 劉小兵;視頻字符疊加與短距離紅外無線傳輸技術(shù)研究[D];南京理工大學(xué);2004年
7 新吉勒吐;嵌入式蒙文信息處理系統(tǒng)中名義字符到顯現(xiàn)字形算法的研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2010年
8 余繼東;軟件產(chǎn)品的全球化測試研究[D];北京郵電大學(xué);2009年
9 王守華;基于GB18030編碼標(biāo)準(zhǔn)的中文Linux系統(tǒng)[D];中國科學(xué)院軟件研究所;2001年
10 舒若;機(jī)載電子綜合顯示系統(tǒng)圖形反走樣技術(shù)的研究[D];南京航空航天大學(xué);2003年
,本文編號:1144855
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1144855.html