天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文農(nóng)業(yè)搜索引擎字符編碼識別

發(fā)布時間:2017-11-05 16:02

  本文關(guān)鍵詞:中文農(nóng)業(yè)搜索引擎字符編碼識別


  更多相關(guān)文章: 編碼識別 卡方檢驗 多元線性回歸 GB Big


【摘要】:針對農(nóng)業(yè)網(wǎng)頁中漢字編碼標(biāo)識混亂的情況,提出了一種綜合運用編碼規(guī)則和網(wǎng)頁文本特征的字符編碼識別模型。利用卡方檢驗算法,結(jié)合最小二乘多元線性回歸方法,得到了基于網(wǎng)頁文本特征的字符識別模型。實驗結(jié)果顯示,在適當(dāng)?shù)倪x取閾值(r=1,閾值=屬于某一編碼的字符數(shù)/網(wǎng)頁總字符數(shù))和文本特征數(shù)(≥65)的基礎(chǔ)上,模型準(zhǔn)確率達(dá)到100%,且結(jié)果穩(wěn)定。
【作者單位】: 新疆農(nóng)業(yè)大學(xué)計算機(jī)與信息工程學(xué)院;
【基金】:新疆維吾爾自治區(qū)科技攻關(guān)項目(200931103)
【分類號】:TP393.092;TP391.3
【正文快照】: 隨著農(nóng)業(yè)信息化建設(shè)的不斷推進(jìn),農(nóng)業(yè)網(wǎng)站數(shù)量增長迅速[1]。隨著網(wǎng)頁數(shù)量的增長,人們查找真正需要信息的難度也相應(yīng)增加了。這就催生了人們對信息查找工具——搜素引擎的需求。通過搜索引擎人們可以更加有效率的獲得信息、產(chǎn)品和服務(wù)。由于中文網(wǎng)頁使用的漢字編碼種類眾多,如果

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前4條

1 單松巍,馮是聰,李曉明;幾種典型特征選取方法在中文網(wǎng)頁分類上的效果比較[J];計算機(jī)工程與應(yīng)用;2003年22期

2 熊忠陽;張鵬招;張玉芳;;基于χ~2統(tǒng)計的文本分類特征選擇方法的研究[J];計算機(jī)應(yīng)用;2008年02期

3 李培峰,朱巧明,錢培德;多文種環(huán)境下漢字內(nèi)碼識別算法的研究[J];中文信息學(xué)報;2004年02期

4 謝謙;芮建武;吳健;;編碼字符集標(biāo)準(zhǔn)及分類研究[J];中文信息學(xué)報;2006年05期

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實現(xiàn)[J];兵工學(xué)報;2009年S1期

2 李玉擰;周蘭珍;操衛(wèi)平;;基于DF和CHI的聯(lián)合特征提取方法及其應(yīng)用[J];北京工業(yè)大學(xué)學(xué)報;2008年09期

3 付雪峰;劉邱云;;不確定性推理在文本分類上的應(yīng)用研究[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2007年04期

4 江祥奎,原思聰;中文網(wǎng)頁分類中的網(wǎng)頁特征提取方法[J];電腦開發(fā)與應(yīng)用;2005年10期

5 張東娜;劉博;;一個基于加權(quán)和組合降維的web文本分類系統(tǒng)[J];電腦知識與技術(shù);2008年07期

6 朱坤紅;鄧蓉;;基于知識樹的文本自動分類方法探索[J];電腦知識與技術(shù);2010年22期

7 盛魁;趙鵬;;中文網(wǎng)頁自動分類綜述[J];電腦知識與技術(shù);2010年27期

8 張瑜;張德賢;;基于類別比例因子和類內(nèi)均分度的χ~2統(tǒng)計改進(jìn)[J];電子科技;2010年12期

9 劉巧英;楊天朋;孫玉強(qiáng);;基于網(wǎng)站結(jié)構(gòu)和內(nèi)容的Web Server加速技術(shù)研究[J];福建電腦;2009年07期

10 劉志明;劉魯;;面向突發(fā)事件的群體情緒監(jiān)控預(yù)警[J];系統(tǒng)工程;2010年07期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 侯松;周斌;賈焰;;分詞結(jié)果的再搭配對文本分類效果的增強(qiáng)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年

2 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

3 崔磊;陳清才;郭鴻志;王曉龍;;HowNet與維基百科知識融合中的義類屬性自動構(gòu)建方法[A];中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前9條

1 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

2 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年

3 李培峰;基于語義的多文種信息處理平臺SMIPP的研究[D];蘇州大學(xué);2006年

4 龔才春;短文本語言計算的關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2008年

5 劉林泉;水聲綜合測控系統(tǒng)關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2008年

6 黃永文;中文產(chǎn)品評論挖掘關(guān)鍵技術(shù)研究[D];重慶大學(xué);2009年

7 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學(xué);2012年

8 劉楠;面向微博短文本的情感分析研究[D];武漢大學(xué);2013年

9 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年

【二級參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前5條

1 程澤凱,陸小藝;文本分類中的特征選擇方法[J];安徽工業(yè)大學(xué)學(xué)報(自然科學(xué)版);2004年03期

2 徐鳳亞,羅振聲;文本自動分類中特征權(quán)重算法的改進(jìn)研究[J];計算機(jī)工程與應(yīng)用;2005年01期

3 魯松,李曉黎,白碩,王實;文檔中詞語權(quán)重計算方法的改進(jìn)[J];中文信息學(xué)報;2000年06期

4 陳治綱,何丕廉,孫越恒,鄭小慎;基于向量空間模型的文本分類系統(tǒng)的研究與實現(xiàn)[J];中文信息學(xué)報;2005年01期

5 李凡,魯明羽,陸玉昌;關(guān)于文本特征抽取新方法的研究[J];清華大學(xué)學(xué)報(自然科學(xué)版);2001年07期

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 何香玲,張躍,鄭鋼;串行通信中的字節(jié)與字符[J];工業(yè)控制計算機(jī);2002年03期

2 小金;字符引發(fā)的信息安全問題 來自字符的威脅[J];新電腦;2004年09期

3 李喜宇;;編程中字符編碼的兼容問題[J];山西財經(jīng)大學(xué)學(xué)報(高等教育版);2008年S1期

4 黃明志;閆大順;;頁面字符編碼的分析及其應(yīng)用[J];仲愷農(nóng)業(yè)工程學(xué)院學(xué)報;2009年03期

5 洪漢妮;;字符編碼即將統(tǒng)一[J];電子測試;2000年05期

6 劉志基;簡說“古文字三級字符全拼編碼檢字系統(tǒng)”[J];辭書研究;2002年01期

7 魏再超;;計算機(jī)字符編碼問題[J];福建電腦;2012年07期

8 陸明真;宋國文;蔣林濤;;Telematic業(yè)務(wù)的發(fā)展趨向及規(guī)程變化(續(xù))[J];電信科學(xué);1993年05期

9 李瑩;字符的顯示途徑及直接寫屏技術(shù)[J];電腦技術(shù);1998年03期

10 金永濤;顯示屏幕上任意字符編碼[J];電腦;1994年08期

中國重要會議論文全文數(shù)據(jù)庫 前5條

1 馬麗;馬寧;王燕鳳;;民文版軟件的國際化與本地化[A];第三屆全國軟件測試會議與移動計算、柵格、智能化高級論壇論文集[C];2009年

2 莊仁峰;王健平;原軼;;短信端口字符化技術(shù)的應(yīng)用研究[A];2007年中國通信學(xué)會“移動增值業(yè)務(wù)與應(yīng)用”學(xué)術(shù)年會論文集[C];2007年

3 當(dāng)周才讓(趙維納);德熙嘉措·趙晨星;;藏文吾美長腿體字庫的設(shè)計與實現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

4 范顯鑌;;漢語編碼文字的定義、特點和用途[A];中國中文信息學(xué)會漢字編碼專業(yè)委員會第九屆年會暨學(xué)術(shù)研討會論文集[C];2011年

5 契嘎·德熙嘉措;當(dāng)周才讓;;基于信息處理的藏文字的結(jié)構(gòu)[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

中國重要報紙全文數(shù)據(jù)庫 前3條

1 記者 尚明洲邋通訊員 朱慧瑜;廣東移動“短信端口字符化技術(shù)”獲專利[N];人民郵電;2008年

2 ;施樂PARC四十年大事記[N];網(wǎng)絡(luò)世界;2010年

3 中國科學(xué)院軟件研究所 副所長 中科紅旗軟件技術(shù)有限公司 董事長 孫玉芳;信息社會的靈魂[N];科技日報;2001年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 芮建武;操作系統(tǒng)國際化基礎(chǔ)的研究與實踐[D];中國科學(xué)院研究生院(軟件研究所);2005年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 王甜甜;基于關(guān)鍵字符的Word文檔脆弱水印算法[D];西南交通大學(xué);2013年

2 周珩珩;藏語言文字信息化處理與未收錄字符的動態(tài)實現(xiàn)[D];中國人民解放軍信息工程大學(xué);2002年

3 徐彩虹;字符二維條碼的編解碼技術(shù)研究[D];浙江工業(yè)大學(xué);2012年

4 楊俊燕;中文互聯(lián)網(wǎng)數(shù)據(jù)壓縮的單字符編碼優(yōu)化方法研究和實現(xiàn)[D];電子科技大學(xué);2012年

5 陳炳煌;具有字符疊加和測距功能的車載視頻檢測裝置的研發(fā)[D];中南大學(xué);2008年

6 劉小兵;視頻字符疊加與短距離紅外無線傳輸技術(shù)研究[D];南京理工大學(xué);2004年

7 新吉勒吐;嵌入式蒙文信息處理系統(tǒng)中名義字符到顯現(xiàn)字形算法的研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2010年

8 余繼東;軟件產(chǎn)品的全球化測試研究[D];北京郵電大學(xué);2009年

9 王守華;基于GB18030編碼標(biāo)準(zhǔn)的中文Linux系統(tǒng)[D];中國科學(xué)院軟件研究所;2001年

10 舒若;機(jī)載電子綜合顯示系統(tǒng)圖形反走樣技術(shù)的研究[D];南京航空航天大學(xué);2003年



本文編號:1144855

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1144855.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9470f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com