維吾爾文網(wǎng)頁正文抽取系統(tǒng)的研究與實現(xiàn)
【圖文】:
2 維文網(wǎng)頁正文抽取系統(tǒng)的研究與設(shè)計圖1即為本文基于python語言[14]實現(xiàn)得維文網(wǎng)頁正文抽取系統(tǒng)的整體架構(gòu)圖。整個文本抽取系統(tǒng)的具體實現(xiàn)分為5個模塊:網(wǎng)絡(luò)連接管理模塊、維文編碼處理模塊、網(wǎng)頁預處理模塊、文本提取模塊和后期處理模塊。
圖2 一個維文網(wǎng)頁和相應解碼后的網(wǎng)頁源代碼nicode編碼不在標準維文編碼范圍,而是在Unicode編展區(qū)中。因此本文在采用網(wǎng)頁正文提取算法之前,對范的維文編碼進行了標準化處理。相應的編碼轉(zhuǎn)化規(guī)表1所示。表1 維文編碼轉(zhuǎn)換字符 擴展編碼 標準編碼0xFE8D。埃疲牛福 0x06270xFEE9。埃疲牛牛痢 0x06D50xFE8F 0xFE90 0xFE91。埃疲牛梗病 0x0628… … …在網(wǎng)頁源碼經(jīng)標準化處理之后,我們將網(wǎng)頁解碼代碼給網(wǎng)頁預處理模塊!【W(wǎng)頁預處理模塊在網(wǎng)頁預處理階段中,我們首先分析研究網(wǎng)頁源碼的ML標簽結(jié)構(gòu)和屬性,而后通過制定過濾規(guī)則盡可能地規(guī)則4:用自定義標簽<tag></tag>替換段落如:<body></body>、<div></div>、<tabletable>等;規(guī)則5:簡化鏈接標簽<a。瑁颍澹妫健緸椋迹幔荆唤(jīng)過以上規(guī)則處理后的源碼相對預處理前的源碼大幅減少,文本內(nèi)容只包含<tag>和<a>標簽,結(jié)化明了,方便了后面的文本段的提取。2.4 正文抽取模塊正文模塊抽取經(jīng)過預處理后的網(wǎng)頁文本內(nèi)容中的各段,并存放到一個線性字符串數(shù)組中。由于多數(shù)網(wǎng)頁存簽嵌套性,如:<tag>…<tag>…</tag>…</tag>以不能只是簡單地抽取標簽<tag>和</tag>內(nèi)的內(nèi)容須對文本標簽做線性化處理[15]。本文中,我們對文本中除首尾<tag>和</tag>外的其它標簽做如下處理:在<tag>標簽前插入</標簽,,在</tag>標簽后插?
【作者單位】: 中國科學院新疆理化技術(shù)研究所;中國科學院研究生院;新疆維吾爾自治區(qū)經(jīng)濟和信息化委員會;
【基金】:中國科學院“西部行動計劃高新技術(shù)基金項目”(KGCX2-YW-507)
【分類號】:H215;TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 張成洪,肖軍建,張誠;Web內(nèi)容抽取及其數(shù)據(jù)管理方法[J];復旦學報(自然科學版);2001年02期
2 楊敬偉;楊文柱;高悅;;基于DOM的Web信息抽取規(guī)則的構(gòu)造與實現(xiàn)[J];河北大學學報(自然科學版);2007年02期
3 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計算機工程與應用;2009年25期
4 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計算機工程;2010年06期
5 王敬普;林亞平;周順先;岳文;;基于包裝器模型的文本信息抽取[J];計算機應用;2006年03期
6 王磊;蔣建中;郭軍利;;基于擴展DOM樹的Web頁面信息抽取[J];計算機應用與軟件;2007年06期
7 梅雪;程學旗;郭巖;張剛;丁國棟;;一種全自動生成網(wǎng)頁信息抽取Wrapper的方法[J];中文信息學報;2008年01期
8 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學報;2009年05期
9 李培峰;朱巧明;錢培德;;基于Web的大規(guī)模語料庫構(gòu)建方法[J];計算機工程;2008年07期
10 張裕欽;李振坤;吳永杰;;基于規(guī)則模型的網(wǎng)頁主題文本提取方法[J];計算機工程與設(shè)計;2009年20期
【共引文獻】
相關(guān)期刊論文 前10條
1 袁鴻雁;;基于本體的HTML表格識別技術(shù)的研究[J];長春工程學院學報(自然科學版);2010年01期
2 蔣邵衡;;WEB信息的抽取與集成研究[J];電腦知識與技術(shù);2009年30期
3 付保紅;李玉春;;油田測井曲線數(shù)據(jù)管理系統(tǒng)需求性分析[J];大慶師范學院學報;2011年03期
4 游貴榮;陸玉昌;;基于統(tǒng)計和機器學習的中文Web網(wǎng)頁正文內(nèi)容抽取[J];福建商業(yè)高等?茖W校學報;2009年02期
5 夏天;;基于擴展標記樹的網(wǎng)頁正文抽取[J];廣西師范大學學報(自然科學版);2011年01期
6 劉曉星;胡暢霞;;WEB中文本信息檢索的關(guān)鍵技術(shù)研究[J];硅谷;2011年16期
7 楊波;張立娜;;基于C#正則表達式的農(nóng)業(yè)文獻管理系統(tǒng)的研究與應用[J];安徽農(nóng)業(yè)科學;2012年05期
8 張敏;;基于確定性樹自動機技術(shù)的信息抽取研究[J];才智;2011年36期
9 宋健豪;趙剛;;基于啟發(fā)式規(guī)則優(yōu)化的網(wǎng)頁元素提取方法[J];信息安全與技術(shù);2012年06期
10 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡(luò)信息技術(shù)在傳染病輿情監(jiān)測中的應用[J];中國國境衛(wèi)生檢疫雜志;2012年04期
相關(guān)博士學位論文 前3條
1 要丹;石油地質(zhì)實驗信息自動管理與評價系統(tǒng)[D];吉林大學;2008年
2 譚紅葉;中文事件抽取關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2008年
3 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年
【二級參考文獻】
相關(guān)期刊論文 前10條
1 賀令亞;柳佳剛;;基于Web的包裝器技術(shù)的現(xiàn)狀與發(fā)展[J];電腦開發(fā)與應用;2007年06期
2 楊敬偉;楊文柱;高悅;;基于DOM的Web信息抽取規(guī)則的構(gòu)造與實現(xiàn)[J];河北大學學報(自然科學版);2007年02期
3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
4 張樹瑜,朱仲英;基于MT決策樹的Web信息抽取研究[J];計算機工程與應用;2004年13期
5 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機工程與應用;2007年30期
6 周源遠,王繼成,鄭剛,張福炎;Web頁面清洗技術(shù)的研究與實現(xiàn)[J];計算機工程;2002年09期
7 朱永盛;武港山;;基于Web的新聞信息抽取[J];計算機工程;2006年10期
8 黃健斌;姬紅兵;孫鶴立;;Web網(wǎng)頁中動態(tài)數(shù)據(jù)區(qū)域的識別與抽取[J];計算機工程;2007年11期
9 時達明;林鴻飛;楊志豪;;基于網(wǎng)頁框架和規(guī)則的網(wǎng)頁噪音去除方法[J];計算機工程;2007年19期
10 李效東,顧毓清;基于DOM的Web信息提取[J];計算機學報;2002年05期
【相似文獻】
相關(guān)期刊論文 前10條
1 楊行;;語料庫工具與英語詞匯教學之light Vs.heavy[J];科技信息;2011年16期
2 谷婧;;語料庫在中學英語詞匯教學中的應用[J];新教育;2011年08期
3 梁健麗;;“英語作為通用語”語料庫介評(英文)[J];語文學刊(外語教育與教學);2011年08期
4 劉藝;;英語職業(yè)教育中語料庫作用探討[J];黑龍江科技信息;2011年21期
5 吳軍莉;;二語習得與語料庫英語教學[J];佳木斯教育學院學報;2011年04期
6 李安玲;張曉雁;;探究語料庫在英語寫作教學中的應用[J];校園英語(教研版);2011年06期
7 董娜;;語料庫與翻譯教學[J];語文學刊;2011年09期
8 米歇爾·保爾;海倫·夏普維拉;迪萊塔·迪·洛克;斯戴芬妮亞·格拉斯亞尼;徐潔;;CoDiSV:奧斯塔山谷地區(qū)學校兒童書面作業(yè)的數(shù)字語料庫[J];中國兒童文化;2010年00期
9 張敏;李學寧;;西方主要英語語料庫結(jié)構(gòu)代表性分析[J];赤峰學院學報(漢文哲學社會科學版);2011年06期
10 范然;葉興敏;張慧艷;;基于語料庫的現(xiàn)代大學英語課程詞匯改革初探[J];成功(教育);2011年08期
相關(guān)會議論文 前10條
1 吐爾根·依布拉音;阿里甫·庫爾班維尼拉·木沙江;;面向漢維機器翻譯的雙語對齊語料庫設(shè)計與實現(xiàn)[A];第十屆全國少數(shù)民族語言文字信息處理學術(shù)研討會論文集[C];2005年
2 郭曙綸;;基于語料庫的HSK多功能例解字典:設(shè)想與樣例[A];2004年辭書與數(shù)字化研討會論文集[C];2004年
3 梁紅梅;尹曉霞;李宇莊;;有關(guān)語料庫驅(qū)動下的外語在線自主學習的工作底稿[A];全國大學英語教學改革暨網(wǎng)絡(luò)環(huán)境下外語教學學術(shù)研討會論文集[C];2004年
4 許小星;亢世勇;孫茂松;劉金鳳;;語料庫語義成分標注的若干問題[A];第三屆學生計算語言學研討會論文集[C];2006年
5 宋鴻彥;劉軍;姚天f ;劉全升;黃高輝;;漢語意見型主觀性文本標注語料庫的構(gòu)建[A];第四屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集(上)[C];2008年
6 黃玉;李生;孟遙;丁華福;;基于大規(guī)模語料庫的英語從句識別[A];第一屆學生計算語言學研討會論文集[C];2002年
7 李明;;語料庫·藍本·雙語詞典[A];中國辭書學會雙語詞典專業(yè)委員會第五屆年會暨學術(shù)研討會論文集[C];2003年
8 郭啟新;;論語料庫與英漢詞典配例[A];中國辭書學會雙語詞典專業(yè)委員會第四屆年會暨學術(shù)研討會論文集[C];2001年
9 蔡蓮紅;蔡銳;吳志勇;陶建華;;語音合成語料庫的設(shè)計與聲學特征分析[A];中國聲學學會2002年全國聲學學術(shù)會議論文集[C];2002年
10 孫述學;;新詞語語料庫建設(shè)的一些構(gòu)想[A];2004年辭書與數(shù)字化研討會論文集[C];2004年
相關(guān)重要報紙文章 前10條
1 記者 王靖;本報蟬聯(lián)自治區(qū)“雙十佳”報紙[N];兵團日報(漢);2003年
2 ;“我們也想過安穩(wěn)的日子”[N];人民日報;2009年
3 記者 楊立洋;新疆開通維吾爾文版手機報[N];人民郵電;2009年
4 楊萌;全球第一款維吾爾文手機問世[N];中國信息報;2004年
5 本報記者 葛瑞金;好書眾人讀 精品人人愛[N];中國新聞出版報;2006年
6 記者 方云靜;首款維吾爾文無線通訊方案推出[N];新疆日報(漢);2009年
7 本報記者 周建華;數(shù)字戰(zhàn)略打造核心競爭力[N];中國圖書商報;2001年
8 記者 王坤寧;商務(wù)方正合作開發(fā)辭書語料庫及編纂系統(tǒng)[N];中國新聞出版報;2002年
9 盧偉;文學語言的語料庫研究方法[N];文藝報;2004年
10 本報評論員;普及科學知識 發(fā)展先進文化[N];新疆日報(漢);2001年
相關(guān)博士學位論文 前10條
1 張廷香;基于語料庫的3-6歲漢語兒童詞匯研究[D];山東大學;2010年
2 夏云;基于語料庫的英漢翻譯小說常規(guī)化研究:歷時的視角[D];山東大學;2010年
3 何婷婷;語料庫研究[D];華中師范大學;2003年
4 王青;基于語料庫的《尤利西斯》漢譯本譯者風格研究[D];山東大學;2010年
5 唐斌;《人民日報》中(1987-2007)農(nóng)民工的話語再現(xiàn)[D];上海外國語大學;2010年
6 徐欣;基于語料庫的英漢小說語篇中話語標記功能研究[D];山東大學;2011年
7 張建梅;基于語料庫的現(xiàn)代蒙古語簡單陳述句句型分析研究[D];內(nèi)蒙古大學;2010年
8 王麗;基于語料庫的中國學習者英語口語中語用標記語研究[D];上海交通大學;2008年
9 鄭澤芝;基于動態(tài)流通語料庫(DCC)的漢語字母詞語識別及考察研究[D];北京語言大學;2005年
10 楊石喬;基于語料庫的漢語醫(yī)患會話修正研究[D];上海外國語大學;2010年
相關(guān)碩士學位論文 前10條
1 岳炳詞;面向語言學研究的大規(guī)模漢語生語料庫檢索工具CCRLT[D];北京工業(yè)大學;2001年
2 徐琰;基于語料庫的ONLY研究[D];大連海事大學;2003年
3 楊麗萍;基于語料庫的英語專業(yè)大學生議論文限時寫作中的四字詞塊研究[D];江西師范大學;2010年
4 畢麗克孜;現(xiàn)代維吾爾語語料庫詞頻統(tǒng)計實驗性研究[D];新疆大學;2003年
5 李淼;用先進的語料庫工具推進英語教學[D];首都師范大學;2004年
6 李春青;[D];電子科技大學;2004年
7 王蓉;新聞英語的批評性語篇分析[D];上海師范大學;2010年
8 劉鼎甲;連接成分的顯化:基于語料庫的中英文翻譯文本對比[D];燕山大學;2010年
9 劉露露;漢語衍名的雙事件隱喻分析[D];四川外語學院;2011年
10 黃潔;基于語料庫的商務(wù)英語詞匯特點的研究[D];大連海事大學;2010年
本文編號:2552391
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/2552391.html