天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

維、哈文不良網(wǎng)頁判別方法研究

發(fā)布時(shí)間:2018-10-09 18:39
【摘要】:隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已成為人們快速發(fā)布信息和獲取信息的重要工具。近年來,維吾爾文、哈薩克文網(wǎng)站數(shù)量有了快速增長,具不完全統(tǒng)計(jì),國內(nèi)維哈文網(wǎng)站目前有兩千多個(gè),且在不斷增加中。民族語言網(wǎng)站在為廣大少數(shù)民族用戶提供豐富多彩本民族文化信息的同時(shí),部分不法之徒利用互聯(lián)網(wǎng)傳播反動(dòng)、煽動(dòng)性言論等不良信息,此類信息嚴(yán)重歪曲我黨方針政策,扭曲事實(shí)真相,極易引起公眾的不理性判斷,對社會(huì)和諧穩(wěn)定帶來巨大隱患。如何對此類信息進(jìn)行有效監(jiān)控、過濾成為政府部門關(guān)心的問題,維哈文不良網(wǎng)頁識(shí)別技術(shù)也成為科研單位研究熱點(diǎn)。 筆者首先設(shè)計(jì)了維哈文網(wǎng)站識(shí)別模型,并利用搜索引擎技術(shù)對互聯(lián)網(wǎng)維哈文網(wǎng)站進(jìn)行搜尋和數(shù)據(jù)采集,同時(shí)對維哈文不良網(wǎng)頁識(shí)別模型中涉及的以下技術(shù)進(jìn)行了研究:維哈文網(wǎng)頁正文內(nèi)容抽取方法、維哈文分詞技術(shù)、特征詞提取方法,文本分類算法,分類器性能評價(jià)指標(biāo)。 本文在對維哈文不良網(wǎng)頁特征分析基礎(chǔ)上,利用卡方檢驗(yàn)方法對訓(xùn)練集進(jìn)行特征詞抽取。為檢測不同文本分類算法對維哈文不良網(wǎng)頁識(shí)別模型判別性能的影響,筆者分別研究了支持向量機(jī)、K臨近、樸素貝葉斯等文本分類算法,并根據(jù)多元線性回歸原理,設(shè)計(jì)了多元線性回歸模型。本文分別對這四類方法進(jìn)行了測試對比,測試結(jié)果表明,當(dāng)文本采用帶權(quán)重特征向量表示,且支持向量機(jī)采用徑向基核函數(shù)時(shí),利用該算法設(shè)計(jì)的維哈文不良網(wǎng)頁識(shí)別模型識(shí)別準(zhǔn)確率和召回率能達(dá)到95%以上,且識(shí)別性能穩(wěn)定,識(shí)別效率也相對較高,在實(shí)際應(yīng)用中,該算法也取得了很好的識(shí)別效果。
[Abstract]:With the rapid development of information technology, the Internet has become an important tool for people to publish and obtain information quickly. In recent years, the number of Uygur and Kazakh websites has a rapid growth, with incomplete statistics. While providing the vast majority of ethnic minority users with rich and colorful information on their own culture, some lawless people use the Internet to disseminate undesirable information, such as reactionary and inflammatory remarks, which seriously distort our party's principles and policies. Distorting the truth easily leads to irrational judgment of the public and brings great hidden danger to social harmony and stability. How to effectively monitor and filter this kind of information has become a concern of government departments, and the technology of identifying bad web pages has also become a hot research topic in scientific research institutions. First of all, the author designs the identification model of Weihawen website, and makes use of the search engine technology to search and collect the data of the Web site. At the same time, the following technologies are studied in the model: the text content extraction method, the word segmentation technology, the feature word extraction method, the text classification algorithm and the performance evaluation index of the classifier. Based on the analysis of the features of the bad pages of Weihawen, the chi-square test method is used to extract the feature words from the training set. In order to detect the influence of different text classification algorithms on the discriminant performance of the bad page recognition model, the support vector machine (SVM) and naive Bayes text classification algorithms are studied respectively, and according to the principle of multiple linear regression, the text classification algorithms such as support vector machine (SVM) and naive Bayes are studied. A multivariate linear regression model is designed. The test results show that when the text is represented by weighted eigenvector and the support vector machine adopts radial basis kernel function, The recognition accuracy and recall rate of this algorithm can reach more than 95%, and the recognition performance is stable and the recognition efficiency is relatively high. In practical application, the algorithm has achieved a good recognition effect.
【學(xué)位授予單位】:新疆農(nóng)業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP393.092

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 董忠,尤良方;用Java實(shí)現(xiàn)網(wǎng)頁新聞的自動(dòng)更換[J];天水師范學(xué)院學(xué)報(bào);2002年02期

2 張清軍,朱才連;基于統(tǒng)計(jì)的中文文本主題自動(dòng)提取研究[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2004年03期

3 馬光志,李專;基于特征詞的自動(dòng)分詞研究[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年03期

4 唐曉文;基于本體論的文本特征提取[J];電腦與信息技術(shù);2005年01期

5 李國臣;文本分類中基于對數(shù)似然比測試的特征詞選擇方法[J];中文信息學(xué)報(bào);1999年04期

6 張建莉;;基于特征詞驅(qū)動(dòng)的帶“的”字名詞短語的識(shí)別[J];福建電腦;2006年05期

7 官禮和,楊剛,李永禮;基于詞典的法律案例自動(dòng)歸類系統(tǒng)的開發(fā)[J];重慶交通學(xué)院學(xué)報(bào);2004年01期

8 劉茵;;一種基于詞組的用戶建模技術(shù)[J];信息與電腦(理論版);2010年07期

9 王玨,劉三陽,張杰;基于廣義粗糙近似的信息檢索方法研究[J];系統(tǒng)工程與電子技術(shù);2004年12期

10 王宏生;張琳;;基于本體的文本自動(dòng)分類[J];科技信息(學(xué)術(shù)研究);2008年29期

相關(guān)會(huì)議論文 前10條

1 葉娜;吳雪軍;朱靖波;陳文亮;;基于相似計(jì)算的信息抽取模板自動(dòng)獲取方法[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年

2 李立燕;楊國緯;;中文自動(dòng)文摘系統(tǒng)研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

3 彭淵;趙鐵軍;鄭德權(quán);于浩;;基于特征句抽取的網(wǎng)頁去重研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 李帥;黃璽瑛;董家瑞;;一種基于神經(jīng)網(wǎng)絡(luò)的特定文本信息提取方法[A];第十屆中國科協(xié)年會(huì)論文集(一)[C];2008年

5 王孟;白清源;謝麗聰;謝伙生;張瑩;;一種含有負(fù)項(xiàng)的關(guān)聯(lián)文本分類[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

6 張剛;劉挺;秦兵;車萬翔;李生;;面向信息內(nèi)容安全的文本過濾系統(tǒng)研究[A];自然語言理解與機(jī)器翻譯——全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年

7 吳云芳;;并列結(jié)構(gòu)的外部句法特征[A];機(jī)器翻譯研究進(jìn)展——2002年全國機(jī)器翻譯研討會(huì)論文集[C];2002年

8 林達(dá)真;李紹滋;;基于模式分類的漢語時(shí)態(tài)確定方法研究[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年

9 唐云廷;;基于TSBT(Text Structure Binary Tree)的文本結(jié)構(gòu)的自動(dòng)分析[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

10 葉娜;羅海濤;朱靖波;張斌;;基于歸納邏輯編程的多槽信息抽取規(guī)則自動(dòng)學(xué)習(xí)方法[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 本報(bào)記者 胡珉琦;論文反抄襲軟件被“攻克”[N];北京科技報(bào);2011年

2 wally;給你的電腦找個(gè)“機(jī)器傭人”[N];中國計(jì)算機(jī)報(bào);2004年

3 北京數(shù)碼空間信息技術(shù)有限公司技術(shù)總監(jiān) 劉斌;Web Mining:第二代網(wǎng)絡(luò)信息處理技術(shù)[N];計(jì)算機(jī)世界;2000年

4 咕咚;Blog: 從技術(shù)出發(fā)[N];計(jì)算機(jī)世界;2003年

5 俞揚(yáng);“洪武趕散”與泰州方言[N];泰州日報(bào);2006年

6 林俊銘;漳州地名用字解析[N];閩南日報(bào);2008年

7 云南 張康宗;安全至上[N];電腦報(bào);2003年

8 朱莉;互聯(lián)網(wǎng)應(yīng)用你知道多少?[N];中國電腦教育報(bào);2006年

9 盧偉;文學(xué)語言的語料庫研究方法[N];文藝報(bào);2004年

10 記者 鄭維富;父子著書解密溫州方言[N];浙江日報(bào);2004年

相關(guān)博士學(xué)位論文 前10條

1 溫昌衍;客家方言特征詞研究[D];暨南大學(xué);2001年

2 曹廷玉;贛方言特征詞研究[D];暨南大學(xué);2001年

3 符其武;瓊北閩語詞匯研究[D];廈門大學(xué);2007年

4 郭永明;XML文檔交互式信息檢索技術(shù)研究[D];東華大學(xué);2010年

5 易高翔;粗糙集在Web挖掘中的應(yīng)用研究[D];華中科技大學(xué);2006年

6 楊創(chuàng)新;基于機(jī)器學(xué)習(xí)的高性能中文文本分類研究[D];華南理工大學(xué);2009年

7 王進(jìn);《元曲選》祈使句研究[D];華中科技大學(xué);2008年

8 祝翠玲;基于類別結(jié)構(gòu)的文本層次分類方法研究[D];山東大學(xué);2011年

9 羅芳;意見挖掘中若干關(guān)鍵問題研究[D];武漢理工大學(xué);2011年

10 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年

相關(guān)碩士學(xué)位論文 前10條

1 孫群虎;基于空間分布和信息熵的特征詞提取方法[D];大連理工大學(xué);2010年

2 邱培超;基于特征的觀點(diǎn)挖掘中的若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2011年

3 蔣磊;面向產(chǎn)品評論的意見挖掘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年

4 王金花;一種利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[D];河北大學(xué);2011年

5 劉林浩;網(wǎng)絡(luò)熱點(diǎn)新聞事件挖掘和跟蹤分析方法的研究與實(shí)現(xiàn)[D];中南大學(xué);2010年

6 董慧;基于多元權(quán)重特征加權(quán)的中文文本分類算法[D];中北大學(xué);2011年

7 唐俊;復(fù)雜網(wǎng)絡(luò)在網(wǎng)絡(luò)新聞信息處理中的應(yīng)用研究[D];西南交通大學(xué);2012年

8 龔穗豐;南昌話特征詞研究[D];蘇州大學(xué);2005年

9 李佳;中國古典詩詞英譯中文化特征詞的翻譯[D];曲阜師范大學(xué);2012年

10 李存青;中文意見挖掘中的特征詞提取以及情感傾向分析[D];重慶大學(xué);2010年

,

本文編號:2260371

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2260371.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d482c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com