面向海量郵件的檢索系統(tǒng)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-06-07 13:06
隨著計(jì)算機(jī)的不斷發(fā)展和網(wǎng)絡(luò)的普及,電子郵件作為Internet的重要應(yīng)用,以其方便、快捷的特性而深受廣大網(wǎng)絡(luò)用戶的歡迎。不論是個(gè)人、企業(yè)、政府甚至包括軍方等,都在通過電子郵件來進(jìn)行日常生活和工作上的聯(lián)系。然而,非法商家和不法分子利用電子郵件推送廣告、病毒、不健康圖文以及破壞國家安定團(tuán)結(jié)的非法信息,對個(gè)人、企業(yè)和國家造成不同程度的安全隱患,F(xiàn)有的比較成熟的技術(shù)是郵件過濾,它能屏蔽一些垃圾信息,但不能阻止那些利用網(wǎng)絡(luò)偽造的破壞國家安全的信息隨處傳播。如何在浩瀚的信息海洋檢索到一些敏感信息,從而追蹤到可疑郵件以及可疑用戶成為現(xiàn)代信息安全的一個(gè)方向。因此迫切需要對海量郵件進(jìn)行有效的管理和安全監(jiān)控。針對此問題,本文分析了郵件的文檔特性及其格式,提出并設(shè)計(jì)了一個(gè)面向海量郵件的檢索系統(tǒng)。該系統(tǒng)能高效地檢索到用戶感興趣的郵件正文,收件人發(fā)件人等信息,從而有效地解決郵件信息的監(jiān)控管理。為了提高海量郵件的處理效率,本文重點(diǎn)研究了分布式解析,索引及查詢過程。首先介紹了郵件這一特殊文檔的相關(guān)理論背景,分析了郵件格式和郵件文檔的向量空間模型。接著,郵件索引采用傳統(tǒng)的倒排索引文檔。同時(shí),與普通的檢索系統(tǒng)不同,本系...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
查詢式Q=ka八(kbV}ifigure2-2QueryQ=ka八(keV-
Figure 2-1 Level Map of MIME Mail如果在郵件中要添加附件,必須定義 multipart/mixed 段;如果存在內(nèi)嵌資源,至少要定義 multipart/related 段;如果純文本與超文本共存,至少要定義multipart/alternative 段。總而言之,一個(gè)或多個(gè)不同的數(shù)據(jù)段合并在一個(gè)單一的體(body)中,實(shí)體的頭域必須指定 multipart 類型。multipart 諸類型的共同特征是,在段頭指定“boundary”參數(shù)字符串,段體內(nèi)的每個(gè)子段以此串定界。所有的子段都以“--”+boundary 行開始,父段則以“--”+boundary+“--”行結(jié)束。段與段之間也以空行分隔。MIME 郵件的整個(gè)結(jié)構(gòu)其實(shí)就是遞歸定義的。Content-Transfer-Encoding 指明了在傳輸主體時(shí)采用了哪種編碼方式及必須用哪種解碼方式將數(shù)據(jù)解碼成它的原始狀態(tài)。MIME 郵件可以傳送圖像、聲音、視頻以及附件,這些非 ASCII 碼的數(shù)據(jù)都是通過一定的編碼規(guī)則進(jìn)行轉(zhuǎn)換后附著在郵件中進(jìn)行傳遞的。編碼方式存儲在郵件的 Content-Transfer-Encoding域中,一封郵件中可能有多個(gè) Content-Transfer-Encoding 域,分別對應(yīng)郵件不同部分內(nèi)容的編碼方式。目前 MIME 郵件中的數(shù)據(jù)編碼普遍采用 Base64 編碼或 Quoted-printable 編碼來實(shí)現(xiàn):1. Base64 編碼
圖 4-5 索引流程Figure 4-5 Flow of Create Index4.4.2 分布式索引算法在解析后,采用特定的格式將解析數(shù)據(jù)存儲。這些在索引階段和后繼索階段被讀取。系統(tǒng)需要對海量的解析數(shù)據(jù)建立索引,索引過程中,將由產(chǎn)生的數(shù)據(jù)按 key/value 對讀取,key 為文件名,value 為解析后的數(shù)據(jù)。將 value 數(shù)據(jù)讀取出來,按不同的域建立索引。索引階段的 map 和 reduce 描述如圖 4-6 所示。4.4.3 增量式索引增量索引的思路是,每當(dāng)有新數(shù)據(jù)增加進(jìn)來進(jìn)行索引時(shí),就形成一段的索引數(shù)據(jù),這樣,當(dāng)越來越多的新數(shù)據(jù)進(jìn)行索引時(shí)就生成了一個(gè)索引數(shù)合,同時(shí)也生成了管理這些索引數(shù)據(jù)的索引信息集合(Segments),在索引
【參考文獻(xiàn)】:
期刊論文
[1]搜索引擎建立倒排索引的算法研究[J]. 王濤,吳潔明. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(01)
[2]MIME郵件格式分析及信息提取[J]. 孫濤. 計(jì)算機(jī)與信息技術(shù). 2007(06)
[3]面向?qū)ο蟮泥]件解析器的設(shè)計(jì)與實(shí)現(xiàn)[J]. 文英. 計(jì)算機(jī)與信息技術(shù). 2006(10)
[4]雙數(shù)組Trie樹算法優(yōu)化及其應(yīng)用研究[J]. 王思力,張華平,王斌. 中文信息學(xué)報(bào). 2006(05)
[5]基于PC機(jī)群的并行信息檢索系統(tǒng)[J]. 陳小華,趙捧末. 情報(bào)雜志. 2005(10)
博士論文
[1]基于語言模型的信息檢索系統(tǒng)研究[D]. 張俊林.中國科學(xué)院研究生院(軟件研究所) 2004
[2]分布式信息檢索的研究與應(yīng)用[D]. 潘謙紅.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 1999
本文編號:3216631
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
查詢式Q=ka八(kbV}ifigure2-2QueryQ=ka八(keV-
Figure 2-1 Level Map of MIME Mail如果在郵件中要添加附件,必須定義 multipart/mixed 段;如果存在內(nèi)嵌資源,至少要定義 multipart/related 段;如果純文本與超文本共存,至少要定義multipart/alternative 段。總而言之,一個(gè)或多個(gè)不同的數(shù)據(jù)段合并在一個(gè)單一的體(body)中,實(shí)體的頭域必須指定 multipart 類型。multipart 諸類型的共同特征是,在段頭指定“boundary”參數(shù)字符串,段體內(nèi)的每個(gè)子段以此串定界。所有的子段都以“--”+boundary 行開始,父段則以“--”+boundary+“--”行結(jié)束。段與段之間也以空行分隔。MIME 郵件的整個(gè)結(jié)構(gòu)其實(shí)就是遞歸定義的。Content-Transfer-Encoding 指明了在傳輸主體時(shí)采用了哪種編碼方式及必須用哪種解碼方式將數(shù)據(jù)解碼成它的原始狀態(tài)。MIME 郵件可以傳送圖像、聲音、視頻以及附件,這些非 ASCII 碼的數(shù)據(jù)都是通過一定的編碼規(guī)則進(jìn)行轉(zhuǎn)換后附著在郵件中進(jìn)行傳遞的。編碼方式存儲在郵件的 Content-Transfer-Encoding域中,一封郵件中可能有多個(gè) Content-Transfer-Encoding 域,分別對應(yīng)郵件不同部分內(nèi)容的編碼方式。目前 MIME 郵件中的數(shù)據(jù)編碼普遍采用 Base64 編碼或 Quoted-printable 編碼來實(shí)現(xiàn):1. Base64 編碼
圖 4-5 索引流程Figure 4-5 Flow of Create Index4.4.2 分布式索引算法在解析后,采用特定的格式將解析數(shù)據(jù)存儲。這些在索引階段和后繼索階段被讀取。系統(tǒng)需要對海量的解析數(shù)據(jù)建立索引,索引過程中,將由產(chǎn)生的數(shù)據(jù)按 key/value 對讀取,key 為文件名,value 為解析后的數(shù)據(jù)。將 value 數(shù)據(jù)讀取出來,按不同的域建立索引。索引階段的 map 和 reduce 描述如圖 4-6 所示。4.4.3 增量式索引增量索引的思路是,每當(dāng)有新數(shù)據(jù)增加進(jìn)來進(jìn)行索引時(shí),就形成一段的索引數(shù)據(jù),這樣,當(dāng)越來越多的新數(shù)據(jù)進(jìn)行索引時(shí)就生成了一個(gè)索引數(shù)合,同時(shí)也生成了管理這些索引數(shù)據(jù)的索引信息集合(Segments),在索引
【參考文獻(xiàn)】:
期刊論文
[1]搜索引擎建立倒排索引的算法研究[J]. 王濤,吳潔明. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2008(01)
[2]MIME郵件格式分析及信息提取[J]. 孫濤. 計(jì)算機(jī)與信息技術(shù). 2007(06)
[3]面向?qū)ο蟮泥]件解析器的設(shè)計(jì)與實(shí)現(xiàn)[J]. 文英. 計(jì)算機(jī)與信息技術(shù). 2006(10)
[4]雙數(shù)組Trie樹算法優(yōu)化及其應(yīng)用研究[J]. 王思力,張華平,王斌. 中文信息學(xué)報(bào). 2006(05)
[5]基于PC機(jī)群的并行信息檢索系統(tǒng)[J]. 陳小華,趙捧末. 情報(bào)雜志. 2005(10)
博士論文
[1]基于語言模型的信息檢索系統(tǒng)研究[D]. 張俊林.中國科學(xué)院研究生院(軟件研究所) 2004
[2]分布式信息檢索的研究與應(yīng)用[D]. 潘謙紅.中國科學(xué)院研究生院(計(jì)算技術(shù)研究所) 1999
本文編號:3216631
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/3216631.html
最近更新
教材專著