基于文本信息抽取的高鐵車載設(shè)備故障發(fā)現(xiàn)的理論與方法
本文關(guān)鍵詞:基于文本信息抽取的高鐵車載設(shè)備故障發(fā)現(xiàn)的理論與方法 出處:《北京交通大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 車載設(shè)備 Log日志文件 交接班記錄 故障發(fā)現(xiàn) 信息抽取 故障字典
【摘要】:列車運(yùn)行控制系統(tǒng)(簡稱列控系統(tǒng),Chinese Train Control System,CTCS),由地面設(shè)備系統(tǒng)和車載設(shè)備系統(tǒng)構(gòu)成,車載設(shè)備系統(tǒng)對(duì)高鐵的運(yùn)行起著至關(guān)重要的作用。車載計(jì)算機(jī)運(yùn)行中形成的Log日志文件和工作人員撰寫的交接班記錄中包含著大量的、反映車載設(shè)備運(yùn)行狀態(tài)的信息,是車載設(shè)備故障發(fā)現(xiàn)和診斷的重要依據(jù)。然而對(duì)這兩類文本數(shù)據(jù)的利用目前仍局限于工作人員人工記錄、查詢和解讀,存在效率低、主觀性強(qiáng)、缺乏理論指導(dǎo)意義等一系列問題。本文針對(duì)以上問題,通過對(duì)上述兩類文本進(jìn)行信息抽取和整理,建立了較為完備的故障字典;基于正則表達(dá)式方法,結(jié)合Matlab仿真,實(shí)現(xiàn)了 Log日志文件語句的自動(dòng)定位,開發(fā)了車載設(shè)備故障發(fā)現(xiàn)的自動(dòng)化處理平臺(tái);從而提高了工作人員交接班故障發(fā)現(xiàn)、記錄和分析流程的工作效率;避免了以往人工處理的主觀性;所構(gòu)建的故障字典對(duì)故障發(fā)現(xiàn)和進(jìn)一步研究具有指導(dǎo)意義。本文的工作主要有以下幾個(gè)方面。首先,本文介紹了高鐵車載設(shè)備的基本結(jié)構(gòu)及本文研究需要的兩類數(shù)據(jù)源,即:車載計(jì)算機(jī)Log日志文本及工作人員交接班記錄文本;分析了兩類文本文件的數(shù)據(jù)特點(diǎn),總結(jié)了信息抽取算法等研究成果;采用數(shù)據(jù)挖掘工具WEKA與SQL Server數(shù)據(jù)庫相結(jié)合的方式進(jìn)行處理探索,發(fā)現(xiàn)了常規(guī)故障文本數(shù)據(jù)挖掘的問題。結(jié)合兩類文本數(shù)據(jù)特點(diǎn),確定了故障發(fā)現(xiàn)與自動(dòng)定位的研究框架。其次,確定了最大匹配分詞算法和TFIDF算法對(duì)工作人員交接班記錄和Log日志文件進(jìn)行信息抽取,構(gòu)建了標(biāo)準(zhǔn)化的故障字典,并且針對(duì)Log文件非結(jié)構(gòu)化的特點(diǎn)利用正則表達(dá)式算法實(shí)現(xiàn)了故障語句的自動(dòng)定位。最后,利用Matlab編程實(shí)現(xiàn)了基于兩類文本文件的故障自動(dòng)發(fā)現(xiàn)與定位,搭建了適用于Windows系統(tǒng)的故障發(fā)現(xiàn)人機(jī)交互平臺(tái),并基于已有的Log日志文件對(duì)平臺(tái)進(jìn)行了實(shí)用性展示。
[Abstract]:Train operation control system (short train control system, Chinese Train Control System, CTCS) is composed of ground equipment system and vehicle mounted equipment system. Vehicle mounted equipment system plays a vital role in high-speed rail operation. The Log log files formed by the on-board computer and the shift records written by the staff contain a lot of information that reflects the running state of the on-board equipment, which is an important basis for vehicle equipment fault detection and diagnosis. However, the utilization of these two kinds of text data is still limited to staff's manual record, query and interpretation, and there are a series of problems such as low efficiency, subjectivity and lack of theoretical guidance. In this paper, aiming at the above problems, through information extraction and the arrangement of the two types of text, a fault dictionary is complete; regular expression based on the method of combining Matlab simulation, realizes the automatic positioning of the Log log file statement, automated processing platform to develop the fault vehicle equipment found; to improve the staff shift fault detection recording and analysis of process efficiency; avoid the manual processing of subjectivity; fault dictionary constructed for fault detection and further research has significance. The main work of this article is the following aspects. Firstly, this paper introduces two types of data sources, this paper studies the basic structure and the high speed rail vehicle equipment needed: the on-board computer Log log text and staff log text; analyzed the characteristics of data file text two, summarizes the information extraction algorithm research; using data mining tool WEKA and SQL Server the combination of the database of exploration, discovery of conventional fault text data mining problem. Combining the characteristics of two types of text data, the research framework of fault discovery and automatic location is determined. Secondly, to determine the maximum matching word segmentation algorithm and TFIDF algorithm to extract information from staff log and Log log files, build a fault dictionary standard, and according to the characteristics of unstructured Log file using the regular expression algorithm can automatically locate the fault statement. Finally, we use Matlab programming to realize automatic fault location and location based on two kinds of text files. We build a fault detection human-machine interaction platform for Windows system, and display the platform based on the existing Log log files.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:U279.323;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙陽;徐田華;;基于文本挖掘的高鐵信號(hào)系統(tǒng)車載設(shè)備故障診斷[J];鐵道學(xué)報(bào);2015年08期
2 莫建文;鄭陽;首照宇;張順嵐;;改進(jìn)的基于詞典的中文分詞方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年05期
3 石先明;;探究列控系統(tǒng)對(duì)動(dòng)車組制動(dòng)系統(tǒng)故障后的安全防護(hù)作用[J];鐵路通信信號(hào)工程技術(shù);2013年01期
4 李紅衛(wèi);楊東升;孫一蘭;韓娟;;智能故障診斷技術(shù)研究綜述與展望[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年02期
5 張友兵;馬麟;張國振;崔俊鋒;王天嬌;;CTCS-3級(jí)列控車載記錄下載器的軟件設(shè)計(jì)[J];鐵道通信信號(hào);2012年12期
6 劉海峰;陳琦;張以皓;;一種基于互信息的改進(jìn)文本特征選擇[J];計(jì)算機(jī)工程與應(yīng)用;2012年25期
7 郭亞維;劉曉霞;;文本分類中信息增益特征選擇方法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年27期
8 奉國和;鄭偉;;國內(nèi)中文自動(dòng)分詞技術(shù)研究綜述[J];圖書情報(bào)工作;2011年02期
9 劉劍;陳一超;江虹;;基于規(guī)則的通用專家知識(shí)庫故障診斷方法[J];計(jì)算機(jī)與數(shù)字工程;2010年06期
10 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
相關(guān)博士學(xué)位論文 前2條
1 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年
2 劉赫;文本分類中若干問題研究[D];吉林大學(xué);2009年
相關(guān)碩士學(xué)位論文 前7條
1 陳航宇;正則表達(dá)式匹配算法研究[D];燕山大學(xué);2016年
2 王峰;基于文本挖掘的高鐵車載設(shè)備故障診斷方法研究[D];北京交通大學(xué);2016年
3 王振顯;基于案例推理的高鐵信號(hào)系統(tǒng)車載設(shè)備故障診斷[D];北京交通大學(xué);2015年
4 李原;中文文本分類中分詞和特征選擇方法研究[D];吉林大學(xué);2011年
5 邊曉亞;模糊貝葉斯決策方法在城市交通系統(tǒng)中的應(yīng)用[D];華中科技大學(xué);2011年
6 楊威;基于正則表達(dá)式的Web信息抽取系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2011年
7 鄭佩;基于案例推理的故障診斷技術(shù)研究[D];華中科技大學(xué);2008年
,本文編號(hào):1341591
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1341591.html