校園一卡通系統(tǒng)挖掘學生異常行為淺析
文章出處:http://m.botanicstilllife.com 作者:吳慧韞 王河堂 人氣: 發(fā)表時間:2011年07月09日
當前,在高校擴招和學生隊伍總量不斷增大的背景下,高校學生異常行為的人數(shù)呈上升趨勢,一些違法、違紀、違俗、違德等異常行為時有發(fā)生,而學生管理工作者也往往因為學生異常行為發(fā)生前的“苗頭”把握不準,常常處于當“消防員”的被動局面。
如何利用現(xiàn)代化的手段對學生早期異常行為進行檢測與控制,幫助管理者及時發(fā)現(xiàn)有問題的學生,從而進行有針對性的教育與幫助,具有十分重要的意義。
一卡通數(shù)據(jù)來源
近年來,隨著計算機網(wǎng)絡和數(shù)據(jù)庫技術的日漸完善,國內(nèi)不少大學都相繼建立了校園一卡通系統(tǒng)。校園一卡通系統(tǒng)是數(shù)字化校園的重要組成部分,它為數(shù)字化校園的建設提供了全面的數(shù)據(jù)采集和良好的信息共享環(huán)境。
該系統(tǒng)的開發(fā)建設將進一步提高信息化管理水平,實現(xiàn)由面向計算機的管理轉變?yōu)槊嫦驍?shù)據(jù)管理。而目前大多數(shù)高校僅僅停留在使用一卡通系統(tǒng)的基礎上,殊不知可在此基礎上建立數(shù)據(jù)倉庫系統(tǒng),實現(xiàn)對各部門生成的大量數(shù)據(jù)的科學提取、凈化、存儲,從而使得信息系統(tǒng)滿足從業(yè)務處理到中層管理的控制,以及通過對各階段各部門的數(shù)據(jù)進行統(tǒng)計、分析、挖掘,最終達到為領導決策提供支持的目的。
校園一卡通系統(tǒng)一旦建成,它所采用的校園卡可替代現(xiàn)有的多種證件,包括:學生證、工作證、身份證、借書證、閱覽證、醫(yī)療證、會員證、就餐卡和錢包等。
校園一卡通系統(tǒng)的主要數(shù)據(jù)來源:
1.學生入校時填寫的各種登記表格、各學期注冊情況登記等相關文檔。
2.學生在食堂就餐時的劃卡記錄。
3.學生體檢情況、就醫(yī)情況的醫(yī)療記錄。
4.圖書館學生借書情況登記、進出圖書館閘機記錄等。
5.校內(nèi)各種開放設施的劃卡消費情況記錄,如公共機房、校體育設施、校賓館飯店。
6.學生早鍛煉情況的記錄。
7.學生通過門禁系統(tǒng)出入各建筑樓宇的記錄。
這些數(shù)據(jù)均可以從數(shù)字化校園中的公共數(shù)據(jù)平臺及相關職能部門的信息管理系統(tǒng)中導出、匯總進入數(shù)據(jù)倉庫。
利用數(shù)據(jù)挖掘異常行為
數(shù)據(jù)的條件獨立性
一般說來,數(shù)據(jù)的獨立性包括條件獨立性、因果獨立性與上下文獨立性。這些獨立性關系,都對數(shù)據(jù)分析具有重要的作用。
條件獨立性是指在某些變量給定時,其他部分結點相獨立,因此只要找出特定的給定變量,即可為決策提供足夠的支持,這稱為條件獨立性。因果獨立性是指變量之間的直接影響,但是并沒有對如何依賴作出約束。一些情況下,多個變量相互合作,對某變量共同產(chǎn)生影響。但是,很多情況下,各變量獨自對其他變量起作用,原因變量之間沒有合作,此時原因變量對結果變量的影響是因果獨立的,這稱為因果獨立性。
通常每個變量都帶有條件概率標,在各原因變量狀態(tài)組合的每種取值情況下給出結果變量的每種取值的條件概率。條件概率表一方面需要的條件概率數(shù)目是原因變量結點數(shù)目的指數(shù)冪,另一方面無法捕捉原因變量概率分布的某些規(guī)律。這是第三種獨立關系,稱為上下文獨立性,通常可以采用條件概率樹的形式對上下文獨立關系進行表示。本文以條件獨立性為例,對一卡通的數(shù)據(jù)信息進行研究。
一般地,若變量E和F在G給定(p(G)≠0)時,滿足下列條件之一時是條件獨立的:
1. P(E|F∩G)=P(E|G) 且 P(E|G)≠0,P(F|G)≠0
2.P(E|G)=0 或 P(F|G)=0
基于條件獨立性的數(shù)據(jù)分析
為了提高有問題學生認定的準確率與有效性,針對一卡通的相關數(shù)據(jù)流進行以下幾個方面的分析:
1.根據(jù)學生入學時填寫的各種記錄表初步了解其基本情況。
2.通過分析長期的學生的金融消費數(shù)據(jù)以及樓宇身份認證等數(shù)據(jù)計算月平均開銷、出入教師或圖書館的頻率、早鍛煉的積極性等,給出認證偏低區(qū)間的實證結果。這可用來發(fā)現(xiàn)性格內(nèi)向但不愿向師長和同學說明情況的學生。
3.根據(jù)校內(nèi)各種開放設施的劃卡消費及認證情況記錄計算月平均開銷及各種活動的出勤情況。對于月開銷較大或出勤情況反常的學生應深入了解情況,杜絕個別學生思想臨時出現(xiàn)緊急波動的情況。
4.根據(jù)體檢情況、就醫(yī)情況的醫(yī)療記錄關注有問題學生的健康狀況。對于健康狀況較差的有問題學生應加大援助的力度。
5.根據(jù)上機情況、圖書館借閱情況及考試成績了解有問題學生的學習努力程度。
本文針對上述的第二條中的數(shù)據(jù)進行重點的數(shù)據(jù)挖掘,同時針對初步結果,再結合第一、三、四、五條進行聚類分析,試圖尋找到消費和認證行為的某些相關性及條件獨立性,從而有助于學校及早發(fā)現(xiàn)思想有問題的學生,為教師進行思想有問題學生決策提供更準確的數(shù)據(jù)支持。
一卡通信息的數(shù)據(jù)挖掘
1.數(shù)據(jù)準備:由于一卡通的流水數(shù)據(jù)中有許多龐大的價值較低的數(shù)據(jù),因此,現(xiàn)有的一卡通流水數(shù)據(jù)必須經(jīng)過數(shù)據(jù)的預處理后才能變成挖掘的對象。
(1)將卡流水交易數(shù)據(jù)庫分割成小的數(shù)據(jù)表。我們將校園卡流水交易數(shù)據(jù)庫分成若干張細表,每個表為一個月的數(shù)據(jù),少則幾萬(假期),多則上百萬條記錄。
(2)通過卡號將存在于卡流水交易數(shù)據(jù)庫和用戶資料表的數(shù)據(jù)搜索出來,為數(shù)據(jù)挖掘提供數(shù)據(jù)源。
(3)計算屬性:由于集成幾個數(shù)據(jù)庫而得到的數(shù)據(jù)依然反映的是每次刷卡交易的記錄,實際情況是消費或認證可能在某處的一個或多個POS機上完成。因此需根據(jù)刷卡的時間進行分段求和,我們把一天分成三個時間段(0∶00~10∶00,10∶00~15∶00,15∶00~24∶00),在這三個時間段內(nèi)的刷卡記錄分別歸為早、中、晚三個階段,因此對于每一個卡號用戶必須分別按這三個時段統(tǒng)計出三個階段的刷卡頻率。
本地學生周末通常不在學校,因此需要特殊處理;考試期間由于學業(yè)繁重,早鍛煉的頻率也將正常下降,此時也需要特殊處理。但為了分析結果的準確性,不能清洗任何刷卡記錄。
2.建立數(shù)據(jù)倉庫
采用Microsoft Analysis Services建立數(shù)據(jù)倉庫:首先新建數(shù)據(jù)倉庫DSS,數(shù)據(jù)源自于上述經(jīng)過預處理的一卡通數(shù)據(jù)庫;然后建立多維數(shù)據(jù)集,將所有數(shù)據(jù)按月劃分為多個數(shù)據(jù)表,每個數(shù)據(jù)表建立一個多維數(shù)據(jù)集,選擇刷卡金額或認證次數(shù)為度量值,通過POS機具信息表、賬戶信息表、認證信息表建立維度表。
3.知識分析
根據(jù)一個月的情況,計算出每個學生的每月學習日的刷卡次數(shù)(X)。
這里我們定義以下幾個指標:每月學習日正餐消費次數(shù)(X)、每月學習日正餐最低消費次數(shù)參考值(M)、學習日正餐的一餐消費額(Y)、學習日正餐的一餐消費額參考值(N)。
若滿足X≥M,以及Y<N,可認定為是刷卡次數(shù)偏低的群體,這個群體組成一個集合。結合該群體的基本信息如生源地、性別、年齡、年級等分析其相關性。
圖1 學生正餐消費次數(shù)與消費金額分布
圖1是學生正餐消費次數(shù)與消費金額分布圖示例。X軸為某月份(2010年9月份)學生正餐消費次數(shù)(除去每日早餐與周六、周日三餐),Y軸為該月正餐的一餐消費均值(單位為分),圖1抽樣數(shù)據(jù)為2010級所有學生(4150名)。管理者可以粗略地觀察消費均值集中分布區(qū)域,與消費次數(shù)集中分布區(qū)域。如需要進一步挖掘出低消費人群,需要在下文中進一步分析。
M和N是人為給定的,需要校方管理人員結合實情與經(jīng)驗給出,比如上例中,我們假定為M=15次,N=5.00元,則通過X≥15次,N<5.00元,可以找到圖1中相應的消費偏低的群體。
以上僅是一種理想的狀況,在真實的分析中,有時需要根據(jù)不同的聚類來調(diào)整參數(shù)以得到不同的分析結果。比如:刷卡消費偏低群體中性別比例與實際在校生的性別比差別很大時,可能是學習日男女活動的頻率差異參考值導致,因為男女生有較大差異,需要調(diào)整。我們抽樣的數(shù)據(jù)可以進一步按性別進行聚類分樣。
最后,通過學生基本信息庫的關聯(lián)分析,我們可以進一步得到:刷卡消費偏低與家庭情況的相關性、刷卡次數(shù)偏低與校內(nèi)其他開放設施的劃卡消費相關性、刷卡消費偏低與圖書館自習次數(shù)的相關性、刷卡消費偏低與就診次數(shù)的相關性等等,以此讓教師有更全面的判斷。例如對于刷卡消費偏低同時圖書館自習次數(shù)較多成績優(yōu)秀的學生應給予助學補助及勤工助學機會。
對于刷卡次數(shù)異常的學生,說明思想出現(xiàn)了波動,例如經(jīng)常不參加集體活動或經(jīng)常在正常上課時間外出等。學校根據(jù)分析結果,找出這些行為異常的學生名單,便于校方進行重點的思想教育活動。
數(shù)字化校園及一卡通系統(tǒng)中所存儲的學生信息、一卡通數(shù)據(jù),成為有問題學生的決策依據(jù),這僅是數(shù)據(jù)挖掘在數(shù)字化校園中的一個簡單應用,如何把數(shù)據(jù)挖掘技術和數(shù)字化校園更好地結合起來,為高校的管理、建設決策提供更完備的支持是各大高校接下來面臨的一個現(xiàn)實問題。