一、引言
有經濟活動即有資金運動,有資金運動即需要支付系統的支撐。自2002年10月大額實時支付系統在北京、武漢成功投產試運行以來,經過人民銀行十年的建設推廣,目前,我國已建成以大額實時支付系統和小額批量支付系統為核心,全國支票影像交換系統、境內外幣支付清算系統、電子商業匯票系統和網上支付跨行清算系統組成的支付清算系統,為經濟金融和社會發展提供了快速高效、安全可靠的支付、清算和結算渠道,對加快社會資金周轉,提高支付清算效率,促進國民經濟又好又快發展發揮著越來越重要的作用。隨著我國社會經濟的不斷發展和金融體制改革的不斷深入,特別是有關信息科學技術的不斷進步,我國支付清算網絡的覆蓋不斷擴展,功能和效率日益改進,參與者規模不斷擴大,業務量呈快速增長之勢,系統中沉淀了大量資金匯劃的金融數據,如何充分利用這些數據資源進行深度挖掘和加工,為預測經濟走勢,防范支付風險,維護金融穩定做出貢獻,具有十分重要的意義。
二、數據挖掘技術
數據挖掘或稱為知識發現,也稱為基于數據庫存的知識發現,是20世紀90年代中期興起的新技術,通過信息技術對大量的數據進行探索和分析的過程,在浩如煙海的數據中提取有用、有效的信息,發現數據中有用模式和規律,幫助解釋當前的行為或預測未來的結果,以人們容易理解的形式提供有用的決策信息。
數據挖掘是KDD(Knowledge Discovery in Database)中的重要技術,它并不是用規范的數據庫存查詢語言(如SQL)進行查詢,是對數據庫中的大量數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助決策的關鍵性數據,進行模式的總結和內在規律的搜索,深入研究發生的原因,并且以一定的置信度對未來進行預測,用來為決策行為提供有利的支持。
數據挖掘常用的技術有:
(一)傳統統計分析。這類技術包括相關分析、回歸分析及因子分析等,一般先由用戶提供假設,再由系統利用數據進行驗證。
(二)神經元網絡。神經網絡可以很容易地解決具有上百個參數的問題。它常用于兩類問題:分類和回歸,很多數據挖掘工具和軟件都包含了該技術。如俄羅斯的 PolyAnalyst,美國的BrainMaket,Neurosell和OWL等,它也是目前在金融應用分析中采用最多的挖掘技術。
(三)決策樹。決策樹提供了在什么條件下會得到什么值這類規則的方法,該方法的應用也非常廣泛,主要用于分類。
(四)基于事例的推理方法。基本思路是當預測未來情況或進行正確決策時,系統尋找與現有情況相類似的事例,并選擇最佳的相同的解決方案。
(五)遺傳算法。遺傳算法是一種基于生物進化過程的組合優化方法,其基本思路是隨著時間的更替,只有適合的物種才得以進化。將這種思想用于數據挖掘就是根據遺傳算法獲得最佳模型,并據此對數據模型進行優化。
(六)非線性回歸方法。這種方法的基礎是,在預定的函數的基礎上,尋找目標度量對其他多種變量的依賴關系。
(七)基于貝葉斯網絡的方法。貝葉斯網絡(Bayesian network),又叫概率因果網絡、信任網絡、知識圖等,是一種有向無環圖。
三、數據挖掘對支付系統數據可行性分析
支付系統運行中產生的業務數據具有數據量大、動態性強、關系復雜的特點,傳統的金融分析所采用的模型往往是在某些苛刻的假設條件上建立的,形式牙是一些簡單的數學表達式,雖說這些模型簡潔具有較好的可解釋性和可理解性,但建立的模型假設條件多,它在某種程度上損傷了分析結果的精確性,實際應用難以奏效。而數據挖掘技術在某些方面突破了這種限制,能夠從中挖掘出隱含的、求知的、用戶可能感興趣的和對決策有潛在價值的知識和規則。
(一)數據量大
支付系統業務數據量非常龐大,每天都不斷涌出大量新的數據,傳統的分析法分析處理能力非常有限,而數據挖掘技術,我們從其定義即可看出,它面向的就是大數據量,特別是它與數據倉庫的結合更是加強了其海量數據處理能力。
(二)動態性強
支付系統數據中所包含的規律時效性往往非常強,隨著時間的變化,經濟環境的變化規律也在不斷更迭,數學形式的預測模型很難及時適應這種變化,而采用數據挖掘技術可以在不斷獲得新數據后自動對模型進行動態更新以適應新的環境,此外可視化也是數據挖掘技術的一個重要方面,即它通過圖表的形式直觀地將分析過程和分析結果表述出來,能夠逐步引導分析者對問題的靈感,這一點對金融分析尤其重要,而傳統的分析方法是很難做到的。
(三)關系復雜
一個金融變量的取值可能和很多因素有關,這種相關可能是線性的也可能是非線性,也許能以初等函數形式來描述,也許根本無法以數學形式表示,數學形式的預測模型固然簡潔,具有較好的解釋性和可理解性,但同時也是其缺陷所在,即它的變量個數不可能很多,函數關系也不可能太復雜。數據挖掘技術接受幾百上千個變量也并不是太難的事,而且它表達的關系可以非常復雜,甚至無法以數學形式描述,如神經網絡表達的變量間的關系是非常復雜的。此外數據挖掘表達邏輯關系的能力也非常強,這是傳統的統計分析法非常欠缺的。
四、數據挖掘的主要步驟
對支付系統產生的海量數據進行數據挖掘并非一件易事,需要進行目標定義、數據收集、數據整理、數據挖掘、結果評估和分析決策幾個步驟:
(一)目標定義
對目標有一清晰、明確的定義,也就是確定需要解決的問題,這個目標應是可行的、能夠操作與評價的。
(二)數據收集
大量全面豐富的數據是數據挖掘的前提,沒有數據,數據挖掘也就無從做起。因此,數據收集是數據挖掘的首要步驟。業務數據必須從支付系統數據庫存獲取,數據源必須確保真實、完整。
(三)數據清理
數據清理是數據挖掘的必要環節。由于數據收集階段得到的數據可能有一定的“污染”,表現在數據可能存在自身的不一致性,或者有缺失數據的存在等,通過數據整理,可以對數據做簡單的泛化處理,對數據進行清洗和充實,從而在原始數據的基礎之上得到更為豐富的數據信息,進而便于下一步數據挖掘的順利進行。
(四)數據挖掘
利用人工智能、數理統計等各種數據挖掘方法對數據進行分析,發現有用的知識與模式,這是整個過程的核心步驟。
(五)數據挖掘結果的評估
數據挖掘的結果存在有實際意義的、沒有實際意義的和與實際情況相違背的,需要進行評估,進而修正數據挖掘模型。
(六)分析決策
數據挖掘的最終目標的是輔助決策。決策者可以根據數據挖掘的結果,結合實際情況,調整競爭策略等。
五、支付系統數據挖掘應用
(一)支付系統資金流對GDP的影響
GDP是衡量一國(或地區)綜合實力的重要經濟指標。能夠反映出經濟增長狀況和宏觀經濟運行趨勢,統計計算周期較長,而支付系統資金流動能夠反映一段時期內真實發生的資金往來情況,時效性極強。近年來,國內學者對資金流動與經濟發展關系研究表明,資金流動性強弱與經濟繁榮程度有關,資金流動對生產要素的再配置,不僅為投資者帶來更大經濟效益,而且促進國民經濟發展。通過對支付系統資金流進行數據挖掘,揭示二者間的近似定量關系,將有助于通過支付系統真實發生的資金流量數據近似反映宏觀經濟運行態勢,提供動態決策信息參考。
(二)支付系統資金流與貨幣供應量相關性
貨幣供應量作為我國貨幣政策的中間目標,其變動影響支付系統資金流的大小。隨著支付系統功能的日益完善,網絡覆蓋不斷擴展,經濟交易主體逐漸由傳統的現金交易向非現金交易轉變,減少了現金流通,從而能夠減少使用貨幣交易的成本。同時,支付系統的安全、快捷和高效,加速了社會資金周轉速度,影響社會實際貨幣供應總量。建立數據分類模型,采用回歸分析方法分析兩者的相關性,驗證兩者之間的影響機制和影響程度,為中央銀行更好地實施貨幣政策提供參考。
(三)為反洗錢監控提供參考數據
金融犯罪是當今金融業內面臨的棘手問題之一,其中洗錢活動日益猖獗,嚴重威脅國家安全。人民銀行作為國家反洗錢行政主管部門,負責反洗錢資金監測。支付系統是人民銀行建設的用于跨行資金清算的應用系統,每日產生海量的資金交易數據,通過對數據篩選、識別、分類,把數據從微觀到宏觀分為交易層、賬戶層、商業網絡層,將大額和可疑交易量化標準,采用決策樹等分類方法,建立反洗錢監測分析模型,實現對支付系統數據的自動監測,從而快速發現短時間內少數人員之間的異常巨額資金流動,發現可疑線索,提高反洗錢監測分析效率。
(四)對支付系統全年業務量分布及趨勢分析
通過對支付系統中時間序列數據進行分類,采用多種數據挖掘工具,建立業務數據倉庫,利用貝葉斯網絡建立系統運行風險管理系統,研究業務處理峰值、業務分布,從而找出系統運行的規律和變化,對業務量分布趨勢分析預測,為合理配置運維資源,確保系統安全穩定運行提供參考依據。
(五)資金流與行業景氣指數的關聯性
資金流的平均流速在一定程度反映了企業的景氣程度,企業越景氣,發展狀況越好,貿易越頻繁,與其相關的資金來往就越多,資金流的平均增速就越快。資金的流動性也體現出行業的活躍程度,從而反映出行業的景氣程度。按行業類別對支付系統資金流進行分類,建立相應的分類數據模型,從而發現資金流平均增速與行業 (企業)景氣指數之間的關聯,研究資金流量和流速對行業(企業)景氣度的影響程度。
六、結束語
數據挖掘在支付系統數據中的應用才剛剛開始,有待于進一步的研究、開發、推廣,面對支付系統中大量有價值的數據信息,我們應該重點研究數據挖掘技術在反映經濟運行指標、反洗衣錢監測、運行維護等方面的應用,隨著人們對數據挖掘技術的深入研究,數據挖掘技術必將在金融領域得到更加廣泛的應用,并取得更加顯著的效果,為人民銀行更好履行中央銀行職責做出貢獻。
版權聲明