時間:2023-07-18 17:24:05
開篇:寫作不僅是一種記錄,更是一種創造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇統計學決策分析,希望這些內容能成為您創作過程中的良師益友,陪伴您不斷探索和進步。
只有在同一時間同一地區大量采集樣本,才有可能滿足RCT隨機對照實驗的樣本要求。RCT樣本問題可望在大數據時代得到解決,隨著泛在隨時采集樣本的大數據時代的到來,以及不間斷采集醫療數據的可佩戴設備出現,樣本數據的稀缺等問題將隨巨量數據消失。而隨著新型大數據分析挖掘工具的出現,特別是深度學習技術的不斷發展和應用,證據及其結論的準確可信性必將大大提高。目前,深度學習識別5749個人臉的精度已達99.15%,其準確程度已經超過人眼和大腦。因此,深度學習必將為循證醫學帶來一場新的革命。本文將分析循證醫學在數據證據獲取、分析、制作等方面所面臨的挑戰,介紹醫療大數據時代的數據采集、整合、分析和處理方法,介紹面向醫療大數據的深度學習技術自動提取疾病特征的原理和方法,以及醫療大數據及基于云計算的深度學習對循證醫學所帶來的各種變革。面向大數據的深度學習將特征提取與決策分析過程合二為一,大大降低了醫生在臨床及醫學研究中應用循證醫學的勞動強度。結合醫療大數據、云計算和深度學習的循證醫學,將克服過去數據證據稀少、偏頗、失信、不公、過時等不足,將具有更加廣闊的推廣應用前景和發展動力。
1循證醫學與數據證據
循證醫學,簡之就是“遵循證據的醫學”,又被稱為實證醫學。循證醫學重視醫生的臨床經驗,即傳統意義上的經驗醫學,同時又強調診斷、治療等決策應在臨床證據最為符合病癥的基礎上作出[1]。在循證醫學的創立、發展與傳播方面,英國的科克倫(ArchiebaldL.Cochrane)、美國的費恩斯坦(AlvanR.Feinstein)以及薩克特(DavidL.Sackett)做出了重大貢獻,成為循證醫學的奠基人。科克倫強調大規模隨機臨床試驗的重要性。他認為只有在大規模臨床試驗中使用隨機分組策略,才能避免因樣本分組而產生的選擇性偏差,保持對照組和試驗組樣本的背景因素平衡,從而才能做出最終正確的比較與評價。他建議及時將切實醫學證據傳播給使用者,接受專家評估并對可信度進行適當分級,以使醫學證據能被及時整理、歸納與更新。費恩斯坦奠定了現代流行病學的數理統計與邏輯基礎。從1970年到1981年,他在美國《臨床藥理學與治療學》雜志(ClinicalPharmacologyandTherapeutics)上,以“臨床生物統計學”(ClinicalBiostatistics)為題連續發表了57篇論文,將數理統計學和邏輯學導入到臨床流行病學,科學系統地建立了臨床流行病學的有關理論體系。薩科特則為循證醫學的傳播與發展做出了巨大貢獻。他發起并主編了與循證醫學有關的兩本著名雜志:《美國內科醫師學會雜志俱樂部》和《循證醫學》。
1997年,他還主編出版了《循證醫學》一書,該書被譯為多種文字并在世界上廣為傳播。正是在《美國內科醫師學會雜志俱樂部》上,加拿大蓋亞特(rdonH.Guyatt)于1991年首次提出了循證醫學一詞[3]。從循證醫學與數理統計和邏輯學的淵源,便可以看出循證醫學注重證據的內涵。它是一門非常強調證據制作的學科,同時又非常重視醫學證據的傳播和評估,這正是它區別于以往醫學的特點。通過評估產生可信證據,通過傳播發揮證據價值。醫生在診斷與治療過程中,不僅基于經驗直觀判斷,而且結合證據科學決策,更加客觀地進行診斷與治療。短短十多年的時間,在世界各國醫學研究與臨床實踐中,循證醫學得到了廣泛深入的應用。科克倫最初創建的世界循證醫學協作網已經包括約50個專業協作小組,所收集的醫療證據幾乎覆蓋所有臨床醫學領域。1996年,我國華西醫科大學建立了中國循證醫學中心,并于1999年正式加入世界循證醫學協作網;2001年,中國循證醫學中心創辦了《循證醫學》雜志,發表在各類雜志的循證研究論文達45842篇。但是,循證醫學也有其面臨的問題,如對證據進行科學評價等問題。臨床證據目前還沒有完整、科學的定義,證據評價標準及推薦級別尚未完全統一,不同國家不同疾病的證據質量分級不盡相同。而且,隨著人類對疾病認識的加深以及診療手段的革新,評價標準還會隨這些因素的變化而變化。
循證醫學的基礎是數理統計學,要求RCT的實驗樣本及環境一致,以便排除個體差異及環境干擾,但這在現有條件下近乎不可能實現。號稱大規模隨機對照實驗的樣本偏少,對照組和試驗組難有條件一致的個體,環境隨時間空間變化造成實驗對照控制困難。目前,大規模的醫學樣本采集困難,幾百個樣本已經算是比較大的樣本了;而根據統計理論如要達到90%的敏感度,至少需要約1300個的數據樣本。為了克服RCT樣本不足的問題,Meta分析方法得到了廣泛應用:通過綜合已有研究多個樣本集的結果,可以推得大規模樣本集的綜合結果。Meta分析取得了很多有價值的研究成果,但是,Meta分析的基礎也是數理統計學,其運用的前提是樣本及實驗環境一致,正是在這一點上它備受質疑。首先,不同樣本集的權重控制難于完全公正,因為其實驗環境難于恰當評價和把控,實驗結果難免有過度包裝和偏頗之嫌。Meta分析存在的另一個問題是:它所依賴的數據往往不是最新的即時案例,制作的證據可能因環境與氣候的變化而失去應用價值。總之,循證醫學所面臨的問題包括:證據的稀缺性、偏倚性、可靠性、及時性、公正性,以及環境的一致性等方面的問題。由于證據的一致性和及時性存在問題,基于歷史數據進行Meta分析備受質疑。2014年,《英國醫學雜志》在名為《循證醫學瀕臨破產》的文章中指出[5]:循證醫學的證據屬于間接證據,基礎建立在已經發表的研究文獻上,利益沖突容易影響證據的公正性,證據環境與臨床決策環境存在距離;循證醫學助長了過度診斷、過度治療,并可能存在淪落為利益集團代言人的危險。
2大數據對循證醫學的影響
大數據(Bigdata)又稱巨量或海量數據,是指數據規模巨大以至在合理時間內,無法通過當前主流軟件工具,獲取、處理、分析以便決策的結構復雜的數據[6]。大數據如下具有4V特點:Volume(巨量)、Velocity(瞬速)、Variety(多樣)、Value(價值)。巨量是指已經不能再用GB(即1024MB)和TB(即1024GB)為單位,來衡量大數據的存儲容量或規模,而要以PB(即1024TB)、EB(即1024PB)乃至ZB(即1024EB)為單位來計量數據容量。在巨量的醫療大數據中,各種條件的樣本都會存在,因此,證據的稀缺已經不是問題。瞬速是指兼具方向的快速變化,即數據隨時間和空間快速變化。大數據中的樣本通常是全空間的、多維度的、全時間的及瞬時變化的。由于大數據地域環境廣,數據樣本量巨大、正反樣本齊全,證據的“制作”已不再必要,而是隨時隨地客觀地存在。瞬速性通過可佩戴健康監測設備體現,這為及時獲取病患信息提供了極大便利。多樣是指數據的種類繁多、結構復雜、因果并存、甚至同一數據表現出不同形式。數據的多樣性對數據的理解和分析是一個巨大挑戰,但同時也為樣本分析結果的驗證帶來便利。因此,在醫療大數據環境下,不僅隨時可以采集樣本進行分析處理,還能對分析得到的結果馬上進行驗證,從而能夠保證醫學證據的可靠與可信。
價值是指相比小規模、歷史數據而言,大數據具有更高的研究和使用價值。由于任意時刻任意地點都有大量樣本,樣本的稀缺性和及時性已經不是問題,這為醫學研究掃清了采樣障礙;同時由于樣本豐富冗余多樣,也為研究結果的驗證提供了便利;大數據除具有巨量歷史數據外,還有不同地域環境的巨量即時數據,這使循證決策更具應用價值和時效性。大數據將首先改變醫學數據的采集方式。大數據的形成往往依靠自動采集技術,隨著可佩戴監測設備如iWatch等的出現,醫學數據的采集及積累速度將出現爆炸性的增長。以往的數據同大數據相比,如同滄海之一粟。且以往的數據往往靠手工采集完成,普遍存在稀缺、偏倚、可靠、及時、公正等問題,這樣采集的證據必然會影響醫學研究的結論。基于手工證據進行決策,其結論未必準確及時公正可靠。醫療大數據不間斷地在不同地點同時采集,不僅包含歷史數據以及即時數據,甚至還可能包含未來需求信息,例如,ogle就是通過人們對感冒藥品的搜索來預測流感的。大數據的出現將改變醫學數據的管理方式。在網絡數字化高度發達的今天,盡管已經出現了電子病歷,但紙張病歷在數據管理中仍然重要。然而,紙張病歷有其固有缺陷,如容易破損或丟失、整理歸檔的周期過長、借閱的時間成本極高、研究采樣的工作量巨大等等。伴隨大數據出現的數據融合技術能將不同醫院的電子病歷整合在一起,并同可佩戴健康監測設備的數據及時集成,大大減少了電子病歷的整理、借閱和數據采集時間,這不僅對病人的疾病診斷和預警監控更加有利,同時也對醫生的臨床及醫學研究更有幫助。通過語音和可視眼鏡等現代化的數據瀏覽設備,醫生在查房間隙就能獲知下一病人既往病情,從而能大大減少醫生的勞動強度,使醫生有更多時間治療病人,有更多的時間進行醫學研究。
大數據的出現將改變醫學數據的分析方式。以往在收集樣本數據以后,通常使用SAS或SPSS等軟件,對采集的數據進行統計分析,發現相關病因或建立決策模型。這些軟件受計算能力及內存容量的限制,只能處理樣本量不大的數據,并且處理的數據維數有限,例如,SPSS不能超過40維,而醫療大數據的維數成千上萬。通過手工或統計軟件的計算方法,將無法滿足醫療大數據的分析需要。
當維數超過30個致病因素時,可能要考慮230種因素組合,普通統計軟件已無法計算和處理,必須依靠內存及速度“無限”的云計算。必須研究與開發基于大數據和云計算的分析與挖掘技術如深度學習技術,使其能夠自動完成高維病因數據的分析與主要病因的提取。總之,醫療大數據的采集、整合、分析、處理、研究完全靠人工完成已極其困難,沒有利用云計算的統計分析軟件也難于完成醫療大數據的分析和處理。在大數據時代,必須借助深度學習等技術完成醫療大數據的分析和挖掘。雖然醫療大數據能夠彌補數據樣本的不足和不公,但只有借助更為先進的分析工具和軟件,才能為循證醫學帶來進一步的變革和發展。
3大數據對循證醫學的變革
證據制作是循證醫學的核心,證據能為醫生的診治提供參照,因此,循證醫學得到了快速發展。但是,矛盾、偏頗、過時的證據也使循證醫學備受質疑。首先是證據及其結論存在大量的矛盾,使人們對循證醫治的結果產生懷疑;其次是證據偏頗使其成為利益代言人的工具;其三是證據時過境遷使醫治達不到預期效果。而醫療大數據的出現恰好能夠彌補以往證據采集與制作的不足。首先,醫療大數據使證據的稀缺問題得到解決;其次,隨大數據廣泛匯集的醫生及病人評價,可有效避免證據成為利益代言人的工具;其三,可穿戴等自動采集設備可保證證據的時效性。這將有助于循證醫學同中醫的結合。中醫的治療過程通常比西醫長,其證據采集及療效評估存在很大問題,而隨著可穿戴健康監測設備等技術的發展,長期持續采集治療證據及療效將不再困難,從而有助于循證醫學在中醫等領域發展壯大。此外,隨大數據興起的先進數據分析與挖掘技術,將對循證醫學起到巨大的推進作用。臨床決策分析評價是確定循證治療方案的關鍵步驟,現有的決策分析評價模型包括決策樹、Markov過程等一系列模型,這些模型在面臨高維大數據時力不從心,難于繼續提供較高的決策精度,使醫生對醫治方案是否有效失去信心。隨著大數據深度學習技術的出現,病因的分析和提取已完全自動化,且大大降低了建立決策分析模型的工作量,提高了治療方案的決策精度。對于任何疾病診治方案,考慮的疾病致病因素越多,即證據或特征維數越多,得到的參考信息就越多,診治的準確性就會相應提高。但是,醫生在遇到大量高維的證據數據時,往往面臨從中選擇少數有效證據的難題。例如,假定要考慮30個致病因素或檢驗指標,建立決策模型就要考慮230種因素組合,從中篩選一個最優因素組合作為模型輸入的工作量是巨大的。因此,要得到由若干最優證據構建的最佳決策分析模型,醫生們所投入的研究精力可想而知。
篩選最優因素組合是醫生們最費精力的工作,目前這項工作可以被深度學習自動完成了。深度學習最早由Hinton等人在2006年提出,它是一種無監督的特征學習和提取技術,它通過低層特征的組合構建更加抽象的高層特征。2012年,Lecun等人利用卷積神經網絡真正實現了高效的多層深度學習。傳統的神經網絡學習只有單向認知過程,通常只包含一個隱含層,因層數較少而被稱為淺層學習。深度學習則包含認知和生成兩個過程,并且每個過程都包含多個隱含層,其模型的總體框架如圖1的虛框部分所示。如圖1所示,深度學習的“輸入層”可以理解為各種致病因素以及各種檢查化驗結果,例如遺傳環境因素以及肝功全套指標等;自底向上的箭頭表示認知過程,自頂向下的箭頭表示生成過程,即深度學習由兩個互逆的過程構成;認知權重向量WnT和生成權重向量Wn表示深度模型的知識。原始“輸入層”經“隱含層H0”認知得到輸出,輸出又經“隱含層h0”生成得到新“輸入層”,如果原始“輸入層”和生成的“輸入層”完全一致,則說明認知產生的輸出是完全正確的。根據信息論的有關理論,學是會產生損失,新舊輸入不可能完全一致。因此,只要兩者近乎一致就可以了。認知和生成權重同隱含層的每個輸出相關聯,wake-sleep深度學習算法用于雙向調節權重:(1)利用下層輸入和認知權重向量WiT產生輸出表示,然后使用梯度下降法調節生成權重向量Wi;(2)利用輸出表示和生成權重向量Wi產生輸入表示,然后使用梯度下降法調節認知權重向量WiT。通過逐層學習最終得到頂層的認知和生成權重向量WnT、Wn。在深度學習完成后,如果要建立決策分析模型,只需將頂層輸出即自動提取的特征,作為分類模型如支持向量機的輸入,并用類別標記如肝硬化分級訓練支持向量機,就可以得到用于決策分析的精確分類模型,分類模型如圖1的虛框外部所示。2014年,香港中文大學湯曉鷗教授領導計算機視覺研究組(mmlab.ie.cuhk.edu.hk),開發了一個名為DeepID的深度學習模型,在LFW數據庫上識別5749個人臉的準確率已達99.15%,其精細和準確程度已經超過了人眼和大腦。醫療大數據及深度學習必將為循證醫學帶來一場新的革命。不僅數據缺失、偏頗以及過時等問題會被迎刃而解,而且證據收集、制作以及診治方案的決策都將會自動化,這將擴大循證醫學在所有領域包括中醫等領域的應用范圍,大大降低醫生在證據制作、治療方案決策與療效評估等方面所付出的精力,推動循證醫學向更深更廣更加現代化的方向發展。
4總結
醫療大數據帶來的變革將是全方位的,它不僅為醫學研究和證據制作帶來便利,同時也將促進中醫等替代和補充醫學的發展。作為大數據采集的一項關鍵技術——便攜式/可佩戴健康數據自動采集技術,將大大提高醫療數據采集以及證據制作的效率,解決中醫等療效數據需要長期采集觀測的難題,彌補循證醫學存在的證據偏頗、不公、過時等缺陷,促進循證醫學更加客觀、公正、可靠地在臨床治療中應用。在循證醫學的證據評估以及利用方面,伴隨大數據出現的云計算能夠提高證據分析與處理的效率,大大節省醫生臨床應用和醫學研究所需要花費的時間;面向大數據的深度學習能夠從浩瀚的高維醫療數據中,自動完成疾病致病因素及環境因素等的篩選與提取工作,并能建立精度遠遠超過人腦的決策分析模型,從而大大提升醫生建立和應用循證治療方案的信心,有助于循證醫學被各科醫生更加廣泛地接受和應用。盡管深度模型包含更多的隱含層,其學習時間要遠遠長于淺層學習,但兩種模型的決策時間相差不大,因此,這并不妨害深度模型的有效應用。特別值得一提的是,深度學習將證據提取與決策分析兩個過程合二為一,大大降低了醫生在臨床及醫學研究中應用循證醫學的勞動強度。基于大數據、云計算和深度學習的循證醫學,由于能夠降低勞動強度、提升工作效率、提高決策精度,因而將具有更加廣闊的應用前景和發展方向。
5展望
關鍵詞:銀行數據挖掘;理論分析;典型算法;應用及效用
中圖分類號:TP311.13
銀行是現代經濟的標志,也是現代經濟活動中不可或缺的環節和工具,從銀行誕生應用以來,銀行業就需要處理大量的經營數據,銀行數據記錄手段也經歷了數個階段,從白紙黑字的賬本到計算機信息化時代的銀行數據信息系統,銀行數據業務可以在業務交易流程、數據庫建設、金融風險評估和經營決策分析等方面發揮極其重要的作用。從銀行業本身的發展來看,商業銀行的規模和類型都在逐年豐富,信息化和數字化的銀行業務模式也逐漸成為商業銀行的運行模本;現代銀行更加重視客戶本位思考,通過多樣化的市場需求分析手段,可以為客戶提供極具個性化的銀行業務產品服務,吸引更多的潛在客戶群;同時現代銀行的風險管控意識更強,在市場經濟節奏更快的當今社會,銀行經營決策的風險評估效果決定了現代銀行的經營走向;再者是網絡終端服務和移動終端服務的迅猛發展,銀行交易手段更加豐富,網上銀行、手機銀行、移動證券交易等等電子支付交易方式的發展給現代銀行帶來了新的機遇和挑戰,這一切都需要現代銀行在數據處理分析能力上有新的應對措施。
1 數據挖掘和數據效用理論基礎
數據挖掘的通用定義指的是從現有的大量存儲數據中,采用數據擷取的方式,搜尋出感興趣的、有價值的數據點或數據模塊的數據處理技術。數據挖掘廣泛地應用于商業金融領域,基于既定的商業化分析目標,可以依托于企業內部的金融數據系統進行數據分析,最終獲得需要的商業經營規律和市場發展規律,并且能夠在成熟的數據挖掘模型的支持下與其他分析工具和分析技術相結合,形成商業化的數據挖掘分析系統和分析軟件。數據挖掘的功能需求決定了數據挖掘是一個典型的學科交叉項目,現代銀行受到業務拓展發展的需求,在其數據挖掘技術的運用中廣泛地的結合了數據庫技術、智能學習技術、統計分析技術、模式識別技術、人工智能技術和神經網絡技術,數據挖掘常分為六個技術類別:聚類、分類、估值、預測、相關性分組和關聯規則分析、描述和可視化分析。
對數據資料的重視性促使了現代銀行對數據利用效率的不懈追求,現代化經營模式中,數據已經成為最為重要的無形商品,作為商品的數據資料,其資本性和營利性決定了信息數據的效益最大化,由于數據資料的復制成本低、附加值高且利潤豐厚的特點,數據信息價值理論已經成為數據效用分析的主要理論模式。
2 銀行數據挖掘的應用分析
2.1 數據挖掘在銀行客戶需求分析中的應用
現代銀行針對客戶資料和消費記錄都建立了功能龐大的消費市場數據庫系統,對銀行客戶的個人資料、賬戶信息、交易歷史記錄、業務服務歷史記錄、理財數據和個人理財風險評估等進行了數據庫倉儲式分析,基于成熟的數據倉庫邏輯分析模型,可以對每一個銀行客戶進行多維度消費分析,以交易歷史紀錄為例,交易歷史紀錄作為該分析維度下的分析主鍵字段,在其下端進行次元維度分析,對交易類型、交易金額、消費地點、存貸款交易、電子銀行消費、手機銀行消費、證券消費等進行子健分析,但是也要考慮到不同主鍵之間存在著較大的關聯性,此時可以考慮在客戶數據倉庫分析中建立星形數據模,在關聯數據子健上進行數據溢出處理。在數據挖掘中主要采用的是聚類算法,在對客戶數據進行詳細的數據倉庫建立之后,可以對客戶進行數據特征值標定(如商業價值、交易類型、風險傾向等),以便于進行客戶分類,在用戶細分時,行為特征是主要的特征,自然屬性是輔助的特性。
表1 聚類匯總表
業務類型 紙黃金 基金理財 外匯 個人金融 債券 貸款
業務渠道 柜臺 電話銀行 網上銀漢 手機銀行 自主服務 中間交易
由此可以得到詳細的客戶聚類,例如以年齡段為標準的20-30歲階段用戶(業務類型為紙黃金,業務渠道為網銀和自助服務)、30-40歲階段用戶(業務類型為外匯和金融,業務渠道為柜臺和自助)、40-50歲階段(業務類型為基金債券,業務渠道為柜臺服務)。
基于SQL Server Analysis Services分析工具,在銀行原始交易數據庫中進行聚類分析,選用Microsoft聚類算法對交易日志中的指定頁進行類型搜索,在后處理模塊中可以查看聚類分析結果。聚類算法進行數據挖掘時需要原始數據具有較強的分類性和數據關聯性,才能在數據挖掘中針對特定數據屬性和數據聚類進行分析,并且獲得該屬性在任意聚類中的數據分布情況,由此可以精確的知道特定類型客戶的銀行消費習慣和消費傾向,有助于銀行穩固現有客戶群,吸引潛在客戶群體。
2.2 數據挖掘在銀行決策分析中的應用
銀行經營的各個環節都基本實現了信息化管理,銀行綜合業務系統為其提供了基礎業務操作平臺和統一賬務處理系統平臺,能夠幫助銀行實現有效的資源整合和集中管理。數據挖掘技術的應用能夠全面提升銀行系統的內控管理和風險管控水平,為銀行的內部決策提供有效的數據支撐。
表2 數據挖掘與銀行決策關系
數據源 數據處理 數據存儲 決策分析
交易數據
客戶信息
管理信息
外部信息 數據抽取
數據整合
數據加載 數據倉庫 經營狀況決策分析
數據監控 數據節點1 資產負債決策分析
數據刷新 數據節點2 風險管理決策分析
數據包裝 數據節點3 客戶需求決策分析
數據公布 數據節點4 銀行財務決策分析
為了保障銀行的經營效益、提升業務覆蓋范圍并預防經營風險,銀行需要及時掌握市場動態并且做出經營調整,數據挖掘技術能夠跟蹤分析銀行經營過程中的各個基本要素環節,通過比對分析自身產品的營收現狀、競爭對手的經營現狀,以及對資產負債率、銀行壞賬率和金融產品的銷量,可以及時為決策層提供參考數據。商業銀行的風險管控是其保障經濟效益的關鍵,數據挖掘系統的關鍵性作用體現在對銀行業務的全方位、多角度的可靠性分析和風險評估,基于銀行內部的風險模型參數,在成熟的模式識別技術和智能分析技術的輔助下,可以提前對經營風險進行預判,以減少成本損失為風險數據挖掘模型約束,以保障經營效益最大化為風險決策目標,以調控決策方式為風險決策手段,可以進一步提高銀行的資產質量。財務風險控制中數據挖掘的具體應用如下圖所示:
圖1 數據挖掘在銀行財務決策分析中的應用分析
3 銀行數據挖掘的效用分析
3.1 數據挖掘在銀行風險控制中的效用
風險控制是銀行日常經營活動中的核心內容,通常來看可以分為定性控制和定量控制兩種方式,定性控制的關鍵是建立一套有效的風險控制管理體系,在多流程決策體系的協作下,構成風險管理知識,以非結構化數據的形式保存并流轉使用;定量控制則更看重對經營實時數據的管理效率,建立一個基于客戶需求和市場規律的量化風險控制體系統框架。銀行信用評估體系要求銀行用于信用評級的數據必須具備一定年限和質量標準,對數據樣本量、樣本時效性、業務覆蓋范圍、數據來源都有明確的要求。數據挖掘對于銀行風險控制的關鍵性作用主要體現在對于銀行信用風險控制、銀行市場風險評估和銀行操作風險管理上。
在信用風險控制上,數據挖掘主要是針對信用關鍵指標:違約率、違約損失率、違約暴露和違約期限進行針對性的數據挖掘分析,結合銀行的信用評級動態變化和銀行信用置信度的波動規律,在銀行交易數據庫中采用數據關聯分析方法,對概念分層數據進行多層挖掘,提高數據挖掘的精準度;在對市場風險控制上,數據挖掘技術主要集中在市場風險識別和市場動態分析兩方面,通過分析銀行特征值數據在各種風險環境下的數據概率分布值,可以構建銀行內部的市場風險模型,結合遺傳算法和智能分析,可以針對市場發展規律進行智能風險評估決策;對于市場的偶然和不確定行為,通常數據挖掘會采用預測(predication)、時序分析模式(time-series model),通過遍歷歷史交易數據,能夠對偶然性市場行為進行概念排序,采用模糊分析(fuzzy method)、證據理論(Evidence theory)等方法進行決策分析。
3.2 數據挖掘在銀行產品創新中的效用
產品創新是提升銀行市場競爭力的根本手段,數據挖掘的重要性則體現在數據分析準確性和有效性上,首先是對業務流程效率的數據分析,對于總行、分行、支行和營業網點的銀行結構進行業務處理效能分析,通過實際交易數據和歷史交易數據進行比對分析,可以有效的找出實際業務模式中的最大風險點,設計或優化業務流程,明確錄入、審核、授權各崗位的職責,從而運用創新手段控制流程風險;采用產品規劃的方法指導新產品的設計流程工作,則需要在產品設計理念、產品市場定位、產品競爭優勢分析和產品風險控制上進行數據分析,通過數據挖掘技術可以在銀行內部歷史數據、行業共享數據和商業數據的基礎上進行特征屬性挖掘,并最終為新產品的量化定型提供有效的數據參考,并未新產品的市場價值進行定性和定量預測分析。
4 結束語
信息化時代背景下金融業的供需地位發生巨大轉變,金融數據也從經營資料開始向數據商業化發展。基于詳盡的量化數據系統,現代銀行可以在高效數據分析模型的基礎上對銀行數據進行二次開發,提供數據分析服務。本文通過闡述銀行數據的數據結構,分析了對銀行海量數據進行數據挖掘的主要方法和應用模式,并評估現行銀行數據挖掘方法的有效性和經濟效益價值,為進一步提升銀行數據挖掘的效能提供了新的思路。
參考文獻:
[1]丁劍敏.數據挖掘技術及其在商業銀行中的應用[J].市場周刊?財經論壇,2013(04).
[2]宓文斌.數據挖掘在銀行信貸業務中的應用[M].上海:上海交通大學,2012.
[3]王佳麗.財務診斷中的數據挖掘運用研究[D].南寧:廣西大學,2012(05).
關鍵詞:地理計算課程;地理信息統計;地理計算學
收稿日期:2007―09―15
項目:黑龍江省新世紀教改工程第四期項目。
作者簡介:張麗娟(1965―),女,河北唐山人,副教授,博士。主要從事地理信息統計與運籌、非線性模型等教學研究。
一、計量地理學課程的興衰
1963年,鮑頓(I.Burton)使用了“計量地理”這一詞語,對自20世紀50年代末期開始,以數學方法在地理學中的應用為內涵的計量運動加以形容,并認為從這以后不再是革命了,因為數學方法已經成為現代地理學的主要方法之一。從此,國際地理學界掀起了聲勢浩大的計量運動“或稱計量革命”。不過,這在地理學界并未完全達成共識,因為現代地理學中的數學方法的引人,一方面,推動了傳統地理學研究方法的變革;另一方面,卻產生了重定量分析,輕區域、生態研究的問題。由此產生了一場波及整個地理學界的大辯論①。以至到了20世紀70年代后期,有人提出要重新評價計量運動,重新認識地理學中的數學方法。有人認為,數學方法只能用來研究地理要素之間的數量關系及地理事物的分布形態,而不能揭示復雜的地理現象形成的機制。1976年,在莫斯科舉行的第23界國際地理學大會上,成立于1964年第20界國際地理學大會議程中的“地理學計量方法委員會(CQMG)”被宣布解散,這標志著轟轟烈烈的地理學的計量地理革命的呼聲到此瀕于沉寂②。我國由于受到“”的影響,未經歷國外20世紀六、七十年代地理學的計量革命時代,隨后在20世紀八十年代,我國地理學界也開始了計量地理運動,其標志是各高等師范院校把計量地理學引入了地理科學專業,有的學校設為必修課,有的學校設為選修課③。但絕大多數高等師范院校在開設了2~3屆后,便取消了。因此可以說,我國的地理學界也重演了計量運動的興起和終結②。
計量地理運動所經歷的興衰,其關鍵在于計量地理所采用的數學方法,基本上是統計方法。之所以遭到部分地理學家的反對,其主要原因為:一地理現象的非歐幾何性質,決定了統計方法不能解決空間問題;二是地理現象是復雜的非隨機現象,不能用解決隨機現象的多元統計學進行系統分析,不能借助線性化技術擬合非線性系統。
盡管上述觀點在地理學界具有一定的代表性,而且也直接影響了計量地理學課程在我國高校的開設,但隨著數學學科的發展,數學方法已遠遠不限于統計分析方法,針對不同地理現象、地理過程、地理事件,均有相應的數學方法去解決,因此,在計量地理運動經過了興衰之后,地理學中的數學方法的應用已經又進入了一個快速發展的時期,于之相對應的,地理學也進入了現代地理學階段。重新評價和構建計量地理課程,是非常必要的而且是必需的。
二、高等師范院校地理科學專業地理計算課程體系的構建
我國高等師范院校在20世紀80年代后期,隨著計量地理學課程的取消或改為選修課,在我國地理科學專業保留計量地理學及相近課程的高等師范院校已經廖廖無幾了,一些地方師范院校更是從來就沒開設過類似課程。而我國高等師范院校地理科學專業的培養目標是:培養具備地理科學的基本理論、基本知識和基本技能,能在科研機構、學校、企業從事科研、教學、管理、規劃與開發及在行政部門從事管理工作的高級專門人才。那么在地理學發展到現代地理學階段的今天,面對數學方法已經廣泛應用于地理學中的現狀,高等師范院校地理科學專業如何構建地理計算課程體系,成為了當前必須解決的現實問題。
1.重新編制地理信息統計學教材,代替原來的計量地理學
統計學是是研究客觀現象數量關系及其變化規律的方法論科學,是一門關于統計資料的收集、顯示、描述和分析方法的學科。統計學形成于19世紀初期到今天已經有100多年的歷史,是一門系統的科學④。各個學科根據各自學科的特點與統計學相結合,就形成了專業統計學,與地理信息相結合,形成地理信息統計學。它從地理數據的收集到分析方法均有系統的解析。學生只需要最基本的概率論基礎和線性代數基礎,就能輕松掌握此課程的理論部分,而不需要另外設置數理統計方面的課程。數理統計屬于數學學科,偏重于數學理論的講解,如不能結合專業性質,學生很難接受,也直接影響應用效果。
我國原有的計量地理學的教材內容,雖然與專業知識結合緊密,但數理統計的基礎知識講解的太少⑤,如果學生沒有概率論基礎,很難接受教材。實際上,只要在前面補充統計學中的抽樣分布和理論分布、假設檢驗、方差分析、參數估計等內容,就能解決這一問題。這樣,既不需要單獨由數學老師開設概率論和數理統計的課程,又能緊密結合地理學科,既加強了學生數據處理的基礎技能,又使地理計算學科課程更加具有層次性和系統性。我國現有少數高等師范院校開設了概率論和數理統計課程,進而取代了計量地理學課程,筆者認為是不可取的,脫離了專業的純粹的數學課程與和專業相結合的課程所起的作用是不可比擬的。由于地理信息統計學中的回歸分析需要線性代數做基礎,因此需要在基礎課程上安排線性代數這門課程。
2.引進地理學中的數學方法這門課程
在地理信息統計學的基礎上,依靠學生已經具有的處理地理問題的定量化基礎,引入地理學中的數學方法這門課程。從以上分析可知,可以納入這門課的內容很多,有的方法需要較高的數學理論基礎,因此,筆者建議將學生容易接受的有馬爾可夫過程、線性規劃、投入產出分析、多目標規劃、動態規劃、非線性模型、網絡分析、層次分析法、風險型決策分析法、非確定型決策分析法、模糊數學方法、灰色系統方法,做為地理學中的數學方法(一);其它的控制論、信息論、突變論、耗散結構理論、協同論、系統動力學方法、分形理論、小波分析、人工神經網絡、遺傳算法、細胞自動機則屬于難度較大的數學方法,可做為地理學中的數學方法(二)。在講解過程中地理學中的數學方法(一)可以采用理論和應用相結合,而地理學中的數學方法(二)則注重應用。地理學中的數學方法(一)可在本科生階段開設,地理學中的數學方法(二)在研究生階段開設。
3.計算機技術的發展為地理計算課程的開設提供了先決條件
統計學的計算軟件開發已非常成熟。世界上最著名的數據分析軟件SAS和SPSS、浙江大學開發的DPS數據處理系統、MATLABV4.0軟件包,都是目前很受歡迎的統計軟件。因此,統計學軟件與統計學理論的結合,提供了設置地理計算學課程的先決條件。
4.高等師范院校地理科學專業地理計算課程體系的構建
綜合以上分析,提出高等師范院校地理科學專業開設地理計算課程體系為:大學一年級的第二學期,在第一學期開設高等數學的基礎上,增設線性代數,學時為60學時;大學二年級的第二學期,開設地理信息統計學,學時為64學時(54學時的理論課,10學時的上機操作);大學三年級的第二學期,開設地理中的數學方法(一),學時為60學時;在研究生一年級的第二學期,開設地理學中的數學方法(二)。
三、結論
1、計量地理運動的興衰影響了我國高等師范院校地理科學專業開設計量地理學課程的現狀。隨著地理學中研究問題的廣泛性,數學方法已應用于地理學中的多個方面,培養和提高地理科學專業學生的定量分析問題的能力和素質,已是刻不容緩。
2、用地理信息統計學代替計量地理學,增加統計學中的概率論、理論分布和抽樣分布、假設檢驗、方差分析、參數估計等內容,加強學生的數學基礎。
3、引進地理學中的數學方法這門課程,根據內容的難易分成兩個系列課程,即地理學中的數學方法(一)和地理學中的數學方法(二)。
4、提出了高等師范院校地理科學專業開設地理計算課程體系:大學一年級的第二學期開設線性代數,學時為60學時;大學二年級的第二學期,開設地理信息統計學,學時為64學時(54學時的理論課,10學時的上機操作);大學三年級的第二學期,開設地理中的數學方法(一),學時為60學時;在研究生一年級的第二學期,開設地理學中的數學方法(二)。
參考文獻:
〔1〕徐建華.現代地理學中的數學方法〔M〕.高等教育出版社,1995,1-5.
〔2〕陳彥光.地理學:計量運動的失敗與分形研究的崛起〔J〕.信陽師范學院學報(自然科學版),1999,12(3):310-314.
〔3〕許峰宇,戴先杰.高等教育地理學專業課程體系研究〔J〕.煤炭高等教育,2004,22(3):83-86.
〔4〕何寧,吳黎兵.統計分析系統SAS〔M〕.武漢大學出版社,2005.
【關鍵詞】稽查選案 逐步判別分析 選案模型
一、稽查選案的案源及目前存在的主要問題
(1)選案來源。目前,通過以下五種形式發現的案源是確定稽查對象的主要來源:根據選案部門掌握的信息資料,根據人工經驗,選擇設定的條件,如按納稅人行業、登記注冊類型、隸屬關系、經營規模確定檢查對象或隨機抽樣選擇案件,安排稽查任務,根據選案結果選擇輸出待查的案源;根據舉報,這是稅務機關發現案源最多的一種途徑。舉報是指群眾或單位通過口頭、書面等形式向稅務機關報告偷、逃、騙稅情況的一種形式,各級稅務機關都建立了稅務違法案件舉報中心,設在所屬稅務稽查機構,受理公民舉報,并為舉報人保密;轉辦是指同級政府的各個部門接到的反映偷、逃、騙稅的人民來信來訪,或其他部門發現的偷、逃、騙稅行為的信函、電話、口頭等形式反映給稅務機關的各種案源;交辦是上級黨政機關或上一級稅務機關交辦查處的各種偷、逃、騙稅案件;情報交換是通過國際間的情報交換得到的偷、逃、騙稅的信息。
(2)目前存在的主要問題。目前選案工作中存在的問題主要有:稽查選案缺乏科學性和準確性,選案帶有盲目性;選案工作缺乏計劃性,檢查隨意性大;稅務稽查信息來源少,渠道不暢;稽查選案的監督制約機制尚未健全。
二、稅務稽查選案模型
稅務稽查選案屬于判別問題,我們可以充分利用統計學知識,從已知的誠實納稅人和不誠實納稅人中找出他們的統計學特征,根據待判斷樣本到此特征的距離判斷樣本屬于哪個總體,從而區分出誠實納稅人和非誠實納稅人。
稅務稽查選案問題也屬于分類問題,根據納稅人的納稅信息,把他從誠實納稅人和非誠實納稅人中區分開來,可以運用統計學中的聚類的方法,但在以往實際運用中常用的是判別分析的方法。
稅務稽查選案問題也屬于多目標決策問題,隨著近年來決策學的興起,可以很好的把他應用到稽查選案中來,起到對納稅人的納稅信息進行決策的目的。
(1)TOPSIS模型。主要采用有限方案多目標決策分析中的TOPSIS 模型對稽查選案進行綜合評價與排序, 從而找出重點稽查對象。這種方法的優點是應用靈活方便, 對樣本量和使用者均無特別要求, 與其它方法相比, 具有不受參考序列選擇的影響, 不受數據樣本多少的影響, 應用范圍廣, 幾何意義直觀, 信息失真小, 簡單易行等優點。需要引起注意的是, 該方法無量綱化合成公式、有關閾值、每個指標的權數等均是由模型自動生成的, 所以其選案結果是依據實測數據而得, 可避免主觀因素的干擾, 從而客觀地進行綜合稽查選案評價。
(2)TOPSIS模型在SAS中的應用及結果分析。運用TOPSIS選案方法,結合逐步判別法的指標分析結果,取43家企業的納稅數據對模型進行驗證,其中誠實納稅戶33家,非誠實納稅戶10家。
從計算的結果中,我們選取排在前10位的納稅戶作為選案結果與實際選案結果相比較,從而可以得到以下結論:
從模型分析的結果可以看出,運用TOPSIS模型選案的正確率達到了96.97%,一方面說明了可以把該方法運用到稽查選案中,另一方面也充分說明了運用逐步判別分析法篩選出的指標完全能夠對企業的納稅信息進行判別,從而達到選案的目的。
[關鍵詞] 新生兒;壞死性小腸結腸炎;外科手術;時機;決策分析
[中圖分類號] R722.1 [文獻標識碼] A [文章編號] 1674-0742(2016)10(c)-0092-03
[Abstract] Objective To analyze the surgical timing and surgical procedures of neonatal necrotizing NEC. Methods Using the method of digital randomly selected from our hospital in February 2014 to February 2015 in receiving treatment of necrotizing enterocolitis, randomly select 50 cases study, 30 cases of male children, women with 20 cases; Children aged 3~27 d, analysis the reaction index of intestinal necrosis and metabolic disturbance frequency for surgical intervention for children. Results The study of 50 cases of children with necrotizing enterocolitis, 10 cases received surgical treatment, of which 5 cases underwent pneumoperitoneum belonged to the late operation; Five cases, there was no intestinal perforation, single belongs to early surgery have bowel necrosis, late operation case fatality rate of 20.0%, the incidence of complications was 60.0%; Early surgical mortality was 0, the incidence of complications was 20.0%, early surgery, compared with the results of the late surgery has significant difference was statistically significant (P < 0.05). Conclusion Pediatric clinical, can according to neonatal necrotizing enterocolitis with 12 indexes of bowel necrosis reaction and reflection of the metabolic disorder of seven frequency, to provide children with the best operation time and operation method, high application value, to actively promote and use.
[Key words] Newborn; Necrotizing; Surgical operation; Opportunity; Decision analysis
NEC屬于新生兒常常患的一種腸道炎癥,該驗證的臨床癥狀心顯示患兒小腸結腸未出現壞死、出血現象,且該疾病患兒中有90%甚至以上者為早產兒。該炎癥疾病屬于新生兒外科常見的一種急重癥,可對患兒的多個器官以及系統等造成嚴重影響,其致死率最高可達50.0%,這部分患者大多在發病7 d內死亡。生存者容易并發腸狹窄、短腸綜合征以及膽汁淤積性肝病,早期手術治療可顯著降低其死亡率,降低并發癥的發生幾率。文章隨機選取該院2014年2月―2015年2月收治的50例NEC患兒展開研究,研究患兒外科手術的時機以及術式決策,現報道如下。
1 資料與方法
1.1 一般資料
利用數字隨機抽選的方法,從該院2014年2月―2015年2月接收治療的壞死性小腸結腸炎患兒當中,隨機選擇50例展開研究,男性患兒30例,女性患兒20例;患兒年齡最小為3 d,最大年齡是27 d,平均年齡是(15.0±2.5)d;患兒的最大體重是3 800 g,最小體征是1 510 g,平均體重是(2 500±205.5)g;患兒胎齡最長為44周,最短為33周,平均胎齡是(39.5±2.0)周,其中有30例
1.2 治療方法
50例NEC患兒均行常規治療,確保患兒機體內循環穩定。對符合手術指征的患兒實施外科手術治療, 主要包括了腸切除手、腸造瘺術、腸修補術。
1.3 療效判定
觀察患兒治療后的病死率與并發癥發生率等。
1.4 統計方法
數據均用SPSS 18.0統計學軟件處理,其計量數據用標準差(x±s)表示,計數資料用百分率(%)表示,若P
2 結果
50例患兒治愈48例,內科治愈38例,外科治療10例。5例出現氣腹屬于晚期手術、5例未發生腸穿孔但腸壞死屬于早期手術;晚期手術一共治愈4例、死亡1例,患兒的死亡率是20.0%;術后有1例患兒發生短腸綜合征,2例發生膽汁淤積癥,術后并發癥的發生幾率為60.0% 。早期手術一共治愈5例、死亡0例,術后1例患兒發生膽汁淤積,發生并發癥的幾率是20.0%,早、晚期手術結果對比差異有統計學意義(P
3 討論
NEC患兒常常并發腸穿孔、腸壞死以及敗血癥、腹膜炎等,部分患兒則會發生腸狹窄及短腸綜合征、膽汁淤積性肝病,所以應用正確手術方式及把握治療時機極為重要,且合理的治療方法可有效地避免患兒并發癥的發生,達到改善預后效果,降低死亡率的效果。在傳統的NEC治療處理中,僅將腸穿孔當做一個手術絕對指征不但使很多患兒失去治療的機會,與此同時也使得手術死亡率較高的局面。近年來,該院對于NEC患兒最佳手術時機,手術方式的研究發現,早期手術干預,尤其是當患兒全層腸壁發生缺血壞死,但是未穿孔,或某段腸壁發生全層壞死之前進行治療,可顯著提升質量療效,減少死亡率及發生并發癥的幾率。文章通過5例行早期手術的新生兒,均屬于在某段腸壞死、未穿孔的時候進行治療,而穿孔之后腸液彌漫使得患兒全身代謝出現紊亂的現象得到有效控制,而且還大幅度降低了患兒發生腸狹窄、膽汁性肝病、短腸綜合征等并發癥的幾率,取得了滿意的治療效果。有研究報道指出,把12項反映腸壞死的指標分作4個級別,第1級包括了氣腹,這是反映患兒腸壞死的指標;第2級包括了門靜脈積氣、腹腔穿刺陽性,該指標可反映患兒腸壞死情況; 第3級別包括了腸壁積氣、固定腸袢以及腹部包塊、腹壁紅斑,可以反映腸壞死情況;第4級別包括消化道嚴重性出血、腹脹、嘔吐以及腹部壓痛,均屬于反映腸壞死情況。
NEC手術的主要目的是,盡可能完整切除患兒壞死的腸道組織而減輕其腹腔炎癥病情,進而減少并發癥發生的幾率;同時又盡可能保留患兒腸道組織,避免發生短腸綜合征。臨床上的主要手術包括腸造瘺術以及腸切除等,根據患兒特殊情況來看,需盡可能保留術中診斷有爭議的壞死腸,結合患兒損傷控制手術進行進一步的治療,可以采用腸造瘺術治療效果最佳。患兒最佳手術方式為:局部病灶壞死者,其的內環境比較穩定,遠端腸管正常狀態時則可應用切除腸吻合術,反之則實施遠端腸管雙腔造瘺術治療。對于多病灶壞死者,其遠端腸管屬于良好狀態,病情穩定,可采取腸切除、腸吻合術反之則選取近端造口治療。對壞死廣泛者可用近端空腸造瘺、封閉術治療72 h之后再探查;對于全腸壁均壞死者則可放棄治療機會。手術要點主要包括了一下幾點:①不可遺漏患兒病情,所有患兒的整個腸道需要進行系統地檢查,例如直腸、小腸以及結腸等,該次研究中有2例患兒為結腸壞死且小腸出血點為點灶狀,主要的臨床表現是患兒腹部不脹,但大便量多且呈紅色、腥臭味;②判斷患兒de腸壁壞死與否,通常情況下蒼白區域則提示腸管徹底缺血、壞死、腸壁變薄、球狀隆起以及表面覆蓋較薄的半透明狀漿膜;③手術過程中只切除患兒已經明確壞死以及穿孔的組織,需要盡可能多地保留患兒腸管,避免發生短腸綜合征,并且積極保留患兒的回盲瓣。該次研究中,晚期治療死亡率是20.0%;術后并發癥的發生幾率為60.0%;在早期手術發生并發癥的幾率是20.0%,死亡率為病死率0.0%,此結果與李紅衛等人[8]的新生兒壞死性小腸結腸炎外科手術時機和術式的決策研究中,晚期治療病死率25,并發癥發生率為60.0%,早晚病死率為0等結果相似,可見早、晚期手術結果對比差異有統計學意義(P
綜上,根據患兒12個反應腸壞死指標、7項反映代謝紊亂頻數,為NEC患兒的手術時機、方式提供參考與決策,應用價值較高。
[參考文獻]
[1] 王瑞芹,鄭冬凌,趙曉忠,等.新生兒壞死性小腸結腸炎危險因素研究[J]. 中國婦幼保健,2014(2):225-227.
[2] 曾振華. 新生兒壞死性小腸結腸炎研究現狀及發展趨勢探究[J]. 中外醫學研究,2014(27):152-154.
[3] 陳錦金. 酚妥拉明泵維持治療新生兒壞死性小腸結腸炎的臨床分析[J]. 當代醫學,2013(7):84-85.
[4] 張愛梅. 新生兒壞死性小腸結腸炎研究趨勢的共詞分析[J].臨床兒科雜志,2015(1):78-82.
[5] 黨堅. 新生兒壞死性小腸結腸炎45例分析[J]. 中國保健營養,2013(2):173-174.
[6] 鄒曉妮,蘇育敏,盧小娟,等.微生態制劑預防極低出生體重新生兒壞死性小腸結腸炎的效果[J].實用醫學雜志,2015, 31(23):3932-3935.
[7] 廖東.綜合治療新生兒急性壞死性小腸結腸炎的臨床療效分析[J].吉林醫學,2015,36 (12):2506-2507.
隨著計算機的普及、網格技術和通訊水平的不斷提高,人類已經超越了時空的限制走進了全球一體化的信息社會。Internet技術的騰飛和廣泛應用對我國社會、政治、經濟、文化等,產生了廣泛而深遠的影響。辦公自動化、網絡化已經成為各行業改革的方向和發展的目標,信息化程度成為了衡量行業發展的重要標準之一。信息技術對統計的發展將產生深遠的影響,具體表現在以下方面。
1.現代管理的變革與統計需求
首先,電子政務、商務是現代組織管理觀念與信息技術的必然產物。隨著計算機的廣泛應用網絡互聯技術日趨成熟,電子商務時代已經來臨,統計信息的采集過程明顯復雜化,采集范圍大大擴展,同時也對統計部門提出了更嚴密和科學的組織要求。因此,統計信息化改革的戰略,就是廣泛采用現代信息技術、專注于自己的職能業務,通過統計工作網絡化進程,把包括組織資源、人力資源、業務資源(含調查方法、統計報表、統計標準、數據質量控制體系)、數據資源、統計調查對象(客戶)等統計資源,建成一個有機的統一體。要通過統計工作信息化平臺的建設,使統計工作的標準化、規范化、網絡化和社會化程度有明顯的提高,使統計部門能在政府職能轉型過程中繼續走在前面,進一步提高統計工作的核心競爭力和社會公信度。
其次,統計信息系統軟硬件建設。在任何改革中硬件是基礎,正所謂“工欲行其事,必先利其器”只有基礎設施建設好了才能保證在往后的改革中不處于被動狀態。雖然,近年來在基礎設施改革中投入了大量的人力物力,但微機的配置、網絡的規模、帶寬、技術標準、安全管理與實際需要和辦公自動化的目標仍存在較大差距。而且廣域網的建設是由各地自行組織,技術規程不統一,聯網方式五花八門(有DDN、ISDN、ADSL、幀中繼等)。因此,要提高統計的信息化程度加快網絡化建設還必須制訂統一技術標準和安全管理模式。完善的硬件設施還需要配套的應用軟件才能充分發揮它的作用。統計信息化建設要考慮的是大量數據如何組織、以什么樣的標準、采用什么樣的數據庫管理系統、如何保證數據的開放性和安全性等,這都是信息化改革中亟待解決的技術難點和重點。由于統計信息化建設正處于起步階段,軟件開發相對滯后,沒有形成行業規范,軟件的推廣和更新較慢,難于跟上國際信息技術的發展。因此,懂得計算機技術又精通統計專業知識的復合型人才的培養變得尤為重要。
從統計信息來源看,主要是由社會的統計調查人員和統計人員,按時間、按地點通過不同的方式來完成定期報表和不定期的專項報表的填報工作,報送方式各種各樣,數據的格式也各不相同,大大增加了統計整理和分析的難度,嚴重制約了信息化發展,只有通過繼續教育和培訓不斷的提高基層統計人員的信息處理技術,才能真正使每一個成員都成為統計信息化建設者的推進者。
2.信息技術對統計創新發展的要求
隨著計算機技術的飛速發展和企業界不斷提出新的需求,數據倉庫技術應運而生。傳統的數據庫技術是單一的數據資源,即數據庫為中心,進行從事事務處理、批處理到決策分析等各種類型的數據處理工作。近年來,隨著計算機應用,,網絡計算,開始向兩個不同的方向拓展,一是廣度計算,一是深度計算,廣度計算的含義是把計算機的應用范圍盡量擴大,同時實現廣泛的數據交流,互聯網就是廣度計算的特征,另一方面就是人們對以往計算機的簡單數據操作,提出了更高的要求,希望計算機能夠更多的參與數據分析與決策的制定等領域。特別是數據庫處理可以大致地劃分為兩大類:操作型處理和分析型處理(或信息型處理)。這種分離,劃清了數據處理的分析型環境與操作型環境之間的界限,從而由原來的以單一數據庫為中心的數據環境發展為一種新環境:體系化環境。
數據庫系統作為數據管理手段,從它的誕生開始,就主要用于事務處理。經過數十年的發展,在這些數據庫中已經保存了大量的日常業務數據。傳統的業務系統一般是直接建立在這種事務處理環境上的。隨著技術的進步,人們試圖讓計算機擔任更多的工作,而數據庫技術也一直力圖使自己能勝任從事務處理、批處理到分析處理的各種類型的信息處理任務。后來人們逐漸認識到,在目前的計算機處理能力上,根本無法實現這種功能,而且,另一方面,事物處理和分析處理具有極不相同的性質,直接使用事務處理環境來支持決策是行不通的。隨著數據庫技術的不斷發展及數據庫管理系統的廣泛應用,數據庫中存儲的數據量急劇增大,在大量的數據背后隱藏著許多重要的信息,如果能把這些信息從數據庫中抽取出來,將為公司創造很多潛在的利潤,而這種從海量數據庫中挖掘信息的技術,就稱之為數據挖掘。
數據挖掘工具能夠對將來的趨勢和行為進行預測,從而很好地支持人們的決策,比如,經過對公司整個數據庫系統的分析,數據挖掘工具可以回答諸如“哪個客戶對我們公司的郵件推銷活動最有可能作出反應,為什么”等類似的問題。有些數據挖掘工具還能夠解決一些很消耗人工時間的傳統問題,因為它們能夠快速地瀏覽整個數據庫,找出一些專家們不易察覺的極有用的信息。數據挖掘的核心模塊技術歷經了數十年的發展,其中包括數理統計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數據庫引擎以及廣泛的數據集成,讓數據挖掘技術在當前的數據倉庫環境中進入了實用的階段。商業數據庫現在正在以一個空前的速度增長,并且數據倉庫正在廣泛地應用于各種行業;對計算機硬件性能越來越高的要求,也可以用現在已經成熟的并行多處理機的技術來滿足;另外數據挖掘算法經過了這10多年的發展也已經成為一種成熟,穩定,且易于理解和操作的技術。
目前統計應用的應用趨勢是宏觀統計應用逐步完善、微觀統計需求快速發展,主要特征是:(1)數據量越來越大,需要廣泛使用計算機數據庫技術和數據倉庫技術。(2)數據分析方法更加豐富,需要廣泛使用計算機統計分析軟件和數據挖掘軟件產品。(3)與統計業務長期緊密聯系:單純的一次性統計分析報告不能滿足市場化運營的統計應用的要求,需要廣泛使用計算機信息系統技術,將大規模數據量、統計分析軟件和統計業務管理集成為客戶長期可用的產品形式。
3.信息技術對統計教育的挑戰伴隨著信息技術的變革和統計應用的發展、推廣,統計作為處理和分析數據的方法和技術已成為現代社會中每個人必備的知識。然而,高等學校統計學的教育始終面臨著三大挑戰:第一,統計學方法不斷在應用中的創新與發展導致統計學內容體系的變化;第二,信息技術發展導致的統計學軟件工具的不斷創新;第三,以學生發展及及社會需要為中心的教育理念變革。這些挑戰要求高等學校的統計教學要通過案例教學吸收新方法、使用新工具、面向應用與實踐。近年來,在總結高校統計學教學改革與實踐的基礎上,一批高質量的教材已先后出版使用,但由于缺乏配套的實驗教材,教學實踐中的效果受到很大局限。鑒于以上情況,應嘗試通過實驗設計、案例分析介紹基礎統計方法的應用技術,培養學生的實踐應用能力。教學的內容按照數據的收集、整理、顯示、分析和解釋的過程來組織,重點在于加深對概念、原理的理解,掌握統計方法的應用和統計分析工具的使用。#p#分頁標題#e#
摘要:大數據給應用統計學專業帶來機遇與挑戰。本文針對應用統計學專業的自身特點和大數據下的新特點,剖析了現有教學體系中存在的問題,探討和改革了應用統計學專業人才培養目標定位、課程調整與設置、教學內容、教學手段等。
關鍵詞:大數據;應用統計學;教學改革
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2016)43-0101-03
一、研究背景
自2002年桂林理工大學在廣西開辦了第一個統計學本科專業以來,針對當時理學學位的統計學專業培養的學生雖然數理基礎相對扎實,但普遍統計思想不夠,實際應用能力較弱的現狀和特點,對統計學專業進行了全方位的改革研究,確立了"數學與統計學相融,從培養學生扎實的數理基礎和極強的統計分析應用能力有機相結合的理念出發,構建了新的課程體系和教學內容,取得了系列研究成果。2009年研究成果開創“應用性、實驗性、案例性”一體化的統計學專業課程體系和教學模式,獲得廣西高等教育自治區級教學成果二等獎[1],并在其后分別把統計學學科建成廣西重點學科和廣西高等學校優勢特色專業,以及把應用統計實驗室建成廣西高等學校重點實驗室。
雖然我校統計學專業的教學改革和建設取得了許多成果,但近幾年,我們也逐漸感覺到在大數據新形勢下,我校應用統計學專業的教學體系還有一些不適應的地方,且某些問題還有日益凸顯的趨勢,我們原來的某些研究成果已不再適應新時代的要求,這就迫使我們繼續進行改革研究,探討在大數據背景的新形勢下,如何培養統計學專業復合型和應用型人才,如何準確把握統計學的發展方向與發展形勢,如何調整人才培養模式,如何調整相關課程和課程內容,以培養適應大數據背景下社會經濟發展需要的統計學專業人才。
許多國家越來越重視數據在大數據時代重要作用,我國也不例外,2012年9月,國家統計局第7次局務會提出,盡快開展在政府統計中應用大數據的研究。2013年可以看作是我國政府統計之大數據元年。2015年9月《國務院關于印發促進大數據發展行動綱要的通知》(國發〔2015〕50號)[2]頒布,標志著我國正逐步進入大數據建設的新時代,為此,國家統計局積極推動大數據在各方面的應用與實踐。而大數據的核心是數據,應用統計學學科是與數據分析處理聯系最為緊密的應用性學科,因此,應用統計學專業的教學體系應順應大數據發展的趨勢。在大數據背景下,應用統計學專業在繼承傳統數據分析技術的基礎上,對所需的數據處理技能提出的需求更高了。這就是說,大數據對應用統計學的培養目標,以及教學內容等的沖擊無疑是最大且不可避免的,這給應用統計學專業帶來了巨大的挑戰,同時也為應用統計學學科的發展帶來了前所未有的機遇。
大數據逼迫人們改變分析、處理數據的手段、思維和理念,這就逼迫應用統計學專業改革必須引入新手段、新思維和新理念。培養應用統計學人才必須與時俱進,才能不斷適應大數據新時代的要求,這關系到應用統計學專業培養的人才能否適應和滿足社會的需求,因此,這一研究是十分必要、十分迫切且有著重要的理論和實際應用意義。
二、大數據背景下應用統計學專業的改革探討
1.培養目標的轉變。大數據時代給應用統計學帶來機遇與挑戰,同時引發了對應用統計學培養目標的新思考。目前應用統計學專業教學體系的培養目標是,培養學生收集、整理和分析數據的能力的“應用型”專業人才。然而,在大數據背景下,除了要求學生具備數據收集、處理和分析的能力外,還要對其應用領域的背景知識有所了解,這就要求應用統計學培養“復合型”專業人才。因此,如何從培養“應用型”向“復合型”人才進行轉變,是在大數據背景下應用統計學專業培養目標必須解決的首要問題。在定位應用統計學專業的人才培養目標是培養“復合型”專業人才后,就得重新探索教學體系的調整和設計。傳統的應用統計學專業教學體系專業的主干課程有數理統計、抽樣技術與方法、回歸分析、計量經濟學、多元統計分析、統計軟件等。而在大數據下,強調對全數據開展分析,不需進行隨機抽樣,即不是在給定的精確下,利用樣本推斷和分析總體;同時,大數據注重數據之間的相關關系,而不是像傳統統計那樣強調數據之間的因果關系。現有的教學體系沒有涉及這些內容,與大數據時代的要求有些不相適應。因此,我們必須創新傳統的應用統計學專業教學體系,重視大數據的不同的分析方法、分析技術,在課程設置、教學內容等都要圍繞著數據的分析方法和技術展開。
2.教學內容改革探討。雖然在大數據時代下,必然要對數據收集、分析方法等進行改革和創新,但與此同時我們也清楚地意識到,對大數據的搜集、分類、分析等都仍需要依賴傳統的統計學方法,因此,大數據分析離不開傳統統計學,大數據分析是對傳統統計學的補充而不是替代,建立在樣本統計和預測分析之上的傳統統計學仍發揮著主導作用。所以,在應用統計學專業的改革中,我們強調深化基礎,培養擁有厚基礎、寬口徑的學生。加深應用統計學基礎理論知識學習,夯實數學基礎知識,讓學生學好數學分析、高等代數、概率論、數理統計等基礎課程,打好理論基礎,通過這些課程的學習不但打好學生的數理基礎知識,培養他們的抽象思維能力和邏輯推理能力,因為只有理論基礎打牢了,才有后勁,才能更好地學習新知識,適應新形勢下的要求。同時,在大數據背景下,應用統計學專業課程教學要培養寬口徑的統計學復合型人才,由于一些大數據充滿了各種隨機的、非隨機的誤差和偏倚,不滿足傳統的統計方法和理論對數據的苛刻要求,不能用傳統的統計方法進行分析。因此,必須對現有的應用統計學專業的課程體系、教學內容等作出相應的調整和改革。這就需要對應用統計學專業課程內容進行協調和整合,在精選知識、內容銜接與交叉融合上狠下工夫。探索在一些課程中,增加介紹一些大數據方面的概念和應用,例如在時間序列分析、多元統計分析、統計預測與決策分析等課程內容中引入大數據分析的理論和實踐案例。大數據對統計學專業人才提出了更高的要求,除了應具備數據收集、處理和分析的能力以外,還應具備很強的自我學習、自我提高的能力,以適應大數據時代數據量大、總類繁多、時效性高等發展特點。這就要求學生自主學習、閱讀大數據等相關資料,掌握國內外最新動態和進展,這可通過布置課外作業、課外讀書報告和課外論文檢查學生自主閱讀學習的效果。同時,特別要注重課程的開放性教學和研究,以適應大數據時代的要求。(1)樣本概念的深化。全樣本(總體)研究是大數據方法的重要特點。過去,由于缺少收集和分析數據的各種工具,數據收集、處理能力受到限制,因此,產生了隨機抽樣的理論方法,從而達到用較少的樣本推斷、預測總體的目的。然而,大數據時代數據收集、處理的方式和技術都發生了翻天覆地的改變,現在我們可以通過數據庫、互聯網、各種通訊工具等獲得各種各樣的海量數據。這時,隨機抽樣在某些情況下就失去了它原有的意義、地位和作用。方便、廉價的數據收集,數據處理、存儲能力的提高,使得全數據分析模式成為可能。因此,大數據背景下不需隨機抽取,可用總體進行分析,也可用與分析目的相關的數據進行分析。所以,在大數據時代,傳統應用統計學面臨著新的任務和挑戰,首先要改變對樣本、對不確定性等的重新認識,轉變抽樣調查的功能和地位,建立新的收集、梳理、分類數據的方法。大數據的分析和處理與傳統樣本數據的分析和處理的方法有許多不同,傳統的統計學的理論和方法是以隨機樣本來推斷總體,即它的理論和方法幾乎都是建立在樣本的基礎上的,是建立在隨機抽樣基礎之上的統計推斷,其理論基于"樣本數據-分布理論-概率保證-總體推斷",這種用樣本推斷總體的理論和方法,不可避免的會出現誤差。而大數據時代的特點是信息處理迅速、獲得途徑廣泛、價值密度低,這樣在處理數據時就不需要進行隨機抽樣,可以全體數據作為樣本,而即大數據關注的不是隨機樣本,而是總體,這不同于傳統的統計推斷分析,大數據時代可以收集全數據進行分析,這一特點剛好能彌補樣本統計必然會帶來誤差的劣勢。因此,應用統計學應該補充、適應大數據時代的全數據分析模式,將大數據總體統計的思想、思維和方法納入到教學體系和教學內容,從傳統的樣本統計轉向樣本統計和總體統計相結合,這是應用統計學發展的必然趨勢。探討在什么課程、如何引入全樣本統計尤其重要。我們研究實踐了在抽樣技術與應用等課程教學中,新增大數據背景下的全樣本理念,闡明樣本統計和總體統計的差別、如何搜集大數據,以及大數據樣本常存在缺乏代表性、信息冗余、存在噪聲、呈現重尾分布、長相依和不平穩性時如何選用合適的統計分析方法,以盡量避免分析結果的系統偏差等。(2)相關分析與因果分析并重。在傳統統計分析中,因果關系占據重要的地位。我們可以根據概率P值進行因果關系檢驗,從而確定兩個變量之間是否存在著顯著的因果關系。即傳統統計分析是建立在假設的基礎上揭示數據相互之間是否存在因果關系,因此,傳統統計分析比較注重因果分析。但大數據時代由于數據海量、結構復雜、要求數據處理速度快等特點,造成因果分析往往不可行。而相關關系分析不需要建立在假設的基礎之上往往可行,且相關關系分析不易受偏見的影響而發生錯誤。因此,大數據改變了傳統統計注重因果關系檢驗的思維,注重相關關系分析,而不是因果關系分析,大數據時代的重要特點是注重相關分析,以及建立在相關分析基礎上的預測分析。側重相關性研究的思想是大數據方法的重要特點,大數據時代相關分析方法的重要性日益凸顯。大數據時代,相關分析的運用范圍之廣、重要性之大引起了我們的重視和研究,我們在教學中從傳統的注重因果分析向相關分析與因果分析并重轉變。傳統的相關分析基本上是線性相關分析,大數據研究的相關分析不僅是線性相關,更多的是非線性相關關系。傳統的統計研究方法,如建立各種回歸方程、估計模型參數、假設檢驗等因為大數據的特點而無法實施。針對大數據的相關關系分析不同于傳統的相關關系的分析,我們在教學中重點不是做傳統的邏輯推演,而是重點闡明如何搜索、分類、歸納、分析大數據,以及如何找出數據之間的相關性并據此進行預測。闡明大數據時代相關分析思維的重要性,以及相關分析在特征選擇、變量依賴關系識別中的實用性。
[關鍵詞] 經濟預測 風險決策 概率統計 期望值
近幾年來,全球經濟存在著諸多不確定因素,我國經濟也面臨嚴峻的風險,企業的生存發展面臨著巨大的考驗。企業要想在激烈的競爭環境下生存壯大,必須不斷強化概率統計在企業決策中應用,并對其進行分析,有效提高企業的經濟效益和管理水平。
一、風險決策概率的應用
風險就是指未來的不確定性,它對于企業而言就是損失發生的可能性。企業投資一筆資金,開發一個項目或者生產一個產品,但它在未來所能產生的經濟效益或者投資回報是不確定的,有可能在客觀環境、技術水平、經營理念、投資方向等各個環節上遇到挫折、發生損失的可能性。風險決策是指一個事件存在一定的不可控制因素,并且事件的結果會根據這些因素的變化出現不同結果的可能性,要冒一定風險進行的決策。為了能夠不斷降低投資風險,投資人在作出決定前,往往會采集信息,并對其進行加工處理,找出其中的關聯,概率統計就是解決這些問題的辦法。
二、風險決策中的概率應用方法
一個事件出現的幾率是衡量該事件風險大小的基礎,幾率值離公司的期望值越接近,就越能夠準確的預測到事件的風險程度,為公司投資決策提供參考依據。但是我們并不能單純的以期望值的高低來作為判斷標準,因為它通常是不充分的,收益的期望值所反映的只是一種平均的趨勢,我們在進行決策的時候還應充分考慮到其離散的程度。再計算變異系數,幫助我們進行判斷。
1.概率統計在質量控制方面的應用
在數學中,我們把需要進行質量檢查而收集的樣品中有不合格產品出現所占的比率情況,稱之為該事件發生的頻率,如何才能讓這一比率更加的接近于客觀事實,更真實的反映該批次產品的合格率?我們以下面一個例子進行分析說明概率的應用。
以花生牛奶產品為例,每生產完10000瓶,進行一次抽檢,規定合格批次中的問題產品要控制在10瓶內(即千分之一的概率),否則,產品就是不合格。每次抽檢10瓶,若在抽檢的10瓶中發現有4瓶是有質量問題的(不合格概率為百分之四十),則就有理由懷疑該批次產品的合格率。
2.概率在公司決策中的應用
企業在作出一項重大的決策時,其方法與企業的慣有準則有著直接的關系。其中期望值準則是慣用的一種準則。期望值準則的計算方法:根據收支明細計算每一方案的期望值,從中選擇一項最佳方案。
我們再以花生牛奶為例,假設公司準備推出一款新的市場推廣方案,有在電視臺投放廣告和有獎銷售兩種方法可供選擇。通過市場調查兩種方案的可行性數據如表1所示,兩種方案顯然都存在著一定的不確定性,我們根據公司期望值進行計算,通過在電視臺投放廣告可每月增加E(X) = 4%×4+ 32%×10+ 38%×14+18%×18+8%×21=13.6(萬瓶)的銷量,而有獎銷售則每月可增加E(X) = 20%×2+20%×8+20%×15+20%×22+20%×25=14.4(萬瓶)的銷量,從這個數據上顯示,明顯的有獎銷售方法更為有利。
但是,在實際決策中,企業卻往往會選擇通過插播電視廣告的促銷手段來達到提升銷量的目的,這是因為通過電視廣告增加的銷售量的88%的概率集中于10萬到18萬,這個數值更接近于公司13.6萬的期望值,而接近于有獎促銷期望值14.4萬的銷售量集中于8萬到22萬,這個數值出現的規律為60%,還有28%的可能性會出現每月增加2萬銷售量的可能,相較于有獎促銷,投放電視廣告的投資風險明顯小的多,還可以提高公司知名度和受歡迎度,更多的搶占市場份額。
三、概率統計在風險決策中的應用
投資者冒險投資的報酬超過無風險所獲得的報酬的部分就是投資風險價值。投資風險程度和投資風險價值成正比關系。投資風險程度就是指我們現金(廣義上的)的實際流量和預期流量之間的差異程度。現金的流入與流出的差額就是現金的凈流量。現金的流入是指所投資的項目在周期內的流入量,主要是指營業收入、其他收入。現金的流出是指所投資的項目在周期內為該項目所支付的現金量包括投資及營業成本等。
1.對所需的成本進行預測
我們要想以最小的成本代價獲得最大的利益,又要保障安全,只有使用科學、正確的決策。我們可以用概率統計學的知識來對風險進行分析評估以得到風險決策。
2.對貸款的回收率進行預測
通常情況下,我們把事物分為定型和不定型狀態。這兩種狀態在經過了無數次的轉移后已經形成了各自的轉移概率矩陣,我們可以通過運用這種轉移概率矩陣來和金融機構中的各種貸款的金額的向量進行乘積,通過乘積的結果來預測這些貸款可以收回的金額以及不可以收回的金額。如某商業貸款按時間的長短分1年內、1年~5年內、5年以上三種貸款方式。現在其1年可以收回20%,剩余則轉成1年~5年內;1年~5年內能收回50%,剩余則轉成5年以上;5年以上能收回90%,剩余不能收回。假定三種貸款額度分別為:400萬元、300萬元、300萬元。將一年內的貸款定為狀態“1”,將1年~5年內的貸款定為狀態“2”,將5年以上定為狀態“3”,將5年以上能收回的部分定為狀態“4”,把不能收回部分定為狀態“5”。運用馬爾柯夫預測法,經定型和不定型狀態轉移,最后同三種貸款金額相乘。可預測能收回9萬元,剩余61萬元不能收回
3.對工期進行預測
對風險型決策的決策分析通常分為先驗分析、后驗分析。一般只要補充信息準確,后驗分析所得結論更可靠。如某公司擬對河流截流施工工期作出決策。方案有三種:分別在8、9、10月進行施工。假設影響施工因素是天氣。8、9月份天氣好,將在月底截流,提前工期,分別比10月份施工多得利潤1000萬元、800萬元;若壞天氣則比10月份分別增加500萬元、300萬元的損失。10月份可以保證截流。據經驗,8、9月份好天氣可能性0.7,壞天氣可能性0.3。公司擬向氣象站購買氣象預報的資料。該氣象站預報好、壞天氣的準確率分別為0.9,0.7。
三種方案的期望值分別為:
E(Q(a1))=0.7×1000+0.3(-500)=550(萬元),
E(Q(a2))=0.7×800+0.3(-300)=470(萬元),
E(Q(a3))=0(萬元),
按照期望值準則,我們發現方案a1(在8月進行施工)為最優。
參考文獻:
[1]陳麗,許艷芳.概率統計理論在風險決策中的應用[J].長春理工大學學報(高教版),2009,(2).
[2]李富江.概率統計在管理決策中的應用[J].中國鄉鎮企業會計.
【關鍵詞】 手勢識別 虛擬現實 人機交互
一、引言
人與計算機的交互活動越來越成為人們日常生活的一個重要組成部分,特別是近年來虛擬現實技術的迅猛發展,為人機交互技術的發展提供了全新的技術支持。目前,人機交互已經擺脫了傳統技術手段的限制,開始“以人文本”越來越注重用戶自身的體驗。在人類的自然信息交流中,手勢是語音之外的一種最為常用的、自然直觀的交流方式,如果能利用手勢代替傳統的計算機輸入硬件對機器進行控制,那么人與機器的交流將更加流暢自然。針對多媒體的發展潮流以及人機交互的創新技術開發一套基于手勢識別的多媒體交互系統。
本文實現了通過手勢識別來操作計算機的人機交互系統,通過攝像頭采集使用者的手勢,并傳輸給計算機進行處理,通過對手勢幾何特征的分析和決策來判定手勢類型,最后驅動多媒體的效果表現,進而控制計算機。
二、系統實現
系統的基本原理是利用攝像頭采集方式獲取使用者的手勢,并將該動作傳輸紿計算機進行處理,計算機內的應用程序則根據所捕捉的畫面進行分割、識別、處理,最后驅動多媒體的效果表現。
2.1手勢輸入與識別
使用高清攝像頭作為采集單元,保證在合適的視野和景深范圍內對目標(手勢)的檢測和識別。檢測過程采用非接觸方式,目標(手勢)識別檢測率高。然后采用模式識別算法,對輸入的手勢圖像進行分析與處理,來進行目標(手勢)的檢測。
通過高清攝像頭獲取視頻數據流,將數據流分割、識別、處理從而將交互手勢從數據流中剝離,然后將輸入手勢與預先手機的手勢命令庫進行特征配準,最后,形成驅動相關應用的交互指令。
2.2噪聲去除與信息增強
從視頻流的輸入,到手勢識別,再到信息轉換,這些過程的每一個環節都有可能受到設備電磁干擾、算法局限性等各方面的影響,這些干擾與影響最終將形成數據噪聲,對噪聲的處理不當將使手勢圖像產生畸變,從而影響最終的交互指令。
因此,在手勢圖像處理之前,本文加入了一個圖像平滑/銳化處理的噪音過濾預處理,其目的是盡量消除噪聲保證手勢圖像的質量。
2.3手勢分割與特征提取
通過實現建立手勢模型數據庫,然后根據數據庫對數據流中的手勢進行分割與特征提取。本文主要采用串行邊界分割技術和并行區域分割技術實現手勢模型的特征參數提取,并最終依據手勢模型數據庫特征配準形成最終的交互命令。在手勢識別過程中,可以根據圖像邊緣像素值、手勢輪廓、手勢形狀、運動方向、骨骼等數據建立手勢特征向量。首先,通過背景分離算法將圖像背景與手勢圖像進行分離,然后根據數據流中剝離的手勢圖像與特征庫中的手勢圖片中的各維屬性映射到特征向量中從而完成手勢圖像的特征提取。
2.4特征分類
手勢特征被提取出來后,通過模式識別智能算法對手勢進行分類,并最終對應到一組具體的功能命令。本文采用基于統計學的決策樹做分類器,決策樹實際上利用了“分治”的思想,結合建立的手勢-命令對照表,使用決策樹算法對數據表經行遍歷從而將手勢特征與功能命令進行匹配,最終完成從手勢到制酸劑指令的轉換。
三、結語
基于虛擬現實與手勢識別的人機交互系統計算機通過攝像頭理解人們的手勢并做出相應的反應,從而使人們擺脫了傳統鍵盤和鼠標的種種束縛和弊端,以達到更加方便、人性化的交互方式。該系統可用于家庭娛樂,會議展示,商品展示,校園展示。在眾多公司產品展示中應用廣泛,但以往很多傳統展示系統難以達到人們要求,該系統更人性化,更美觀,更直觀。
詳細通訊地址:四川省南充市順慶區師大路一號西華師范大學實驗中心 郵編:637002
聯系電話:13890857890
參 考 文 獻
[1]童小念,劉娜.一種基于遺傳算法的最優閾值圖像分割算法[J].武漢理工大學學報. 2008.32(2):301-304.
[2]鄭友蓮.鋼筋自動計數系統中圖像識別算法的研究[J].武漢工程職業技術學院學報. 2008.20(1):31-34.
關鍵詞:多粒度;屬性子集序列;距離函數;近似精度
中圖分類號:TP18
文獻標志碼:A
文章編號:1001-9081(2016)11-2950-04
0 引言
粗糙集理論[1]是由波蘭學者Pawlak于1982年提出的一種能夠有效處理不精確和不確定信息的數學工具, 目前, 由于它在神經網絡、數據挖掘、 決策分析、 機器學習和知識發現等領域[2-6]有著廣泛的運用, 使得研究逐漸趨熱。粗糙集理論是建立在分類機制的基礎上, 通過等價關系將知識空間進行劃分。其主要思想是保持分類能力不變的前提下,通過上、下近似去刻畫知識不確定性程度,并且通過知識約簡、規則提取去挖掘數據中潛在的信息, 粗糙集理論最大的特點就是不需要數據集之外的任何先驗信息, 因此對于不確定信息進行分析處理還是比較客觀的。近年來, 為了從多粒度、多層次的角度去處理和分析問題, Qian等[7-9]提出了多粒度粗糙集模型, 其主要思想是將屬性集構建成一組屬性子集序列, 通過這一系列屬性子集來對論域進行劃分, 構成了多粒度的論域空間, 然后在多粒度論域空間中對目標概念進行近似逼近。隨后, 一些學者在Qian等基礎上對多粒度粗糙集做了許多擴展和改進[10-13]。但是在多粒度粗糙集模型的研究中, 對于如何構建一個較好的屬性子集序列, 目前并沒有給出一個很好的方法。
本文針對多粒度粗糙集模型中關于屬性子集序列的構建問題, 提出一種較好的構建方法, 其主要思想是引入統計學中關于變量間的相似系數來刻畫屬性間的距離[14-15], 通過屬性間距離的遠近來對屬性進行區分歸類, 進而構建一組屬性子集序列。由于目前的多粒度粗糙集模型中分為基于等價關系的多粒度粗糙集模型和鄰域多粒度粗糙集模型[12], 因此本文分別定義了符號型屬性間的距離和數值型屬性間的距離。最后通過實驗分析, 驗證了本文構建的屬性子集序列具有更好的近似效果。
從定義8可以看出, 本文構造的多粒度屬性子集序列是將屬性之間距離較小的屬性歸類成一組, 由于數據集之間的差異, 這里無法給出具體的鄰域半徑取值, 但是通常可以取[0,0.5]。由于屬性間的距離是根據統計學中變量之間相似系數[14]得來, 因此通過這種方法構造出的多粒度屬性子集序列, 其每個屬性子集內的屬性之間依賴程度較高, 這樣更具一定的合理性。最終構建的屬性子集序列形成的是屬性全集上的一個覆蓋。為了驗證本文構造的屬性子集序列更為優越, 下面將通過實驗來具體分析。
3 實驗分析
為了驗證本文方法性能,這里從UCI Machine Learning Repository獲取了4個數據集進行實驗分析和評估。具體信息描述如表2所示。
在表2中, 編號為1、3和4的數據集屬性均為數值型屬性, 編號為2的數據集屬性為符號型屬性。根據定義7中屬性間距離的定義方式, 這里可以得出4個數據集屬性間的距離矩陣, 其分別表示為:
對于數據集中的每個類, 分別計算出它們在構造的屬性子集序列下多粒度粗糙集模型中的近似精度。為了作對比, 本實驗另外隨機構造了3個屬性子集序列作為參照, 并且計算出每個類在各個參照序列下的近似精度。最終每個數據集的實驗結果如圖1所示。
由于數據集1、3和4屬性均為數值型, 因此計算的為每個類在鄰域多粒度粗糙集模型下的近似精度。
通過實驗結果可以看出, 對于數據集中每個類, 本文方法構造出的屬性子集序列(即實驗序列)相對于隨機生成的參照序列, 其近似精度均更高一點,因此, 本文方法構造出的屬性子集序列在其多粒度粗糙集模型的近似方面具有一定的優越性。
4 結語
針對目前多粒度粗糙集模型中屬性子集序列的構造問題, 本文通過引入屬性間距離函數的方法, 定量地刻畫了屬性之間距離的遠近, 并將距離較近的屬性歸為一類, 從而構造出一組多粒度屬性子集序列。通過實例分析可以看出, 本文中構造出的屬性子集序列在其近似對象的近似計算方面具有更高的精度。由于本文未給出屬性鄰域半徑λ的選取方法, 因此在接下來的工作中需要探索如何去選取合適的屬性鄰域半徑。
參考文獻:
[1] PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11(5): 341-356.
[2] WANG D L, SONG X F, YUAN J Y. Forecasting core business transformation risk using the optimal rough set and the neural network[J]. Journal of Forecasting, 2015, 34(6): 478-491.
[3] CHEN L F, TSAI C T. Data mining framework based on rough set theory to improve location selection decisions: a case study of a restaurant chain[J].Tourism Management, 2016, 53:197-206.
[4] ZHANG H D, SHU L, LIAO S L. Generalized intuitionistic fuzzy soft rough set and its application in decision making[J].Journal of Computational Analysis & Applications, 2016, 20(4):750-766.
[5] SARAH V, LYNN D, YVAN S,et al. Applications of fuzzy rough set theory in machine learning: a survey[J].Fundamenta Informaticae, 2015, 142(1/2/3/4):53-86.
[6] RAHMAN A, MUHAMMAH H, SUNGYOUNG L, et al. Rough setbased approaches for discretization: a compact reviews[J].Artificial Intelligence Review,2015,44(2):235-263.
[7] QIAN Y H, LIANG J Y, YAO Y Y, et al. MGRS: a multigranulation rough set[J]. Information Sciences, 2010,180(6): 949-970.
[8] QIAN Y H, LIANG J Y, DANG C Y. Incomplete multigranulation rough set[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans,2010, 40(2): 420-431.
[9] QIAN Y H, ZHANG H, SANG Y, et al. Multigranulation decisiontheoretic rough sets[J]. International Journal of Approximate Reasoning, 2014, 55(1): 225-237.
[10] 張明, 程科, 楊習貝,等.基于加權粒度的多粒度粗糙集[J].控制與決策, 2015, 30(2):222-228.(ZHANG M, CHENG K,YANG X B, et al. Multigranulation rough set based on weighted granulations[J]. Control and Decision, 2015, 30(2):222-228.)
[11] YAO Y Y, SHE Y H. Rough set models in multigranulation spaces[J].Information Sciences, 2016, 327(C):40-56.
[12] LIN G P, QIAN Y H, LI J J. NMGRS: neighborhoodbased multigranulation rough sets[J]. International Journal of Approximate Reasoning, 2012, 53(1): 1080-1093.
[13] SUN B Z, MA W M. Multigranulation rough set theory over two universes[J].Journal of Intelligent & Fuzzy Systems, 2015, 28(3):1251-1269.
[14] 高惠璇.應用多元統計分析[M].北京:北京大學出版社, 2005:218-228.(GAO H X. Applied Multivariate Statistical Analysis[M].Beijing: Beijing University Press, 2005:218-228.)
[15] 賈俊平, 何曉群, 金勇進.統計學[M].北京:中國人民大學出版社, 2012:226-230.(JIA J P,HE X Q,JIN Y J. Statistics[M]. Beijing: China Renmin University Press, 2012:226-230.)
[16] HU Q H, YU D, LIU J F, et al. Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences, 2008, 178(18): 3577-3594.
2012年學校財務信息管理專業成功申報后,前后已經迎來了2013、2014兩屆學生,作為一門融合財務會計與信息技術相交叉的新專業,專業建設不僅要秉承傳統的財經學相關理論,而且還要適應信息化時代的市場需求,培養企業需要的人才。時值今日,具備“智能化行為”特征的“智能化企業”成為大多數傳統企業的需求。在經過專業內全體教師多次反復調研、考察、研討、學習后,2014級財務信息管理專業人才培養目標初步確定為:數據分析引領財務決策信息化。在此基礎上,專業定位設計提出三個層次要求:基于財務會計、強化數據分析、服務管理決策。
二、商務智能課程定位
課程定位需要與課程體系相輔相成,要思考并把握本門課程在課程體系中的地位與作用。財務信息管理專業課程體系建設基本遵循“三步走”思路,即第一學期注重財務會計基礎理論知識的教授、第二學期突出數據分析核心知識的教授、第三學期側重決策智能前沿知識的教授,形成的梯隊知識體系助力本專業人才培養方案實施。
(一)從跨學科特性來看
商務智能課程是一門集管理科學、信息技術、數據統計和人工智能等多個前沿領域的交叉性學科課程,順利完成該門課程的授課需要前導課程的支持,因此,商務智能課程在以上三層梯隊知識體系中位于最后一層。
(二)從其最早的概念闡述來看
美國加特納集團分析師HowardDresner認為商務智能描述了一系列的概念和方法,通過應用基于事實的支持系統來輔助商務決策的制定。可見,商務智能是商務分析中輔助決策的有效利器。
(三)從大數據時代背景來看
各國政府都在強調“基于數據驅動的決策方法”,商務智能與生俱來采用的數據倉庫、聯機分析處理和數據挖掘等核心技術體系有效地支持了數據驅動全過程,合理利用并可以成功將數據轉化為價值。綜上,結合專業定位,商務智能的課程性質是專業核心課,其課程定位設計為“基于數據驅動的決策方法,變數據為價值。”
三、先修/后續課程銜接設計
目前,在全國,商務智能課程主要在計算機類、經管類(信管、電商、物流)等本科層次以上專業開設;在財經類專業且面向高職層次開設商務智能課程,還屬罕見;這是本校適應“后信息經濟時代”市場需求、實施專業創新與課程改革方面的具體表現。作為一門面向財經類高職生開設的新興發展課程,如何區別于計算機、軟件等專業已開設的類似課程,如何貼近財經類高職類學生的注重動手能力、掌握關鍵核心技術等特點來開設這門課程將面臨著眾多挑戰。但是,在大數據時代,如果將大數據看成是一種資源,商務智能則是一種驅動力,二者已成功且廣泛地應用于金融服務業、交通運輸業、通訊業、零售業、能源與公共事業等各行各業中;而且,財務分析已然成為商務智能在眾多行業中一個重要的應用領域。因此,在財經類專業開設注重數據驅動財務決策過程的商務智能課程已勢在必行。只是,在開設這門課程時,要從實際情況出發,既要考慮當下財經類專業全局課程體系安排,又要兼顧商務智能課程本身的特點,充分思考商務智能課程與先修課程和后續課程之間的邏輯關系和銜接要求。
(一)先修課程
商務智能的先修課程安排可以從以下五個層次分析。第一,商務智能作為計算機、數學、統計等基礎學科相交叉的前沿學科,需要學生能夠綜合運用這些基礎理論知識,因此,從學生知識能力的層次要求來看,計算機應用基礎、經濟數學、應用統計學屬于第一層次;第二,商務智能要整合企業的業務系統數據,作為數據加工廠需要學生充分領會“數據收集———數據處理———數據分析———數據展現———報告撰寫”的完整數據加工過程,本專業課程體系內設計的“財務數據分析”課程屬于第二層次;第三,商務智能作為多種技術綜合應用的解決方案,需要學生至少掌握一種主流軟件廠商提供的解決方案,并且要求學生能夠領會完整項目交付的全過程理念,數據庫原理及應用和項目管理兩門課程屬于第三層次;第四,商務智能作為決策工具,要求學生主要從財務層面學會運用企業經營領域內的決策支持理論,財務管理、財務分析與決策、管理會計等專業課程屬于第四層次的先修課程;第五,商務智能作為決策工具,學生僅從財務層面掌握決策分析的理論還是不充分的,還需要學生能夠了解企業經營全貌,增強學生對企業業務的理解能力,因此,作為第五層次的課程———企業經營沙盤課程恰好可以實現此銜接要求。
(二)后續課程
在大數據時代,幾乎每個人都生活在數據中,幾乎所有人都在制造和分享數據。“大數據如何讓商業更智能?”對這個問題的思考與回答成為引發商務智能后續課程開發的源動力。大數據要讓商業更智能,需要從流程優化、客戶洞察、營銷規劃、產品創新、物流管理、人力資源管理、風險控制七個方面提升大數據對企業競爭的影響力。而作為商務智能后續課程的專業拓展課程其課程性質界定了其后續課程設計不能從這七個方面全面鋪開來講授商務智能的應用。因為,對專業拓展課程的范圍設計,需要對專業(群)進行相應分析,根據拓展課程對應崗位群的具體要求,確定與其相關性較強,交叉較多的領域進行。因此,我們選擇了從流程優化的角度去拓展商務智能的應用,選擇以“流程優化”為主題的“流程智能”課程作為商務智能的后續課程,通過這門課程拓展培養學生深入理解運用商務智能核心技術實現流程優化方面的能力。
四、今后努力方向
關鍵詞:數據庫技術;聯機分析
中圖分類號:TP311 文獻標識碼:A文章編號:1007-9599 (2011) 16-0000-01
The Analysis of Data Warehouse Technology and Application
Fu Shuguang
(Qingdao Hismile College,Qingdao266100,China)
Abstract:with the development of society,information has become an important feature of today's society, a lot of information and data are required to have a scientific technology to study and analysis,database technology will emerge as the times require,is a product of the development of the computer,business and other fields play a vital role.This article from the database technology and the characteristics of the development of analysis,analysis of the database in various fields of application.
Keywords:Database Technology;Online Analysis
數據倉庫技術作為一門計算機應用技術,是新興的技術,也是這個時代對信息化管理發展的一個產物,數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合數據倉庫,英文名稱為Data Warehouse,可簡寫為DW。在市場競爭日益加劇的今天,不管是企業還是社會團體,都需要把市場經營或者社會服務同各種需求相聯系起來,把市場上的各種數據進行有效的統計和分析,從而做出科學正確的決策。所以,對于數據倉庫技術在各個企業和社會團體進行收集、存儲和研究各種數據的環節就起到了尤為重要的作用。
一、數據倉庫技術概述
(一)含義
數據倉庫概念創始人W.H.Inmon對數據倉庫的定義:數據倉庫是面向主題的、集成的、相對穩定的、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程、數據倉庫中的數據面向主題,與傳統數據庫面向應用相對應。
(二)數據倉庫的發展
數據倉庫技術是信息化高速發展的產物,它是基于信息系統業務發展的需要,基于數據庫系統技術發展而來、并逐步獨立的一系列新的應用技術。它是在傳統的數據庫技術的基礎上發展而來的新的應用技術,傳統的數據庫技術是一種單一的數據資源,是以數據庫為中心,進行事務處理以及批處理再到決策分析的各種類數據處理工作。而數據倉庫技術不單單是這種單一的數據資源,實現了對決策主題的存儲和綜合等特點。隨著數據倉庫技術在應用過程中的不斷深入,近些年,數據倉庫技術得到了長足的發展,各行各業已經能夠接受“整合數據,從數據中找知識,運用數據知識、用數據說話”等新的關系到改良生產活動各環節、提高生產效率、發展生產力的理念。
(三)數據倉庫的作用
建立數據倉庫系統,可以更加科學的收集、存儲以及管理業務中的各種數據,從而不斷分析市場已經各種因素,不斷改善和提高工作人員的工作效率,更科學的分析數據用來指導管理過程中的各種行為,如在客戶的研究方面,在應用系統和企業行為方面,以Internet和電子商務、專家系統、多媒體數據挖掘和人工智能以及呼叫中心等信息技術為基礎,從而實現企業識別、保留以及挽回最具價值的客戶,從而提升企業的核心競爭力。
二、企業數據倉庫的應用
數據倉庫的應用主要表現在數據的抽取、數據的存儲和管理、信息的探索、集成和轉換以及避免臟數據的進入、質量的管理和數據。總的來說,企業數據倉庫是一個環境,是通過有效的信息來不斷滿足企業的決策的制定過程,換言之就是通過企業數據倉庫來對企業的一些決策進行指導。也可以說是一個企業的數據庫的平臺,這些數據來源于各種各樣的數據源,并經過一定的過程如抽取篩選清晰以及轉換后根據用戶的查詢適時的提供給用戶的這么一個平臺。企業數據倉庫包含綜合數據、分粒度的數據、歷史數據、共享數據,是一個企業決策的基礎,擁有大的存儲量,對企業來說具有極其重要的作用。
數據倉庫應用在不同的企業和單位,在資源環境企業中的應用,能夠利用空間數據倉庫技術不斷規范、提煉和集成環境數據,按照不同的決策主題來組織數據,而且還能用于支持環境管理制定決策,使相關部門利用決策支持分析工具從資源環境的信息池中提取、分析數據,為資源環境的發展做出有利的貢獻。在公路交通方面的應用,公路數據倉庫是一項綜合且復雜的信息化系統工程,是公路工程、大地測量、地理學、計算機科學、系統工程、統計學、管理學等學科還有技術的結晶,它改變了傳統的信息處理的方式,使交通規劃、建設、運營和管理變得直觀、輕松和高效。可以說數據倉庫是公路交通管理步入數字化的標志。數據倉庫在醫院中的應用,現代醫院中,電子病歷廣泛使用,,挖掘海量病案數據中所潛藏的信息進行支持決策是醫院提高管理水平的一個重要的手段,通過數據倉庫在病案數據的分析中的應用,如,根據某醫院常發疾病的治療和新生兒出生的情況,建立病案數據倉庫,借助聯機分析技術來對對病案中的發病率、治愈情況等進行分析,為疾病的預防、醫院的管理決策,提供可靠的數據支持。數據倉庫技術在銀行業的應用,解決客戶關系以及企業在收入、成本、預算方面的分析,一些收入的發展、項目的狀況及預算狀況進行全面分析,使領導能夠及時的得到企業發展情況報告。
三、結論
隨著數據倉庫技術應用的不斷擴大,各行各業都已經通過數據倉庫技術來對各種數據進行分析以不斷地提升自身的各種競爭力和競爭水平。在信息化如此發達的今天,數據倉庫技術已經作為一門新興的技術在各個領域內發揮著極其重要的作用,企業如何根據自己企業自身的情況來應用這種技術,如何在競爭如此強烈的市場占有一席之地,應用好數據倉庫不斷解決企業發展中遇到的問題,將對企業有著積極的作用。
參考文獻:
[1]張維明等.數據倉庫原理與應用[M].北京:電子工業出版社,2002
[2]彭木根.數據倉庫技術與實現[M].北京:電子工業出版社,2002