当前位置:文档之家› 应用Data Mining建置一分类模型

应用Data Mining建置一分类模型

应用Data Mining建置一分类模型
应用Data Mining建置一分类模型

電子商務研究,2007年春季

第五卷,第一期,頁109-124 應用Data Mining建置一分類模型

戴建耘

國立台灣師範大學工業教育學系及應用電子研究所

盧治均

國立台灣師範大學工業教育學系

廖秋惠

私立南台科技大學企業管理學系

摘要

本研究以資料挖掘(Data Mining)、資料倉儲(Data Warehouse)以及分類(Classification)演算法規則中之決策樹(Decision-Tree)為基礎之分類法做為本研究之工具,以心臟科麻醉部為例,從醫療單位對抗生素進行導管菌落判斷感染監控的歷史案例中,建構出可用以預測心靜脈導管塗抹抗生素在病患身上的作用結果之分類模式,用以協助醫藥人員有效判斷感染情形與特徵,進而提升抗生素之用藥醫療品質、降低可能的醫療資源浪費。

實驗結果顯示,本研究所收集的導管菌落判斷感染監控資料中有顯著類別間資料數量不對稱的現象,而造成模式預測偏向的問題。經由成本敏感法的運用預測錯誤成本的改善調整,提升分類預測的效能,建構出對各類別資料都有良好預測效能的理想模式。目的做為日後與專家系統之結合,發展出一套強而有力之醫療專家系統,減少醫療費用的浪費,同時在照顧病人品質方面能夠維持一定的水準。

關鍵字:資料挖掘、資料倉儲、決策樹

Applying Data Mining to Build a Classify Model

Chien-Yun Dai

National Taiwan Normal University

Chih-Chun Lu

National Taiwan Normal University

Chiu-Huin Liao

Southern Taiwan University of Technology

Abstract

The research use Data Mining, Data Warehouse and Decision-Tree that Classification perform the algorithm makes for the tool. Take department that anaesthetizes division of cardiology as an example. Build and construct out measurable Central Venous Catheter to apply in the historical case of judging Central Venous Catheter Insertion from the antibiotic and infecting Wipe the categorized model on patient of antibiotic. The paper use under-sampling, over-sampling and Part to solve skewed class distribution problem. And then use C4.5 algorithms to build up classifier. Verify via the expert that use this classifier can effectively help the medical expert to extract out it about Central Venous Catheter Insertion good knowledge rule.

Keywords: Data Mining, Data Warehouse, Decision-Tree

壹、前言

全民健保開辦之初實施論量計酬支付制度(Fee For Service, FFS)此支付制度促使醫療機構誘導醫療需求,導致醫療資源的浪費,醫療費用年年升高。健保局為了抑制醫療費用的成長,陸續的實施論病例計酬(Case Payment)、論人計酬(Capitation)、論日計酬(Per Diem)等支付制度,隨後並規劃實施了總額預算支付制度(Global Budget),使用固定的年度醫療預算總額,各醫療機構必須加強成本費用的控制,以維持其利潤。在全民健保實施後,各醫療機構為了配合醫療費用的申報,開始增加在電腦軟硬體方面的投資,各種臨床醫療行為與處方用藥也可以較完整的輸入電腦,但大多數都只為了配合健保醫療費用申報的需要。資料記錄過去的經驗,由累積在醫療資料庫中的歷史醫療紀錄,藉著資料挖掘( Data Mining)的技術,分析萃取出值得參考的現象與數據,一般被視為可以為醫療機構的經營管理帶來有用的資訊。本研究主要以Data Mining的技術,來探討其在實證醫學上的應用,藉由醫療資料庫中的資料,透過資料挖掘的演算法將資料有規則的以另一種方式呈現出來,做為提供醫療機構經營管理上的參考。

貳、文獻探討

一、資料挖掘

知識的貢獻大於資訊,資訊的貢獻大於資料,資料挖掘就是從大

型的資料庫中萃取出隱藏的預測資訊,在商業上可以有效地協助企業利用資料倉儲做為預測未來的趨勢以及行為分析,也是建立企業智慧最主要的方法之一,因此有人稱之為資料庫的知識挖掘(Knowledge Discovery in Database, KDD)、資料考古學(data archaeology)或資料型態分析(data pattern analysis) (梁定澎,2004)。若能由資料中找出顯著且有用的決策模式或決策法則,進而正確地預測未來的行為,將能增加更多企業智慧,資料挖掘可以創造出許多新的知識,透過這些知識的發現、儲存、分享、利用,是重要的知識產生工具。

由此可知,資料挖掘為針對大量的資料進行處理,以發掘、萃取、得到存在於資料中有用有意義之知識,自從電腦發明之後,資料庫的建立,無疑的是日後知識經濟所必須的產物,靠著資料挖掘之技術,我們就能快速、精確的找出有用之資料,以做為支援決策使用。

關於資料挖掘的定義與研究,因不同研究者的研究重點及動機不同而有不同的看法,整理如表1所示。

表1資料挖掘的定義與研究整理表

學者(年代)資料挖掘的定義

Frawley(1991)從資料中萃取出隱藏的、先前未知的有用資訊

Gnardellis & Boutsinas(2001)認為資料挖掘為資料庫中知識發掘過程的一個步驟

Fayyad(1996)可萃取出資料中有效的、嶄新的、具潛在效益的資訊之非細瑣過程,其最終目標是瞭解資料的型態

Berry & Linoff(1997)為了發現有意義的模式或規則,以自動或半自動的方式,來勘查、分析大量資料所進行的流程

Lewis, Bernstein & Kifer (2001) 資料挖掘是一個發掘知識的過程,可以在一個大型資料集合結構中找到所需要的特徵知識

Berson, Smith & Thearling (1999) 在一個資料倉儲的數個資料倉庫中,使用「已經建立完成的統計方式」及「機器學習技術」,找尋具有相互關係、項目、趨勢預測等意義深遠的挖掘處理過程

Jiawei Han(1997) 透過許多種資料分析的技術以發掘出資料與資料之間的型態與關係的一種過程。

梁定澎(2004) 資料挖掘就是從資料中發掘知識過程,從大量資料中,找尋事前未知或有效且可以付諸行動之規則或知識

林東清(2003) 資料挖掘指的是利用統計、人工智慧(AI)或其他的分析技術,在大型資料庫(倉儲)內挖掘與尋找未知的、有效且可實行的資料間所隱藏的關係與規則,可用來支援決策支援系統

綜合以上各專家學者對於「資料挖掘」的定義後,可以發現和資料庫知識發現流程(Knowledge Discovery in Database process, KDD process)有關,Fayyad(1996)認為資料庫知識發現流程是說明在資料庫中取得知識的過程,因此對於不確定、不完整及有干擾性的資料要預先處理,而資料挖掘只是資料庫知識發現流程中的一步驟。從資料庫中找尋知識,不但結合了資料庫、知識庫、而且也包括人工智慧、統計學等方面相關的應用。透過知識的挖掘,從龐大的資料庫中挖掘出有意義的資訊,以幫助決策者做最有利的決策(Berson, et al., 1997)。資料庫知識發現的流程,可包含下列幾個步驟(Fayyad,1996)。

(一)建立目標資料集合:應用先前相關知識,選擇與目標相關的資料。

(二)資料淨化與先前處理:過濾資料雜質、處理缺漏資料、定義資料

型態與綱要等。

(三)資料轉換:將資料範圍縮小資料,對目標及任務找出有用的代表資

料,並利用多維度法或資料轉換法來減少變數或找出不變的資料。

(四)選擇資料挖掘模型與方法:找出資料關連性。

(五)資料挖掘:根據問題的種類進行資料挖掘。

(六)結果說明:對結果解釋與評估,決定結果呈現方式。

(參考來源: Fayyad,1996)

圖1 資料庫知識發現的流程圖

由圖1可以清楚看出,整個資料庫知識發現的流程,是先將資料選擇、清理、整合與轉換後,存放於資料倉儲中,再利用資料挖掘技術萃取資料的型樣,最後評估型樣的實用性與呈現知識給使用者,而資料挖掘乃是整個資料庫知識發現流程中的一個步驟。

二、資料倉儲

資料倉儲的概念大約起源於60年代美國麻省理工學院為研究計量經濟學(econometrics) 而發明的多維式模組(multidimensional modeling),關於資料倉儲的定義與研究,因不同研究者的研究重點及動機不同而有不同的看法,整理如表2所示。

表2 資料倉儲定義整理表

作者內容綱要

Inmon(1996) 「資料倉儲是以主題導向、整合性、非揮發性及時間變異性所聚集之資料,以支援管理決策

Kimball(1996) 資料倉儲是一群靜態的資料,由日常的交易系統中取得,另外形成一個倉儲,因此資料倉儲可說是支援決策的資料庫

Hoven(1998) 資料倉儲是一套經過改良的決策支援系統,它產生高階的、整合的、系統的、結構化的資料,使其可以被解釋、查詢、報告、分析以協助商業的決策

Murtaza(1998) 資料倉儲可以產生整合性、非揮發性的組織資料,並轉換成提供決策支援的資訊。

Lewis, Bernstein & Kifer (2001) 通常是非常大型的,資料的取得包括了數個不同時間的資料庫來源

綜合上述觀點,資料倉儲可定義為有系統的蒐集歷史資料,這些資料具有時間性與整合性,並依據特定研究主題來整合,可進一步利用線上分析、資料挖掘各項知識發現工具,提供決策者或研究者快速、整合性、視覺化且具分析性的資訊,以提供精確之決策與分析之用。

資料倉儲大師Bill Inmon(1996)在「建構資料倉儲(Building the Data Warehouse)」一書中之描述,資料倉儲包含以下四個主要特性:主題導向、整合性、非揮發性及時間變異性,以下分別說明其意義(Kimball, 1996)。

(一)主題導向(Subject oriented)

資料的組織結構是依據研究者所設定之主題來做安排,而非應用層面來做安排,倉儲內的資訊是提供作決策支援與資訊運用的來源。(二)整合性(Integrated)

資料倉儲內的資料是一具整合性、穩定性、安全性且清洗過的資料。各個不同資料來源的資料放入倉儲內時,需要轉換為一致的表示方式及儲存方式。

(三)非揮發性(Non-volatile)

資料放入資料倉儲後,即不允許輕易改變或更新,資料僅可被載入及讀取用。

(四)時間變異性(Time variant)

資料倉儲的觀念建構於歷史資料模型的基礎之上,在倉儲中存放長期歷史的資料,供分析、比較、趨勢預測等運用。

資料倉儲的資料模式可分為三種綱要(Lewis, et al., 2001),第一種架構為星狀綱要,以事實表格為中心,維度表格以事實表格為中心成放射狀的模型。第二種架構為雪花狀綱要,仍以事實表格為中心,有些維度經第三正規化後,進一步分裂成新增表格。第三種綱要為星座綱要,事實表格經正規化後,成為多元事實表格共用維度表格,這三種綱要皆由事實表格與維度表格所組成。由上述三種綱要的敘述,可以做一個整理如表3所示。

表3 三種綱要的比較表

優點缺點

星狀綱要 容易瞭解。

容易定義階層。

減少實體合併數

目,增加執行效

率。

低維護成本。

簡單的詮釋資料

龐大的維度表格。

雪花狀綱要 節省磁碟空間。

瀏覽單一屬性。

增加合併(join)的數目

瀏覽跨屬性速度較慢。

特別的查詢較為複雜。

資料載入、綱要、詮釋資

料、維護等較具複雜性。

星座綱要維度表格中不需要有"層

次" 表示,在低層次的細

部不需儲存任何聚集資

料。

維度表格很大時,會降低

執行效率。

需要更複雜的詮釋資料。

三、分類規則

分類法是針對欲處理且未分類的資料集合,根據已知類別的物件集,將欲處理資料依照其屬性去完成分類之過程。常見的分類分析技術包括了可產生決策樹或決策法則的ID3、C4.5、CN2與AQ15等演

算法,然而本研究使用C4.5分類法做為研究之工具,以下則為C4.5之相關演算法(Quinlan,1993)。

Step1:假設一個事件有n 種結果,發生的機率分別為P(v 1), …, P(v

n),這些機率都是已知的,則定義這個事件發生後所得到的資訊量如下式(1)所式。

(1)

Step2:假設分類結果為P (正例,positive instance)和N(反例,

negative instance ),則我們可根據屬性A 的值將X 分為X 1,…, X v 所得到的資訊獲利如下式(2)所示。

A 代表某一個屬性

X 代表屬性測試前的樣本集合

X 1,…, X v 代表屬性測試後的樣本子集合

p 代表X中正例的個數

n 代表反例的個數

p i 代表Xi 中正例的個數

n i 代表Xi 中反例的個數

(2) 四、臨床路徑

臨床路徑是醫療管理者用來控制醫療成本及改善醫療品質的方法

之一;也是成果管理( outcomes management )的工具之一。所謂成果管理就是利用分析、評估醫療成果,來改進整個醫療體系的管理方式路徑希望找出最有成本效益( cost-effective )的治療模式,而達到過去一樣的治療效果,或甚至比過去更好的醫療品質。所謂最有成本效益的治療模式,就是最短的住院日數( length of hospital stay ),在一定時間內不會為了同一種疾病再次住院,而且是大部份的醫師都可以接受的治療方法。

五、不對稱性資料

在目前文獻中,減少多數法(under-sampling for reducing majority

data)(Hart, 1968; Skalak, 1994)與增加少數法(over-sampling for expanding minority data) (Chawla et al., 2002; DeRouin et al., 1991; Lewis and Catlett, 1994)為兩種最常見的預測偏向問題解決策略。減少多數法是採用去除多數類別的部分資料的策略降低類別間資料數量的差異,藉以解決分類模式建構法對多數資料過度學習所產生的預測偏∑?==n i i

i n v P v P v P v P I 121)(log )())(,),((K )(),()(A E n p I A Gain ?=

向問題。然而,減少多數法的使用卻常會導致訓練資料數量的不足,而根據以建構出的分類模式有訓練不足的問題。成本敏感法(Cost-Sensitive)的學習架構主要針對Y和N類別不同比例的資料數量情境下使用的一種觀念,也就是當類別之間數量呈現非對稱分配時,不採取增加或減少類別資料的方式,而是透過對於預測錯誤成本的調整,提升分類預測的效能,但是若類別之間已呈對稱性分配時,成本差異提升並無法有效提升預測能力(Witten & Frank, 2002)。

相對於減少多數法,增加少數法則使用增加少數資料的策略來降低類別間資料數量的差異。DeRouin(1991)等學者提出以類神經網路仿製少數類別的資料的方法,用以減低類別間的資料數量差異;Lewis 與Catlett (1994)兩位學者則認為直接複製少數類別的資料是最簡單有效的方式;成本敏感法可應用在任何學習架構下,而且在決策樹學習架構下使用成本敏感預測,將可以縮減其決策樹的大小(黃素珍,2004)。Chawla(2002)等學者則認為以仿製少數類別資料的方式較能解決預測偏向的問題,但以類神經網路方式仿製則較為繁瑣,因此提出另一種綜合式的仿製演算法SMOTE(Synthetic Minority Over-sampling TEchnique),用以增加少數類別的資料。

SMOTE仿製演算法的作法為:以最近鄰居法kNN(k nearest neighbor),為每一筆的少數類別資料(mi)在多數類別中找出k個最近的多數類別資料(O1, O2, …, Ok),而k值為要複製少數類別資料的倍數。為mi與每個Oj的配對計算兩者間的n維向量的差異值dj,再從0 ~ 1取得一個隨機亂數rj,則一個複製的mi點為mi+rj×dj。例如:mi是一個二維平面的點(6, 4),從多數類別中所挑出的一個最近鄰居點Oj為(4, 3),mi與Oj的差異值dj = (4, 3) ? (6, 4) = (-2, -1);若取得的隨機亂數rj為0.2,則將可產生一個新的mi複製點為(6, 4) + 0.2×(-2, -1) = (5.6, 3.8)。

倘若以收集的資料集合所建構出的預測模式有預測偏向的問題時,為了不增加模式建構的複雜度,並能充分使用所有收集全靜脈營養劑導管資料,本研究將採用Witten與Frank (2002)學者所提出的成本法,讓分類分析法建構分類模式時可根據不同類別的分類錯誤成本調整模式非對稱性問題。首先必須事先訂定如表四的適當分類錯誤成本矩陣,假設要讓分類模式對於少數類別資料具有較佳的預測效能,只要將下表4中的C設定為大於1的值即可。但提高分類模式對於少數類別資料的辨識效能的同時,分類模式對於多數類別資料的辨識效能則會因而下降,所以適當的C值則必須以實驗的方式進行調整與挑選。希望能夠解決模式預測偏向的問題,使預測模式的效能可以符合本項應用的要求。

表4 分類錯誤成本矩陣

預測為少數類別預測為多數類別

實際為少數類別0 C

實際為多數類別 1 0

參、研究設計及過程

以下為整合支援決策及線上資料挖掘之技術分析圖,提供外部使用者能透過線上或視覺上的觀察,找出有用及有意義之資料,如下圖2所示。

圖2 支援決策及線上資料挖掘之技術分析

本研究使用的資料集合取自南部某醫學中心在民國九十三年一月至民國九十三年十二月期間,院內使用非口服靜脈營養導管,醫師以

加入抗生素來進行對於感染監控,進行全靜脈營養劑(total Parenteral Nutrition, TPN)是經由鎖骨下中央靜脈注入高張營養劑,含葡萄糖、蛋白質、脂質、電解質、維他命、微量金屬元素等,可提供腸胃道功能喪失之病患適當的營養及身體代謝所需之能量及體內所需的蛋白質。由於在此心臟科麻醉部門對病患進行接受使用全靜脈營養劑導管對於加抗生素是有效降低感染率,並且欲建立預防感染的預測路徑。本研究僅以其中3425筆全靜脈營養劑導管病患的監控記錄作為主要的探討對象。去除缺失病患資料的記錄後,共可取得3141筆完整的藥物監測記錄。經與專業藥師討論後,本研究將監測記錄區分為藥物作用結果適當與不適當兩種類別。若病患使用抗生素可有效抑制感染則被視為抗生素作用結果適當。在所收集的3141筆記錄中,共有202筆記錄屬於藥物作用結果適當;另外的2939筆記錄則屬於藥物作用結果不適當。如下表5所示。

表5 抗生素導管菌落判斷感染監測資料的屬性說明與統計特徵

變數變數值資料特徵

姓別男性為M

女性為F 男性有1830人女性有1311人

年齡最小值2

最大值92 平均值64.28 標準差15.3

住院天數最小值2

最大值92 平均值64.28 標準差15.3

是否使用抗生素狀況是為Y

否為N 是:2948人否:193人

是否進行非口服靜脈營養導管是為Y

否為N

是:167人否:2974人

是否感染是為Y

否為N

是:202人否:2939人

肆、實證評估

一、衡量指標與實驗程序

本研究首先將利用C4.5決策樹分類分析法,以收集的全靜脈營養劑導管資料集合建構出抗生素初次使用的反應預測模式。但決策樹是以樹狀結構來呈現規則,樹的結構會隨資料量越大而變得不易解釋,而PART為決策樹的一種演算法,可將決策樹直接轉成規則,本研究利用PART來建立決策樹的規則。倘若利用類別間資料分佈平均的資料集合建構分類模式,該模式通常會有良好的預測效能;但當不同類別間有顯著的數量差異時,則模式的預測結果將可能偏向於有多數資料的類別,而使得分類模式有預測偏向問題。本研究所收集的全靜脈營養劑導管資料中,分屬Y、N兩個不同類別的資料數量有著明顯的差異(Y : N = 202 : 2939),據以建構出的模式可能有預測偏向問題。

其中以各類別的類別正確辨識率(True Positive rate,TP rate)、他類別錯認率(False Positive rate,FP rate)以及整體正確辨識率(Accuracy) (Witten & Frank, 2000)三種效標作為評估模式預測效能的指標。若以表6的分類模糊矩陣(confusion matrix)為例,對於Y類別而言,其類別正確辨識率(TP rate)意指:被預測模式正確地辨識為Y類別的案例個數

佔所有實際為Y類別的案例總數的比勵,計算公式為A

(A+B);而他類別錯認率(FP rate)則是:被預測模式錯認為Y類別的N類別案例佔所有

N類別案例個數比例,其計算公式為C

( C+D)。若以N類別為考慮重點,

則N類別的TP rate計算為

D

( C+D),FP rate的計算為

B

(A+B)。整體正確

辨識率在於衡量預測模式正確辨識不同類別案例的效能,其計算公式

(A+D)

(A+B+C+D)。

由於本研究所建構之藥物作用結果預測模式,必須對於所收集的

抗生素全靜脈營養劑導管案例集合中的任一類資料都要有良好預測效能,方能有效地協助醫藥人員掌握抗生素使用的療效,因此建構出的預測模式必須具備良好的整體正確辨識率及良好的各類別正確辨識率(TP rate),但需有低的他類別錯認率(FP rate)。

本研究將以資料挖掘的工具軟體Weka (Witten & Frank, 2000)作為決策樹模式建構與效能測試的工作平台,同時將採用十摺交互驗證法(10-fold cross-validation)的方式對建構出的預測模式進行效能評估。所謂十摺交互驗證法,乃是將實驗資料集以原有類別資料比例的方式,

隨機地將資料集合切割成等量的十份資料子集,取其中的九份資料進行模式的建立,而利用剩下的一份資料作為驗證模式效能的測試資料;如此重複十次,讓每一份資料子都輪流地作為測試資料,再以十次實驗結果評估預測模式的效能。

表6 分類模糊矩陣

(單位:個數)

預測藥物作用

結果適當(Y) 預測藥物作用結果不適當(N)

實際為藥物作用

結果適當(Y)

A B

實際為藥物作用

結果不適當(N)

C D

二、實證分析

(一) 基本決策樹分類模式的建構

本研究首先利用所收集的非口服靜脈營養導管資料集合與Weka

中的C4.5決策樹中PART模組建構預測模式,並以十摺交互驗證的程

序,評估以建構出之分類模式的預測效能,評估結果如表7所示。

表7 直接利用原始資料所建構之分類模式效能

靈敏度特定性整體辨識正確性

0.0.00% 0.00 %93.56 %

從表7的評估結果可知,以原始資料集合中所建構出的決策樹預

測模式,其預測結果明顯地偏向於擁有多數資料的N類別,而對於少

數資料的Y類別,該模式並沒有良好的預測效能。由於資料集合中,

分屬Y、N兩個不同類別的資料數量有明顯的差異(Y : N = 202 : 2939),因此模式預測偏向的問題極可能來自於類別間資料數量的不對

稱分佈,因此本研究將採用Witten 與 Frank (2002)學者所提出的成本

法,讓分類模式對於少數類別資料具有較佳的預測效能,希望能夠解

決模式預測偏向的問題,使預測模式的效能可以符合本項應用的要求。

(二) 以成本敏感法解決分類模式預測偏向的問題

為了選擇適當的複製比例提高預測模式的效能,由表8的實驗結

果可知,本研究利用表4的分類錯誤成本矩陣,把對少數類別的分類

錯誤成本C由5變化至20,再以成本敏感法的方式建構不同的分類模

式,用以觀察不同的分類錯誤成本對分類模式效能的影響。以不同的

分類錯誤成本矩陣所建構出的分類模式的分類效能如表7所示。將分

類模式對Y類別與N類別的分類錯誤成本設定為8:1時,分類模式的

F-measure為最高,Recall、Precision也能有效地提升,而整體辨識正

確性仍可維持在一定的水準。

表8 成本敏感法對模式分類效能的影響評估

分類錯誤成本C 整體辨識正確性Recall Precision F-measure

0.279

37.11%22.95%

5 85.61%

0.2558

39.67%19.34%

6 82.97%

0.2256

38.46%16.13%

7 81.88%

0.3023

53.03%21.38%

8 81.25%

0.2548

53.11%16.94%

9 78.04%

0.3025

66.13%20.00%

10 77.21%

0.2353

59.60%14.58%

15 73.48%

0.2329 20 69.34%

68.30%14.13%

伍、結論

藥效與安全性是使用抗生素的重要考量因素,為了讓醫藥人員可

以充分運用蘊藏於過去抗生素全靜脈營養劑導管案例的用藥經驗,本

研究利用決策樹分類分析法建構出可用以評估抗生素藥物作用的預測

模式,協助醫藥人員可藉以掌握病患使用抗生素的效用,用以降低感

染等副作用產生的可能。

由於決策樹分類模式可以轉換成易被人類瞭解與運用的知識規

則,倘若臨床藥師能進一步利用臨床經驗與藥物學理論,分析及解讀

分類規則在臨床上的意義,將可為醫療機構累積寶貴的用藥知識,並

可用以訓練醫療機構內的新進人員,藉以讓病患在第一次的治療時間

即可獲得有效安全的藥物治療,進而可以縮短病患療程,達到降低醫

療成本的目標。

雖然本研究僅以全靜脈營養劑導管資料為例,建構出對抗生素之

藥物作用結果的預測模式,但模式建構程序仍可應用於其他須以全靜

脈營養劑導管監測的各種藥物上。未來的研究可以結合資料挖掘技術

與藥物動力學理論,發展出可正確預測藥物用量的預測模式,使醫藥

人員更能方便、準確地預估藥物的用量與方法,藉以提高醫療機構用

藥的醫療品質。

參考文獻

林東清,資訊管理e化企業的核心競爭能力,台北:智勝文化,2003年,頁376-388。

梁定澎,決策支援系統與企業智慧,台北:智勝文化,2004年,頁15-20~16-24。

黃素珍,資料挖掘在住院成本控制上的應用-以闌尾切除手術為例,南台科技大學企業管理研究所碩士論文,2004年。

Berry, M. J. A.. & Linoff, G. S. Data Mining Techniques, John Wiley & Sons, Inc. 1997, pp.407.

Berson, A., & Smith, S. J., & Thearling, K. Building Data Mining Applications for CRM, Mc Graw-Hill, 1999, pp. 6-31.

Chawla, N., Bowyer, K., Hall, L., and Kegelmeyer, P., “SMOTE: Synthetic Minority Over-sampling Technique,” Journal of Artificial Intelligence Research, V ol. 16, 2002, pp.321-357.

DeRouin, E., Brown, J., Beck, H., Fausett, L., and Schneider, M., “Neural Network Training on Unequally Represented Classes,” Intelligent

Engineering Systems Through Artificial Neural Networks, ASME Press, New York, 1991, pp.135-145.

Fayyad, U. M. Data Mining and Knowledge Discovery:Making Sense out of Data. IEEE Expert, 11, 5, 1996, pp. 20-25.

Frawley, W. J. & Piatetsky-Shapiro, G. & Matheus, C. J.Knowledge Discovery Databases: An overview, in Knowledge Discovery in Database, Cambridge, MA: AAAI/MIT, 1991, pp. 1-27.

Gnardellis, T. & Boutsinas, B. On Experimenting with Data Mining in Education, 2001.

Hart, P. E., “The Condensed Nearest Neighbor Rule,” IEEE Transactions on Information Theory, IT-14, 1968, pp.515-516.

Hoven, J.V.D. Data Warehousing: Bringing It All Together, Information

System Management, 1998, pp.92-95.

Inmon, W. H. Building the Data Warehouse, John Wiley & Sons, N.Y.1996.

Kimball, R. The Data Warehouse Tool kit, Wiley & Sons, N.Y.19936

Liu, Z. & Guo, M. A Proposal of Integrating Data Mining and On-Line Analytical Processing in Data Warehouse Proceedings . ICII 2001 - Beijing. 2001 International Conferences, 3, 2001,pp.146 – 151. Lewis, D. and Catlett, J., “Heterogeneous Uncertainty Sampling for Supervised Learning,” Proceedings of the 11th International Conference on Machine Learning, 1994, pp.144-156.

Lewis, P. M. & Bernstein, A. & Kifer M. (2001). Database and Transaction Processing-An Application-Oriented Approach, Addison Wesley , 2001, pp.645-663

Murtaza, A. A framework for Developing Enterprise Data Warehouse.

Information System Management, Fall 1998, pp.21-26.

Quinlan J. R., “C4.5: Programs for Machine Learning”, Morgan Kaufmann, 1993.

Skalak, D., “Prototype and Feature Selection by Sampling and Random Mutation Hill Climbing Algorithms,” Proceedings of 11th Machine Learning Conference, 1994, pp.293-301.

Witten, I. H. and Frank, E., Data Mining: Practical machine learning tools with Java implementations, Morgan Kaufmann, San Francisco, 2000. 致謝

感謝辛苦的各位編審委員的多方意見。

作者簡介

戴建耘先生目前為國立台灣師範大學工業教育所及應用電子研究所教授。電子郵件為jerryday@hotmail.co m。

盧治均目前為國立台灣師範大學業教育研究所電機電子組研究生。電子郵件為juiun811037@hotmai.co m。

廖秋惠目前為私立南台科技大企業管理所研究生。電子郵件為juiun811037@https://www.doczj.com/doc/bb16623044.html,.t w。

建筑模型常用材料

建筑模型常用材料 材料是建筑模型构成的一个重要因素,它决定了建筑模型的表面形态和立体形态。 常用模型材料有木材(胶合板,密度板,模型板,细木线,木皮等),复合板材(PVC板,泡沫板,苯板等),透明材料(玻璃,有机玻璃,塑料板,水晶等),塑型材料(石膏,橡皮泥,黏土等),金属材料(铝板,钢板,铜板,金属丝等),纸类(纸板,有色纸,绒纸,瓦楞纸等),成品材料(树木,绿地,铺装,屋顶,装饰物,车,人等)其他辅助材料。 一、主材类 主材是用于制作建筑主体部分的材料,一般通常采用的是纸材、木材、塑料材三大类。了解主材的基本特性才能作到物尽其用,得心应手,才能达到事半功倍的效果。 1、纸材类 纸模型其实有着百年以上的历史,至今仍然受到许多玩家的欢迎,虽然有着渐渐没落的悲伤,却因为电脑的帮助及网络的进步发展,加上纸模型设计图有着传输便利的优势和可以分享的特性,随着数字时代的到来,纸模型展开图透过档案的储存、网络的传输,让世界的彼端也能够组合不同设计师的作品,就这样,在传统的纸艺中又开始受到欢迎。 在各类模型材料中,纸材是建筑模型制作中最基本最简单的,也是被大家所广泛采用的一种材料。纸材易于裁切但延展性差,适合于

制作大部分外观形态简洁,形态凹凸面变化不大的模型。通常被设计师用来制作成设计初期的研究性模型。 ①纸材的分类 根据纸的厚度可分为:单层纸(厚度约0.25mm),双层纸(厚度约0.32mm),三层纸(厚度约0.4mm)、四层纸(厚度约0.6mm)、硬卡纸(厚度约0.8-1.6mm)。在使用过程中,根据模型的具体要求选择适合的纸材。一般较薄的纸硬度小,易弯曲成型可用来制作表面曲面较大的模型而较厚的纸材,硬度大,但不易弯曲成型,一般用来制作建筑的主体结构和大面积平整的模型部分。 ②纸材的特点 1.可塑性高,通过剪裁、折叠、改变原有的形态; 2.通过褶皱产生各种不同的肌理: 3.通过渲染改变其固有色,可产生多彩的效果。 目前市场流行种类繁多,可以用来制作模型的纸材料有各种成品纸和各类不同厚度的硬纸板。有国产和进口两大类,一般常用0.5~3mm。还有仿石材的各种墙面半成品纸张。 ③优点 适用范围广、品种、规格、色彩多样,易折叠,切割加工方便,表现力强。 ④缺点 材料物理特性较差,强度低,稀释性强,受潮易变形,在建筑模型制作过程中,粘接速度慢,成型后不易修整。

数据挖掘中的聚类分析方法

计算机工程应用技术本栏目责任编辑:贾薇薇 数据挖掘中的聚类分析方法 黄利文 (泉州师范学院理工学院,福建泉州362000) 摘要:聚类分析是多元统计分析的重要方法之一,该方法在许多领域都有广泛的应用。本文首先对聚类的分类做简要的介绍,然后给出了常用的聚类分析方法的基本思想和优缺点,并对常用的聚类方法作比较分析,以便人们根据实际的问题选择合适的聚类方法。 关键词:聚类分析;数据挖掘 中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)12-20564-02 ClusterAnlaysisMethodsofDataMining HUANGLi-wen (SchoolofScience,QuanzhouNormalUniversity,Quanzhou362000,China) Abstract:Clusteranalysisisoneoftheimportantmethodsofmultivariatestatisticalanalysis,andthismethodhasawiderangeofapplica-tionsinmanyfields.Inthispaper,theclassificationoftheclusterisintroducedbriefly,andthengivessomecommonmethodsofclusteranalysisandtheadvantagesanddisadvantagesofthesemethods,andtheseclusteringmethodwerecomparedandanslyzedsothatpeoplecanchosesuitableclusteringmethodsaccordingtotheactualissues. Keywords:ClusterAnalysis;DataMining 1引言 聚类分析是数据挖掘中的重要方法之一,它把一个没有类别标记的样本集按某种准则划分成若干个子类,使相似的样品尽可能归为一类,而不相似的样品尽量划分到不同的类中。目前,该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域,其目的在于区别不同事物并认识事物间的相似性。因此,聚类分析的研究具有重要的意义。 本文主要介绍常用的一些聚类方法,并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析,以便人们根据实际的问题选择合适的聚类方法。 2聚类的分类 聚类分析给人们提供了丰富多彩的分类方法,这些方法大致可归纳为以下几种[1,2,3,4]:划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。 2.1划分法(partitiongingmethods) 给定一个含有n个对象(或元组)的数据库,采用一个划分方法构建数据的k个划分,每个划分表示一个聚簇,且k≤n。在聚类的过程中,需预先给定划分的数目k,并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似,而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集,对大规模的数据集进行聚类时需要作进一步的改进。 2.2层次法(hietarchicalmethods) 层次法对给定数据对象集合按层次进行分解,分解的结果形成一颗以数据子集为节点的聚类树,它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下,可分为凝聚聚类法和分解聚类法:凝聚聚类法的主要思想是将每个对象作为一个单独的一个类,然后相继地合并相近的对象和类,直到所有的类合并为一个,或者符合预先给定的终止条件;分裂聚类法的主要思想是将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者符合预先给定的终止条件。在层次聚类法中,当数据对象集很大,且划分的类别数较少时,其速度较快,但是,该方法常常有这样的缺点:一个步骤(合并或分裂)完成,它就不能被取消,也就是说,开始错分的对象,以后无法再改变,从而使错分的对象不断增加,影响聚类的精度,此外,其抗“噪声”的能力也较弱,但是若把层次聚类和其他的聚类技术集成,形成多阶段聚类,聚类的效果有很大的提高。2.3基于密度的方法(density-basedmethods) 该方法的主要思想是只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对于给定的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处"噪声"孤立点数据,发现任意形状的簇。2.4基于网格的方法(grid-basedmethods) 这种方法是把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。 2.5基于模型的方法(model-basedmethod) 基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设:数据是根据潜在的概 收稿日期:2008-02-17 作者简介:黄利文(1979-),男,助教。

模型制作材料、工具及其使用

模型制作资料 一、 模型制作材料、工具及其使用 1、主材类 2、纸质材料 3、打印纸 4、绘图(卡)纸-----制作卡纸模型采用白色卡纸。如果需要其他颜色,可在白色卡纸上进行有色处理。卡纸模型还可以采用不干胶色纸和各种装饰纸来装饰表面,采用其他材料装饰屋顶和道路。 5、厚纸板-----厚纸板是以其颜色与白色的卡纸做区分,有灰色和 棕色制模用的厚纸板------它有一个由泡沫塑料制成的坚固核心,而此核心的两边是用纸张覆盖(粘合)的。 6、瓦楞纸-----波浪纹是用平滑的纸张粘合在一面或是两面上的, 因为具备可卷曲的特性。瓦楞纸的波浪越小、越细,就越坚。 各色不干胶:用于建筑模型的窗、道路、建筑小品、房屋的立面和台面等处的贴饰。 吹塑纸:适宜制作构思模型和规划模型等,它具有价格低廉、易加工、色彩柔和等特点。 仿真材料纸:仿石材、木纹和各种墙面、屋顶的半成品纸张。 各色涤纶纸:用于建筑模型的窗、环境中的水池、河流等仿真装饰。 锡箔纸:用于建筑模型中的仿金属构件等的装饰。 砂纸:砂纸是用来打磨材料,可做室内的地毯和球场、路面、绿地。 二、 木质材料 1.木工板 (木工用平板 细木工板) 2.胶合板-----胶合板是用三层或奇数多层刨制或旋切的单板,涂胶后经热压而成的人造板材,各单板之间的纤维方向互相垂直(或成一定角度)、对称,克服了木材的各向异性缺陷。 3.硬木板(密度板、刨花板)----- 硬木板是利用木材加工废料加工成一定规格的碎木,刨花后再使用胶合剂经热压而成的板材。 4.软木板-----软木板是由混合着合成树脂胶粘接剂的木质颗粒组合而成的。 5.航模板----- 航模板是采用密度不大的木头(主要是泡桐木)经过化学处理而制成的板材。 6.其他人造装饰板-----仿金属、仿塑料、仿织物和仿石材等效果的板材,各种用于裱糊的装饰木皮等。 三、塑料板材 1.ABS 板:ABS 板是一种新型的模型制作材料,称之为工程塑料,ABS 板是现今流行的手工及电脑雕刻加工制作的主要材料。 2.PVC 板:主要成分为聚氯乙烯分为软PVC 板(柔软耐寒,耐磨,耐酸、碱)和硬PVC(易弯曲、

聚类分析算法解析.doc

聚类分析算法解析 一、不相似矩阵计算 1.加载数据 data(iris) str(iris) 分类分析是无指导的分类,所以删除数据中的原分类变量。 iris$Species<-NULL 2. 不相似矩阵计算 不相似矩阵计算,也就是距离矩阵计算,在R中采用dist()函数,或者cluster包中的daisy()函数。dist()函数的基本形式是 dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2) 其中x是数据框(数据集),而方法可以指定为欧式距离"euclidean", 最大距离"maximum", 绝对值距离"manhattan", "canberra", 二进制距离非对称"binary" 和明氏距离"minkowski"。默认是计算欧式距离,所有的属性必须是相同的类型。比如都是连续类型,或者都是二值类型。 dd<-dist(iris) str(dd) 距离矩阵可以使用as.matrix()函数转化了矩阵的形式,方便显示。Iris数据共150例样本间距离矩阵为150行列的方阵。下面显示了1~5号样本间的欧式距离。 dd<-as.matrix(dd)

二、用hclust()进行谱系聚类法(层次聚类) 1.聚类函数 R中自带的聚类函数是hclust(),为谱系聚类法。基本的函数指令是 结果对象 <- hclust(距离对象, method=方法) hclust()可以使用的类间距离计算方法包含离差法"ward",最短距离法"single",最大距离法"complete",平均距离法"average","mcquitty",中位数法 "median" 和重心法"centroid"。下面采用平均距离法聚类。 hc <- hclust(dist(iris), method="ave") 2.聚类函数的结果 聚类结果对象包含很多聚类分析的结果,可以使用数据分量的方法列出相应的计算结果。 str(hc) 下面列出了聚类结果对象hc包含的merge和height结果值的前6个。其行编号表示聚类过程的步骤,X1,X2表示在该步合并的两类,该编号为负代表原始的样本序号,编号为正代表新合成的类;变量height表示合并时两类类间距离。比如第1步,合并的是样本102和143,其样本间距离是0.0,合并后的类则使用该步的步数编号代表,即样本-102和-143合并为1类。再如第6行表示样本11和49合并,该两个样本的类间距离是0.1,合并后的类称为6类。 head (hc$merge,hc$height)

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

数据挖掘考试题精编版

数据挖掘考试题 公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

数据挖掘考试题 一.选择题 1. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离( ) A.分类 B.聚类 C.关联分析 D.主成分分析 2. ( )将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。 A.MIN(单链) B.MAX(全链) C.组平均 D.Ward方法 3.数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了( )数据挖掘方法。 A 分类 B 预测 C关联规则分析 D聚类 4.关于K均值和DBSCAN的比较,以下说法不正确的是( ) A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。 B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。 C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇 D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN 会合并有重叠的簇 5.下列关于Ward’s Method说法错误的是:( ) A.对噪声点和离群点敏感度比较小 B.擅长处理球状的簇

C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差 D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似 6.下列关于层次聚类存在的问题说法正确的是:( ) A.具有全局优化目标函数 B.Group Average擅长处理球状的簇 C.可以处理不同大小簇的能力 D.Max对噪声点和离群点很敏感 7.下列关于凝聚层次聚类的说法中,说法错误的事:( ) A.一旦两个簇合并,该操作就不能撤销 B.算法的终止条件是仅剩下一个簇 C.空间复杂度为()2m O D.具有全局优化目标函数 8.规则{牛奶,尿布}→{啤酒}的支持度和置信度分别为:( ) 9.下列( )是属于分裂层次聚类的方法。 A.Min B.Max C.Group Average D.MST 10.对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:( ) A.在{3}和{l,2}合并 B.{3}和{4,5}合并 C.{2,3}和{4,5}合并

聚类分析K-means算法综述

聚类分析K-means算法综述 摘要:介绍K-means聚类算法的概念,初步了解算法的基本步骤,通过对算法缺点的分析,对算法已有的优化方法进行简单分析,以及对算法的应用领域、算法未来的研究方向及应用发展趋势作恰当的介绍。 关键词:K-means聚类算法基本步骤优化方法应用领域研究方向应用发展趋势 算法概述 K-means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。 评定标准:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算。 解释:基于质心的划分方法就是将簇中的所有对象的平均值看做簇的质心,然后根据一个数据对象与簇质心的距离,再将该对象赋予最近的簇。 k-means 算法基本步骤 (1)从n个数据对象任意选择k 个对象作为初始聚类中心 (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分 (3)重新计算每个(有变化)聚类的均值(中心对象) (4)计算标准测度函数,当满足一定条件,如函数收敛时,则算法终止;如果条件不满足则回到步骤(2) 形式化描述 输入:数据集D,划分簇的个数k 输出:k个簇的集合 (1)从数据集D中任意选择k个对象作为初始簇的中心; (2)Repeat (3)For数据集D中每个对象P do (4)计算对象P到k个簇中心的距离 (5)将对象P指派到与其最近(距离最短)的簇;

(6)End For (7)计算每个簇中对象的均值,作为新的簇的中心; (8)Until k个簇的簇中心不再发生变化 对算法已有优化方法的分析 (1)K-means算法中聚类个数K需要预先给定 这个K值的选定是非常难以估计的,很多时候,我们事先并不知道给定的数据集应该分成多少个类别才最合适,这也是K一means算法的一个不足"有的算法是通过类的自动合并和分裂得到较为合理的类型数目k,例如Is0DAIA算法"关于K一means算法中聚类数目K 值的确定,在文献中,根据了方差分析理论,应用混合F统计量来确定最佳分类数,并应用了模糊划分嫡来验证最佳分类数的正确性。在文献中,使用了一种结合全协方差矩阵RPCL算法,并逐步删除那些只包含少量训练数据的类。文献中针对“聚类的有效性问题”提出武汉理工大学硕士学位论文了一种新的有效性指标:V(k km) = Intra(k) + Inter(k) / Inter(k max),其中k max是可聚类的最大数目,目的是选择最佳聚类个数使得有效性指标达到最小。文献中使用的是一种称为次胜者受罚的竞争学习规则来自动决定类的适当数目"它的思想是:对每个输入而言不仅竞争获胜单元的权值被修正以适应输入值,而且对次胜单元采用惩罚的方法使之远离输入值。 (2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解 不同的初始值,结果往往不同。K-means算法首先随机地选取k个点作为初始聚类种子,再利用迭代的重定位技术直到算法收敛。因此,初值的不同可能导致算法聚类效果的不稳定,并且,K-means算法常采用误差平方和准则函数作为聚类准则函数(目标函数)。目标函数往往存在很多个局部极小值,只有一个属于全局最小,由于算法每次开始选取的初始聚类中心落入非凸函数曲面的“位置”往往偏离全局最优解的搜索范围,因此通过迭代运算,目标函数常常达到局部最小,得不到全局最小。对于这个问题的解决,许多算法采用遗传算法(GA),例如文献中采用遗传算法GA进行初始化,以内部聚类准则作为评价指标。 (3)从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大 所以需要对算法的时间复杂度进行分析,改进提高算法应用范围。在文献中从该算法的时间复杂度进行分析考虑,通过一定的相似性准则来去掉聚类中心的候选集,而在文献中,使用的K-meanS算法是对样本数据进行聚类。无论是初始点的选择还是一次迭代完成时对数据的调整,都是建立在随机选取的样本数据的基础之上,这样可以提高算法的收敛速度。

聚类算法分析报告汇总

嵌入式方向工程设计实验报告 学院班级:130712 学生学号:13071219 学生姓名:杨阳 同作者:无 实验日期:2010年12月

聚类算法分析研究 1 实验环境以及所用到的主要软件 Windows Vista NetBeans6.5.1 Weka3.6 MATLAB R2009a 2 实验内容描述 聚类是对数据对象进行划分的一种过程,与分类不同的是,它所划分的类是未知的,故此,这是一个“无指导的学习” 过程,它倾向于数据的自然划分。其中聚类算法常见的有基于层次方法、基于划分方法、基于密度以及网格等方法。本文中对近年来聚类算法的研究现状与新进展进行归纳总结。一方面对近年来提出的较有代表性的聚类算法,从算法思想。关键技术和优缺点等方面进行分析概括;另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。最后通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题等。 实验中主要选择了K 均值聚类算法、FCM 模糊聚类算法并以UCI Machine Learning Repository 网站下载的IRIS 和WINE 数据集为基础通过MATLAB 实现对上述算法的实验测试。然后以WINE 数据集在学习了解Weka 软件接口方面的基础后作聚类分析,使用最常见的K 均值(即K-means )聚类算法和FCM 模糊聚类算法。下面简单描述一下K 均值聚类的步骤。 K 均值算法首先随机的指定K 个类中心。然后: (1)将每个实例分配到距它最近的类中心,得到K 个类; (2)计分别计算各类中所有实例的均值,把它们作为各类新的类中心。 重复(1)和(2),直到K 个类中心的位置都固定,类的分配也固定。 在实验过程中通过利用Weka 软件中提供的simpleKmeans (也就是K 均值聚类算法对WINE 数据集进行聚类分析,更深刻的理解k 均值算法,并通过对实验结果进行观察分析,找出实验中所存在的问题。然后再在学习了解Weka 软件接口方面的基础上对Weka 软件进行一定的扩展以加入新的聚类算法来实现基于Weka 平台的聚类分析。 3 实验过程 3.1 K 均值聚类算法 3.1.1 K 均值聚类算法理论 K 均值算法是一种硬划分方法,简单流行但其也存在一些问题诸如其划分结果并不一定完全可信。K 均值算法的划分理论基础是 2 1 min i c k i k A i x v ∈=-∑∑ (1) 其中c 是划分的聚类数,i A 是已经属于第i 类的数据集i v 是相应的点到第i 类的平均距离,即

数据挖掘主要算法

朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此一般有两种,一种是在类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本的总和;第二种方法是类别为ci的那些样本集中,找到wj出现次数的总和,然后除以该样本中所有特征出现次数的总和。 3. 如果中的某一项为0,则其联合概率的乘积也可能为0,即2中公式的分子为0,为了避免这种现象出现,一般情况下会将这一项初始化为1,当然为了保证概率相等,分母应对应初始化为2(这里因为是2类,所以加2,如果是k类就需要加k,术语上叫做laplace 光滑, 分母加k的原因是使之满足全概率公式)。 朴素贝叶斯的优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点: 对输入数据的表达形式很敏感。 决策树: 决策树中很重要的一点就是选择一个属性进行分枝,因此要注意一下信息增益的计算公式,并深入理解它。 信息熵的计算公式如下:

其中的n代表有n个分类类别(比如假设是2类问题,那么n=2)。分别计算这2类样本在总样本中出现的概率p1和p2,这样就可以计算出未选中属性分枝前的信息熵。 现在选中一个属性xi用来进行分枝,此时分枝规则是:如果xi=vx的话,将样本分到树的一个分支;如果不相等则进入另一个分支。很显然,分支中的样本很有可能包括2个类别,分别计算这2个分支的熵H1和H2,计算出分枝后的总信息熵H’=p1*H1+p2*H2.,则此时的信息增益ΔH=H-H’。以信息增益为原则,把所有的属性都测试一边,选择一个使增益最大的属性作为本次分枝属性。 决策树的优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象); Logistic回归: Logistic是用来分类的,是一种线性分类器,需要注意的地方有: 1. logistic函数表达式为: 其导数形式为: 2. logsitc回归方法主要是用最大似然估计来学习的,所以单个样本的后验概率为: 到整个样本的后验概率:

数据挖掘第三版第十章课后 习题答案

10.1 简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。 (1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。 10.2 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出: (a)在第一轮执行后的3个簇中心。 (b)最后的3个簇。 (a)第一轮后, 三个新的簇为(1){A1} (2){B1,A3,B2,B3,C2} (3){C1,A2} 簇中心分别为(1) (2, 10), (2) (6, 6), (3) (1.5, 3.5).

建立动物模型

1、建立动物模型 实验组:采用腹腔注射法定期注射定量抗生素到5只大鼠体内,,然后每只大鼠注射等量的LPS到体内,注射一周后观察大鼠体征(体重、食欲、运动情况),检测肠道菌群和SYN。 对照组:采用腹腔注射法定期注射定量抗生素到5只大鼠体内,确保肠道无菌,然后每只大鼠注射等量的安慰剂到体内,注射一周后观察大鼠体征(体重、食欲、运动情况),检测肠道菌群和SYN。 2、观察动物体征 体重:每天称量每一只大鼠的体重,并记录,进行横纵比较。 食欲:每只给相同足量食物,计量每只老鼠的摄入量,记录进行横纵比较。 运动情况:在固定时间给予相同刺激,观察每只老鼠的反应情况和运动能力。 3、肠道菌群检测 肠道菌群失调检测: 早期诊断菌群失调是正确有效治疗的前提。 菌群失调的诊断包括三部分: ①有无菌群失调。②菌群失调的程度。③菌群失调的诱因。 菌群失调患者常表现为严重腹泻或慢性腹泻,在应用抗生素治疗过程中,如突然发生腹泻,或原有腹泻加重,即有可能已发生了菌群失调。 菌群失调的程度可分为三度: Ⅰ度(轻度)为可逆性轻度菌群失调,去除致病因素后即可恢复好转,症状消失,临床上多见于急性疾病引起的肠道功能紊乱; Ⅱ度(中度)菌群失调较重,去除病因常不能恢复,多有慢性肠道症状; Ⅲ度(重度)菌群失调,表现为菌群交替或二重感染。详细地了解粪便性状并结合实验室检查可以确定一些有特异性诱因的菌群失调,如志贺菌、沙门菌、空肠弯曲菌、艰难梭菌和轮状病毒感染等。 粪便切片观察: 4、syn检测 利用免疫荧光手段,通过激光扫描共焦显微镜检测了过表达α-syn各片段后与线粒体分布情况。结果证明,α-synN端能够与线粒体共定位;JC1染色流式细胞术检测结果提示,该组细胞线粒体存在膜电位降低趋势。同时被截去N末端的突触核蛋白不会形成高分子量复合体,也不会影响线粒体功能。

(岗位职责)岗位胜任特征模型的构建与应用

(岗位职责)岗位胜任特征模型的构建与应用

岗位胜任特征模型的构建和应用 【知识要求】 一、岗位胜任特征的基本概念 (一)胜任特征的概念及内涵 1.通过剖析“胜任”壹词的中文含义,本课件认为,“胜任”表示的是对某项工 作的卓越要求,而不是基本要求。 2.胜任特征是潜于的、深层次的特征,即“水面下的冰山”(P88页图表) 3.胜任特征必须是能够衡量和比较的,即把任何壹个胜任特征指标拿出来放到 人群中进行评价。 4.胜任特征所指的能够是单个特征指标,也能够使壹组特征指标。 综上所述,本课件对“胜任特征”壹词给出如下定义:胜任特征是指确保劳动者能顺利完成任务或达到目标,且能区分绩优者和绩劣者的潜于的、深层次的各种特质。 胜任特征的定义有以下几层含义: 首先,胜任特征含有对个体或组织的基本要求。 其次,胜任特征能够判别绩效优异和绩效平平,区分出表现较好和较差的个体或组织,即具有可衡量性和可比较性。 最后,胜任特征是潜于的、深层次的,不是指年龄、性别、面容、知识等外显因素。 (二)胜任特征模型的概念及内涵 “胜任特征模型”定义:胜任特征模型是指采用科学的研究方法,以显著区分某类人群中绩效优异和壹般员工为基础来寻求鉴别性岗位胜任特征,经过反复比较分析,最终确立起来的和绩效高度关联的胜任特征结构模式。

胜任特征模型的定义有以下几层含义“ 1.它反映了胜任的内涵,即胜任特征是区别绩效优异者和绩效平平者的标志, 是建立于卓越标准基础之上结构模式。 2.胜任特征模型是于区别了员工绩效优异组和壹般组的基础上,经过深入的调 查研究和统计分析而建立起来的。 3.胜任特征模型是壹组结构化的胜任特征指标,能够通过数学表达式或方程式 表现出来,方程中的各个因子是那些和绩效高度关联的胜任特征要素的有机集合。 二、岗位胜任特征及其模型的分类 (一)岗位胜任特征的分类 1.按运用情境的不同,胜任特征可分为技术胜任特征、人际胜任特征和概念特 征分析。 2.按主体的不同,胜任特征可分为个人胜任特征、组织胜任特征和国家胜任特 征。 3.按内涵的大小,胜任特征可分为六种类型,即元胜任特征、行业通用胜任特 征、组织内部胜任特征、标准技术胜任特征、行业技术胜任特征和特殊技术胜任特征。 冯明博士对胜任特征作出了如下描述: 1.元胜任特征属于低任务、非公司具体性和非行业具体的生日特征。 2.行业通用胜任特征属于低任务具体性、低公司具体性和高行业具体性的胜任 特征。 3.组织内部胜任特征属于低任务具体性、高公司具体性和高行业具体性的胜任

数据挖掘关于Kmeans算法的研究(含数据集)

浙江大学算法研究实验报告 数据挖掘 题目:K-means

目录 一、实验内容 (5) 二、实验目的 (7) 三、实验方法 (7) 3.1软、硬件环境说明 (7) 3.2实验数据说明 (7) 图3-1 (7) 3.3实验参数说明/软件正确性测试 (7) 四、算法描述 (9) 图4-1 (10) 五、算法实现 (11) 5.1主要数据结构描述 (11) 图5-1 (11) 5.2核心代码与关键技术说明 (11) 5.3算法流程图 (14) 六、实验结果 (15) 6.1实验结果说明 (15) 6.2实验结果比较 (21) 七、总结 (23)

一、 实验内容 实现K-means 算法,其中该算法介绍如下: k-means 算法是根据聚类中的均值进行聚类划分的聚类算法。 输入:聚类个数k ,以及包含n 个数据对象的数据。 输出:满足方差最小标准的k 个聚类。 处理流程: Step 1. 从n 个数据对象任意选择k 个对象作为初始聚类中心; Step 2. 根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分; Step 3. 重新计算每个(有变化)聚类的均值(中心对象) Step 4. 循环Step 2到Step 3直到每个聚类不再发生变化为止; k-means 算法的工作过程说明如下:首先从n 个数据对象任意选择k 个对象作为初始聚类中心,而对于所剩下的其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类。然后,再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值),不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数,具体定义如下: 21∑∑=∈-=k i i i E C p m p (1) 其中E 为数据库中所有对象的均方差之和,p 为代表对象的空间中的一个点,m i 为聚类C i 的均值(p 和m i 均是多维的)。公式(1)所示的聚类标准,旨在使所获得的k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 重点要求:用于聚类的测试级不能仅为单独的一类属性,至少有两种属性值参与聚类。

数据挖掘层次聚类算法研究综述

数据挖掘层次聚类算法研究综述 摘要聚类问题是数据挖掘中的重要问题之一,是一种非监督的学习方法。分层聚类技 术在图像处理、入侵检测和生物信息学等方面有着极为重要的应用,是数据挖掘领域的研究热点之一。本文总结了分层聚类算法技术的研究现状,分析算法性能的主要差异,并指出其今后的发展趋势。 关键词层次聚类,数据挖掘,聚类算法 Review of hierarchical clustering algorithm in Data Mining Abstract Clustering problem of data mining is one of important issues, it is a kind of unsupervised learning methods. Stratified cluster technology in image processing, intrusion detection and bioinformatics has extremely important application and is data mining area of research one of the hotspots. This paper summarizes the layered clustering algorithm technology research, analyzes the main difference arithmetic performance, and pointed out the future development trend. Keywords Hierarchical clustering,Data mining,Clustering algorithm 1引言 随着计算机技术的发展,信息数据越来越多,如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术,它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。其目标是从数据库中发现隐含的、有意义的知识。聚类分析作为一个独立的工具来获得数据分布的情况,是数据挖掘的一个重要研究分支。 在数据挖掘领域,研究工作己经集中在为大型数据库的有效和实际的聚类分析寻找适当的方法。活跃的主题集中在聚类方法的可伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合数值和分类数据的聚类方法。迄今为止,人们己经提出了很多聚类算法,它们可以分为如下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,这些算法对于不同的研究对象各有优缺点。在聚类算法当中,划分方法和层次方法是最常见的两类聚类技术,其中划分方法具有较高的执行效率,而层次方法在算法上比较符合数据的特性,所以相对于划分方法聚类的效果比较好。[1] 层次聚类算法和基于划分的K-Means聚类算法是实际应用中聚类分析的支柱,算法简单、快速而且能有效地处理大数据集。层次聚类方法是通过将数据组织为若干组并形成一个相应的树来进行聚类的。根据层是自底而上还是自顶而下形成。一个完全层次聚类的质量由于无法对己经做的合并或分解进行调整而受到影响。但是层次聚类算法没有使用准则函数,它所潜含的对数据结构的假设更少,所以它的通用性更强。 2 基于层次的聚类算法 2.1 凝聚的和分裂的层次聚类 层次聚类是聚类问题研究中一个重要的组成部分。分层聚类的基本原则可以表述为:如

建筑模型有哪些材料

做模型用什么材料好 主材料之一(纸板类) 一、卡纸 卡纸是一种极易被加工的材料。目前市场上的纸张种类很多,给卡纸模型的制作带来很大的方便。除了直接使用市场上各类质感和色彩的纸张外,还可以对卡纸的表面作喷绘处理,以使模型的色彩和质感更接近描绘对象的要求,一般使用厚度为1.5mm的卡纸板作平面的内骨架,预留出外墙的厚度,然后,把用作玻璃的材料粘贴在骨架的表面,最后,将预先刻好窗洞并做好色彩质感的外墙粘贴上去。有事,也可能直接使用1.5mm的厚卡纸完成全部的制作,这是一种单纯白色或灰色的模型,为许多设计师所喜爱。 二、厚纸板 厚纸板是以它的颜色及其厚度与白色的卡纸做区分:灰色厚纸板是因为它的成分是曾被印刷过的旧纸,而棕色厚纸板则是因含有被煮过的木纤维。通常被用来做书籍装订的是灰色厚纸板,因为它坚硬且有韧性,可用刀沿着直尺切割。比较适合做做地形模型。它的标准规格是70cm*100cm,另外还有75cm*100cm和较小的式样,使用厚纸板时是根据它的厚度,从0.5mm到0.4mm的品种不等。厚度为1.05mm 或是2.5mm的机制纸板是广泛被使用的规格。 三、模型纸板 模型纸板是建筑模型制作常用的另外一种材料,通常的规格可以

分为厚度1mm的和厚度2mm的白色纸板、厚度4mm的灰色糙纸板。模型纸板柔韧性适中,因为具有较好的刚性和恰当的厚度关系,通常在制作过程中充当建筑体的外墙、底面以及中间的支撑体。 四、瓦楞纸 瓦楞纸板的波浪纹是用平滑的纸张粘合在一面或是两面上的,有不同的质地和尺寸大小,这种瓦楞纸有可卷曲的或较硬挺的特性,它也有多层的较厚的平板,所以对于制作地形模型而言,瓦楞纸是一种理想的材料,它重量轻,质感逼真,只是若负荷过量它也会被压扁。瓦楞纸的波浪越小越细,就越坚固。另外,常说的瓦楞纸和只想板常常混淆,因为他们具有相似的结构特性。 五、模型板 模型板是在发泡树脂板的两端贴上卡纸,可用刀片切割或将卡纸剥落,亦可用砂纸及锉刀将版面曲折,表面处理可用喷漆或平刷涂料亦可贴上其他纸类,或将美术字转印等,依加工修饰的程度可称为终结模型。 材料系列(二)——塑料 塑料是以天然树脂或人造合成树脂为主要成分,并加入适当的填料、增塑剂、稳定剂、润滑剂、色料等添加剂,在一定温度和压力下塑制成型的一类高分子材料。

相关主题
文本预览
相关文档 最新文档