IACI Logo

教育部產學合作資訊網

Industry-Academy Cooperation Information

敏惠醫護管理專科學校 / 牙體技術科 / 易正明

資料分群方法與其電腦程式軟體


研發成果與簡介
一般模糊分群演算法的距離計算均以歐基里德距離(Euclidean Distance)進行數量的計算,用來辨識資料結構均為球形(Spherical)的分群。

優勢及應用範圍

文獻資料顯示,為了克服資料結構為非球形的分群以及解決歐基里德距離受限於計算球形資料結構的缺陷問題,而嘗試延展歐基里德距離的測量方法為馬氏距離(Mahalanobis Distance)是目標函數導向之模糊分群演算法的擴張發展,較具代表性的有GK分群(Gustafson-Kessel Clustering, 簡稱GK)演算法(Gustafson and Kessel, 1979)及GG分群(Gath and Geva, Clustering, 簡稱GG)演算法(Gath and Geva, 1989),此兩種演算法均以配合模糊共變數矩陣,並經由此模糊共變數矩陣計算而得的馬氏距離,分別用來處理非球形結構資料的分群(Soleymani Baghshah, M. and Bagheri Shouraki, S., 2008)。就GK分群演算法而言,仍受限於必須保持相當於體積量值的不變性,再加上因產生的模糊共變數矩陣並非直接由目標函數導出,因此無法靈敏的反應樣本點的特質;而GG分群演算法是來自GK分群演算法的擴充,GG分群演算法適用於資料分佈為多變量常態的高斯(Gaussian)分佈。GG分群演算法的目標函數是最大概似函數的倒數,就最大概似函數而言,應滿足越大越好,因此當最大概似函數越大越好時,剛好是GG分群演算法的目標函數符合越小越好的距離函數,但其關係式並非直接由本身的運算式導出,而是外加的非動態性的靈敏反應樣本點的特質,致使其分群正確率欠佳,況且大多數的資料分佈,未必滿足多變量常態的高斯分佈。因此,研究者發展改進此一概念,以獲得正確率較佳之分群演算法。因此參照GK與GG分群演算法所採用馬氏距離的概念,將之應用在模糊平均數分群演算法(Fuzzy C-Means algorithm,簡稱FCM演算法),除將其中的歐基里德距離以馬氏距離取代外,並解決GK與GG分群演算法的一些限制問題;重要的是動態性的變異數矩陣估計式,直接由目標函數導出,是有效改進GK與GG分群演算法的重要因素,如此的目標函數是動態性,必能靈敏的反應樣本點的特質,預期在進行分群時應可獲得較佳的分群結果。因而提出改進模糊平均數分群FCM演算法的新分群FCM-CM演算法(Fuzzy C-Means algorithm Based on Common Mahalanobis Distance)。然而FCM-CM演算法在當各群資料的共變數矩陣不同時,可能因各群不同共變數矩陣間的交互作用,導致收斂的迭代次數增加或可能呈現奇異(singular)的不收斂現象,本研究再提出改進FCM與FCM-CM演算法的另一種新分群FCM-NM演算法 ( Fuzzy C-Means Algorithm Based on Normal Common Mahalanobis Distances)除在演算過程中,能確保有FCM-CM的靈敏反應資料的特質外,並能穩健地呈現資料的分群結果,可將受試者所有可能的錯誤類型,經由專家逐一鑑定各錯誤類型後,依各樣本點的解題表現,配合錯誤類型以進行分群,並作為日後分群補救教學之依據。

為使FCM-NM分群演算法能改善當各群資料的共變數矩陣不同時,除能保有FCM-CM靈敏的反應資料的特質,並能穩健地呈現資料的分類結果。因此提出目標函數值係以各群資料共變數矩陣共同經由馬氏距離計算而得且其目標函數關係式中之矩陣X、A已予正規化,使能在收斂過程中減少迭代次數及不會呈現奇異的不收斂現象。因其目標函數仍直接由本身的運算式導出,如此的目標函數是動態性,能靈敏的反應樣本點的特質。將目標函數侷限於樣本分屬於個群之隸屬度總合等於1的條件下,透過逐次演算法,當目標函數出現局部極小值時,即依據當時樣本分屬於個群之隸屬度,比較分屬於個群之隸屬度中以最大之隸屬度來判定該樣本所分屬之個群,即完成一次FCM-NM分群演算法的分群。

1.優勢

改善採用馬氏距離的概念GK與GG分群演算法的缺失。

2.應用範圍

教育及教學現場可應用於不同能力的分群教學,或依學習者的不同的學習情況,將學習能力一致者進行補救教學。業界在實務面的應用,根據不同的特徵,能正確判定產品為良品與不良品的間的可能成因,以利進行後續的改善措施。

 

E-mail:yih@mail.ntcu.edu.tw

技術聯絡人
敏惠醫護管理專科學校 / 易正明 / 0938524475