Data Mining (1)

Rule-based machine learning試著用machine learning的方法去辨識、學習、演化各種rules。

Association rule learning則是用來找出大型資料庫中隱藏的有興趣的(interesting relations)關係。

Rule則是由兩個itemsets組成，X和Y。X一般稱作antecedent(前情)或是left-hand-side(LHS)，Y一般稱作consequent(結果)或right-hand-side(RHS)。

Feature selection有助於減少基數，增加效率，並去除noisy或redundant的資料。當資料庫中高價值的資料過少，或低價值的資料過多時。

Tree induction algorithm: 從training set建立decision tree。

Clustering和association rule discovering同屬於unsupervised learning。

Sequentail pattern mining的定義: 對於sequence information進行data mining，例如說，具有時間性的資料。

Data mining可以處理的資料:
time-series data: 一系列時間上的資料(例如股價)
temporal data: 某個時間點的資料
spatial data: 空間性的資料，又稱為geospatial(地理空間) data，紀錄某個物體在地球上的位置，大小，形狀等，例如說湖泊或建築。

資料可能存在的缺陷有:
Data incomplete: 某筆資料缺少某個屬性，或是屬性值是合併之後的資料(例如購買價 = 貨品價 + 稅金，只用購買價來表達是不完整的)。
Noise: 有錯誤或是特例(outlier)。
Data inconsistance: 來自不同來源的資料，在表達方法上可能不同(例如單位不同，台幣跟美金等等)。

Data integration(資料整合): 主要是發現並處理資料不一致(data value conflicts)和資料重複(data redundancy)。
Data value conflicts: 有可能是單位不一致或schema(表示方法)不一致，例如說其中一個資料庫有"姓名"這個欄位，另外一個資料庫則是"姓"和"名"兩個欄位。
Data redundancy: 兩個資料庫中有相同的資料，或是不必要的欄位(例如月收入和年收入)。

Data cleaning(資料清理): 填入遺失的資料(missing data)或是確認outlier和noise。
Missing data: 某些資料可能因為人為或儀器的因素遺失某些欄位，如果忽略遺失的資料，可能會造成偏差性。可以填入平均值，出現最多的值，或是用貝氏公式(Bayesian formula)(?)或decision tree來填入資料。
Noise: 因為儀器或人為因素造成資料有偏差(例如說體重計不準)。

Binning(裝箱法): 或稱bucketing，將資料分割裝在若干箱(bin)中，然後同一個箱子中的資料其對應的屬性都改為同樣的值。例如說，histogram表達出的資料就是經過binning的資料。其重點有二: 分割的方法，以及賦予的值。
分割的方法: 分成Equal-depth(frequency) partitioning和Equal-width(distance) partitioning。
Equal-depth: 將資料按照數量平均放於箱中，例如說20筆資料分成5組4筆。
Equal-width: 將資料按照值平均分配，例如說0~500的資料放一箱，501~1000的資料放另一箱。這樣做的問題是，可能大部分的資料都會集中在同一箱。
賦值的方法: 可賦予平均值(依箱中心平緩)，或是依箱邊緣平緩。

Data transformation(資料轉換): 將資料轉換為想要的格式，這樣更好處理。可以分成五個步驟:

Aggregation: 將多種屬性或物件合併成同一種。例如說鄉鎮資料合併成國家資料，每日價格合併成每月均價等(所以股價月均線或年均線應該也是aggregation的一種)。
Generalization: 將屬性在concept hierachy(概念階層)中往上爬升，使其更一般化。例如說白馬屬於馬的一種，但馬不屬於白馬，將各種顏色的馬都歸類到馬這個種類，再將貓狗魚馬等動物都歸類到動物這個種類等等。
Normalization: 使資料分布在特定範圍內，因為如果資料的範圍不同(例如年收入和年齡的範圍很明顯不同)，便會造成處理上不客觀。可將年收入和年齡normalize至[0,1]的範圍中。

Min-max normalization: Normalization的一個method，請google。
ã€ŒMin-max normalizationã€çš„åœ–ç‰‡æœå°‹çµæžœ

Z-score normalization: 又稱standard score，利用標準差計算出的分數，請參考維基百科。
十進位正規化: 將所有資料除以10的次方數使其normalize至[0,1]的範圍。

建立新屬性

例如說用年齡取代生日。

Discretization

將資料按照分布的區間以類別呈現，例如說原本是數值的年收入改為低，中，高三個區間。

Data reduction: 減少資料量，減少計算資源的需求，而且更容易visualization，可能可以降低雜訊的干擾。方法有:

抽樣: 選取少數包含所有資料特性的資料。

去除不必要的屬性。

只選取必要的屬性。

合併屬性。

用資料探勘方法，例如說clustering，來減少屬性項目(how?)。

Curse of dimensionality(維度災難): 當資料的維度增加時，高維空間的體積會呈指數增長，這會讓數據點之間變得非常稀疏，讓資料分析變得非常困難。

例如說，一條一單位的線(一維)如果取樣100次，每個點之間的距離可以不超過0.01。但如果以相同的距離取樣一個10維的立方體，則需要10^20個採樣點。

資工筆記

搜尋此網誌

Data Mining (1)

留言

張貼留言