Rule-based machine learning試著用machine learning的方法去辨識、學習、演化各種rules。
Association rule learning則是用來找出大型資料庫中隱藏的有興趣的(interesting relations)關係。
Rule則是由兩個itemsets組成,X和Y。X一般稱作antecedent(前情)或是left-hand-side(LHS),Y一般稱作consequent(結果)或right-hand-side(RHS)。
Feature selection有助於減少基數,增加效率,並去除noisy或redundant的資料。當資料庫中高價值的資料過少,或低價值的資料過多時。
Tree induction algorithm: 從training set建立decision tree。
Clustering和association rule discovering同屬於unsupervised learning。
Sequentail pattern mining的定義: 對於sequence information進行data mining,例如說,具有時間性的資料。
Data mining可以處理的資料:
time-series data: 一系列時間上的資料(例如股價)
temporal data: 某個時間點的資料
spatial data: 空間性的資料,又稱為geospatial(地理空間) data,紀錄某個物體在地球上的位置,大小,形狀等,例如說湖泊或建築。
資料可能存在的缺陷有:
Data incomplete: 某筆資料缺少某個屬性,或是屬性值是合併之後的資料(例如購買價 = 貨品價 + 稅金,只用購買價來表達是不完整的)。
Noise: 有錯誤或是特例(outlier)。
Data inconsistance: 來自不同來源的資料,在表達方法上可能不同(例如單位不同,台幣跟美金等等)。
Data integration(資料整合): 主要是發現並處理資料不一致(data value conflicts)和資料重複(data redundancy)。
Data value conflicts: 有可能是單位不一致或schema(表示方法)不一致,例如說其中一個資料庫有"姓名"這個欄位,另外一個資料庫則是"姓"和"名"兩個欄位。
Data redundancy: 兩個資料庫中有相同的資料,或是不必要的欄位(例如月收入和年收入)。
Data cleaning(資料清理): 填入遺失的資料(missing data)或是確認outlier和noise。
Missing data: 某些資料可能因為人為或儀器的因素遺失某些欄位,如果忽略遺失的資料,可能會造成偏差性。可以填入平均值,出現最多的值,或是用貝氏公式(Bayesian formula)(?)或decision tree來填入資料。
Noise: 因為儀器或人為因素造成資料有偏差(例如說體重計不準)。
Binning(裝箱法): 或稱bucketing,將資料分割裝在若干箱(bin)中,然後同一個箱子中的資料其對應的屬性都改為同樣的值。例如說,histogram表達出的資料就是經過binning的資料。其重點有二: 分割的方法,以及賦予的值。
分割的方法: 分成Equal-depth(frequency) partitioning和Equal-width(distance) partitioning。
Equal-depth: 將資料按照數量平均放於箱中,例如說20筆資料分成5組4筆。
Equal-width: 將資料按照值平均分配,例如說0~500的資料放一箱,501~1000的資料放另一箱。這樣做的問題是,可能大部分的資料都會集中在同一箱。
賦值的方法: 可賦予平均值(依箱中心平緩),或是依箱邊緣平緩。
Data transformation(資料轉換): 將資料轉換為想要的格式,這樣更好處理。可以分成五個步驟:

Z-score normalization: 又稱standard score,利用標準差計算出的分數,請參考維基百科。
十進位正規化: 將所有資料除以10的次方數使其normalize至[0,1]的範圍。
Association rule learning則是用來找出大型資料庫中隱藏的有興趣的(interesting relations)關係。
Rule則是由兩個itemsets組成,X和Y。X一般稱作antecedent(前情)或是left-hand-side(LHS),Y一般稱作consequent(結果)或right-hand-side(RHS)。
Feature selection有助於減少基數,增加效率,並去除noisy或redundant的資料。當資料庫中高價值的資料過少,或低價值的資料過多時。
Tree induction algorithm: 從training set建立decision tree。
Clustering和association rule discovering同屬於unsupervised learning。
Sequentail pattern mining的定義: 對於sequence information進行data mining,例如說,具有時間性的資料。
Data mining可以處理的資料:
time-series data: 一系列時間上的資料(例如股價)
temporal data: 某個時間點的資料
spatial data: 空間性的資料,又稱為geospatial(地理空間) data,紀錄某個物體在地球上的位置,大小,形狀等,例如說湖泊或建築。
資料可能存在的缺陷有:
Data incomplete: 某筆資料缺少某個屬性,或是屬性值是合併之後的資料(例如購買價 = 貨品價 + 稅金,只用購買價來表達是不完整的)。
Noise: 有錯誤或是特例(outlier)。
Data inconsistance: 來自不同來源的資料,在表達方法上可能不同(例如單位不同,台幣跟美金等等)。
Data integration(資料整合): 主要是發現並處理資料不一致(data value conflicts)和資料重複(data redundancy)。
Data value conflicts: 有可能是單位不一致或schema(表示方法)不一致,例如說其中一個資料庫有"姓名"這個欄位,另外一個資料庫則是"姓"和"名"兩個欄位。
Data redundancy: 兩個資料庫中有相同的資料,或是不必要的欄位(例如月收入和年收入)。
Data cleaning(資料清理): 填入遺失的資料(missing data)或是確認outlier和noise。
Missing data: 某些資料可能因為人為或儀器的因素遺失某些欄位,如果忽略遺失的資料,可能會造成偏差性。可以填入平均值,出現最多的值,或是用貝氏公式(Bayesian formula)(?)或decision tree來填入資料。
Noise: 因為儀器或人為因素造成資料有偏差(例如說體重計不準)。
Binning(裝箱法): 或稱bucketing,將資料分割裝在若干箱(bin)中,然後同一個箱子中的資料其對應的屬性都改為同樣的值。例如說,histogram表達出的資料就是經過binning的資料。其重點有二: 分割的方法,以及賦予的值。
分割的方法: 分成Equal-depth(frequency) partitioning和Equal-width(distance) partitioning。
Equal-depth: 將資料按照數量平均放於箱中,例如說20筆資料分成5組4筆。
Equal-width: 將資料按照值平均分配,例如說0~500的資料放一箱,501~1000的資料放另一箱。這樣做的問題是,可能大部分的資料都會集中在同一箱。
賦值的方法: 可賦予平均值(依箱中心平緩),或是依箱邊緣平緩。
Data transformation(資料轉換): 將資料轉換為想要的格式,這樣更好處理。可以分成五個步驟:
- Aggregation: 將多種屬性或物件合併成同一種。例如說鄉鎮資料合併成國家資料,每日價格合併成每月均價等(所以股價月均線或年均線應該也是aggregation的一種)。
- Generalization: 將屬性在concept hierachy(概念階層)中往上爬升,使其更一般化。例如說白馬屬於馬的一種,但馬不屬於白馬,將各種顏色的馬都歸類到馬這個種類,再將貓狗魚馬等動物都歸類到動物這個種類等等。
- Normalization: 使資料分布在特定範圍內,因為如果資料的範圍不同(例如年收入和年齡的範圍很明顯不同),便會造成處理上不客觀。可將年收入和年齡normalize至[0,1]的範圍中。

Z-score normalization: 又稱standard score,利用標準差計算出的分數,請參考維基百科。
十進位正規化: 將所有資料除以10的次方數使其normalize至[0,1]的範圍。
- 建立新屬性
例如說用年齡取代生日。
- Discretization
將資料按照分布的區間以類別呈現,例如說原本是數值的年收入改為低,中,高三個區間。
Data reduction: 減少資料量,減少計算資源的需求,而且更容易visualization,可能可以降低雜訊的干擾。方法有:
抽樣: 選取少數包含所有資料特性的資料。
去除不必要的屬性。
只選取必要的屬性。
合併屬性。
用資料探勘方法,例如說clustering,來減少屬性項目(how?)。
Curse of dimensionality(維度災難): 當資料的維度增加時,高維空間的體積會呈指數增長,這會讓數據點之間變得非常稀疏,讓資料分析變得非常困難。
例如說,一條一單位的線(一維)如果取樣100次,每個點之間的距離可以不超過0.01。但如果以相同的距離取樣一個10維的立方體,則需要10^20個採樣點。
留言
張貼留言