Data mining: web-mining

期末考會考給一個log file 並且分類session(需注意time out時間!)
還有瀏覽網頁時間的平均，如果沒有前一個網頁可以參考，則用前面的平均(?)

另外考將vector space representation代入HAC或k-means
這部分分數佔比很高

web usage mining之前會先進行data pre-processing: data cleaning。只有html file request還有成功(200)者會被保留下來，其餘discard。

取出每個session: 同一個ip瀏覽網頁的間隔不超過一定時間(通常為30分鐘)者算在同一個session

從session中取出每個網頁瀏覽的時間: 瀏覽下個網頁的時間 - 瀏覽這個網頁，如果是最後一個網頁則取用前面的平均值

min_time和min_page: 如果瀏覽時間小於min_time則這筆資料不算。如果瀏覽次數小於min_page則這筆session不算。

Vector space representation: (session ID#, time of page a, time of page b, ...., time of page n)

資工筆記

搜尋此網誌

Data mining: web-mining

留言

張貼留言