期末考會考 給一個log file 並且分類session(需注意time out時間!)
還有瀏覽網頁時間的平均,如果沒有前一個網頁可以參考,則用前面的平均(?)
另外考將vector space representation代入HAC或k-means
這部分分數佔比很高
web usage mining之前會先進行data pre-processing: data cleaning。只有html file request還有成功(200)者會被保留下來,其餘discard。
取出每個session: 同一個ip瀏覽網頁的間隔不超過一定時間(通常為30分鐘)者算在同一個session
從session中取出每個網頁瀏覽的時間: 瀏覽下個網頁的時間 - 瀏覽這個網頁,如果是最後一個網頁則取用前面的平均值
min_time和min_page: 如果瀏覽時間小於min_time則這筆資料不算。如果瀏覽次數小於min_page則這筆session不算。
Vector space representation: (session ID#, time of page a, time of page b, ...., time of page n)
還有瀏覽網頁時間的平均,如果沒有前一個網頁可以參考,則用前面的平均(?)
另外考將vector space representation代入HAC或k-means
這部分分數佔比很高
web usage mining之前會先進行data pre-processing: data cleaning。只有html file request還有成功(200)者會被保留下來,其餘discard。
取出每個session: 同一個ip瀏覽網頁的間隔不超過一定時間(通常為30分鐘)者算在同一個session
從session中取出每個網頁瀏覽的時間: 瀏覽下個網頁的時間 - 瀏覽這個網頁,如果是最後一個網頁則取用前面的平均值
min_time和min_page: 如果瀏覽時間小於min_time則這筆資料不算。如果瀏覽次數小於min_page則這筆session不算。
Vector space representation: (session ID#, time of page a, time of page b, ...., time of page n)
留言
張貼留言