平行運算

一個wrap中有32個thread 他們會同時執行 但執行時會遇到某些問題

memory coalescing 和 branch divergence

memory coalescing應該是指讀memory時讀連續的資料速度較快
例如我有t0, t1, t2....等threads
我可以讓t0讀data[0], data[1],t1讀data[2], data[3]
或者我也可以讓t0讀data[0], data[512],t1讀data[1], data[513]
這樣讀取時就是連續的

syncthreads()在完成處理某個wrap前呼叫?

https://stackoverflow.com/questions/16619274/cuda-griddim-and-blockdim

留言