쿠다 스트림을 그저 DMA로 memcpy 때리는데 멀티로 때려도 DMA가 알아서 잘해주니까 빠르겠지 하고 생각하고 왕창 복사 한 다음에 동기화 대기를 때려놨었는데...
그게 아니라 바로 커널을 실행시켜가며 파이프로 동작 시킬 수 있게 해논 것 같따?? 뭔가 컨텍스트 스위칭스런 전환이 리니어한 수행에 있어서는 방해를 일으킬 것 같기도 한데... 나중에 봐야겠다..
역시 혼자 놀면 얻어맞을 때 까지 잘 모른다..
링크 정리하다가 뒤늦게 봄..