Softer, в hardware SSE4.1 самый быстрый/производительный, AVX/AVX2 для hardware такой же, зато для software, который "точный, в приставку", и который дальше может быть улучшен графически множественными способами/настройками/шейдерами он заметно производительнее/быстрее/легче_для_железа, и AVX2 еще быстрее [возможно, если бы можно было воспользоваться ускорением TSX, то это стало бы еще производительнее]