На ассемблере или С легко. А на высокоуровневом языке иначе никак.
На самом деле это благо. Вот вышеупомянутую операцию без контекста вообще толком не оценить, но-таки с большой вероятностью это будет в цикле (все-таки обработка изображений). И хороший компилятор это дело развернет, затолкает в simd. А вот "помощь" на asm в виде "оптимизаций" по выборке только данных, которые "нужны" его этой возможности лишит.
Да и в целом нынешние процы с байтами работают как минимум не лучше, чем со словами, а скорее хуже.
Очень много сейчас такого, что с виду максимально оптимизированный ассемблер уступает тупому с++. Обратное, конечно, тоже возможно, но только если ты сам эти компиляторы и разрабатываешь.
PS. в оффтоп, конечно, ушли уже совсем.