Articles of sse2

Optimizaciones de rendimiento del ensamblaje x86-64 – Alineación y predicción de bifurcación

Actualmente estoy codificando versiones altamente optimizadas de algunas funciones de cadenas de biblioteca estándar C99, como strlen() , memset() , etc., utilizando el ensamblaje x86-64 con instrucciones SSE-2. Hasta ahora he logrado obtener excelentes resultados en términos de rendimiento, pero a veces obtengo un comportamiento extraño cuando trato de optimizar más. Por ejemplo, agregar o […]

Emular cambios en 32 bytes con AVX

Estoy migrando un código vectorizado escrito utilizando intrínsecamente SSE2 a AVX2 intrinsics. Para mi decepción, descubrí que las instrucciones de cambio _mm256_slli_si256 y _mm256_srli_si256 operan solo en las dos mitades de los registros AVX por separado y los ceros se introducen en el medio. (Esto es por contraste con _mm_slli_si128 y _mm_srli_si128 que manejan registros […]

¿Es posible usar SSE (v2) para hacer un entero de 128 bits de ancho?

Estoy buscando comprender un poco más las capacidades de SSE2, y me gustaría saber si se podría hacer un entero de 128 bits que admita la sum, la resta, el XOR y la multiplicación. Gracias, Erkling.

Punto flotante doble extendido (80 bits) en x87, no SSE2: ¿no lo echamos de menos?

Hoy estuve leyendo acerca de investigadores que descubrieron que las bibliotecas Phys-X de NVidia usan x87 FP vs. SSE2 . Obviamente, esto no será óptimo para los conjuntos de datos paralelos donde la velocidad supera la precisión. Sin embargo, el autor del artículo continúa citando: Intel comenzó a desalentar el uso de x87 con la […]