¿Por qué no marcar con colores o iconos la escala de NPS en las encuestas?

Recientemente mientras hablaba con una Directora de Proyecto acerca de la implementación de un Programa VOC, me comentó que uno de las prácticas más comunes en la que se incurre a la hora de presentar una encuesta, es colorear la escala de NPS o CSAT, y que esto pueda afectar el resultado.

Fue por eso que decidimos desde el blog de WOW! investigar a fondo y descubrir que tanto es recomendable o no, colorear o agregar iconos a la hora de enviar una encuesta de satisfacción de cliente.

Según algunas investigaciones, colorear la escala de NPS no es recomendable. Acá se explica con un gráfico:

Colores NPS blog wow 1

El problema es que algunas personas que gestionan las encuestas NPS presentan ahora este esquema visual a los clientes que realizan sus encuestas, lo que probablemente sesgue las respuestas.

Aquí está otro ejemplo:

Colores NPS blog wow 2

Lo que destaca aquí es el código de colores de la escala numérica. No se debería hacer una codificación por colores de la escala. Porque esto señala a los encuestados qué números se consideran buenos, cuales puntúan la recomendación e identifica los números malos o de detracción. En su lugar, los encuestados deberían centrarse en la idea de recomendar y en el continuo completo en el que pueden responder. (sin discriminar por color).

Este ejemplo también ilustra otros problemas y errores en el uso del NPS. En primer lugar, esta escala utiliza del uno al diez, en lugar del cero al diez, lo que probablemente infla el NPS. En segundo lugar (y debido a que va de uno a diez) no hay un punto medio neutral. Tercero, las etiquetas del texto son incorrectas, y hay buenas razones para etiquetar los puntos finales exactos con un lenguaje más extremo que «muy». En cuarto lugar, no debería haber una opción de «no sabe» o NA porque los encuestados que no pueden responder a esta pregunta no deberían recibir la pregunta en absoluto.

La visualización con código de colores es ideal para el análisis y la elaboración de informes. Porque Ayuda a los directivos a entender la mecánica del NPS. Pero mostrárselo a los encuestados es un gran error. Crea un sesgo en la medición, lo que anula el propósito de hacer un seguimiento de la satisfacción del cliente.

Las opciones de respuesta de las encuestas tienen todo tipo de formas, tamaños y, ahora, colores.

El número de puntos, la adición de etiquetas, el uso de números y la utilización de un tono positivo o negativo son factores que pueden manipularse. Estos cambios también pueden afectar a las respuestas, a veces modestamente, y a veces mucho.

Existe cierta preocupación por el hecho de que las escalas de respuestas largas (más de tres puntos) son difíciles de responder para la gente.

Por ejemplo, de acuerdo a una investigación de Measuring U, se pudo concluir, que existe apoyo a que las escalas cortas se perciben como más fáciles que las largas (cuando los participantes están obligados a elegir).

Sin embargo, la misma investigación determinó, que no hay ninguna diferencia en el tiempo de respuesta entre las escalas de 3 y 11 puntos. En realidad, los participantes preferían tener más puntos para captar adecuadamente sus sentimientos hacia una pregunta en una encuesta.

También se descubrió que al utilizar escalas de 3 puntos se pierde demasiada información, ya que no hay forma de diferenciar entre los que responden de forma ambigua y los que responden de forma extrema. Así que hay buenas razones para utilizar escalas con más puntos.

Una alternativa que utilizan algunos diseñadores de encuestas para facilitar las escalas multipunto más largas, es dividirlas en colores. En la Figura 1 se muestra un ejemplo de una encuesta sobre concesionarios de automóviles (proporcionada en línea por Adam Rawmshaw).

Colores NPS blog wow 3

Leyenda: Figura 1: Ejemplo de una escala de 11 puntos coloreada, que corresponde probablemente a la puntuación «neta».

La figura 1 muestra un ítem de satisfacción de 11 puntos, pero basándose en los colores, es probable que las respuestas sin procesar se puntúen utilizando el mismo esquema de puntuación «neta» que se utiliza en el Net Promoter Score. Según este esquema, las dos casillas superiores se consideran satisfechas (similares a los promotores), los 7 y 8 son neutrales, y todo lo que sea 6 e inferior es insatisfecho (similar a un detractor).

Los colores utilizados aquí también señalan al encuestado qué respuestas se consideran buenas (verde), cuáles son malas (rojo) y cuáles están en el medio (amarillo).

Esto puede ayudar a los encuestados a responder más fácilmente a la escala, pero ¿Qué hace en las respuestas?

Algunos artículos en línea recomiendan no utilizar escalas de colores. Por ejemplo, Joe Hopper recomienda no colorear las escalas, como las utilizadas en el ítem Net Promoter Score, porque sesgaría las respuestas. Sin embargo, no proporcionó datos sobre esta recomendación. Un artículo de Insightrix sugiere que los encuestados pueden percibir las escalas coloreadas como más severas y dar calificaciones más moderadas.

En otro estudio, esta vez de Tourangeau et al. (2007), que es citado por Measuring U, ofrece algunos datos interesantes:

Los autores sostienen que los encuestados utilizan una serie de heurísticos (atajos mentales) cuando responden a las escalas. Para ver cómo el cambio de color y de tonalidad de los colores (de oscuro a claro) afecta a las respuestas, realizaron dos experimentos.

Colores NPS blog wow 4

Figura 2: Adaptaciones de dos variaciones de la escala de colores a las que respondieron los participantes en Tourangeau et al. (2007).

En dos estudios, los autores asignaron aleatoriamente a unos 2.500 participantes de un panel online con sede en Estados Unidos a una de las ocho condiciones de la escala que variaban el color, el tono, las etiquetas y los números. Dos de las condiciones de las escalas se muestran en la Figura 2 (las recreamos en nuestra plataforma MUIQ). Esta configuración permitió a los autores investigar los efectos de interacción entre el color y otros factores de la escala. Los participantes respondieron a preguntas sobre actitudes generales y estilos de vida utilizando ítems con anclajes de etiquetas de favor/oposición y frecuencia.

Descubrieron que el sombreado de las opciones de respuesta tenía un efecto pequeño, pero estadísticamente significativo. Cuando los puntos finales de la escala estaban sombreados en diferentes tonos, las respuestas tendían a desplazarse hacia el extremo superior de la escala (normalmente entre 0,1 y 0,2 puntos en una escala de siete puntos).

Curiosamente, descubrieron que este pequeño efecto desaparecía cuando los puntos estaban totalmente etiquetados y, en general, sólo era detectable cuando se agregaban los ítems entre sí (las diferencias no eran estadísticamente significativas a nivel de ítems individuales), y no encontraron ninguna diferencia en los tiempos de respuesta por los cambios en el tono y el color. En resumen, encontraron un pequeño efecto, pero ofuscado por los efectos mayores del etiquetado.

Para comprender mejor cómo el color puede afectar a las escalas de probabilidad de recomendación y satisfacción de 11 puntos, más utilizadas, se realizaron dos estudios propios:

Colores NPS blog wow 5

Figura 3a: Una variante estándar sin color del ítem Posibilidad de Recomendación.

Colores NPS blog wow 6

Figura 3b: Una variante de degradado del ítem Probabilidad de Recomendación.

Colores NPS blog wow 7

Figura 3c: Una variante en tres colores del ítem Probabilidad de Recomendación.

A partir de los resultados del estudio de Tourangeau et al. (2007), primero se agregaron todas las respuestas (de modo que, si una persona opinó sobre cinco marcas, sus puntuaciones se incluyeron cinco veces). En la figura 4 se muestran los resultados agregados de los participantes y las marcas. Ambas variantes de color tuvieron un número ligeramente inferior de detractores en comparación con el grupo estándar sin color (26% y 24% frente al 32% respectivamente).

Nota: Como los datos de las mismas personas se utilizan varias veces dentro de cada categoría, se incumple el supuesto de independencia utilizado en la mayoría de las pruebas estadísticas, por lo que se realizaron las pruebas estadísticas sólo en el análisis a nivel de marca.

Colores NPS blog wow 8

Figura 4: Diferencia en los patrones de respuesta para las respuestas agregadas para las variaciones de degradado, de tres colores y sin color del ítem de Probabilidad de Recomendar.

Para el ítem de satisfacción, vemos un patrón similar al del ítem NPS (Figura 5). El porcentaje de los que seleccionan las respuestas menos favorables (0 a 6) disminuye ligeramente cuando se muestran las dos variantes de color (21% y 20% frente a 25%).

Colores NPS blog wow 9

Figura 5: Diferencia en los patrones de respuesta de cada una de las nueve marcas para las variaciones de degradado, de tres colores y sin color del ítem de satisfacción.

Si se observan las diferencias dentro de las nueve marcas (figura 6), se observa menos patrón. La variación sin color tiende a tener puntuaciones más bajas en algunas marcas (por ejemplo, Amazon, Walmart), pero no en todas (en el caso de Southwest, el desnivel fue el más bajo).

Colores NPS blog wow 10

Figura 6: Diferencia en los patrones de respuesta para cada una de las nueve marcas para las variaciones de degradado, tricolor y sin color del ítem Probabilidad de Recomendar. Las barras de error son intervalos de confianza del 90%.

En el caso de la satisfacción, el patrón es menor. La versión sin color tiende a ser inferior a una o a las dos versiones con color en algunas marcas, pero no en todas; en dos casos (Southwest y Home Depot) es nominalmente la más alta.

Colores NPS blog wow 11

Figura 7: Diferencia en los patrones de respuesta de cada una de las nueve marcas para las variaciones de gradiente, tricolor y sin color del ítem de satisfacción. Las barras de error son intervalos de confianza del 90%.

Los resultados del Estudio sugieren que la adición de color puede tener un pequeño efecto de reducción de las respuestas detractoras, pero sólo cuando los resultados se agregan entre los participantes y entre las marcas. Sin embargo, el tamaño de las muestras en la configuración entre sujetos era relativamente modesto y sólo lo suficientemente grande como para detectar diferencias de tamaño medio.

En la figura 8 se muestran los resultados agregados de los participantes y las marcas para la puntuación neta de los promotores. Como se vio en el Estudio 1, la escala de respuesta de tres colores tiene el efecto de reducir ligeramente el número de detractores en comparación con el grupo estándar sin colores (21% frente a 18%) y, en este caso, de aumentar el número de promotores (51% de los de tres colores y 47% de los sin colores).

Colores NPS blog wow 12

Figura 8: Diferencia en los patrones de conducta de las respuestas agregadas para las variaciones de tres colores y sin colores del ítem Probabilidad de Recomendación.

También se observa un patrón similar con el ítem de satisfacción. El porcentaje de los menos satisfechos se reduce en el grupo de los tres colores (15% frente al 11%) y aumentan los que declaran una mayor satisfacción (47% para los tres colores y 45% para los sin colores).

Colores NPS blog wow 13

Figura 9: Diferencia en los patrones de reacción para las respuestas agregadas para las variaciones de tres colores y sin colores del ítem de satisfacción.

La figura 10 muestra las diferencias entre las marcas para el ítem Probabilidad de Recomendación. En general, la versión de tres colores tuvo medias ligeramente más altas (entre 1% y 3%) y la diferencia (utilizando una prueba t por pares) fue estadísticamente significativa para Target (p = 0,04) y Home Depot (p < 0,01).

Colores NPS blog wow 14

Figura 10: Diferencias en las puntuaciones medias de Probabilidad de Recomendación entre las versiones de tres colores y sin colores. Las diferencias entre Target y Home Depot fueron estadísticamente significativas (p < 0,05).

La figura 11 muestra las diferencias entre las marcas para el ítem de satisfacción de 11 puntos. Una vez más, la versión de tres colores tuvo medias ligeramente superiores (entre el 1% y el 2%). La diferencia (mediante una prueba t pareada) sólo fue estadísticamente significativa en el caso de Target (p = 0,03).

Colores NPS blog wow 15

Figura 11: Diferencias en las puntuaciones medias de satisfacción entre las versiones con tres colores y sin colores. Las diferencias del blanco fueron estadísticamente significativas (p < 0,05).

Para entender mejor la causa del cambio en las puntuaciones medias, observamos el número de participantes que cambiaron de categoría cuando se utilizó la escala de tres colores para el ítem Probabilidad de recomendar. En total, obtuvimos 518 respuestas de los 184 participantes de las cuatro marcas y las dos variantes de la escala. La tabla 1 muestra que hay cambios entre todas las categorías (era de esperar que hubiera algún movimiento sólo por casualidad), pero el mayor movimiento es de negativo a positivo: de detractores a pasivos (17) y de pasivos a promotores (15). Esto se compensa con la mitad de movimientos de pasivos a detractores, pero sigue siendo suficiente para ver un modesto cambio en las puntuaciones al alza. También se observa un patrón similar en la escala de satisfacción.

Colores NPS blog wow 16 1

Cuadro 1: Cambio de las 518 respuestas de las cuatro marcas de la versión sin color a la versión con tres colores. En general, se observa un ligero cambio hacia respuestas más positivas (compensado en cierta medida por algunos cambios hacia respuestas más negativas).

A través de dos estudios con 413 participantes en los que se manipuló el color de la escala de respuesta de 11 puntos, se encontró que

El color aumenta las puntuaciones de forma modesta. Añadir color a una escala de 11 puntos tuvo un pequeño efecto en ambos estudios (pero rara vez la diferencia fue estadísticamente significativa). Esto fue sorprendente, dada la diferencia visualmente destacada de añadir color. Incluso en nuestro estudio dentro de los sujetos que controlaba la variación entre las personas, las diferencias en las puntuaciones estaban entre el 1% y el 2%. Las mayores diferencias se observaron cuando se agregaron las personas y las marcas, pero incluso entonces, las diferencias fueron modestas, de alrededor del 3%. Se observaron mayores diferencias al mostrar o no la etiqueta neutra, lo que corrobora la investigación de Tourangeau et al. (2007), que descubrió que el etiquetado tenía un efecto mayor que los colores.

Los colores pueden actuar como una heurística. Algunas investigaciones anteriores sugieren que los participantes buscan pistas sobre cómo responder a las escalas (por ejemplo, los números, las etiquetas y el orden de presentación) y el color actúa como otra heurística (un atajo mental) sobre el significado de los puntos (el rojo es malo, el verde es bueno).

Las variaciones de degradado y de tres colores tenían patrones similares. En el estudio 1 se probaron dos variaciones de color (la de tres colores y la de degradado) y se comprobó que ambas generaban resultados similares y tenían medias ligeramente superiores a las del grupo sin color. Esto sugiere que el gradiente de color, que no revela necesariamente el esquema de puntuación neta, actúa de forma similar.

No es suficiente con cambiar el enfoque; basta con ser coherente. A mucha gente le preocupa utilizar las escalas «equivocadas» y, ciertamente, algunos artículos en línea hacen que las consecuencias suenen terribles. Afortunadamente, los resultados sugieren que los efectos son bastante pequeños. En el estudio no se preguntó a los participantes qué escala preferían, ni se cronometraron las respuestas (todo ello puede ser objeto de un trabajo futuro).

Sin embargo, las pequeñas diferencias aquí son similares a las que observamos al cambiar la LTR de 11 a 5 o de 11 a 10 puntos: menos del 5% de diferencia. Esto sugiere que, siempre que se sea coherente y se centre en los cambios a lo largo del tiempo, el uso de escalas de color o no de color tendrá resultados comparables (aunque no idénticos). A falta de puntos de referencia externos para calibrar cuál es la forma «correcta», es difícil concluir que las escalas de color son «incorrectas». No obstante, lo más prudente es ser coherente y no cambiar la presentación de las escalas para poder comparar más eficazmente las puntuaciones a lo largo del tiempo.

Fuente info
Autor: Juan Fernandez

Solicitar DEMO GRATUITA

Contáctanos ahora:

Ir arriba