Principios de Visualización de Datos para Business Intelligence

18 minute read

Published:

Se darán los primeros pasos en análisis de datos y business intelligence. Se explora cómo transformar datos, números y exploraciones en información que resulte útil para una compañía. También se implementarán diferentes estrategias de comunicación y buenas prácticas de data viz dependiendo de la audiencia a la que apuntamos con nuestros reportes.

image.png

¿Qué es la visualización de datos?

La visualización de datos es el proceso de representar información de manera visual para facilitar la comprensión y análisis. Se compone de dos partes: el “input”, que es la información estructurada o no estructurada que se introduce, y el “output”, que son las representaciones visuales que ayudan a identificar patrones y tomar decisiones informadas. Esta técnica es clave para transformar grandes volúmenes de datos en insights claros y accesibles, permitiendo descubrir historias ocultas en la información.

Importancia de la visualización de datos: disminuye la carga cognitiva

La carga cognitiva es el esfuerzo que debemos hacer por retener la información. La visualización efectiva y una baja carga cognitiva nos ayuda a entender nuestra información.

Es común cambiar la hipótesis a lo largo de nuestro trabajo.

Cuando hacemos visualización de datos, debemos comprender que hay una audiencia que va a recibir de forma directa o inderecta nuestro mensaje.

Las herramientas más comunes para la visualización de datos:

  • Excel
  • Tableau
  • Power BI
  • Google Analytics
  • Google Data Studio

Estas herramientas permiten crear gráficos y tableros efectivos para comunicar hallazgos de datos y apoyar la toma de decisiones en un contexto de Business Intelligence. La importancia del storytelling en la presentación de datos.

Recursos para comprender mejor el mundo de las visualizaciones

Buenas prácticas para visualización de datos: user personas, mentiras estadísticas y principios de Gestalt

Debemos tener buenas prácticas de visualización de datos, destacando la importancia de conocer a la audiencia y definir el mensaje. Enfatizar en la percepción visual para reducir la carga cognitiva y facilitar la comprensión. Destacar elementos como la estandarización teniendo en cuenta

  • usar mismas medidad,
  • no cortar los ejes,
  • alinear siempre, además cuidar de elementos como la simplificación (evitar recortar datos), y la disminución del sesgo, también de los principios de Gestalt, que ayudan a agrupar y organizar la información visualmente. Se recomienda evitar el cherry picking para mantener la objetividad en los datos presentados.

Ejemplos de los principios de Gestalt

Los principios de Gestalt son una serie de normas psicológicas que describen cómo los humanos perciben patrones y estructuras en el entorno, organizando la información visual en formas coherentes y significativas.

  1. Ley de la proximidad: Los elementos que están cerca unos de otros tienden a ser percibidos como un grupo. Por ejemplo, en un conjunto de puntos, los que están más cerca se ven como una figura unida.

  2. Ley de la similitud: Los objetos que son similares en forma, color o tamaño se agrupan juntos. Por ejemplo, en una serie de círculos y cuadrados, los círculos se perciben como un grupo separado de los cuadrados.

  3. Ley de la continuidad: Las líneas o patrones que siguen una dirección son percibidos como una continuidad. Por ejemplo, una línea curva se percibe como una sola forma continua, en lugar de como segmentos individuales.

  4. Ley del cierre: La mente tiende a completar figuras incompletas. Por ejemplo, un círculo dibujado con espacios en su contorno se percibe como un círculo completo.

  5. Ley de la figura y el fondo: Esta ley se refiere a la capacidad de distinguir un objeto (figura) de su fondo. Por ejemplo, en una imagen con un claro contraste entre objeto y fondo, el objeto se destaca y se percibe como la figura principal.

La importancia de la ética en la visualización de datos. Discutir cómo la forma en que se presentan los datos puede influir en la interpretación de la audiencia, destacando la necesidad de evitar sesgos y mantener la credibilidad. El caso de Target, que utilizó Big Data para segmentar a sus clientes, lo que generó un conflicto ético al enviar información sensible. El mensaje clave es que los datos deben usarse para contar la verdad sin preferencias personales.

Elige la gráfica correcta para tus reportes

Gráfico de barras

Las gráficas de barras son una herramienta efectiva para comunicar resultados, facilitando la comprensión de la información. Existen buenas prácticas como el uso de colores distintos por categoría. Diferentes tipos de gráficas de barras: Horizontales, Verticales y Apiladas. Siempre en el caso de las apiladas, colocar de mayor a menor para una buena visualización.

# Grafico de barras
import numpy as np
import matplotlib.pyplot as plt
# Definir os dados
x = np.array(['A', 'B', 'C', 'D'])
y = np.array([10, 20, 30, 40])
colors = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue']

plt.bar(x, y, color=colors)
plt.show()

png

Gráfica de pie o chart

La representación de la información generalmente está dada por un área. Siempre la información debe estar representada de manera sencilla. No se recomienda para más de 5 categorías. Se puede convertir en una gráfica tipo donut, para agregar más información. Añadir acotaciones para clarificar la información. En este tipo de gráfica nunca usar una representación en 3D.

# Grafico pie
# Datos
labels = ['Python', 'C++', 'Ruby', 'Java']
sizes = [215, 130, 245, 210]
colors = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue']

# Plot
plt.pie(sizes, labels=labels, 
        colors=colors, autopct='%1.1f%%', 
        shadow=False, startangle=140)

plt.axis('equal')
plt.show()

png

Gráfica de dispersión o scatter plot

Posicionamiento en un plano de puntos que muestran la correlación entre dos variables. Está gráfica es fundamental para entender la correlación. Evitar anotaciones sobre los puntos.

## Scatter plot
x = np.arange(1, 21)
y = np.random.randint(1, 10, 20)

plt.scatter(x, y, color='r', marker='*')
plt.xticks(np.arange(1, 21, 2))
plt.grid()
plt.show()

png

Gráfica de burbujas

Esta gráfica de burbujas es un tipo de scatter plot. No utlizar gráficas 3D, ni añadir anotaciones sobre los puntos.

# Gráfica de burbujas
# Datos
x = np.random.rand(40)
y = np.random.rand(40)
z = np.random.rand(40) * 1000
c = np.random.rand(40)  # Colores aleatorios para cada burbuja

# Plot
plt.scatter(x, y, s=z, c=c, cmap='viridis', alpha=0.5)
plt.show()

png

Gráfica de mapas

Es una representación de datos ubicados geográficamente.

Por lo general, estos mapas utilizan referencias de medición en los costados para poder entender la proporción en la cual fueron diseñados, por ejemplo: 1 cm = 1 km. Es importante recalcar que estas mediciones se utilizan para dar mayor fidelidad en la representación de información.

Mapas de Isolíneas:

Utilizan líneas para poder unir áreas que determinen cierta similitud relacionada con alguna variable. Estos espacios suelen colorearse para mostrar distinción entre ellos. Este tipo de mapas son muy utilizados en el ámbito meteorológico, en el caso de la imagen podemos observar un mapa isobárico para medir la presión atmosférica.

Mapas Coropléticos: Son mapas que representan con color los lugares donde ocurrieron ciertos sucesos (variable). Durante las elecciones presidenciales de los Estados Unidos, esos mapas se utilizaron para demostrar el partido político que ganó en determinados estados.

Mapas de Diagramas:

Estos mapas pueden considerarse como mapas combinados, ya que por lo general utilizan el color para hacer una distinción de variable y alguna otra visualización sobre cada segmento para mostrar una variable adicional. Generalmente estos mapas son utilizados en estadística geográfica, reportes económicos, de salud, etc.

Mapas Anamórfico: Estos mapas utilizan distintos tipos de figuras geométricas para identificar sucesos en determinadas ubicaciones geográficas.

Gráfica de heat map o mapas de calor

Una gráfica de calor, también conocida como “heat map”, es una visualización que utiliza una paleta de colores para representar datos en dos dimensiones. Esta técnica permite identificar la frecuencia o intensidad de eventos en un conjunto de datos. Por ejemplo, en un mapa geoespacial, se puede ver dónde ocurren más eventos marcando las áreas con colores más intensos. También se utilizan en análisis de páginas web para comprender el comportamiento del usuario, identificando las áreas de mayor interacción. Se debe calibrar correctamente la paleta de colores.

# Gráfica de heat map
# Datos
data = np.random.rand(200, 200)
plt.imshow(data, cmap='hot', interpolation='nearest')
plt.show()

png

Gráfica de tablas

Una gráfica de tablas es una representación de datos organizada en filas y columnas, donde cada fila representa un registro y cada columna una propiedad. Se utiliza comúnmente en Business Intelligence y data science para presentar información de forma clara y precisa. Sin embargo, es recomendable acompañar las tablas con otros tipos de visualización para facilitar la comprensión, ya que tablas extensas pueden ser complicadas para la audiencia. Utilizar colores para resaltar datos también puede mejorar la interpretación.

# Gráfica de tablas
# Datos
data = np.random.randint(0, 10, (10, 10))

# Etiquetas para filas y columnas
row_labels = [f'Fila {i}' for i in range(1, 11)]
col_labels = [f'Columna {i}' for i in range(1, 11)]

plt.figure(figsize=(10, 6))
# Crear la tabla
plt.table(cellText=data, colLabels=col_labels, rowLabels=row_labels, loc='center')

# Eliminar los ejes
plt.axis('off')

# Mostrar la tabla
plt.show()

png

Importancia del storytelling en la visualización de datos

El storytelling es la técnica de comunicación en la cual hilamos historias para poder comunicar un mensaje de una forma estructurada, clara y entretenida para la audiencia. De manera que pueda retenerse de una forma prolongada gracias a la captación de la atención y uso de lenguajes sencillos para explicar conceptos más complejos. Una de las ventajas más importantes de este método es el poder hacer ese “clic” con las personas que nos escuchan reduciendo su carga cognitiva y garantizando el entendimiento de nuestra información. El storytelling es una herramienta muy poderosa que simplemente requiere práctica para poder ver resultados tangibles. Te invito a que pongas en práctica esta técnica en conjunto con tus habilidades para la visualización de datos.

Excelente video de un gran comunicador como Hans Rosling: https://youtu.be/jbkSRLYSojo

Data Visualization para Business Intelligence

¿Cómo afecta la visualización de datos en tu negocio?

La visualización de datos impacta significativamente en los negocios al facilitar la comprensión de información compleja. Permite a los líderes tomar decisiones informadas rápidamente, ya que simplifica la presentación de hallazgos y recomendaciones. Al reducir la carga cognitiva, los reportes visuales aseguran que la audiencia clave capte el mensaje en poco tiempo, lo cual es esencial en un entorno donde el tiempo es limitado. Además, las visualizaciones son herramientas efectivas para el análisis de rendimiento y la comunicación interna, mejorando la colaboración entre equipos.

Explora, descubre, pregunta: toma decisiones inteligentes con análisis de datos

Agregar valor con datos implica transformar números y letras en información útil para la toma de decisiones. Esto se logra a través de la exploración y visualización de datos. Al analizar patrones y tendencias, podemos descubrir insights que no eran evidentes al principio. La clave es hacer preguntas pertinentes sobre los datos y colaborar en equipo para comunicar estos hallazgos de manera efectiva. Utilizando técnicas de Business Intelligence, podemos alinear los datos con los objetivos organizacionales y, así, influir en decisiones estratégicas.

Práctica: análisis y exploración de datos

Esta base de datos es una recopilación sobre la información de ventas de una tienda de Estados Unidos, cuya giro es la venta de productos y materiales clasificados de la siguiente manera:

  • Furniture
  • Office Supplies
  • Technology

La base de datos abarca los años del 2011 al 2014 y contiene datos pertinentes sobre los descuentos aplicados, nombre de los clientes y la ubicación geográfica de los clientes por cada transacción realizada.

# Abrir el fichero superstore.xls

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_excel('superstore.xls', sheet_name='Orders')

# Plot de barras de ventas por categorias
df_category = df.groupby('Category')['Sales'].sum()
df_category.plot(kind='barh') 

png

# Cliente que más compra
df_customer = df.groupby('Customer Name')['Sales'].sum()
df_customer = df_customer.sort_values(ascending=False)
df_customer.head(10).plot(kind='barh')

png

# Ventas x Trimestre (Q)
df['Order Date'] = pd.to_datetime(df['Order Date'])
df['Quarter'] = df['Order Date'].dt.to_period('Q')
df_quarter = df.groupby('Quarter')['Sales'].sum()
df_quarter.plot(kind='bar')

png

# Crear el gráfico de burbujas con línea de correlación
colors = ['blue' if profit > 0 else 'orange' for profit in df['Profit']]
plt.figure(figsize=(10, 6))
scatter = plt.scatter(
    df['Sales'],
    df['Profit'],
    s=df['Quantity'] * 10,  # Tamaño de burbujas basado en la cantidad
    c=colors,  # Color de las burbujas basado en las ganancias
    cmap='coolwarm',  # Mapa de colores
    alpha=0.6,
    edgecolors='w'  # Bordes blancos para las burbujas
)

# Añadir línea de correlación
from scipy.stats import linregress

# Calcular la línea de regresión
slope, intercept, r_value, p_value, std_err = linregress(df['Sales'], df['Profit'])

# Generar valores para la línea de regresión
x_fit = np.linspace(df['Sales'].min(), df['Sales'].max(), 100)
y_fit = slope * x_fit + intercept

# Graficar la línea de regresión
plt.plot(x_fit, y_fit, color="gray", linestyle="--", label='Línea de Regresión')

# Etiquetas y título
plt.xlabel('Ventas')
plt.ylabel('Profit')
plt.grid(True)

# Mostrar el gráfico
plt.show()

png

integra visualización de datos y Big Data con inteligencia de negocios

Business Intelligence (BI) se refiere a la recopilación y análisis de datos para tomar decisiones informadas sobre un negocio. El Business Intelligence tiene un estrecha relación con la visualización de datos, donde se utilizan gráficos y reportes para comunicar resultados y patrones. El caso de Walmart, que, al analizar patrones de consumo durante huracanes, optimizó su inventario, lo que maximizó sus ganancias. Así, BI combina datos con visualización para facilitar la toma de decisiones en las empresas

Flujo de trabajo y etapas del Business Intelligence

Recolección de datos

La recolección de datos es la primera etapa en el proceso de Business Intelligence. Consiste en obtener información valiosa, que puede variar en formato (números, texto, gráficos) y origen (bases de datos públicas o privadas). Es fundamental distinguir entre datos estructurados (como tablas) y no estructurados (como texto) para facilitar su análisis. Este proceso establece la base sobre la cual se realizarán análisis y tomará decisiones informadas.

Nota de Color: tener en cuenta las licencias cuando se trabaje con bases de datos tanto públicas como privadas.

Limpieza de datos

La limpieza de datos es un proceso esencial en la preparación de datos para análisis y visualización. Implica la estandarización y corrección de datos para eliminar inconsistencias, errores y duplicados. Esto se logra asegurando que todos los valores sean uniformes, como por ejemplo, que las palabras estén en minúsculas y sin caracteres especiales. Un buen proceso de limpieza mejora la calidad del análisis y de los resultados finales, ya que “basura entra, basura sale” (GIGO). Es crucial para facilitar la interpretación de los datos.

Material para leer: https://www.tableau.com/learn/articles/what-is-data-cleaning

Exploración de datos

La exploración de datos es un proceso crucial dentro del Business Intelligence donde se analizan y comprenden los datos para descubrir patrones, tendencias y relaciones. Es una etapa en la que se busca responder preguntas y reformular hipótesis, manteniendo una mente abierta a los hallazgos inesperados. Durante esta fase, se deben evitar sesgos y preferencias personales, enfocándose en la presentación de los datos con una narrativa clara que facilite la toma de decisiones.

Material para leer: https://towardsdatascience.com/an-extensive-guide-to-exploratory-data-analysis-ddd99a03199e

Creación de gráficas y visualizaciones

importancia de la creación de gráficas y visualizaciones para comunicar datos en Business Intelligence. La importancia de seleccionar el tipo adecuado de gráfica según la historia que se quiere contar, reduciendo así la carga cognitiva para la audiencia. Entender el perfil del público para adaptar el lenguaje visual.

Las buenas prácticas en la visualización de datos incluyen:

  • Elección de Gráficas: Seleccionar el tipo de gráfica adecuado para el mensaje que deseas transmitir, evitando sobrecargar la información.
  • Carga Cognitiva: Reducir la carga cognitiva de la audiencia al presentar datos de forma clara y sencilla.
  • Lenguaje de la Audiencia: Adaptar el lenguaje y la presentación según el perfil y preferencias de la audiencia.
  • Colores y Destacar Datos: Utilizar colores estratégicos para resaltar información importante y facilitar la interpretación.
  • Consistencia: Mantener un estilo visual consistente a lo largo de las visualizaciones para facilitar la comprensión

Generación de reportes con storytelling

La generación de reportes con storytelling implica crear presentaciones visuales de datos que cuenten una historia clara y convincente para facilitar la toma de decisiones. Las buenas prácticas incluyen:

  • Enfocarse en un solo mensaje: Selecciona un objetivo claro para el reporte.
  • Visualizaciones efectivas: Usa gráficos y tablas que resalten los hallazgos más importantes.
  • Simplicidad: Mantén el diseño limpio y comprensible para reducir la carga cognitiva.
  • Uso adecuado de colores y tipografía: Mejora la legibilidad y retención de información.
  • Contextualización: Proporciona suficiente contexto para que la audiencia entienda el mensaje.

Estas prácticas son fundamentales para asegurar que los reportes sean útiles y efectivos en la toma de decisiones.

Define objetivos SMART con KPIs o Key Performance Indicators

Los KPIs, o Indicadores Clave de Desempeño, son métricas utilizadas para medir el rendimiento de una organización, equipo o proyecto en relación con sus objetivos estratégicos. Son fundamentales en el proceso de Business Intelligence, ya que permiten evaluar si se están alcanzando las metas establecidas. Un buen KPI debe ser específico, medible, alcanzable, relevante y temporal (SMART). Por ejemplo, un KPI podría ser la adquisición de mil nuevos clientes en un año. Estos indicadores ayudan a tomar decisiones informadas basadas en datos.

SMART es un acrónimo que se utiliza para definir objetivos en los negocios. Cada letra representa una característica clave que deben tener estos objetivos:

  • S: Específico (Specific) - Deben ser claros y bien definidos.
  • M: Medible (Measurable) - Deben poder cuantificarse para evaluar el progreso.
  • A: Alcanzable (Achievable) - Deben ser realistas, considerando los recursos y capacidades.
  • R: Relevante (Relevant) - Deben estar alineados con los objetivos generales de la organización.
  • T: Temporal (Time-bound) - Deben tener un marco de tiempo definido para su cumplimiento.

Este enfoque ayuda a establecer KPIs efectivos y a mejorar el rendimiento en diversas áreas.

Material para leer: https://platzi.com/blog/key-performance-indicators/

Recomendaciones finales para Visualización de Datos

El Caso Orbitz se refiere a cómo esta empresa utilizó big data para analizar el comportamiento de sus usuarios, descubriendo que quienes navegaban desde Mac tendían a pagar más que los usuarios de PC. En lugar de ofrecer precios diferentes, ajustaron la presentación de las opciones, mostrando habitaciones con servicios adicionales a los usuarios de Mac, lo que incrementó sus ingresos.

Para mejorar constantemente, se recomienda realizar proyectos, buscar bases de datos públicas, y siempre generar reportes. Comunica tus hallazgos y busca retroalimentación para optimizar tus visualizaciones y procesos de toma de decisiones.

Avanzar en nuevos cursos sobre Visualización de Datos y Storytelling para Negocios: https://platzi.com/cursos/tableau/

Atención

Este tutorial es basado en el Curso de Principios de Visualización de Datos para Business Intelligence.