12.3 Histogramas

Un histograma es una gráfica que nos permite observar la distribución de datos numéricos usando barras. Cada barra representa el número de veces (frecuencia) que se observaron datos en un rango determinado.

Para crear un histograma usamos la función hist(), que siempre nos pide como argumento x un vector numérico. El resto de los argumentos de esta función son opcionales. Si damos un vector no numérico, se nos devolverá un error.

Ya hemos trabajado con esta función en el capítulo 8, pero ahora profundizaremos sobre ella.

Probemos creando un histograma con las edades (age) de las personas en nuestro data frame banco. Sabemos que age

Daremos como argumento a hist() la columna age como un vector, extraído de banco usando el signo de dolar $, aunque también podemos usar corchetes e índices.

hist(x = banco$age)

Nuestro histograma luce bastante bien para habernos costado tan poco trabajo crearlo, aunque puede mejorar su presentación.

Podemos agregar algunos argumentos a la función hist() para modificar ciertos parámetros gráficos.

Vamos a cambiar el título del gráfico con el argumento main, y el nombre de los ejes X y Y con xlab y ylab, respectivamente.

Estos argumentos requiere una cadena de texto y pueden agregados también a gráficos generados con plot().

hist(x = banco$age, main = "Histograma de Edad", 
     xlab = "Edad", ylab = "Frecuencia")

Probemos cambiando el color de las barras del histograma agregando el argumento col. Este argumento acepta nombres de colores genéricos en inglés como “red”, “blue” o “purple”; y también acepta colores hexadecimales, como “#00FFFF”, “#08001a” o “#1c48b5”.

Puedes ver una lista de los nombres de colores válidos en R en el siguiente enlace:

El tema de los colores hexadecimales sale del alcance de este libro, pero en el siguiente enlace encontrarás una web app para generar y elegir fácilmente colores de este tipo.

Probemos con columnas de color púrpura (“purple”).

hist(x = banco$age, main = "Histograma de Edad", 
     xlab = "Edad", ylab = "Frecuencia",
     col = "purple")

Nuestro histograma ya luce presentable.

Creamos ahora un histograma con los mismos argumentos, pero con los datos de la columna “duration”, con barras de color marfil (“ivory”) y los títulos apropiados.

hist(x = banco$duration, main = "Histograma de Duration", 
     xlab = "Duration", ylab = "Frecuencia",
     col = "ivory")

Como es usual, puedes consultar los demás argumentos de esta función llamando ?hist().