12.6 Diagramas de dispersión

Este tipo de gráfico es usado para mostrar la relación entre dos variables numéricas continuas, usando puntos. Cada punto representa la intersección entre los valores de ambas variables.

Para generar un diagrama de dispersión, damos vectores numéricos como argumentos x y y a la función plot().

Veamos la relación entre las variables age y balance de banco.

plot(x = banco$age, y = banco$balance)

Tenemos algunos datos extremos tanto en balance. Para fines de tener una gráfica más informativa, vamos a recodificarlos usando ifelse(), cambiando todos los valores mayores a 15 000.

banco$balance <- ifelse(banco$balance > 15000, 15000, banco$balance)
plot(x = banco$age, y = banco$balance)

En los diagramas de dispersión, podemos usar el argumento col para camiar el color de los puntos usando como referencia una tercera variable.

La variable que usaremos será, de nuevo, loan

plot(x = banco$age, y = banco$balance, col= banco$loan)

Nos sería de utilidad una leyenda para interpretar más fácilmente los colores.

Ya sabemos que los niveles de loan son “no” y “yes”, además de que los colores han sido rojo y negro, así que agregar una leyenda será relativamente fácil.

plot(x = banco$age, y = banco$balance, col= banco$loan)
legend(x = "topleft", legend = c("No", "Yes"), fill = c("Black", "Red"), title = "Loan")

Desafortunadamente esta gráfica no es muy informativa para nuestros datos. Por fortuna, podemos probar con un conjunto de datos diferente.

Si usamos diagramas de dispersión con iris obtendremos gráficos mucho más interesantes.

Creamos un gráfico con las medidas de pétalo, aplicando lo que hemos visto para generar diagramas de dispersión.

plot(x = iris$Petal.Length, y = iris$Petal.Width, col = iris$Species, 
     main = "Iris - Pétalo", xlab = "Largo", ylab = "Ancho")
legend(x = "topleft", legend = c("Setosa", "Versicolor", "Virginica"), 
       fill = c("black", "red", "green"), title = "Especie")