r-programmer

Linguagem R: os seis gráficos mais utilizados.

Ao escrever o artigo “Gráficos: conte histórias com os tipos mais utilizados!” mostrei como eles são importantes, quando se trata da representação de informações, pois, facilitam a visualização de dados e enriquecem os relatórios, de modo que, os mais leigos em matemática ou estatística, consigam absorver o conhecimento necessário. Nesse artigo vou mostrar como utilizar seis gráficos super importantes, na linguagem R.

Dataset Cars.

O R já vem com alguns datasets instalados para que você possa usar em seus ensaios. Eles são conjuntos de dados, que facilitam o estudo, a construção de alguns modelos de códigos, testes, etc. Os mais conhecidos são: iris, cars, AirPassengers, CO2, dentre outros – dê um help(datasets) no console do RStudio e depois clique no index para visualizar todos. 

Eu vou usar o dataset “cars” para os exemplos de gráficos que irei mostrar. Trata-se de uma tabela com velocidade e distância, adequado para a maioria dos ensaios apresentados aqui.

Para os gráficos que irei mostrar, nenhum deles é necessária a instalação adicional de algum pacote específico.

Distribuição de dados com o Histograma.

Trata-se de um gráfico muito utilizado para ver como os dados estão distribuídos e organizados. Também é conhecido como distribuição de frequências ou barras de conjunto de dados. Algumas pessoas confundem o histograma com o gráfico de barras, mas a diferença entre eles é que o histograma apresenta no seu eixo x, variáveis quantitativas e no eixo y suas respectivas frequências. No caso do gráfico de barras, ele apresenta no seu eixo x categorias (variáveis categóricas), por exemplo, países, origens de acesso, etc. 

Para construir um histograma, basta escrever o código “hist()” e chamar sua origem de dados. Perceba que no exemplo a seguir são contabilizadas frequências de faixas de velocidade.

hist(cars$speed, main = "Carros", ylab = "Qtd", xlab = "Velocidade", col = "gray")
gráfico histograma em R
Histograma apresentando frequências de velocidades no dataset cars.

O “xlab” e “ylab” são para nomear seus respectivos eixos x e y, o “main” para dar título ao gráfico. Também é possível usar “col” para definir a cor das colunas do histograma. Esses argumentos também podem ser usados nos outros gráficos apresentados.

Dica: para visualizar as opções de argumentos de qualquer função no R, basta digitar no console help(nomedafunção). No caso do histograma, ao fazer isso, você vai notar diversas opções e argumentos.

Gráfico de Dispersão para o comparativo de variáveis.

Quando eu quero comparar variáveis contínuas (numéricas com uma quantidade infinita de valores) posso usar o “plot” para mostrar a dispersão dos dados. Uma coisa legal é que ele se adapta bem em qualquer dataset e utiliza coordenadas cartesianas para exibir os dados.

plot(cars$speed, cars$dist, main = "Carros", ylab = "Distância", xlab = "Velocidade")

Observem no gráfico a seguir, que é possível comparar a distância x velocidade; que quanto maior a distância, maior a velocidade alcançada.

gráfico de dispersão no R
Gráfico de dispersão no R.

Gráfico de Linhas.

Se quiser fazer esse comparativo com linhas, também é possível usando o plot. Basta adicionar o “type = l”, como no exemplo a seguir.

plot(cars, type = "l")
gráfico de linha no r
Gráfico de linha usando “plot”.

É possível acrescentar pontos, para marcar os dados na linha, para isso basta usar o “type = o”.

plot(cars, type = "o", col = "blue")

Percebam que aqui usei o “col = blue” para deixar a linha azul.

Gráfico de linha com pontos no r
Gráfico de linha com a marcação dos pontos de dados.

Gráfico de barras.

Podem ser utilizados na vertical ou horizontal, tem seu comprimento proporcional aos valores. Ótimo para ilustrar comparativos de dados.

Para esse exemplo vou criar dois vetores. Um deles vai conter a faixa etária e o outro a frequência, de indivíduos dentro de cada faixa etária, que possuem carros.

faixa_etaria <- c("13-25", "24-44", "45-64") 
tem_carro <- c(125, 237, 188) 
barplot(tem_carro,names.arg=faixa_etaria)
bar plot, ou gráfico de barras no R
Faixa etária de indivíduos com carros no barplot.

Limites e dados discrepantes com o Boxplot.

Também conhecido como diagrama de caixa é um gráfico muito bom para ver a distribuição dos dados e suas variações, pois permite analisar limites, discrepâncias e quartis.

Note na imagem a seguir: a primeira linha do retângulo é o primeiro quartil; a linha do meio (verde), o segundo quartil, que também é a mediana; a última linha do retângulo é o terceiro quartil.

box plot no R
Boxplot com destaque para seus limites, quartis e mediana (imagem retirada da Wikipédia).
boxplot(cars$speed, main = "Carros", xlab = "Velocidade", col = "gray")
box plot no R
Boxplot no R.

Caso você queira mudar o posicionamento para horizontal, basta inserir o argumento “horizontal = TRUE”. Para retirar outliers (valores com grande afastamento dos demais) utilize “outline = F”.

Gráfico de setor, Pizza.

Embora não seja recomendado em alguns casos (leia o artigo que comentei no início), o gráfico de pizza ainda é muito utilizado, principalmente para comparações simples.

No exemplo a seguir, faço um ensaio utilizando origens de visitas vindas de Social Media, Google e visitas diretas.

visitas <- c(1252, 2374, 1881) 
names(visitas) <- c("Social", "Google", "Diretas")  
pie(visitas, col = rainbow(7) )
gráfico de pizza em R
Gráfico de pizza gerado no R, para mostrar origem de visitas.

Note como é importante ter cuidado ao utilizar gráficos de pizza, afinal, é fácil se confundir com as proporções das fatias.

Conclusões.

Os gráficos apresentados são de fácil utilização e podem ajudar você, em poucos segundos, a fazer a representação, de forma rápida, de suas análises e cruzamentos de dados. Porém, essas não são as únicas formas. Em breve vou ensinar como fazer gráficos utilizando algumas bibliotecas bem interessantes e com muitos recursos.

Referências.

Livro R para Data Science

Definições sobre Histograma

Definições sobre o Gráfico de Barras

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *