O R é uma das linguagens mais utilizadas quando se trata de ciência de dados. Na minha opinião é muito simples e eficiente para o que propõe, facilitar a elaboração de estudos estatísticos. A similaridade de comandos com outras linguagens proporciona, quem já tem conhecimento prévio em programação, aprender rapidamente.
Quem desenvolveu o R?
O R foi criado por Ross Ihaka e por Robert Gentleman no departamento de Estatística da Universidade de Auckland, Nova Zelândia. Eles tinham interesse em estatística computacional e sentiram a necessidade de uma desenvolver uma linguagem de programação que facilitasse o trabalho com estruturas de dados e também suportar o uso estatístico.
De fato, é excelente para uso estatístico. Eu já programei em outras linguagens, e é perceptível que ao longo do tempo elas foram se moldando para objetivos e aplicações. Eu não digo serem exclusivas para determinados tipos de uso, mas que ao longo do tempo, programadores procuraram características comuns para suas respectivas aplicações. Por exemplo: posso fazer um gráfico pizza com PHP? Sim, e inclusive já usei muito essa linguagem para montar dashboards, mas o fato é que quando você vai fazer isso com R, é muito mais fácil. Como escrevi no artigo “O que é Data Science e quais as linguagens mais utilizadas“:
“Seus comandos são muito simples, com alguns recursos já prontos, para o que o analista precisa”
Trata-se de um software livre e sua licença é regida pelos temos da Free Software Foundation. Além disso, tem um site oficial e um blog, que recomendo aos estudantes da linguagem que façam a leitura e acessem com alguma frequência para verificar as atualizações, melhorias e correções de problemas.
No site oficial tem uma página de manuais do R que é um verdadeiro “diamante” para quem está começando, pois, são disponibilizados materiais muito ricos em informação, que você pode utilizar para aprender e resolver suas dúvidas (uso bastante), sem necessidade de cadastro.
Como instalar o R?
É bem simples. Vou omitir os detalhes (por não achar necessário) e focar nos locais de download, afinal, não é nada diferente do que você já deve estar acostumado ao instalar um programa.
Primeiro basta entrar no site do R Project e escolher um dos links para fazer o download do pacote de instalação e depois executar os passos seguintes.
Feito isso, basta instalar o RStudio. Trata-se de um IDE (ambiente de desenvolvimento integrado) que vai facilitar seu dia a dia. Para fazer o download basta entrar no site oficial através desse link, escolher “RStudio Desktop”, por fim baixar no seu computador.
Depois basta encontrar o link de instalação, clicar duas vezes e seguir os passos de escolha de diretório, tipo de instalação e pronto.
Como é o ambiente?
O RStudio tem uma interface muito amigável, alguns atalhos de teclado que são muito úteis quando está programando. Ele deixa o código colorido, tem uma janela com ajuda, variáveis utilizadas, mostra de gráficos, tudo deixa seu trabalho bem mais fácil.
Para começar seu primeiro projeto, basta clicar no ícone para new file, como mostra a imagem a seguir e escolher entre: R Script, R Notebook ou R Markdown.
Qual a diferença entre eles?
- R Script: é possível escrever seu programa e visualizar suas saídas através do console e da janela lateral, quando utilizar gráficos (como no caso da primeira imagem).
- R Markdown: possibilita você escrever código e obter o resultado dos seus comandos através de sua própria folha, no mesmo ambiente onde está programando. Além disso, ele permite escrever textos que não serão interpretados, esse espaço é geralmente usado para comentários, explicações, etc.
- R Notebook: faz quase a mesma coisa que o R Markdown. A diferença é que com o arquivo .Rmd ele salva um .html também, que você pode usar para apresentar seus relatórios e compartilhar seus estudos.
No meu trabalho uso mais o R Markdown, pois gosto da possibilidade deixar algumas observações junto ao código.
Comandos básicos.
R instalado, RStudio aberto, agora é hora de aprender os primeiros comandos.
Pedindo ajuda através do Help.
Na minha opinião, o primeiro comando que qualquer estudante deve aprender é o help. Pois, através dele, você poderá saber mais sobre o que está em dúvida, além de ajudar muito nas correções de erro de sintaxe.
```{r}
# Ao executar esse código o RStudio vai me mostrar tudo que ele encontrar sobre "library", por exemplo
help("library")
```
Cálculos matemáticos simples.
Simples, mas muito importantes no dia a dia do cienticista de dados. Divisão, multiplicação, soma, subtração, fazem parte da rotina de trabalho dessa profissão.
```{r}
# Divisão
10/3
# Multiplicação
10 * 5
# Soma
10 + 10
# Subtração
10 - 5
```
Atribuindo valores em Vetores.
De uma forma simples, podemos entender vetores como variáveis que irão armazenar conteúdos para você, ou seja, outras variáveis do mesmo tipo. Talvez você precise guardar séries temporais, informações sobre o tempo, amostras, grupos de testes, vetores são utilizados a todo momento.
```{r}
# Simplesmente atribuindo valores a um vetor
a <- c(1, 2, 3, 4)
# Definindo uma sequencia de valores
b <- c(1:10)
```
Gráficos, o básico para iniciar.
São importantes para qualquer representação de dados. Inclusive já escrevi um artigo falando da importância de escolher os gráficos certos para determinados tipos de dados.
```{r}
# Gráfico simples usando dados de cars para esse ensaio
# plot(x,y)
plot(cars$speed, cars$dist, xlab = "Distância", ylab = "Velocidade", type = "b")
# Gráfico de barras
# Ensaio onde através de faixa etária contabizo o número de proprietários de carros
faixa_etaria <- c("13-25", "24-44", "45-64")
tem_carro <- c(125, 237, 188)
barplot(tem_carro,names.arg=faixa_etaria)
```
Funções estatísticas úteis para análises exploratórias.
Ao realizar uma análise exploratória, alguns cálculos são utilizados frequentemente: média, mediana, desvio padrão, entre outros. O R possui comandos úteis, para que você possa de maneira rápida e automática obter os dados necessários.
Além das operações que comentei, mostro a seguir também, o summary que exibe um resumo do conjunto de dados, com informações do menor e maior número do conjunto, o primeiro, segundo e terceiro quartil, além de média e mediana.
```{r}
# Conjunto que armazenei em um vetor para os cálculos a seguir
conjunto <- c(0, 30, 32, 44, 44, 40, 41, 65, 25, 26, 25, 25, 27, 28, 20, 20)
# Média
mean(conjunto)
# Mediana
median(conjunto)
# Moda - o comando table, vai mostrar o número mais frequente
table(conjunto)
# Variância
var(conjunto)
# Desvio padrão que mede a distância dos pontos a partir da média
sd(conjunto)
# Apresenta os quartis do conjunto
quantile(conjunto)
# Sumário apresenta um resumo do conjunto
summary(conjunto)
```
Resultados
[1] 30.75
[1] 27.5
conjunto
0 20 25 26 27 28 30 32 40 41 44 65
1 2 3 1 1 1 1 1 1 1 2 1
[1] 202.4667
[1] 14.22908
0% 25% 50% 75% 100%
0.00 25.00 27.50 40.25 65.00
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 25.00 27.50 30.75 40.25 65.00
Ao carregar uma base de dados, pode ser importante navegar por ela, para ser possível estudar um pouco e tomar conhecimento de suas características.
O head ajuda você a ver os primeiros registros da base, o tail os registros finais.
head(iris)
tail(iris)
Para filtrar registros, você pode usar o filter. Perceba que no comando a seguir, eu determino que devem ser exibidos todos os registros de Iris, na variável Sepal.Lenght que tenham o registro 6.7.
filter(iris, Sepal.Length == "6.7")
Nesse artigo minha preocupação foi em mostrar aqueles comandos que entre os básicos são também populares quando se trata da rotina de trabalho. Recomendo que o estudante em R procure outros, pois existem diversos. Um livro interessante para se aprofundar é o R para Data Science.
Até lá!
Excelente conteúdo, continue com a sua proposta.
Obrigado pela força!