Data Science (ciência de dados em português), é um dos termos mais popularizados nos últimos anos. Nesta época, onde os dados são ativos valiosos para a tomada de decisão, será cada vez mais comum ouvir falar essa palavra. Nesse artigo vou tratar sobre esse assunto tão importante, quais as linguagens e ferramentas disponíveis no mercado.
O que é Data Science?
Filatro (2020, p. 14) define ciência de dados como a disciplina que fornece princípios, metodologias e orientações a partir dos dados. O objetivo é extrair conhecimento de grandes volumes de dados. O grande desafio é compreender comportamentos, por meio de análises, e finalmente, possibilitar a tomada de decisão.
Para que boas decisões sejam tomadas, é necessário que um ciclo seja seguido. Primeiro temos os dados em estado bruto, impuros, com muitos ruídos. São extraídos, carregados e transformados (ETL – extract, transform, load). Na sequência, os dados são analisados, com o objetivo de observar fatos e padrões. No topo da pirâmide, é realizada a compreensão da informação, concluindo o estado de esclarecimento e domínio.
O conhecimento precisa ter consistência, ser confiável, relevante, estar no contexto de hipótese e disponível.
Fawcett e Foster (2016), complementam, que data science é o conjunto de princípios fundamentais, que norteiam a extração de conhecimento a partir de dados. Para isso é necessário ter acesso a eles de maneira ampla e sofisticada, principalmente no caso de quantidades massivas, onde podem ser exigidas novas tecnologias e computadores com grande capacidade de processamento.
Sharda (et al, 2019) comenta que uma das características que dominam o cientista de dados, é a curiosidade, o desejo de ir além do problema. Insisto muito nisso em meus treinamentos, pois a capacidade analítica é requisito indispensável para obtenção do conhecimento através dos dados.
Dessa forma, algumas linguagens podem colaborar para as atividades do cientista de dados, fornecendo a capacidade de automatizar e construir modelos para o seu trabalho.
Linguagens mais comuns em Data Science
Existem algumas linguagens e ferramentas que são frequentemente mencionadas quando se trata de Data Science, como: R, Python, Power BI, Mongo DB, SQL, Tableau, entre outros. Basta olhar alguns dos conhecimentos exigidos em vagas para analistas dessa área e perceberá que muitas delas possuem esses termos nas suas descrições.
Python e R são linguagens de programação. Outros como PowerBI e Tableau são softwares que ajudam na visualização de dados. Nesse artigo vou me concentrar nas linguagens, já que elas são como “canivetes suíços”, para o cientista de dados.
A intenção não é criticar ou elogiar, é mostrar os pontos positivos de cada uma delas. Eu mesmo uso as duas. Para determinadas tarefas tenho modelos em Python, em outras situações o R me atende muito bem. Tudo depende do que você precisa e quando.
Python
O Python está entre as linguagens de programação mais utilizadas no mundo em virtude da sua facilidade de uso e de aprendizado (O’GRADY, 2020), sendo assim, pode ser tentador para algumas empresas escolherem essa linguagem.
São frequentemente adotadas em alguns times de desenvolvimento, em virtude da sua anatomia e facilidade de utilização, uma vez que ela possui o conceito do Zen of Python (SILVA, 2020, p. 96) que visa algumas práticas importantes no seu código. Tem foco na legibilidade e redução de custo de manutenção.
Possui algumas bibliotecas como: Matplotlib, IPython, NumPy, SimPy, Pandas, Scikit-learn e Beautiful Soup. Elas fornecem apoio para matemática, ciência, estatística e engenharia.
Quando eu uso o Python para executar tarefas, utilizo o Google Colab, excelente ferramenta para trabalhar, principalmente pela facilidade de integração com o Google Drive e outros recursos.
Portanto, muitos profissionais que adotam essa linguagem como padrão para pesquisas de Data Science, o fazem pela facilidade na hora de integrar seus modelos com aplicações já existentes na mesma linguagem.
Linguagem R
A linguagem R ajuda muito na coleta, normalização e exploração de dados. Igualmente ao Python, possui diversos pacotes que podem ser utilizados pelo analista, facilitando o seu trabalho. Pode ser usada para modelos de previsão de dados, machine learning, análise exploratória, decomposição de dados entre outras aplicações.
Seus comandos são muito simples, com alguns recursos já prontos, para o que o analista precisa. Já no Python, mesmo com suas bibliotecas, pode ser necessário construir algumas coisas. A impressão que eu tenho, é que como se trata de uma linguagem pensada para estatística, possui vantagens.
O R exige menos código para suas aplicações, portanto, é mais fácil no trabalho com fórmulas complexas (o que acaba sempre por acontecer em data science).
É importante comentar que existem excelentes ferramentas, que podem facilitar o trabalho do analista, como o RStudio e o Jupyter Notebooks.
Eu adoro o RStudio. É muito simples de usar, tem um sistema de recuperação de erros e ajuda, entre outros recursos, muito legais. Dessa forma, para realizar aplicações estatísticas, previsões e outras análises, eu acabo usando mais o R.
Conclusão
Com a quantidade massiva de dados gerado pelas empresas, às vezes não estruturados, ter boas ferramentas e linguagens que ajudem o analista a executar o seu trabalho eficientemente, pode colaborar para o seu trabalho.
Muitas vezes, as decisões não passam só por simples análises de toda a história que você contou através dos dados. O que acontece, é que análises exploratórias retratam o que já aconteceu, então, as previsões tornam-se importantes para que você possa pensar em cenários e oportunidades. É aí que entram o Python e o R, com os seus poderosos recursos, que apoiam previsões, cenários e acontecimentos.
Independente da linguagem ou ferramenta, que o analista vai escolher para trabalhar, é importante sempre ter em mente o que é necessário para solucionar o problema ou hipótese envolvida.
Trata-se de uma simples apresentação de dados? Talvez o Google Data Studio pode ajudá-lo. É a análise de dados de diversas fontes? O PowerBI pode cumprir muito bem essa tarefa. Precisa fazer uma mineração de dados e posteriormente a classificação de informações? MongoDB e Python serão ótimos recursos. Existe a necessidade de realizar previsões financeiras de um determinado mercado, para os próximos dois anos? O R possui bibliotecas que certamente possibilitam essas análises com base em modelos estatísticos.
Se o objetivo principal da ciência de dados é produzir conhecimento a partir de grandes volumes de dados, certamente será necessária a existência de sinergia entre pessoas, processos e tecnologias.
Referências
(Veja alguns livros que não podem faltar na sua biblioteca de data science)
Bussiness Intelligence e análise de dados para gestão do negócio. Ramesh Sharda, Dursun Delen, Efraim Turban. Quarta Ed. Porto Alegre: Bookman, 2019.
Data Science da Educação. Filatro, Andrea C. Editora Saraiva, 2020.
Data Science para Negócios. Foster Provost, Tom Fawcett. Rio de Janeiro: Alta Books, 2016.
Python: História e ascendência. SILVA, D. M. Programar: revista portuguesa de programação, ed 59, p. 96-98. Fev, 2018. Disponível em: https://www.revista-programar.info/static/downloads/download.php?t=site&e=59.
The RedMonk Programming Language Rankings: January 2020. O’GRADY, S. Fev, 2020. Disponível em: https://redmonk.com/sogrady/2020/02/28/language-rankings-1-20/.
Ainda estou engatinhando nessa materia.
O artigo expos ferramentas que eu nunca tinha ouvido falar e me ajudara a tomar decisoes para minha empresa.
Valeu Erick!