data center

Como a Governança de Dados garante a qualidade das análises e protege os ativos da empresa

O maior patrimônio da sociedade hoje é, sem dúvida, a informação. Basta notar as transformações diárias e a capacidade que os dados têm de influenciar nossa existência, que se torna cada vez mais dependente do ambiente digital. Há quem, como o matemático Clive Humby, arrisque-se a afirmar que os dados são o novo petróleo. 

Mas como o petróleo, os dados precisam ser refinados, pois sem refino, não têm a viabilidade comercial que se pretende, uma vez que não são ainda informações. Assim como o petróleo, os dados estão na natureza, na nossa vida, nas coisas que fazemos e produzimos. São fatos consumados que ainda estão sem contexto e precisam ser tratados. Precisam ser armazenados com cuidado, pois são caros e como o petróleo, inflamáveis, pois se vazar, o operador do dado pode receber multas e sanções pesadas.

Esses dados têm tanto valor que os índices de crimes virtuais crescem continuamente — afinal, informações pessoais e financeiras são hoje o principal insumo para fraudes digitais.

A transição dos dados empresariais do meio físico (departamentos, arquivos e envelopes de papel) para o digital (sistemas e servidores) transformou-os em ativos valiosos. Quando esses dados são coletados, processados e analisados, eles se convertem em ricas fontes de informação e conhecimento, proporcionando uma vantagem competitiva significativa para a organização.

Este artigo visa discutir a Governança de Dados (GD) e seu potencial para contribuir de forma significativa para os processos de business intelligence (BI) e ciência de dados.

O que é a Governança de Dados?

A Governança de Dados (GD) concentra-se primordialmente na gestão dos dados de uma empresa, abrangendo todo o ciclo, desde a aquisição até o descarte. Conforme Rêgo (2020), a GD funciona como um exercício de autoridade dentro da organização — ela implementa políticas, padrões e processos para transformar dados em ativos gerenciáveis. Dentro da estrutura organizacional, a Governança de Dados está subordinada à Governança Corporativa, devendo submeter suas diretrizes à supervisão estratégica desta última.

Mais do que um conjunto de regras e normas, a Governança é uma disciplina fundamental dentro do negócio que visa estabelecer uma cultura para o tratamento de dados e informações. Essa cultura conecta os diversos atores e define as possibilidades de utilização desses ativos, incluindo o uso dos insumos gerados pela operação da empresa para fins de Business Intelligence.

Mas o cuidado com os dados é realmente tão essencial? Certamente que sim! Se considerarmos os dados como o novo petróleo, eles exigem um tratamento rigoroso:

  • Localização: assim como o petróleo, os dados surgem naturalmente, gerados pelo volume de operações globais, em aplicativos, redes sociais e outros.
  • Refino: sem o devido processamento e refinamento, os dados não adquirem valor comercial. Um dado refinado constitui um ativo, capaz de ser empregado em benefício da gestão estratégica e das iniciativas comerciais da empresa.
  • Gestão e armazenamento: é necessário gerenciar e armazenar esses ativos, o que representa um custo considerável.
  • Segurança (Inflamabilidade): um ponto crucial: os dados são “inflamáveis”. Um vazamento descontrolado pode “pegar fogo”, ou seja, provocar desastres e prejuízos significativos para as empresas, apesar de serem ativos valiosos.

O ciclo de vida do dado

Embora se possa pensar que um dado simplesmente “entra” em uma organização, é mais preciso entender que ele surge, originado de um fato ou evento pré-existente. Eu costumo dizer aos meus alunos que os dados estão, de fato, “na natureza”. O que realmente mudou ao longo do tempo foi a nossa capacidade humana de catalogar e armazenar esses dados. Portanto, o processo é: um fato consumado (seja na natureza, em um processo de fábrica ou em uma visita a um site) é o que gera o dado.

ciclo de vida do dado dentro da governança de dados

O ciclo de vida dos dados é fundamental para uma boa Governança. Ele engloba as seguintes fases:

  1. Entrada: é o momento em que o dado, após ser gerado, ingressa em um sistema. Nesta fase, ele é submetido a um processamento inicial para ser integrado às normas e padrões da organização.
  2. Processamento: esta etapa visa a padronização dos dados conforme as regras internas da empresa (por exemplo, formatos de caracteres, tipos de dados, casas decimais). Envolve ajustes, correções e descarte de informações que não podem ou não devem ser utilizadas, muitas vezes para atender a regulamentações vigentes, como as relacionadas a dados pessoais e sensíveis.
  3. Distribuição: os dados processados são disponibilizados, geralmente em bancos de dados, para serem acessados e consultados por analistas. A consulta é feita por meio de comandos SQL ou interfaces prontas. Este é um ponto crítico em muitas organizações: a ausência de uma governança de dados robusta pode levar a diferentes interpretações do mesmo dado por diversos stakeholders, devido à falta de um sistema unificado de distribuição e de metadados claros que definam seu uso correto e restrições.
  4. Utilização: são empregados em análises nos níveis operacional, tático e estratégico, com o objetivo de gerar benefícios para a empresa. Como as travas e limites (que garantem a “legalidade” do dado) já foram estabelecidos nas fases anteriores (processamento e distribuição), o acesso durante a utilização é restrito, permitindo que cada usuário consulte apenas o que lhe é permitido pela política de governança.
  5. Descarte: frequentemente ignorada, esta é uma fase crucial, especialmente em empresas com processos de governança imaturos. Manter grandes volumes de dados armazenados gera custos significativos (o que pode, em algumas experiências, atingir centenas de milhares em armazenamento). É vital definir o que é necessário captar e manter. Por que armazenar dados sensíveis, por exemplo, se a legislação impede sua análise futura? Isso gera custo de armazenamento e, principalmente, risco de vazamento. O descarte de dados não utilizados precisa ser formalmente reconhecido e implementado como parte prática do ciclo de vida dos dados.

Desafios da Governança de Dados

São inúmeros os fatores, de modo que um único artigo não seria capaz de abordar todos. Contudo, baseando-me em minha experiência profissional, considero que os principais desafios residem na quantidade e diversidade dos dados atualmente disponíveis, na tipificação desses dados e, inegavelmente, na qualidade, um aspecto crucial!

Quantidade e diversidade dos dados

Este é um dos maiores desafios que enfrento e observo diariamente no mundo do trabalho: a má gestão do ciclo de vida dos dados. Muitas equipes de análise de dados, embora preocupadas com a análise em si, frequentemente ignoram as etapas iniciais cruciais desse ciclo.

O ciclo de vida ideal dos dados é: Entrada > Processamento > Distribuição > Utilização > Descarte.

O problema surge quando equipes começam a operar diretamente nas fases de Distribuição e Utilização. Imagine ter dados de diversas fontes, com metodologias de coleta e atualização variadas. Distribuir esses dados sem um processamento prévio é como tentar comer um peixe direto do rio — cru, sujo e cheio de espinhos. Possível? Talvez. Eficiente e seguro? Definitivamente não.

Multiplique esse cenário caótico por inúmeras fontes de dados, com diferentes formatações, sistemas decimais, etc. É o equivalente a tentar construir uma casa começando pelo telhado. O processamento inadequado ou ausente compromete a qualidade e a utilidade de toda a análise subsequente.

A governança define, por meio de comitês, as diretrizes para a gestão dos dados. Essas diretrizes abrangem a forma como os dados devem ser capturados, armazenados, categorizados e integrados, além de endereçar aspectos cruciais como segurança e qualidade dos dados.

Qualidade de dados

Qualidade de dados refere-se ao grau em que as informações são confiáveis, completas, consistentes, atuais e válidas para dar suporte às decisões de negócio. Em outras palavras, dados de qualidade representam a realidade de forma correta e podem ser utilizados com segurança em análises. Na prática, isso significa ter informações precisas, sem erros ou duplicidades, e alinhadas entre as diversas fontes (como GA4, CRM e BI), o que, por sua vez, reduz o retrabalho, aumenta a precisão analítica e melhora a tomada de decisões.

O problema atual reside na coleta inadequada de dados, seja por falhas na captação, instalação incorreta de ferramentas ou, principalmente, pela ausência de uma governança de dados que defina regras claras para a captação. Consequentemente, muitos dados são coletados com problemas de acurácia, e mesmo após o processamento, permanecem incorretos.

É evidente o risco de tomar decisões fundamentadas em dados falhos, pois isso pode levar a ações desastrosas para o negócio.

Classificação de dados

A classificação de dados é um conceito fundamental na ciência da computação e na gestão da informação, sendo crucial para a organização, processamento e análise eficientes de grandes volumes de informações. Atualmente, o universo dos dados é vasto e diversificado, sendo classificado em diversas categorias que refletem suas características estruturais e seu potencial de uso. 

A diversidade dos tipos de dados representa um desafio significativo para as empresas, frequentemente gerando confusão no tratamento, armazenamento e uso. Por isso, classificar, tratar e armazenar os dados de forma adequada é fundamental.

Na minha experiência, percebo que a Governança de Dados frequentemente negligencia esse aspecto, o que compromete a qualidade. Eu aprendi, com a prática, que a melhor abordagem é iniciar o projeto com a criação de um dicionário de dados detalhado, que inclua o tipo de dado, suas classificações e subclassificações, e a forma como a organização o identifica. Essa iniciativa é crucial para prevenir problemas futuros.

📋
Modelo de Dicionário de Dados em Excel Planilha pronta com schemas, tipos, PK/FK, nulabilidade e exemplos de valor. Baixe gratuitamente e adapte ao seu projeto. Baixar Excel →

As três categorias principais e mais amplamente reconhecidas são:

  1. Dados estruturados: são dados que residem em um formato fixo e predefinido, sendo estritamente organizados de forma tabular. Eles são facilmente gerenciados por linguagens de consulta padronizadas, como o SQL (Structured Query Language), e geralmente são armazenados em bancos de dados relacionais (RDBMS).
    • Características: alta organização, seguem um esquema fixo (linhas e colunas), fácil pesquisa e análise.
    • Exemplos: informações em planilhas eletrônicas, dados transacionais (ID do cliente, valor da compra, data), registros em sistemas ERP e CRM.
    • Subcategorias:
      • Dados relacionais: aqueles que possuem relações bem definidas entre diferentes tabelas.
      • Dados de tabela: estruturas simples de linhas e colunas.
  2. Dados não estruturados: correspondem à vasta maioria dos dados gerados atualmente (estimativas sugerem mais de 80% do total). Eles não possuem um modelo de dados predefinido e não se encaixam facilmente em uma estrutura de banco de dados tradicional. Sua análise e processamento requerem ferramentas mais avançadas, como processamento de linguagem natural (NLP) ou algoritmos de machine learning.
    • Características: ausência de um esquema fixo, dificuldade de busca direta e processamento complexo.
    • Exemplos: e-mails, documentos de texto (Word, PDF), postagens em mídias sociais, imagens, vídeos, áudios e dados de sensores.
    • Subcategorias:
      • Dados de mídia: imagens, vídeos, áudios.
      • Dados textuais: documentos, e-mails, logs.
  3. Dados semi-estruturados (categoria intermediária): esta categoria representa o meio-termo. Os dados semi-estruturados não aderem a uma estrutura formal de banco de dados relacional, mas contêm tags ou marcadores que facilitam a separação e hierarquia dos elementos de dados.
    • Características: contém tags de metadados, estrutura flexível e auto-descritiva.
    • Exemplos: arquivos XML (eXtensible Markup Language) e JSON (JavaScript Object Notation), que são amplamente utilizados na comunicação de dados em aplicações web.

A compreensão dessas classificações é essencial para a definição das arquiteturas de armazenamento (Data Warehouses vs. Data Lakes), a escolha das ferramentas de análise e o desenvolvimento de estratégias de Big Data.

Frameworks de governança

Existem alguns frameworks, que podem ser implantados para facilitar o governo dos dados. Um framework é um conjunto de ferramentas, bibliotecas, diretrizes e boas práticas pré-definidas que servem como uma “base” para o desenvolvimento de algo mais complexo, sendo assim, fica mais fácil aplicar o governo dos dados na sua empresa.

  • DAMA (Data Management Association): é o modelo mais conhecido mundialmente. Ele estabelece as funções fundamentais da gestão de dados, como arquitetura, qualidade, metadados e segurança, frequentemente visualizadas em um diagrama circular (como o “DAMA Wheel”).
  • Modelo DMM (Data Management Maturity): focado na maturidade da gestão, este modelo é descrito como um dos mais adotados e reconhecidos globalmente. Ele ajuda as organizações a avaliarem seu nível atual de competência no tratamento de dados e a traçarem caminhos para melhoria.
  • IBM: o framework de governança de dados da IBM, fundamentado historicamente pelo seu Data Governance Council, é uma abordagem multidimensional que integra pessoas, processos e tecnologia para transformar dados em ativos confiáveis e seguros. Ele se estrutura em 11 categorias centrais — que abrangem desde a responsabilidade e qualidade até a conformidade e arquitetura — e é operacionalizado hoje através do conceito de Data Fabric no Cloud Pak for Data. Na prática, esse modelo utiliza artefatos como vocabulários de negócio, linhagem de dados e regras automatizadas para garantir que a informação seja descoberta, governada e protegida em escala, estendendo-se agora também para a governança de modelos de IA.
  • 5W2H: embora seja uma ferramenta de gestão genérica, é aplicada na governança para definir as responsabilidades e o escopo das ações (o que, quem, quando, onde, por que, como e quanto custa).

Como implantar a Governança de Dados?

No artigo Data Warehouse: Cruzamento de Dados e Inteligência abordei uma solução para resolver o problema de sistemas que não se comunicam e, com isso, aproveitar todo o potencial estratégico dos dados. Contudo, antes, é necessária a implantação de um projeto de Governança de Dados, para delimitar a utilização desses ativos na empresa, de modo que possa atender as devidas regulamentações.

  • Qual a situação atual? Para iniciar a implantação da Governança de Dados em uma empresa, é necessário entender qual a situação dela.
  • Faça um inventário dos dados existentes, os tipos, qual a qualidade deles, tudo pode ser organizado e observado através de um data mapping.
  • Segurança – também é necessária uma auditoria, para entender como é feita a proteção de dados, os requisitos de privacidade, etc. Aqui você poderá encontrar diversos problemas que precisarão ser corrigidos e observados, posteriormente, nos manuais de governança.
  • Avalie sistemas, usuários, responsáveis e as alçadas de aprovação. Investigue se há classificação de utilização dos dados, para determinar o que não está correto. Você poderá encontrar informações “correndo” por departamentos, sem muito controle, sem “pai e mãe”. Não hesite em corrigir esses problemas de imediato, afinal, o risco de segurança é alto.
  • Mapeie pessoas — defina claramente papéis e responsabilidades de cada envolvido para evitar confusão e sobreposição de funções.
  • Revise a arquitetura de dados existente — entenda o que é possível governar e promova os ajustes necessários como base da governança.
  • Monitore, crie meios de monitorar todos os dados a serem governados, isso é essencial para que exista o controle dos dados.

A governança atual ultrapassa a esfera técnica, exigindo a colaboração de diversas áreas da empresa, como comercial, administrativo e operacional. Para isso, é fundamental instituir um Comitê ou Escritório de Governança de Dados. Este grupo deve ter acesso irrestrito a todas as áreas da organização, com o propósito de propor e implementar melhorias contínuas.

Tenha uma estratégia

Eu digo sempre que toda missão dentro de uma empresa precisa incluir parceiros, patrocinadores, colaboradores que irão espalhar a cultura através dela.

A forma mais simples de espalhar a mensagem, é através de um comitê, que inclua representantes das áreas importantes da empresa, que façam parte da gestão e possam repassar as demandas desse grupo de trabalho.

Pelo menos nas fases iniciais, desenvolva um projeto, com uma agenda de tarefas. Use algum software para realizar a gestão das atividades, tenha prazos, responsáveis, para cada uma e um plano de monitoramento dessas atividades.

Considere envolver sua área de business intelligence nesse movimento, pois o fruto do trabalho de governança impactará totalmente na análise dos números da empresa.

Desenvolva manuais que sirvam como guias

Crie manuais sobre a utilização dos dados, com os limites de exploração, o objetivo de cada um, políticas de acesso, o que é ou não permitido. Isso será muito importante para a área de inteligência da organização, pois alguns procedimentos como a anonimização de alguns dados (processo que envolve não identificar uma pessoa), por exemplo, poderão ser necessários.

Considere regulações vigentes, como a Lei Geral de Proteção de Dados (LGPD) no Brasil, por exemplo. Na minha visão há um casamento entre LGPD e a GD, afinal, enquanto a lei regula as práticas de operação com dados pessoais, o outro governa os dados dentro de uma empresa delimitando sua utilização. 

O comitê ficará responsável por avaliar se as políticas de governança atendem aos regulamentos impostos pela lei, além de “levantar e analisar os processos de negócios que tratam de dados pessoais” (Barbieri, 2020, p. 200).

Aqui o ponto importante é: não engavetar esse trabalho. Faça auditoria para ver como as pessoas estão manipulando os dados da empresa, mas não com um caráter punitivo, e sim, educativo.

Lives e eventos internos também podem ser boas oportunidades para lembrar as pessoas de itens importantes da cultura de Governança de Dados.

Faça a gestão de riscos e oportunidades

Junto ao comitê, faça uma lista dos riscos e oportunidades. Riscos relacionados com a segurança e privacidade provavelmente serão permanentes, por isso a necessidade de uma mitigação adequada, que envolva culturalmente a empresa, ou seja, o DNA corporativo.

Certamente haverá muitas oportunidades de aproveitar o big data da empresa, então elas devem ser registradas nesse controle. Por isso, é tão importante o envolvimento dos responsáveis pela parte de inteligência de dados da empresa. Eles poderão colocar esses dados em um Data Warehouse e aproveitá-los para realizar cruzamentos, visualização através de programas como o Looker Studio ou PowerBi, além de elaborarem análises preditivas. Tudo, seguindo as normativas de GD.

Considerações importantes

A Governança de Dados (GD) é muito importante para que os processos de business intelligence da organização sejam explorados adequadamente.

Alguns autores usam a palavra limitar, mas eu prefiro usar a palavra “administrar”, quando se trata da relação dos dados com os processos de inteligência da organização, afinal, diz respeito à qualidade e possibilidades de utilização dos dados.

Pode-se concluir que qualquer projeto que envolva a utilização de dados em uma organização, seja para ações de business intelligence ou ciência de dados, precisa antes de políticas adequadas de Governança de Dados, para garantir os melhores cenários de utilização das informações geradas pela empresa.

Governança de Dados não é um projeto pontual — é uma jornada contínua de maturidade organizacional. Empresas que tratam seus dados como ativos estratégicos colhem benefícios diretos na qualidade das análises, na confiança das decisões e na conformidade regulatória. O primeiro passo é sempre o diagnóstico: você já sabe onde estão os dados da sua empresa?

FAQ

O que é Governança de Dados, em resumo?

Governança de Dados é o conjunto de políticas, processos e responsabilidades que uma organização adota para gerenciar seus dados como ativos estratégicos — desde a coleta até o descarte. Ela define quem pode acessar cada dado, como ele deve ser tratado, com qual qualidade e dentro de quais limites legais e éticos.

Qual a diferença entre Governança de Dados e LGPD?

São conceitos complementares, mas distintos. A LGPD (Lei Geral de Proteção de Dados) é uma regulamentação legal que estabelece obrigações sobre o tratamento de dados pessoais no Brasil. A Governança de Dados é uma disciplina organizacional interna que abrange todos os dados da empresa — pessoais ou não. Na prática, a GD fornece a estrutura para garantir que a empresa opere em conformidade com a LGPD, mas vai além: ela governa dados financeiros, operacionais, de mercado e qualquer outro ativo informacional do negócio.

Quais são as fases do ciclo de vida dos dados?

O ciclo de vida dos dados passa por cinco fases:
(1) Entrada — o dado é gerado por um fato ou evento e inserido em um sistema;
(2) Processamento — é padronizado, corrigido e adequado às regras da organização;
(3) Distribuição — é disponibilizado em bancos de dados para acesso pelos analistas;
(4) Utilização — é empregado em análises operacionais, táticas e estratégicas;
(5) Descarte — dados desnecessários ou que representam risco são removidos de forma formal e controlada.

O que é qualidade de dados e por que ela importa?

Qualidade de dados é o grau em que as informações são confiáveis, completas, consistentes, atuais e válidas para suportar decisões de negócio. Dados de baixa qualidade — duplicados, desatualizados ou inconsistentes entre fontes como GA4, CRM e BI — geram retrabalho, análises incorretas e decisões equivocadas. A Governança de dados é o mecanismo que garante padrões de qualidade ao longo de todo o ciclo de vida.

Por onde começar a implementar a governança de dados em uma empresa?

O ponto de partida é sempre o diagnóstico: mapear quais dados existem, onde estão armazenados, quem é o responsável por cada um e qual o nível atual de qualidade e segurança. A partir disso, recomenda-se formar um Comitê de Governança com representantes das áreas-chave, criar um dicionário de dados detalhado, estabelecer políticas de acesso e uso, e definir um plano de monitoramento contínuo. A governança se constrói de forma incremental — não é um projeto único, mas uma prática organizacional permanente.

O que é um dicionário de dados e qual sua importância na Governança?

Um dicionário de dados é um documento (ou repositório) que descreve cada dado da organização: seu nome, tipo, formato, origem, responsável, regras de uso e restrições. Ele é o alicerce da governança porque elimina ambiguidades — diferentes áreas deixam de interpretar o mesmo campo de formas distintas. Na prática, é o primeiro artefato a ser criado em qualquer projeto de governança ou BI bem estruturado.

Referências.

Business Intelligence e análise de dados para gestão do negócio. Ramesh Sharda, Dursun Delen, Efraim Turban. Quarta Ed. Porto Alegre: Bookman, 2019.

Governança de Dados: Práticas, conceitos e novos caminhos. Barbieri, Carlos. Rio de Janeiro: Alta Books, 2020.

Simplificando a Governança de Dados: governe os dados de forma objetiva e inovadora. Rêgo, Bergson Lopes. Brasport. Rio de janeiro, 2020.