Carreiras na Ciência de Dados 4 — O ENGENHEIRO DE DADOS
O quarto integrante do time de Ciência de Dados é o que poderíamos chamar de “par ideal” do “Cientista de Dados”. Em algumas empresas o próprio Cientista de Dados acumula a função de “Engenheiro de Dados”. Isso é possível quando a empresa não lida com muitos projetos baseados em dados ou não tem pressa com os resultados…
Mas qual é a função do “Engenheiro de Dados”? Este é o profissional encarregado de coletar dados, validar a qualidade dos dados e prepará-los para consumo.
Quando falamos de um projeto de ciência de dados, o primeiro passo é identificar qual o problema que queremos resolver, o segundo é buscar as informações (dados) que precisamos para resolver o problema, esta etapa denominamos de “coleta de dados”.
Desenvolver códigos que possibilitem a extração de dados de Sistemas internos das empresas ou um rastreamento pela internet são atribuições do processo de coleta de dados e geralmente desenvolvidos pelo engenheiro de dados. Estes códigos são denominados “APIs” (em inglês Application Programming Interface), são interfaces de programação entre aplicativos.
Outra missão do engenheiro de dados é o tratamento e transformação dos dados, ou seja. Os dados devem ser preparados para o objetivo do estudo, a solução do problema de negócios.
Se estamos buscando identificar o perfil de cliente de um site de e-commerce, os dados relativos aos usuários da plataforma são a fonte mais rica para a análise correto? Se a base de dados que coletamos sobre os clientes contém poucos registros de clientes com todos os dados de perfil completos (informações como idade, localização, gênero, estado civil), não seria possível executar esse estudo. Mas se o engenheiro de dados identificar a média de idade entre os registros que estão completos e preencher com o valor dessa média os dados faltantes, teríamos um conjunto viável para fazer a primeira análise do perfil de cliente.
Esse tipo de solução, para viabilizar o estudo de uma massa de dados, é o trabalho que denominamos de tratamento e transformação de dados.
Normalmente o engenheiro de dados tem conhecimentos de métodos estatísticos para aplicar nesse processo de análise descritiva e exploratória dos dados, até chegar a um nível de qualidade de informação que possibilite a aplicação dos modelos estatísticos que vão gerar a solução de dados.
Cabe também ao engenheiro de dados avaliar a capacidade de armazenamento e o processo de atualização destes dados, criando funções de automação de processos, ou nos casos em que atuamos com captura de dados online e real-time, como dos objetos inteligentes (IoTs), carros autônomos, câmeras de segurança, equipamentos em geral. Toda arquitetura de coleta e tratamento desses dados são elaborados pelo engenheiro de dados.
Também cabe a ele estabelecer as regras de governança de dados, obedecer a regras legais, como das leis de proteção da privacidade de dados durante todo o processo de coleta, tratamento, armazenamento e destruição de dados.
Garantir também que os processos de coleta, tratamento e armazenamento são seguros o suficiente para não ocorrer vazamento de dados.
Como podem notar, quando falamos que o Cientista de Dados, por vezes acumula as duas funções, isso pode gerar uma sobrecarga de responsabilidades, o que em atividades de análise gera stress e maior incidência a erros.
Mas vamos aos conhecimentos necessários:
Hard Skills:
· Linguagem de programação SQL, Python, R são básicas;
· Arquitetura de Redes Privadas (VPNs) e ambientes de Nuvem (Cloud Computing);
· Ecossistema Hadoop (ambiente open source);
· Bancos de Dados estruturados e não estruturados (SQL, Oracle, DB2, MySQL, PostgreSQL, MongoDB, etc);
· Estatística básica;
· Leis de proteção de Dados (GDPR, LGPD);
Soft Skills:
· Criatividade e curiosidade;
· Pró ativo, autoconfiante e persistente;
· Ser disciplinado e organizado, pois atuará geralmente na solução de problemas complexos;
· Facilidade de comunicação em vários níveis. Terá que interagir com equipes técnicas e área de negócios, e ter a capacidade de comunicar com clareza e leveza é indispensável.
· Facilidade de trabalhar em grupo, pois seu trabalho tem impacto direto no trabalho do Cientista de Dados, devem trabalhar juntos, conciliando as linhas de raciocínio para solução do problema de negócios;
Sendo assim, esta é uma função crítica dentro do projeto de Ciência de Dados, pois este é o profissional que cuida da matéria-prima do projeto, “Os Dados”!
Na próxima semana falaremos sobre a estrela do grupo, “O Cientista de Dados”!
Fontes:
· Data Science Academy — http://datascienceacademy.com.br/blog/o-que-faz-um-engenheiro-de-dados/
· Ecossistema Hadoop — https://hadoop.apache.org/
· Lei de Proteção de Dados Brasil — LGPD — https://www.lgpdbrasil.com.br/
· General Data Protection Regulation (GDPR) Europa — https://gdpr-info.eu/
· O quer é Cloud Computing — https://www.techtudo.com.br/artigos/noticia/2012/03/o-que-e-cloud-computing.html
** Este texto não reflete, necessariamente, a opinião da Escola de IA