O dia-a-dia dos profissionais que trabalham com Big Data é extremamente desafiador. Pois além de conhecimentos técnicos para aplicar sobre dados, a maior parte do trabalho está na mineração dos mesmos. Então aplicar boas técnicas se torna necessário para realização do trabalho. Neste post vamos conhecer a mais usada: a CRISP-DM.
O seu nome por extenso é o Cross Industry Standard Process for Data Mining em português algo como Processo Padrão Inter-Indústrias para Mineração de Dados e surgiu em 1996. Esse processo apresenta 6 etapas sugeridas, não obrigatórias e não encadeadas, que ajudam os profissionais na realização de suas atividades. Os seus apoiadores iniciais foram: a Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation e OHRA.
Passos da CRISP-DM. Fonte: LEMOS, Jorge Luiz Cavalcante. |
As suas etapas preconizam sempre a compreensão inicial do problema de negócios e incentiva a revisar sempre as atividades antes da entrega do passo final. Vamos ver suas etapas:
1. Business Understanding
Na primeira fase da CRISP-DM, deve ser identificado o problema negocial que quer resolver. São definidos então a situação atual do problema e como o projeto vai ser direcionado para soluciona-lo; O objetivo geral e as métricas de sucesso.
2. Data Understanding
Nesta tarefa, o profissional deve ter bastante cuidado, pois coletar e tratar o dado é uma tarefa responsável por mais de 70% do tempo gasto em um projeto e é exatamente sobre isso que essa fase e a próxima dizem respeito. Aqui, é coletado, descrito— usando estatísticas — , explorado e verificado a qualidade do dado.
3. Data Preparation
Nessa faseo profissional prepara os dados para a modelagem. São realizados a seleção dos dados, a limpeza e padronização, criação de dados auxiliares para complementar o entendimento e a integração de dados, quando estes estão em bases distintas.
4. Modeling
Neste quarto momento, são selecionadas e aplicadas as técnicas de mineração de dados mais apropriadas, dependendo dos objetivos identificados na primeira fase. Como o uso de análise preditiva ou prescritiva.
5. Evaluation
Hora de avaliar os resultados do modelo. É um passo que deve ser feito constantemente para validar o modelo com os objetivos definidos antes de passar para o ultimo passo.
6. Deployment
Nesta fase final é hora de colocar o modelo em produção, para que possa ser usado. É importante salientar que uma vez entregue o modelo deve ser monitorado para que ele possa continuar útil e evoluir-lo quando necessário.
Fontes:
https://paulovasconcellos.com.br/crisp-dm-semma-e-kdd-conhe%C3%A7a-as-melhores-t%C3%A9cnicas-para-explora%C3%A7%C3%A3o-de-dados-560d294547d2.
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining.
http://www.bigdatabusiness.com.br/se-voce-se-interessa-por-big-data-precisa-entender-o-crisp-dm
Nenhum comentário:
Postar um comentário