Antes de adentrarmos no universo de Big Data Analytics, a condição sine qua non é que entendamos alguns conceitos básicos. Inicialmente, serão os abordados aqui: Business Intelligence (a.k.a BI), Data Warehouse (DW) e Big Data (BD). A ideia é trazer uma introdução dos principais conceitos que serão abordados quando formos nos aprofundando no tema pois, embora os conceitos possam parecer simples, eles costumam ser confundidos.
Então, vamos iniciar com Data Warehouse (Armazém de Dados, em português) que consiste em um sistema computacional utilizado para armazenar informações - advindas de diversas fontes - referentes a uma organização específica em bancos de dados de forma organizada e estruturada, possibilitando a criação de relatórios e análises. Um DW busca melhores análises de eventos passados para auxiliar nas presentes e futuras tomadas de decisões e, hoje, por sua capacidade de condensar e analisar os grandes volumes de dados, é a base dos principais sistemas de BI do mercado.
Imgem 1 (Solver)
A imagem acima, embora seja de um DW especifico ilustra bem a ideia geral. No nível mais baixo se encontram as fontes de dados, os sistemas CRM e ERP (sistemas de gestão) e outras fontes que, após os dados passarem por um processo ETL (Extract, Transform and Load) - extração, transformação e carregamento de dados de diferentes fontes de forma que alimentem o DW de forma homogênea e concisa -, são apresentados no nível mais acima já como informações.
Imagem 2 (Siteware)
E, por fim, temos Big Data (Mega Dados, em uma tradução livre) que, embora tenha um conceito bem mais amplo, caracteriza-se pelo imenso volume de dados. Embora haja discordâncias a respeito do número de v's, o conceito que será apresentado aqui será o de 3, conceito este que se baseia em:
- Volume
Já passamos a muito dos terabytes, petabytes e outros volumes gigantescos de dados são gerados diariamente. Plataformas como o Hadoop já trabalham em escala petabyte. - Velocidade
Aqui, diferente dos DW onde a maior parte dos projetos tem um delay de um dia (latência D-1) no carregamento dos dados, há a necessidade de ser o mais próximo do tempo real possível, a depender do negócio, quando o foco é medicina, aviação ou outras áreas sensíveis velocidade é imprescindível. - Variedade
Novamente diferindo dos DW, os dados possuem muita variação podendo haver dados estruturados, semi ou não estruturados, enquanto os DW apenas dados estruturados.
Imagem 3 (ResearchGate)
Os outros 2 v's são de veracidade e valor, respectivamente. Entretanto, há discussões sobre o mérito da veracidade e do valor para a definição do que seria Big Data, a IBM (International Business Machines) por exemplo, considera 4 como mostra a imagem abaixo.
Imagem 4 (IBM)
Referências:
https://www.cetax.com.br/blog/diferenca-bi-dw-data-science-big-data
https://www.cetax.com.br/blog/dw-data-warehousing
https://guiaempreendedor.com/qual-diferenca-entre-erp-e-crm
https://www.devmedia.com.br/extract-transformation-and-load-etl-ferramentas-bi/24408
https://br.udacity.com/blog/post/o-que-e-bi
https://www.siteware.com.br/gestao-estrategica/o-que-e-bi-business-intelligence/
https://www.cetax.com.br/blog/big-data
https://www.cetax.com.br/blog/dw-data-warehousing
https://guiaempreendedor.com/qual-diferenca-entre-erp-e-crm
https://www.devmedia.com.br/extract-transformation-and-load-etl-ferramentas-bi/24408
https://br.udacity.com/blog/post/o-que-e-bi
https://www.siteware.com.br/gestao-estrategica/o-que-e-bi-business-intelligence/
https://www.cetax.com.br/blog/big-data
Gostei do texto, aprendi bastante. Realmente há muita confusão entre os conceitos e principalmente no que se refere à Big Data, pois muita gente acha que tudo que possui grandes dados ou qualquer tipo de dados já é um big data. E o mais legal é que os três se complementam, né? Podemos ter os três ligados entre si.
ResponderExcluirBI de fato é o diferencial que pode tornar uma empresa competitiva ou não dentro desse contexto atual.
ResponderExcluirO texto me parece bem objetivo, no entanto, me gerou a seguinte dúvida: a principal diferença entre o Big Data e o Data Warehouse seriam a capacidade de armazenamento e os tipos de dados(estruturados ou não)?
ResponderExcluirO Data Warehouse apesar de sua capacidade de armazenamento, é melhor para o BI por tratar de dados estruturados?
Então, as principais diferenças se enquadram na definição de BD mesmo, que seriam velocidade, volume e variedade. Com relação a DW ser melhor pra BI, é uma questão mais ampla porque depende dos objetivos de cada organização. O DW é mais utilizado pelas empresas por ser um conceito mais antigo, satisfazer suas necessidades e custar bem menos, ele geralmente trabalha com informações internas da organização. Já o BD tem maior destaque com análise e comparação de grande volume de dados, caso a organização esteja buscando se tornar mais competitiva no mercado por exemplo. Se puder, da uma olhada na postagem sobre o DBA, pode esclarecer um pouco melhor algumas diferenças.
Excluir