domingo, 17 de fevereiro de 2019



A palavra cientista diz muito sobre o trabalho: "É preciso criar uma hipótese, desenhar um experimento e rodá-lo para validar ou refutar", diz Carlos Souza, diretor-geral da escola virtual Udacity.


"Há uma demanda grande, e o sistema educacional não consegue formar o número necessário de pessoas. Tem muitas vagas", diz Vicente., cientista de dados da Serasa Experian


Essa situação levou André Luiz da Costa, formado em economia, a mudar da área comercial para a de inteligência de negócios no Gympass depois de fazer um ano de cursos na Udacity. "É uma área nascente no Brasil, com muito potencial."


Outros países têm cursos de graduação na área, aponta Vicente. "Aqui estamos um pouco lentos."


A capacidade de resumir bilhões de registros de dados em um único gráfico e ajudar os tomadores de decisão é quase uma arte!

Você deve dominar uma ferramenta de análise estatística. Linguagens R e Python são soluções gratuitas e amplamente utilizadas por Cientistas de Dados em todo o mundo. Soluções proprietárias como SAS, Stata e SPSS são também boas opções. É preciso dominar técnicas de análise de dados, Data Munging, Pré-processamento e algoritmos de Machine Learning. Conhecimento sobre soluções de armazenamento e processamento de Big Data como Hadoop, Spark e bancos de dados NoSQL ajudam durante o processo de análise. E claro, este profissional deve ser capaz de se comunicar verbalmente e visualmente para contar a história que os dados querem dizer.






Big Data assim como todas as áreas de computação possui um terreno muito vasto. O primeiro passo que deve ser feito antes de começar a mapear o que é preciso estudar para se tornar um bom profissional, é descobrir qual profissional você quer se tornar. No post de hoje vamos tentar clarear um pouco mais quais são algumas das possíveis áreas de atuação dentro do ramo do Big Data.




1. Engenheiro de Dados

Eles desenvolvem, constroem, testam e mantêm arquiteturas, tais como bancos de dados e sistemas de processamento de dados em grande escala.


2. Engenheiro de Big Data

Esta carreira é uma extensão da carreira de Engenheiro de Dados, mas, com foco em Big Data. Montar uma infraestrutura para armazenamento e processamento de grandes conjuntos de dados não é tarefa fácil.


3. Arquiteto de Soluções de Big Data

Arquitetos de dados criam projetos para sistemas de gestão de dados. Depois de avaliar potenciais fontes de dados da empresa (interna e externa), os arquitetos projetam um plano para integrar, centralizar, proteger e manter esses dados.

Isso permite que os funcionários acessem informações críticas no lugar certo e na hora certa. A arquitetura da solução de Big Data projetada por este profissional, será implementada pelo Engenheiro de Dados ou Engenheiro de Big Data.



4. Cientista de Machine Learning

Este profissional trabalha com pesquisa e desenvolvimento de algoritmos que são usados para criar sistemas inteligentes.


5. Engenheiro de Machine Learning

Enquanto o Cientista de Machine Learning tem como objetivo pesquisar e desenvolver novos algoritmos, o Engenheiro de Machine Learning tem como objetivo aplicar esses algoritmos e criar soluções.


6. Especialista em Business Analytics (Analista de Negócios)

O principal objetivo do analista de negócios é ajudar as empresas a implementar soluções de tecnologia de uma forma eficaz em termos de custo, e assim, determinar os requisitos de um projeto ou programa e comunicá-los claramente aos interessados, facilitadores e parceiros.


7. Desenvolvedor de Visualização de Dados

A habilidade de converter em um único gráfico ou Dashboard o que Petabytes de dados estão dizendo é quase uma arte e são muitas as técnicas e ferramentas disponíveis para este fim.


8. Gerente de Analytics

O Gerente de Analytics é o responsável pela equipe de análise de dados. Ele coordena o design, a configuração e a implementação de soluções de análise de dados, desde a infraestrutura, até a definição de ferramentas e processos de análise de dados. Fazer a gestão de projetos de Big Data não é tarefa simples e o gestor precisa ter habilidades de liderança e conhecimento técnico para compreender os desafios inerentes ao Big Data.


9. Estatístico

A função deste profissional é aplicar técnicas estatísticas para a compreensão dos dados e ajudar as empresas a identificar tendências, fazer previsões e tomar decisões baseadas em dados.


10. Cientista de Dados

Cientistas de dados são os grandes mineradores de dados. Eles recebem uma enorme massa de dados desorganizados (estruturados, semi-estruturados ou não-estruturados) e usam suas habilidades em matemática, estatística e programação para limpar, tratar, transformar e organizar esses dados. Em seguida, eles aplicam suas capacidades analíticas – conhecimento de negócio, compreensão contextual, ceticismo de suposições existentes e algoritmos de Machine Learning – para descobrir soluções para os problemas de negócios e contribuir na tomada de decisões e estratégias empresariais. Essa profissão é relativamente nova e pelo quarto ano seguido é a profissão em maior demanda nos EUA, com a remuneração anual superior a 100 mil dólares. Cientistas de Dados são profissionais que sabem muito sobre muitas coisas e sua experiência é fundamental para a construção de aplicações inteligentes e análise de Big Data.

 Big Data é uma tendência de mercado mundial, para todos que não querem ficar de fora e pensa em mergulhar e aprender mais sobre a área segue uma lista de locais onde é possível começar a estudar.





1) Fundamentos de Data Science I


Sobre: Nesse curso online, o aluno dará o primeiro passo rumo à carreira de cientista de dados. Ele aprenderá a fazer análises rápidas e precisas com Python, conseguindo enxergar oportunidades de gerar novos negócios.

Quem oferece: Udacity

Preço: R$ 539,00

2) Data Science: Visualização

Sobre: Você aprenderá com um instrutor da Harvard University quais são os princípios de visualização de dados para comunicar resultados de forma precisa, motivar análises e detectar falhas.

Quem oferece: edX

Preço: gratuito ou $49,00 para adquirir o certificado

3) As ferramentas do Cientista de Dados

Sobre: Ao longo de quatro semanas, o curso apresentará quais as principais ideias e ferramentas nas quais se baseiam essa área de atuação. Os exercícios práticos envolvem linguagens e frameworks como markdown, git, GitHub, R e RStudio

Quem oferece: Coursera

Preço: gratuito

4) Introdução à Ciência de Dados

Sobre: O curso ensinará como manipular dados, trabalhar com big data e realizar uma comunicação clara a partir da visualização de informações, possibilitando que o aluno experimente e aplique as técnicas básicas da ciência de dados.

Quem oferece: Udacity

Preço: gratuito

5) Microsoft Power BI para Data Science

Sobre: Esse conjunto de ferramentas de Business Analytics fornece insights para empresas e tomadores de decisão. O curso ensina a produzir relatórios profissionais e a publicá-los para consumo online (web e mobile), além de explicar como criar dashboards personalizados.

Quem oferece: Data Science Academy

Preço: gratuito

6) Data Science para Negócios

Sobre: Com este curso, você aprenderá técnicas avançadas de coleta, tratamento e análise de dados para gerar insights e criar soluções de negócio inovadoras, além de construir seus primeiros modelos de machine learning.

Quem oferece: Udacity

Preço: R$ 1.999,00

7) Big Data e Data Science

Sobre: O curso presencial utiliza o software R para análise de dados, tornando o aluno apto a trabalhar com grandes bases de informação. Ele também conhecerá a linguagem Python, saberá visualizar dados, criará relatórios dinâmicos e aprenderá sobre estatística e machine learning.

Quem oferece: FGV (Rio de Janeiro)

Preço: R$ 8.015,00

sábado, 16 de fevereiro de 2019



Apresentação de slides com algumas informações arrecadas a partir de pesquisas e estudos sobre a temática de Big Data.


terça-feira, 12 de fevereiro de 2019

Olá pessoal, como vão?

O dia-a-dia dos profissionais que trabalham com Big Data é extremamente desafiador. Pois além de conhecimentos técnicos para aplicar sobre dados, a maior parte do trabalho está na mineração dos mesmos. Então aplicar boas técnicas se torna necessário para realização do trabalho. Neste post vamos conhecer a mais usada: a CRISP-DM.


O seu nome por extenso é o Cross Industry Standard Process for Data Mining em português algo como Processo Padrão Inter-Indústrias para Mineração de Dados e surgiu em 1996. Esse processo apresenta 6 etapas sugeridas, não obrigatórias e não encadeadas, que ajudam os profissionais na realização de suas atividades. Os seus apoiadores iniciais foram: a Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR Corporation e OHRA.


Passos da CRISP-DM.
Fonte:
  LEMOS, Jorge Luiz Cavalcante.  
            

As suas etapas preconizam sempre a compreensão inicial do problema de negócios e incentiva a revisar sempre as atividades antes da entrega do passo final. Vamos ver suas etapas:

1. Business Understanding

Na primeira fase da CRISP-DM, deve ser identificado o problema negocial que quer resolver. São definidos então a situação atual do problema e como o projeto vai ser direcionado para soluciona-lo; O objetivo geral e as métricas de sucesso.

2. Data Understanding

Nesta tarefa, o profissional deve ter bastante cuidado, pois coletar e tratar o dado é uma tarefa responsável por mais de 70% do tempo gasto em um projeto e é exatamente sobre isso que essa fase e a próxima dizem respeito. Aqui, é coletado, descrito— usando estatísticas — , explorado e verificado a qualidade do dado.

3. Data Preparation

Nessa faseo profissional prepara os dados para a modelagem. São realizados a seleção dos dados, a limpeza e padronização, criação de dados auxiliares para complementar o entendimento e a integração de dados, quando estes estão em bases distintas.


4. Modeling

Neste quarto momento, são selecionadas e aplicadas as técnicas de mineração de dados mais apropriadas, dependendo dos objetivos identificados na primeira fase. Como o uso de análise preditiva ou prescritiva.

5. Evaluation

Hora de avaliar os resultados do modelo. É um passo que deve ser feito constantemente para validar o modelo com os objetivos definidos antes de passar para o ultimo passo.

6. Deployment

Nesta fase final é hora de colocar o modelo em produção, para que possa ser usado. É importante salientar que uma vez entregue o modelo deve ser monitorado para que ele possa continuar útil e evoluir-lo quando necessário.



Fontes: 
https://paulovasconcellos.com.br/crisp-dm-semma-e-kdd-conhe%C3%A7a-as-melhores-t%C3%A9cnicas-para-explora%C3%A7%C3%A3o-de-dados-560d294547d2.

https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining.

http://www.bigdatabusiness.com.br/se-voce-se-interessa-por-big-data-precisa-entender-o-crisp-dm



domingo, 10 de fevereiro de 2019




Quem quer emprego aí? 

Como vimos em posts anteriores a Big Data já permeia o nosso mundo e extrair bons produtos desse mar de dados exige técnica, criatividade e conhecimento em áreas de negocio, tecnologia e matemática. Entre as vias de atuação,evolvem cargos pré-existentes remodelados ou novos,  sendo que  podemos classificar de três maneiras:Administrador, Desenvolvedor e Cientista ou Analista de Dados.


Administrador

Responsável por manter os ambientes e ferramentas funcionando. Um profissional mais técnico que necessita de conhecimento em sistemas operacionais, principalmente em Linux, arquitetura de hardware e redes, a fim de, garantir melhor performance das ferramentas.  Nessa categoria se destaca o:
  • Engenheiro de Big Data : Esta carreira é uma extensão da carreira de Engenheiro de Dados, mas, com foco em Big Data.  Responsável por montar uma infraestrutura para armazenamento e processamento de grandes conjuntos de dados em Hadoop, Spark, Cassandra, Hive, Hbase, Pig, Sqoop, MongoDB e API de integração. Cada solução será apropriada para um projeto específico e cabe a este profissional provisionar o Big Data de modo que os  cientistas de dados possam aplicar seus modelos preditivos e resolver problemas de negócio. 





Desenvolvedor

Responsável por desenvolver os processos de captura, transformação e carga de dados. O perfil do profissional tende a exigir conhecimentos de programação e das ferramentas utilizadas nos processos. Além disso, desenvolve novas rotinas e processos relacionados as necessidades de negócio. Dentre os cargos se encontram:

  • Engenheiro de Machine Learning: Seu foco está em criar uma solução de software que permita resolver um problema de negócio através de modelos preditivos. Enquanto o Cientista de Machine Learning tem como objetivo pesquisar e desenvolver novos algoritmos, o Engenheiro de Machine Learning tem como objetivo aplicar esses algoritmos e criar soluções. Aplicar algoritmos de Machine Learning implica em conhecimento de Matemática, Estatística, procedimentos de limpeza e pré-processamento de dados e pelo menos uma linguagem ligada a Ciência de Dados, como R ou Python.
  • Desenvolvedor de Visualização de Dados: Tem a  habilidade de converter em um único gráfico ou Dashboard o que Petabytes de dados estão dizendo. Próxima das habilidades artísticas esse profissional define como utilizar tabelas e relatórios junto com narrativas para apresentar a um público não técnico as conclusões de um projeto de análise de dados.







Cientista ou Analista 
Responsável por atender as demandas das áreas de negócio ou planejamento da empresa. Está mais ligada as áreas de negócios devendo ter o conhecimento das ferramentas de consulta e acesso aos dados, habilidades em estatística. Como profissões temos:

  • Cientista de Dados: São os grandes mineradores de dados. Eles recebem uma enorme massa de dados desorganizados (estruturados, semi-estruturados ou não-estruturados) e usam suas habilidades em matemática, estatística e programação para limpar, tratar, transformar e organizar esses dados. Em seguida, eles aplicam suas capacidades analíticas – conhecimento de negócio, compreensão contextual, ceticismo de suposições existentes e algoritmos de Machine Learning – para descobrir soluções para os problemas de negócios e contribuir na tomada de decisões e estratégias empresariais. 
  • Arquiteto de Soluções de Big Data: Arquitetos de dados criam projetos para sistemas de gestão de dados. Depois de avaliar potenciais fontes de dados da empresa (interna e externa), os arquitetos projetam um plano para integrar, centralizar, proteger e manter esses dados. Isso permite que os funcionários acessem informações críticas no lugar certo e na hora certa. A arquitetura da solução de Big Data projetada por este profissional, será implementada pelo Engenheiro de Big Data.
  • Cientista de Machine Learning: Este profissional trabalha com pesquisa e desenvolvimento de algoritmos que são usados para criar sistemas inteligentes. Eles constroem sistemas para recomendação de produtos ou para prever demandas em determinados produtos ou serviços e exploram Big Data para extrair padrões dos dados. Se você gosta de pesquisa e possui forte conhecimento em Matemática e Estatística, considere esta carreira como opção.
  • Especialista em Business Analytics (Analista de Negócios):  O principal objetivo desse profissional é ajudar as empresas a implementar soluções de tecnologia de uma forma eficaz em termos de custo, e assim, determinar os requisitos de um projeto ou programa e comunicá-los claramente aos interessados, facilitadores e parceiros.
  • Gerente de Analytics: É o responsável pela equipe de análise de dados. Ele coordena o design, a configuração e a implementação de soluções de análise de dados, desde a infraestrutura, até a definição de ferramentas e processos de análise de dados. Fazer a gestão de projetos de Big Data não é tarefa simples e o gestor precisa ter habilidades de liderança e conhecimento técnico para compreender os desafios inerentes ao Big Data.
  • Estatístico: Embora a profissão de Estatístico não seja nova, está sendo reinventada pelo grande volume de dados e pelas novas ferramentas e soluções ligadas ao Big Data. A função deste profissional é aplicar técnicas estatísticas para a compreensão dos dados e ajudar as empresas a identificar tendências, fazer previsões e tomar decisões baseadas em dados. Os estatísticos aplicam as teorias e métodos estatísticos para coletar, analisar e interpretar os dados. 

E os salários?

Segundo um estudo da Robert Half, o salário médio para o profissional de Big Data pode variar de R$ 6.000 a R$ 35.000. Outros dados interessantes vem dos EUA:

  • Empregos que exigem habilidades de aprendizado de máquina estão pagando uma média de US $ 114.000. Os empregos de cientista de dados anunciados pagam uma média de US $ 105.000 e os empregos de engenharia de dados anunciados pagam uma média de US $ 117.000.
  • 59% de toda a demanda de trabalho da Data Science and Analytics (DSA) é em Finanças e Seguros, Serviços Profissionais e TI.
  • A demanda anual por novos papéis em rápido crescimento de cientistas de dados, desenvolvedores de dados e engenheiros de dados atingirá quase 700.000 aberturas até 2020.
  • Até 2020, o número de empregos para todos os profissionais de dados dos EUA aumentará em 364.000 aberturas para 2.720.000, de acordo com a IBM.
  • Os trabalhos de Data Science e Analytics (DSA) permanecem abertos em média 45 dias, cinco dias a mais que a média do mercado.
  • A  Big Data Analytics vai gerar 10 milhões de oportunidades de trabalho em todo mundo na próxima década. Observando o mercado e a evolução massiva na adoção de soluções de Big Data. 

Vimos neste post que a área de Big Data é bem promissora e isso é só o começo :)




Fontes:
https://www.cetax.com.br/big-data-tudo-o-que-voce-precisa-saber/
https://www.forbes.com/sites/louiscolumbus/2017/05/13/ibm-predicts-demand-for-data-scientists-will-soar-28-by-2020/#37069e307e3b
http://datascienceacademy.com.br/blog/10-carreiras-em-big-data-e-data-science/