quinta-feira, 21 de março de 2019

Olá, pessoal.
Nesta publicação estamos compartilhando o documento do Plano de Projeto de Software que elaboramos para o Portal de Ingressos da UFS.
Boa leitura.

segunda-feira, 18 de março de 2019

Em uma organização, tão importante quanto ter boas fontes para a obtenção de dados são a classificação e a interpretação que serão aplicadas a eles. Matemáticos, estatísticos, e experts em inteligência de negócios (o conhecido termo inglês Business Intelligence, explicado no neste post) têm a necessidade de ferramentas que auxiliem o processamento e a categorização da informação para serem capazes de tomar seguir a melhor estratégia possível com base na informação que se tem.

Nesta publicação do blog, vamos mostrar o processo e resultados de uma pesquisa entre usuários do portal voltado ao ramo de Data Science e Machine Learning kdnuggets. A cada ano, o kdnuggets divulga entre seus usuários uma série de pesquisas relacionadas com diversas áreas da Tecnologia da Informação. Na pesquisa que trazemos aqui, o foco foi a diversidade de ferramentas de Data Science e Machine Learning em uso nas companhias em que os respondentes trabalham.

Cada entrevistado ficou livre para citar quaisquer número de aplicações ou linguagens de programação que quisesse. Foram excluídos os votos que indicavam apenas uma ferramenta em uso, um comportamento atípico que poderia influir no resultado da pesquisa. Também notou-se que o usuário médio escolheu sete ferramentas.

O gráfico abaixo mostra o resultado da pesquisa (as ferramentas citadas por pelo menos 20% dos entrevistados), contando com os votos de 2052 participantes após a remoção dos votos que indicavam apenas uma ferramenta:

Fonte: kdnuggets







Além do resultado, o gráfico também oferece um comparativo com os dois anos anteriores (2016 e 2018) para cada ferramenta citada. Repetimos que no gráfico acima constam apenas as ferramentas citadas por pelo menos 20% do total de respondentes, ou seja, há muito mais delas em uso entre os entrevistados.

A tabela abaixo mostra o diferencial percentual  de cada uma das ferramentas do gráfico anterior em relação aos resultados da mesma pesquisa realizada no ano anterior, também com a exclusão dos votos de ferramenta única:

Fonte: kdnuggets
Como é perceptível, valores percentuais em verde indicam um acréscimo nas menções de uma aplicação ou linguagem por parte dos respondentes, enquanto um valor em vermelho indica uma queda em relação ao ano anterior.

Uma breve análise dos dois quadros permite perceber a influência que a linguagem Python tem entre os entrevistados. 65.6% dos participantes afirmou usá-la em seu trabalho diário, representando um acréscimo de 11% de participação, no intervalo 2017-2018. Mesmo quando não foi citado nominalmente, o Python está presente em algumas das aplicações que também aparecem na lista, como o Anaconda (uma plataforma para o desenvolvimento de aplicações com machine learning e inteligência artificial, muito usada em Análise de Dados) e o scikit-learn (uma biblioteca Python para o machine learning). O Python é muito comum entre desenvolvedores de aplicações de propósito-geral que decidem começar em Análise de Dados.

O R também é uma linguagem de destaque quando se fala em Análise de Dados e Aprendizado de Máquina. Apesar da queda de 14% em relação à pesquisa passada, o R fornece uma rica gama de recursos de suporte à Análise de Dados por meio de bibliotecas e repositórios curados por comunidades especializadas, a exemplo do CRAN. O R também está presente em plataformas como o Anaconda e é especialmente usado por desenvolvedores com background científico-acadêmico, como matemáticos e estatísticos, por exemplo.

Como era de se esperar, o SQL também figura entre as ferramentas mais usadas nesse tipo de ciência. Isso se dá porque grande parte do volume de informação nas empresas está armazenado em estruturas relacionais que são consultáveis por meio de SQL. Uma curiosidade é que, apesar da recomendação comum de se usar tipos de arquivo como .csv ou similares para o armazenamento de dados que passarão por análise, os arquivos do tipo .xls ainda são bastante utilizados para esse fim, fazendo com que o Microsoft Excel também esteja entre as aplicações citadas no gráfico.

Encerramos aqui esta publicação sobre a pesquisa do portal kdnuggets sobre aplicações de Análise de Dados e Aprendizado de Máquina. Até a próxima.

Referências:
Python eats away at R: Top Software for Analytics, Data Science, Machine Learning in 2018: Trends & Analysis.
Disponível em: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html

domingo, 17 de fevereiro de 2019



A palavra cientista diz muito sobre o trabalho: "É preciso criar uma hipótese, desenhar um experimento e rodá-lo para validar ou refutar", diz Carlos Souza, diretor-geral da escola virtual Udacity.


"Há uma demanda grande, e o sistema educacional não consegue formar o número necessário de pessoas. Tem muitas vagas", diz Vicente., cientista de dados da Serasa Experian


Essa situação levou André Luiz da Costa, formado em economia, a mudar da área comercial para a de inteligência de negócios no Gympass depois de fazer um ano de cursos na Udacity. "É uma área nascente no Brasil, com muito potencial."


Outros países têm cursos de graduação na área, aponta Vicente. "Aqui estamos um pouco lentos."


A capacidade de resumir bilhões de registros de dados em um único gráfico e ajudar os tomadores de decisão é quase uma arte!

Você deve dominar uma ferramenta de análise estatística. Linguagens R e Python são soluções gratuitas e amplamente utilizadas por Cientistas de Dados em todo o mundo. Soluções proprietárias como SAS, Stata e SPSS são também boas opções. É preciso dominar técnicas de análise de dados, Data Munging, Pré-processamento e algoritmos de Machine Learning. Conhecimento sobre soluções de armazenamento e processamento de Big Data como Hadoop, Spark e bancos de dados NoSQL ajudam durante o processo de análise. E claro, este profissional deve ser capaz de se comunicar verbalmente e visualmente para contar a história que os dados querem dizer.






Big Data assim como todas as áreas de computação possui um terreno muito vasto. O primeiro passo que deve ser feito antes de começar a mapear o que é preciso estudar para se tornar um bom profissional, é descobrir qual profissional você quer se tornar. No post de hoje vamos tentar clarear um pouco mais quais são algumas das possíveis áreas de atuação dentro do ramo do Big Data.




1. Engenheiro de Dados

Eles desenvolvem, constroem, testam e mantêm arquiteturas, tais como bancos de dados e sistemas de processamento de dados em grande escala.


2. Engenheiro de Big Data

Esta carreira é uma extensão da carreira de Engenheiro de Dados, mas, com foco em Big Data. Montar uma infraestrutura para armazenamento e processamento de grandes conjuntos de dados não é tarefa fácil.


3. Arquiteto de Soluções de Big Data

Arquitetos de dados criam projetos para sistemas de gestão de dados. Depois de avaliar potenciais fontes de dados da empresa (interna e externa), os arquitetos projetam um plano para integrar, centralizar, proteger e manter esses dados.

Isso permite que os funcionários acessem informações críticas no lugar certo e na hora certa. A arquitetura da solução de Big Data projetada por este profissional, será implementada pelo Engenheiro de Dados ou Engenheiro de Big Data.



4. Cientista de Machine Learning

Este profissional trabalha com pesquisa e desenvolvimento de algoritmos que são usados para criar sistemas inteligentes.


5. Engenheiro de Machine Learning

Enquanto o Cientista de Machine Learning tem como objetivo pesquisar e desenvolver novos algoritmos, o Engenheiro de Machine Learning tem como objetivo aplicar esses algoritmos e criar soluções.


6. Especialista em Business Analytics (Analista de Negócios)

O principal objetivo do analista de negócios é ajudar as empresas a implementar soluções de tecnologia de uma forma eficaz em termos de custo, e assim, determinar os requisitos de um projeto ou programa e comunicá-los claramente aos interessados, facilitadores e parceiros.


7. Desenvolvedor de Visualização de Dados

A habilidade de converter em um único gráfico ou Dashboard o que Petabytes de dados estão dizendo é quase uma arte e são muitas as técnicas e ferramentas disponíveis para este fim.


8. Gerente de Analytics

O Gerente de Analytics é o responsável pela equipe de análise de dados. Ele coordena o design, a configuração e a implementação de soluções de análise de dados, desde a infraestrutura, até a definição de ferramentas e processos de análise de dados. Fazer a gestão de projetos de Big Data não é tarefa simples e o gestor precisa ter habilidades de liderança e conhecimento técnico para compreender os desafios inerentes ao Big Data.


9. Estatístico

A função deste profissional é aplicar técnicas estatísticas para a compreensão dos dados e ajudar as empresas a identificar tendências, fazer previsões e tomar decisões baseadas em dados.


10. Cientista de Dados

Cientistas de dados são os grandes mineradores de dados. Eles recebem uma enorme massa de dados desorganizados (estruturados, semi-estruturados ou não-estruturados) e usam suas habilidades em matemática, estatística e programação para limpar, tratar, transformar e organizar esses dados. Em seguida, eles aplicam suas capacidades analíticas – conhecimento de negócio, compreensão contextual, ceticismo de suposições existentes e algoritmos de Machine Learning – para descobrir soluções para os problemas de negócios e contribuir na tomada de decisões e estratégias empresariais. Essa profissão é relativamente nova e pelo quarto ano seguido é a profissão em maior demanda nos EUA, com a remuneração anual superior a 100 mil dólares. Cientistas de Dados são profissionais que sabem muito sobre muitas coisas e sua experiência é fundamental para a construção de aplicações inteligentes e análise de Big Data.

 Big Data é uma tendência de mercado mundial, para todos que não querem ficar de fora e pensa em mergulhar e aprender mais sobre a área segue uma lista de locais onde é possível começar a estudar.





1) Fundamentos de Data Science I


Sobre: Nesse curso online, o aluno dará o primeiro passo rumo à carreira de cientista de dados. Ele aprenderá a fazer análises rápidas e precisas com Python, conseguindo enxergar oportunidades de gerar novos negócios.

Quem oferece: Udacity

Preço: R$ 539,00

2) Data Science: Visualização

Sobre: Você aprenderá com um instrutor da Harvard University quais são os princípios de visualização de dados para comunicar resultados de forma precisa, motivar análises e detectar falhas.

Quem oferece: edX

Preço: gratuito ou $49,00 para adquirir o certificado

3) As ferramentas do Cientista de Dados

Sobre: Ao longo de quatro semanas, o curso apresentará quais as principais ideias e ferramentas nas quais se baseiam essa área de atuação. Os exercícios práticos envolvem linguagens e frameworks como markdown, git, GitHub, R e RStudio

Quem oferece: Coursera

Preço: gratuito

4) Introdução à Ciência de Dados

Sobre: O curso ensinará como manipular dados, trabalhar com big data e realizar uma comunicação clara a partir da visualização de informações, possibilitando que o aluno experimente e aplique as técnicas básicas da ciência de dados.

Quem oferece: Udacity

Preço: gratuito

5) Microsoft Power BI para Data Science

Sobre: Esse conjunto de ferramentas de Business Analytics fornece insights para empresas e tomadores de decisão. O curso ensina a produzir relatórios profissionais e a publicá-los para consumo online (web e mobile), além de explicar como criar dashboards personalizados.

Quem oferece: Data Science Academy

Preço: gratuito

6) Data Science para Negócios

Sobre: Com este curso, você aprenderá técnicas avançadas de coleta, tratamento e análise de dados para gerar insights e criar soluções de negócio inovadoras, além de construir seus primeiros modelos de machine learning.

Quem oferece: Udacity

Preço: R$ 1.999,00

7) Big Data e Data Science

Sobre: O curso presencial utiliza o software R para análise de dados, tornando o aluno apto a trabalhar com grandes bases de informação. Ele também conhecerá a linguagem Python, saberá visualizar dados, criará relatórios dinâmicos e aprenderá sobre estatística e machine learning.

Quem oferece: FGV (Rio de Janeiro)

Preço: R$ 8.015,00