segunda-feira, 18 de março de 2019

Pesquisa sobre Ferramentas de Data Science

Em uma organização, tão importante quanto ter boas fontes para a obtenção de dados são a classificação e a interpretação que serão aplicadas a eles. Matemáticos, estatísticos, e experts em inteligência de negócios (o conhecido termo inglês Business Intelligence, explicado no neste post) têm a necessidade de ferramentas que auxiliem o processamento e a categorização da informação para serem capazes de tomar seguir a melhor estratégia possível com base na informação que se tem.

Nesta publicação do blog, vamos mostrar o processo e resultados de uma pesquisa entre usuários do portal voltado ao ramo de Data Science e Machine Learning kdnuggets. A cada ano, o kdnuggets divulga entre seus usuários uma série de pesquisas relacionadas com diversas áreas da Tecnologia da Informação. Na pesquisa que trazemos aqui, o foco foi a diversidade de ferramentas de Data Science e Machine Learning em uso nas companhias em que os respondentes trabalham.

Cada entrevistado ficou livre para citar quaisquer número de aplicações ou linguagens de programação que quisesse. Foram excluídos os votos que indicavam apenas uma ferramenta em uso, um comportamento atípico que poderia influir no resultado da pesquisa. Também notou-se que o usuário médio escolheu sete ferramentas.

O gráfico abaixo mostra o resultado da pesquisa (as ferramentas citadas por pelo menos 20% dos entrevistados), contando com os votos de 2052 participantes após a remoção dos votos que indicavam apenas uma ferramenta:

Fonte: kdnuggets







Além do resultado, o gráfico também oferece um comparativo com os dois anos anteriores (2016 e 2018) para cada ferramenta citada. Repetimos que no gráfico acima constam apenas as ferramentas citadas por pelo menos 20% do total de respondentes, ou seja, há muito mais delas em uso entre os entrevistados.

A tabela abaixo mostra o diferencial percentual  de cada uma das ferramentas do gráfico anterior em relação aos resultados da mesma pesquisa realizada no ano anterior, também com a exclusão dos votos de ferramenta única:

Fonte: kdnuggets
Como é perceptível, valores percentuais em verde indicam um acréscimo nas menções de uma aplicação ou linguagem por parte dos respondentes, enquanto um valor em vermelho indica uma queda em relação ao ano anterior.

Uma breve análise dos dois quadros permite perceber a influência que a linguagem Python tem entre os entrevistados. 65.6% dos participantes afirmou usá-la em seu trabalho diário, representando um acréscimo de 11% de participação, no intervalo 2017-2018. Mesmo quando não foi citado nominalmente, o Python está presente em algumas das aplicações que também aparecem na lista, como o Anaconda (uma plataforma para o desenvolvimento de aplicações com machine learning e inteligência artificial, muito usada em Análise de Dados) e o scikit-learn (uma biblioteca Python para o machine learning). O Python é muito comum entre desenvolvedores de aplicações de propósito-geral que decidem começar em Análise de Dados.

O R também é uma linguagem de destaque quando se fala em Análise de Dados e Aprendizado de Máquina. Apesar da queda de 14% em relação à pesquisa passada, o R fornece uma rica gama de recursos de suporte à Análise de Dados por meio de bibliotecas e repositórios curados por comunidades especializadas, a exemplo do CRAN. O R também está presente em plataformas como o Anaconda e é especialmente usado por desenvolvedores com background científico-acadêmico, como matemáticos e estatísticos, por exemplo.

Como era de se esperar, o SQL também figura entre as ferramentas mais usadas nesse tipo de ciência. Isso se dá porque grande parte do volume de informação nas empresas está armazenado em estruturas relacionais que são consultáveis por meio de SQL. Uma curiosidade é que, apesar da recomendação comum de se usar tipos de arquivo como .csv ou similares para o armazenamento de dados que passarão por análise, os arquivos do tipo .xls ainda são bastante utilizados para esse fim, fazendo com que o Microsoft Excel também esteja entre as aplicações citadas no gráfico.

Encerramos aqui esta publicação sobre a pesquisa do portal kdnuggets sobre aplicações de Análise de Dados e Aprendizado de Máquina. Até a próxima.

Referências:
Python eats away at R: Top Software for Analytics, Data Science, Machine Learning in 2018: Trends & Analysis.
Disponível em: https://www.kdnuggets.com/2018/05/poll-tools-analytics-data-science-machine-learning-results.html

Nenhum comentário:

Postar um comentário