quinta-feira, 7 de dezembro de 2017

O Status do Data Science em 2017

Olá pessoal, tudo bem?

Hoje vou compartilhar os resultados de uma pesquisa feita pelo Kaggle sobre o status da área de data science no mundo e também de uma análise que estou criando com os dados da pesquisa, especificamente sobre o Brasil!

sexta-feira, 6 de outubro de 2017

Jupyter Notebook na Nuvem para Analises com muitos Dados

Olá pessoal, tudo bem?

Hoje vou mostrar como configurar o ambiente Jupyter Notebook em um servidor remoto, de forma fácil e que nos permita aproveitar a flexibilidade da nuvem para fazer nossas analises de dados.

Mas o que é Jupyter Notebook e por que instala-lo em um servidor?


O Jupyter é, segundo o site do projeto, uma aplicação web de código aberto que permite criar e compartilhar documentos que contenham código vivo, equações, visualizações e texto explicativo. Ele é um dos principais ambientes para a análise de dados, onde você pode usar não apenas Python mas várias outras linguagens como você pode ver aqui.

Normalmente, o Jupyter é instalado localmente e fica disponível na porta 8888 em localhost quando iniciado. Instala-lo em um servidor se torna útil quando o volume de dados a ser analisado é maior que a memória RAM disponível. Existem outras opções nestes casos, como processar os dados em lotes, usar processamento distribuído e etc, mas nenhuma delas é tão simples quanto ter todos os dados em memória. Pretendo abordar algumas dessas opções aqui no blog, mas farei isso quando surgir a necessidade!

terça-feira, 22 de agosto de 2017

Brincando de Big Data e Data Mining

Olá pessoal, tudo bem?

Hoje quero compartilhar uma brincadeira experimento que fiz relacionado ao que podemos chamar de big data e data mining. Vamos ver quão rápido conseguimos processar alguns gigabytes de dados!

terça-feira, 14 de março de 2017

DataViz - Ferramentas para visualização de dados em Python!

Olá pessoal! Tudo bem?

Hoje quero mostrar algumas ferramentas muito interessantes para visualização de dados. Pretendo retomar o assunto do post anterior, onde usamos um pouco de machine learning para categorizar reportagens em português, mas a pausa é bem justificada!

quarta-feira, 25 de janeiro de 2017

Um Pouco de Machine Learning com Python

E ai pessoal, tudo bem?

É quase um milagre este post sair com tão pouco tempo desde o último, mas o fato é que estou muito empolgado com meus estudos e o curso da Udemy que comentei no ultimo post, tanto que comecei a aplicar algumas coisas na prática!

Hoje quero mostrar um pequeno programa que criei para testar e praticar as técnicas de Machine Learning na categorização de textos. É apenas um protótipo que usa matérias jornalisticas, mas você pode baixa-lo para testar e estudar!

sexta-feira, 16 de dezembro de 2016

Data Analysis com Python Pandas - O Início

E ai pessoal, tudo bem?

Faz bastante tempo que não publico nada novo, estive muito envolvido com questões menos técnicas nesse período, estudando coisas que literalmente mudaram minha forma de ver o mundo. Mas isso fica pra outra hora.

O que me motivou a voltar a escrever são meus recentes estudos sobre análise de dados com Python, em especial com a biblioteca Pandas!

sexta-feira, 13 de fevereiro de 2015

Campos Dinâmicos no MongoDB

Tudo bem pessoal?

Estou aqui para dar mais uma pequena dica sobre MongoDB. Vou falar hoje de um problema com campos dinâmicos que passei em meu projeto atual e como consegui resolve-lo com um ajuste no schema de dados.

No projeto em questão precisamos permitir que os usuários criem campos que não estão no schema padrão para armazenar seus conteúdos específicos. Esta necessidade de dinamismo no schema foi um dos motivos, dentre outros, que nos levou a escolher o MongoDB.