Big Data Ganhando Popularidade

Olá,

Vivemos em um mundo que gera cada vez mais dados. Não apenas os dados corporativos nos seus tradicionais bancos de dados mas também logs de aplicações móveis, informações de uso dos sistemas de e-Commerce, AdWords, redes sociais etc. Em resumo, vivemos em uma explosão de dados, crescendo cada vez mais exponencialmente. As empresas, logicamente, continuam na sua luta para extrair significado desses dados, tentando aprender com eles para mudar seus processos de negócios e inovar.

Dentro desse cenário, o mundo corporativo se pergunta se os custos e complexidade tecnológica também irão crescer na mesma proporção dos dados. Até agora, parece que sim… mas novos conceitos, ferramentas e tecnologias começam a ganhar popularidade no mercado para endereçar essas questão e contribuir com o BI tradicional. Começa-se a falar de Big Data com muito mais naturalidade dentro das empresas. Mas o que é isso?

Big Data, em linhas gerais, é um imenso conjunto de dados que podem ser armazenados e analisados posteriormente com alta velocidade. A principal diferença entre Big Data e Data Warehouse (DW) é que este último é projetado para fornecer um conjunto de dados (normalmente chamados de “fatos”) sob alguns pontos de vistas (“dimensões”). O processo de criação de um DW começa com algumas perguntas: quanto vendemos por terrotório geográfico ou por vendedor? Qual o faturamento dos últimos anos por mês ou quarter? Uma vez feitas as perguntas, projeta-se os cubos, o processo de ETL para preenchê-los e como os dados serão analisados depois. As ferramentas para cada uma dessas etapas podem ser bem caras, o processo pode demorar meses e, infelizmente, no final dele pode-se chegar à conclusão que as perguntas feitas inicialmente não foram as melhores.

O Big Data inverte essa dinâmica. Ao invés de pensar nas perguntas e implementar as respostas, ele começa olhando para os dados disponíveis. A idéia é gerar um conjunto de dados brutos imensos que permita que sejam feitas análises completamente ad-hoc (aleatórias) a posteriori, e com bastante velocidade. Isso permite acelerar o processo e torná-lo mais assertivo, pois todo processo de análise já é feito em cima de dados reais. Você pode fazer perguntas que não haviam sido pensadas (“quais são os clientes que compravam mais do que Y unidades do produto X há 3 anos atrás e que nos últimos 2 meses compraram 50% abaixo disso?”), detectar padrões do seu mercado, melhorar a eficiência na análise de churn etc.

Se esse conceito é tão interessante assim, por que ele está entrando no hype apenas agora? A resposta mais simples para isso é que criar essa imensa base de dados que responda a qualquer pergunta de forma muito rápida não é tarefa trivial. Ou melhor, não era. Hoje temos vários produtos associados a cloud computing que permitem fazer isso sem necessidade de configuração de complicados clusters e com baixo investimento inicial. Dois exemplos significativos são o Amazon Elastic Map Reduce (EMR) que oferece uma implementação de Hadoop pronta para ser utilizada em larga escala e o Big Query, que permite criar um conjunto de dados imenso (bilhões de registros) e consultar em poucos segundos graças à utilização do grid computacional da Google.

Em próximos posts eu falarei mais do assunto.

Abraços!
Daniel V.