Business Intelligence & Analytics: is it all about Prediction & Prescription? (Day 0)

Hi all,

Here I am in the USA, attending the event Gartner Business Intelligence and Analytics Summit, in Grapevine – Texas. I know it has been a long time since my last post, but inspired by this event, I decided to free up (again) the blogger inside me and write a short and (hopefully) not-boring summaries every day. Trying to get more audience, I’m using my far-from-perfect english to write this post… hope you don’t mind.

Today was day 0. Yes, that’s right. The event starts tomorrow, but we had a couple of presentations today for the brave ones. They said that those two presentations were basic ones, just to set a common vocabulary up.

Well, and here is it. They presented a “Business Analytics Framework” a little bit complex, but the main takeaway is that we should see BI&A in four different perspectives:

  • Descriptive: what is you bussines problem? What what is your strategic plan? What happened?
  • Diagnostic: what data do I have that is relevant? What data do I need to gather or buy? Why did it happen?
  • Predictive: based on what I know, what is likely to happen? What are the hypothesis behind my data?
  • Prescriptive: what should I do about it? How can I implement the hypotheses?

“Traditional BI” (and the first presenter – Jamie Popkin – started his presentation saying that traditional data warehouse and reporting analysis are dead) is the first two ones: Descriptive and Diagnostic. What they are seeing now and in the future is investments on the later ones: Predictive and Prescriptive.

One example Jamie mentioned about prediction and prescription. He said that during the last Vallentine’s day, he was shopping flowers on-line. He was putting some itens into his shop cart, but never completing the order. Suddenly, he received an email from the e-store offering him 15% off. So, after that, he came back to the store and finally put his order. Notice that the e-store predicted that he was likely to buy but was in doubt and than, as a prescription, offered him an extra discount. That’s we are talking about! On-line and real-time business intelligence.

That’s it! I’m expecting to hear a lot about prediction and prescription in the further sessions. Getting into details. I’ll share with you.

Let me get some sleep because tomorrow the event starts and 7am (that’s right!).

See you,
Daniel V.

 

Big Data Ganhando Popularidade

Olá,

Vivemos em um mundo que gera cada vez mais dados. Não apenas os dados corporativos nos seus tradicionais bancos de dados mas também logs de aplicações móveis, informações de uso dos sistemas de e-Commerce, AdWords, redes sociais etc. Em resumo, vivemos em uma explosão de dados, crescendo cada vez mais exponencialmente. As empresas, logicamente, continuam na sua luta para extrair significado desses dados, tentando aprender com eles para mudar seus processos de negócios e inovar.

Dentro desse cenário, o mundo corporativo se pergunta se os custos e complexidade tecnológica também irão crescer na mesma proporção dos dados. Até agora, parece que sim… mas novos conceitos, ferramentas e tecnologias começam a ganhar popularidade no mercado para endereçar essas questão e contribuir com o BI tradicional. Começa-se a falar de Big Data com muito mais naturalidade dentro das empresas. Mas o que é isso?

Big Data, em linhas gerais, é um imenso conjunto de dados que podem ser armazenados e analisados posteriormente com alta velocidade. A principal diferença entre Big Data e Data Warehouse (DW) é que este último é projetado para fornecer um conjunto de dados (normalmente chamados de “fatos”) sob alguns pontos de vistas (“dimensões”). O processo de criação de um DW começa com algumas perguntas: quanto vendemos por terrotório geográfico ou por vendedor? Qual o faturamento dos últimos anos por mês ou quarter? Uma vez feitas as perguntas, projeta-se os cubos, o processo de ETL para preenchê-los e como os dados serão analisados depois. As ferramentas para cada uma dessas etapas podem ser bem caras, o processo pode demorar meses e, infelizmente, no final dele pode-se chegar à conclusão que as perguntas feitas inicialmente não foram as melhores.

O Big Data inverte essa dinâmica. Ao invés de pensar nas perguntas e implementar as respostas, ele começa olhando para os dados disponíveis. A idéia é gerar um conjunto de dados brutos imensos que permita que sejam feitas análises completamente ad-hoc (aleatórias) a posteriori, e com bastante velocidade. Isso permite acelerar o processo e torná-lo mais assertivo, pois todo processo de análise já é feito em cima de dados reais. Você pode fazer perguntas que não haviam sido pensadas (“quais são os clientes que compravam mais do que Y unidades do produto X há 3 anos atrás e que nos últimos 2 meses compraram 50% abaixo disso?”), detectar padrões do seu mercado, melhorar a eficiência na análise de churn etc.

Se esse conceito é tão interessante assim, por que ele está entrando no hype apenas agora? A resposta mais simples para isso é que criar essa imensa base de dados que responda a qualquer pergunta de forma muito rápida não é tarefa trivial. Ou melhor, não era. Hoje temos vários produtos associados a cloud computing que permitem fazer isso sem necessidade de configuração de complicados clusters e com baixo investimento inicial. Dois exemplos significativos são o Amazon Elastic Map Reduce (EMR) que oferece uma implementação de Hadoop pronta para ser utilizada em larga escala e o Big Query, que permite criar um conjunto de dados imenso (bilhões de registros) e consultar em poucos segundos graças à utilização do grid computacional da Google.

Em próximos posts eu falarei mais do assunto.

Abraços!
Daniel V.