Como tomar decisões data-driven (quase) sem dados
Fala pessoal, tudo bem?
Hoje não tem Machine Learning. Mas tem Analytics. Não tem dashboard, que em 90% dos casos descreve comportamento somente.
Apenas passando para explicar que Analytics e BI não são sinônimos.
Hoje trataremos de assuntos mais direcionados ao que chama-se Management Science, ou Operations Research, dependendo de onde vem a referência. Segue a definição que encontrei.
Os termos Pesquisa Operacional e Management Science tendem a ser usados como sinônimos. Pesquisa Operacional refere-se a métodos científicos (modelagem estatística e matemática, experimentos, simulação e otimização) aplicados para a solução de problemas complexos de negócios. fonte: decisionanalyst.com -> Analytics -> Operations Research.
E a ideia aqui é trazer técnicas para avaliar decisões de negócio mediante altos níveis de incerteza.
E para resolver esse tipo de problema, vamos trabalhar com Árvores de Decisão, Valor Monetário Esperado (EVM) e simulação.
Vish, Rodrigão, vai apresentar técnicas que ninguém usa?
Bom, vamos dar alguns exemplos.
- Empresas farmacêuticas usam para decidir pipeline de R&D e licensing de medicamentos*.
- Bancos usam para determinar score de crédito**.
- Órgãos de Saúde usam para erradicar a Pólio***.
- É usado para precificação de derivativos. (Binomial Option Pricing Model).
- É o pai do Decision Tree Classifier do Machine Learning. Sendo assim é o avô do Random Forest.
Vamos então olhar para um problema e começar a entender como podemos trazer essas ferramentas para nosso dia a dia.
Caso: Desenvolvendo um novo Produto.
1. Um modelo simples.
Digamos que você é o responsável por criar um novo produto na sua empresa, a partir de uma oportunidade de negócio que seu time de vendas identificou na conversa com um cliente.
O time de vendas estimou um potencial ticket de 40 reais por cliente, caso ele decida comprar o produto.
E aí você tem os seguintes parâmetros:
- Você pode decidir fazer uma pesquisa, triangulando informações de mercado (perfil do cliente, demanda de produtos similares, mapeamento de valor, mapeamento de concorrentes, etc). Descobriu que isso custaria cerca de R$ 100 mil, entre mão de obra e recursos. Você estima que uma pesquisa traga uma chance 10% maior de ter um produto com alta demanda. Se não optar por pesquisa, o custo é zero.
- Você também pode criar um protótipo para teste, que foi estimado pelos times de engenharia em R$ 200 mil, também entre mão de obra, recursos e testes. Você estima que um protótipo te dará mais maturidade ao produto e você terá outros 10% de chance de acertar e ter alta demanda. Se não optar por protótipo, o custo de desenvolvimento é R$ 50 mil.
- Você tem a demanda estimada pelo seu produto, a partir de conversas com o seu time de marketing, te respondeu assim:
Para um produto muito bem ajustado às demandas do cliente, esperamos que uma alta demanda chegue a 50.000 unidades/ano. Caso haja baixa demanda, 10.000 unidades.
Finalmente, você julgou que se não tomar nenhuma dessas ações, sua chance inicial de criar um produto de alta demanda é de 50% (igual a jogar uma moeda).
Criando a Árvore de Decisão a partir de Estimativas
Então vamos montar a árvore de decisão a partir desse cenário.
E basicamente você criou os cenários, e vamos estimar cada um deles a partir das probabilidades. Ou seja, vamos multiplicar a probabilidade que estimamos para cada evento (alta ou baixa demanda) por cada um dos payouts:
Exemplo Caminho 1, Com pesquisa e com Protótipo: 30% x 100 mil + 70% x 1.700 mil. Resultado: R$ 1.220 mil.
E aí temos uma árvore assim:
Legal, então você calculou eventos com chance de eles acontecerem. Porém, apresentou para o management e eles disseram: legal, mas não é tão simples.
Após seu árduo trabalho, os diretores pediram para você trazer projeções mais precisas.
Vamos então complicar o modelo, e para resolvê-lo precisaremos de um outro instrumento.
2. Um modelo mais complicado.
Vamos considerar o mesmo problema, mas agora com algumas mudanças.
- O ticket médio. O time de vendas não sabe mais dizer se faz sentido cobrar 40 reais; estimam entre 20 e 40, a depender da demanda do mercado. Se alta, faz sentido cobrar entre 30 e 40; Se for baixa, entre 20 e 30.
- O custo de pesquisa. O time sinalizou que historicamente pesquisas de produto estão na faixa dos 100 mil, mas pode variar entre 70 e 130 mil.
- O protótipo, que pode ficar pronto a tempo ou não, oscilando entre 150 e 250 mil dependendo do prazo real de entrega.
- A própria demanda, podendo em caso de alta chegar entre 40 mil unidades na pior e 100 mil unidades na melhor das hipóteses. Em caso de baixa, entre 1.000 e 10.000 unidades da mesma forma. Essa estimativa é histórica do time de marketing para produtos similares.
Tá chegando perto da realidade? Risos.
Ficou complexo e não temos números. Mas com esses ranges podemos fazer uma simulação.
Simulação?
Não desse tipo.
Vamos usar um instrumento chamado Método de Monte Carlo.
Super hiper basicamente falando, o que faremos é criar uma série de valores para cada um dos cenários de incerteza e calcularemos um payout esperado.
Como será isso? Vamos entender que cada um dos cenários segue uma distribuição de probabilidades para acontecer.
Para os eventos totalmente desconhecidos, usaremos uma distribuição uniforme. Ou seja, se não temos ideia de quais eventos são mais prováveis que outros, deixaremos a chance de cada cenário acontecer com a mesma probabilidade. É o caso dos preços e custo do protótipo em nosso problema.
Para os eventos que temos um range de possibilidades, mas são amplitudes com pouca chance de acontecer, vamos usar a distribuição normal. Usaremos essa distribuição para calcular custo de pesquisa e para a demanda.
Aqui não estamos considerando a dependência das variáveis, ou seja: não estamos considerando que mais dinheiro com pesquisa leva a um incremento maior nem que o preço influencia nas unidades. Estamos olhando sob a ótica de produto que atende melhor eu posso cobrar mais e que pesquisa é um componente de projeto que pode atrasar.
Ah, mas quero colocar esses efeitos!
Basta fazer uma função demanda e uma função produtividade marginal de pesquisa (possivelmente Cobb-Douglas).
Como fazer a simulação?
Vamos usar somente Excel!
Passo 1: Vamos gerar números aleatórios.
Para fazer isso, você precisa ter o pacote Análise de Dados habilitado no Excel.
Com o pacote habilitado, na aba Dados, procure Análise de Dados, Geração de Número Aleatório. Vamos gerar 10 mil números, que comporão 10 mil simulações.
E aí vamos escolher conforme determinamos:
- Preço: distribuição uniforme. Entre 30 e 40 para a coluna alta demanda e 20 e 30 para a coluna baixa demanda. Faça um de cada vez.
- O custo do protótipo, igual. Distribuição Uniforme, Entre 150 e 250 mil.
- Para Custo de Pesquisa e Demanda, usaremos a distribuição normal. Mas aqui vamos pensar um pouco.
Aqui é a curva Normal. Preste atenção nos símbolos sigma, que indicam desvio-padrão. Quando estou na amplitude 2 sigma, ou seja, dois desvios-padrão da média, eu estou considerando 68,2% dos casos; quando estou considerando 4 sigma, 95.4% dos casos. 6 sigma, 99.7% dos casos. Até por isso que uma das metodologias de qualidade total chama-se Six Sigma.
Aí voltando ao problema: Demanda e custo de pesquisa são conhecidos, em que o orçamento passado foi que Demanda varia entre 40 e 100 mil na alta, 1 e 10 mil na baixa; Custo de Pesquisa varia entre 70 e 130 mil.
Quantos sigma isso significa? Eu supus que 4, ou seja, que 95% dos casos as demandas e custos de pesquisa estariam nesse range. Guarde isso como input do seu modelo para rever depois.
Isso quer dizer que:
- Baixa Demanda: a diferença de 9 mil unidades (entre 1.000 e 10.000) representa 4 desvios-padrão da média. Logo, a normal possui média 5.500 (1.000 + dois sigma) e desvio-padrão, ou sigma, de 2.250.
- Alta Demanda: mesmo raciocínio, com média de 70 mil e desvio de 15 mil.
- Custo de Pesquisa: Média de 100 mil, desvio de 15 mil.
Feito isso, basta calcular os cenários.
Esses resultados comporão a seguinte árvore:
Para finalizar, basta calcularmos a probabilidade de cada um dos cenários e multiplicar pelos valores encontrados.
Exemplo: Sem Pesquisa, Sem Protótipo: 2.441.557 x 0.5 + 87.873 x 0.5 = 1.249.715.
Mas, tem mais um componente a ser analisado: o nível de aversão ao risco do seu management. O que nos leva a…
3. Estratégias
Existem três estratégias comuns para avaliar as opções que temos em mãos;
- A aversa ao risco, que chamamos de Maxi-min. Você busca e cenário em que o pior resultado é o maior de todos. No caso da nossa árvore, esqueceremos as possibilidades de ganho e focaremos no melhor dos piores cenários. Nesse caso, é o Produto sem Pesquisa e sem Protótipo.
- A neutra ao risco, a Maxi-expectativa. Aqui você está buscando o melhor resultado dentro das estratégias, mesmo havendo riscos de perda. No caso, a vencedora é o Produto com Pesquisa e com Protótipo
- Finalmente, a agressiva, ou Maxi-max. Você procura o ponto de maior lucro, independente das chances. Novamente é o ponto sem Pesquisa e sem Protótipo, R$ 2.411.557.
4. Considerações Finais
Aqui eu trouxe algumas ferramentas de como avaliar projetos sem necessariamente ter muitos dados para começar, somente estimativas.
Na explicação, há um assunto que eu fugi intencionalmente.
Você realmente acha que a chance de um projeto sem Pesquisa e sem Protótipo gerar um produto com bom fit é Fifty-Fifty?
Eu não quis dizer que era menos, mas é significativamente menos.
Das dez razões, apenas uma delas é relacionada a time-to-market. Mas a ferramenta existe e funciona, independente do debate sobre como deveria-se criar um produto.
Isso me traz a uma questão extremamente importante do uso de ferramentas para planejar cenários:
O cenário é tão bom quanto suas premissas. Mas serve para alinhá-las e ter consenso se elas fazem sentido.
Ou seja, trata-se de um instrumento para filtrar ideias malucas e “previsões” de lucros exorbitantes, entre outras coisas.
Mas existem alguns takeaways muito importantes para todo e qualquer uso de ferramenta de análise de cenário:
- As premissas: colha-as com os experts de cada uma das áreas-chave; é uma boa forma de trazer o stakeholder como responsável pelo cenário também.
- Números fixos dificilmente chegam a um cenário condizente com a realidade; por isso é importante trabalhar em ranges. Um protótipo pode ficar pronto entre 4 e 6 semanas, por exemplo, o qual você pode traduzir para uma métrica de custo.
- Após refinar o modelo, chegar em estimativas em que há consenso no seu cenário,
Então, chegamos finalmente à conclusão desse artigo.
É possível usar estratégias analíticas sem ter dados, mesmo em cenários de alta incerteza? A resposta é sim! Criando cenários a partir de estimativas e as condensando para um modelo que faça sentido!
Mas ressalto que não é um trabalho que você faz uma vez e termina, é na verdade uma revisão contínua para cada um dos pontos de incerteza que você agora tem novas (e melhores informações).
Se você está se perguntando: onde está o valor disso? Trazer objetividade e casar premissas; ver se a expectativa de produto como um todo chega em alguma lógica que faça sentido; ver se os outcomes esperados estão alinhados com as ações a serem tomadas. É basicamente um método de forecast que ajuda a refinar as apostas.
E aí? Que achou? Nenhum bicho de sete cabeças, não é?
Então, comece a desenhar as árvores, pega o Excelsão véio de guerra e bora gerar simulações!
Espero que tenham curtido!
Um grande abraço!
Rodrigo.
Referências:
* Research and Development Project Valuation and Licensing Negotiations at Phytopharmplc.Pascale Crama, Bert De Reyck, ZegerDegraeve, Wang Chong. Interfaces 2007, 37:5, 472-487.
**Managing Credit Lines and Prices for Bank One Credit Cards.Margaret S. Trench, Shane P. Pederson, Edward T. Lau, LizhiMa, Hui Wang, Suresh K. Nair. Interfaces 2003, 33:5, 4-21.
*** Polio Eradicators Use Integrated Analytical Models to Make Better Decisions.Kimberly M. Thompson, Radboud J. Duintjer Tebbens, Mark A. Pallansch, Steven G.F. Wassilak, Stephen L. Cochi. Interfaces 2015, 45:1, 5-25.
** Este texto não reflete, necessariamente, a opinião da Escola de IA