Usar Ciência de Dados e Machine Learning requer uma nova abordagem

Faculdade de Educação Tecnológica do Estado do Rio de Janeiro

Usar Ciência de Dados e Machine Learning requer uma nova abordagem

A falha será um resultado legítimo de qualquer projeto de ciência de dados e esta é uma perspectiva que os gerentes de negócios devem aceitar

O Machine Learning se transformou em buzzword na tecnologia de negócios, mas as implicações em aplicá-lo são muitas vezes esquecidos.

“O grande problema é que a ciência dos dados é a ciência em si, e as empresas não estão muito acostumadas a usar métodos científicos para a tomada de decisão”, diz Jane Zavalishina, CEO da Yandex Data Factory.

A empresa surgiu como um spin-out da multinacional de tecnologia Yandex, operadora do maior serviço de buscas na Rússia. Em dezembro de 2014, a Yandex ampliou sua capacidade de ciência de dados para fornecer serviços baseados em aprendizagem de máquinas para aplicações industriais, lançando a Yandex Data Factory.

O objetivo é fornecer serviços de Machine Learning e ciência de dados para criar modelos preditivos para campanhas publicitárias direcionadas, por exemplo. A equipe Yandex Data Factory estabelece suas descobertas através de um processo de experimentação, e seu sucesso só pode ser julgado quando a experiência é concluída.

“Quando você delega algum trabalho para seu empregado, idealmente você espera mais ou menos um nível completo de resultados”, explica Zavalishina. “Com os cientistas de dados, essa lógica funciona de forma diferente, porque com a ciência dos dados você não pode esperar resultados garantidos.”

A falha será um resultado legítimo de qualquer projeto de ciência de dados e esta é uma perspectiva que os gerentes de negócios devem aceitar.

Trabalhar com Ciência de Dados requer uma abordagem alternativa ao negócio em que a lógica se sobrepõe à criatividade e a realidade supera a crença. Em outras palavras, depende de fato e lógica, em vez de imaginar o que poderia ser possível.

Vai ser uma luta, então, se a tarefa dos cientistas de dados partir de perguntas que fundamentalmente consideram sem sentido.

Eles precisam entender o projeto e acreditar que faz sentido. Se são abordados para usar a aprendizagem de máquina para melhorar os sistemas, por exemplo, eles precisarão de dados suficientes para medir resultados significativos.

“Muitas decisões nos negócios são feitas pela intuição, é por isso que não há necessidade de medir tudo em negócios regulares”, diz o COO da Yandex Data Factory,  Alexander Khaytin. “Mas quando se trata de um projeto de ciência de dados ou de comunicação com cientistas de dados você não pode apenas dizer-lhes, ‘faça isso, eu sinto que vai ser bom’. Não funciona.”

Fazendo as perguntas certas
A modelagem de análise preditiva depende de algoritmos que tendem a ser muito mais complexos do que sistemas estatísticos mais tradicionais. Eles podem ser difíceis de explicar.

O setor de varejo geralmente usa a ciência de dados para prever melhor os requisitos de reabastecimento semanal de estoque. Os resultados podem surpreender, mas há tantos fatores para levar em conta que o processo em si acaba, muitas vezes, sendo difícil de comunicar.

“É como lidar com matemáticos, você faz a pergunta e recebe exatamente a resposta para a pergunta”. Se a sua pergunta estiver errada, não espere a resposta certa. É um problema surpreendentemente comum, uma vez que as empresas geralmente carecem de um planejamento cuidadoso de seus objetivos e da medida de sua avaliação.

“Estávamos trabalhando com uma grande empresa de varejo que nos pediu para construir um modelo que pudesse prever quanto cada item seria vendido na próxima semana”, lembra Zavalishina. “Nós tentamos com um item, e eles perceberam que a previsão era praticamente inútil para eles.” Receberam a resposta certa, mas se deram conta de que deveriam ter feito uma pergunta diferente.

Falha no caminho para o sucesso
O modelo de otimização fornecido a outro varejista sugeria que os produtos caros e incomuns que eles raramente vendiam não valiam a pena encomendar. A decisão era matematicamente lógica, mas isso não significa que tivesse sentido comercial. Tais itens podem ser cruciais para a identidade da loja e uma parcela de clientes.

“É praticamente garantido que com seu primeiro projeto de ciência de dados ou projeto de aprendizagem de máquina você precisará voltar e repensar quais são as métricas e quais são os objetivos”, diz Zavalishina.

A Yandex geralmente recomenda aos clientes que comecem com projetos muito específicos e curtos, para evitar o risco de um investimento a longo prazo em um projeto que poderia gerar resultados sem sentido. Este método permite que as empresas façam peças por peça as melhorias em toda a linha.

Outra empresa tinha seu próprio sistema para determinar para quais clientes deveriam enviar certas ofertas. A Yandex usaria as recomendações de um modelo estatístico produzido por um algoritmo de aprendizado de máquina para determinar como uma fatia aleatória da base de clientes seria contatada.

O único problema foi que as ofertas foram enviadas para o grupo de controle na sexta-feira e para o grupo experimental no fim de semana. Os diversos padrões de comportamento nos diferentes momentos de contato invalidaram a comparação.

E aí é bom ter em mente que resultados negativos não significam que o trabalho falhou. Eles só provam que a otimização não funcionou.

Gerentes de negócios muitas vezes perguntam à Yandex se devem fazer cursos para lidar com Machine Learning ou Ciência dos Dados para entender como a tecnologia poderia beneficiar suas organizações.

“O que geralmente respondemos é que, na verdade, não é necessário”, diz Zavalishina. “Não vai torná-lo um cientistas de dados, então não vai realmente ajudá-lo. Se você quiser ser capaz de aplicar a tecnologia em seu trabalho é muito melhor aprender o Metodologia Científica e de Medição e Experimentação. Será necessário ter uma abordagem mais científica do negócio se você quiser que esta tecnologia traga resultados “.

Aceitando a incerteza
A responsabilidade dentro da estrutura corporativa é outro desafio. A Yandex já foi abordado por um cliente na esperança de otimizar seus gastos com publicidade. O algoritmo desenvolvido prometeu o mesmo nível de resposta, economizando 20% nos custos. Mas implementar os resultados mostrou-se mais desafiador do que alcançá-los. O pessoal responsável por este projeto tinha o seu bônus atrelado aos resultados dos planos e decisões de compra.

“O modelo dá a eles recomendações, e matematicamente está provado que as recomendações foram melhores, mas o problema é que é sua responsabilidade fazê-lo funcionar”, explica Zavalishina.

A integração dos gerentes de negócio com as abordagens científicas é um processo complicado que requer paciência e compreensão. A Yandex também trabalhou com um fabricante de aço na otimização do equilíbrio por trás da mistura de materiais utilizados no processo de produção. A qualidade foi melhorada pelo aumento da quantidade de uma determinada substância, mas quanto mais desta substância era adicionada mais cara ficava a produção.

Então a Yandex usou dados históricos para elaborar um modelo preciso de como melhor equilibrar a qualidade e o custo da mistura, gerando uma receita fornecida por um algoritmo de aprendizado de máquina que acabou sendo rejeitada pelos técnicos da empresa. “Eles olhavam e diziam ‘não, não vai funcionar, eu não posso fazer isso, eu não estou aceitando isso, precisamos fazer algo diferente’.  Eles basicamente não estão usando 80 por cento das recomendações do algoritmo.

Hoje a Yandex está trabalhando em uma nova otimização da receita, incluindo o mínimo aceitável pelos especialistas na equação.

Fonte: CIO

Texto original:
http://cio.com.br/tecnologia/2017/03/24/usar-ciencia-de-dados-e-machine-learning-requer-uma-nova-abordagem/