8 motivos para os projetos de ciência de dados falharem

48

A ciência de dados pode ser a ferramenta mais quente para resolver problemas de negócios, mas projetos falhos podem causar danos significativos, levando os tomadores de decisão a se desviarem.

A ciência de dados raramente falha em atrair interesse de líderes de TI e de negócios nos dias de hoje. Mas falha.

De fato, as iniciativas de ciência de dados, que aproveitam métodos científicos, processos, algoritmos e sistemas tecnológicos para extrair uma série de insights de dados estruturados e não estruturados, podem falhar de várias maneiras, levando a tempo, dinheiro e outros recursos desperdiçados. Projetos falhos podem resultar em mais danos para uma empresa do que benefícios, por meio de os principais tomadores de decisão desviados.

Aqui estão algumas das razões mais comuns pelas quais os projetos de ciência de dados não saem como esperado.

Má qualidade dos dados

Dados ruins fazem com que a ciência de dados ruim, por isso é de vital importância tomar o tempo para garantir que os dados são de alta qualidade. Isso é verdade para qualquer empreendimento de análise e é certamente o caso da ciência de dados.

“Dados ruins ou sujos impossibilitam iniciativas de ciência de dados”, diz Neal Riley, CIO da Adaptavist, uma consultoria de transformação digital. “Você tem que ter certeza de que seus dados estão limpos e prontos para analistas de dados. Se não, é apenas uma completa perda de tempo.

Quando as empresas usam dados impuros para projetos de ciência de dados, elas acabam “olhando para modelos que saem com saídas estranhas [e] vendo que não representa a realidade ou o processo de uma maneira que melhore as coisas”, diz Riley.

Às vezes, a qualidade dos dados é ruim por causa de viés ou discrepâncias nos conjuntos de dados.

“Para algumas organizações, existem vários sistemas usados para administrar o negócio”, diz Brandon Jones, CIO da seguradora Worldwide Assurance for Employees of Public Agencies (WAEPA). “Para empresas experientes, você pode até ter sistemas legados que ainda são acessados [para] referência ou validação. Em muitos casos, o negócio mudou com cada sistema, levando, portanto, a diferentes processos e/ou formas de contar uma métrica dentro do negócio.”

Isso pode ser uma das principais causas de fracasso para a ciência de dados, diz Jones. Os resultados podem ser inflados devido à dupla contagem com base em um processo de negócios modificado. “Para resolver esse problema, as organizações devem nivelar seu programa de análise de dados”, diz ele. “Isso significa delinear uma data específica em que os dados podem ser validados e todos entendem e têm buy-in que este é o padrão comum do qual a organização estará trabalhando.”

Nenhuma definição clara do problema a ser resolvido

Como uma iniciativa de ciência de dados pode ter sucesso se os membros da equipe não entendem o problema de negócios que estão tentando resolver? No entanto, as equipes de ciência de dados às vezes encontram essa deficiência quando solicitadas a assumir projetos.

“A definição de um problema muitas vezes é deixada aos cientistas de dados, quando, na verdade, a definição de um problema [compreende] casos de negócios que escopo o trabalho e definem o potencial retorno sobre o investimento”, diz Michael Roytman, cientista-chefe de dados da empresa de segurança cibernética Kenna Security.

Os usuários de negócios que procuram aproveitar a ciência de dados precisam fazer perguntas sobre o problema que estão tentando resolver, diz Marc Johnson, conselheiro sênior e CIO virtual da empresa de consultoria em saúde Impact Advisors.

“Assim como em qualquer projeto, gaste o tempo para bloquear o escopo do problema para identificar as fontes corretas para os dados”, diz Johnson. “Me pediram para produzir um produto de análise para uma empresa de 20 anos atrás. Não houve pesquisa com a base de clientes para ver se havia mercado para isso. Não houve identificação das métricas para as quais o cliente queria visualizar as análises. Foi tudo baseado na concorrência alegando que tinha um produto de análise e boatos de que os clientes queriam.”

O projeto permaneceu por dois anos sem direção “devido à definição confusa do que era o problema que estávamos tentando resolver”, diz Johnson.

Falta de dados relevantes

Outra maneira infaliça de falhar com a ciência de dados é não fornecer os tipos específicos de dados necessários para resolver um determinado problema.

Lançar um enorme volume de dados em um problema não é a resposta.

“Há uma suposição de que grandes dados levarão a insights, o que é realmente raro o caso”, diz Roytman. “Conjuntos de dados inteligentes, personalizados e muitas vezes menores são mais frequentemente os que fornecem modelos robustos generalizáveis.”

Para obter valor da ciência de dados, deve haver um esforço contínuo para continuar a coleta de dados das fontes mais relevantes, diz Johnson. “A criação [não é] um evento único”, diz ele.

Como os dados estão sendo coletados ou comprados de várias fontes, as equipes precisam garantir que quaisquer modificações nos dados não distorçam os resultados e sacrifiquem a qualidade de todo o conjunto de dados, diz Johnson. Eles também devem garantir que não haja questões de privacidade, legais ou éticas com o conjunto de dados.

Falta de transparência de dados

As equipes precisam ser transparentes com os dados que usaram para construir qualquer modelo.

“Os projetos de ciência de dados falham quando as pessoas não confiam no modelo ou entendem a solução”, diz Jack McCarthy, CIO do Estado de Nova Jersey–Judiciário. “A maneira de combater isso é que você deve ser capaz de ‘mostrar a matemática’ e comunicá-la às partes interessadas que podem não ter as habilidades técnicas ou estatísticas.”

Os cientistas de dados precisam explicar de onde vêm os dados, o que fizeram para calcular modelos e fornecer acesso a todos os dados relevantes. “A transparência pode ser a chave para um projeto de sucesso”, diz McCarthy.

Um exemplo disso é o algoritmo de avaliação de risco usado em Nova Jersey. “Fornecemos a todas as partes interessadas um relatório que mostra quais casos na história de um réu se enquadram em qual categoria e como cada um é pontuado”, diz McCarthy. “Isso é dado a todos os adversários para que eles tenham a oportunidade de olhar cada caso e desafiar sua inclusão. É tudo feito de forma transparente.

Relutância em reconhecer que os achados são incertos

Às vezes, o grupo empresarial que solicita insights ou a própria equipe de ciência de dados simplesmente não está disposto a concluir que as descobertas eram incertas, claras ou não fortes o suficiente para uma aplicação de negócios, diz Roytman.

“É uma resposta igualmente aceitável e valiosa para dizer: ‘O modelo não é bom o suficiente para gerar ROI [retorno sobre o investimento] para o negócio”, diz Roytman.

A equipe de ciência de dados da Kenna Security passou dois meses construindo um modelo de classificação de vulnerabilidade que geraria uma enumeração de fraqueza comum automaticamente para uma vulnerabilidade, diz Roytman. “O modelo funcionou; foi uma resposta sólida para um problema de curso de nível de pós-graduação”, diz ele. “Mas não funcionou bem o suficiente para ser valioso para nossos clientes. [A] precisão era muito baixa. Então nós sucateamos o projeto, mesmo que tínhamos investido tempo e tivemos um resultado.”

Ausência de um campeão executivo

Os esforços de ciência de dados precisam de um campeão no conjunto C, para garantir que os projetos obtenham recursos e apoio suficientes.

 Ajuda se for o CIO”, diz Riley. “Vemos a ciência de dados como parte integrante de nossa operação, e fiz questão de ser um campeão por nossos esforços.” Mesmo que os CIOs não sejam os campeões internos da ciência de dados, eles devem ser responsáveis por manter todos os dados envolvidos seguros, diz ele. Mas o envolvimento deve ir muito além da segurança.

“Tirar o máximo das informações que você captura é o que eu chamaria de responsabilidade de um CIO moderno”, diz Riley. “Com todos esses dados em mãos, você tem os meios para aprender com eles e usá-los de forma inteligente, e isso é algo que os CIOs podem utilizar para ajudar suas organizações a se cruzarem funcionalmente.”

A Adaptavist ganhou mais com seu trabalho de ciência de dados na determinação de novas táticas e modificações que pode fazer com o processo de vendas, diz Riley. “Não teve nada a ver com nosso produto ou infraestrutura de TI, marketing, nada disso”, diz ele. “Isso nos ajudou mais do ponto de vista da otimização de processos de negócios, para lidar e gerenciar melhores leads de vendas internas.”

Escassez de talentos

A lacuna de habilidades está assolando muitos aspectos da TI, e a ciência de dados não é exceção. Muitas organizações simplesmente não têm os conjuntos de habilidades para manter projetos ou obter o valor máximo.

“Os cientistas de dados de boa fé são ricos em demanda, difíceis de encontrar e caros”, diz Tracy Huitika, CIO de engenharia e dados da Beanworks, uma provedora de automação a pagar de contas baseada em nuvem. “A posição geralmente requer um doutorado em física ou ciências, bem como a capacidade de escrever código em R e Python.”

Uma das maiores razões pelas quais os projetos de ciência de dados falham, mesmo quando chegam à implantação, é a falta de talento operacional para continuar gerenciando o projeto, diz Johnson. “Levar um brilhante cientista de dados para criar o modelo sem um plano para executar as operações de melhoria contínua com ajustes para mudanças de mercado e dados é como projetar um carro e entregar as chaves para uma de 10 anos”, diz ele.

As empresas precisam ter as habilidades certas para manter o modelo depois que ele entrou em produção, seja através de contratações ou grampos de especialistas externos, como consultores que são bem versados em ciência de dados.

A ciência de dados não era a solução certa

E se um problema em particular não exigisse ciência de dados como solução em primeiro lugar? Esse uso equivocado da disciplina pode levar ao fracasso, por isso vale a pena pensar muito em quando e quando não aplicar métodos, processos e ferramentas de ciência de dados.

“Uma das maiores coisas que fará com que os projetos de ciência de dados falhem é se a ciência de dados, algoritmos e aprendizado de máquina não forem a solução certa”, diz Riley.

“Você pode não precisar de um modelo de aprendizado de máquina em tudo; você pode precisar de uma regressão simples, e você pode gastar muito tempo e esforço passando por todas as diferentes permutações sem uso para ciência de dados”, diz Riley. “Fomos pegos em uma dessas situações em que estávamos olhando para a modelagem de ciência de dados financeiros para visualizar preditores para o sucesso financeiro futuro para linhas de nossos negócios. Descobriu-se que a melhor coisa a usar era apenas regressão estatística.”