Estes humanos falsos assustadores anunciam uma nova era em IA

23

Precisa de mais dados para o deep learning? Empresas de dados sintéticos farão isso para você.

Você pode ver a barba fraca chegando em seu lábio superior, as rugas em sua testa, as manchas em sua pele. Ele não é uma pessoa real, mas ele está destinado a imitar um — assim como as centenas de milhares de outros feitos pela Datagen, uma empresa que vende humanos falsos e simulados.

Estes humanos não são avatares de jogos ou personagens animados para filmes. São dados sintéticos projetados para alimentar o crescente apetite de algoritmos de aprendizagem profunda. Empresas como a Datagen oferecem uma alternativa convincente ao processo caro e demorado de coleta de dados do mundo real. Eles vão fazer isso para você: como você quer, quando você quiser — e relativamente barato.

Para gerar seus humanos sintéticos, Datagen primeiro escaneia humanos reais. Ele faz parceria com fornecedores que pagam as pessoas para entrar em scanners gigantes de corpo inteiro que capturam cada detalhe desde suas íris até sua textura de pele até a curvatura de seus dedos. A startup então pega os dados brutos e bombeia através de uma série de algoritmos, que desenvolvem representações 3D do corpo, rosto, olhos e mãos de uma pessoa.

A empresa, que tem sede em Israel, diz que já está trabalhando com quatro grandes gigantes da tecnologia dos EUA, embora não revele quais estão registrados. Seu concorrente mais próximo, Synthesis AI,também oferece humanos digitais sob demanda. Outras empresas geram dados para serem utilizados em finanças, segurossaúde. Existem tantas empresas de dados sintéticos quanto existem tipos de dados.

Uma vez vistos como menos desejáveis do que dados reais, os dados sintéticos agora são vistos por alguns como uma panaceia. Dados reais são confusos e cheios de preconceitos. Novos regulamentos de privacidade de dados dificultam a coleta. Em contrapartida, os dados sintéticos são imaculados e podem ser usados para construir conjuntos de dados mais diversos. Você pode produzir rostos perfeitamente rotulados, digamos, de diferentes idades, formas e etnias para construir um sistema de detecção facial que funcione entre populações.

Mas os dados sintéticos têm suas limitações. Se não refletir a realidade, pode acabar produzindo IA ainda pior do que dados confusos e tendenciosos do mundo real — ou poderia simplesmente herdar os mesmos problemas. “O que eu não quero fazer é dar os polegares até esse paradigma e dizer: ‘Oh, isso vai resolver tantos problemas'”, diz Cathy O’Neil, cientista de dados e fundadora da empresa de auditoria algorítmica ORCAA. “Porque também vai ignorar um monte de coisas.”

Realista, não real

O aprendizado profundo sempre foi sobre dados. Mas nos últimos anos, a comunidade de IA aprendeu que bons dados são mais importantes do que big data. Mesmo pequenas quantidades de dados certos e rotulados limpamente podem fazer mais para melhorar o desempenho de um sistema de IA do que 10 vezes a quantidade de dados não curados, ou mesmo um algoritmo mais avançado.

Isso muda a forma como as empresas devem abordar o desenvolvimento de seus modelos de IA, diz o CEO e cofundador da Datagen, Ofir Chakon. Hoje, eles começam adquirindo o máximo de dados possível e, em seguida, ajustam e sintonizam seus algoritmos para um melhor desempenho. Em vez disso, eles devem estar fazendo o oposto: usar o mesmo algoritmo enquanto melhora na composição de seus dados.

Mas coletar dados do mundo real para realizar esse tipo de experimentação iterativa é muito caro e demorado. É aqui que datagen entra. Com um gerador de dados sintético, as equipes podem criar e testar dezenas de novos conjuntos de dados por dia para identificar qual maximiza o desempenho de um modelo.

Para garantir o realismo de seus dados, a Datagen fornece aos seus fornecedores instruções detalhadas sobre quantos indivíduos devem digitalizar em cada faixa etária, faixa de IMC e etnia, bem como um set list de ações para eles realizarem, como andar por uma sala ou beber um refrigerante. Os fornecedores enviam de volta imagens estáticas de alta fidelidade e dados de captura de movimento dessas ações. Os algoritmos da Datagen então expandem esses dados em centenas de milhares de combinações. Os dados sintetizados às vezes são verificados novamente. Rostos falsos são tramados contra rostos reais, por exemplo, para ver se parecem realistas.

A Datagen agora está gerando expressões faciais para monitorar o estado de alerta do motorista em carros inteligentes, movimentos corporais para rastrear clientes em lojas livres de caixas e íris e movimentos manuais para melhorar os recursos de rastreamento visual e manual dos fones de ouvido VR. A empresa diz que seus dados já foram usados para desenvolver sistemas de visão computacional que atendem dezenas de milhões de usuários.

Não são apenas humanos sintéticos que estão sendo fabricados em massa. Click-Ins é uma startup que usa IA sintética para realizar inspeções automatizadas de veículos. Usando software de design, ele recria todas as marcas de carros e modelos que sua IA precisa reconhecer e, em seguida, os torna com cores, danos e deformações diferentes em diferentes condições de iluminação, em diferentes fundos. Isso permite que a empresa atualize sua IA quando as montadoras lançam novos modelos e ajuda a evitar violações de privacidade de dados em países onde as placas são consideradas informações privadas e, portanto, não podem estar presentes em fotos usadas para treinar IA.

Mostly.ai trabalha com empresas financeiras, de telecomunicações e seguradoras para fornecer planilhas de dados falsos de clientes que permitem que as empresas compartilhem seu banco de dados de clientes com fornecedores externos de forma legalmente compatível. A anonimização pode reduzir a riqueza de um conjunto de dados, mas ainda não proteger adequadamente a privacidade das pessoas. Mas os dados sintéticos podem ser usados para gerar conjuntos de dados falsos detalhados que compartilham as mesmas propriedades estatísticas dos dados reais de uma empresa. Também pode ser usado para simular dados que a empresa ainda não possui, incluindo uma população de clientes mais diversificada ou cenários como atividade fraudulenta.

Os defensores dos dados sintéticos dizem que ele pode ajudar a avaliar a IA também. Em um artigo recente publicado em uma conferência de IA, Suchi Saria, professora associada de machine learning e cuidados de saúde na Universidade Johns Hopkins, e seus coautores demonstraram como técnicas de geração de dados poderiam ser usadas para extrapolar diferentes populações de pacientes de um único conjunto de dados. Isso poderia ser útil se, por exemplo, uma empresa tivesse apenas dados da população mais jovem da cidade de Nova York, mas quisesse entender como sua IA se comporta em uma população envelhecida com maior prevalência de diabetes. Ela está começando sua própria empresa, Bayesian Health, que usará essa técnica para ajudar a testar sistemas médicos de IA.

Os limites de fingir

Mas os dados sintéticos são exagerados?

Quando se trata de privacidade, “só porque os dados são ‘sintéticos’ e não correspondem diretamente aos dados reais do usuário não significa que ele não codifica informações confidenciais sobre pessoas reais”, diz Aaron Roth, professor de ciência da computação e informação da Universidade da Pensilvânia. Algumas técnicas de geração de dados têm sido demonstradas para reproduzir de perto imagens ou textos encontrados nos dados de treinamento, por exemplo, enquanto outras são vulneráveis a ataques que os tornam totalmente regurgitadores esses dados.

Isso pode ser bom para uma empresa como a Datagen, cujos dados sintéticos não são destinados a ocultar a identidade dos indivíduos que consentiram em ser digitalizados. Mas seria uma má notícia para as empresas que oferecem sua solução como forma de proteger informações financeiras ou de pacientes sensíveis.

Pesquisas sugerem que a combinação de duas técnicas de dados sintéticos em particular,privacidade diferencial e redes contraditórias geradoras,pode produzir as proteções de privacidade mais fortes, diz Bernease Herman, cientista de dados do Instituto de eScience da Universidade de Washington. Mas os céticos temem que essa nuance possa ser perdida na linguagem de marketing de fornecedores de dados sintéticos, que nem sempre serão revelados sobre quais técnicas eles estão usando.

Enquanto isso, poucas evidências sugerem que os dados sintéticos podem efetivamente mitigar o viés dos sistemas de IA. Por um lado, extrapolar novos dados de um conjunto de dados existente que é distorcido não necessariamente produz dados mais representativos. Os dados brutos da Datagen, por exemplo, contêm proporcionalmente menos minorias étnicas, o que significa que ele usa menos pontos de dados reais para gerar humanos falsos a partir desses grupos. Embora o processo de geração não seja inteiramente adivinhação, esses humanos falsos ainda podem ser mais propensos a divergir da realidade. “Se seus rostos de tom de pele mais escura não são particularmente boas aproximações de rostos, então você não está realmente resolvendo o problema”, diz O’Neil.

Por outro, conjuntos de dados perfeitamente equilibrados não se traduzem automaticamente em sistemas de IA perfeitamente justos, diz Christo Wilson, professor associado de ciência da computação na Universidade do Nordeste. Se um credor de cartão de crédito estivesse tentando desenvolver um algoritmo de IA para marcar potenciais mutuários, ele não eliminaria toda a discriminação possível simplesmente representando pessoas brancas, bem como pessoas negras em seus dados. A discriminação ainda pode se infiltrar nas diferenças entre candidatos brancos e negros.

Para complicar ainda mais as coisas, pesquisas iniciais mostram que, em alguns casos, pode até não ser possível alcançar a IA privada justa com dados sintéticos. Em um artigo recente publicado em uma conferência de IA, pesquisadores da Universidade de Toronto e do Instituto Vector tentaram fazê-lo com raios-x do tórax. Eles descobriram que não foram capazes de criar um sistema médico preciso de IA quando tentaram fazer um conjunto diversificado de dados sintéticos através da combinação de privacidade diferencial e redes contraditórias geradoras.

Nada disso significa que dados sintéticos não devem ser usados. Na verdade, pode muito bem se tornar uma necessidade. À medida que os reguladores enfrentam a necessidade de testar sistemas de IA para conformidade legal, pode ser a única abordagem que lhes dá a flexibilidade necessária para gerar dados de teste sob demanda e direcionados, diz O’Neil. Mas isso torna as perguntas sobre suas limitações ainda mais importantes para estudar e responder agora.

“É provável que os dados sintéticos melhorem com o tempo”, diz ela, “mas não por acaso”.

você pode gostar também