O desenvolvimento de modelos de inteligência artificial demanda um grande número de dados, o que pode ser um problema. Agora, entretanto, dados sintéticos podem ajudar nisso
, Jornalista
7 min
•
11 mai 2022
•
Atualizado: 19 mai 2023
newsletter
Start Seu dia:
A Newsletter do AGORA!
Por Camila Petry Feiler
No final de abril, a Synthesis AI, startup que desenvolve uma plataforma que gera dados sintéticos para treinar sistemas de inteligência artificial, anunciou que levantou US$ 17 milhões em uma rodada de financiamento da Série A.
Isso porque o mercado de dados sintéticos, embora recente, está se desenvolvendo gradualmente e ocupará pelo menos 60% dos dados usados para desenvolver projetos de IA e análise até 2024, de acordo com levantamento da Gartner.
Dados sintéticos, como o nome sugere, são dados gerados artificialmente, em vez de serem oriundos de eventos reais. Geralmente são criados com a ajuda de algoritmos e usados para uma ampla gama de atividades, inclusive como dados de teste para novos produtos e ferramentas, para validação de modelos e no treinamento de modelos de IA.
E se o termo parece novo para você, ele já vinha sendo estudado e divulgado por Donald Rubin em 1993. À época, ele estava ajudando setores do governo dos EUA a resolver questões como um número muito pequeno de pessoas pobres em um censo quando teve uma ideia. Em artigo publicado, ele falava sobre a privatização dos dados e afirmava que “a proposta oferecida aqui é não liberar microdados reais, mas apenas microdados sintéticos, construídos usando múltiplas imputações para que possam ser analisados validamente usando software estatístico padrão”.
Ele comentou que usou o termo dados sintéticos para se referir a vários conjuntos de dados simulados, onde cada um parece ter sido criado pelo mesmo processo que criou o conjunto de dados reais, mas sem revelar que dados são esses. A vantagem? Ter conjunto de dados para estudos que sejam pessoais e confidenciais.
Os dados são considerados o novo petróleo e, da mesma forma que o produto, são capturados, refinados e convertidos em inteligência para a criação de novos produtos ou serviços para os clientes. Entretanto, o acesso aos dados está cada vez mais complexo -- LGPD, mudanças nas coletas e regulamentações para proteger os donos das dados muda a perspectiva de como lidamos com eles até então.
Ainda assim, vivemos uma era onde ser orientado a dados faz toda a diferença nos resultados dos negócios. Por isso a aposta em dados sintéticos. Como eles são gerados por IA para a simulação de características e comportamentos de dados reais, eles acabam protegendo informações confidenciais. Além disso, é possível acelerar os ciclos de desenvolvimento e análise com eles, reduzindo o custo e conectando silos de informação.
Na prática, várias empresas começaram a testar e estão utilizando dados sintéticos em suas frentes de trabalho:
Além deles, muitos outros casos de uso potencial de dados sintéticos ainda estão por vir. Portanto, é provável que os dados sintéticos forneçam novos recursos em diferentes campos no futuro.
Assim como a inteligência artificial, os dados sintéticos têm suas limitações e questões que demandam cautela. Primeiro que ela parte de uma perspectiva de dados neutros e dá a entender que todo mundo é igual e se comporta da mesma forma. Se não conseguirem refletir a realidade, podem acabar produzindo uma IA com dados tendenciosos ou herdar os mesmos problemas.
Até porque a qualidade do modelo depende da fonte de dados. Como a qualidade dos dados sintéticos está altamente correlacionada com a qualidade dos dados de entrada e do modelo de geração de dados, eles podem refletir os vieses dos dados de origem.
Ainda assim, dados sintéticos vêm se aproximando de nós e talvez seja uma necessidade utilizá-los logo mais. Como ficam as questões importantes, regulamentações e processos de governança?
Gostou deste conteúdo? Deixa que a gente te avisa quando surgirem assuntos relacionados!
Assuntos relacionados
, Jornalista
Jornalista focada em empreendedorismo, inovação e tecnologia. É formada em Jornalismo pela PUC-PR e pós-graduada em Antropologia Cultural pela mesma instituição. Tem passagem pela redação da Gazeta do Povo e atuou em projetos de inovação e educação com clientes como Itaú, Totvs e Sebrae.
Leia o próximo artigo
newsletter
Start Seu dia:
A Newsletter do AGORA!