Sou Aluno
Formações
Imersões
Eventos
AI Tools
Artigos
Sobre Nós
Para Empresas

Dados sintéticos e seu papel no mundo da IA

O desenvolvimento de modelos de inteligência artificial demanda um grande número de dados, o que pode ser um problema. Agora, entretanto, dados sintéticos podem ajudar nisso

Dados sintéticos e seu papel no mundo da IA

, Jornalista

7 min

11 mai 2022

Atualizado: 19 mai 2023

newsletter

Start Seu dia:
A Newsletter do AGORA!

Por Camila Petry Feiler

No final de abril, a Synthesis AI, startup que desenvolve uma plataforma que gera dados sintéticos para treinar sistemas de inteligência artificial, anunciou que levantou US$ 17 milhões em uma rodada de financiamento da Série A. 

Isso porque o mercado de dados sintéticos, embora recente, está se desenvolvendo gradualmente e ocupará pelo menos 60% dos dados usados ​​para desenvolver projetos de IA e análise até 2024, de acordo com levantamento da Gartner.

O QUE SÃO DADOS SINTÉTICOS?

Dados sintéticos, como o nome sugere, são dados gerados artificialmente, em vez de serem oriundos de eventos reais. Geralmente são criados com a ajuda de algoritmos e usados para uma ampla gama de atividades, inclusive como dados de teste para novos produtos e ferramentas, para validação de modelos e no treinamento de modelos de IA. 

E se o termo parece novo para você, ele já vinha sendo estudado e divulgado por Donald Rubin em 1993. À época, ele estava ajudando setores do governo dos EUA a resolver questões como um número muito pequeno de pessoas pobres em um censo quando teve uma ideia. Em artigo publicado, ele falava sobre a privatização dos dados e afirmava que “a proposta oferecida aqui é não liberar microdados reais, mas apenas microdados sintéticos, construídos usando múltiplas imputações para que possam ser analisados ​​validamente usando software estatístico padrão”.

Ele comentou que usou o termo dados sintéticos para se referir a vários conjuntos de dados simulados, onde cada um parece ter sido criado pelo mesmo processo que criou o conjunto de dados reais, mas sem revelar que dados são esses. A  vantagem? Ter conjunto de dados para estudos que sejam pessoais e confidenciais

POR QUE IMPORTA?

(Foto: Getty Images)

Os dados são considerados o novo petróleo e, da mesma forma que o produto, são capturados, refinados e convertidos em inteligência para a criação de novos produtos ou serviços para os clientes. Entretanto, o acesso aos dados está cada vez mais complexo -- LGPD, mudanças nas coletas e regulamentações para proteger os donos das dados muda a perspectiva de como lidamos com eles até então. 

Ainda assim, vivemos uma era onde ser orientado a dados faz toda a diferença nos resultados dos negócios. Por isso a aposta em dados sintéticos. Como eles são gerados por IA para a simulação de características e comportamentos de dados reais, eles acabam protegendo informações confidenciais. Além disso, é possível acelerar os ciclos de desenvolvimento e análise com eles, reduzindo o custo e conectando silos de informação. 

QUAIS AS APLICAÇÕES DOS DADOS SINTÉTICOS?

Na prática, várias empresas começaram a testar e estão utilizando dados sintéticos em suas frentes de trabalho:

  • Amazon usa dados sintéticos para treinar o sistema de linguagem do Alexa;
  • Waymo, do Google, usa dados sintéticos para treinar seus veículos autônomos;
  • Amazon usa imagens sintéticas para treinar sistemas de reconhecimento de visão Amazon Go;
  • American Express usa dados financeiros sintéticos para melhorar a detecção de fraudes;
  • Roche usando dados médicos sintéticos para pesquisa clínica;
  • Click-Ins é uma startup que usa IA sintética para realizar inspeções automatizadas de veículos;
  • A BMW criou uma fábrica virtual, uma plataforma de simulação. Os dados que ela gera ajudam a alinhar a colaboração entre funcionários e robôs de montagem na produção eficiente de carros;
  • A startup Curai treinou um modelo de diagnóstico com 400 mil casos médicos simulados.

Além deles, muitos outros casos de uso potencial de dados sintéticos ainda estão por vir. Portanto, é provável que os dados sintéticos forneçam novos recursos em diferentes campos no futuro.

DESAFIOS 

Assim como a inteligência artificial, os dados sintéticos têm suas limitações e questões que demandam cautela. Primeiro que ela parte de uma perspectiva de dados neutros e dá a entender que todo mundo é igual e se comporta da mesma forma. Se não conseguirem refletir a realidade, podem acabar produzindo uma IA com dados tendenciosos ou herdar os mesmos problemas

Até porque a qualidade do modelo depende da fonte de dados. Como a qualidade dos dados sintéticos está altamente correlacionada com a qualidade dos dados de entrada e do modelo de geração de dados, eles podem refletir os vieses dos dados de origem

Ainda assim, dados sintéticos vêm se aproximando de nós e talvez seja uma necessidade utilizá-los logo mais. Como ficam as questões importantes, regulamentações e processos de governança?

Banner newsletter StartSe

Gostou deste conteúdo? Deixa que a gente te avisa quando surgirem assuntos relacionados!


Assuntos relacionados

Imagem de perfil do redator

Jornalista focada em empreendedorismo, inovação e tecnologia. É formada em Jornalismo pela PUC-PR e pós-graduada em Antropologia Cultural pela mesma instituição. Tem passagem pela redação da Gazeta do Povo e atuou em projetos de inovação e educação com clientes como Itaú, Totvs e Sebrae.

Leia o próximo artigo

newsletter

Start Seu dia:
A Newsletter do AGORA!