Dados utilizados para treinar modelos de inteligência artificial (IA) estão se tornando cada vez mais escassos. Pelo menos é o que diz um estudo realizado por um grupo de instituições, incluindo a Epoch, Universidade de Aberdeen, MIT e Universidade de Tübingen, que alerta que esses recursos devem se esgotar até 2026. Além disso, dados linguísticos e de imagem de alta qualidade podem seguir o mesmo caminho entre 2030 e 2060. As previsões levantam questões sobre o futuro da IA e o seu desempenho a favor da humanidade.
A falta de dados de alta qualidade pode prejudicar o desenvolvimento de novas tecnologias, limitar a capacidade de aprendizado das ferramentas e levar à piora de desempenho em tarefas como tradução automática, reconhecimento de fala e geração de texto. Esse cenário pode ter implicações em áreas vitais como saúde, educação e finanças, que cada vez mais dependem da IA para operar de forma eficiente. A seguir, entenda por que os dados de alta qualidade são importantes para o desenvolvimento das IAs e saiba se essas plataformas podem acabar em um futuro próximo.

O que diz a pesquisa sobre dados para treinar IAs?

O estudo destaca que a qualidade dos dados é fundamental para o sucesso de qualquer modelo de IA. Dados precisos, relevantes, éticos e adequados são essenciais para treinar modelos robustos e confiáveis. No entanto, a coleta e a curadoria exigem tempo e recursos consideráveis, o que torna essa tarefa cada vez mais desafiadora.
Além disso, o documento aborda a previsão de esgotamento dos dados de alta qualidade para treinamento de modelos de linguagem em um futuro próximo, destacando a necessidade de considerar a eficiência dos dados e a busca por novas fontes para sustentar o progresso contínuo. A análise também aponta para a importância de desenvolver métricas automáticas robustas, melhorando a qualidade dos conjuntos de dados utilizados nos modelos de IA.
Por que os dados de alta qualidade são importantes para a inteligência artificial?
Os dados são a matéria-prima que alimenta e molda os sistemas de IA. A utilização de informações de alta qualidade durante o treinamento dessas plataformas é essencial para assegurar a precisão e a confiabilidade das previsões e respostas geradas. Dados precisos capacitam as ferramentas a oferecer respostas corretas e previsões assertivas, diminuindo o risco de “alucinações”.
Quando abastecidas com informações confiáveis, as IAs se tornam mais abrangentes, versáteis e assertivas em diversos contextos. A qualidade das informações aprendidas também influencia na capacidade da inteligência artificial de aplicar seus conhecimentos em novas situações, principalmente em aplicações críticas, como na área da saúde ou segurança, por exemplo.

Além da precisão e confiabilidade, os dados utilizados no treinamento de IAs também devem ser seguros, não contendo informações sensíveis, como dados pessoais ou financeiros. Garantir a ética e a segurança dos dados também ajuda a evitar que os modelos reproduzam preconceitos ou informações sensíveis que possam prejudicar ou ofender indivíduos e grupos. Foi o que aconteceu, por exemplo, com o Gemini Google, que teve que pausar a geração de imagens recentemente, após produzir representações históricas equivocadas.
É o fim dos modelos de inteligência artificial?
O futuro da IA pode parecer complexo diante dos desafios, como a escassez de dados e a disseminação de informações enviesadas. Mas isso não significa que essa tecnologia vai acabar. O progresso na pesquisa e na inovação continua impulsionando o desenvolvimento de novas técnicas de treinamento que contornam obstáculos como esses. A ação colaborativa entre governos e instituições de pesquisa pode ser a chave para encontrar soluções. Isso inclui a criação de incentivos para compartilhamento de informações e o investimento em pesquisas voltadas para o aprimoramento da eficiência dos modelos de IA.
Uma possibilidade promissora é a melhoria dos algoritmos pelos desenvolvedores de IA, possibilitando o uso mais eficiente dos dados disponíveis. No futuro, é possível que os modelos sejam treinados com menos dados, o que não apenas impulsionaria a eficiência da IA, mas também contribuiria para a redução do impacto ambiental gerado por essa indústria. Além disso, há um excesso de conteúdos para além do espaço online gratuito que poderiam ser explorados. Material de grandes editoras e repositórios offline representam uma fonte potencialmente valiosa de aprendizado.

Conteúdos digitais protegidos por acesso pago também podem ser disponibilizados futuramente. Um exemplo recente é a iniciativa da News Corp, uma das maiores proprietárias de conteúdo de notícias do mundo, que anunciou negociações de conteúdos para os desenvolvedores de IA. A colaboração com empresas de mídia têm o potencial de ampliar significativamente os conjuntos de dados disponíveis para treinamento, impulsionando a inovação no campo da inteligência artificial.
Outro caminho para garantir a longevidade das IAs são os esforços para aprimorar a geração dos dados sintéticos, ou seja, informações ilimitadas criadas por computadores que reproduzem as características e padrões do mundo real. Esse conteúdo é gerado por algoritmos e simulações computacionais, utilizando tecnologias de inteligência artificial generativa. Essa estratégia não só aumenta a disponibilidade de material para treinamento das IAs, como oferece uma alternativa eficaz para cenários em que a obtenção de dados reais é limitada ou restrita devido a questões de privacidade, segurança ou custo.
Com informações de Techxplore e Amazon
















