Entenda o que é “dirty data” e como isso atrapalha o desenvolvimento de IA

Faculdade de Educação Tecnológica do Estado do Rio de Janeiro

Entenda o que é “dirty data” e como isso atrapalha o desenvolvimento de IA

Pesquisa aponta que o maior problema encontrado por profissionais das áreas de aprendizado de máquina e ciência de dados é o que eles chamam de “dirty data”.

Por: Leonardo Müller

Uma pesquisa realizada pela plataforma Kaggle apontou que o maior problema encontrado por profissionais das áreas de aprendizado de máquina e ciência de dados é o que eles chamam de “dirty data”. Em tradução literal para o português, isso significa “dados sujos”, mas para você entender melhor o que isso significa e como atrapalha o desenvolvimento de inteligência artificial, é bom pensar em “dirty data” como “dados não coesos” ou “dados incompletos”.

A pesquisa da Kaggle aponta que 49,4% dos cerca de 16 mil profissionais entrevistados considera que dirty data é a maior barreira a ser suplantada ao realizar projetos que envolvam aprendizado de máquina e inteligência artificial. O único outro problema comparável é a falta de talento especializado na área, apontada por 41% como a grande barreira.

Mas vamos falar primeiro acerca dessa questão dos dados. Quem não trabalha nessa área pode achar que desenvolver inteligência artificial, por exemplo, pode ser algo glamoroso, mas o pessoal que coloca a mão na massa passa a maior parte do tempo conferindo planilhas para ver se não estão faltando valores, se existem informações erradas e algumas outras incongruências.

Isso é importante porque os modelos usados para aprendizado de máquina requerem uma grande quantidade de dados para conseguir traçar padrões e parâmetros, mas esses dados precisam ser de alta qualidade. Isto é, sem erros, valores faltando ou informações erradas. Em outras palavras, é como se você estivesse lidando com uma pessoa extremamente exigente que só consegue aprender em circunstâncias absolutamente apropriadas.

Evandro Dalbem, cientista de dados da Cognitivo.ai, diz que existe um ditado entre os profissionais de sua área para descrever essa situação. “Se estiver entrando lixo, vai sair lixo. Se você não fizer o preparo correto, não adianta ter um modelo supermoderno. Vai sair lixo”, comentou ao TecMundo.

De onde surge esses dados inconsistentes?

Dalbem explicou que existem algumas formas de gerar “dirty data” ou inconsistências no banco de dados de um determinado serviço ou empresa. Entre os mais comuns estão as mudanças de processo e também a inclusão de valores errados por seres humanos.

“Imagina que você começou uma empresa, passou a conseguir clientes e também informações sobre essas pessoas. Em determinado momento, você decide mudar a forma como você guarda ou coleta esses detalhes. Você começa então a fazer transformações no seu banco de dados, como a inclusão de novos campos a serem preenchidos nos cadastros. Com isso, você passa a ter alguns valores extras para os clientes novos que os antigos não tinham. Isso pode gerar um pequeno caos. Vai chegar uma hora em que a sua estrutura não vai suportar mais isso”, detalhou.

Esse tipo de problema pode atrapalhar o desenvolvimento de ferramentas inteligentes a partir de um banco de dados tão “sujo”, mas também pode ser uma oportunidade para quem trabalha na área. É possível desenvolver ferramentas que aprendem a fazer cadastros, preencher bancos de dados com muitos detalhes, automaticamente para evitar erros humanos. Sites que vendem produtos online podem se beneficiar imensamente desse tipo de coisa.

“O bom cadastro custa caro, é uma tarefa intensa. Uma vez que você tem informações estruturadas, você consegue trabalhar com SEO e melhorar o rankeamento dos seus produtos em buscadores e, consequentemente, melhorar as vendas”, destacou Dalbem.

Essas ferramentas que coletam dados automaticamente são vitais para outros segmentos além do comércio virtual. A Netflix, por exemplo, é uma das empresas que construiu seu negócio em volta desse tipo de ferramenta. Ela vem coletando informações sobre o gosto de seus assinantes há anos para preencher um banco de dados complexo que, posteriormente, serve para outro software inteligente analisar e fazer recomendações de outros filmes e séries que seus clientes podem gostar. Em outras palavras, isso permite uma garante extremamente personalizada.

Como surfar nessa onda

Nós já reportamos aqui no TecMundo que a maior demanda do setor corporativo por recurso de TI é hoje relacionada à tecnologia de nuvem. Inteligência artificial ainda é um setor que engatinha, mas certamente tem um futuro promissor. O CEO do Deutsche Bank, John Cryan, já comentou que metade dos trabalhadores atuais da instituição poderão ser substituídos nos próximos anos por ferramentas inteligentes, automatizando boa parte das funcionalidades do banco.

Ao passo que essas pessoas perdem seus empregos, quem trabalha com aprendizado de máquina e inteligência artificial terá muito mais oportunidade. A própria Cognitivo.ia, onde Evandro Dalbem trabalha, é um exemplo dessa mudança e também um reflexo de como essa área ainda tem poucas pessoas trabalhando com uma demanda interessante.

A startup é, em termos leigos, o Uber da inteligência artificial porque ela conecta profissionais capazes e especializados com clientes que precisam realizar projetos específicos. Camile Shinohara, gerente de marketing da plataforma, explica que o mercado local ainda é incipiente, mas está se desenvolvendo. “Percebemos que tudo isso ainda está no começo, mas já está surgindo, está em construção”. Como em praticamente qualquer área, quem entra na corrida mais cedo, tem mais chances de sucesso.

Por isso, quem está tentando escolher uma profissão para seu futuro ou uma área promissora para se especializar, aprendizado de máquina e inteligência artificial certamente são boas pedidas. De acordo com Dalbem, o profissional dessa área precisa ter um conhecimento interessante em pelo menos três segmentos: desenvolvimento de software, matemática e estatística. A linguagem de programação que a pessoa precisa aprender, nesse caso, é o Python, que tem uma grande comunidade de suporte e é considerada muito adequada para esse tipo de atividade.

Fonte: TecMundo

Texto Original:
https://www.tecmundo.com.br/software/123935-entenda-dirty-data-atrapalha-o-desenvolvimento-ia.htm