Visualizações únicas de redes neurais: decodificador de máquina versus reconhecimento sensorial humano

resumo: Um novo estudo investiga o misterioso mundo das redes neurais profundas, descobrindo que embora estes modelos possam reconhecer objetos semelhantes aos sistemas sensoriais humanos, as suas estratégias de reconhecimento diferem da percepção humana. Quando se pede às redes que gerem estímulos semelhantes a uma determinada entrada, muitas vezes produzem imagens e sons irreconhecíveis ou distorcidos.

Isto sugere que as redes neurais cultivam as suas próprias “constantes” distintas, que são totalmente diferentes dos padrões perceptivos humanos. A pesquisa fornece insights sobre a avaliação de modelos que imitam as percepções sensoriais humanas.

Principais fatos:

As redes neurais profundas, ao gerarem estímulos semelhantes a uma determinada entrada, muitas vezes produzem imagens ou sons que não têm nenhuma semelhança com o alvo.
Os modelos parecem desenvolver constantes únicas, diferentes dos sistemas perceptivos humanos, que os fazem perceber os estímulos de maneira diferente dos humanos.
O uso do treinamento competitivo pode tornar os estímulos gerados por modelos mais reconhecíveis pelos humanos, mesmo que não sejam idênticos à entrada original.

fonte: Instituto de Tecnologia de Massachusetts

Os sistemas sensoriais humanos são muito bons em reconhecer coisas que vemos ou palavras que ouvimos, mesmo que o objeto esteja de cabeça para baixo ou a palavra seja pronunciada com um som que nunca ouvimos antes.

Modelos de computador conhecidos como redes neurais profundas podem ser treinados para fazer a mesma coisa, identificando corretamente a imagem de um cachorro, independentemente da cor de seu pelo, ou identificando uma palavra, independentemente do tom de voz de quem fala. No entanto, um novo estudo realizado por neurocientistas do MIT descobriu que estes modelos muitas vezes respondem da mesma forma a imagens ou palavras diferentes do alvo.

Quando essas redes neurais foram usadas para gerar uma imagem ou palavra que respondesse da mesma forma que uma entrada natural específica, como a imagem de um urso, a maioria delas gerava imagens ou sons que os observadores humanos não conseguiam reconhecer. Isto sugere que estes modelos constroem os seus próprios “invariantes”, o que significa que respondem da mesma forma a estímulos com características muito diferentes.

As descobertas oferecem uma nova maneira para os pesquisadores avaliarem até que ponto esses modelos imitam bem a organização da percepção sensorial humana, diz Josh McDermott, professor associado de ciências cerebrais e cognitivas do MIT e membro do Instituto McGovern de Pesquisa do Cérebro e do Centro de Cérebros do MIT. . Mentes e máquinas.

“Este artigo mostra que é possível usar esses modelos para extrair sinais anormais que, em última análise, levam a um diagnóstico das representações do modelo”, diz McDermott, autor principal do estudo. “Este teste deve se tornar parte de um conjunto de testes que usamos como campo para avaliar modelos.”

Jenelle Feather Ph.D. ’22, agora pesquisadora do Centro de Neurociência Computacional do Flatiron Institute, é autora principal do artigo de acesso aberto, que aparece hoje em Neurociência normal. Guillaume Leclerc, estudante de pós-graduação no MIT, e Alexandre Madry, Professor Cadence de Design Systems for Computing no MIT, também são autores do artigo.

Percepções diferentes

Nos últimos anos, os pesquisadores treinaram redes neurais profundas que podem analisar milhões de entradas (sons ou imagens) e aprender características comuns que lhes permitem classificar uma palavra ou objeto alvo com a mesma precisão que os humanos. Esses modelos são atualmente considerados os principais modelos de sistemas sensoriais biológicos.

Pensa-se que quando o sistema sensorial humano realiza este tipo de categorização, aprende a ignorar características que não estão relacionadas com a identidade básica do objecto, como a quantidade de luz que incide sobre ele ou o ângulo a partir do qual é visto. Isso é conhecido como invariância, o que significa que os objetos são percebidos como iguais, mesmo que apresentem diferenças nas características menos importantes.

“Classicamente, a forma como pensamos sobre os sistemas sensoriais é que eles constroem invariantes para todas as fontes de variação que diferentes exemplos da mesma coisa podem ter”, diz Feather. “O organismo deve perceber que são a mesma coisa, embora apareçam como sinais sensoriais completamente diferentes.”

Os pesquisadores se perguntaram se redes neurais profundas treinadas para realizar tarefas de classificação poderiam desenvolver invariantes semelhantes. Para tentar responder a essa pergunta, eles usaram esses modelos para gerar estímulos que produzissem o mesmo tipo de resposta dentro do modelo como exemplo de estímulo que os pesquisadores forneceram ao modelo.

Eles chamam esses estímulos de “medidas típicas”, revivendo uma ideia da pesquisa clássica de percepção, onde estímulos indistinguíveis de um sistema podem ser usados para diagnosticar suas constantes. O conceito de analogias foi originalmente desenvolvido no estudo da percepção humana para descrever cores que parecem idênticas, embora sejam compostas por diferentes comprimentos de onda de luz.

Para sua surpresa, os investigadores descobriram que a maioria das imagens e sons produzidos desta forma não se assemelhavam aos exemplos originalmente fornecidos pelos modelos. A maioria das imagens era uma confusão de pixels de aparência aleatória, e os sons pareciam ruídos ininteligíveis. Quando os pesquisadores mostraram as imagens aos observadores humanos, na maioria dos casos os humanos não categorizaram as imagens sintetizadas pelos modelos na mesma categoria do exemplo alvo original.

“Na verdade, eles são completamente irreconhecíveis para os humanos. Eles não parecem nem soam naturais e não possuem características interpretáveis que alguém possa usar para classificar um objeto ou palavra”, diz Feather.

Os resultados sugerem que os modelos desenvolveram de alguma forma as suas próprias constantes que diferem daquelas encontradas nos sistemas cognitivos humanos. Isso faz com que os modelos percebam os pares de estímulos como iguais, embora sejam significativamente diferentes dos humanos.

Constantes jurisprudenciais

Os pesquisadores encontraram o mesmo efeito em muitos paradigmas diferentes de visão e audição. No entanto, cada um destes modelos parece desenvolver as suas próprias constantes únicas. Quando os medidores de um modelo foram apresentados a outro modelo, os medidores do segundo modelo não eram tão reconhecíveis como eram para os observadores humanos.

“A principal conclusão disso é que esses modelos parecem ter o que chamamos de invariantes característicos”, diz McDermott. “Eles aprenderam a ser invariantes a essas dimensões específicas do campo de estímulo, que é específico de um modelo específico, de modo que outros modelos não têm os mesmos invariantes.”

Os pesquisadores também descobriram que poderiam estimular as métricas do modelo para serem mais reconhecíveis pelos humanos usando uma abordagem chamada treinamento adversário. Esta abordagem foi originalmente desenvolvida para combater outra limitação dos modelos de reconhecimento de objetos, que é que a introdução de pequenas alterações quase imperceptíveis em uma imagem pode fazer com que o modelo a reconheça incorretamente.

Os investigadores descobriram que o treino competitivo, que envolvia a inclusão de algumas destas imagens ligeiramente modificadas nos dados de treino, produzia modelos cujas métricas eram mais reconhecíveis pelos humanos, embora ainda não fossem tão reconhecíveis como os estímulos originais. Os investigadores dizem que esta melhoria parece ser independente do efeito do treino na capacidade dos modelos de resistir a ataques hostis.

“Esse tipo de treinamento tem um grande efeito, mas não sabemos realmente por que ocorre esse efeito”, diz Feather. “Esta é uma área para pesquisas futuras.”

A análise de métricas produzidas por modelos computacionais pode ser uma ferramenta útil para ajudar a avaliar até que ponto um modelo computacional imita a organização básica dos sistemas perceptivos humanos, dizem os pesquisadores.

“Este é um teste comportamental que você pode realizar em um modelo específico para ver se as constantes são compartilhadas entre o modelo e os observadores humanos”, diz Feather. “Também pode ser usado para avaliar quão específicas são as constantes dentro de um determinado modelo, o que pode ajudar a revelar possíveis formas de melhorar nossos modelos no futuro.”

Financiamento: A National Science Foundation, os Institutos Nacionais de Saúde, a Bolsa de Pós-Graduação em Ciência da Computação do Departamento de Energia e uma bolsa de estudos do Friends of the McGovern Institute financiaram a pesquisa.

Sobre Inteligência Artificial e Notícias de Pesquisa em Cognição

autor: Sarah McDonnell
fonte: Instituto de Tecnologia de Massachusetts
comunicação: Sarah McDonnell – Instituto de Tecnologia de Massachusetts
foto: Imagem creditada ao Neuroscience News

Pesquisa original: Acesso livre.
“Ferramentas de medição típicas revelam invariantes variados entre redes neurais biológicas e artificiais“Por Josh McDermott et al. Neurociência normal

um resumo

Ferramentas de medição típicas revelam invariantes variados entre redes neurais biológicas e artificiais

Modelos de redes neurais profundas de sistemas sensoriais são frequentemente propostos para aprender transformações representacionais com invariâncias, como as do cérebro. Para descobrir esses invariantes, criamos “métricas de modelo”, que são estímulos cujas ativações na fase do modelo correspondem às do estímulo natural.

Instrumentos para modelos modernos de redes neurais supervisionadas e não supervisionadas de visão e audição têm sido frequentemente completamente irreconhecíveis para os humanos quando gerados a partir de estágios finais do modelo, sugerindo diferenças entre o modelo e os invariantes humanos. Mudanças direcionadas no modelo melhoraram o reconhecimento humano das ferramentas de medição do modelo, mas não eliminaram a discrepância geral entre o modelo humano.

A capacidade de reconhecimento humano das métricas do modelo é bem prevista pela sua capacidade de reconhecimento por outros modelos, sugerindo que os modelos contêm invariantes distintos além daqueles exigidos pela tarefa.

A capacidade de reconhecimento do metâmero é dissociada dos critérios tradicionais baseados no cérebro e dos critérios fracamente adversários, revelando um modo de falha distinto dos modelos sensoriais existentes e fornecendo um critério complementar para avaliação do modelo.

Eufémia Izer

“Aficionado por música. Jogador. Praticante de álcool. Leitor profissional. Estudioso da web.”

Visualizações únicas de redes neurais: decodificador de máquina versus reconhecimento sensorial humano

Deve ler

Os Patriots começarão a usar o quarterback Jacoby Brissett na semana 1, segundo fontes

Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro

Último naufrágio do iate bayesiano: a esposa de Mike Lynch ‘não queria sair do barco sem a família’ enquanto a tripulação era investigada

Tufão japonês Shanshan: milhões de pessoas devem evacuar enquanto o tufão mais forte atinge o Japão em décadas

Sobre Inteligência Artificial e Notícias de Pesquisa em Cognição

Últimos artigos

Os Patriots começarão a usar o quarterback Jacoby Brissett na semana 1, segundo fontes

Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro

Último naufrágio do iate bayesiano: a esposa de Mike Lynch ‘não queria sair do barco sem a família’ enquanto a tripulação era investigada

Tufão japonês Shanshan: milhões de pessoas devem evacuar enquanto o tufão mais forte atinge o Japão em décadas

Lucros da Best Buy (BBY) no segundo trimestre de 2025

Últimas Notícias

Os Patriots começarão a usar o quarterback Jacoby Brissett na semana 1, segundo fontes

Vazamentos revelam o nome e design do suposto dispositivo PS5 Pro

Notícias populares

Resumo e reação do WWE SmackDown: Unite, Shutdown, Oh My God!

C. DeLamb, dos Cowboys, não deve comparecer ao campo de treinamento em meio a negociações de contrato: fontes

Menu