Quais são os principais componentes de uma rede neural convolucional (CNN) e seus respectivos papéis nas tarefas de reconhecimento de imagem?

by Academia EITCA / Terça-feira, 08 de Agosto de 2023 / Publicado em Inteligência artificial, Aprendizado profundo EITC/AI/DLTF com TensorFlow, Redes neurais convolucionais no TensorFlow, Redes neurais convolucionais com TensorFlow, revisão do exame

Uma rede neural convolucional (CNN) é um tipo de modelo de aprendizado profundo que tem sido amplamente utilizado em tarefas de reconhecimento de imagem. Ele foi projetado especificamente para processar e analisar dados visuais com eficiência, tornando-o uma ferramenta poderosa em aplicativos de visão computacional. Nesta resposta, discutiremos os principais componentes de uma CNN e suas respectivas funções nas tarefas de reconhecimento de imagem.

1. Camadas convolucionais: As camadas convolucionais são os blocos de construção de uma CNN. Eles consistem em um conjunto de filtros ou kernels que podem ser aprendidos que são convoluídos com a imagem de entrada para produzir mapas de recursos. Cada filtro detecta um padrão ou recurso específico na imagem, como bordas, cantos ou texturas. A operação de convolução envolve deslizar o filtro sobre a imagem e calcular o produto escalar entre os pesos do filtro e o patch da imagem correspondente. Esse processo é repetido para cada local da imagem, gerando um mapa de características que destaca a presença de diferentes feições.

Exemplo: Vamos considerar um filtro 3×3 que detecta arestas horizontais. Quando convoluído com uma imagem de entrada, produzirá um mapa de recursos que enfatiza as bordas horizontais da imagem.

2. Camadas de agrupamento: As camadas de agrupamento são usadas para reduzir a amostra dos mapas de recursos gerados pelas camadas convolucionais. Eles reduzem as dimensões espaciais dos mapas de recursos enquanto retêm as informações mais importantes. A operação de agrupamento mais comumente usada é o agrupamento máximo, que seleciona o valor máximo dentro de uma janela de agrupamento. Isso ajuda a reduzir a complexidade computacional da rede e a torna mais robusta a pequenas variações espaciais na imagem de entrada.

Exemplo: Aplicar o pooling máximo com uma janela de pooling 2 × 2 em um mapa de recursos selecionará o valor máximo em cada região 2 × 2 não sobreposta, reduzindo efetivamente as dimensões espaciais pela metade.

3. Funções de ativação: As funções de ativação introduzem não linearidade na CNN, permitindo que ela aprenda padrões complexos e faça previsões. A função de ativação mais comumente usada em CNNs é a Unidade Linear Retificada (ReLU), que calcula a saída como o máximo de zero e a entrada. O ReLU é preferido devido à sua simplicidade e capacidade de aliviar o problema do gradiente de fuga.

Exemplo: Se a saída de um neurônio for negativa, ReLU a define como zero, desligando efetivamente o neurônio. Se a saída for positiva, ReLU a mantém inalterada.

4. Camadas totalmente conectadas: as camadas totalmente conectadas são responsáveis por fazer as previsões finais com base nos recursos extraídos. Eles pegam os mapas de recursos achatados das camadas anteriores e os passam por uma série de neurônios totalmente conectados. Cada neurônio na camada totalmente conectada é conectado a cada neurônio na camada anterior, permitindo que ele aprenda relacionamentos complexos entre recursos e faça previsões precisas.

Exemplo: em uma tarefa de reconhecimento de imagem, a camada totalmente conectada pode ter neurônios correspondentes a diferentes classes, como "gato", "cachorro" e "carro". A saída da camada totalmente conectada pode ser interpretada como as probabilidades da imagem de entrada pertencente a cada classe.

5. Função de Perda: A função de perda mede a discrepância entre as saídas previstas e os rótulos de verdade. Ele quantifica o desempenho da CNN na tarefa em questão e fornece um sinal para atualizar os parâmetros do modelo durante o treinamento. A escolha da função de perda depende da tarefa de reconhecimento de imagem específica, como entropia cruzada binária para classificação binária ou entropia cruzada categórica para classificação multiclasse.

Exemplo: Em uma tarefa de classificação binária, a perda de entropia cruzada binária compara a probabilidade prevista da classe positiva com o rótulo verdadeiro (0 ou 1) e penaliza grandes discrepâncias entre eles.

Uma rede neural convolucional (CNN) consiste em camadas convolucionais, camadas de agrupamento, funções de ativação, camadas totalmente conectadas e uma função de perda. As camadas convolucionais extraem recursos significativos da imagem de entrada, enquanto as camadas de pool reduzem a amostragem dos mapas de recursos. As funções de ativação introduzem a não linearidade e as camadas totalmente conectadas fazem as previsões finais. A função de perda mede a discrepância entre as saídas previstas e os rótulos de verdade, orientando o processo de treinamento.

Outras perguntas e respostas recentes sobre Redes neurais convolucionais no TensorFlow:

Mais perguntas e respostas:

Campo: Inteligência artificial
programa: Aprendizado profundo EITC/AI/DLTF com TensorFlow (ir para o programa de certificação)
Lição: Redes neurais convolucionais no TensorFlow (vá para a lição relacionada)
Tópico: Redes neurais convolucionais com TensorFlow (ir para tópico relacionado)
revisão do exame

Tagged sob: Inteligência artificial, CNN, Visão de Computador, Rede Neural Convolucional, Aprendizagem profunda, Reconhecimento de Imagem

Academia EITCA

Quais são os principais componentes de uma rede neural convolucional (CNN) e seus respectivos papéis nas tarefas de reconhecimento de imagem?

Outras perguntas e respostas recentes sobre Redes neurais convolucionais no TensorFlow:

Mais perguntas e respostas:

A EITCA Academy faz parte da estrutura europeia de certificação de TI

Elegibilidade para EITCA Academy 80% do suporte de subsídio EITCI DSJC

Academia EITCA

Faça login na sua conta por seu nome de usuário ou endereço de e-mail

ESQUECEU SEUS DETALHES?

CRIAR UMA CONTA

Quais são os principais componentes de uma rede neural convolucional (CNN) e seus respectivos papéis nas tarefas de reconhecimento de imagem?

Outras perguntas e respostas recentes sobre Redes neurais convolucionais no TensorFlow:

Mais perguntas e respostas:

Elegibilidade para EITCA Academy 80% do suporte de subsídio EITCI DSJC