A arquitetura da rede neural usada no exemplo é uma rede neural feedforward com três camadas: uma camada de entrada, uma camada oculta e uma camada de saída. A camada de entrada consiste em 784 unidades, o que corresponde ao número de pixels na imagem de entrada. Cada unidade na camada de entrada representa o valor de intensidade de um pixel na imagem.
A camada oculta consiste em 128 unidades, que estão totalmente conectadas à camada de entrada. Cada unidade na camada oculta calcula uma soma ponderada das entradas da camada de entrada e aplica uma função de ativação para produzir uma saída. Neste exemplo, a função de ativação usada na camada oculta é a função de unidade linear retificada (ReLU). A função ReLU é definida como f(x) = max(0, x), onde x é a soma ponderada das entradas da unidade. A função ReLU introduz não linearidade na rede, permitindo que ela aprenda padrões e relacionamentos complexos nos dados.
A camada de saída consiste em 10 unidades, cada uma representando uma das classes possíveis no problema de classificação. As unidades na camada de saída também estão totalmente conectadas às unidades na camada oculta. Semelhante à camada oculta, cada unidade na camada de saída calcula uma soma ponderada das entradas da camada oculta e aplica uma função de ativação. Neste exemplo, a função de ativação usada na camada de saída é a função softmax. A função softmax converte a soma ponderada das entradas em uma distribuição de probabilidade sobre as classes, onde a soma das probabilidades é igual a 1. A unidade com maior probabilidade representa a classe prevista da imagem de entrada.
Para resumir, a arquitetura de rede neural usada no exemplo consiste em uma camada de entrada com 784 unidades, uma camada oculta com 128 unidades usando a função de ativação ReLU e uma camada de saída com 10 unidades usando a função de ativação softmax.
Outras perguntas e respostas recentes sobre Construindo uma rede neural para realizar a classificação:
- É necessário usar uma função de aprendizado assíncrono para modelos de aprendizado de máquina em execução no TensorFlow.js?
- Como o modelo é compilado e treinado no TensorFlow.js e qual é o papel da função categórica de perda de entropia cruzada?
- Qual é a importância da taxa de aprendizado e do número de épocas no processo de aprendizado de máquina?
- Como os dados de treinamento são divididos em conjuntos de treinamento e teste no TensorFlow.js?
- Qual é o objetivo do TensorFlow.js na construção de uma rede neural para tarefas de classificação?