EITC/AI/ARL Advanced Reinforcement Learning é o programa europeu de certificação de TI na abordagem da DeepMind para aprendizado por reforço em inteligência artificial.
O currículo do EITC/AI/ARL Advanced Reinforcement Learning concentra-se em aspectos teóricos e habilidades práticas em técnicas de aprendizado por reforço sob a perspectiva do DeepMind organizado na seguinte estrutura, abrangendo conteúdo didático de vídeo abrangente como referência para esta Certificação EITC.
Aprendizagem por reforço (RL) é uma área de aprendizagem de máquina preocupada com como os agentes inteligentes devem realizar ações em um ambiente a fim de maximizar a noção de recompensa cumulativa. O aprendizado por reforço é um dos três paradigmas básicos do aprendizado de máquina, ao lado do aprendizado supervisionado e do aprendizado não supervisionado.
A aprendizagem por reforço difere da aprendizagem supervisionada por não precisar da apresentação de pares de entrada/saída rotulados e por não precisar que ações abaixo do ideal sejam explicitamente corrigidas. Em vez disso, o foco está em encontrar um equilíbrio entre a exploração (de território não mapeado) e a exploração (de conhecimento atual).
O ambiente é tipicamente apresentado na forma de um processo de decisão de Markov (MDP), porque muitos algoritmos de aprendizagem por reforço para este contexto usam técnicas de programação dinâmica. A principal diferença entre os métodos clássicos de programação dinâmica e os algoritmos de aprendizagem por reforço é que os últimos não assumem o conhecimento de um modelo matemático exato do MDP e têm como alvo grandes MDPs onde os métodos exatos se tornam inviáveis.
Devido à sua generalidade, o aprendizado por reforço é estudado em muitas disciplinas, como teoria dos jogos, teoria do controle, pesquisa operacional, teoria da informação, otimização baseada em simulação, sistemas multiagentes, inteligência de enxame e estatística. Na literatura de pesquisa e controle de operações, a aprendizagem por reforço é chamada de programação dinâmica aproximada ou programação neuro-dinâmica. Os problemas de interesse na aprendizagem por reforço também têm sido estudados na teoria do controle ótimo, que se preocupa principalmente com a existência e caracterização de soluções ótimas e algoritmos para o seu cálculo exato, e menos com aprendizagem ou aproximação, particularmente na ausência de um modelo matemático do meio ambiente. Em economia e teoria dos jogos, o aprendizado por reforço pode ser usado para explicar como o equilíbrio pode surgir sob a racionalidade limitada.
O reforço básico é modelado como um processo de decisão de Markov (MDP). Em matemática, um processo de decisão de Markov (MDP) é um processo de controle estocástico em tempo discreto. Ele fornece uma estrutura matemática para modelar a tomada de decisão em situações onde os resultados são parcialmente aleatórios e parcialmente sob o controle de um tomador de decisão. Os MDPs são úteis para estudar problemas de otimização resolvidos por meio de programação dinâmica. Os MDPs eram conhecidos pelo menos já na década de 1950. Um corpo central de pesquisa sobre os processos de decisão de Markov resultou do livro de Ronald Howard, de 1960, Dynamic Programming and Markov Processes. Eles são usados em muitas disciplinas, incluindo robótica, controle automático, economia e manufatura. O nome dos MDPs vem do matemático russo Andrey Markov, pois são uma extensão das cadeias de Markov.
Em cada etapa de tempo, o processo está em algum estado S, e o tomador de decisão pode escolher qualquer ação a que esteja disponível no estado S. O processo responde na próxima etapa de tempo movendo-se aleatoriamente para um novo estado S ', e dando o tomador de decisão uma recompensa correspondente Ra (S, S ').
A probabilidade de que o processo entre em seu novo estado S 'é influenciada pela ação escolhida a. Especificamente, é dado pela função de transição de estado Pa (S, S '). Assim, o próximo estado S 'depende do estado atual S e da ação do tomador de decisão a. Mas dados S e a, é condicionalmente independente de todos os estados e ações anteriores. Em outras palavras, as transições de estado de um MDP satisfazem a propriedade Markov.
Os processos de decisão de Markov são uma extensão das cadeias de Markov; a diferença é a adição de ações (permitindo a escolha) e recompensas (dando motivação). Inversamente, se existir apenas uma ação para cada estado (por exemplo, “esperar”) e todas as recompensas forem iguais (por exemplo, “zero”), um processo de decisão de Markov se reduz a uma cadeia de Markov.
Um agente de aprendizagem por reforço interage com seu ambiente em intervalos de tempo discretos. A cada tempo t, o agente recebe o estado atual S (t) e a recompensa r (t). Em seguida, ele escolhe uma ação a (t) do conjunto de ações disponíveis, que é posteriormente enviada ao ambiente. O ambiente muda para um novo estado S (t + 1) e a recompensa r (t + 1) associada à transição é determinada. O objetivo de um agente de aprendizagem por reforço é aprender uma política que maximize a recompensa cumulativa esperada.
A formulação do problema como um MDP assume que o agente observa diretamente o estado ambiental atual. Nesse caso, diz-se que o problema é totalmente observável. Se o agente só tem acesso a um subconjunto de estados, ou se os estados observados são corrompidos por ruído, diz-se que o agente tem observabilidade parcial e, formalmente, o problema deve ser formulado como um processo de decisão de Markov parcialmente observável. Em ambos os casos, o conjunto de ações disponíveis para o agente pode ser restringido. Por exemplo, o estado do saldo de uma conta pode ser restrito a positivo; se o valor atual do estado for 3 e a transição de estado tentar reduzir o valor em 4, a transição não será permitida.
Quando o desempenho do agente é comparado ao de um agente que atua de forma ótima, a diferença de desempenho dá origem à noção de arrependimento. Para agir de forma quase ideal, o agente deve raciocinar sobre as consequências de longo prazo de suas ações (ou seja, maximizar a renda futura), embora a recompensa imediata associada a isso possa ser negativa.
Assim, a aprendizagem por reforço é particularmente adequada para problemas que incluem uma troca de recompensa de longo prazo versus curto prazo. Ele foi aplicado com sucesso a vários problemas, incluindo controle de robô, programação de elevador, telecomunicações, gamão, damas e Go (AlphaGo).
Dois elementos tornam o aprendizado por reforço poderoso: o uso de amostras para otimizar o desempenho e o uso de aproximação de funções para lidar com grandes ambientes. Graças a esses dois componentes principais, o aprendizado por reforço pode ser usado em grandes ambientes nas seguintes situações:
- Um modelo do ambiente é conhecido, mas uma solução analítica não está disponível.
- Apenas um modelo de simulação do ambiente é fornecido (o assunto de otimização baseada em simulação).
- A única maneira de coletar informações sobre o meio ambiente é interagir com ele.
Os dois primeiros desses problemas podem ser considerados problemas de planejamento (já que alguma forma de modelo está disponível), enquanto o último pode ser considerado um problema de aprendizagem genuíno. No entanto, o aprendizado por reforço converte ambos os problemas de planejamento em problemas de aprendizado de máquina.
O trade-off exploração vs. exploração foi mais exaustivamente estudado através do problema do bandido multi-armado e para MDPs de espaço de estado finito em Burnetas e Katehakis (1997).
A aprendizagem por reforço requer mecanismos de exploração inteligentes; a seleção aleatória de ações, sem referência a uma distribuição de probabilidade estimada, mostra um desempenho ruim. O caso de processos de decisão de Markov (pequenos) finitos é relativamente bem compreendido. No entanto, devido à falta de algoritmos que escalam bem com o número de estados (ou escalam para problemas com espaços de estados infinitos), métodos de exploração simples são os mais práticos.
Mesmo que a questão da exploração seja desconsiderada e mesmo que o estado seja observável, o problema continua sendo usar a experiência passada para descobrir quais ações levam a recompensas cumulativas mais altas.
Para se familiarizar em detalhes com o currículo de certificação, você pode expandir e analisar a tabela abaixo.
O EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum faz referência a materiais didáticos de acesso aberto em formato de vídeo. O processo de aprendizagem é dividido em uma estrutura passo a passo (programas -> aulas -> tópicos) que cobre partes curriculares relevantes. Consultoria ilimitada com especialistas de domínio também são fornecidos.
Para obter detalhes sobre o procedimento de Certificação, verifique Como funciona.
Recursos de referência do currículo
Controle de nível humano por meio da publicação Deep Reinforcement Learning
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Curso de acesso aberto sobre aprendizagem por reforço profundo na UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL aplicado ao problema de bandido armado em K de Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Baixe os materiais preparatórios de autoaprendizagem off-line completos para o programa EITC/AI/ARL Advanced Reinforcement Learning em um arquivo PDF
Materiais preparatórios EITC/AI/ARL – versão padrão
Materiais preparatórios EITC/AI/ARL – versão estendida com perguntas de revisão