Fabricio Breve - Página Pessoal
Português Português   English English
www.fabriciobreve.com
         
Informações Gerais
Publicações
Currículo Lattes
Trabalhos Acadêmicos
Softwares
Links
Links
Análise de Sinais e Sistemas (UFSCar)
Teoria da Computação (EEP)
PHP (SENAC)
Banco de Dados I (FSL)
Redes de Computadores (FSL)
Laboratório de Programação (FSL)
Laboratório de Redes de Computadores e Sistemas Operacionais (FSL)
Sistemas Orientados a Objetos (UNESP)
Análise de Sistemas (UNESP)
Tópicos: Computação Avançada (UNESP)
Organização de Computadores (UNESP)
Redes de Computadores (UNESP)
Sistemas Operacionais II (UNESP)
Computação Inspirada pela Natureza (UNESP)

Google Scholar ORCID iD icon
 

NOTICE: This page is no longer mantained. Please check the new home page.

Máquinas Estocásticas e suas Aproximações Baseadas na Mecânica Estatística

Introdução

O tema mecânica estatística abrange o estudo formal das propriedades macroscópicas do equilíbrio de grandes sistemas de elementos que estão sujeitos às leis microscópicas da mecânica. São usados métodos probabilísticos devido ao alto número de graus de liberdade nesses sistemas.

O interesse na utilização da mecânica estatística como base para o estudo de redes neurais se iniciou com a máquina de Boltzmann, a primeira máquina de aprendizagem em múltiplas camadas inspirada pela mecânica estatística. Basicamente, a máquina de Boltzmann é um dispositivo para modelar a distribuição de densidade de probabilidade de um determinado conjunto de dados, de modo que possam ser derivadas distribuições condicionais que possam ser usadas em tarefas como complementação e classificação de padrões.

Mecânica Estatística

Dado um sistema físico com muitos graus de liberdade, podendo residir em qualquer estado de um grande número de estados possíveis, temos que a probabilidade de ocorrência de um estado i é dado por:

            para todo i

e

Considerando que  representa a energia do sistema quando está no estado i. a probabilidade de ocorrência de um estado é dada por

onde T é uma pseudotemperatura que controla as flutuações térmicas que representam o efeito de ruído sináptico de um neurônio. Também temos uma quantidade normalizadora Z, chamada de soma dos estados ou função de partição, dada por:

Essa distribuição de probabilidade é chamada distribuição de Gibbs e tem como características:

·         Estados de baixa energia têm maior probabilidade de ocorrência que estados de alta energia

·         Conforme a temperatura T é reduzida, a probabilidade é concentrada em um conjunto menor de estados de baixa energia

 

Energia Livre e Entropia

A energia livre de um sistema físico, representada por F, é dada por:

A energia média do sistema é dada por:

Portanto a energia livre é dada por:

O lado direito da equação, com execeção de T, é a entropia do sistema, dada por H como segue:

Assim podemos reescrever da seguinte forma:

A energia livre do sistema, F, tende a diminuir e se tornar mínima na situação de equilíbrio térmico do sistema. O mínimo de energia de um sistema estocástico em relação às variáveis do sistema é alcançado no equilíbrio térmico, onde então o sistema é governado pela distribuição de Gibbs.

Neurônios Estocásticos

Os neurônios estocásticos, diferentemente dos tradicionais, mudam seus estados de maneira probabilística, em vez de apenas determinística. Podem estar ligados (+1) ou desligados (-1). A vantagem é que a rede nunca fica parada em um estado estável pois os neurônios estarão sempre mudando, mesmo que a entrada não mude. Com a rede rodando livremente podemos gravar os estados por quais ela passa e construir uma distribuição de probabilidade destes estados.

Para exemplificar o funcionamento de um neurônio estocástico considere uma rede de Hopfield tradicional, onde cada neurônio muda para o estado cujo energia for menor, conforme a regra abaixo:

Se modificarmos a regra de atualização para fazer desse neurônio um neurônio estocástico, ela ficaria assim:

onde T é uma "temperatura" da rede, seguindo a nomenclatura do modelo físico em que foi inspirada.

Dessa forma o neurônio normalmente irá para o estado que reduz a energia do sistema, mas algumas vezes ele irá para o "estado errado" (da mesma forma que um sistema físico às vezes vai para estados de maior energia). Quanto maior for a temperatura T maior é a probabilidade de que o sistema possa ir para um estado de maior energia. Com temperatura zero o comportamento será igual ao neurônio determinístico.

Deixando a rede rodar por tempo suficiente é possível obter a distribuição de probabilidade dos estados que ela visita, porém é necessário esperar o equilíbrio térmico para fazer essa medida, ou seja, quando a média ativação do iésimo neurônio <Si> não estiver mais mudando com o tempo. A distribuição de probabilidade no equílibro térmico pode ser similar ao mundo real se mudarmos os pesos de conexões na rede de maneira correta.

Uma das principais vantagens dessa versão estocástica é que o estado inicial é irrelevante, pois enquanto a temperatura for relativamente alta sempre será possível "escapar" dos mínimos locais. Enquanto que usando neurônios determinísticos tradicionais o estado inicial é crucial para definir se a solução encontrada será ótima ou apenas um mínimo local.

Amostragem de Gibbs

 

Considere um vetor aleatório  de dimensionalidade K constituído das componentes . Suponha que tenhamos conhecimento da distribuição condicional de , dado os valores de todas as outras componentes de  para . O amostrador de Gibbs atua gerando um valor para a distribuição condicional para componente do vetor aleatório , dados os valores de todas as outras componentes de . Por exemplo, partindo de uma configuração qualquer , vamos fazer a primeira iteração da amostragem de Gibbs:

 

 

Procedemos da mesma maneira na segunda e demais iterações. Dois pontos devem ser considerados:

·         Cada componente do vetor aleatório X é "visitada" na ordem natural, com o resultado de K novas variantes geradas a cada iteração

·         O novo valor da componente XK-1 é usado imediatamente quando um novo valor de XK é retirado para k = 2, 3, ..., K

Portanto dizemos que o amostrador de Gibbs é um esquema adaptativo iterativo. Após n iterações de seu uso, chegamos a K variantes: .

Sob condições suaves são válidos três teoremas para a amostragem de Gibbs:

1.      Teorema de Convergência: a variável aleatória  converge em distribuição para as distribuições verdadeiras de  para quando n se aproxima do infinito; ou seja,

onde  é a função distribuição de probabilidade marginal de .

2.      Teorema da taxa de convergência: A distribuição de probabilidade conjunta das variáveis aleatórias  converge para a distribuição de probabilidade conjunta verdadeira de  em uma taxa geométrica de n.

3.      Teorema Ergódico: Para qualquer função mensurável g, por exemplo, das variáveis aleatórias  cujo valor esperado exista, temos

      com probabilidade 1 (quase certeza)

 

A Máquina de Helmholtz

            A máquina de Helmholtz fornece uma estrutura em múltiplas camadas para representar e aprender as relações estatísticas de ordem mais alta entre as entradas sensoriais de interesse de uma maneira não-supervisionada, sem usar a amostragem de Gibbs.

            Ela utiliza dois conjuntos totalmente diferentes de conexões sinápticas, conforme ilustrado na Figura 1, onde é mostrada uma rede com duas camadas de neurônios estocásticos e binários.

Figura 1. Grafo arquitetural da máquina de Helmholtz consistindo de neurônios conectados com conexões de reconhecimento (linhas sólidas) e de geração (linhas tracejadas)

 

As conexões para frente constituem o modelo de reconhecimento e inferem uma distribuição de probabilidade relacionada com as causas do vetor de entrada. As conexões de realimentação constituem o modelo de geração, e reconstroem uma aproximação do vetor de entrada original a partir das representações subjacentes capturadas pelas camadas ocultas da rede. Ambos os modelos de reconhecimento e geração trabalham exclusivamente com alimentação para a frente (sem realimentação) interagindo apenas através do processo de aprendizagem.

O aprendizado se dá em duas fases, uma fase acordada e uma fase adormecida. Na fase acordada, a rede é acionada para frente pelos pesos de reconhecimento produzindo uma representação do vetor de peso na primeira camada oculta da rede. A segunda camada oculta produz uma segunda representação da primeira representação, e assim por diante. O conjunto dessas representações fornece uma representação global do vetor de entrada pela rede. Embora os neurônios sejam ajustados pelo peso de reconhecimento, apenas os pesos de geração são ajustados nessa fase usando a informação disponível localmente.

Na fase adormecida os pesos de reconhecimento são desligados. A rede é acionada na direção contrária pelos pesos de geração, iniciando na camada oculta mais externa e terminando na camada visível. Pelo fato de os neurônios serem estocásticos, a repetição desse processo provocaria tipicamente o surgimento de vetores "fantasiosos" na camada de entrada. Estas fantasias forneceriam uma amostra sem viés do modelo de geração da rede sobre o mundo. Uma vez produzida a fantasia, os pesos de reconhecimento são ajustados por uma regra delta simples de modo a maximizar o logaritmo da probabilidade de recuperar as atividades ocultas que realmente causaram a fantasia. Nessa fase também é usada apenas informação disponível localmente.

A regra de aprendizagem para os pesos de geração também utiliza a regra delta simples, mas em vez de seguir o gradiente da função logaritmo da verossimilhança, segue o gradiente de uma função logaritmo da verossimilhança penalizada. O termo de punição é a divergência de Kullback-Leibler entre a distribuição a posteriori verdadeira e a distribuição real produzida pelo modelo de reconhecimento. O processo de aprendizagem tenta ajustar os pesos de geração para trazer a distribuição a posteriori real tão perto quanto possível da distribuição realmente calculada pelo modelo de reconhecimento. Aprender os pesos de reconhecimento não corresponde precisamente a função de verossimilhança penalizada, assim não é garantido que o procedimento de aprendizagem acordado-adormecido funcione em todas as situações práticas, ele falha algumas vezes.

 

Referências Bibliográficas

.         Haykin, S., "Neural Networks A comprehensive Foundation" - Second Edition. Prentice Hall, 1999.

.         Roweis, San. "Boltzmann Machines". Lecture Notes, 1995.

.         Hassoun, Mohamad H., "Fundamentals of Artificial Neural Networks", MIT Press, 1995.

 

 
eXTReMe Tracker

"Eu sou o SENHOR teu Deus, que te tirei da terra do Egito; abre bem a tua boca, e ta encherei." (Sl 81:10)

Webdesigner: Fabricio Breve 1997 - 2003
[email protected] - Privacidade