|
||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
www.fabriciobreve.com
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Máquinas Estocásticas e suas Aproximações Baseadas na Mecânica EstatísticaIntroduçãoO tema mecânica estatística abrange o estudo formal das propriedades macroscópicas do equilíbrio de grandes sistemas de elementos que estão sujeitos às leis microscópicas da mecânica. São usados métodos probabilísticos devido ao alto número de graus de liberdade nesses sistemas. O interesse na utilização da mecânica estatística como base para o estudo de redes neurais se iniciou com a máquina de Boltzmann, a primeira máquina de aprendizagem em múltiplas camadas inspirada pela mecânica estatística. Basicamente, a máquina de Boltzmann é um dispositivo para modelar a distribuição de densidade de probabilidade de um determinado conjunto de dados, de modo que possam ser derivadas distribuições condicionais que possam ser usadas em tarefas como complementação e classificação de padrões. Mecânica EstatísticaDado um sistema físico com muitos graus de liberdade, podendo residir em qualquer estado de um grande número de estados possíveis, temos que a probabilidade de ocorrência de um estado i é dado por:
e
Considerando que
onde T é uma pseudotemperatura que controla as flutuações térmicas que representam o efeito de ruído sináptico de um neurônio. Também temos uma quantidade normalizadora Z, chamada de soma dos estados ou função de partição, dada por:
Essa distribuição de probabilidade é chamada distribuição de Gibbs e tem como características: · Estados de baixa energia têm maior probabilidade de ocorrência que estados de alta energia · Conforme a temperatura T é reduzida, a probabilidade é concentrada em um conjunto menor de estados de baixa energia Energia Livre e EntropiaA energia livre de um sistema físico, representada por F, é dada por:
A energia média do sistema é dada por:
Portanto a energia livre é dada por:
O lado direito da equação, com execeção de T, é a entropia do sistema, dada por H como segue:
Assim podemos reescrever da seguinte forma:
A energia livre do sistema, F, tende a diminuir e se tornar mínima na situação de equilíbrio térmico do sistema. O mínimo de energia de um sistema estocástico em relação às variáveis do sistema é alcançado no equilíbrio térmico, onde então o sistema é governado pela distribuição de Gibbs. Neurônios EstocásticosOs neurônios estocásticos, diferentemente dos tradicionais, mudam seus estados de maneira probabilística, em vez de apenas determinística. Podem estar ligados (+1) ou desligados (-1). A vantagem é que a rede nunca fica parada em um estado estável pois os neurônios estarão sempre mudando, mesmo que a entrada não mude. Com a rede rodando livremente podemos gravar os estados por quais ela passa e construir uma distribuição de probabilidade destes estados. Para exemplificar o funcionamento de um neurônio estocástico considere uma rede de Hopfield tradicional, onde cada neurônio muda para o estado cujo energia for menor, conforme a regra abaixo:
Se modificarmos a regra de atualização para fazer desse neurônio um neurônio estocástico, ela ficaria assim:
onde T é uma "temperatura" da rede, seguindo a nomenclatura do modelo físico em que foi inspirada. Dessa forma o neurônio normalmente irá para o estado que reduz a energia do sistema, mas algumas vezes ele irá para o "estado errado" (da mesma forma que um sistema físico às vezes vai para estados de maior energia). Quanto maior for a temperatura T maior é a probabilidade de que o sistema possa ir para um estado de maior energia. Com temperatura zero o comportamento será igual ao neurônio determinístico. Deixando a rede rodar por tempo suficiente é possível obter a distribuição de probabilidade dos estados que ela visita, porém é necessário esperar o equilíbrio térmico para fazer essa medida, ou seja, quando a média ativação do iésimo neurônio <Si> não estiver mais mudando com o tempo. A distribuição de probabilidade no equílibro térmico pode ser similar ao mundo real se mudarmos os pesos de conexões na rede de maneira correta. Uma das principais vantagens dessa versão estocástica é que o estado inicial é irrelevante, pois enquanto a temperatura for relativamente alta sempre será possível "escapar" dos mínimos locais. Enquanto que usando neurônios determinísticos tradicionais o estado inicial é crucial para definir se a solução encontrada será ótima ou apenas um mínimo local. Amostragem de GibbsConsidere um vetor aleatório
Procedemos da mesma maneira na segunda e demais iterações. Dois pontos devem ser considerados: · Cada componente do vetor aleatório X é "visitada" na ordem natural, com o resultado de K novas variantes geradas a cada iteração · O novo valor da componente XK-1 é usado imediatamente quando um novo valor de XK é retirado para k = 2, 3, ..., K Portanto dizemos que o amostrador de Gibbs é um esquema adaptativo iterativo. Após n
iterações de seu uso, chegamos a K variantes: Sob condições suaves são válidos três teoremas para a amostragem de Gibbs: 1.
Teorema de
Convergência: a variável aleatória
onde 2.
Teorema da taxa
de convergência: A distribuição de probabilidade conjunta das variáveis
aleatórias 3.
Teorema Ergódico:
Para qualquer função mensurável g,
por exemplo, das variáveis aleatórias
com probabilidade 1 (quase certeza) A Máquina de HelmholtzA máquina de Helmholtz fornece uma estrutura em múltiplas camadas para representar e aprender as relações estatísticas de ordem mais alta entre as entradas sensoriais de interesse de uma maneira não-supervisionada, sem usar a amostragem de Gibbs. Ela utiliza dois conjuntos totalmente diferentes de conexões sinápticas, conforme ilustrado na Figura 1, onde é mostrada uma rede com duas camadas de neurônios estocásticos e binários.
Figura 1. Grafo arquitetural da máquina de Helmholtz consistindo de neurônios conectados com conexões de reconhecimento (linhas sólidas) e de geração (linhas tracejadas) As conexões para frente constituem o modelo de reconhecimento e inferem uma distribuição de probabilidade relacionada com as causas do vetor de entrada. As conexões de realimentação constituem o modelo de geração, e reconstroem uma aproximação do vetor de entrada original a partir das representações subjacentes capturadas pelas camadas ocultas da rede. Ambos os modelos de reconhecimento e geração trabalham exclusivamente com alimentação para a frente (sem realimentação) interagindo apenas através do processo de aprendizagem. O aprendizado se dá em duas fases, uma fase acordada e uma fase adormecida. Na fase acordada, a rede é acionada para frente pelos pesos de reconhecimento produzindo uma representação do vetor de peso na primeira camada oculta da rede. A segunda camada oculta produz uma segunda representação da primeira representação, e assim por diante. O conjunto dessas representações fornece uma representação global do vetor de entrada pela rede. Embora os neurônios sejam ajustados pelo peso de reconhecimento, apenas os pesos de geração são ajustados nessa fase usando a informação disponível localmente. Na fase adormecida os pesos de reconhecimento são desligados. A rede é acionada na direção contrária pelos pesos de geração, iniciando na camada oculta mais externa e terminando na camada visível. Pelo fato de os neurônios serem estocásticos, a repetição desse processo provocaria tipicamente o surgimento de vetores "fantasiosos" na camada de entrada. Estas fantasias forneceriam uma amostra sem viés do modelo de geração da rede sobre o mundo. Uma vez produzida a fantasia, os pesos de reconhecimento são ajustados por uma regra delta simples de modo a maximizar o logaritmo da probabilidade de recuperar as atividades ocultas que realmente causaram a fantasia. Nessa fase também é usada apenas informação disponível localmente. A regra de aprendizagem para os pesos de geração também utiliza a regra delta simples, mas em vez de seguir o gradiente da função logaritmo da verossimilhança, segue o gradiente de uma função logaritmo da verossimilhança penalizada. O termo de punição é a divergência de Kullback-Leibler entre a distribuição a posteriori verdadeira e a distribuição real produzida pelo modelo de reconhecimento. O processo de aprendizagem tenta ajustar os pesos de geração para trazer a distribuição a posteriori real tão perto quanto possível da distribuição realmente calculada pelo modelo de reconhecimento. Aprender os pesos de reconhecimento não corresponde precisamente a função de verossimilhança penalizada, assim não é garantido que o procedimento de aprendizagem acordado-adormecido funcione em todas as situações práticas, ele falha algumas vezes. Referências Bibliográficas. Haykin, S., "Neural Networks A comprehensive Foundation" - Second Edition. Prentice Hall, 1999. . Roweis, San. "Boltzmann Machines". Lecture Notes, 1995. .
Hassoun,
Mohamad H., "Fundamentals of Artificial Neural Networks", MIT Press, 1995. |
|
||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Webdesigner:
Fabricio Breve 1997 - 2011 |
||||||||||||||||||||||||||||||||||||||||||||||||||||||