Universidade de São Paulo

Instituto de Ciências Matemáticas e de Computação

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Aluno: Fabricio Aparecido Breve

Prof.: Dr. André Ponce de Leon F. de Carvalho

São Carlos - São Paulo

Abril / 2007

Introdução

Neste trabalho são apresentados os resultados da aplicação de redes Perceptron e Multilayer Perceptron à popular base de dados IRIS, introduzida por R.A. Fisher como um exemplo de análise discriminante. Os dados contêm quatro características de três espécies de flores Iris, da família das Iridáceas: comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala. Os classificadores utilizados neste trabalho utilizam esses 4 atributos para construir uma rede que deve classificar corretamente os 3 tipos de flores: Iris-Virginica, Iris-Versicolor e Iris-Setosa. A base de dados contém 150 amostras, sendo 50 de cada uma das classes.

Resultados de classificação com a base de dados IRIS

Pesos iniciais:

w_i,j = 0.02*(rand-0.5)

onde rand é uma função que gera números pseudo-aleatórios no intervalo [0 , 1].

Taxa de aprendizado: η = 0,1

Resultados para Rede Perceptron

Erro com o conjunto de treinamento:                   2,6 %
Erro com o conjunto de validação:                          0,0 %
Erro com o conjunto de teste:                                  5,6 %

Amostras classificadas erroneamente (por classe):

Neurônios na camada oculta	Iris-Virginica	Iris-Versicolor	Iris-Setosa
Conj. de Treinamento	0	2	1
Conj. de validação	0	0	0
Conj. de teste	0	2	0

Leave-One-Out Cross-Validation

Experimentos com Leave-One-Out Cross-Validation indicaram um erro médio de 12,28%, sendo os erros individuais (sem peso) de cada classe:

Iris-Virginica:	0,00%
Iris-Versicolor:	18,42%
Iris-Setosa:	28,95%

Análise

Esta pode ser considerada uma classificação razoável, visto que o erro no conjunto de teste está dentro de uma margem aceitável, especialmente se consideramos o tamanho reduzido do conjunto de treinamento. Os testes com Cross-Validation indicam que as classes Iris-Virginica são facilmente separadas, enquanto que as outras duas espécies são mais facilmente confundidas pelo classificador.

Rede Multilayer Perceptron (MLP)

Pesos iniciais: definidos pelo algoritmo Nguyen-Widrow

Taxa de aprendizado:                                  adaptativa
Valor inicial:                                                      0,01
Multiplicador de incremento:                   1,05
Multiplicador de decremento:                  0,7
Momentum:                                                    0,95

Resultados para Rede MLP com uma camada oculta

Neurônios na camada oculta	Erro no conjunto de Treinamento	Erro no conjunto de Validação	Erro no conjunto de Teste
3	2,6%	2,8%	0,0%
4	2,6%	8,3%	2,8%
5	2,6%	2,8%	0,0%
6	3,8%	2,8%	0,0%
7	6,4%	2,8%	5,6%
8	2,6%	2,8%	0,0%
9	2,6%	2,8%	0,0%
10	1,3%	5,6%	8,3%
11	2,6%	2,8%	5,6%
12	2,6%	2,8%	8,3%

Os resultados obtidos são semelhantes independentemente do número de neurônios na camada oculta, as variações ocorridas talvez possam ser atribuídas a variações na inicialização. Escolhemos a configuração com 5 neurônios na camada oculta (por ser uma das configurações com melhor resultado) para mostrar o erro individual em cada classe, o gráfico de erro médio quadrático durante o treinamento e para fazer alguns testes adicionais usando Leave-One-Out Cross-Validation.

Amostras classificadas erroneamente (por classe):

Neurônios na camada oculta	Iris-Virginica	Iris-Versicolor	Iris-Setosa
Conj. de Treinamento	0	1	1
Conj. de validação	0	1	0
Conj. de teste	0	0	0

Figura 1. Erro médio quadrático (MSE) no conjunto de treinamento e no conjunto de validação durante o treinamento de rede MLP com 5 neurônios na camada oculta.

Leave-One-Out Cross-Validation

Os testes com Leave-One-Out Crossvalidation mostraram um erro médio de 6,4%, sendo os erros individuais (sem peso) por classe:

Iris-Virginica:	0,00%
Iris-Versicolor:	11,54%
Iris-Setosa:	7,69%

Análise

Mais uma vez as classificações incorretas ocorreram entre as classes Iris-Versicolor e Iris-Setosa, sendo a classe Iris-Virginica classificada corretamente em todas as suas amostras.

Resultados par a Rede MLP com duas camadas ocultas

Neurônios nas primeira camada oculta	Neurônios na segunda camada oculta	Erro no conjunto de Treinamento	Erro no conjunto de Validação	Erro no conjunto de Teste
2	2	33,33%	33,33%	33,33%
2	4	10,26%	8,33%	8,33%
2	6	6,41%	8,33%	13,89%
2	8	1,28%	5,56%	2,78%
2	10	3,85%	8,33%	5,56%
2	12	2,56%	8,33%	0,00%
4	2	66,67%	66,67%	66,67%
4	4	1,28%	5,56%	0,00%
4	6	2,56%	8,33%	5,56%
4	8	2,56%	8,33%	8,33%
4	10	2,56%	5,56%	0,00%
4	12	2,56%	5,56%	0,00%
6	2	3,85%	0,00%	0,00%
6	4	12,82%	8,33%	22,22%
6	6	5,13%	8,33%	13,89%
6	8	3,85%	8,33%	2,78%
6	10	3,85%	5,56%	5,56%
6	12	2,56%	5,56%	5,56%
8	2	39,74%	36,11%	36,11%
8	4	2,56%	8,33%	5,56%
8	6	8,97%	8,33%	16,67%
8	8	3,85%	5,56%	5,56%
8	10	3,85%	8,33%	5,56%
8	12	2,56%	8,33%	8,33%
10	2	5,13%	8,33%	2,78%
10	4	2,56%	8,33%	5,56%
10	6	2,56%	5,56%	5,56%
10	8	3,85%	8,33%	8,33%
10	10	2,56%	8,33%	2,78%
10	12	5,13%	5,56%	5,56%
12	2	3,85%	5,56%	5,56%
12	4	1,28%	5,56%	5,56%
12	6	2,56%	5,56%	0,00%
12	8	3,85%	8,33%	2,78%
12	10	1,28%	8,33%	2,78%
12	12	2,56%	5,56%	2,78%

A configuração com 4 neurônios na primeira camada oculta e 10 neurônios na segunda camada oculta foi uma das melhores, e portanto foi escolhida para os testes adicionais.

Figura 2. Erro médio quadrático (MSE) no conjunto de treinamento e no conjunto de validação durante o treinamento de uma rede MLP com 4 neurônios na primeira camada oculta e 10 neurônios na segunda camada oculta

Leave-One-Out Cross-Validation

Os testes com Leave-One-Out Crossvalidation mostraram um erro médio de 5,1%, sendo os erros individuais (sem peso) por classe:

Iris-Virginica:	0,00%
Iris-Versicolor:	7,69%
Iris-Setosa:	7,69%

Análise

Mais uma vez as classificações de Iris-Virginica foram todas corretas, ficando os erros entre as classes as classes Iris-Versicolor e Iris-Setosa. Novamente o erro médio com Cross-Validation é um pouco maior que o obtido com hold-out, provavelmente devido a ausência de um conjunto de validação que impeça o overfitting.

Conclusão

As redes Perceptron e Multilayer Perceptron se mostraram eficientes ao classificar os dados da base de dados Iris, os erros verificados foram relativamente baixos. Através da análise dos resultados também foi possível verificar que as classes Iris-Versicolor e Iris-Setosa tem maior semelhança entre si do que com a outra classe (Iris-Virginica) que foi classificada corretamente em todos os casos.

As melhores configurações de rede obtidas experimentalmente não podem ser consideradas conclusivas, pois diversos fatores influenciam nos resultados, como inicialização dos parâmetros, particionamento do conjunto de dados, etc. Podemos concluir que algumas configurações tem maiores chances de convergir para um bom resultado, mas até as piores configurações podem eventualmente convergir para um bom resultado eventualmente, da mesma forma que até as melhores configurações podem ficar presas em mínimos locais eventualmente. Assim para ter resultados conclusivos um único treinamento com cada configuração não é suficiente, seria necessário repetir cada configuração uma grande quantidade de vezes, de modo que fosse possível obter estatísticas mais conclusivas. Tais experimentos são sugeridos como um trabalho futuro, por ter um custo computacional demasiadamente elevado para ser abordado neste trabalho.

As figuras 1 e 2 mostram que a convergência ocorre com cerca de 500 iterações, tanto para o caso de uma camada oculta, quanto para o caso de duas camadas ocultas, e os dois gráficos são bastante parecidos.

Os testes com Cross-Validation tiveram resultados ligeiramente piores que os testes com Hold-Out, e isso provavelmente deve ser atribuído a ausência de um conjunto de validação no Crossvalidation que impeça o overfitting.