PRÁCTICA 2. CIENCIA COGNITIVA 2005

Aprendizaje inductivo. Arboles de decisión. ID3.

En esta práctica se trabajará con una variante del algoritmo de aprendizaje de árboles de 
decisión ID3 de Quinlan, desarrollado por Andrew Colin. Esta variante trata con 
atributos con valores reales y, a partir de un conjunto de ejemplos clasificados, induce 
árboles binarios donde los nodos suponen el test sobre los atributos:

if  (atributo > umbral)  then … else if …else …

La implementación consta de tres archivos: id3.c, id3.h, proto.h. Para compilarlo debe 
introducirse la opción de linkado de la librería matemática, ej:

gcc –o id3 id3.c –lm

También se proporcionan los archivos sample-spam.dat y sample-spam.tag. En el 
primero por cada línea aparecen un ejemplo clasificado como spam o no spam. El 
segundo indica que para cada ejemplo los atributos son: (1) número de caracteres en el 
mensaje, (2) presencia (valor 1) o ausencia (valor 0) del string “http”en mayúsculas o 
minúsculas en el mensaje,  (3) presencia (valor 1) o ausencia (valor 0) del string “click” 
en mayúsculas o minúsculas en el mensaje, (4) presencia (valor 1) o ausencia (valor 0) 
del string “free” een mayúsculas o minúsculas en el mensaje, (5) el número de letras 
mayúsculas en el mensaje, (6) el número de caracters dólar ($) en el mensaje, (7) el 
número de caracteres de exclamación (!) en el mensaje. El último valor en cada línea es 
el valor de clasificación del ejemplo: 0 no spam, 1 spam.

En esta práctica se realizarán las siguientes tareas:

1. Aplicar el inductor sobre los ejemplos de muestra:

id3 sample-spam

y dibujar el árbol inducido.

2. Construir espera-restaurante.dat y espera-restaurante.tag con los ejemplos del tema de 
aprendizaje inductivo de árboles de decisión del texto de Russell y Norvig vistos en 
clase. Aplicar el inductor sobre estos ejemplos y dibujar el árbol inducido. Compararlo 
con el obtenido en el texto y comentar las diferencias.

3. A partir del árbol inducido en 1 construir el clasificador, es decir, un programa que 
ante la presencia de un nuevo mensaje nos diga si es o no spam. Lo ideal sería un 
programa que reconociese cualquier árbol inducido por el inductor de Andrew Colin y 
construyese el clasificador. En esta práctica basta que transformeis en código la 
expresión producida por el inductor. 
Por tanto este clasificador tomará como entrada un archivo de ejemplos con el formato 
.dat pero donde el último valor en cada línea es 2 (con el significado de ejemplo sin 
clasificar) en lugar 1 (spam) o 0 (no-spam), y la salidad del inductor obtenida 
anterioremente, para producir una copia del archivo de ejemplos con todos los ejemplos 
clasificados (1 ó 0 en el último valor de cada línea). Si el clasificador fuese genérico 
debiera tomar como entrada también el archivo con formato .tag para poder leer la 
expresión producida por el inductor.

4. Probar el clasificador con los ejemplos del conjunto de entrenamiento sample-
spam.dat. El clasificador debe clasificar correctamente todos los ejemplos del conjunto 
de entrenamiento.

5. Se suministran también los archivos SpamTestSet y NonSpamTestSet que contienen 
ejemplos de mensajes spam y no spam, y que usaremos para evaluar el clasificador. 
Para ello es necesario procesar estos archivos de texto para producir los archivos 
correspondientes en formato .dat. Una vez obtenida la representación de los mensajes 
con este formato, deben pasarse al clasificador y el software de evaluación debe 
producir el % de clasificaciones correctas para cada categoría y el % de clasificaciones 
correctas total.

6. En el conjunto original de entrenamiento cambiar la clasificación de 1, 4 y 10 
ejemplos. Para cada caso obtener el árbol inducido, el clasificador y evaluarlo sobre 
SpamTestSet y NonSpamTestSet. ¿Cuáles son las conclusiones de este experimento?

Debe construirse una breve memoria con las descripción de los ejercicios, resultados y 
conclusiones de cada apartado que se entregará en las horas de prácticas los días 23 y 25 
de mayo de 2005. No se aceptarán entregas de prácticas fuera de plazo.