Aprendizaje automático y definiciones

1 De la IA al aprendizaje automático

La IA clásica se basaba en la idea de que la inteligencia humana podía reproducirse mediante símbolos, reglas lógicas y procesos de razonamiento explícito. Todo el conocimiento debía ser representado y programado por humanos. Los sistemas expertos fueron la aplicación más influyente de la IA simbólica. Su objetivo era capturar el conocimiento de un experto humano y representarlo mediante reglas lógicas del tipo “SI condición ENTONCES acción/conclusión”.

Esto presenta problemas: * Se necesita reglas escritas mano * No se puede aprender nuevas reglas * Es difícil de mantener a medida que crecen el número de reglas

La Inteligencia Artificial (IA) moderna puede entenderse como una forma avanzada de procesamiento estadístico que permite a un sistema resolver tareas sin que un humano deba especificar de manera explícita cada paso necesario para alcanzar la solución. Una máquina no posee conciencia, comprensión, moral ni intención; su comportamiento es el resultado de procesos matemáticos y computacionales, no de estados mentales.

Una máquina puede mostrar comportamientos que aparentan autonomía, pero se trata de una autonomía instrumental, no mental. El sistema no tiene metas propias ni desarrolla intenciones: simplemente optimiza una función matemática definida por humanos. Su operación consiste en ajustar parámetros para minimizar un error o maximizar una recompensa, sin que exista un propósito consciente detrás de sus acciones.

En el software tradicional, el programador define de manera explícita y secuencial qué debe hacer el sistema ante cada situación. En contraste, la IA moderna y especialmente a basada en aprendizaje automático, no se basa en reglas programadas manualmente, sino en mecanismos de aprendizaje a partir de datos; un aprendizaje que, en realidad, consiste en la optimización de funciones matemáticas. Durante el proceso de entrenamiento, se ajustan miles de millones de parámetros con el fin de aproximar una función objetivo.

Gracias al uso de álgebra lineal, estadística y cálculo, el modelo es capaz de extraer patrones de grandes volúmenes de datos. Sin embargo, esta inteligencia es estadística y funcional, no cognitiva: el sistema no entiende, no razona como un humano y no posee metas internas.

Para simular ciertos aspectos de la inteligencia humana, un sistema informático debe ejecutar de manera cíclica tres procesos fundamentales:

Aprendizaje: Adquisición de datos y de las reglas necesarias para transformarlos e interpretarlos.
Razonamiento: Aplicación de las reglas aprendidas para procesar la información y generar conclusiones aproximadas o definitivas.
Autocorrección: Evaluación del éxito de sus propias conclusiones y ajuste autónomo de sus parámetros internos para mejorar el rendimiento futuro.

2 Introducción al concepto de aprendizaje automático

El aprendizaje automático (o machine learning) es una rama de la Inteligencia Artificial (IA) y realmente es la dominante, de hecho el concepto de IA ya se asocia al proceso de aprendizaje.

La IA moderna, basada en aprendizaje automático, se fundamenta en sistemas capaces de identificar patrones a partir de datos. En lugar de programar explícitamente cada paso, el modelo ajusta de forma automática sus parámetros internos para aproximar una función que relaciona entradas y salidas. Este proceso no es un «aprendizaje» en sentido humano, sino una optimización matemática que modifica los parámetros para minimizar el error entre las predicciones y los datos reales.

“Much of modern AI is about learning input–output mappings from data.” — Andrew Ng

Ejemplo de identificación de patrón

Por ejemplo, si un modelo recibe pares de entrada–salida como:

[1, 2, 3] → 21
[2, 2, 25] → 133
[4, 2, 1] → 17

Puede aprender que la relación entre entrada y salida se aproxima a la función:

$f(x_1, x_2, x_3) = 2x_1 + 2x_2 + 5x_3$

Sustituimos los valores de cada ejemplo en la función:

$f(1, 2, 3) = 2 \cdot 1 + 2 \cdot 2 + 5 \cdot 3 = 2 + 4 + 15 = 21$

$f(2, 2, 25) = 2 \cdot 2 + 2 \cdot 2 + 5 \cdot 25 = 4 + 4 + 125 = 133$

$f(4, 2, 1) = 2 \cdot 4 + 2 \cdot 2 + 5 \cdot 1 = 8 + 4 + 5 = 17$

El modelo no «descubre» esta fórmula de forma consciente: simplemente ajusta sus parámetros internos que, combinados con los datos de entrada, generan una salida que coincide con los datos observados.

En el ejemplo anterior, los valores que multiplican a las entradas serían los parámetros internos del modelo: $ heta = [2, 2, 5]$. Estos parámetros son los que el algoritmo ajusta durante el proceso de aprendizaje para que la salida generada coincida con los datos observados.

3 Aprendizaje supervisado

El aprendizaje supervisado es la variante más común del aprendizaje automático. En este enfoque, para cada conjunto de datos de entrada existe una salida esperada (también llamada «etiqueta» o target). El objetivo del modelo es aprender una función que, ante una entrada, produzca la salida correcta.

En el ejemplo anterior, donde para la entrada $(1, 2, 3)$ se espera una salida de 21, el modelo intenta aproximar una función del tipo:

$f(x_1, x_2, x_3) = heta_1x_1 + heta_2x_2 + heta_3x_3$

Y durante el entrenamiento, ajusta los parámetros internos para que: $f(1, 2, 3) = 21$

Este ajuste no ocurre de una sola vez, sino mediante iteraciones sucesivas en las que el algoritmo compara la predicción con la salida real, calcula el error y modifica los parámetros para reducirlo. Este proceso se repite hasta que el modelo logra un rendimiento aceptable.

Un ejemplo muy visual de aprendizaje supervisado es la tasación del precio de una vivienda. Para estimarlo, necesitamos una serie de características o «variables independientes» que describan el inmueble:

Metros cuadrados.
Número de habitaciones.
Número de cuartos de baño.
Presencia de ascensor.
…

Cada ejemplo contiene:

Un vector de entrada (las características de la vivienda).
Un valor de salida esperado (el precio real). Aunque en muchos casos la salida sea un único valor, también se expresa en forma de vector.

El modelo recorre estos ejemplos en iteraciones sucesivas, comparando sus predicciones con el valor real y ajustando sus parámetros para reducir el error. Este proceso se conoce como entrenamiento, optimización o ajuste de parámetros.

El fin del aprendizaje supervisado no es que el modelo memorice los ejemplos de entrenamiento. El objetivo real es la generalización; es decir, ser capaz de predecir correctamente el precio de una vivienda que nunca ha visto, aplicando lo aprendido en los ejemplos previos.

Los algoritmos de aprendizaje supervisado se dividen en dos tipos principales:

Regresión: Si el objetivo es un valor numérico continuo, como el precio de una vivienda.
Clasificación: Si el objetivo es asignar la entrada a una categoría dentro de un conjunto finito de clases.

Un ejemplo común de clasificación es determinar si una imagen corresponde a un «gato» o a un «perro». En este caso solo existen dos opciones posibles (un conjunto finito de clases). El modelo recibe una imagen y debe asignarla a una de estas categorías. Este tipo de problema se denomina clasificación binaria. La clave reside en que el modelo no predice un número continuo, sino una etiqueta perteneciente a un conjunto discreto.

4 Aprendizaje no supervisado

En este tipo de aprendizaje, el algoritmo no dispone de etiquetas de salida. A diferencia del aprendizaje supervisado, aquí no existe una variable objetivo. En su lugar, el algoritmo analiza los datos para detectar patrones, estructuras internas y distribuciones subyacentes.

Su propósito principal es descubrir la estructura oculta de los datos. El modelo no aprende una función de mapeo entrada-salida, sino que identifica:

Grupos (clustering).
Distribuciones.
Relaciones latentes.
Representaciones compactas.

Un ejemplo clásico de aprendizaje no supervisado es el clustering. En este enfoque, disponemos de varios puntos representados por vectores en un espacio de características. El algoritmo no conoce las etiquetas; en su lugar, agrupa los puntos según su cercanía o similitud. De esta forma, identifica grupos naturales dentro de los datos sin necesidad de intervención humana.