Descripción de probabilidades y muestras

1 Introducción

En el análisis estadístico interactuan mundos: el teórico y el empírico.

Por un lado, la Distribución de Probabilidad modela el comportamiento ideal de una variable aleatoria a nivel poblacional, asignando un peso teórico a cada resultado posible. Por otro lado, la Distribución de la Muestra describe la variabilidad y las frecuencias absolutas observadas en un experimento finito y real.

Por ejemplo, si lanzas una moneda justa 10 veces, la distribución teórica dicta que esperas obtener 5 veces cara y 5 veces cruz, porque la probabilidad matemática de cada resultado es exactamente la misma (50%).

Sin embargo, al llevar el experimento a la práctica, el azar entra en juego. Puede darse el caso real de que obtengas 7 veces cara y 3 veces cruz. En este escenario, la frecuencia relativa (o probabilidad empírica) basada en tu muestra será del 70% para cara y del 30% para cruz.

Esta discrepancia es completamente normal en muestras pequeñas. No obstante, a medida que se incrementa el número de experimentos (por ejemplo, si lanzamos la moneda 10,000 veces), el efecto del azar se difumina y la distribución empírica tenderá a ser igual o muy similar a la teórica. Este fenómeno fundamental es lo que conocemos en estadística como la Ley de los Grandes Números.

2 Medidas de tendencia central

2.1 Media o valor esperado

2.1.1 Variables discretas

Cuando trabajamos con distribuciones de probabilidad, el promedio teórico de una variable aleatoria se conoce como Valor Esperado o Esperanza Matemática. Este número representa el valor que se espera obtener, en promedio, a largo plazo si el experimento se repitiera una cantidad infinita de veces.

Para entenderlo de forma sencilla, imaginemos que lanzamos tres monedas (donde la probabilidad de cara o cruz es del 50%). Si definimos nuestra variable aleatoria como el número total de caras obtenidas al lanzar las tres monedas, la distribución teórica de probabilidad nos indica:

0 caras: \(\frac{1}{8}\) (12.5%)
1 cara: \(\frac{3}{8}\) (37.5%)
2 caras: \(\frac{3}{8}\) (37.5%)
3 caras: \(\frac{1}{8}\) (12.5%)

Aplicando la fórmula del valor esperado, multiplicamos cada resultado posible por su respectiva probabilidad y sumamos los términos:

\[E[X] = \sum_{i=1}^{n} x_i \cdot P(X = x_i)\]

\[\text{Valor Esperado } (E[X]) = \left(0 \times \frac{1}{8}\right) + \left(1 \times \frac{3}{8}\right) + \left(2 \times \frac{3}{8}\right) + \left(3 \times \frac{1}{8}\right)\]\[E[X] = 0 + \frac{3}{8} + \frac{6}{8} + \frac{3}{8} = \frac{12}{8} = \mathbf{1.5}\]

Aunque en un único lanzamiento es físicamente imposible obtener “una cara y media”, la teoría nos dice que si realizamos este experimento de tres monedas miles de veces y promediamos todos los resultados reales, el valor final convergerá hacia 1.5 caras.

El concepto de valor esperado sirve entre otras cosas para evaluar la viabilidad económica de un escenario. Imaginemos que nos proponen el siguiente juego basado en el experimento anterior de las tres monedas:

Si obtienes al menos dos caras (es decir, 2 o 3 caras), ganas 10 dólares (\(+10\)).
Si no lo logras (es decir, obtienes 0 o 1 cara), pierdes 5 dólares (\(-5\)).

¿Cuánto se espera ganar o perder por cada jugada si participamos muchas veces?

Para resolverlo, primero debemos agrupar las probabilidades teóricas que ya conocemos para definir los dos únicos resultados posibles de nuestra nueva variable aleatoria:

Probabilidad de Ganar (\(P_{\text{ganar}}\)): Obtener 2 o 3 caras.

\[P_{\text{ganar}} = P(2) + P(3) = \frac{3}{8} + \frac{1}{8} = \frac{4}{8} = 0.50 \text{ (50%)}\]

Probabilidad de Perder (\(P_{\text{perder}}\)): Obtener 0 o 1 cara.

\[P_{\text{perder}} = P(0) + P(1) = \frac{1}{8} + \frac{3}{8} = \frac{4}{8} = 0.50 \text{ (50%)}\]

Ahora, aplicamos nuevamente la fórmula del valor esperado multiplicando cada resultado económico por su probabilidad:

\[E[\text{Ganancia}] = (\text{Premio} \times P_{\text{ganar}}) + (\text{Castigo} \times P_{\text{perder}})\] \[E[\text{Ganancia}] = (10 \times 0.50) + (-5 \times 0.50)\]\[E[\text{Ganancia}] = 5 - 2.5 = \mathbf{2.50}\]

Esto quiere decir que aspiramos a garnar de media 2.50 por jugada.

2.1.2 Variables continuas

Para estas variables, la probabilidad de un punto exacto es cero, por lo que utilizamos una Función de Densidad de Probabilidad \(f(x)\).

Para generalizar el valor esperado a variables continuas, la operación matemática de la sumatoria (\(\sum\)) se transforma en una integral (\(\int\)):

\[E[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx\]

La integral sigue haciendo exactamente lo mismo que con las monedas: multiplicar cada valor posible (\(x\)) por su “peso” o densidad de probabilidad (\(f(x)dx\)) y acumular (sumar) todos los resultados a lo largo de todo el eje numérico.

El tiempo de entrega de un repartido de pizza \(X\) se distribuye de forma Uniforme entre 0 y 30 minutos (\(X \sim U(0, 30)\)).La función de densidad de probabilidad \(f(x)\) para una distribución uniforme es constante y se calcula como \(\frac{1}{b - a}\). En este caso:

\[f(x) = \frac{1}{30 - 0} = \frac{1}{30} \quad \text{para } 0 \leq x \leq 30\]

Esto significa que la probabilidad está repartida de manera exactamente igual a lo largo de los 30 minutos.

La penalización o descuento económico depende del tiempo \(X\) y se comporta como una función escalonada \(g(X)\):

\[g(x) = \begin{cases} 0 & \text{si } 0 \leq x < 10 \\ 5 & \text{si } 10 \leq x < 20 \\ 10 & \text{si } 20 \leq x \leq 30 \end{cases}\]

Para calcular el valor esperado de esta penalización, utilizamos la generalización continua (el teorema LOTUS). Como nuestra función cambia según el tramo de tiempo, debemos dividir la integral en tres partes, una para cada intervalo:

\[E[g(X)] = \int_{0}^{30} g(x) \cdot f(x) \, dx\]

\[E[g(X)] = \int_{0}^{10} (0) \cdot \frac{1}{30} \, dx + \int_{10}^{20} (5) \cdot \frac{1}{30} \, dx + \int_{20}^{30} (10) \cdot \frac{1}{30} \, dx\]

Vamos a resolver cada tramo de forma matemática y muy sencilla:

Primer tramo (0 a 10 min): Como el descuento es cero, la integral es cero.

\[\int_{0}^{10} 0 \, dx = 0\]Segundo tramo (10 a 20 min): Sacamos las constantes \((\frac{5}{30})\) fuera de la integral.\[\int_{10}^{20} \frac{5}{30} \, dx = \frac{5}{30} \cdot [x]_{10}^{20} = \frac{5}{30} \cdot (20 - 10) = \frac{5}{30} \cdot 10 = \frac{50}{30} = \frac{5}{30} \cdot 10 = \mathbf{1.667}\]Tercer tramo (20 a 30 min): Sacamos las constantes \((\frac{10}{30})\) fuera de la integral.\[\int_{20}^{30} \frac{10}{30} \, dx = \frac{10}{30} \cdot [x]_{20}^{30} = \frac{10}{30} \cdot (30 - 20) = \frac{10}{30} \cdot 10 = \frac{100}{30} = \mathbf{3.333}\]

Sumamos los resultados de los tres intervalos para obtener la esperanza total:\[E[g(X)] = 0 + \frac{50}{30} + \frac{100}{30} = \frac{150}{30} = \mathbf{5}\]

import sympy as sp

# Definimos la variable simbólica
x = sp.Symbol("x")

# Definimos la función de densidad f(x) = 1/30
f_x = sp.Rational(1, 30)

# Definimos la función de penalización por tramos con sp.Piecewise
g_x = sp.Piecewise(
    (0, (x >= 0) & (x < 10)),
    (5, (x >= 10) & (x < 20)),
    (10, (x >= 20) & (x <= 30)),
    (0, True),  # Valor por defecto fuera del rango
)

# El integrando para el Valor Esperado es g(x) * f(x)
integrando = g_x * f_x

# PASO CLAVE: Usamos la función directa sp.integrate()
# Sintaxis: sp.integrate(función, (variable, límite_inferior, límite_superior))
valor_esperado = sp.integrate(integrando, (x, 0, 30))

print("CÁLCULO DIRECTO CON SP.INTEGRATE")
print(f"Operación: ∫ g(x) * f(x) dx desde 0 hasta 30")
print(f"VALOR ESPERADO DE LA PENALIZACIÓN = ${valor_esperado}")

CÁLCULO DIRECTO CON SP.INTEGRATE
Operación: ∫ g(x) * f(x) dx desde 0 hasta 30
VALOR ESPERADO DE LA PENALIZACIÓN = $5

2.1.3 Media empirica

Para comprender la conexión entre el mundo empírico y el teórico, imaginemos un experimento sencillo: lanzamos tres monedas de forma sucesiva y registramos el número total de caras obtenidas. Al realizar este proceso únicamente cuatro veces (\(n = 4\)), generamos el siguiente conjunto de datos reales: [2, 1, 3, 1].

Si deseamos calcular el promedio de caras por lanzamiento a partir de este set de datos, debemos tener clara una distinción conceptual crítica en estadística: a partir de una muestra no se calcula el “valor esperado”, sino la “media muestral” (o empírica). Aunque ambos conceptos representan promedios, operan bajo naturalezas distintas.

La media muestral se basa exclusivamente en los números observados sobre la mesa. Su cálculo tradicional consiste en sumar todos los datos individuales y dividirlos entre el tamaño de la muestra:\[\bar{x} = \frac{2 + 1 + 3 + 1}{4} = \frac{7}{4} = \mathbf{1.75\text{ caras por lanzamiento}}\]Este resultado es un hecho histórico y local: nos describe con exactitud matemática qué ocurrió en esos cuatro lanzamientos específicos. Si volviéramos a repetir el experimento y lanzáramos las monedas otras cuatro veces, el azar jugaría un papel distinto y este número cambiaría con casi total seguridad (pudiendo resultar en \(1.25\), \(2.00\), etc.).

Por otro lado, el valor esperado representa el promedio teórico a largo plazo; es decir, el “verdadero” número central oculto detrás del experimento si este se repitiera infinitas veces. En situaciones reales, a menudo desconocemos las propiedades físicas de las monedas (no sabemos si están perfectamente equilibradas o trucadas), por lo que nos vemos obligados a utilizar la muestra para intentar “adivinar” o estimar ese valor teórico.Si tuviéramos que apoyarnos únicamente en nuestra pequeña muestra de cuatro lanzamientos para construir una distribución de probabilidad provisional (relativizando las frecuencias observadas), estimaríamos las siguientes probabilidades empíricas:Probabilidad de obtener 3 caras: \(\frac{1}{4}\) (\(25\%\))

Probabilidad de obtener 2 caras: \(\frac{1}{4}\) (\(25\%\))
Probabilidad de obtener 1 cara: \(\frac{2}{4}\) (\(50\%\))
Probabilidad de obtener 0 caras: \(\frac{0}{4}\) (\(0\%\))

Si aplicamos formalmente la ecuación del valor esperado utilizando estas frecuencias relativas como si fuesen nuestras probabilidades de partida, la estructura del cálculo sería la siguiente:

\[E[X]_{\text{estimado}} = \left(3 \times \frac{1}{4}\right) + \left(2 \times \frac{1}{4}\right) + \left(1 \times \frac{2}{4}\right) + \left(0 \times \frac{0}{4}\right)\]

\[E[X]_{\text{estimado}} = \frac{3}{4} + \frac{2}{4} + \frac{2}{4} + 0 = \frac{7}{4} = \mathbf{1.75}\]

2.1.4 Otras medidas de tendencia central sobre muestras

La media o promedio es la métrica más común para medir una tendencia central, pero existen dos más que son muy relevantes también:

Mediana
Moda

2.1.4.1 Mediana

La mediana es una medida de posición central que representa el valor ubicado exactamente en el medio de un conjunto de datos ordenados.

Su propiedad fundamental es la simetría posicional: el \(50\%\) de los valores se encuentra por debajo de ella y el otro \(50\%\) se encuentra por encima.Debido a esta característica, a la mediana también se le conoce formalmente como el Percentil 50 (\(P_{50}\)).

Para generalizar este concepto, un percentil es una medida de posición no central que divide a los datos en cien partes iguales. Formalmente, el percentil \(k\) (\(P_k\)) es un valor tal que:El \(k\%\) de los datos ordenados se encuentra por debajo (o es igual) a él.El \((100 - k)\%\) restante de los datos se encuentra por encima.

Los datos siempre deben estar ordenados de menor a mayor.A partir de ahí, el cálculo toma dos caminos dependiendo de si el número total de datos (\(n\)) es impar o par.

Imaginemos las notas de 5 alumnos en un examen: [7, 3, 9, 5, 10]

Ordenamos los datos: [3, 5, 7, 9, 10] (aquí \(n = 5\))

Buscamos la posición central: La fórmula de la posición es \(\frac{n + 1}{2} = \frac{5 + 1}{2} = 3\).

La mediana en este caso será el valor que está en la posición 3, que es el número 7. El 50% de los datos (2 notas) están por debajo y el otro 50% (2 notas) están por encima.

Cuando tienes un número par de datos, no existe un único término central. En medio de la distribución quedan dos valores atrapados. Para resolver esto, la mediana se calcula como el promedio (la media) de esos dos valores centrales.

Imaginemos que ahora un sexto alumno entrega su examen y el set de datos es: [7, 3, 9, 5, 10, 6]

Ordenamos los datos: [3, 5, 6, 7, 9, 10] (aquí \(n = 6\))

Buscamos las posiciones centrales: Al dividir \(6 / 2 = 3\), sabemos que el centro está compartido por las posiciones 3 y 4.

Los valores en medio son el 6 y el 7. Como la mediana no puede ser dos números a la vez, calculamos su promedio:

\[\text{Mediana} = \frac{6 + 7}{2} = \frac{13}{2} = \mathbf{6.5}\]

2.1.4.2 Moda

La moda (\(M_o\)) es la medida de tendencia central que define al valor (o categoría) que ocurre con mayor frecuencia en un conjunto de datos. En términos estadísticos sencillos, es el dato que más se repite. Es la única medida de tendencia central que se puede calcular para variables cualitativas o nominales (por ejemplo, si encuestas a personas sobre su color favorito, el color más votado es la moda).

Ejemplo: [2, 3, 4, 4, 4, 5, 7]. La moda es 4 (se repite 3 veces).

2.1.4.3 Medidas de tendencia central robustas

En el análisis de datos reales, es frecuente encontrarse con datos atípicos (outliers): valores que se encuentran inusualmente alejados del resto de las observaciones del conjunto. Aunque estos datos sean técnicamente correctos, tienen el potencial de distorsionar las medidas de tendencia central, restándoles representatividad.

La sensibilidad ante estos valores extremos varía según la medida que utilicemos:

La Media (El Promedio): Es una medida altamente sensible. Como su cálculo exige sumar absolutamente todos los valores, un solo dato atípico masivo puede “arrastrar” la media hacia él, especialmente si el set de datos es pequeño y no logra compensar el peso de ese valor extremo.
La Mediana y la Moda: Son medidas robustas. A la mediana solo le importa el orden posicional de los datos, por lo que el valor del extremo no altera el centro. A la moda solo le importa la repetición, ignorando magnitudes aisladas.