Introducción estadística
1 Introducción a la estadística
1.1 Concepto de estadística
El objetivo fundamental de la estadística es transformar datos dispersos en conocimiento útil. Para lograrlo, se encarga de recopilar, organizar y analizar la información, permitiendo una interpretación precisa que permita la toma de decisiones y además suministrar datos a los modelos de Machien Learning.
En este proceso, los datos poseen una propiedad: la variabilidad.
La variabilidad es el concepto clave que permite extraer valor; sin ella, los datos serían constantes homogéneas y no existiría información que modelar ni patrones que extraer.
1.2 Población y muestra
En la investigación estadística, el análisis se divide en dos grandes conceptos: la población, que es el conjunto total objeto de estudio, y la muestra, un subconjunto representativo de la primera.
Habitualmente es inviable o imposible recopilar datos de cada uno de los elementos de una población, por ello se selecciona un conjunto de ellos llamdo muestra para comprender el todo.
A partir de aquí, el análisis se ramifica en dos etapas fundamentales:
- Estadística Descriptiva: Se enfoca exclusivamente en la muestra. Su objetivo es organizar, tabular, representar gráficamente y sintetizar los datos observados para entender su estructura actual.
- Estadística Inferencial: Es el proceso de extrapolar o generalizar los resultados obtenidos en la muestra hacia la población total.
La estadística descriptiva incluye métodos para resumir y organizar los datos con el fin de hacerlos comprensibles. La estadistica descriptiva incluye:
Estos conceptos forman la base de la estadística descriptiva y nos ayudarán a comprender grandes volúmenes de datos de manera efectiva.
| Concepto | Descripción | Elementos incluidos |
|---|---|---|
| Medidas de tendencia central | Permiten identificar valores representativos dentro de un conjunto de datos. | Media, Mediana, Moda |
| Medidas de dispersión | Indican qué tan dispersos o agrupados están los datos respecto a la media. | Varianza, Desviación estándar |
| Distribución de datos | Describe la forma en que los datos se distribuyen y se visualizan. | Histogramas, Boxplots, Gráficos de pastel, PDF, PMF |
| Resumen estadístico | Conjunto compacto de métricas que describen la posición y dispersión de los datos. | Q1, Mediana (Q2), Q3, Mínimo, Máximo |
La estadística inferencial se enfoca en hacer predicciones o inferencias sobre una población a partir de una muestra.
En lugar de examinar cada dato de una poablación individualmente, tomamos una muestra representativa y usamos técnicas estadísticas para sacar conclusiones sobre la población completa.
Algunos de los temas más importantes dentro de la estadística inferencial incluyen:
| Concepto | Descripción | Elementos incluidos |
|---|---|---|
| Pruebas de hipótesis | Método formal para decidir si la evidencia respalda o rechaza una afirmación sobre una población. | Hipótesis nula (H₀), Hipótesis alternativa (H₁), Valor p |
| Intervalos de confianza | Estiman un rango donde probablemente se encuentra un parámetro poblacional con un nivel de confianza dado. | Límite inferior, Límite superior, Nivel de confianza |
| Pruebas estadísticas | Conjunto de métodos para evaluar diferencias, relaciones o variabilidad en los datos. | Prueba Z, Prueba t, ANOVA, Chi‑cuadrado, Prueba F |
Estas pruebas nos permiten comparar conjuntos de datos y determinar si las diferencias entre ellos son significativas.
1.3 Tipología de Datos
Las variables son las características que medimos y se dividen en dos grandes familias:
1.4 Variables Cuantitativas (Numéricas):
Son aquellos que se expresan mediante una escala númerica.
Discretas: Toman valores enteros aislados, generalmente resultado de un conteo (ej., número de hijos, páginas de un libro).
Continuas: Pueden tomar cualquier valor real dentro de un intervalo, incluyendo decimales; surgen habitualmente de un proceso de medición (ej., el peso, la temperatura, el precio de una acción).
1.5 Variables Cualitativas (Categorías):
Datos que solo pueden adoptar un conjunto especifico de valores que representan un conjunto de categorias.
Nominales: Definen categorías que no tienen un orden intrínseco ni jerarquía (ej., género, color de ojos, país de residencia).
Ordinales: Establecen categorías que siguen una secuencia lógica o escala ordenada, aunque la distancia entre ellas no sea medible (ej., nivel educativo, nivel de satisfacción, rango militar).
1.6 Distribución de Frecuencias
Para resumir la información dispersa, recurrimos a las tablas de frecuencias. Tomemos como ejemplo un estudio sobre el número de hermanos en una muestra de \(N = 80\) alumnos:
Frecuencia Absoluta (\(f_i\)): El número de veces que se repite un valor específico en la muestra. Frecuencia Relativa (\(h_i\)): La proporción que representa cada frecuencia absoluta respecto al total (\(h_i = f_i / N\)). Multiplicada por 100, nos da el porcentaje (%).
| Número de hermanos | Frecuencia Absoluta (\(f_i\)) | Frecuencia Relativa (\(h_i\)) | Porcentaje (%) |
|---|---|---|---|
| 0 | 20 | \(20 / 80 = 0.2500\) | 25.0% |
| 1 | 30 | \(30 / 80 = 0.3750\) | 37.5% |
| 2 | 15 | \(15 / 80 = 0.1875\) | 18.75% |
| 3 | 10 | \(10 / 80 = 0.1250\) | 12.5% |
| 4 | 3 | \(3 / 80 = 0.0375\) | 3.75% |
| 5 | 2 | \(2 / 80 = 0.0250\) | 2.5% |
| Total | 80 | 1.0000 | 100.0% |
El análisis de frecuencias es universal y se aplica de igual forma a variables categóricas. Si analizamos la variable Género en la misma muestra de 80 alumnos, la estructura se mantiene:
| Género | Frecuencia Absoluta (\(f_i\)) | Frecuencia Relativa (\(h_i\)) | Porcentaje (%) |
|---|---|---|---|
| Chico | 32 | \(32 / 80 = 0.40\) | 40.0% |
| Chica | 48 | \(48 / 80 = 0.60\) | 60.0% |
| Total | 80 | 1.00 | 100.0% |
2 Introducción a la probabilidad
2.1 Enfoques Teóricos de la Probabilidad
La probabilidad es una medida cuantitativa del grado de certeza de que ocurra un evento determinado.
En su enfoque clásico (Regla de Laplace), se expresa como el cociente entre el número de resultados favorables a un experimento y el total de resultados posibles, siempre que todos ellos sean igualmente probables (equiprobables):
\[P(A) = \frac{\text{Número de casos favorables}}{\text{Número de casos posibles}}\]
Espacio muestral: Conjunto de todos los resultados posibles de un experimento. Cuando se lanza una moneda los resultados posibles son cara o cruz, cuando se lanza un dado los resultados posibles son del 1 al 6.
Eventos es una recopilación de resultados contenidos dentro del espacio muestral.
En Machine Learning se suele utilizar un enfoque frecuentista, en el mundo real no siempre conocemos todos los “casos posibles”. Por ello, estimamos la probabilidad repitiendo un experimento miles de veces. La probabilidad es el límite al que se estabiliza la frecuencia relativa.
Algoritmos como la Regresión Logística o Naive Bayes no te dicen un “sí” o un “no” rotundo. Lo que hacen es calcular la probabilidad de que un dato pertenezca a una categoría. Por ejemplo: “Este correo tiene un 0.88 (88%) de probabilidad de ser Spam”.
La representación en árbol permite representar todas las posibilidades:
2.2 Experimentos Univariados
Consideremos una clase compuesta por un total de \(20\) estudiantes. Se sabe que \(12\) de ellos practican algún deporte, mientras que los \(8\) restantes no realizan ninguna actividad deportiva.Si seleccionamos a un estudiante de la clase de forma completamente aleatoria, la probabilidad de que practique algún deporte se calcula de la siguiente manera:
\[P(\text{Deporte}) = \frac{\text{Casos favorables}}{\text{Casos posibles}} = \frac{12}{20} = 0.6 = 60\%\]
En este experimento: * El número de casos favorables es \(12\) (los estudiantes que entrenan). * El número de casos posibles es \(20\) (el total de la población de la clase).
En un problema de aprendizaje supervisado, si tuviéramos que construir un modelo base muy simple que prediga si el próximo alumno practica deporte sin saber nada más de él, la mejor estrategia estadística sería apostar siempre a que “Sí lo hace”, teniendo un 60% de precisión por defecto debido a la distribución original de la probabilidad en tus datos.
Si queremos calcular la probabilidad de obtener “cara” al lanzar una moneda al aire, aplicamos la Regla de Laplace identificando sus componentes:
- Casos posibles: \(2\) (ya que los únicos resultados excluyentes y equiprobables son “cara” o “cruz”).
- Casos favorables: \(1\) (el evento específico que queremos medir: “cara”).
La fórmula se despliega de la siguiente manera: \[P(\text{Cara}) = \frac{1}{2} = 0.5 = 50\%\]
En el mundo real del Machine Learning, a este experimento de dos resultados posibles (éxito/fracaso, cara/cruz, 1/0) se le conoce como un Ensayo de Bernoulli. Si lanzaras esa misma moneda \(100\) veces y anotaras los resultados para analizar la frecuencia, estarías modelando una Distribución Binomial, que es la base matemática que usan los algoritmos para calcular tasas de conversión (por ejemplo, si un usuario hace clic o no en un anuncio).
2.3 Experimentos Compuestos y Eventos Independientes
Para complicarlo más ¿qué ocurre si lanzams dos monedas? yo quiero saber la probabiidad de que salga cara en el primer lanzamiento y cara en el segundo lanzamiento. Al lanzar dos monedas, lo que pase con la segunda moneda no depende para nada de lo que haya salido en la primera.
Primero, hay que definir el espacio muestral, que es el conjunto de todos los resultados posibles al lanzar dos monedas. Si tiramos la Moneda 1 y luego la Moneda 2, los resultados posibles son \(4\):
- Cara y Cara (C, C)
- Cara y Cruz (C, X)
- Cruz y Cara (X, C)
- Cruz y Cruz (X, X)
Como todos estos escenarios tienen la misma probabilidad de ocurrir, aplicamos la Regla de Laplace:
\[P(\text{Cara y Cara}) = \frac{1}{4} = 0.25 = 25\%\]
Cuando dos eventos son independientes, la probabilidad de que ocurran ambos al mismo tiempo (intersección) es simplemente la multiplicación de sus probabilidades individuales:
\[P(A \cap B) = P(A) \times P(B)\]
- Probabilidad de Cara en el primer lanzamiento: \(P(\text{Cara}_1) = 0.5\)
- Probabilidad de Cara en el segundo lanzamiento: \(P(\text{Cara}_2) = 0.5\)
\[P(\text{Cara}_1 \text{ y } \text{Cara}_2) = 0.5 \times 0.5 = 0.25 = 25\%\]
Ahora si lanzamos dos dados cual es la probabilidad de que en ambos dados haya un 4. En este caso el espacio muestral es más amplio, porque un dado tiene 6 caras.
\[\begin{matrix} (1,1) & (1,2) & (1,3) & (1,4) & (1,5) & (1,6) \\ (2,1) & (2,2) & (2,3) & (2,4) & (2,5) & (2,6) \\ (3,1) & (3,2) & (3,3) & (3,4) & (3,5) & (3,6) \\ (4,1) & (4,2) & (4,3) & \mathbf{(4,4)} & (4,5) & (4,6) \\ (5,1) & (5,2) & (5,3) & (5,4) & (5,5) & (5,6) \\ (6,1) & (6,2) & (6,3) & (6,4) & (6,5) & (6,6) \\ \end{matrix}\]
El número de casos posible es en este caso es de 36, mientras que el número de casos favorables es de 1.
\[P(\text{4 y 4}) = \frac{1}{36} \approx 0.0278 = 2.78\%\]
Como el resultado del segundo dado no depende en absoluto del primero, los eventos son independientes. Podemos calcular la probabilidad de cada uno por separado y luego multiplicarlas:
Probabilidad de sacar un 4 en el Dado 1: \(P(\text{4}_1) = \frac{1}{6}\)
Probabilidad de sacar un 4 en el Dado 2: \(P(\text{4}_2) = \frac{1}{6}\)
\[P(\text{4}_1 \cap \text{4}_2) = P(\text{4}_1) \times P(\text{4}_2) = \frac{1}{6} \times \frac{1}{6} = \frac{1}{36} \approx 2.78\%\]
2.4 Suma de probabilidades
Cuando sumamos probabilidades, estamos buscando la probabilidad de que ocurra el evento A o el evento B (o ambos, si no son excluyentes). En la teoría de conjuntos, esto se conoce como la Unión (\(\cup\)). Nos sirve si se cumple la condición \(A\), si se cumple la \(B\), o si se cumplen ambas.
La forma de calcular depende de si los eventos son excluyentes o no los son.
Dos eventos son excluyentes si no pueden ocurrir a la vez, en el caso de un dado no puede ser que salga el 1 y el 3 a la vez en el mismo dado en el mismo lanzamiento. Dos no son mutuamente excluyentoes es decir que pueden ocurreir al mismo tiempo, por ejemplo al lanzar un dado puede salir el dos y a la vez un número par.
2.4.1 Suma de Eventos Mutuamente Excluyentes
La suma de las probabilidades de eventos mutuamente excluyentes es directa.
Como estos eventos no pueden ocurrir al mismo tiempo (su intersección es cero), no hay riesgo de duplicar datos. Si el evento \(A\) y el evento \(B\) son mutuamente excluyentes, la probabilidad de que ocurra el evento \(A\) O el evento \(B\) (unión) es la simple suma de sus probabilidades individuales:
\[P(A \cup B) = P(A) + P(B)\]
Si queremos calcular la probabilidad de obtener un 2 o un 5 al lanzar un dado:
DADO CONDICIONES ¿ES FAVORABLE?
┌───┐
│ 1 │ [ ] Es 2 [ ] Es 5 ───────► No
├───┤
│ 2 │ [X] Es 2 [ ] Es 5 ───────► ¡SÍ! (Caso 1)
├───┤
│ 3 │ [ ] Es 2 [ ] Es 5 ───────► No
├───┤
│ 4 │ [ ] Es 2 [ ] Es 5 ───────► No
├───┤
│ 5 │ [ ] Es 2 [X] Es 5 ───────► ¡SÍ! (Caso 2)
├───┤
│ 6 │ [ ] Es 2 [ ] Es 5 ───────► No
└───┘
Vemos que de los seis casos posibles, dos son favorables.
\[P(\text{2 o 5}) = \frac{2}{6}\]
O mediante el uso de la formula:
\[P(A \cup B) = P(2) + P(5) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6}\]
Imagina que lanzas dos dados y quieres calcular la probabilidad de dos eventos mutuamente excluyentes:
- Evento A: Que la suma de los dados sea 7.
- Evento B: Que la suma de los dados sea 11.
¿Por qué son excluyentes? Porque la suma de una tirada de dos dados puede dar 7, o puede dar 11, pero es físicamente imposible que una misma tirada sume 7 y 11 al mismo tiempo.
DADO 2 ──►
1 2 3 4 5 6
DADO 1 ┌───────┬───────┬───────┬───────┬───────┬───────┐
▼ │ (1,1) │ (1,2) │ (1,3) │ (1,4) │ (1,5) │ (1,6) │ ◄── [A] Suma 7
1 │ │ │ │ │ │ [A] │
├───────┼───────┼───────┼───────┼───────┼───────┤
│ (2,1) │ (2,2) │ (2,3) │ (2,4) │ (2,5) │ (2,6) │
2 │ │ │ │ │ [A] │ │
├───────┼───────┼───────┼───────┼───────┼───────┤
│ (3,1) │ (3,2) │ (3,3) │ (3,4) │ (3,5) │ (3,6) │
3 │ │ │ │ [A] │ │ │
├───────┼───────┼───────┼───────┼───────┼───────┤
│ (4,1) │ (4,2) │ (4,3) │ (4,4) │ (4,5) │ (4,6) │
4 │ │ │ [A] │ │ │ │
├───────┼───────┼───────┼───────┼───────┼───────┤
│ (5,1) │ (5,2) │ (5,3) │ (5,4) │ (5,5) │ (5,6) │ ◄── [B] Suma 11
5 │ │ [A] │ │ │ │ [B] │
├───────┼───────┼───────┼───────┼───────┼───────┤
│ (6,1) │ (6,2) │ (6,3) │ (6,4) │ (6,5) │ (6,6) │
6 │ [A] │ │ │ │ [B] │ │
└───────┴───────┴───────┴───────┴───────┴───────┘
- Evento [A] (Suma igual a 7): Se activa en las casillas (1,6), (2,5), (3,4), (4,3), (5,2) y (6,1). Son 6 casos favorables.
- Evento [B] (Suma igual a 11): Se activa únicamente en las casillas (5,6) y (6,5). Son 2 casos favorables.
Las etiquetas [A] y [B] jamás caen dentro de la misma casilla. Al no haber doble conteo ni interferencias, la probabilidad de que la suma sea 7 O 11 se calcula sumando directamente:
\[P(\text{Suma 7 o 11}) = \frac{6}{36} + \frac{2}{36} = \frac{8}{36} = \frac{2}{9} \approx 22.22\%\]
2.4.2 Suma de Eventos NO Mutuamente Excluyentes
Cuando los eventos pueden ocurrir al mismo tiempo, la suma directa ya no funciona porque existe el riesgo de duplicar datos. Si sumamos a ciegas las opciones de ambos eventos, estaremos contando dos veces la zona donde se cruzan (la intersección).
Para corregir este doble conteo, aplicamos la Regla General de la Adición: sumamos ambas probabilidades individuales y restamos la probabilidad de la intersección:
\[P(A \cup B) = P(A) + P(B) - P(A \cap B)\]
Si lanzamos un dado y queremos calcular la probabilidad de que salga 4 o par, y marcamos las condiciones para cada número, el mapa visual nos revela un problema:
DADO CONDICIONES SITUACIÓN DEL CASO
┌───┐
│ 1 │ [ ] Es Par [X] Menor que 4 ──► ¡SÍ! (Cuenta 1 vez)
├───┤
│ 2 │ [X] Es Par [X] Menor que 4 ──► ¡CHOQUE! (Se marca 2 veces)
├───┤
│ 3 │ [ ] Es Par [X] Menor que 4 ──► ¡SÍ! (Cuenta 1 vez)
├───┤
│ 4 │ [X] Es Par [ ] Menor que 4 ──► ¡SÍ! (Cuenta 1 vez)
├───┤
│ 5 │ [ ] Es Par [ ] Menor que 4 ──► No
├───┤
│ 6 │ [X] Es Par [ ] Menor que 4 ──► ¡SÍ! (Cuenta 1 vez)
└───┘
Si contamos las marcas totales [X], nos saldrían \(6\) casos (\(3\) pares + \(3\) menores que 4). Sin embargo, al observar el mapa vemos que el número 5 no cumple ninguna condición, por lo que es imposible que tengamos \(6\) casos favorables de \(6\) posibles.
El error es que el 2 se llevó dos marcas. Aplicando la fórmula matemática, restamos ese choque (la intersección):
- Probabilidad de Par \(P(A)\): \(\frac{3}{6}\) (números 2, 4, 6)
- Probabilidad de Menor que 4 \(P(B)\): \(\frac{3}{6}\) (números 1, 2, 3)
- Probabilidad de Ambos a la vez \(P(A \cap B)\): \(\frac{1}{6}\) (solo el número 2)
\[P(A \cup B) = \frac{3}{6} + \frac{3}{6} - \frac{1}{6} = \frac{5}{6} \approx 83.3\%\]
Al restar la intersección, el número 2 pasa a contar como un único caso favorable real, alineando la matemática con lo que vemos en el gráfico: exactamente 5 de los 6 casos son favorables (1, 2, 3, 4 y 6).
2.5 La regla de la multiplicación
Queremos calcular la probabilidad de un resultado exacto: sacar Cara (C) en la moneda y un 4 en el dado.
Imagina que lanzas la moneda y el dado al mismo tiempo dentro de una máquina que va filtrando los resultados por fases:
[100% de los Intentos Totales]
│
▼ (Fase 1: Lanzar Moneda)
┌───────┴───────┐
[Cara] [Cruz] ◄── La mitad de los intentos muere aquí.
(50%) (50%)
│ │
▼ (Fase 2: ❌ (No nos sirve, el filtro AND exige Cara)
Filtramos el Dado)
┌───┬───┬───┬───┬───┬───┐
[1] [2] [3] [4] [5] [6] ◄── El dado divide la mitad sobreviviente en 6 partes.
│
▼
[¡OK!] ◄── Solo 1 de cada 6 supervivientes pasa esta compuerta.
El primer filtro (La Moneda): De todos los lanzamientos posibles del universo, la moneda descarta de inmediato el \(50\%\) (las Cruces). Solo nos quedamos con una fracción de \(\frac{1}{2}\) de los intentos originales. El segundo filtro (El Dado): De esa mitad que sobrevivió, el dado vuelve a fragmentar todo en \(6\) caminos iguales. Nosotros solo queremos el camino del número 4. Es decir, nos quedamos con una fracción de \(\frac{1}{6}\)
\[\text{Probabilidad Final} = \frac{1}{6} \text{ de } \frac{1}{2} \implies \frac{1}{2} \times \frac{1}{6} = \frac{1}{12}\]
Cuando un evento no afecta al otro, la compuerta lógica AND (\(\cap\)) te obliga a multiplicar las probabilidades individuales para ver qué porcentaje total logra cruzar todo el circuito: \[P(\text{Moneda} \cap \text{Dado}) = P(\text{Moneda}) \times P(\text{Dado})\] \[P(\text{Cara Y 4}) = \frac{1}{2} \times \frac{1}{6} = \frac{1}{12} \approx 0.0833 = 8.33\%\]
Queremos calcular la probabilidad de una jugada muy específica lanzando un dado tres veces seguidas:
- En el primer lanzamiento, sacar un Número Par (2, 4, 6).
- En el segundo lanzamiento, sacar un Número Mayor que 4 (5, 6).
- En el tercer lanzamiento, sacar exactamente un 1.
Como los dados no tienen memoria (lo que sale en el segundo dado no depende de lo que salió en el primero), las probabilidades individuales no cambian. El filtro AND (Y) te obliga a multiplicar las fracciones para ver cuánto sobrevive al final del embudo:
- Probabilidad de Par: \(\frac{3}{6} = \frac{1}{2}\)
- Probabilidad de Mayor que 4: \(\frac{2}{6} = \frac{1}{3}\)
- Probabilidad de sacar un 1: \(\frac{1}{6}\)
Multiplicamos las tres condiciones de la cadena: \[\text{Probabilidad Total} = \frac{1}{2} \times \frac{1}{3} \times \frac{1}{6} = \frac{1}{36}\] \[\text{Probabilidad Total} \approx 0.0277 = 2.77\%\]
2.6 Probabilidad condicional
La probabilidad condicional calcula la probabilidad de que ocurra un evento \(A\), sabiendo que ya ha ocurrido otro evento \(B\). Se escribe como \(P(A \mid B)\), que se lee: “la probabilidad de A dado B”. La clave de la probabilidad condicional es que la información previa reduce el espacio muestral.
Si dos eventos son independientes, el segundo evento no se ve afectado por el primero. Como el condicional “no hace nada”, la regla de la multiplicación se simplifica a una multiplicación directa:
\[P(A \cap B) = P(A) \times P(B)\]
Cuando los eventos son dependientes (como en en el ejemplo de producción, donde saber si un producto es defectuoso cambia la probabilidad de la línea), ya no puedes multiplicar las probabilidades originales directamente porque el primer evento altera el tablero de juego del segundo.
\[P(A \cap B) = P(B) \times P(A \mid B)\]
- Calcula la probabilidad de que ocurra el primer evento: \(P(B)\)
- Multiplícala por la probabilidad del segundo evento pero ya modificada por el filtro del primero: \(P(A \mid B)\)
Cuando se quiere calcular la probabilidad de que ocurrarn dos eventos, se utiliza la multiplicación. Cuando son independientes simplemente se multiplican los eventos ,pero cuando son independientes no.
\[P(A \cap B) = P(B) \times P(A \mid B)\]
\[P(A \mid B) = \frac{P(A \cap B)}{P(B)}\]
Volviendo al ejempos de calcular la probabilidad de un resultado exacto: sacar Cara (C) en la moneda y un 4 en el dado. Podemos comprobar esta teoría, podemos hacer la prueba y veremos la probabilidad de sacar un 4 si antes hemos sacado cara, es la misma que sacar directamente un cuatro, porque son evetos indpendientes.
\[P(cara) = \frac{1}{2}\]
\[P(4|cara) = \frac{1}{6}\]
\[P(4) = \frac{1}{6}\]
\[P(Cara \cap 4) = P(cara) \times P(4 \mid cara) = P(cara) \times P(4) \]
Podemos determinar formalmente que los eventos de un proceso son independientes si el árbol cumple la Regla de la Constancia de Ramificaciones:
- Árbol Simétrico (Independiente): Las bifurcaciones y sus probabilidades son idénticas en todos los niveles, sin importar qué camino hayas recorrido para llegar hasta ahí. El pasado no altera las opciones del presente.
- Árbol Asimétrico (Dependiente/Condicional): Las probabilidades o las opciones de las ramas cambian según el camino que elijas. El pasado condiciona el presente.
PROCESO INDEPENDIENTE (Monedas) PROCESO DEPENDIENTE (Extracción sin reemplazo)
┌───► [Cara] (Prob: 50%) ┌───► [Bola Roja] (Prob: 40%)
[Cara]─┤ [Rojo]─┤
└───► [Cruz] (Prob: 50%) └───► [Bola Azul] (Prob: 60%)
┌───► [Cara] (Prob: 50%) ┌───► [Bola Roja] (Prob: 20%)
[Cruz]─┤ [Azul]─┤
└───► [Cruz] (Prob: 50%) └───► [Bola Azul] (Prob: 80%)
Las ramas son idénticas. Las probabilidades cambian según
P(Cara|Cara) = P(Cara|Cruz) la bola que sacaste primero.