Resumen de Estadística: Medidas de Posicion, Boxplot, Medidas de Dispersion y Asimetria

 

Medidas de Posición

Percentiles

El percentil k (Pk) es el valor de la variable tal que el k por ciento de los valores de la muestra son menores o iguales que él.

Ejemplo:

Si P35 (el percentil 35) de una muestra de sueldos es $560, entonces podemos decir que el 35% de los empleados ganan $560 o menos, o que $560 es el sueldo máximo que gana el 355 de los empleados de menor remuneración.

Para calcular los percentiles se utiliza la misma fórmula que para el cálculo de la mediana, diferenciándose solamente en que la posición de un percentil k está indicada por la formula.

Cuartiles

Los cuartiles son los números que separan los datos, ordenados de manera creciente, en cuatro partes iguales. Cada conjunto de datos tiene tres cuartiles: el primer cuartil (Q1), la mediana (Me) y el tercer cuartil (Q3).

Cuando los datos están ordenados de menor a mayor, Q1 es un número tal que tres cuartos de los datos son menores o iguales que él y Q3 es un número tal que tres cuartos de los datos son mayores o iguales que él.

Por ejemplo en esta serie de datos ordenados

En el caso de intervalos de clase utilizamos las siguientes formulas

Recorrido intercuartilico

El RIQ es el “Rango Intercuartil” de un conjunto de datos. Se utiliza en el análisis estadistico para ayudar a obtener conclusiones acerca de un conjunto de numeros. El RIQ a menudo se utiliza más que el rango, porque excluye la mayoria de los valores atipicos.

Esencialmente, se trata de una forma de comprender la propagacion o “dispersion” de un conjunto de numeros. [1] el rango intercuartil se define como la diferencia entre el cuartil superior (el 25% más alto) y el cuartil inferior (el 25% más bajo) de un conjunto de datos. El cuartil inferior, generalmente, se escribe como Q1 y el cuartil superior es Q3, lo que tecnicamente marca el punto intermedio entre el conjunto de datos Q2 y el puntos más alto Q4.

Interpretación del RI: El 50% de los datos se encuentra entre el Q1 y Q3

Gráfico de Boxplot

Es un gráfico representativo de las distribuciones de un conjunto de datos en cuya construcción se usan cinco medidas descriptivas de los mismos, a saber: mediana, primer cuartil, tercer cuartil, valor máximo y valor mínimo.

Esta presentación visual, asocia las cinco medidas que suelen trabajarse de forma individual. Presenta al mismo tiempo, información sobre la tendencia central, dispersión y simetría de los datos de estudio. Además, permite identificar con claridad y de forma individual, observaciones que se alejan de manera poco usual del resto de los datos. A estas observaciones se les conoce como valores atípicos o también outlier. Por su facilidad de construcción e interpretación, permite también comparar a la vez varios grupos de datos sin perder información ni saturarse de ella. Por ejemplo, diagrama por peso.

El rectángulo se denomina caja. Los extremos hasta cada valor máximo o mínimo se denominan brazos de la caja.

Para realizar este gráfico también puede utilizarse un eje graduado horizontal. En ese caso la caja estaría horizontal.

La media es muy sensible a la presencia de Outlier y por eso interesa detectarlos. Se consideran outlier aquellas medidas que sean menores que el primer cuartil menos 1.5 veces el rango intercuartílico, o mayores que el tercer cuartil más 1.5 veces RI:


Si la distancia llega a superar las 3 veces RI, entonces el outlier se considera grave, en caso contrario, lo consideraremos leve.

Medidas de dispersión

Son medidas que indican la variación que tienen los datos con los datos con respecto a la media

Rango

Para un conjunto de datos el RANGO se obtiene como la diferencia de los valores del dato mayor menos el dato menor. Esta es una medida que es poco utilizada debido a que únicamente considera el valor de los datos extremos sin considerar el comportamiento de los demás datos.

Ejemplo: (1, 2 ,100) R= 99  , (15,17,16,18,21,18,16,19,20,16,15,20) R=6

Desviación de la media

Cuando se tiene un conjunto de n datos (no agrupados) la desviación de la media se obtiene mediante la siguiente expresión:

Y representa el promedio de los valores con los cuales cada dato se aleja de la media, la resta al final se toma el valor absoluto, por ejemplo, |4-10|=6.

Ejemplo: obtener la desviacion media para el siquiente conjunto de datos:

4, 13, 20, 14, 17, 15, 11, 30, 6,10 (la media es 14)

Significa que los datos que se encuentran alejados en promedio 5.2 unidades de la media, es decir, que la mayoría de los datos están comprendidos entre:


Para obtener la desviación media cuando se tiene un conjunto de datos agrupados se emplea la siguiente formula:


Ejemplo:


Se calcula la Media:
Significa que la mayoria de datos estan en el intervalo:


Varianza y Desviacion estandar

Para series

Cuando se tiene un conjunto de n datos, la varianza se determina mediante la siguiente expresion:

Ejemplo: obtener la varianza y la desviación estándar para los siguientes datos

4 13 20 14 17 15 11 30 6 10

Cuanto mayor es la desviación típica o estándar, más dispersos están los datos respecto de la media.

Observaciones: para calcular la desviación de una muestra también se puede dividir por n-1, pero en este caso los realizaremos solo para estimar en las ultimas unidades de la materia.

Para datos agrupados

Cuando se tiene un conjunto de datos agrupados, la varianza se determina (para el siguiente conjunto) mediante la siguiente expresión:



Características de la desviación estándar

Coeficiente de Variación

Para un conjunto de datos el coeficiente de variación se define como la desviación estándar dividida entre las medias, es decir:

Al resultado se lo expresa en porcentaje multiplicando por 100.

Ejemplo:

Determine el coeficiente de variación para el siguiente conjunto de datos.



El coeficiente de variación es independiente de las unidades utilizadas. Por esta razón es útil para comparar distribuciones donde las unidades pueden ser diferentes. Un inconveniente del coeficiente de variación es que deja de ser útil cuando la media está próxima a cero.

Si el CV<30% se dice que los datos están distribuidos homogéneamente, es decir que los datos están concentrados alrededor de la media.

Asimetría

Es una medida de forma de una distribución que permite identificar y descubrir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el grafico.

Tipos de asimetría

Asimetría negativa o la izquierda: se da cuando en una distribución la minoría de los datos esta la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda o tiene sesgo negativo cuando. media<mediana<moda

NOTA: sesgo es el grado de asimetría de una distribución, es decir, cuanto se aparta de la simetría

Simétrica: Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es simétrica cuando .media=mediana=moda


Asimétrica Positiva o a la Derecha: Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más larga que a la izquierda. También se dice que una distribución es simétrica a la derecha o tiene sesgo positivo cuando el valor de la media aritmética es mayor que la mediana y éste a valor de la mediana a su vez es mayor que la moda, en símbolos . Del ejemplo anterior sobre Coeficiente de Variación los datos muestran que es asimetría positiva.

Medidas de Asimetría: Coeficiente de Karl Pearson

Comentarios