Resumen de Estadística: Medidas de Posicion, Boxplot, Medidas de Dispersion y Asimetria
Medidas de Posición
Percentiles
El percentil k
(Pk) es el valor de la variable tal que el k por ciento de los valores de la
muestra son menores o iguales que él.
Ejemplo:
Si P35 (el
percentil 35) de una muestra de sueldos es $560, entonces podemos decir que el
35% de los empleados ganan $560 o menos, o que $560 es el sueldo máximo que
gana el 355 de los empleados de menor remuneración.
Cuartiles
Los cuartiles
son los números que separan los datos, ordenados de manera creciente, en cuatro
partes iguales. Cada conjunto de datos tiene tres cuartiles: el primer cuartil (Q1), la mediana (Me) y el tercer
cuartil (Q3).
Cuando los
datos están ordenados de menor a mayor, Q1 es un número tal que tres cuartos de
los datos son menores o iguales que él y Q3 es un número tal que tres cuartos
de los datos son mayores o iguales que él.
Por ejemplo
en esta serie de datos ordenados
En el caso de
intervalos de clase utilizamos las siguientes formulas
Recorrido intercuartilico
El RIQ es el
“Rango Intercuartil” de un conjunto de datos. Se utiliza en el análisis
estadistico para ayudar a obtener conclusiones acerca de un conjunto de
numeros. El RIQ a menudo se utiliza más que el rango, porque excluye la mayoria
de los valores atipicos.
Esencialmente,
se trata de una forma de comprender la propagacion o “dispersion” de un
conjunto de numeros. [1] el rango intercuartil se define como la diferencia
entre el cuartil superior (el 25% más alto) y el cuartil inferior (el 25% más
bajo) de un conjunto de datos. El cuartil inferior, generalmente, se escribe
como Q1 y el cuartil superior es Q3, lo que tecnicamente marca el punto
intermedio entre el conjunto de datos Q2 y el puntos más alto Q4.
Interpretación
del RI: El 50% de los datos se encuentra entre el Q1 y Q3
Gráfico de Boxplot
Es un gráfico representativo de las distribuciones de un
conjunto de datos en cuya construcción se usan cinco medidas descriptivas de
los mismos, a saber: mediana, primer cuartil, tercer cuartil, valor máximo y
valor mínimo.
Esta presentación visual, asocia las cinco medidas que
suelen trabajarse de forma individual. Presenta al mismo tiempo, información
sobre la tendencia central, dispersión y simetría de los datos de estudio.
Además, permite identificar con claridad y de forma individual, observaciones
que se alejan de manera poco usual del resto de los datos. A estas
observaciones se les conoce como valores atípicos o también outlier. Por su
facilidad de construcción e interpretación, permite también comparar a la vez
varios grupos de datos sin perder información ni saturarse de ella. Por
ejemplo, diagrama por peso.
El rectángulo se denomina caja. Los extremos hasta cada
valor máximo o mínimo se denominan brazos de la caja.
Para realizar este gráfico también puede utilizarse un
eje graduado horizontal. En ese caso la caja estaría horizontal.
La media es muy sensible a la presencia de Outlier y por eso interesa detectarlos. Se consideran outlier aquellas medidas que sean menores que el primer cuartil menos 1.5 veces el rango intercuartílico, o mayores que el tercer cuartil más 1.5 veces RI:
Si la distancia llega a superar las 3 veces RI, entonces
el outlier se considera grave, en caso contrario, lo consideraremos leve.
Medidas de dispersión
Son medidas que indican la variación que tienen los datos
con los datos con respecto a la media
Rango
Para un conjunto de datos el RANGO se obtiene como la
diferencia de los valores del dato mayor menos el dato menor. Esta es una
medida que es poco utilizada debido a que únicamente considera el valor de los
datos extremos sin considerar el comportamiento de los demás datos.
Ejemplo: (1, 2 ,100) R=
99 , (15,17,16,18,21,18,16,19,20,16,15,20)
R=6
Desviación de la media
Cuando se tiene un conjunto de n datos (no agrupados) la desviación de la media se obtiene mediante la siguiente expresión:
Y representa
el promedio de los valores con los cuales cada dato se aleja de la media, la
resta al final se toma el valor absoluto, por ejemplo, |4-10|=6.
Ejemplo:
obtener la desviacion media para el siquiente conjunto de datos:
4, 13, 20,
14, 17, 15, 11, 30, 6,10 (la media es 14)
Significa que los datos que se encuentran alejados en
promedio 5.2 unidades de la media, es decir, que la mayoría de los datos están
comprendidos entre:
Para obtener la desviación media cuando se tiene un
conjunto de datos agrupados se emplea la siguiente formula:
Varianza y Desviacion estandar
Para series
Cuando se tiene un conjunto de n datos, la varianza se determina mediante la siguiente expresion:
Ejemplo: obtener la varianza y la desviación estándar para los
siguientes datos
4 13 20 14 17 15 11 30
6 10
Cuanto mayor es la desviación típica o estándar, más dispersos están
los datos respecto de la media.
Observaciones: para calcular la desviación de una
muestra también se puede dividir por n-1, pero en este caso los realizaremos
solo para estimar en las ultimas unidades de la materia.
Para datos agrupados
Cuando se tiene un conjunto de datos agrupados, la varianza se
determina (para el siguiente conjunto) mediante la siguiente expresión:
Características de la desviación estándar
Coeficiente de Variación
Para un conjunto de datos el coeficiente de variación se define
como la desviación estándar dividida entre las medias, es decir:
Al resultado se lo expresa en porcentaje multiplicando por 100.
El coeficiente de variación es independiente de las unidades
utilizadas. Por esta razón es útil para comparar distribuciones donde las
unidades pueden ser diferentes. Un inconveniente del coeficiente de variación es
que deja de ser útil cuando la media está próxima a cero.
Si el CV<30% se dice que los datos están distribuidos homogéneamente,
es decir que los datos están concentrados alrededor de la media.
Asimetría
Es una medida de forma de una distribución que permite
identificar y descubrir la manera como los datos tiende a reunirse de acuerdo
con la frecuencia con que se hallen dentro de la distribución. Permite identificar
las características de la distribución de datos sin necesidad de generar el
grafico.
Tipos de asimetría
Asimetría negativa o la izquierda: se da cuando en una distribución la minoría de los datos esta la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda o tiene sesgo negativo cuando. media<mediana<moda
NOTA: sesgo es el grado de asimetría de una distribución, es
decir, cuanto se aparta de la simetría
Simétrica: Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es simétrica cuando .media=mediana=moda
Asimétrica Positiva o a
la Derecha: Se da cuando en una distribución la
minoría de los datos está en la parte derecha de la media aritmética. Este tipo
de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la
distribución de los datos tiene a la derecha una cola más larga que a la
izquierda. También se dice que una distribución es simétrica a la derecha o
tiene sesgo positivo cuando el valor de la media aritmética es mayor que la mediana
y éste a valor de la mediana a su vez es mayor que la moda, en símbolos
Comentarios
Publicar un comentario