Siguiente: Funciones y variables para gráficos estadísticos, Anterior: Funciones y variables para el tratamiento de datos, Subir: descriptive [Índice general][Índice]
Es la media muestral, definida como
n ==== _ 1 \ x = - > x n / i ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) mean (s1); 471 (%o3) --- 100
(%i4) %, numer; (%o4) 4.71
(%i5) s2 : read_matrix (file_search ("wind.data"))$
(%i6) mean (s2); (%o6) [9.9485, 10.1607, 10.8685, 15.7166, 14.8441]
Es la varianza muestral, definida como
n ==== 2 1 \ _ 2 s = - > (x - x) n / i ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) var (s1), numer; (%o3) 8.425899999999999
Véase también var1
.
Es la cuasivarianza muestral, definida como
n ==== 1 \ _ 2 --- > (x - x) n-1 / i ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) var1 (s1), numer; (%o3) 8.5110101010101
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) var1 (s2); (%o5) [17.39586540404041, 15.13912778787879, 15.63204924242424, 32.50152569696971, 24.66977392929294]
Véase también var
.
Es la desviación típica muestral, raíz cuadrada de var
.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) std (s1), numer; (%o3) 2.902740084816414
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) std (s2); (%o5) [4.149928523480858, 3.871399812729241, 3.933920277534866, 5.672434260526957, 4.941970881136392]
Véanse también var
y std1
.
Es la cuasidesviación típica muestral, raíz cuadrada de var1
.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) std1 (s1), numer; (%o3) 2.917363553109228
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) std1 (s2); (%o5) [4.17083509672109, 3.89090320978032, 3.953738641137555, 5.701010936401517, 4.966867617451963]
Véanse también var1
y std
.
Es el momento no central de orden \(k\), definido como
n ==== 1 \ k - > x n / i ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) noncentral_moment (s1, 1), numer; /* the mean */ (%o3) 4.71
(%i5) s2 : read_matrix (file_search ("wind.data"))$ (%o5) [319793.8724761506, 320532.1923892463, 391249.5621381556, 2502278.205988911, 1691881.797742255]
(%i6) noncentral_moment (s2, 5);
Véase también central_moment
.
Es el momento central de orden \(k\), definido como
n ==== 1 \ _ k - > (x - x) n / i ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) central_moment (s1, 2), numer; /* the variance */ (%o3) 8.425899999999999
(%i5) s2 : read_matrix (file_search ("wind.data"))$ (%o5) [11.29584771375004, 16.97988248298583, 5.626661952750102, 37.5986572057918, 25.85981904394192]
(%i6) central_moment (s2, 3);
Véanse también central_moment
y mean
.
Es el coeficiente de variación, o cociente entre la desviación típica muestral (std
) y la media (mean
),
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) cv (s1), numer; (%o3) .6193977819764815
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) cv (s2); (%o5) [.4192426091090204, .3829365309260502, 0.363779605385983, .3627381836021478, .3346021393989506]
Véanse también std
y mean
.
Es el valor mínimo de la muestra list.
Cuando el argumento es una matriz, smin
devuelve
una lista con los valores mínimos de las
columnas, las cuales están asociadas a variables
estadísticas.
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) smin (s1); (%o3) 0
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) smin (s2); (%o5) [0.58, 0.5, 2.67, 5.25, 5.17]
Véase también smax
.
Es el valor máximo de la muestra list.
Cuando el argumento es una matriz, smax
devuelve
una lista con los valores máximos de las
columnas, las cuales están asociadas a variables
estadísticas.
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) smax (s1); (%o3) 9
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) smax (s2); (%o5) [20.25, 21.46, 20.04, 29.63, 27.63]
Véase también smin
.
Es la diferencia entre los valores extremos.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) range (s1); (%o3) 9
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) range (s2); (%o5) [19.67, 20.96, 17.37, 24.38, 22.46]
Es el p-cuantil, siendo p un número del intervalo \([0, 1]\), de la muestra list.
Aunque existen varias definiciones para el cuantil muestral (Hyndman, R. J., Fan, Y. (1996) Sample quantiles in statistical packages. American Statistician, 50, 361-365), la programada en el paquete descriptive
es la basada en la interpolación lineal.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) /* 1st and 3rd quartiles */ [quantile (s1, 1/4), quantile (s1, 3/4)], numer; (%o3) [2.0, 7.25]
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) quantile (s2, 1/4); (%o5) [7.2575, 7.477500000000001, 7.82, 11.28, 11.48]
Una vez ordenada una muestra, si el tamaño muestral es impar la mediana es el valor central, en caso contrario será la media de los dos valores centrales.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) median (s1); 9 (%o3) - 2
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) median (s2); (%o5) [10.06, 9.855, 10.73, 15.48, 14.105]
La mediana es el cuantil 1/2.
Véase también quantile
.
El rango intercuartílico es la diferencia entre el tercer y primer cuartil,
quantile(list,3/4) - quantile(list,1/4)
,
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) qrange (s1); 21 (%o3) -- 4
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) qrange (s2); (%o5) [5.385, 5.572499999999998, 6.0225, 8.729999999999999, 6.650000000000002]
Véase también quantile
.
Es la desviación media, definida como
n ==== 1 \ _ - > |x - x| n / i ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) mean_deviation (s1); 51 (%o3) -- 20
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) mean_deviation (s2); (%o5) [3.287959999999999, 3.075342, 3.23907, 4.715664000000001, 4.028546000000002]
Véase también mean
.
Es la desviación mediana, definida como
n ==== 1 \ - > |x - med| n / i ==== i = 1
siendo med
la mediana de list.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) median_deviation (s1); 5 (%o3) - 2
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) median_deviation (s2); (%o5) [2.75, 2.755, 3.08, 4.315, 3.31]
Véase también mean
.
Es la media armónica, definida como
n -------- n ==== \ 1 > -- / x ==== i i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) y : [5, 7, 2, 5, 9, 5, 6, 4, 9, 2, 4, 2, 5]$
(%i3) harmonic_mean (y), numer; (%o3) 3.901858027632205
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) harmonic_mean (s2); (%o5) [6.948015590052786, 7.391967752360356, 9.055658197151745, 13.44199028193692, 13.01439145898509]
Véanse también mean
y geometric_mean
.
Es la media geométrica, definida como
/ n \ 1/n | /===\ | | ! ! | | ! ! x | | ! ! i| | i = 1 | \ /
Ejemplo:
(%i1) load ("descriptive")$ (%i2) y : [5, 7, 2, 5, 9, 5, 6, 4, 9, 2, 4, 2, 5]$
(%i3) geometric_mean (y), numer; (%o3) 4.454845412337012
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) geometric_mean (s2); (%o5) [8.82476274347979, 9.22652604739361, 10.0442675714889, 14.61274126349021, 13.96184163444275]
Véanse también mean
y harmonic_mean
.
Es el coeficiente de curtosis, definido como
n ==== 1 \ _ 4 ---- > (x - x) - 3 4 / i n s ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) kurtosis (s1), numer; (%o3) - 1.273247946514421
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) kurtosis (s2); (%o5) [- .2715445622195385, 0.119998784429451, - .4275233490482866, - .6405361979019522, - .4952382132352935]
Véanse también mean
, var
y skewness
.
Es el coeficiente de asimetría, definido como
n ==== 1 \ _ 3 ---- > (x - x) 3 / i n s ==== i = 1
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) skewness (s1), numer; (%o3) .009196180476450306
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) skewness (s2); (%o5) [.1580509020000979, .2926379232061854, .09242174416107717, .2059984348148687, .2142520248890832]
Véanse también mean
, var
y kurtosis
.
Es el coeficiente de asimetría de Pearson, definido como
_ 3 (x - med) ----------- s
siendo med la mediana de list.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) pearson_skewness (s1), numer; (%o3) .2159484029093895
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) pearson_skewness (s2); (%o5) [- .08019976629211892, .2357036272952649, .1050904062491204, .1245042340592368, .4464181795804519]
Véanse también mean
, var
y median
.
Es el coeficiente de asimetría cuartílico, definido como
c - 2 c + c 3/4 1/2 1/4 -------------------- c - c 3/4 1/4
siendo \(c_p\) el p-cuantil de la muestra list.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$
(%i3) quartile_skewness (s1), numer; (%o3) .04761904761904762
(%i4) s2 : read_matrix (file_search ("wind.data"))$
(%i5) quartile_skewness (s2); (%o5) [- 0.0408542246982353, .1467025572005382, 0.0336239103362392, .03780068728522298, 0.210526315789474]
Véase también quantile
.
Estimador Kaplan-Meier de la función de supervivencia o fiabilidad \(S(x)=1-F(x)\).
Los datos se pueden introducir como una lista de pares de números o como una matriz de dos columnas. La primera componente es el tiempo observado y la segunda componente es el índice de censura (1 = no censurado, 0 = censurado por la derecha).
El argumento opcional es el nombre de la variable en la expresión devuelta, la cual es x por defecto.
Ejemplos:
Muestra como una lista de pares.
(%i1) load ("descriptive")$
(%i2) S: km([[2,1], [3,1], [5,0], [8,1]]); charfun((3 <= x) and (x < 8)) (%o2) charfun(x < 0) + ----------------------------- 2 3 charfun((2 <= x) and (x < 3)) + ------------------------------- 4 + charfun((0 <= x) and (x < 2))
(%i3) load ("draw")$
(%i4) draw2d( line_width = 3, grid = true, explicit(S, x, -0.1, 10))$
Estimación de probabilidades de supervivencia.
(%i1) load ("descriptive")$ (%i2) S(t):= ''(km([[2,1], [3,1], [5,0], [8,1]], t)) $
(%i3) S(6); 1 (%o3) - 2
Función de distribución empírica \(F(x)\).
Los datos se pueden introducir como una lista de números o como una matriz columna.
El argumento opcional es el nombre de la variable en la expresión devuelta, la cual es x por defecto.
Ejemplo:
Función de distribución empírica.
(%i1) load ("descriptive")$
(%i2) F(x):= ''(cdf_empirical([1,3,3,5,7,7,7,8,9])); (%o2) F(x) := (charfun(x >= 9) + charfun(x >= 8) + 3 charfun(x >= 7) + charfun(x >= 5) + 2 charfun(x >= 3) + charfun(x >= 1))/9
(%i3) F(6); 4 (%o3) - 9
(%i4) load("draw")$ (%i5) draw2d( line_width = 3, grid = true, explicit(F(z), z, -2, 12)) $
Es la matriz de covarianzas de una muestra multivariante, definida como
n ==== 1 \ _ _ S = - > (X - X) (X - X)' n / j j ==== j = 1
siendo \(X_j\) la \(j\)-ésima fila de la matriz muestral.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$ (%i3) fpprintprec : 7$ /* change precision for pretty output */ [ 17.22191 13.61811 14.37217 19.39624 15.42162 ] [ ] [ 13.61811 14.98774 13.30448 15.15834 14.9711 ] [ ] (%o4) [ 14.37217 13.30448 15.47573 17.32544 16.18171 ] [ ] [ 19.39624 15.15834 17.32544 32.17651 20.44685 ] [ ] [ 15.42162 14.9711 16.18171 20.44685 24.42308 ] (%i5) cov (s2);
Véase también cov1
.
Es la matriz de cuasivarianzas de una muestra multivariante, definida como
n ==== 1 \ _ _ S = --- > (X - X) (X - X)' 1 n-1 / j j ==== j = 1
siendo \(X_j\) la \(j\)-ésima fila de la matriz muestral.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$ (%i3) fpprintprec : 7$ /* change precision for pretty output */ [ 17.39587 13.75567 14.51734 19.59216 15.5774 ] [ ] [ 13.75567 15.13913 13.43887 15.31145 15.12232 ] [ ] (%o4) [ 14.51734 13.43887 15.63205 17.50044 16.34516 ] [ ] [ 19.59216 15.31145 17.50044 32.50153 20.65338 ] [ ] [ 15.5774 15.12232 16.34516 20.65338 24.66977 ] (%i5) cov1 (s2);
Véase también cov
.
La función global_variances
devuelve una lista de medidas globales de variabilidad:
trace(S_1)
,
trace(S_1)/p
,
determinant(S_1)
,
sqrt(determinant(S_1))
,
determinant(S_1)^(1/p)
, (definida en: Peña, D. (2002) Análisis de datos multivariantes; McGraw-Hill, Madrid.)
determinant(S_1)^(1/(2*p))
.
donde p es la dimensión de la variable aleatoria multivariante y \(S_1\) la matriz de covarianzas devuelta por la función cov1
.
Opción:
'data
, por defecto 'true
, indica si la matriz de entrada contiene los datos muestrales,
en cuyo caso la matriz de covarianzas cov1
debe ser calculada; en caso contrario, se le debe
pasar ésta a la función como matriz simétrica en lugar de los datos.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$
(%i3) global_variances (s2); (%o3) [105.338342060606, 21.06766841212119, 12874.34690469686, 113.4651792608502, 6.636590811800794, 2.576158149609762]
Cálculo de global_variances
a partir de la matriz de covarianzas.
(%i1) load ("descriptive")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$ (%i3) s : cov1 (s2)$
(%i4) global_variances (s, data=false); (%o4) [105.338342060606, 21.06766841212119, 12874.34690469686, 113.4651792608502, 6.636590811800794, 2.576158149609762]
Véanse también cov
y cov1
.
Es la matriz de correlaciones de la muestra multivariante.
Opción:
'data
, por defecto 'true
, indica si la matriz de entrada contiene los datos muestrales,
en cuyo caso la matriz de covarianzas cov1
debe ser calculada; en caso contrario, se le debe
pasar ésta a la función como matriz simétrica en lugar de los datos.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) fpprintprec:7$ (%i3) s2 : read_matrix (file_search ("wind.data"))$ (%i4) cor (s2); [ 1.0 .8476339 .8803515 .8239624 .7519506 ] [ ] [ .8476339 1.0 .8735834 .6902622 0.782502 ] [ ] (%o4) [ .8803515 .8735834 1.0 .7764065 .8323358 ] [ ] [ .8239624 .6902622 .7764065 1.0 .7293848 ] [ ] [ .7519506 0.782502 .8323358 .7293848 1.0 ]
Cálculo de la matriz de correlaciones a partir de la matriz de covarianzas.
(%i1) load ("descriptive")$ (%i2) fpprintprec : 7 $ (%i3) s2 : read_matrix (file_search ("wind.data"))$ (%i4) s : cov1 (s2)$
(%i5) cor (s, data=false); /* this is faster */ [ 1.0 .8476339 .8803515 .8239624 .7519506 ] [ ] [ .8476339 1.0 .8735834 .6902622 0.782502 ] [ ] (%o5) [ .8803515 .8735834 1.0 .7764065 .8323358 ] [ ] [ .8239624 .6902622 .7764065 1.0 .7293848 ] [ ] [ .7519506 0.782502 .8323358 .7293848 1.0 ]
Véanse también cov
y cov1
.
La función list_correlations
devuelve una lista con medidas de correlación:
-1 ij S = (s ) 1 i,j = 1,2,...,p
2 1 R = 1 - ------- i ii s s ii
es un indicador de la bondad de ajuste del modelo de regresión lineal multivariante de \(X_i\) cuando el resto de variables se utilizan como regresores.
ij s r = - ------------ ij.rest / ii jj\ 1/2 |s s | \ /
Opción:
'data
, por defecto 'true
, indica si la matriz de entrada contiene los datos muestrales,
en cuyo caso la matriz de covarianzas cov1
debe ser calculada; en caso contrario, se le debe
pasar ésta a la función como matriz simétrica en lugar de los datos.
Ejemplo:
(%i1) load ("descriptive")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$ (%i3) z : list_correlations (s2)$
(%i4) fpprintprec : 5$ /* for pretty output */ [ .38486 - .13856 - .15626 - .10239 .031179 ] [ ] [ - .13856 .34107 - .15233 .038447 - .052842 ] [ ] (%o5) [ - .15626 - .15233 .47296 - .024816 - .10054 ] [ ] [ - .10239 .038447 - .024816 .10937 - .034033 ] [ ] [ .031179 - .052842 - .10054 - .034033 .14834 ] (%o6) [.85063, .80634, .86474, .71867, .72675] [ - 1.0 .38244 .36627 .49908 - .13049 ] [ ] [ .38244 - 1.0 .37927 - .19907 .23492 ] [ ] (%o7) [ .36627 .37927 - 1.0 .10911 .37956 ] [ ] [ .49908 - .19907 .10911 - 1.0 .26719 ] [ ] [ - .13049 .23492 .37956 .26719 - 1.0 ]
Véanse también cov
y cov1
.
Calcula las componentes principales de una muestra multivariante. Las componentes principales se utilizan en el análisis estadístico multivariante para reducir la dimensionalidad de la muestra.
Opción:
'data
, por defecto 'true
, indica si la matriz de entrada contiene los datos muestrales,
en cuyo caso la matriz de covarianzas cov1
debe ser calculada; en caso contrario, se le debe
pasar ésta a la función como matriz simétrica en lugar de los datos.
La salida de la función principal_components
es una lista con los siguientes resultados:
Ejemplos:
En este ejemplo, la primera componente explica el 83.13 por ciento de la varianza total.
(%i1) load ("descriptive")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$ (%i3) fpprintprec:4 $ (%i4) res: principal_components(s2); 0 errors, 0 warnings (%o4) [[87.57, 8.753, 5.515, 1.889, 1.613], [83.13, 8.31, 5.235, 1.793, 1.531],
[ .4149 .03379 - .4757 - 0.581 - .5126 ] [ ] [ 0.369 - .3657 - .4298 .7237 - .1469 ] [ ] [ .3959 - .2178 - .2181 - .2749 .8201 ]] [ ] [ .5548 .7744 .1857 .2319 .06498 ] [ ] [ .4765 - .4669 0.712 - .09605 - .1969 ]
(%i5) /* porcentajes acumulados */ block([ap: copy(res[2])], for k:2 thru length(ap) do ap[k]: ap[k]+ap[k-1], ap); (%o5) [83.13, 91.44, 96.68, 98.47, 100.0] (%i6) /* dimension de la muestra */ p: length(first(res)); (%o6) 5 (%i7) /* dibuja porcentajes para seleccionar el numero de componentes principales para el analisis ulterior */ draw2d( fill_density = 0.2, apply(bars, makelist([k, res[2][k], 1/2], k, p)), points_joined = true, point_type = filled_circle, point_size = 3, points(makelist([k, res[2][k]], k, p)), xlabel = "Variances", ylabel = "Percentages", xtics = setify(makelist([concat("PC",k),k], k, p))) $
En caso de que la matriz de covarianzas sea conocida, se le puede pasar
a la función, pero debe utilizarse la opción data=false
.
(%i1) load ("descriptive")$ (%i2) S: matrix([1,-2,0],[-2,5,0],[0,0,2]); [ 1 - 2 0 ] [ ] (%o2) [ - 2 5 0 ] [ ] [ 0 0 2 ] (%i3) fpprintprec:4 $ (%i4) /* el argumento es una matriz de covarianzas */ res: principal_components(S, data=false); 0 errors, 0 warnings [ - .3827 0.0 .9239 ] [ ] (%o4) [[5.828, 2.0, .1716], [72.86, 25.0, 2.145], [ .9239 0.0 .3827 ]] [ ] [ 0.0 1.0 0.0 ] (%i5) /* transformacion para obtener las componentes principales a partir de los registros originales */ matrix([a1,b2,c3],[a2,b2,c2]).last(res); [ .9239 b2 - .3827 a1 1.0 c3 .3827 b2 + .9239 a1 ] (%o5) [ ] [ .9239 b2 - .3827 a2 1.0 c2 .3827 b2 + .9239 a2 ]
Siguiente: Funciones y variables para gráficos estadísticos, Anterior: Funciones y variables para el tratamiento de datos, Subir: descriptive [Índice general][Índice]