Introducción a descriptive (Manual de Maxima 5.47.0)

44.1 Introducción a descriptive

El paquete descriptive contiene funciones para realizar cĺculos y gráficos estadísticos descriptivos. Junto con el código fuente se distribuyen tres conjuntos de datos: pidigits.data, wind.data y biomed.data.

Cualquier manual de estadística se puede utilizar como referencia al paquete descriptive.

Para comentarios, fallos y sugerencias, por favor contactar con ’riotorto AT yahoo DOT com’.

Aquí un sencillo ejemplo sobre cómo operan las funciones de descriptive, dependiendo de la naturaleza de sus argumentos, listas o matrices,

(%i1) load ("descriptive")$

(%i2) /* muestra univariate */   mean ([a, b, c]);
                            c + b + a
(%o2)                       ---------
                                3

(%i3) matrix ([a, b], [c, d], [e, f]);
                            [ a  b ]
                            [      ]
(%o3)                       [ c  d ]
                            [      ]
                            [ e  f ]

(%i4) /* muestra multivariante */ mean (%);
                      e + c + a  f + d + b
(%o4)                [---------, ---------]
                          3          3

Nótese que en las muestras multivariantes la media se calcula para cada columna.

En caso de varias muestras de diferente tamaño, la función map de Maxima puede utilizarse para obtener los resultados deseados para cada muestra,

(%i1) load ("descriptive")$

(%i2) map (mean, [[a, b, c], [d, e]]);
                        c + b + a  e + d
(%o2)                  [---------, -----]
                            3        2

En este caso, dos muestras de tamaños 3 y 2 han sido almacenadas en una lista.

Muestras univariantes deben guardarse en listas como en

(%i1) s1 : [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5];
(%o1)           [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]

y muestras multivariantes en matrices como las del siguiente ejemplo

(%i1) s2 : matrix ([13.17, 9.29], [14.71, 16.88], [18.50, 16.88],
             [10.58, 6.63], [13.33, 13.25], [13.21,  8.12]);
                        [ 13.17  9.29  ]
                        [              ]
                        [ 14.71  16.88 ]
                        [              ]
                        [ 18.5   16.88 ]
(%o1)                   [              ]
                        [ 10.58  6.63  ]
                        [              ]
                        [ 13.33  13.25 ]
                        [              ]
                        [ 13.21  8.12  ]

En este caso, el número de columnas es igual al de la dimensión de la variable aleatoria y el número de filas coincide con el tamaño muestral.

Los datos pueden suministrarse manualmente, pero las muestras grandes se suelen almacenar en ficheros de texto. Por ejemplo, el fichero pidigits.data contiene los 100 primeros dígitos del número %pi:

A fin de leer estos dígitos desde Maxima,

(%i1) s1 : read_list (file_search ("pidigits.data"))$

(%i2) length (s1);
(%o2)                          100

Por otro lado, el archivo wind.data contiene los promedios diarios de la velocidad del viento en cinco estaciones meteorológicas en Irlanda (esta muestra es parte de un conjunto de datos correspondientes a 12 estaciones meteorológicas. El fichero original se puede descargar libremente del ’StatLib Data Repository’ y se analiza en Haslett, J., Raftery, A. E. (1989) Space-time Modelling with Long-memory Dependence: Assessing Ireland’s Wind Power Resource, with Discussion. Applied Statistics 38, 1-50). Así se leen los datos:

(%i1) s2 : read_matrix (file_search ("wind.data"))$

(%i2) length (s2);
(%o2)                          100

(%i3) s2 [%]; /* last record */
(%o3)            [3.58, 6.0, 4.58, 7.62, 11.25]

Algunas muestras contienen datos no numéricos. Como ejemplo, el archivo biomed.data (el cual es parte de otro mayor descargado también del ’StatLib Data Repository’) contiene cuatro mediciones sanguíneas tomadas a dos grupos de pacientes, A y B, de diferentes edades,

(%i1) s3 : read_matrix (file_search ("biomed.data"))$

(%i2) length (s3);
(%o2)                          100

(%i3) s3 [1]; /* first record */
(%o3)            [A, 30, 167.0, 89.0, 25.6, 364]

El primer individuo pertenece al grupo A, tiene 30 años de edad y sus medidas sanguíneas fueron 167.0, 89.0, 25.6 y 364.

Debe tenerse cuidado cuando se trabaje con datos categóricos. En el siguiente ejemplo, se asigna al símbolo a cierto valor en algún momento previo y luego se toma una muestra con el valor categórico a,

(%i1) a : 1$

(%i2) matrix ([a, 3], [b, 5]);
                            [ 1  3 ]
(%o2)                       [      ]
                            [ b  5 ]