Introdução a distrib (Manual do Maxima)

47.1, Introdução a distrib

Pacote distrib contém um conjunto de funções para fazer cálculos envolvendo probabilidades de modelos de uma única variável estatística e de ambos os tipos discreta e contínua.

O que segue é um curto resumo de definiçoes básicas relacionadas à teoria das probabilidades.

Seja \(f(x)\) a função densidade de probabilidade absoluta de uma variável aleatória contínua \(X\). A função distribuição de probabilidade é definida como

                       x
                      /
                      [
               F(x) = I     f(u) du
                      ]
                      /
                       minf

que é igual à probabilidade Pr(X <= x).

O valor médio é um parâmetro de localização e está definido como

                     inf
                    /
                    [
           E[X]  =  I   x f(x) dx
                    ]
                    /
                     minf

A variância é uma medida de variação,

                 inf
                /
                [                    2
         V[X] = I     f(x) (x - E[X])  dx
                ]
                /
                 minf

que é um número real positivo. A raíz quadrada da variância é o desvio padrão, \(D[X]=sqrt(V[X])\), e esse desvio padrão é outra medida de variação.

O coeficiente de assimetria é uma medida de não simetria,

                 inf
                /
            1   [                    3
  SK[X] = ----- I     f(x) (x - E[X])  dx
              3 ]
          D[X]  /
                 minf

E o coeficiente de curtose mede o grau de achatamento de uma distribuição,

                 inf
                /
            1   [                    4
  KU[X] = ----- I     f(x) (x - E[X])  dx - 3
              4 ]
          D[X]  /
                 minf

Se \(X\) for gaussiana, \(KU[X]=0\). De fato, ambos assimetria e curtose são parâmetros de ajuste usados para medir a não gaussianidade de uma distribuição.

Se a variável aleatória \(X\) for discreta, a função densidade de probabilidade, ou simplesmente probabilidade, \(f(x)\) toma valores positivos dentro de certos conjuntos contáveis de números \(x_i\), e zero em caso contrário. Nesse caso, a função distribuição de probabilidade é

                       ====
                       \
                F(x) =  >    f(x )
                       /        i
                       ====
                      x <= x
                       i

A média, variância, desvio padrão, coeficiente de assimetria e coeficiente de curtose tomam a forma

                       ====
                       \
                E[X] =  >  x  f(x ) ,
                       /    i    i
                       ====
                        x 
                         i

                ====
                \                     2
        V[X] =   >    f(x ) (x - E[X])  ,
                /        i    i
                ====
                 x
                  i

               D[X] = sqrt(V[X]),

                     ====
              1      \                     3
  SK[X] =  -------    >    f(x ) (x - E[X])  
           D[X]^3    /        i    i
                     ====
                      x
                       i

and

                     ====
              1      \                     4
  KU[X] =  -------    >    f(x ) (x - E[X])   - 3 ,
           D[X]^4    /        i    i
                     ====
                      x
                       i

respectively.

O Pacote distrib inclui funções para simulação de variáveis estatísticas pseudo-aleatórias. Algumas dessas funções fazem uso de variáveis opcionais que indicam o algorítmo a ser usado. O método inverso genérico (baseado no fato que se u for um número aleatório uniforme no intervalo \((0,1)\), então F^(-1)(u) é uma variável estatística pseudo-aleatória com distribuição \(F\)) está implementada para a maioria dos casos; isso é um método subótimo em termos de cronometragem, mas útil para fazer comparações com outros algorítmos. Nesse exemplo, a perandom_formance dos algorítmos ahrens_cheng e inverse em simular variáveis chi-quadradas (letra grega "chi") são comparadas por meio de seus histogramas:

(%i1) load("distrib")$
(%i2) load("descriptive")$
(%i3) showtime: true$
Evaluation took 0.00 seconds (0.00 elapsed) using 32 bytes.
(%i4) random_chi2_algorithm: 'ahrens_cheng$ histogram(random_chi2(10,500))$
Evaluation took 0.00 seconds (0.00 elapsed) using 40 bytes.
Evaluation took 0.69 seconds (0.71 elapsed) using 5.694 MB.
(%i6) random_chi2_algorithm: 'inverse$ histogram(random_chi2(10,500))$
Evaluation took 0.00 seconds (0.00 elapsed) using 32 bytes.
Evaluation took 10.15 seconds (10.17 elapsed) using 322.098 MB.

Com o objetivo de fazer comparações visuais entre algorítmos para uma variável estatística discreta, a função barsplot do pacote descriptive pode ser usada.

Note que algum trabalho resta para ser realizado, uma vez que essas funções de simulação não foram ainda verificadas pelos mais rigorosamente melhores dos testes de ajuste.

Por favor, consulte um manual introdutório sobre probabilidade e estatística para maiores informações sobre todo esse material matemático.

Existe uma convenção de nome no pacote distrib. Todo nome de função tem duas partes, a primeira faz referência à função ou ao parâmetro que queremos calcular,

Funções:
   função densidade de probabilidade            (pdf_*)
   função distribuição de probabilidade       (cdf_*)
   Quartil                    (quantile_*)
   Média                        (mean_*)
   Variância                    (var_*)
   Desvio padrão          (std_*)
   Coeficiente de assimetria        (skewness_*)
   Coeficiente de curtose        (kurtosis_*)
   Variável estatística pseudo-aleatória              (random_*)

A segunda parte é uma referência explícita ao modelo probabilístico,

Distribuíções contínuas:
   Normal              (*normal)
   Student             (*student_t)
   Chi^2               (*chi2)
   F                   (*f)
   Exponencial         (*exp)
   Lognormal           (*lognormal)
   Gama               (*gamma)
   Beta                (*beta)
   contínua uniforme  (*continuous_uniform)
   Logística            (*logistic)
   Pareto              (*pareto)
   Weibull             (*weibull)
   Rayleigh            (*rayleigh)
   Laplace             (*laplace)
   Cauchy              (*cauchy)
   Gumbel              (*gumbel)

Distribuições discretas:
   Binomial             (*binomial)
   Poisson              (*poisson)
   Bernoulli            (*bernoulli)
   Geométrica            (*geometric)
   discreta uniforme     (*discrete_uniform)
   hipergeométrica       (*hypergeometric)
   Binomial Negativa    (*negative_binomial)

Por exemplo, pdf_student_t(x,n) é a função densidade de probabilidade da distribuição de Student com n graus de liberdade, std_pareto(a,b) é o desvio padrão da distribuição de Pareto com parâmetros a e b e kurtosis_poisson(m) é o coeficiente de curtose da distribuição de Poisson com média m.

Com o objetivo de fazer uso do pacote distrib você precisa primeiro tornar esse pacote disponível para uso escrevendo

(%i1) load("distrib")$

Para comentários, melhorias ou sugestões, por favor contacte o autor em ’mario AT edu DOT xunta DOT es’.