Próximo: Definições para distribuições contínuas, Anterior: distrib, Acima: distrib [Conteúdo][Índice]
Pacote distrib
contém um conjunto de funções para fazer cálculos
envolvendo probabilidades de modelos de uma única variável estatística e de
ambos os tipos discreta e contínua.
O que segue é um curto resumo de definiçoes básicas relacionadas à teoria das probabilidades.
Seja \(f(x)\) a função densidade de probabilidade absoluta de uma variável aleatória contínua \(X\). A função distribuição de probabilidade é definida como
x / [ F(x) = I f(u) du ] / minf
que é igual à probabilidade Pr(X <= x).
O valor médio é um parâmetro de localização e está definido como
inf / [ E[X] = I x f(x) dx ] / minf
A variância é uma medida de variação,
inf / [ 2 V[X] = I f(x) (x - E[X]) dx ] / minf
que é um número real positivo. A raíz quadrada da variância é o desvio padrão, \(D[X]=sqrt(V[X])\), e esse desvio padrão é outra medida de variação.
O coeficiente de assimetria é uma medida de não simetria,
inf / 1 [ 3 SK[X] = ----- I f(x) (x - E[X]) dx 3 ] D[X] / minf
E o coeficiente de curtose mede o grau de achatamento de uma distribuição,
inf / 1 [ 4 KU[X] = ----- I f(x) (x - E[X]) dx - 3 4 ] D[X] / minf
Se \(X\) for gaussiana, \(KU[X]=0\). De facto, ambos assimetria e curtose são parâmetros de ajuste usados para medir a não gaussianidade de uma distribuição.
Se a variável aleatória \(X\) for discreta, a função densidade de probabilidade, ou simplesmente probabilidade, \(f(x)\) toma valores positivos dentro de certos conjuntos contáveis de números \(x_i\), e zero em caso contrário. Nesse caso, a função distribuição de probabilidade é
==== \ F(x) = > f(x ) / i ==== x <= x i
A média, variância, desvio padrão, coeficiente de assimetria e coeficiente de curtose tomam a forma
==== \ E[X] = > x f(x ) , / i i ==== x i
==== \ 2 V[X] = > f(x ) (x - E[X]) , / i i ==== x i
D[X] = sqrt(V[X]),
==== 1 \ 3 SK[X] = ------- > f(x ) (x - E[X]) D[X]^3 / i i ==== x i
and
==== 1 \ 4 KU[X] = ------- > f(x ) (x - E[X]) - 3 , D[X]^4 / i i ==== x i
respectively.
O Pacote distrib
inclui funções para simulação de
variáveis estatísticas pseudo-aleatórias. Algumas dessas funções
fazem uso de variáveis opcionais que indicam o algoritmo a ser usado.
O método inverso genérico (baseado no facto que se
u for um número aleatório uniforme no intervalo \((0,1)\),
então F^(-1)(u) é uma variável estatística pseudo-aleatória
com distribuição \(F\)) está implementada para a maioria dos casos;
isso é um método subóptimo em termos de cronometragem, mas útil para
fazer comparações com outros algoritmos. Nesse exemplo, a
perandom_formance
dos algoritmos ahrens_cheng
e
inverse
em simular variáveis chi-quadradas (letra grega "chi")
são comparadas por meio de seus histogramas:
(%i1) load("distrib")$ (%i2) load("descriptive")$ (%i3) showtime: true$ Evaluation took 0.00 seconds (0.00 elapsed) using 32 bytes. (%i4) random_chi2_algorithm: 'ahrens_cheng$ histogram(random_chi2(10,500))$ Evaluation took 0.00 seconds (0.00 elapsed) using 40 bytes. Evaluation took 0.69 seconds (0.71 elapsed) using 5.694 MB. (%i6) random_chi2_algorithm: 'inverse$ histogram(random_chi2(10,500))$ Evaluation took 0.00 seconds (0.00 elapsed) using 32 bytes. Evaluation took 10.15 seconds (10.17 elapsed) using 322.098 MB.
Com o objectivo de fazer comparações visuais entre algoritmos para uma
variável estatística discreta, a função barsplot
do pacote
descriptive
pode ser usada.
Note que algum trabalho resta para ser realizado, uma vez que essas funções de simulação não foram ainda verificadas pelos mais rigorosamente melhores dos testes de ajuste.
Por favor, consulte um manual introdutório sobre probabilidade e estatística para maiores informações sobre todo esse material matemático.
Existe uma convenção de nome no pacote distrib
. Todo nome de
função tem duas partes, a primeira faz referência à função
ou ao parâmetro que queremos calcular,
Funções: função densidade de probabilidade (pdf_*) função distribuição de probabilidade (cdf_*) Quartil (quantile_*) Média (mean_*) Variância (var_*) Desvio padrão (std_*) Coeficiente de assimetria (skewness_*) Coeficiente de curtose (kurtosis_*) Variável estatística pseudo-aleatória (random_*)
A segunda parte é uma referência explícita ao modelo probabilístico,
Distribuíções contínuas: Normal (*normal) Student (*student_t) Chi^2 (*chi2) F (*f) Exponencial (*exp) Lognormal (*lognormal) Gama (*gamma) Beta (*beta) contínua uniforme (*continuous_uniform) Logística (*logistic) Pareto (*pareto) Weibull (*weibull) Rayleigh (*rayleigh) Laplace (*laplace) Cauchy (*cauchy) Gumbel (*gumbel) Distribuições discretas: Binomial (*binomial) Poisson (*poisson) Bernoulli (*bernoulli) Geométrica (*geometric) discreta uniforme (*discrete_uniform) hipergeométrica (*hypergeometric) Binomial Negativa (*negative_binomial)
Por exemplo, pdf_student_t(x,n)
é a função densidade de
probabilidade da distribuição de Student com n graus de liberdade,
std_pareto(a,b)
é o desvio padrão da distribuição de
Pareto com parâmetros a e b e kurtosis_poisson(m)
é o coeficiente de curtose da distribuição de Poisson com média m.
Para poder usar o pacote distrib
precisa primeiro carregá-lo
escrevendo
(%i1) load("distrib")$
Para comentários, melhorias ou sugestões, por favor contacte o autor em ’mario AT edu DOT xunta DOT es’.
Próximo: Definições para distribuições contínuas, Anterior: distrib, Acima: distrib [Conteúdo][Índice]