domingo, 24 de fevereiro de 2013

RESUMO DE ESTATÍSTICA BÁSICA - PARTE 3



Blog “Ciências Exatas Contemporâneas”, de autoria de Superdotado Álaze Gabriel.



DECIS  -  D

A definição dos decis obedece ao mesmo princípio dos quartis, com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular. A fórmula básica será :   k .E fi / 10 onde k é o número de ordem do decil a ser calculado.   Indicamos os decis : D1, D2, ... , D9. Deste modo precisamos de 9 decis para dividirmos uma série em 10 partes iguais.

·       De especial interesse é o quinto decil, que divide o conjunto em duas partes iguais. Assim sendo,o quinto decil é igual ao segundo quartil, que por sua vez é igual à mediana.

Para D5 temos :          5.E fi / 10 = E fi / 2

Ex:   Calcule o 3º decil da tabela anterior com classes.

k= 3 onde    3 .E fi / 10 = 3 x 40 / 10 = 12.

Este resultado corresponde a 2ª classe.

D3 = 54 + [ (12 - 4) x 4]  / 9 = 54 + 3,55 = 57,55 = D3

PERCENTIL ou CENTIL

è Denominamos percentis ou centis como sendo os noventa e nove valores que separam uma série em 100 partes iguais. Indicamos: P1, P2, ... , P99.  É evidente que P50 = Md ; P25 = Q1 e P75 = Q3.

·       O cálculo de um centil segue a mesma técnica do cálculo da mediana, porém a fórmula será    : k .E fi / 100    onde k é o número de ordem do centil a ser calculado.

Dispersão ou Variabilidade:           É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central ( média ou mediana ) tomado como ponto de comparação.

·       A média - ainda que considerada como um número que tem a faculdade de representar uma série de valores - não pode, por si mesma, destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto.

·       Consideremos os seguintes conjuntos de valores das variáveis X, Y e Z:

X = { 70, 70, 70, 70, 70 }
Y = { 68, 69, 70 ,71 ,72 }
Z = { 5, 15, 50, 120, 160 }

-       Observamos então que os três conjuntos apresentam a mesma média aritmética = 350/5 = 70

·       Entretanto, é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z, já que todos os valores são iguais à média. O conjunto Y, por sua vez, é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada um de seus valores e a média representativa.

·       Concluímos então que o conjunto X apresenta dispersão nula e que o conjunto Y apresenta uma dispersão menor que o conjunto Z.

4.  MEDIDAS DE DISPERSÃO ABSOLUTA

Amplitude total:      É a única medida de dispersão que não tem na média o ponto de referência.

·       Quando os dados não estão agrupados a amplitude total é a diferença entrE o maior e o menor valor observado:

AT = X máximo - X mínimo.

Ex:      Para os valores  40, 45, 48, 62 e 70  a amplitude total será:  AT = 70 - 40 = 30
Quando os dados estão agrupados sem intervalos de classe ainda temos :
AT = X máximo - X mínimo.

Ex:
xi
fi
0
2
1
6
3
5
4
3

§  AT = 4 - 0 = 4

* Com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe. Então:

 AT = L máximo - l mínimo
Ex:
Classes
fi
4 |------------- 6
6
6 |------------- 8
2
8 |------------- 10
3

§  AT = 10 - 4 = 6

·       A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série, descuidando do conjunto de valores intermediários. Faz-se uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia, no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão.

 Desvio quartil:         Também chamado de amplitude semi-interquatílica e é baseada nos quartis.

Símbolo: Dq    e     a     Fórmula:   Dq = (Q3 - Q1) / 2
Observações:

1 -        O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de interpretar. Além do mais, não é afetado pelos valores extremos, grandes ou pequenos, sendo recomendado, por conseguinte, quando entre os dados figurem valores extremos que não se consideram representativos.
2- O desvio quartil deverá ser usado preferencialmente quando a medida de tendência central for a mediana.
3- Trata-se de uma medida insensível ã distribuição dos itens menores que Q1, entre Q1 e Q3 e maiores que Q3.

Ex: Para os valores  40, 45, 48, 62 e 70  o desvio quartil será:

Q1 = (45+40)/2 = 42,5     Q3 = (70+62)/2 = 66     Dq = (66 - 42,5) / 2 = 11,75

Desvio médio absoluto  - Dm

Para dados brutos:   É a média aritmética dos valores absolutos dos desvios tomados em relação a uma das seguintes medidas de tendência central: média ou mediana.



  ·       para a Média =                  Dm = E | Xi - |  / n     




  ·       para a Mediana =               Dm = E | Xi - Md |  / n

·       As barras verticais indicam que são tomados os valores absolutos, prescindindo do sinal dos desvios.

Ex: Calcular o desvio médio do conjunto de números   { - 4 , - 3 , - 2 , 3 , 5 }
= - 0, 2   e   Md = - 2

Tabela auxiliar para cálculo do desvio médio

Xi
Xi -
| Xi - |

Xi - Md
| Xi - Md |
- 4
(- 4) - (-0,2) = -3,8
3,8

(- 4) - (-2) = - 2
2
- 3
(- 3) - (-0,2) = -2,8
2,8

(- 3) - (-2) = - 1
1
- 2
(- 2) - (-0,2) = -1,8
1,8

(- 2) - (-2) = 0
0
3
3 - (-0,2) = 3,2
3,2

3 - (-2) = 5
5
5
5 - (-0,2) = 5,2
5,2

5 - (-2) = 7
7

E =
16,8

E =
15

Pela Média :   Dm = 16,8 / 5 = 3,36              Pela Mediana :                      Dm = 15 / 5 = 3

DESVIO PADRÃO  -  S

è É a medida de dispersão mais geralmente empregada, pois leva em consideração a totalidade dos valores da variável em estudo. É um indicador de variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como : a raiz quadrada da média aritmética dos quadrados dos desvios e é 
 
 ·       A fórmula acima é empregada quando tratamos de uma população de dados não-agrupados.

Ex: Calcular o desvio padrão da população representada por  - 4 , -3 , -2 , 3 , 5

Xi
- 4
- 0,2
- 3,8
14,44
- 3
- 0,2
- 2,8
7,84
- 2
- 0,2
- 1,8
3,24
3
- 0,2
3,2
10,24
5
- 0,2
5,2
27,04


E =
62,8

Sabemos que n = 5  e   62,8 / 5 = 12,56.

A raiz quadrada de 12,56 é o desvio padrão = 3,54

Obs:    Quando nosso interesse não se restringe à descrição dos dados mas, partindo da amostra, visamos tirar inferências válidas para a respectiva população, convém efetuar uma modificação, que consiste em usar o divisor n - 1 em lugar de n. A fórmula ficará então:
·       Se os dados - 4 , -3 , -2 , 3 , 5 representassem uma amostra o desvio padrão amostral seria a raiz quadrada de 62,8 / (5 -1) = 3,96
·       O desvio padrão goza de algumas propriedades, dentre as quais destacamos:

1ª =      Somando-se (ou subtraindo-se) uma constante a todos os valores de uma variável, o desvio padrão não se altera.

2ª =      Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante (diferente de zero), o desvio padrão fica multiplicado ( ou dividido) por essa constante.

·       Quando os dados estão agrupados (temos a presença de freqüências) a fórmula do desvio padrão ficará :

  ou  quando se trata de uma amostra

Ex:      Calcule o desvio padrão populacional da tabela abaixo:

Xi
f i
Xi . f i
. f i
0
2
0
2,1
-2,1
4,41
8,82
1
6
6
2,1
-1,1
1,21
7,26
2
12
24
2,1
-0,1
0,01
0,12
3
7
21
2,1
0,9
0,81
5,67
4
3
12
2,1
1,9
3,61
10,83
Total
30
63


E =
32,70

- Sabemos que   E fi = 30  e   32,7 / 30 = 1,09.

- A raiz quadrada de 1,09 é o  desvio padrão = 1,044
- Se considerarmos os dados como sendo de uma amostra o desvio padrão seria :     a raiz quadrada de 32,7 / (30 -1) = 1,062

Obs:    Nas tabelas de freqüências com intervalos de classe a fórmula a ser utilizada é a mesma do exemplo anterior.

VARIÂNCIA  -  S2

è É o desvio padrão elevado ao quadrado.  A variância é uma medida que tem pouca utilidade como estatística descritiva, porém é extremamente importante na inferência estatística e em combinações de amostras.

MEDIDAS DE DISPERSÃO RELATIVA

Coeficiente de Variação de Pearson  -  CVP

è Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a média for igual a 20, o mesmo não pode ser dito.

è Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando expressas em unidades diferentes.

Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio, medida essa denominada de CVP: Coeficiente de Variação de Pearson (é a razão entre o desvio padRão e a média referentes a dados de uma mesma série).

 CVP = (S / ) x 100






§  o resultado neste caso é expresso em percentual, entretanto pode ser expresso também através de um fator decimal, desprezando assim o valor 100 da fórmula.

Ex:  Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:

Discriminação
M É D I A
DESVIO PADRÃO
ESTATURAS
175 cm
5,0 cm
PESOS
68 kg
2,0 kg

- Qual das medidas (Estatura ou Peso) possui maior homogeneidade ?

Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor será o de maior homogeneidade ( menor dispersão ou variabilidade).

CVP estatura =           ( 5 / 175 ) x 100          = 2,85 %
CVP peso =                ( 2 / 68 )   x 100          = 2,94 %.

Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos.

Coeficiente de Variação de Thorndike  -  CVT

è É igual ao quociente entre o desvio padrão e a mediana.
  
CVT = ( S / Md ) x 100 %
 
Coeficiente Quartílico de Variação  -  CVQ

Esse coeficiente é definido pela seguinte expressão:
  
CVQ =  [(Q3 - Q1) / (Q3 + Q1)] x 100 %.

 Desvio quartil Reduzido – Dqr



   Dqr =  [(Q3 - Q1) / 2Md ] x 100 %. 

5.  MEDIDAS DE ASSIMETRIA

Introdução:

è Uma distribuição com classes é simétrica quando :

Média = Mediana = Moda

è Uma distribuição com classes é :

Assimétrica à esquerda ou negativa quando :        Média < Mediana < Moda

Assimétrica à direita ou positiva quando :             Média > Mediana > Moda

Coeficiente de assimetria:    A medida anterior, por ser absoluta, apresenta a mesma deficiência do desvio padrão, isto é, não permite a possibilidade de comparação entre as medidas de duas distribuições. Por esse motivo, daremos preferência ao coeficiente de assimetria de Person:


    As = 3 ( Média - Mediana ) / Desvio Padrão


Escalas de assimetria:

| AS | < 0,15               è        assimetria pequena
0,15 < | AS | < 1         è        assimetria moderada
| AS | > 1                    è        assimetria elevada

Obs:    Suponhamos AS = - 0,49 è a assimetria é considerada moderada e negativa

Suponhamos AS = 0,75  è a assimetria é considerada moderada e positiva

MEDIDAS DE CURTOSE

Introdução:

è Denominamos curtose o grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada curva normal (curva correspondente a uma distribuição teórica de probabilidade).

è Quando a distribuição apresenta uma curva de freqüência mais fechada que a normal (ou mais aguda ou afilada em sua parte superior), ela recebe o nome de leptocúrtica.

è Quando a distribuição apresenta uma curva de freqüência mais aberta que a normal (ou mais achatada em sua parte superior), ela recebe o nome de platicúrtica.

è A curva normal, que é a nossa base referencial, recebe o nome de mesocúrtica.

Coeficiente de curtose

C1 = (Q3 - Q1) / 2(P90 - P10)

·       Este coeficiente é conhecido como percentílico de curtose.

·       Relativamente a curva normal, temos:

C1 = 0,263     è       curva mesocúrtica
C1 < 0,263     è       curva leptocúrtica
C1 > 0,263     è       curva platicúrtica

 O coeficiente abaixo  ( C2 )será utilizado em nossas análises:


 Onde S é desvio padrão

C2 = 3 è curva mesocúrtica
C2 > 3 è curva leptocúrtica
C2 < 3 è curva platicúrtica




Nenhum comentário:

Postar um comentário

Sintam-se à vontade para enriquecer a participação nesse blog com seus comentários. Após análise dos mesmos, fornecer-lhe-ei um feedback simples.