Desvio padrão vs. variância

Desvio padrão e variação são medidas estatísticas de dispersão de Desvio padrãoVariaçãoFórmula matemática Raiz quadrada da variância Média dos quadrados dos desvios de cada valor da média em uma amostra. Símbolo Letra sigma da Grécia - σ Nenhum símbolo dedicado; expresso em termos de desvio padrão ou outros valores. Valores em relação a um determinado conjunto de dados Mesma escala que os valores no conjunto de dados fornecido; portanto, expresso nas mesmas unidades. Escala maior que os valores no conjunto de dados fornecido; não expresso na mesma unidade que os próprios valores. Os valores são negativos ou positivos? Sempre não negativo Sempre não negativo Aplicação no mundo real Amostragem populacional; identificação de outliers Fórmulas estatísticas, finanças.

Conteúdo: desvio padrão versus variância

  • 1 Conceitos Importantes
  • 2 Símbolos
  • 3 fórmulas
  • 4 Exemplo
    • 4.1 Por que quadrado os desvios?
  • 5 Aplicações no mundo real
    • 5.1 Encontrar discrepâncias
  • Desvio padrão de 6 amostras
  • 7 Referências

Conceitos Importantes

  • Significar: a média de todos os valores em um conjunto de dados (adicione todos os valores e divida sua soma pelo número de valores).
  • Desvio: a distância de cada valor da média. Se a média for 3, um valor de 5 terá um desvio de 2 (subtrair a média do valor). O desvio pode ser positivo ou negativo.

Símbolos

A fórmula para desvio padrão e variância é frequentemente expressa usando:

  • x̅ = média ou média de todos os pontos de dados no problema
  • X = um ponto de dados individual
  • N = o número de pontos no conjunto de dados
  • ∑ = soma dos [quadrados dos desvios]

Fórmulas

A variação de um conjunto de n valores igualmente prováveis ​​podem ser escritos como:

O desvio padrão é a raiz quadrada da variação:

Fórmulas com letras gregas têm uma aparência assustadora, mas isso é menos complicado do que parece. Para colocá-lo em etapas simples:

  1. encontre a média de todos os pontos de dados
  2. descubra a que distância cada ponto está da média (este é o desvio)
  3. esquadrar cada desvio (ou seja, a diferença de cada valor da média)
  4. divida a soma dos quadrados pelo número de pontos.

Isso dá a variação. Pegue a raiz quadrada da variância para encontrar o desvio padrão.

Este excelente vídeo da Khan Academy explica os conceitos de variação e desvio padrão:

Exemplo

Digamos que um conjunto de dados inclua a altura de seis dentes-de-leão: 3 polegadas, 4 polegadas, 5 polegadas, 4 polegadas, 11 polegadas e 6 polegadas.

Primeiro, encontre a média dos pontos de dados: (3 + 4 + 5 + 4 + 11 + 7) / 6 = 5,5

Portanto, a altura média é de 5,5 polegadas. Agora precisamos dos desvios, para encontrar a diferença de cada planta em relação à média: -2,5, -1,5, -,5, -1,5, 5,5, 1,5

Agora calcule o quadrado de cada desvio e encontre a soma: 6,25 + 2,25 + 0,25 + 2,25 + 30,25 + 2,25 = 43,5

Agora divida a soma dos quadrados pelo número de pontos de dados, neste caso plantas: 43,5 / 6 = 7,25

Portanto, a variação desse conjunto de dados é 7,25, que é um número bastante arbitrário. Para convertê-lo em uma medida do mundo real, use a raiz quadrada de 7,25 para encontrar o desvio padrão em polegadas.

O desvio padrão é de cerca de 2,69 polegadas. Isso significa que, para a amostra, qualquer dente-de-leão a uma distância de 2,69 polegadas da média (5,5 polegadas) é 'normal'.

Por que quadrado os desvios?

Os desvios são elevados ao quadrado para impedir que valores negativos (desvios abaixo da média) cancelem os valores positivos. Isso funciona porque um número negativo ao quadrado se torna um valor positivo. Se você tiver um conjunto de dados simples com desvios da média de +5, +2, -1 e -6, a soma dos desvios será zero se os valores não forem ao quadrado (ou seja, 5 + 2 - 1 - 6 = 0).

Aplicações no mundo real

A variação é expressa como uma dispersão matemática. Como é um número arbitrário em relação às medições originais do conjunto de dados, é difícil visualizar e aplicar no sentido do mundo real. Encontrar a variação é geralmente apenas a etapa final antes de encontrar o desvio padrão. Às vezes, os valores de variação são usados ​​em fórmulas financeiras e estatísticas.

O desvio padrão, expresso nas unidades originais do conjunto de dados, é muito mais intuitivo e mais próximo dos valores do conjunto de dados original. É usado com mais frequência para analisar amostras demográficas ou populacionais para entender o que é normal na população.

Encontrar outliers

Uma distribuição normal (curva de Bell) com bandas correspondentes a 1σ

Em uma distribuição normal, cerca de 68% da população (ou valores) cai dentro de 1 desvio padrão (1σ) da média e cerca de 94% cai dentro de 2σ. Valores que diferem da média em 1,7σ ou mais são geralmente considerados outliers.

Na prática, sistemas de qualidade como o Six Sigma tentam reduzir a taxa de erros, para que os erros se tornem extremos. O termo "processo seis sigma" deriva da noção de que se houver seis desvios padrão entre a média do processo e o limite de especificação mais próximo, praticamente nenhum item deixará de atender às especificações..[1]

Desvio padrão da amostra

Em aplicações do mundo real, os conjuntos de dados usados ​​geralmente representam amostras populacionais, em vez de populações inteiras. Uma fórmula levemente modificada é usada para tirar conclusões de toda a população de uma amostra parcial.

Um 'desvio padrão da amostra' é usado se tudo o que você tem é uma amostra, mas você deseja fazer uma declaração sobre o desvio padrão da população a partir do qual a amostra é retirada

A única maneira pela qual a fórmula de desvio padrão da amostra difere da fórmula de desvio padrão é o "-1" no denominador.

Usando o exemplo de dente-de-leão, essa fórmula seria necessária se amostrássemos apenas 6 dentes-de-leão, mas desejássemos usar essa amostra para indicar o desvio padrão para todo o campo com centenas de dentes-de-leão.

A soma dos quadrados agora seria dividida por 5 em vez de 6 (n - 1), o que fornece uma variação de 8,7 (em vez de 7,25) e um desvio padrão de amostra de 2,95 polegadas, em vez de 2,69 polegadas para o desvio padrão original. Essa alteração é usada para encontrar uma margem de erro em uma amostra (9% neste caso).

Referências

  • Exemplo simples de cálculo do desvio padrão - AppSpot
  • Fórmulas de desvio padrão - Math Is Fun
  • Desvio e variação absolutos - Estatísticas Laerd
  • Desvio padrão e variância - Math Is Fun
  • Wikipedia: Desvio padrão
  • Wikipedia: Propriedades da variância #
  • Faixa, variância e desvio padrão como medidas de dispersão - Khan Academy
  • Modos, Medianas e Meios: Uma Perspectiva Unificadora