Correlação

Da Thinkfn

<metadesc content="Na teoria das probabilidades e na estatística, correlação (frequentemente medida na forma de um coeficiente de correlação) indica a força e a direcção da relação linear entre duas variáveis aleatórias." />

Diagramas de dispersão de pontos (xy), com o coeficiente de x e y para cada conjunto. Note que a correlação reflecte o ruído e a direcção de uma relação linear (na primeira linha), mas não a inclinação dessa relação (linha do meio), nem muitos outros aspectos das relações não-lineares (última linha). N.B.: a figura central tem uma inclinação zero mas neste caso o coeficiente de correlação é indefinido porque a variância de y é zero.

Na teoria das probabilidades e na estatística, correlação (frequentemente medida na forma de um coeficiente de correlação) indica a força e a direcção da relação linear entre duas variáveis aleatórias. Esta definição difere do uso normal do termo correlação, que se refere a qualquer relação, não necessariamente linear.

No uso geral em estatística, correlação refere-se à medida em que duas variáveis aleatórias se afastam da independência estatística. Neste sentido geral, existem vários coeficientes para medir o grau de correlação, adaptados à natureza dos dados.

Coeficiente produto-momento de Pearson

Vários coeficientes são utilizados para situações diferentes. O mais conhecido é o coeficiente de correlação de Pearson, o qual é obtido dividindo a covariância de duas variáveis pelo produto dos seus desvios padrão. Apesar do nome, ela foi inicialmente apresentada por Francis Galton[1].

Propriedades matemáticas

O coeficiente de correlação ρX, Y entre duas variáveis aleatórias X e Y com valores esperados μX e μY e desvios padrão σX e σY é definido como

\rho_{X,Y}={\mathrm{cov}(X,Y) \over \sigma_X \sigma_Y} ={E((X-\mu_X)(Y-\mu_Y)) \over \sigma_X\sigma_Y}

onde

E é o operador valor esperado e
cov significa covariância.

Uma formulação alternativa, expressa unicamente em termos dos valores esperados, é possível dado que

\mu_X = E(X)

e

{\sigma_X}^2 = E(X^2) - E^2(X)

e que o mesmo se verifica de forma semelhante para Y, e dado também que

E[(X-E(X)) (Y-E(Y))] = E(XY)-E(X)E(Y)

temos

\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E^2(X)}~\sqrt{E(Y^2)-E^2(Y)}}

A correlação é definida somente se ambos os desvios padrão são finitos e diferentes de zero. Pelo corolário da desigualdade de Cauchy-Schwarz, a correlação não pode exceder 1 em valor absoluto.

A correlação é 1, ou correlação positiva, quando ao aumento de uma variável corresponde um aumento da outra. A correlação é -1, ou correlação negativa, quando ao aumento de uma variável corresponde uma diminuição da outra. A correlação toma um valor intermédio em todos os restantes casos, indicando o grau de dependência linear entre as variáveis. Quando mais o coeficiente for aproximado de 1 ou de -1, mais forte é a correlação entre as variáveis.

Se as variáveis forem independentes então a correlação será 0, mas o inverso não se verifica porque o coeficiente de correlação só detecta dependências lineares entre as variáveis. Como forma de exemplo, suponha que a variável aleatória X está uniformemente distribuída pelo intervalo desde -1 até 1, e que Y = X2. Então Y é completamente determinado por X, de forma que X e Y são dependentes, mas a sua correlação é zero; não estão correlacionados.

Uma correlação entre duas variáveis dilui-se na presença de erros de medição causados pela estimação de uma ou de ambas as variáveis, em cujo caso a disatenuation fornece um coeficiente mais preciso.

Referências

  1. Rodgers, J. L.; Nicewander, W. A. (1988). "Thirteen ways to look at the correlation coefficient" (em inglês). The American Statistician 42: 59–66. DOI:10.2307/2685263. 

Links relevantes

Gerais

Aplicados aos mercados