Informacja wzajemna

Informacja wzajemna – pojęcie z zakresu teorii informacji, będące miarą zależności pomiędzy dwiema zmiennymi losowymi. Zwykle podaje się ją w bitach, co oznacza, że wylicza się ją przy użyciu logarytmów o podstawie 2.

Intuicyjnie informacja wzajemna mierzy, ile informacji o X można poznać, znając Y, czyli o ile poznanie jednej z tych zmiennych zmniejsza niepewność o drugiej. Jeśli zmienne X i Y są niezależne, to ich wzajemna informacja jest zerowa (znajomość jednej nie mówi niczego o drugiej). Jeśli X i Y są identyczne, to każda zawiera pełną wiedzę o drugiej. Wtedy informacja wzajemna jest równa entropii X (albo Y – skoro są identyczne, to ich entropia jest taka sama).

Definicja

Formalnie informacja wzajemna między dwiema dyskretnymi zmiennymi losowymi X i Y może być zdefiniowana jako:

I ( X ; Y ) = y Y x X p ( x , y ) log p ( x , y ) p ( x ) p ( y ) , {\displaystyle I(X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},}

gdzie p(x,y) oznacza wspólny rozkład prawdopodobieństwa (ang. joint probability distribution) X i Y, a p(x) i p(y) oznaczają prawdopodobieństwa w rozkładach zmiennych X i Y.

W przypadku ciągłych rozkładów sumowanie należy zastąpić przez całkowanie:

I ( X ; Y ) = Y X p ( x , y ) log p ( x , y ) p ( x ) p ( y ) d x d y , {\displaystyle I(X;Y)=\int \limits _{Y}\int \limits _{X}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}}\;dx\,dy,}

gdzie p(x,y) oznacza funkcję gęstości prawdopodobieństwa dwóch zmiennych, a p(x) i p(y) są gęstościami prawdopodobieństwa X i Y.

Informacja wzajemna jest zerowa wtedy i tylko wtedy, gdy zmienne X i Y są niezależne. Łatwo zauważyć implikację w jedną stronę: jeśli są niezależne, to p ( x , y ) = p ( x ) p ( y ) , {\displaystyle p(x,y)=p(x)\cdot p(y),} a więc:

log p ( x , y ) p ( x ) p ( y ) = log 1 = 0. {\displaystyle \log {\frac {p(x,y)}{p(x)\,p(y)}}=\log 1=0.}

Powiązania z innymi funkcjami

Informację wzajemną można zdefiniować równoznacznie jako:

I ( X ; Y ) = H ( X ) H ( X | Y ) = H ( Y ) H ( Y | X ) = H ( X ) + H ( Y ) H ( X , Y ) , {\displaystyle {\begin{aligned}I(X;Y)&=H(X)-H(X|Y)\\&=H(Y)-H(Y|X)\\&=H(X)+H(Y)-H(X,Y),\end{aligned}}}

gdzie H(X) i H(Y) oznaczają entropie, H(X|Y) i H(Y|X) oznaczają entropie warunkowe, a H(X,Y) entropię produktową.

Warto zauważyć, że H ( X | X ) = 0 , {\displaystyle H(X|X)=0,} a więc H ( X ) = I ( X ; X ) . {\displaystyle H(X)=I(X;X).} Podobnie jeśli Y jest funkcją X, to znajomość X determinuje wartość Y, i wtedy I ( X ; Y ) = H ( Y ) . {\displaystyle I(X;Y)=H(Y).}

Zastosowanie informacji wzajemnej

W wielu zastosowaniach ważne jest maksymalizowanie informacji wzajemnej, co często oznacza minimalizowanie entropii warunkowej. Przykłady:

  • przepustowość kanału komunikacyjnego, która jest maksymalną możliwą do uzyskania wzajemną informacją pomiędzy wejściem a wyjściem z kanału
  • w kryptologii teoretycznej i kwantowej przy ocenie bezpieczeństwa bezwarunkowego systemów szyfrowania
  • w uczeniu maszynowym przez zastosowanie ukrytych modeli Markowa (HMM)
  • porównywanie modeli językowych w lingwistyce komputerowej
  • rekonstrukcja obrazu w tomografii komputerowej dla zastosowań medycznych
  • nakładanie obrazów (ang. image registration).