微分エントロピー

情報理論

情報量
情報量微分エントロピー条件付きエントロピー交差エントロピー結合エントロピー相互情報量カルバック・ライブラー情報量エントロピーレート
通信路
情報源符号化定理通信路容量通信路符号化定理シャノン＝ハートレーの定理
単位
シャノンナットハートレー
その他
漸近等分割性（英語版）レート歪み理論（英語版）
カテゴリ
表話編歴

微分エントロピー（びぶんエントロピー、英: differential entropy）または連続エントロピー（continuous entropy）は情報理論における概念で、シャノン情報量（確率変数が持つ平均的自己情報量（英語版）の尺度）を連続型確率分布にまで拡張するクロード・シャノンの試みに端を発する。情報量の概念を連続量まで真に拡張したものに limiting density of discrete points（英語版）（LDDP）がある。本記事で述べる微分エントロピーは文献でよく目にするものだが、LDDPに制限を加えた特別な場合の一つであり、離散的情報量の持つ基本的な性質のいくつかを失っている。

定義

$X$ を、確率密度関数 $f$ の関数の台が ${\mathcal {X}}$ である確率変数とする。微分エントロピー $h(X)$ または $h(f)$ は

$h(X)=-\int _{\mathcal {X}}f(x)\log f(x)\,dx$

と定義される^[1]^:243。

明示的な確率密度関数は持っていないが、明示的な分位点関数（英語版）表示 $Q(p)$ を持っている確率変数（確率分布）に対しては $h(Q)$ を $Q(p)$ の微分として定義できる。つまり、分位点密度関数 $Q'(p)$ により

h(Q)=\int _{0}^{1}\log Q'(p)\,dp

と定義する^[2]^:54–59。

離散型の場合と類似して、微分エントロピーの単位は対数の底に依存する（通常は底を2とし、単位はビットとする）。対数の底による違いについては en:logarithmic units を参照。関連した概念である結合、条件付き（英語版）、相対微分エントロピーも同様に定義される。

離散的な場合とは異なり、微分エントロピーには $X$ の計測単位に依存して横ずれが生じる^[3]^:183-184。例えば、ある量をミリメートルで測ったときの微分エントロピーは、同じ量をメートルで測ったときよりも log(1000) だけ大きな値になる。無次元量の微分エントロピーは、その 1/1000 を計量の基本単位として表示したときの微分エントロピーよりも log(1000) だけ大きな値になる。

確率密度関数は1を超える値をとり得るから、離散的なエントロピーの性質を微分エントロピーにも適用するときは注意を要する。例えば、一様分布 ${\mathcal {U}}(0,1/2)$ は負の微分エントロピー

\int _{0}^{\frac {1}{2}}-2\log(2)\,dx=-\log(2)

を持つ。

一方で相互情報量 $I(X;Y)$ は、連続量に対しても2情報の依存度合の尺度として基本的に重要である。この量は実質的に、離散的な $X$ と $Y$ にそれぞれ「分割（partition）」を施していき、分割幅を限りなく細かくしていったときの極限に相当するからである。 $I(X;Y)$ は $X$ と $Y$ を線形な位相同型（自身および逆が連続である写像）で変換しても不変である^[4]ばかりでなく非線形同型写像による変換の下でも不変である^[5]。相互情報量は、空間的に連続的な値を許すような伝送を介する状況下での2情報量の関係を表現することができる。

離散的なエントロピーが持つ性質の微分エントロピーへの拡張については en:limiting density of discrete points を参照。

微分エントロピーの性質

確率密度関数 $f$ と $g$ に対しカルバック・ライブラー情報量 $D_{KL}(f||g)$ は 0 以上であり、0 と一致するのはほとんど至るところで $f=g$ であるとき、かつそのときに限る。同様に、2つの確率変数 $X$ と $Y$ に対し $I(X;Y)\geq 0$ かつ $h(X|Y)\leq h(X)$ で、等号が成立するのは $X$ と $Y$ が独立であるとき、かつそのときに限る。
離散型の場合と同じく連鎖律が成り立つ^[1]^:253。

h(X_{1},\ldots ,X_{n})=\sum _{i=1}^{n}h(X_{i}|X_{1},\ldots ,X_{i-1})\leq \sum _{i=1}^{n}h(X_{i})

平行移動不変である。つまり任意の定数 $c$ に対し

h(X+c)=h(X)

^[1]^:253

一般に、任意の可逆な写像の下で不変ではない。

特に、定数

a

に対しては

h(aX)=h(X)+\log |a|

ベクトル値確率変数

\mathbf {X}

と可逆な正方行列

\mathbf {A}

に対しては

h(\mathbf {A} \mathbf {X} )=h(\mathbf {X} )+\log \left(|\det \mathbf {A} |\right)

^[1]^:253

一般に、あるベクトル値確率変数から同じ次元のベクトル値確率変数への変換 $\mathbf {Y} =m\left(\mathbf {X} \right)$ があるとき、対応するエントロピーは

h(\mathbf {Y} )\leq h(\mathbf {X} )+\int f(x)\log \left\vert {\frac {\partial m}{\partial x}}\right\vert dx

を満たす。ここで

\left\vert {\frac {\partial m}{\partial x}}\right\vert

は変換

m

のヤコビ行列式である^[6]。この不等式は変換が全単射のとき等式になる。さらに

m

が回転、平行移動、またはそれらの合成であるとき、ヤコビ行列式の値は常に1であり、

h(Y)=h(X)

となる。

確率変数ベクトル $X\in \mathbb {R} ^{n}$ の平均が0で分散共分散行列が $K$ のとき

h(\mathbf {X} )\leq {\frac {1}{2}}\log(\det {2\pi eK})={\frac {1}{2}}\log[(2\pi e)^{n}\det {K}]

等号が成立するのは

X

が多変量正規分布に従うとき、かつそのときに限る^[1]^:254。

しかし、微分エントロピーは他のいくつかの望ましい性質を持っていない：

微分エントロピーは変数変換（英語版）の下で不変でない。最も有用になるのは変量が無次元の場合である。
微分エントロピーは負になり得る。

これらの欠点に対応するため微分エントロピーを修正したものが relative information entropy であり、これは不変測度因子を含んでいる。en:limiting density of discrete points を参照。

正規分布のときに最大になること

定理

平均 $\mu$ , 分散 $\sigma ^{2}$ が固定されたとき、微分エントロピーが最大になるのは分布が正規分布のときである^[1]^:255。

証明

$g(x)$ を平均 $\mu$ ・分散 $\sigma ^{2}$ の正規分布の確率密度関数とし、 $f(x)$ を同一の平均と分散を持つ任意の確率密度関数とする。

2分布間のカルバック・ライブラー情報量

0\leq D_{KL}(f||g)=\int _{-\infty }^{\infty }f(x)\log \left({\frac {f(x)}{g(x)}}\right)dx=-h(f)-\int _{-\infty }^{\infty }f(x)\log(g(x))dx

を考える。ここで

{\begin{aligned}\int _{-\infty }^{\infty }f(x)\log(g(x))dx&=\int _{-\infty }^{\infty }f(x)\log \left({\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}\right)dx\\&=\int _{-\infty }^{\infty }f(x)\log {\frac {1}{\sqrt {2\pi \sigma ^{2}}}}dx+\log(e)\int _{-\infty }^{\infty }f(x)\left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)dx\\&=-{\tfrac {1}{2}}\log(2\pi \sigma ^{2})-\log(e){\frac {\sigma ^{2}}{2\sigma ^{2}}}\\&=-{\tfrac {1}{2}}\left(\log(2\pi \sigma ^{2})+\log(e)\right)\\&=-{\tfrac {1}{2}}\log(2\pi e\sigma ^{2})\\&=-h(g)\end{aligned}}

である。よって $h(g)-h(f)\geq 0\!$ 。

例：指数分布

$X$ がパラメータ $\lambda$ の指数分布に従う、つまり確率密度関数が

f(x)=\lambda e^{-\lambda x}{\mbox{ for }}x\geq 0

であるとする。この微分エントロピーは

$h_{e}(X)\,$	$=-\int _{0}^{\infty }\lambda e^{-\lambda x}\log(\lambda e^{-\lambda x})\,dx$
	$=-\left(\int _{0}^{\infty }(\log \lambda )\lambda e^{-\lambda x}\,dx+\int _{0}^{\infty }(-\lambda x)\lambda e^{-\lambda x}\,dx\right)$
	$=-\log \lambda \int _{0}^{\infty }f(x)\,dx+\lambda E[X]$
	$=-\log \lambda +1\,$

ここで、計算の簡易化のため対数の底を e としていることを明示するため、 $h(X)$ ではなく $h_{e}(X)$ と書いている。

推定誤差との関係

微分エントロピーは推定量の平均二乗誤差に対する、一つの下限を与える。任意の連続型確率変数 $X$ とその推定統計量 ${\widehat {X}}$ に対し、以下が成り立つ^[1]：

\operatorname {E} [(X-{\widehat {X}})^{2}]\geq {\frac {1}{2\pi e}}e^{2h(X)}

等号が成立するのは $X$ が正規分布に従い、 ${\widehat {X}}$ が $X$ の平均であるとき、かつそのときに限る。

様々な分布の微分エントロピー

下記の表で、 $\Gamma (x)=\int _{0}^{\infty }e^{-t}t^{x-1}dt$ はガンマ関数、 $\psi (x)={\frac {d}{dx}}\ln \Gamma (x)={\frac {\Gamma '(x)}{\Gamma (x)}}$ はディガンマ関数、 $B(p,q)={\frac {\Gamma (p)\Gamma (q)}{\Gamma (p+q)}}$ はベータ関数、γ_E はオイラーの定数である^[7]^:219-230。

微分エントロピー一覧
分布名	確率密度関数	エントロピー（単位：ナット）	関数の台
連続一様分布	$f(x)={\frac {1}{b-a}}$	$\ln(b-a)\,$	$[a,b]\,$
正規分布	$f(x)={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left(-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}\right)$	$\ln \left(\sigma {\sqrt {2\,\pi \,e}}\right)$	$(-\infty ,\infty )\,$
指数分布	$f(x)=\lambda \exp \left(-\lambda x\right)$	$1-\ln \lambda \,$	$[0,\infty )\,$
レイリー分布	$f(x)={\frac {x}{\sigma ^{2}}}\exp \left(-{\frac {x^{2}}{2\sigma ^{2}}}\right)$	$1+\ln {\frac {\sigma }{\sqrt {2}}}+{\frac {\gamma _{E}}{2}}$	$[0,\infty )\,$
ベータ分布	$f(x)={\frac {x^{\alpha -1}(1-x)^{\beta -1}}{B(\alpha ,\beta )}}$ for $0\leq x\leq 1$	$\ln B(\alpha ,\beta )-(\alpha -1)[\psi (\alpha )-\psi (\alpha +\beta )]\,$ $-(\beta -1)[\psi (\beta )-\psi (\alpha +\beta )]\,$	$[0,1]\,$
コーシー分布	$f(x)={\frac {\gamma }{\pi }}{\frac {1}{\gamma ^{2}+x^{2}}}$	$\ln(4\pi \gamma )\,$	$(-\infty ,\infty )\,$
カイ分布（英語版）	$f(x)={\frac {2}{2^{k/2}\Gamma (k/2)}}x^{k-1}\exp \left(-{\frac {x^{2}}{2}}\right)$	$\ln {\frac {\Gamma (k/2)}{\sqrt {2}}}-{\frac {k-1}{2}}\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}$	$[0,\infty )\,$
カイ二乗分布	$f(x)={\frac {1}{2^{k/2}\Gamma (k/2)}}x^{{\frac {k}{2}}\!-\!1}\exp \left(-{\frac {x}{2}}\right)$	$\ln 2\Gamma \left({\frac {k}{2}}\right)-\left(1-{\frac {k}{2}}\right)\psi \left({\frac {k}{2}}\right)+{\frac {k}{2}}$	$[0,\infty )\,$
アーラン分布	$f(x)={\frac {\lambda ^{k}}{(k-1)!}}x^{k-1}\exp(-\lambda x)$	$(1-k)\psi (k)+\ln {\frac {\Gamma (k)}{\lambda }}+k$	$[0,\infty )\,$
F分布	$f(x)={\frac {n_{1}^{\frac {n_{1}}{2}}n_{2}^{\frac {n_{2}}{2}}}{B({\frac {n_{1}}{2}},{\frac {n_{2}}{2}})}}{\frac {x^{{\frac {n_{1}}{2}}-1}}{(n_{2}+n_{1}x)^{\frac {n_{1}+n2}{2}}}}$	$\ln {\frac {n_{1}}{n_{2}}}B\left({\frac {n_{1}}{2}},{\frac {n_{2}}{2}}\right)+\left(1-{\frac {n_{1}}{2}}\right)\psi \left({\frac {n_{1}}{2}}\right)-$ $\left(1+{\frac {n_{2}}{2}}\right)\psi \left({\frac {n_{2}}{2}}\right)+{\frac {n_{1}+n_{2}}{2}}\psi \left({\frac {n_{1}\!+\!n_{2}}{2}}\right)$	$[0,\infty )\,$
ガンマ分布	$f(x)={\frac {x^{k-1}\exp(-{\frac {x}{\theta }})}{\theta ^{k}\Gamma (k)}}$	$\ln(\theta \Gamma (k))+(1-k)\psi (k)+k\,$	$[0,\infty )\,$
ラプラス分布	$f(x)={\frac {1}{2b}}\exp \left(-{\frac {\|x-\mu \|}{b}}\right)$	$1+\ln(2b)\,$	$(-\infty ,\infty )\,$
ロジスティック分布	$f(x)={\frac {e^{-x}}{(1+e^{-x})^{2}}}$	$2\,$	$(-\infty ,\infty )\,$
対数正規分布	$f(x)={\frac {1}{\sigma x{\sqrt {2\pi }}}}\exp \left(-{\frac {(\ln x-\mu )^{2}}{2\sigma ^{2}}}\right)$	$\mu +{\frac {1}{2}}\ln(2\pi e\sigma ^{2})$	$[0,\infty )\,$
マクスウェル分布	$f(x)={\frac {1}{a^{3}}}{\sqrt {\frac {2}{\pi }}}\,x^{2}\exp \left(-{\frac {x^{2}}{2a^{2}}}\right)$	$\ln(a{\sqrt {2\pi }})+\gamma _{E}-{\frac {1}{2}}$	$[0,\infty )\,$
一般正規分布（英語版）	$f(x)={\frac {2\beta ^{\frac {\alpha }{2}}}{\Gamma ({\frac {\alpha }{2}})}}x^{\alpha -1}\exp(-\beta x^{2})$	$\ln {\frac {\Gamma (\alpha /2)}{2\beta ^{\frac {1}{2}}}}-{\frac {\alpha -1}{2}}\psi \left({\frac {\alpha }{2}}\right)+{\frac {\alpha }{2}}$	$(-\infty ,\infty )\,$
パレート分布	$f(x)={\frac {\alpha x_{m}^{\alpha }}{x^{\alpha +1}}}$	$\ln {\frac {x_{m}}{\alpha }}+1+{\frac {1}{\alpha }}$	$[x_{m},\infty )\,$
t分布	$f(x)={\frac {(1+x^{2}/\nu )^{-{\frac {\nu +1}{2}}}}{{\sqrt {\nu }}B({\frac {1}{2}},{\frac {\nu }{2}})}}$	${\frac {\nu \!+\!1}{2}}\left(\psi \left({\frac {\nu \!+\!1}{2}}\right)\!-\!\psi \left({\frac {\nu }{2}}\right)\right)\!+\!\ln {\sqrt {\nu }}B\left({\frac {1}{2}},{\frac {\nu }{2}}\right)$	$(-\infty ,\infty )\,$
三角分布	$f(x)={\begin{cases}{\frac {2(x-a)}{(b-a)(c-a)}}&\mathrm {for\ } a\leq x\leq c,\\[4pt]{\frac {2(b-x)}{(b-a)(b-c)}}&\mathrm {for\ } c<x\leq b,\\[4pt]\end{cases}}$	${\frac {1}{2}}+\ln {\frac {b-a}{2}}$	$[0,1]\,$
ワイブル分布	$f(x)={\frac {k}{\lambda ^{k}}}x^{k-1}\exp \left(-{\frac {x^{k}}{\lambda ^{k}}}\right)$	${\frac {(k-1)\gamma _{E}}{k}}+\ln {\frac {\lambda }{k}}+1$	$[0,\infty )\,$
多変量正規分布	$f_{X}({\vec {x}})=$ ${\frac {\exp \left(-{\frac {1}{2}}({\vec {x}}-{\vec {\mu }})^{\top }\Sigma ^{-1}\cdot ({\vec {x}}-{\vec {\mu }})\right)}{(2\pi )^{N/2}\left\|\Sigma \right\|^{1/2}}}$	${\frac {1}{2}}\ln\{(2\pi e)^{N}\det(\Sigma )\}$	$\mathbb {R} ^{N}$

これらの多くについては脚注参照^[8]^:120-122。

脚注

^ ^a ^b ^c ^d ^e ^f ^g , Cover, Thomas M.; Thomas, Joy A. (1991). Elements of Information Theory. New York: Wiley. ISBN 0-471-06259-6. https://pdfs.semanticscholar.org/881c/f0ccc5a9dbb772d5a07671773f3c14b551c2.pdf
^ Vasicek, Oldrich (1976), “A Test for Normality Based on Sample Entropy”, Journal of the Royal Statistical Society, Series B 38 (1), JSTOR 2984828, https://jstor.org/stable/2984828.
^ Gibbs, Josiah Willard (1902). Elementary Principles in Statistical Mechanics, developed with especial reference to the rational foundation of thermodynamics. New York: Charles Scribner's Sons
^ Fazlollah M. Reza (1994) [1961]. An Introduction to Information Theory. Dover Publications, Inc., New York. ISBN 0-486-68210-2. https://books.google.com/books?id=RtzpRAiX6OgC&pg=PA8&dq=intitle:%22An+Introduction+to+Information+Theory%22++%22entropy+of+a+simple+source%22&as_brr=0&ei=zP79Ro7UBovqoQK4g_nCCw&sig=j3lPgyYrC3-bvn1Td42TZgTzj0Q
^ Kraskov, Alexander; Stögbauer, Grassberger (2004). “Estimating mutual information”. Physical Review E 60: 066138. arXiv:cond-mat/0305641. Bibcode: 2004PhRvE..69f6138K. doi:10.1103/PhysRevE.69.066138.
^ https://math.stackexchange.com/questions/1745670/proof-of-upper-bound-on-differential-entropy-of-fx
^ Park, Sung Y.; Bera, Anil K. (2009). “Maximum entropy autoregressive conditional heteroskedasticity model”. Journal of Econometrics (Elsevier). http://www.wise.xmu.edu.cn/Master/Download/..%5C..%5CUploadFiles%5Cpaper-masterdownload%5C2009519932327055475115776.pdf 2011年6月2日閲覧。.
^ Lazo, A. and P. Rathie (1978). “On the entropy of continuous probability distributions”. IEEE Transactions on Information Theory 24 (1). doi:10.1109/TIT.1978.1055832.

外部リンク

Hazewinkel, Michiel, ed. (2001), “Differential entropy”, Encyclopedia of Mathematics, Springer, ISBN 978-1-55608-010-4, https://www.encyclopediaofmath.org/index.php?title=Differential_entropy
Differential entropy - PlanetMath.org（英語）