熵

基本概念

熵：$H(X)=-\sum_{x} p(x)\log p(x)$
条件熵：$H(X|Y)=H(X,Y)-H(Y)=\sum_y p(y)H(X|Y=y)=-\mathbb{E}[\log p(X|Y)]$
互信息：$I(X;Y)=\sum_{x\in\mathcal{X}}\sum_{y\in\mathcal{Y}}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}=H(X)+H(Y)-H(XY)=H(X)-H(X|Y)$
相对熵（$KL$ 散度）：$D(p|q)=\sum_x p(x)\log \frac{p(x)}{q(x)}$

链式法则

$H(X_1,X_2,\cdots,X_n)=\sum_{i}H(X_1|X_1,X_2,\cdots,X_i)$
$I(X_1,X_2,…,X_n;Y)=I(X_1;Y)+I(X_2;Y|X_1)+I(X_3;Y|X_1,X_2)+…+I(X_n;Y|X_1,…,X_{n-1})$
$D(p(x,y)|q(x,y))=D(p(x)|q(x))+D(p(y|x)|q(y|x))$

不等式

$0\leq H(X)\leq \log|\mathcal{X}|$；当 $X$ 确定时取 $0$，当 $X$ 为均匀分布时取 $\log|\mathcal{X}|$
$0\leq H(X|Y)\leq H(X)$；当 $\forall y$ 使得 $p(y)>0$ 时，$X$ 取值确定时取 $0$，当 $X,Y$ 独立时取 $\log |\mathcal{X}|$
$0\leq I(X;Y)\leq \min(H(X),H(Y))$；当 $X,Y$ 独立时取 $0$，当 $X$ 是 $Y$ 的函数时取 $H(Y)$
需要注意 $D(p|q)\neq D(q|p)$；$0\leq D(p|q)$，当 $p=q$ 时取 $0$
熵的凹性：$H(\lambda X+(1-\lambda)Y)\geq \lambda H(X)+(1-\lambda)H(Y)$；考虑 $X,Y$ 的混合
相对熵的凸性：$D(\lambda p_1+(1-\lambda)p_2|\lambda q_1+(1-\lambda)q_2)\leq \lambda D(p_1|q_1)+(1-\lambda)D(p_2|q_2)$
数据处理不等式：对于马尔可夫链 $X\leftrightarrow Y\leftrightarrow Z$，有：$I(X;Z)\leq I(X;Y)$
费诺不等式：对于马尔可夫链：$X\leftrightarrow Y\leftrightarrow \hat X$，设错误率 $P_e=Pr[X\neq \hat X]$，则有 $H(P_e)+P_e\log |\mathcal{X}|\geq H(X|\hat X)\geq H(X|Y)$；属于数据处理不等式的推广

等式

$H(X)=\log |\mathcal{X}|-D(X|u_\mathcal{X})$：熵越大，和均匀分布越相似
$I(X;Y)=D(p_{XY}|p_Xp_Y)=\min_{q_X,q_Y} D(p_{XY}|q_Xq_Y)$
组合法则：$H(p_1,p_2,p_3,\cdots,p_n)=H(p_3,\cdots,p_n)+(p_1+p_2)H(\frac{p_1}{p_1+p_2},\frac{p_1}{p_1+p_2})$

渐进均分性

令 $X_1,X_2,\cdots, X_n\quad \text{i.i.d.}$，则 $A_\epsilon^{(n)}={(x_1,x_2,…,x_n)|2^{-n(H(X)+\epsilon)}<p(x_1,x_2,…,x_n)<2^{-n(H(X)-\epsilon)}}$ 为其典型集。（特别地，当其为均匀分布时，$|A^{(n)}_\epsilon|\rightarrow 2^{-n\log |\mathcal{X}|}=|\mathcal{X}|^n$）

当 $n$ 充分大时，采样 $n$ 个元素得到的序列属于典型集的概率大于 $1-\epsilon$
典型集大小的下界是 $(1-\epsilon)2^{n(H(X)-\epsilon)}$（当 $n$ 充分大时），上界是 $2^{n(H(X)+\epsilon)}$
典型集的大小与具体的概率分布无关，而只与其熵有关

当我们使用典型集编码时，考虑一个长度为 $n$ 的码：若其在典型集中则编码，否则失败。于是失败概率为 $1-\epsilon$，平均码长为 $H(X)$。

随机过程

熵率

随机过程两种熵率的定义为：
$$H(\mathcal{X})=\lim_{n\rightarrow\infty}\frac1nH(X_1,X_2,\cdots,X_n)$$

$$H’(\mathcal{X})=\lim_{n\rightarrow\infty}H(X_n|X_1,X_2,\cdots,X_{n-1})$$
对于平稳随机过程，有 $H(\mathcal{X})=H’(\mathcal{X})$。

非周期不可约平稳马尔可夫过程的熵率

$$H(\mathcal{X})=H’(\mathcal{X})=\lim_{n\rightarrow\infty}H(X_n|X_{n-1})=H(X_2|X_1)$$
因此计算过程分为三步：

解 $\mu=\mu P$ 得到平稳分布 $\mu$
令 $X_1\sim \mu$，计算 $(X_1,X_2)$ 的分布
$H(\mathcal{X})=H(X_2|X_1)=H(X_1X_2)-H(X_1)$

马尔可夫链的函数

设 $X_1,X_2,…,X_n$ 为马尔可夫链，再设 $Y_i=\Phi(X_i)$，其中 $\Phi$ 为一随机过程，有：
$$H(Y_n|X_1,Y_1,Y_2,\cdots,Y_{n-1})\leq H(\mathcal{Y})\leq H(Y_n|Y_1,Y_2,\cdots,Y_{n-1})$$
$$\lim_{n\rightarrow\infty} H(Y_n|X_1,Y_1,Y_2,\cdots,Y_{n-1})= H(\mathcal{Y})=\lim_{n\rightarrow\infty} H(Y_n|Y_1,Y_2,\cdots,Y_{n-1})$$

数据压缩

Kraft不等式

对于即时码，$\sum_{x\in \mathcal{X}}D^{-l(x)}<1$ 是即时码存在的充分必要条件
对于唯一可译码，条件不变

香农码

考虑修正累积分布函数，对每个样本取该函数值小数点后 $l_i$ 位作为编码
其中 $l_i=\lceil \log_D\frac{1}{p_i}\rceil$
对于香农码，有 $H_D(X)\leq L<H_D(X)+1$
竞争最优性：考虑另一个唯一可译码的长度 $l’(x)$，有：$$Pr[l’(x)\leq l(x)-c]\leq\frac{1}{2^{c-1}}$$证明通过拆分后应用 Kraft 不等式得到。

信道容量

定义

信道容量定义为：$\max_{p(x)}I(X;Y)$
对于二元对称信道，有 $C=1-H(p)$
对于二元擦除信道，有 $C=1-a$
对于一般对称信道，有 $C=\log|\mathcal{Y}|-H(\text{转移分布})$
$(M,n)$ 码的码率为 $R=\frac{\log M}{n}$

联合典型性

定义服从 $p(x,y)$ 的联合典型序列集合 $A^{(n)}_\epsilon$ 为：
$$A^{(n)}_\epsilon={(x^n,y^n)\in\mathcal{X}^n\times\mathcal{Y}^n:|-\frac1n\log p(x^n)-H(X)|<\epsilon,|-\frac1n\log p(y^n)-H(Y)|<\epsilon,|-\frac1n\log p(x^n,y^n)-H(X,Y)|<\epsilon }$$

具有以下性质：

$Pr[(X^n,Y^n)\in A^{(n)}_\epsilon]\rightarrow 1$
$|A^{(n)}_\epsilon|\leq 2^{n(H(X,Y)+\epsilon)}$
若 $(X_1^n,Y_1^n)\sim p(X^n)p(Y^n)$，即 $X_1$ 与 $Y_1$ 是独立的且与 $(X,Y)$ 具有相同的边际分布，则有 $Pr[(X_1^n,Y_1^n)\in A^{(n)}_\epsilon]\leq 2^{-nI(X;Y)-3\epsilon}$

其余结论

并联信道的信道容量：$2^C=2^{C_1}+2^{C_2}$

微分熵

概念

$h(X)=-\int p(x)\log p(x)\text{d}x$，$h(X)$ 可以是负数
$h(X,Y)=-\int\int p(x,y)\log p(x,y)\text{d}x\text{d}y$
$h(X|Y)=h(XY)-h(Y)$
$D(f|g)=\int f(x)\log \frac{f(x)}{g(x)}\text{d}x$；$D(f|g)\geq 0$，当 $f$ 与 $g$ 在至多一个零测集上不相等时取等
$I(X;Y)=h(X)+h(Y)-h(XY)$；$I(X;Y)\geq 0$，当 $X,Y$ 独立时取等

推论

$h(aX)=h(X)+\log|a|$
$h(\mathcal{N}(\mu,K))=\frac12\log(2\pi e)^n\text{det}(K)$，在给定方差时，这是令微分熵最大的分布

高斯信道

定义

在一个功率为 $P$、噪声方差为 $N$ 的高斯信道中，我们做出如下定义：

下标集：${1,2,\cdots,M}$
编码函数：$f:[1,M]^n\rightarrow \mathbb{R}^n$
译码函数：$g:\mathbb{R}^n\rightarrow [1,M]^n$
算术平均误差：$P^{(n)}e=\frac1M \sum{i=1}^M \lambda_i$，其中 $\lambda_i$ 为 $P[g(y^n_i)\neq i|\text{输入}x^n_i]$

高斯信道假定信道的噪声来源是一个标准正态分布 $Z=\mathcal{N}(0,N)$。因此在随机变量的意义上有：$Y=X+Z$。

高斯信道编码定理

通过数学形式的定义，我们已经定义出一个功率限制为 $P$、噪声方差为 $N$ 的高斯信道的信道容量为：
$$C=\max_{f(x):\mathbb{E}[X^2]\leq P}I(X;Y)=\frac12\log(1+\frac PN)$$

率失真理论

率失真函数

定义：$R(D)=\min_{\sum_{(x,\bar x)}p(x)p(\bar x|x)d(\bar x,x)\leq D}I(X;\bar X)$
率失真定理：对于 $R> R(D)$，存在码字集大小为 $M=2^{nR}$ 的码序列 $X^n$ 使得 $\mathbb{E}[X^n,{\bar X}^n]\leq D$

率失真计算

伯努利信源+汉明距离：$R(D)=H(X)-H(X|\hat X)=H(p)-H(D)$
高斯信源+均方距离：$R(D)=h(X)-h(X|\hat X)\geq h(X)-h(\mathcal{N}(0,(X-\hat X)^2))=\frac12\log\frac{\sigma^2}{D}$

信源信道分离性

率失真为 $R(D)$ 的信源能够在信道容量为 $C$ 的信道中传输当且仅当 $R(D)<C$

型方法

概念

型 $T$ 是一个 $n$ 维单纯型上的一点，定义出 $n$ 个维度的频数比例
令 $\mathcal{P}$ 为所有 $n$ 维型的集合，则有 $|\mathcal{P}_n|\leq (n+1)^{|\mathcal{X}|}$
令 $P\in\mathcal{P}$ ，则所有长度为 $n$ 且型为 $P$ 的所有序列的集合为 $T(P)$

基本定理

$|\mathcal{P}_n|\leq (n+1)^{|\mathcal{X}|}$
$\frac{1}{(n+1)^{|\mathcal{X}|}}2^{nH(P)}\leq|T(P)|\leq 2^{nH(P)}$
$\frac{1}{(n+1)^{|\mathcal{X}|}}2^{-nD(P_x|Q)}\leq Q^n(T(P))\leq 2^{-nD(P_x|Q)}$
$Q^n(x)=2^{-n(D(P_x|Q)+H(P_x))}$

通用信源编码

思想：采样足够多次，通过频率估计概率进行编码。
表达：存在一列通用信源编码 $(2^{nR},n)$，使得对满足 $H(Q)<R$ 的任何信源 $Q$ 都有 $P^{(n)}_e\rightarrow 0$
考虑 $R_n=R-|\mathcal{X}|\frac{\log(n+1)}{n}$ 作为传输速率

Sanov定理

令 $X_1,X_2,\cdots,X_n\sim Q(x)\text{i.i.d}$，令 $E\subseteq\mathcal{P}$ 为一个概率分布，则有：$$Q^n(E)=Q^n(E\cap \mathcal{P}n)\leq(n+1)^{|\mathcal{X}|}2^{-nD(P^|Q)}$$
其中 $P^=\arg \min{P\in E}D(P|Q)$ 是在相对熵意义下最接近 $Q$ 的 $P\in E$
假定需要计算 $Pr[\frac1n\sum_{i=1}^ng_j(X_i)\geq a_j,j=1,2,\cdots,k]$，则定义集合 $E={P:\sum_aP(a)g_j(a)\geq a_j,j=1,2,\cdots,k}$；可计算出 $P^*$ 为：$$P^*=\frac{Q(x)e^{\sum_i \lambda_ig_i(x)}}{\sum_{a\in \mathcal{X}}Q(a)e^{\sum_i \lambda_ig_i(a)}}$$
例子：计算骰子投掷 $n$ 次后点数平均值大于等于 $4$ 的概率。令 $E={P:\sum_{i=1}^6 iP(i)\geq 4}$，代入得 $P^*=\frac{2^{\lambda x}}{\sum_{i=1}^6 2^{\lambda i}}$

假设检验

设 $X_1,X_2,\cdots,X_n\sim Q\quad \text{i.i.d.}$
设 $H_1:Q=P_1,\quad H_2:Q=P_2$，令 $\alpha,\beta$ 为双边的错误率
有当 $\alpha\rightarrow 0$ 时，$\beta\rightarrow 2^{-nD(P_1|P_2)}$

Fisher信息与Cramer-Rao不等式

进行参数估计时，令$J(\theta)=\mathbb{E}_\theta[\frac{\partial}{\partial \theta}\ln f(x;\theta)]^2$
对 $\theta$ 的任意无偏估计量 $T$，有 $\text{var}(T)\geq \frac{1}{J(\theta)}$