平均信息熵及其应用

平均信息熵及其应用

信息能否度量？ 物质、能量和信息是构成客观世界的三大要素。信息（information）是什么? 至今信息还没有一个公认的定义一般定义：常常把消息中有意义的内容称为信息。

认识问题的过程： 当我们对一问题毫无了解时，对它的认识是不确定的，在对问题的了解过程中，通过各种途径获得信息，逐渐消除了不确定性，获得的信息越多，消除的不确定性也越多。我们可以用消除不确定性的多少来度量信息量的大小。例：会堂有20排、每排20个座位。找一个人。甲告诉消息：此人在第10排；乙告诉消息：此人在第10排、第10座。

是否存在信息量的度量公式？ Claude Elwood Shannon (April 30, 1916 - February 24, 2001) has been called "the father of information theory". 1948年，美国数学家、信息论的创始人Shannon在题为“通讯的数学理论”的论文中指出：“信息是用来消除随机不定性的东西”。并应用概率论知识和逻辑方法推导出了信息量的计算公式

公理1：信息量是事件发生概率的连续函数； 公理2：信息量是有限值；公理3：如果事件A和事件B的发生是相互独立的，则获知事件A和事件B将同时发生的信息量是单独获知两事件发生的信息量之和。设事件发生的概率为P，则满足上述公理的信息量函数为为应用方便，可取c=1，a=e，单位为奈特（nat）

信息量函数 I= -lnp 如何体现不确定性的消除？

例：会堂有20排、每排20个座位。找一个人。 甲告诉消息(A)：此人在第10排；乙告诉消息(B)：此人在第10排、第10座。由信息量公式 I= -lnp 可知 I 是 p 的单调下降函数

信息熵(entropy)的概念 • 设离散型随机变量X的概率分布为 • X的信息熵定义为“加权平均信息量”

信息熵的直观意义 X 甲赢乙赢 P 0.9 0.1 H 0.325 X 甲赢乙赢 P 0.5 0.5 H 0.693 变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。

熵的性质 • 连续非负性 • 对称性 • 扩展性 • 可加性 • 极值性：

1948年，Shannon提出了熵的概念，并以此作为信息的度量，宣告了信息论作为一门科学学科的诞生。1948年，Shannon提出了熵的概念，并以此作为信息的度量，宣告了信息论作为一门科学学科的诞生。 • 近年来，随着计算机应用的发展和信息时代的来临，信息论理论和应用的研究更显示出其重要意义。

应用1：识别假币 有12枚外形相同的硬币，其中一枚是假币（重量略有不同），如何用没有砝码的天平用最少次数找出假币？每个硬币可能是真，也可能是假，且假币可能重一些，也可能轻一些，故共有24种可能，不确定性为ln24。

将硬币分成3份，其中2部分在天平的两边。实验结果有3种可能性：假币在天平左边、右边、不在天平上。将硬币分成3份，其中2部分在天平的两边。实验结果有3种可能性：假币在天平左边、右边、不在天平上。当3种可能性概率相同时，熵最大，因此每次实验提供的最大信息熵为ln3。设至少秤k次， k次实验提供的信息熵最多为kln3, 有ln24=kln3可得k至少为3。

应用2：熵与参数估计的似然函数

应用3：群体遗传学 A a A a

由此可见，无论第一代基因型概率分布为何值，第二代基因型熵即达到最大由此可见，无论第一代基因型概率分布为何值，第二代基因型熵即达到最大 A a B b A a B b 多对等位基因也有相同的结论

Hardy–Weinberg 平衡(H–W平衡)定律 一个随机交配的群体中，等位基因频率保持不变，基因型频率至多经过一个世代也将保持不变。

问题的提出 • 在信息论中，如何评价信源提供信息量的多少，是一个值得探讨的问题。 • 现在用的是相对率的概念，是以信息熵与最大信息熵之比作为依据的。 • 问题：该值多大才算提供较多的信息量？

问题的设想 • 提出平均信息熵作为评价依据。 • 以学习成绩比较为例，众所周知，成绩好坏，除了与最高分比较，更多的是与平均成绩比较，当某个学生的成绩超过平均成绩时，说明该生的成绩较好，否则说明应该发奋努力了。 • 在信息论中也是如此，当信源提供的信息量达到或超过平均信息熵时，可认为已提供了较多的信息。

问题的解决 • 提出了平均信息熵的概念 • 推导了计算公式、性质 • 给出了应用：作为信源提供信息量多少的评价依据。

平均值概念的推广

平均信息熵的定义

平均信息熵公式 • 公式：与调和级数有关

平均信息熵的性质 • 平均信息量至少占最大值72%

平均信息熵的性质 C为欧拉常数，近似值约0.5772，已计算到了108,000,000位，目前还不知道它是有理数还是无理数。

平均信息熵的性质

平均信息熵的性质 • 随机变量X的函数f(X)的平均信息熵：当f为单调函数时，

平均信息熵的性质 • 等值面等值面位于如下的多面体中：其中p*为下式的解

平均信息熵的性质 等值面外的点组成一个凸集

应用1：食物营养价值的评价 • 食物中蛋白质的氨基酸种类多、组成复杂，营养丰富，对机体的生长发育有利，我们可根据蛋白质的氨基酸组成比率计算信息熵，并与平均信息熵比较，作为评价营养价值的一个依据

稻米中8种氨基酸营养当量X分布表 苏氨酸 0.049 缬氨酸 0.120 蛋氨酸 0.113 异亮氨酸 0.113 亮氨酸 0.115 苯丙氨酸 0.134 赖氨酸 0.08 色氨酸 0.231 • 稻米中大部分氨基酸可在人体内合成，但这8种氨基酸需从食物中摄取，可知稻米的营养价值是非常丰富的。王德仁，等．施氮对稻米蛋白质、氨基酸含量的影响[J]．植物营养与肥料学报．2001，7（3）：353-6

应用：基因信息熵 • 根据四个碱基出现的概率，7个物种细胞色素C基因的信息熵如下表，由表可知，无论是高等生物还是低等生物，其信息熵都远大于平均信息熵 Human 1.9966 Chicken 1.9886 Yeast 1.9817 Rat 1.9699 Mouse 1.9599 Bovine 1.9582 D.melangaster 1.9529

LIMBACH,K.J. & WU, R. Isolation and characterization of two alleles of the chicken cytochrome c gene [J]. Nucl. Acid Res. 1983(11):8931-8941 NISHIKIMI,M.,SUZUKI,H.,SHGOOHTA,Y.,SAKURAI,T.,SHMOONNURA,Y.,TANAKA,M. et al. Isolation of a cDNA clonefor human cytochrome c:from a gt11 expression library [J]. Biochemical and Biophysical Research communications, 1987(145):34-44

应用：英文字母信息熵 计算机键盘设计参考了英文字母在文章中出现的频率，根据英文26个字母及空格出现的频率，可求出其信息熵（bit）为由此可知，大自然基因的“天书”信息量更丰富，比人类用英文字母写的文章更复杂，读懂它任重而道远。

抛砖引玉 • 如何将本问题推广到连续性随机变量？

平均信息熵及其应用

平均信息熵及其应用

Presentation Transcript