信息熵在日益复杂的世界中的重要应用.doc

信息熵在日益复杂的世界中的重要应用.doc

ID:27452322

大小:618.50 KB

页数:16页

时间:2018-12-03

信息熵在日益复杂的世界中的重要应用.doc_第1页
信息熵在日益复杂的世界中的重要应用.doc_第2页
信息熵在日益复杂的世界中的重要应用.doc_第3页
信息熵在日益复杂的世界中的重要应用.doc_第4页
信息熵在日益复杂的世界中的重要应用.doc_第5页
资源描述:

《信息熵在日益复杂的世界中的重要应用.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、信息熵在日益复杂的世界中的重要应用高剑波1,21PMB智能有限责任公司,森尼韦尔,CA94087,美国3WrightStateuniversity,Dayton,Ohio,USAjbgao.pmb@gmail.com摘要:什么是信息?在这个信息爆炸的时代,信息熵扮演什么角色?为了回答和理解这些问题,本文讨论了信息熵的起源,信息熵与热力学熵的区别,信息熵在复杂性理论(包括混沌理论和分形理论)中扮演的角色;并推测信息熵可能会起重要作用的新领域。关键词:信息,信息熵,复杂性,混沌,分形1.引言我们正处于一个信息时代吗?若认识到信息的本质在于增加知

2、识和减少不确定性,那么答案显然是肯定的,以下各点也无疑支持了这个答案:(1)存储设备的演化:从144KB的软盘,100MB和250MB的Zip驱动器,到几十个GB的存储棒;(2)Google,Amazon,以及Facebook等新兴社交网络公司的巨大成功;(3)互联网上越来越多的免费的音频、文本和图像信息;(4)互联网上呈指数增长的基因组学、蛋白质组学、地球物理学、天体物理学、和其它科学的数据正在给科学和技术的众多领域带来革命性的变化;(5)Googlebooks项目把过去人类出版的书籍的4%都数字化了[1-3],GDELT(GlobalD

3、atabaseofEvents,Language,andTone)项目则把全世界所有英语和非英语的新闻媒体的数据收入其中[4]。信息熵的概念有助于理解所有这些事件的发生,尤其是应用遥感技术(特别是人造卫星)获得的地球物理数据使如今的天气预报越来越准确。信息熵如此重要且又普遍存在,这使好奇之士不得不问,信息熵与Boltzmann(波尔兹曼)和Gibbs(吉布斯)的热力学熵之间有什么关系?有人认为,由于热力学熵最初被发明出来是用于描述气体粒子运动的,所以要讨论信息熵和热力学熵之间的关系最好限定在非生命的和唯物论的科学范围内(如文献[5])。然而

4、,这个策略是不可行的,因为科学和技术都在向更小或更大的尺度发展,而且世界内部的关联也愈加紧密。为了更好地解决新兴的科学、技术和环境问题,就需要讨论信息熵的起源,找出信息熵和热力学熵的关键区别,理解信息熵在复杂性理论(包括混沌理论和分形理论)中扮演的角色,推测信息熵可能会起重要作用的新领域。这些都将是本文的主要话题。为方便非专业人士理解本文,我们将聚焦于概念的讨论;为使本文对经验丰富的研究者同样有用,我们也不回避数学上的讨论。2.信息熵的起源信息熵最早是由克劳德·香农(ClaudeShannon)提出来作为通信(即各种信息传输)的一个理论模式

5、[6]。在通信中有两个技术问题:1)如何量化和表达源信息?2)系统容量是多少,即在给定时间内系统能传输或处理多少信息?在通信中,首当其冲的是把讯息看成是随机的,也就是说,讯息在接收前对接收者来说是未知的。实际上,如果听众总是确切地知道讲话者接下来会说什么,那么他们之间的交流就毫无意义。因此,自然引出了下面的通信系统:i)收集通过某信道发送的所有讯息,并将它们记作一个随机事件集;ii)记第条讯息可能出现的概率为,满足在概率论中,被称作是一个完备的事件系统[7]。若掷一颗骰子,则它们对应于;若抛一枚硬币,则它们对应于(正面,反面)。若骰子和硬币

6、均匀,则得到等概率的分布,分别为和;若骰子和硬币不均匀,那么概率将取不同的值。在通信中,抛硬币相当于一个二元问题:是或否,黑或白,红或蓝,等等。当我们从通信系统中接收一条讯息,得到的平均信息量由信息熵给出,其定义为:(1)依据惯例,若,则.公式(1)有很多很好的性质,尤其是取对数,它为信息的定量化提供了一个方便的单位:当对数的底为2时,这个单位就叫做比特(bit);对于一个等概率的二元问题,如是或否、对或错,它们的概率均为0.5,则不论什么情形,信息量都刚好为1比特。比特也是任何计算机中数据存储和处理的基本单位。如果有一个为1,其它所有均为

7、0,那么,此时我们面对的是一个确定性系统,也就是说,在读取由该通信系统发送的讯息时将得不到任何知识。另一个极端是所有事件发生的概率均为,此时信息熵达到最大值。例如,组成一个DNA序列的四种核苷酸A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)近似于均匀分布,那么,每个碱基平均约包含2比特的信息量[8]。应用冗余的思想,几十年的努力工作获得了很多优秀的纠错码来有效地表达通过信道传输的讯息。因此,第一个问题“如何量化和表达源信息”已经完全解决了。(MIT的著名数学家PeterShor通过一个巧妙的方法把冗余的思想推广到量子计算,并设计了

8、一个量子纠错系统[9]。)第二个问题:信道容量是多少?其答案也已经由Shannon在其经典文章“AMathematicalTheoryofCommunication”中给出。通过

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。