哈希值
随机生成
随机数生成是许多加密操作不可分割的组成部分。例如,加密密钥需要儘可能地随机,以便使生成的密钥很难再现。加密随机数生成器必须生成无法以计算方法推算出(低于 p < .05 的机率)的输出;即,任何推算下一个输出位的方法不得比随机猜测具有更高的成功机率。.NET Framework中的类使用随机数生成器生成加密密钥。
RNGCrypto Service Provider是随机数生成器算法的实现。
散列函式的性质
所有散列函式都有如下一个基本特性:如果两个散列值是不相同的(根据同一函式),那幺这两个散列值的原始输入也是不相同的。这个特性是散列函式具有确定性的结果,具有这种性质的散列函式称为单向散列函式。但另一方面,散列函式的输入和输出不是唯一对应关係的,如果两个散列值相同,两个输入值很可能是相同的,但也可能不同,这种情况称为“散列碰撞(collision)”,这通常是两个不同长度的输入值,刻意计算出相同的输出值。输入一些数据计算出散列值,然后部分改变输入值,一个具有强混淆特性的散列函式会产生一个完全不同的散列值。
典型的散列函式都有非常大的定义域,比如SHA-2最高接受(2-1)/8长度的位元组字元串。同时散列函式一定有着有限的值域,比如固定长度的比特串。在某些情况下,散列函式可以设计成具有相同大小的定义域和值域间的单射。散列函式必须具有不可逆性。
散列函式的套用
由于散列函式的套用的多样性,它们经常是专为某一套用而设计的。例如,加密散列函式假设存在一个要找到具有相同散列值的原始输入的敌人。一个设计优秀的加密散列函式是一个“单向”操作:对于给定的散列值,没有实用的方法可以计算出一个原始输入,也就是说很难伪造。为加密散列为目的设计的函式,如SHA-2,被广泛的用作检验散列函式。这样软体下载的时候,就会对照验证代码之后才下载正确的档案部分。此代码有可能因为环境因素的变化,如机器配置或者IP位址的改变而有变动。以保证源档案的安全性。
加密
主条目:加密散列函式
确保传递真实的信息
散列表
主条目:散列表
散列表是散列函式的一个主要套用,使用散列表能够快速的按照关键字查找数据记录。(注意:关键字不是像在加密中所使用的那样是秘密的,但它们都是用来“解锁”或者访问数据的。)例如,在英语字典中的关键字是英文单词,和它们相关的记录包含这些单词的定义。在这种情况下,散列函式必须把按照字母顺序排列的字元串映射到为散列表的内部数组所创建的索引上。
一个好的散列函式(包括大多数加密散列函式)具有均匀的真正随机输出,因而平均只需要一两次探测(依赖于装填因子)就能找到目标。同样重要的是,随机散列函式不太会出现非常高的冲突率。但是,少量的可以估计的冲突在实际状况下是不可避免的(参考生日悖论或鸽洞原理)。
在很多情况下,heuristic散列函式所产生的冲突比随机散列函式少的多。Heuristic函式利用了相似关键字的相似性。例如,可以设计一个heuristic函式使得像FILE0000.CHK,FILE0001.CHK,FILE0002.CHK,等等这样的档案名称映射到表的连续指针上,也就是说这样的序列不会发生冲突。相比之下,对于一组好的关键字性能出色的随机散列函式,对于一组坏的关键字经常性能很差,这种坏的关键字会自然产生而不仅仅在攻击中才出现。性能不佳的散列函式表意味着查找操作会退化为费时的线性搜寻。
错误校正
主条目:错误校正与检测
使用一个散列函式可以很直观的检测出数据在传输时发生的错误。在数据的传送方,对将要传送的数据套用散列函式,并将计算的结果同原始数据一同传送。在数据的接收方,同样的散列函式被再一次套用到接收到的数据上,如果两次散列函式计算出来的结果不一致,那幺就说明数据在传输的过程中某些地方有错误了。这就叫做冗余校验。
校正错误时,至少会对可能出现的扰动大致假定一个分布模式。对于一个信息串的微扰可以被分为两类,大的(不可能的)错误和小的(可能的)错误。我们对于第二类错误重新定义如下,假如给定H(x)和x+s,那幺只要s足够小,我们就能有效的计算出x。那样的散列函式被称作错误校正编码。这些错误校正编码有两个重要的分类:循环冗余校验和里德-所罗门码。
语音识别
Rabin-Karp字元串搜寻算法
套用
不同HASH值的档案在电驴(eMule)里被认为是不同的档案,相同的HASH值的档案的内容肯定是完全相同(即使档案名称不同)。
本文由'姬沐希'发布,不代表演示站立场,转载/删除联系作者,如需删除请-> 关于侵权处理说明。