Dynamo: Amazon’s Highly Available Key-value Store_综合

参考：http://www.allthingsdistributed.com/2007/10/amazons_dynamo.html

所谓key-value存储系统就是，系统提供两个提口，一是put,一是get，put的时候，传进key与value，就可以把数据写到系统里，get的时候，传进key，就可以获得相应的value。

key-value存储系统可以认为是从传统的关系数据库系统演化而成。传统的关系数据库在WEB应用中，存在性能、可扩展性、容灾等方面的问题，而观察发现，WEB应用中，大部分情况下不需要作关系查询，可以只支持key-value查询，以提高性能，可扩展性等

简单来说，只需要维护一个HASH表或者B树一类的索引结构，然后把value存在硬盘上，就是一个简单的key-value存储系统了。但是如果数据量大了，单机就存不下来了，或者能存下来，但是查询速度会比较慢，这时候就需要分多台机器储存了。这时候就进化成一个分布式的key-value存储系统了。我想国内很多公司山寨的KEY-VALUE存储系统就只做到这一步。

一般的做法是对key取模，然后分到相应的机器上。但是这样新增机器或者减少机器的时候会很麻烦，所以Dynamo用的是consistent hash（http://hi.baidu.com/rodimus/blog/item/6f23a9c4512b2dc638db4928.html ），用的时候，是把一台机器映射成多个节点，一方面是使数据分布更均匀，另一方面性能好的机器映射成更多的节点，从而充分利用机器性能

至此数据已经可以存下来了，但是如果有机器坏了怎么办？需要作备份，一般认为两个备份不够，需要三个备份。最简单的备份方式是有几台完全相同的机器互为备分，但是这样修改备份数的话，会比较麻烦。可能还有别的考虑吧，Dynamo的做法是，一台机器是部分数据的首选，同时是多台机器的备分。

作备份容易，难的是作了备份之后，每次作写操作都需要写多台机器，性能下降了，极端情况下，有一台坏了，就是写不成功。所以写的时候，可以在部分机器写成功后就返回，剩下的后台再继续写。这样写简单了，读就麻烦了。读的时候如果只读一台机器，可能会读到旧的数据，如果读多台机器，可能会读到不同的数据，一般情况下，如果有N个备份，写W台，读R台，保证W+R>N，则至少可以读到一份新的数据。读到的R份数据可能会不同，Vector clocks（http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.142.3682&rep=rep1&type=pdf ）理清各个版本的关系，具体的merge逻辑，由上层应用决定(在并发写的情况下，可能会有两份并行的数据，底层很难知道应该保留哪个)，把merge后的数据，再回写到存储系统里。

作为长期运行的系统，迟早会有机器出故障的。系统小的时候，故障的频率低，可以手工修复。系统大了，就不行了。故障要分两种，一种是临时性的，一种是永久性的。

对于临时性错误，每个key对于所有的机器有个优先级考虑，之前是选前N个来存储，现在改为前N个健康的机器存储，当A机器故障，而被迫把A的数据写往D的时候，数据里带一个信息告诉D，这部分数据是属于A的，D会把这部分数据与原来属于它的数据分开存储，然后在A恢复后（需要周期性地探测），再把数据拷回去。在A已经恢复，正在把数据拷回去的时候，读写会比较复杂。

有一种情况是，D也出问题了或者别的情况，反正现在没办法把D帮A存的数据搬到A上面去了。这种情况下，A复活后，需要从别备份机上拷贴贝数据。为了减少数量拷贝量，采用hash tree（http://hi.baidu.com/rodimus/blog/item/5787a5c84983691d7f3e6f3a.html ）。hass tree可以使得同步的数据很少，但是维护的代价比较大。

至此系统已经可以运行了。但是随着数据的数据的变化，可能会增加或者移除机器，consisten hash可以保证冲击会很小，系统会自动地进行数据的迁移。

一般的所谓分布式系统，都会有一个中控机。但是Dynamo是没有的，这是一个P2P的系统，所有的机器之间用gossip-based protocol通信