您的位置: 首页 > 技术文档 > 网络编程 > 数据同步算法研究
vs 2010 web部署 回到列表 25个最佳最闪亮的Eclipse开发项目
 数据同步算法研究

作者:刘爱贵 时间: 2010-08-12 文档类型:转载 来自:CSDN

第 1 页 数据同步算法研究 [1]
第 2 页 数据同步算法研究 [2]
第 3 页 数据同步算法研究 [3]
第 4 页 数据同步算法研究 [4]

差异编码信息的数据文件布局同样由文件头(delta_file_header)和数据块描述实体(delta_block_entry)集组成,如下所定义。其中,文件头定义了文件A的数据块总数、最后一个数据的长度和偏移。文件头后紧随一组数据块描述实体,每个实体代表一个数据块,定义了数据块长度、偏移以及数据块位置指示。如果embeded为1,则表示数据块位于差异编码文件中offset处,数据紧随该实体后;如果embeded为0,则表示数

据块位于文件B中offset处。最后数据块存储于差异编码文件尾部,长度和偏移由头部指示。

view plaincopy to clipboardprint?
/* define delta file header and block entry */ 
typedef struct _delta_file_header {  
        uint32_t block_nr;  
        uint32_t last_block_sz;  
        uint64_t last_block_offset;  /* offset in delta file */ 
} delta_file_header;  
#define DELTA_FILE_HEADER_SZ    (sizeof(delta_file_header))  
typedef struct _delta_block_entry {  
        uint64_t offset;  
        uint32_t len;  
        uint8_t  embeded; /* 1, block in delta file; 0, block in source file. */ 
} delta_block_entry;  
#define DELTA_BLOCK_ENTRY_SZ    (sizeof(delta_block_entry)) 
/* define delta file header and block entry */
typedef struct _delta_file_header {
        uint32_t block_nr;
        uint32_t last_block_sz;
        uint64_t last_block_offset;  /* offset in delta file */
} delta_file_header;
#define DELTA_FILE_HEADER_SZ    (sizeof(delta_file_header))
typedef struct _delta_block_entry {
        uint64_t offset;
        uint32_t len;
        uint8_t  embeded; /* 1, block in delta file; 0, block in source file. */
} delta_block_entry;
#define DELTA_BLOCK_ENTRY_SZ    (sizeof(delta_block_entry))

从实时性能方面考虑,数据块信息和差异编码信息并不一定要写入文件,可以存在于Cache中,但数据布局与上面描述相同。

5、文件切分

Dedupe技术中,数据分块算法主要有三种,即定长切分(fixed-size partition)、CDC切分(content-defined chunking)和滑动块(sliding block)切分。定长分块算法采用预先定义好的块大小对文件进行切分,并进行弱校验值和md5强校验值。弱校验值主要是为了提升差异编码的性能,先计算弱校验值并进行hash查找,如果发现则计算md5强校验值并作进一步hash查找。由于弱校验值计算量要比md5小很多,因此可以有效提高编码性能。定长分块算法的优点是简单、性能高,但它对数据插入和删除非常敏感,处理十分低效,不能根据内容变化作调整和优化。

CDC算法是一种变长分块算法,它应用数据指纹(如Rabin指纹)将文件分割成长度大小不等的分块策略。与定长分块算法不同,它是基于文件内容进行数据块切分的,因此数据块大小是可变化的。算法执行过程中,CDC使用一个固定大小(如48字节)的滑动窗口对文件数据计算数据指纹。如果指纹满足某个条件,如当它的值模特定的整数等于预先设定的数时,则把窗口位置作为块的边界。CDC算法可能会出现病态现象,即指纹条件不能满足,块边界不能确定,导致数据块过大。实现中可以对数据块的大小进行限定,设定上下限,解决这种问题。CDC算法对文件内容变化不敏感,插入或删除数据只会影响到检少的数据块,其余数据块不受影响。CDC算法也是有缺陷的,数据块大小的确定比较困难,粒度太细则开销太大,粒度过粗则dedup效果不佳。如何两者之间权衡折衷,这是一个难点。

出处:CSDN
责任编辑:bluehearts

上一页 数据同步算法研究 [2] 下一页 数据同步算法研究 [4]

◎进入论坛网络编程版块参加讨论

关键字搜索 常规搜索 推荐文档
热门搜索:CSS Fireworks 设计比赛 网页制作 web标准 用户体验 UE photoshop Dreamweaver Studio8 Flash 手绘 CG
站点最新 站点最新列表
周大福“敬•自然”设计大赛开启
国际体验设计大会7月将在京举行
中国国防科技信息中心标志征集
云计算如何让安全问题可控
云计算是多数企业唯一拥抱互联网的机会
阿里行云
云手机年终巨献,送礼标配299起
阿里巴巴CTO王坚的"云和互联网观"
1499元买真八核 云OS双蛋大促
首届COCO桌面手机主题设计大赛
栏目最新 栏目最新列表
浅谈JavaScript编程语言的编码规范
如何在illustrator中绘制台历
Ps简单绘制一个可爱的铅笔图标
数据同步算法研究
用ps作简单的作品展示页面
CSS定位机制之一:普通流
25个最佳最闪亮的Eclipse开发项目
Illustrator中制作针线缝制文字效果
Photoshop制作印刷凹凸字体
VS2010中创建自定义SQL Rule
>> 分页 首页 前页 后页 尾页 页次:3/41个记录/页 转到 页 共4个记录

蓝色理想版权申明:除部分特别声明不要转载,或者授权我站独家播发的文章外,大家可以自由转载我站点的原创文章,但原作者和来自我站的链接必须保留(非我站原创的,按照原来自一节,自行链接)。文章版权归我站和作者共有。

转载要求:转载之图片、文件,链接请不要盗链到本站,且不准打上各自站点的水印,亦不能抹去我站点水印。

特别注意:本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有,文章若有侵犯作者版权,请与我们联系,我们将立即删除修改。

您的评论
用户名:  口令:
说明:输入正确的用户名和密码才能参与评论。如果您不是本站会员,你可以注册 为本站会员。
注意:文章中的链接、内容等需要修改的错误,请用报告错误,以利文档及时修改。
不评分 1 2 3 4 5
注意:请不要在评论中含与内容无关的广告链接,违者封ID
请您注意:
·不良评论请用报告管理员,以利管理员及时删除。
·尊重网上道德,遵守中华人民共和国的各项有关法律法规
·承担一切因您的行为而直接或间接导致的民事或刑事法律责任
·本站评论管理人员有权保留或删除其管辖评论中的任意内容
·您在本站发表的作品,本站有权在网站内转载或引用
·参与本评论即表明您已经阅读并接受上述条款
推荐文档 | 打印文档 | 评论文档 | 报告错误  
专业书推荐 更多内容
网站可用性测试及优化指南
《写给大家看的色彩书1》
《跟我去香港》
众妙之门—网站UI 设计之道
《Flex 4.0 RIA开发宝典》
《赢在设计》
犀利开发—jQuery内核详解与实践
作品集 更多内容

杂⑦杂⑧ Gold NORMANA V2