[00294367]一种基于分布式内存计算的数据去重方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201510670867.2
交易方式:
技术转让
技术转让
技术入股
联系人:
华南理工大学
进入空间
所在地:广东广州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
摘要:本发明公开的一种基于分布式内存计算的数据去重方法,包含以下顺序的步骤:创建文件分块指纹集并缓存到分布式内存中;按照最优的文件块划分策略对文件进行分块,并完成分块指纹计算,同内存中缓存的指纹集对比,找到匹配的分块,为其添加对应引用;分块指纹集的存储采用多级缓存策略,权值大的缓存到内存中,权值小的缓存到磁盘上;内存分为多个区域,存储不同类型的指纹信息,以对文件进行不同的指纹对比操作。本发明的数据去重方法,提高海量数据去重的效率,从而节省主机空间和网络带宽,为服务商降低数据运维的成本。
摘要:本发明公开的一种基于分布式内存计算的数据去重方法,包含以下顺序的步骤:创建文件分块指纹集并缓存到分布式内存中;按照最优的文件块划分策略对文件进行分块,并完成分块指纹计算,同内存中缓存的指纹集对比,找到匹配的分块,为其添加对应引用;分块指纹集的存储采用多级缓存策略,权值大的缓存到内存中,权值小的缓存到磁盘上;内存分为多个区域,存储不同类型的指纹信息,以对文件进行不同的指纹对比操作。本发明的数据去重方法,提高海量数据去重的效率,从而节省主机空间和网络带宽,为服务商降低数据运维的成本。