LSM-tree 一种高效的索引数据结构

bofang

浏览: 126500 次
性别:
来自: 杭州

最近访客更多访客>>

Netpet_11

fhtwins

Tension1900

jiazhigang

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (42)

社区版块

存档分类

LSM-tree主要目标是快速地建立索引。B-tree是建立索引的通用技术，但是，在大并发插入数据的情况下，B-tree需要大量的磁盘随机IO，很显然，大量的磁盘随机IO会严重影响索引建立的速度。特别地，对于那些索引数据大的情况（例如，两个列的联合索引），插入速度是对性能影响的重要指标，而读取相对来说就比较少。LSM-tree通过磁盘的顺序写，来达到最优的写性能，因为这会大大降低磁盘的寻道次数，一次磁盘IO可以写入多个索引块。

LSM-tree的主要思想是划分不同等级的树。以两级树为例，可以想象一份索引数据由两个树组成，一棵树存在于内存，一棵树存在于磁盘。内存中的树可以不一定是B-树，可以是其他的树，例如AVL树。因为数据大小是不同的，没必要牺牲CPU来达到最小的树高度。而存在于磁盘的树是一棵B-树。

数据首先会插入到内存中的树。当内存中的树中的数据超过一定阈值时，会进行合并操作。合并操作会从左至右遍历内存中的树的叶子节点与磁盘中的树的叶子节点进行合并，当被合并的数据量达到磁盘的存储页的大小时，会将合并后的数据持久化到磁盘，同时更新父亲节点对叶子节点的指针。

之前存在于磁盘的叶子节点被合并后，旧的数据并不会被删除，这些数据会拷贝一份和内存中的数据一起顺序写到磁盘。这会操作一些空间的浪费，但是，LSM-tree提供了一些机制来回收这些空间。

磁盘中的树的非叶子节点数据也被缓存在内存中。

数据查找会首先查找内存中树，如果没有查到结果，会转而查找磁盘中的树。

有一个很显然的问题是，如果数据量过于庞大，磁盘中的树相应地也会很大，导致的后果是合并的速度会变慢。一个解决方法是建立各个层次的树，低层次的树都比上一层次的树数据集大。假设内存中的树为c0, 磁盘中的树按照层次一次为c1, c2, c3, ... ck-1, ck。合并的顺序是(c0, c1), (c1, c2)...(ck-1, ck)。

为什么LSM-tree的插入很快

1. 首先，插入操作首先会作用于内存，并且，内存中的树不会很大，这会很快。

2. 合并操作会顺序写入一个或多个磁盘页，这比随机写快得多。

分享到：

Voldemort的FailureDetector设计 | 深入分析Voldemort的PerformParallelReque ...

2012-09-12 13:26
浏览 21853
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

The Log-Structured Merge-Tree (LSM-Tree).pdf: The Log-Structured Merge-Tree (LSM-Tree).pdf

LSM-tree.7z: LSM使用了一个算法来延迟批处理索引变更，然后类似归并排序的方式串联起一个基于内存的组件和若干基于磁盘的组件上面的所有变更信息。该算法相比于传统的B树访问方式大大减少磁盘臂的移动开销。

Chucky: A Succinct Cuckoo Filter for LSM-Tree: Chucky: A Succinct Cuckoo Filter for LSM-Tree Niv Dayan, Moshe Twitto Pliops

LSM-trie - An LSM-tree-based Ultra-Large Key-Value Store for Small Data (wu15-lsm-trie)-计算机科学: LSM-trie: An LSM-tree-based Ultra-Large Key-Value Store for Small DataXingbo Wu1, Yuehai Xu1, Zili Shao2, and Song Jiang11 Wayne State University, {wuxb,yhxu,sjiang}@wayne.edu 2 The Hong Kong ...

基于LSM-tree的KV数据库性能优化.doc: 基于LSM-tree的KV数据库性能优化.doc

LSM-Tree关键技术[收集].pdf: LSM-Tree关键技术[收集].pdf

基于更新热点感知的LSM-Tree查询优化.docx: 基于更新热点感知的LSM-Tree查询优化.docx

基于LSM-Tree的键值存储引擎的设计与实现.zip: 本项目将基于LSM Tree开发一个简化的键值存储系统。支持以下基本操作： PUT(K,V)设置键K的值为V GET(K)读取键K的值 DELETE(K)删除键K的值其中K是64位有符号整数，V位字符串 LSM Tree的键值存储系统分为内存存储和...

LSM-trie - An LSM-tree-based Ultra-Large Key-Value Store for Small Data - Slides (atc15_slides_wu)-计算机科学: LSM-trie: An LSM-tree-based Ultra-LargeKey-Value Store for Small DataXingbo WuYuehai XuSong JiangZili ShaoThe Hong KongPolytechnic UniversityThe Challenge on Today’s Key-Value Store• Trends on ...

基于非易失性内存的LSM-tree存储系统优化.docx: 基于非易失性内存的LSM-tree存储系统优化.docx

shifterdb：基于数据库的LSM-Tree，本机支持ACID事务: “ #driftdb” 一个支持多隔离等级原生事务的LSM-Tree数据库。

lsm-survey.pdf: It is an LSM survey paper, listing all techniques a storage engineer should know about LSM. Highly recommended!

基于LSM树的KV存储综述1: 摘要：伴随着数据量的大规模爆发和云计算的快速发展，早期由于缺乏标准化和其他问题而发展缓慢的键值存储（keyvaluestorage，KVStorage）进入了飞

lg lsm-100鼠标扫描器驱动 v1.5.1 官方最新版: lglsm-100鼠标扫描器驱动是一个的扫描仪驱动软件。用户可以通过安装这个驱动程序解决设备不能正常扫描使用问题。需要的话就下载安装吧。驱动介绍LG鼠标扫描器驱动是由lg官方发布的一款扫描仪跟鼠标合二为一的驱动...

python-lsm-db, SQLite4 LSM数据库的python 绑定.zip: python-lsm-db, SQLite4 LSM数据库的python 绑定 sqlite4键/值存储 LSM的快速 python 绑定。功能：嵌入式零conf数据库。使用游标进行遍历的键支持。事务性( 包括嵌套事务) 。基于单个编写器/多读者MVCC的事务并发...

The Log-Structured Merge-Tree: High-performance transaction system applications typically insert rows in a History table to provide an activity trace; at the same time the transaction system generates log records for purposes of ...

lsm-trie:LSM-trie: 笔记该LSM-trie实现不使用任何用户空间缓存。 I / O限制了其读取性能。如果您正在寻找用于快速写入，读取和范围搜索的高性能SSD KV存储，请查看。建造编译器： clang或gcc（在Makefile中更改）。用于SHA1功能的...

PyPI 官网下载 | lsm-db-0.6.1.tar.gz: 资源来自pypi官网。资源全名：lsm-db-0.6.1.tar.gz

C&D西恩迪 LSM-0.75/16-D12 模块电源说明书.pdf: C&D西恩迪 LSM-0.75/16-D12 模块电源说明书pdf,C&D西恩迪 LSM-0.75/16-D12 模块电源说明书

Python库 | lsm-0.1.4-cp36-cp36m-win_amd64.whl: python库，解压后可用。资源全名：lsm-0.1.4-cp36-cp36m-win_amd64.whl

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论