InfoQ

新闻

SQL Server 2008中的新特性——稀疏列、条件过滤索引和列集

作者 Jonathan Allen译者 张海龙 发布于 2008年9月7日 上午1时23分

社区
.NET
主题
SQL Server
标签
SQL Server 2008

Sparse Columns(稀疏列), Filtered Indexes(条件过滤索引)和Column Sets(列集)是SQL Server 2008中的新特性,它们使我们可以打破1024个列的限制,以及有效地节省磁盘空间,但是,如果使用不当的话,它们就会成为灾难之源。

如其名称所暗示,Spare Column就是为了解决某些列中通常情况下为null值的情形而设计,它节省磁盘空间的能力很是惊人,但是,我们只有在某个列符合如下条件时才能将其定义为该类型。

第一个规则就是一个需要被定义为Sparse Column的列必须是真正稀疏的。当值为null时,数据指针就完全不占用空间,就像这个列不存在一样。但如果是任何其它值,它将会比其它类型的列多占用4个字节的空间。这一规则对bit列(位列)也是有效的,在非null值的情况下,该列值所占用的空间将从0.125字节增长到4.125字节,据此,我们可以算出将bit列定义成Sparse列的临界值是必须要有98%的行值是null。对于其它大一些的字段来说,就会更容易看到空间收益,例如,datetime列的临界值是只要达到52%的行值为null就划算。在这些示例中的临界点我们可以看出,使用Sparse Column时可以节省至少40%的空间。SQL Server在线图书有一个Sparse列定义图表 ,显示了对于各种不同的列类型,在哪种情况下我们才考虑将其定义为Sparse列。

第二个规则是,要时刻记住尽量使用Sparse列进行索引。如果使用普通索引的话,即使你并不打算对它进行查询,它也会因为null值浪费大量的空间。解决方案就是SQL Server的另一个被称作“Filtered Index(条件过滤索引)”的新特性。一个过滤索引有一个where子句用于防止对那些不满足指定条件的行进行索引。对于Sparse列而言,这个条件显然就是where “column_name IS NOT NULL”。

Sparse列的另一个特点就是会比普通的列要慢,所以,对于那些对CPU性能敏感胜过I/O的查询,应该考虑避免使用Sparse列,这是一个判断是否使用Sparse列的边界条件。

如果不能使用Sparse列的话,在普通的列上建立Filtered Index也是一种替代方案,它既能有效地缩小索引占用的空间,又能避开Sparse列的限制。如前所述,在过滤时,可以在判断该列的行值是否为空以外,增加一些其它的过滤条件。

如果你想打破1024个列的限制,那就必须寻求Column Set的帮助。Column Set允许我们在查询时将超出1024以外的列捆绑到一个单独的XML列中。

根据Yao Qingsong的介绍,微软因为客户的需要保留了1024个列这一限制,

为了能创建多于1024个列,我们必须在表中定义一个columnset列。我们明确地提出这一点,是因为客户不能接受超过1024个列,而我们又不愿意让用户因这一问题无法获取数据。一旦表中定义了columnset列,select *语句将会隐藏所有的Sparse列,代之以这个columnset列。但是,用户仍然可以在查询中select到每个独立的sparse列。

Column Set列必须在表的原始设计中进行定义,如果表中已经有了任意一个Sparse列,就不允许再添加Column Set列。但是,一旦定义了Column Set列,新添加的Sparse列会被自动地添加到Column Set列中。

尽管Column Set看上去是XML,但要尽量小心避免修改它,因为那样做的话会导致它无法再被映射到被绑定的列。

查看英文原文Sparse Columns, Filtered Indexes, and Column Sets

没有回复

回复

独家内容

应用JSF、Ajax和Seam开发Portlets(1/3)

本文主要讲述了如何用JBoss Portlet Container 和JBoss Portlet Bridge创建新项目,怎样配置一个JSF应用去使用JBoss Portlet Bridge,以及JBoss Portlet Bridge所具备的功能。

AtomServer:数据分发的发布动力(第二部分)

在这篇文章里,Bryon Jacob和Chris Berry将和我们继续探讨AtomServer,它是基于Apache Abdera的完整Atom存储实现。作者还创建了几个Atompub规范扩展,其中包括自动标记、批处理和Feeds聚合。

架构师(试刊第二期)

InfoQ中文站的电子杂志《架构师》试刊第二期出版了!相比于上期,我们在内容的选择安排和版式上都根据读者的意见重新做了修正。“细节决定成败”,我们希望基于InfoQ中文站的专业内容,《架构师》能逐渐成为大家喜欢的电子刊物!

一种正规的性能调优方法:基于等待的调优

在本文中,Steven Haines探讨了Web应用性能调优问题。该领域过去更像是一门艺术而不是一门科学。他提出了一种称为基于等待调优的方法,使整个调优过程更加可度量,也因此更具科学性。

Java程序员ActionScript 3入门

通常来说,改变技术路线时最艰难的部分是辨别语言语法之间的不同。这篇文章就为Java开发者提供了一份如何转向Flex基础语言ActionScript的指南。

浅谈如何创建Rails应用

本视频主要以财帮子为例,介绍了如何创建一个PV为百万级的Rails应用。其中包括:Rails应用的服务器架构、Rails Cache的优化、负载均衡的处理、Web服务器的调试、分布式解决方案、Open API的设计等等。

Alexandru Popescu谈InfoQ.com网站架构

InfoQ首席架构师Alexandru Popescu在采访中谈论了InfoQ架构、Webwork与DWR、Hibernate与JCR、Hibernate可扩展性、最新的InfoQ视频流系统和InfoQ的未来规划。

揭示常见的重构误区

相对于Java,.NET在持续重构方面所给与的重视仍然少为人知,大多数人对于重构是否真正属于开发过程,以及如何将其应用到开发过程中持观望态度。Danijel Arsenovski试图为你揭示这些谜题。