计算机世界

超越NoSQL:为分布式SQL正名

作者:Andrew C. Oliver 沈建苗 来源:计算机世界 202030期 时间:2020-09-08

起初有文件,后来有基于结构化文件的导航数据库,然后出现了IMS和CODASYL。大概40年前,出现了首批关系数据库。在20世纪八、九十年代的大部分时间,“数据库”严...

  起初有文件,后来有基于结构化文件的导航数据库,然后出现了IMS和CODASYL。大概40年前,出现了首批关系数据库。在20世纪八、九十年代的大部分时间,“数据库”严格意义上指“关系数据库”。SQL(标准查询语言)占主导地位。

  后来随着面向对象编程语言日益流行,一些人认为,解决面向对象语言和关系数据库“阻抗不匹配”的办法是在数据库中映射对象。因此,我们最后迎来了“面向对象的数据库”。对象数据库方面有意思的地方是,在许多情况下,它们基本上是内置对象映射器的普通数据库。这种数据库后来渐渐失宠,下一个真正的主流尝试是2010年代的“NoSQL”。

攻击SQL

  NoSQL以同样的方式攻击关系数据库和SQL。这回的主要问题是,互联网颠覆了具有40年历史关系数据库管理系统(RDBMS)架构的基本前提。这种数据库旨在节省宝贵的磁盘空间,并可纵向扩展。然而现在有太多的用户和太多的任务,一台胖服务器处理不了。NoSQL数据库则宣称,如果数据库没有连接(join),没有标准查询语言(因为实现SQL需要花费时间),也没有数据完整性,那么就可以横向扩展以处理众多用户。这解决了纵向扩展的问题,但也带来了新问题。

  与这些联机交易处理系统(OLTP)并行开发的是另一种关系数据库,名为联机分析处理系统(OLAP)。这种数据库支持关系结构,但在执行查询时就知道它们将返回大量数据。上世纪八、九十年代的公司企业仍主要由批处理驱动。此外,OLAP系统为开发和分析人员提供了将数据想象成n维数据集并加以存储的能力。如果你设想二维数组和基于两个索引的查询,以便基本上与恒定时间一样高效,但是随后在此基础上添加另一个维度,以便可以执行实质上是3个或更多因素(比如供应、需求和竞争对手数量)的查询,你就可以更高效地分析和预测。然而,构建这些元素是一项费力又高度面向批处理的工作。

  图形数据库几乎与横向扩展型NoSQL同一时间面市。许多事物本身不是“关系型”,或者不是基于集合论和关系代数,而是基于父子关系或朋友的朋友关系。一个典例是模型中的产品系列-产品品牌-款型-部件。如果你想知道“我的笔记本电脑搭载什么主板?”,会发现制造商的采购来源很复杂,光有品牌或型号可能不够。如果你想知道某产品系列中使用的所有主板,在经典(非CTE即通用表表达式)SQL中,你必须遍历表,并且分多个步骤进行查询。最初,大多数图形数据库根本就不分片。实际上,无需将数据实际存储为图形,就能完成许多类型的图形分析。

兑现和未兑现的NoSQL承诺

  NoSQL数据库的扩展性确实比Oracle数据库、DB2或SQL Server(它们都基于40年前的一种设计)好得多。然而,每种NoSQL数据库都存在新的限制:

  键值存储:没有比db.get(键)更简单的查询了。然而,世界上许多数据和使用场景无法以这种方式来设计结构。此外,我们其实在谈论缓存策略。在任何数据库中,主键查询速度很快。重要的只是内存中的数据。在理想情况下,它们像哈希图一样扩展。然而,如果要跑30趟数据库才能将数据放回去或进行任何类型的复杂查询,这行不通。这些系统现在更常作为缓存实施在其他数据库的前面。(例子:Redis。)

  文档数据库:这种数据库之所以流行起来,是由于它们使用JSON,对象又易于序列化成JSON。这种数据库的第一个版本没有连接,将整个“实体”放到一个庞大的文档中有其自身的缺点。没有事务保证,你还会遇到数据完整性问题。今天,一些文档数据库支持一种不太可靠的事务,但它不是大多数人习惯的同一种保护级别。而且,即使对简单查询而言,这种数据库在延迟方面常常速度很慢,尽管它们就吞吐量而言扩展性更好。(例子:MongoDB和Amazon DocumentDB。)

  列存储:这种数据库的查询速度与键值存储一样快,它们可以存储更复杂的数据结构。然而,如果执行像跨3个表(RDBMS术语)或3个集合(MongoDB术语)连接这样的操作,会让人痛苦不堪。这种数据库确实适合时间序列数据(请给我在下午1点至2点出现的所有事务)。

  還有其他更深奥的NoSQL数据库。然而,所有这些数据库的共同点是不支持通用数据库惯用语,而且往往专注于“特殊用途”。一些流行的NoSQL数据库(比如MongoDB)编写了出色的数据库前端和生态系统工具,因而开发人员很容易采用它们,但存储引擎存在严重的限制,更不用说弹性和可扩展性方面的限制了。

数据库标准仍然很重要

  关系数据库占主导地位的原因之一是,它们有一个通用的工具生态系统。首先有SQL。虽然数据库方言可能不一样——如果你是开发或分析人员,想从SQL Server 6.5升级到Oracle 7,可能不得不修复查询,并使用“(+)”用于外部连接,但是简单的切实可行,复杂的很容易转换。

  其次,你有ODBC以及后来的JDBC等。几乎任何可以连接到一个RDBMS的工具(除非为了管理该RDBMS而专门设计)都可以连接到其他任何RDBMS。有许多人每天连接到RDBMS,并将数据倒入到Excel以便分析。我不是指Tableau或其他数百种工具,而是指“鼻祖”Excel。

  NoSQL摈弃了标准。MongoDB不使用SQL作为主要语言。MongoDB的劲敌Couchbase寻找一种查询语言来取代基于Java的mapreduce框架时,更是创建了一套自己的SQL方言。

  标准很重要,无论是为了支持工具生态系统,还是由于许多查询数据库的人不是开发人员——他们都知道SQL。

转载请注明出处。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 医疗分析技术的4个成功案例

    医疗分析技术的4个成功案例

  • 弹性微服务的4种部署策略

    弹性微服务的4种部署策略

  • 业务数据可视化的6个最佳实践

    业务数据可视化的6个最佳实践

  • 数据和处理应驻留云端而非设备端

    数据和处理应驻留云端而非设备端

网友点评
精彩导读