mysql 5.7之后,对group by的处理有所区别,这里基于一个demo做一些探究
官方文档:
需求
统计用户登录次数,显示用户Id和姓名,如下:
基于上面的需求,假设目前只有一张'用户登录日志表'可用:
DROP TABLEIF EXISTS user_login;CREATE TABLE `user_login` ( `id` INT (11) NOT NULL AUTO_INCREMENT COMMENT '自增主键', `user_id` INT (11) DEFAULT NULL COMMENT '用户Id', `user_name` VARCHAR (100) DEFAULT NULL COMMENT '用户姓名(冗余:可变性不大,业务要求不严)', `login_time` datetime DEFAULT NULL COMMENT '登录时间', PRIMARY KEY (`id`)) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8 COMMENT = '用户登录日志表';INSERT INTO `user_login` ( `user_id`, `user_name`, `login_time`) VALUES ( '1', '小A', '2017-09-13 22:06:49');INSERT INTO `user_login` ( `user_id`, `user_name`, `login_time`) VALUES ( '1', '小A', '2017-09-14 12:06:51');INSERT INTO `user_login` ( `user_id`, `user_name`, `login_time`) VALUES ( '2', '小B', '2017-09-14 16:16:54');
直观数据如下:
问题
先从下面这条实现需求的 sql 谈起:
-- SELECT 后面 包含了GROUP BY 后面没有的一个列 user_nameSELECT user_id,user_name,count(*) FROM user_login GROUP BY user_id;
上面的sql,给人的第一感就是语法会报错,尤其对于部分从oracle过渡到mysql的人。
真实情况是什么样呢?
默认设置下,在mysql 5.7 之前,上面sql的语法是正确的,之后的版本才会报错,如下:
SELECT list is not in GROUP BY clause and contains nonaggregated column 'user_login.user_name' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by
-- SELECT 后面包含了非聚合的列user_name,而user_name和GROUP BY 后面的列没有函数依赖关系;这个违背了only_full_group_by的sql模式
当然在GROUP BY后面带上列user_name,肯定ok,就不说了,这里我们来探究一下mysql 5.7 之后给出了哪些解决方案。从报错提示中似乎可以得知,如果user_name和user_id之间functionally dependent,就ok,关于什么是functionally dependent,后面再说,这里先说一下mysql的only_full_group_by模式 。
only_full_group_by
Reject queries for which the select list, HAVING condition, or ORDER BY list refer to nonaggregated columns that are neither named in the GROUP BY clause nor are functionally dependent on (uniquely determined by) GROUP BY columns.
-- select、HAVING、ORDER BY 后面不能出现‘非聚合的列’(GROUP BY后面没有的列),除非这些非聚合列和GROUP BY后面的列之间‘函数依赖’(唯一决定) .
mysql 5.7之后,默认开启了only_full_group_by的sql模式,通过命令可以查看:
-- 查看全局的sql_modeSELECT @@GLOBAL .sql_mode;-- 查看当前会话的sql_modeSELECT @@SESSION.sql_mode;-- 结果如下,第一个就是ONLY_FULL_GROUP_BYONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION
正是因为only_full_group_by的约束,sql才会报错,关闭即可解决问题。
把上面查询出的sql_mode的值,去掉ONLY_FULL_GROUP_BY一项,重新设置一下,2种关闭方式:
SET SESSION sql_mode = 'modes';-- 仅对当前会话有效
SET GLOBAL sql_mode = 'modes'; -- 全局有效
-- 设置当前session的sql_modeSET SESSION sql_mode = 'STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION';-- 设置之后,在当前session下,下面的sql不再会报错:SELECT user_id,user_name,count(*) FROM user_login GROUP BY user_id;
此外还可以通过配置文件来修改sql_mode,这里不探究 ,接下来简单说一下上面提到函数依赖。
functionally dependent
functionally dependent(函数依赖) 等同于 uniquely determined(唯一决定) ,简单理解就是,一个字段完全依赖于另一个字段,即其值由另一个字段来决定。比如,一个表的非主键列 uniquely determined by 主键列,我们就可以称它们为函数依赖。
基于上面的测试场景,假设我们还有一张‘用户表‘:
CREATE TABLE `user` ( `id` INT (11) NOT NULL AUTO_INCREMENT, `name` VARCHAR (64) DEFAULT NULL COMMENT '姓名(和主键id函数依赖)', PRIMARY KEY (`id`)) ENGINE = INNODB DEFAULT CHARSET = utf8 COMMENT '用户表';INSERT INTO `user` VALUES (1, '小A');INSERT INTO `user` VALUES (2, '小B');
显然用户name列 functionally dependent on 用户id列,所以下面的sql任何时候都语法正确:
SELECT ul.user_id, u.name, -- 这一列虽然不是聚合列,但是它和主键u.id是函数依赖的,所以整个sql都ok count(*)FROM user_login ulINNER JOIN user u ON ul.user_id = u.idGROUP BY ul.user_id;
.
any_value
如果多出的非聚合列没有functionally dependent特性,而且我们也不想修改默认的sql_mode的话, mysql还为我们提供了另一种解决方案,即通过函数any_value,来绕过only_full_group_by模式,如下:
-- any_value会随便选取一个user_name值,通常是第一个SELECT user_id,any_value(user_name),count(*) FROM user_login GROUP BY user_id;
.
规范
有人会说,费这么大劲干啥呢,直接在最后面补上user_name列不就ok了么,而且这样写也是理所当然:
-- 符合SQL99规范的group bySELECT user_id,user_name,count(*) FROM user_login GROUP BY user_id,user_name;
确实如此,实际工作中,除非在升级mysql版本之后,发现一些历史遗留的sql出错时,我们才有必要考虑如何去解决这些问题。正常情况下,我们只需要按照 only_full_group_by 的规范来开发就行了,即select、having、order by这些关键字后面的列必须同时出现在group by后面,除非多出的非聚合列和group by后面的列有函数依赖关系。