MySQL从8.0开始支持窗口函数。所谓窗口函数,包括两个内容,一个是窗口,要明白窗口的概念,另一个是函数,特指应用在窗口上的函数。
#概念
我们有时候不对整个源数据进行处理,而是要一部分一部分依次处理,就需要一个窗口限定一下,这里的窗口其实真正指的是划定范围,连续作用下(就像窗口的滑动)实现了数据的动态分区。
而应用在窗口的函数则实现对窗口限定的分区的各类计算。
所谓窗口函数,窗口实现数据选择,函数实现数据处理。
窗口函数的基本用法:
|
|
其中,函数参数部分填需要被加工的字段名称,over是关键字,用来指定函数执行的窗口范围,包含三个分析子句:
- 分组子句:partiton by <要分列的组>
- 排序子句:order by <要排序的列>
- 窗口子句:rows between <数据范围>
|
|
窗口函数相当于在整个select语句执行中过程中给行打上标签,并依据分组、排序、开窗等方法在内部生成新的结果,然后用标签匹配回原结果,一起组装后产出。
#数据选择
partition by它与普通函数的分组语句group by相比,它们其实作用没区别,都是分组,但处理结果有区别。group by分组后做的是整组聚合运算,各组里如果有多个行处理后最终只会有一行返回,而partition by它分组后做的是逐行按窗口计算,不管用什么函数处理,一行记录得到一行记录,返回的行还是那么多。
order by好理解,就是按字段进行排序,与普通函数的排序语句一样。
而最有意思的其实是窗口子句rows between。具体的窗口大小其实通过它来限定。
之前说了,窗口函数里对各分区中的数据的处理做的不是聚合运算,而是逐行按窗口计算,也就是基于每一行给定的窗口里的数据进行处理。这里rows between就限定了该行所对应的窗口范围。
rows between 2 preceding and current row #取当前行和前面行
rows between unbounded preceding and current row #包括本行和之前所有的行
rows between current row and unbounded following # 包括本行和之后所有的行
rows between 3 preceding and current row # 包括本行和前面三行
rows between 3 preceding and 1 following #从前面三行和下面一行,总共五行
当order by后面缺少窗口从句条件,窗口规范默认是rows between unbounded preceding and current row,也就是当前行以及之前的所有行。
当order by和窗口从句都缺失,窗口规范默认是rows between unbounded preceding and unbounded following,也就是全部的行。
【注:以上rows也可以写成range】
以上就是数据选择部分,其中分组子句实现数据的分组归类,排序子句对分区中的数据进行排序,二者均为数据提供了某种秩序,为最终的目的——窗口的选取——作了铺垫,如果数据杂乱无章,窗口的选取将难以进行。partition by提供的秩序是——分隔而互不干扰,即对于数据选取的目的来说,partition by后面接的字段如果值不同,其数据行就100%不会在后续处于同一窗口而发生相互关系。order by后面接的字段提供的秩序是有序性,后面窗口的选取需要这些字段排好序。有了partition by和order by提供的秩序,rows between就得以按照简单的规则进行数据选取了,甚至很多情况只用默认规则就达到了目的。
概念图如下:
#数据处理
对选取的数据,我们用前面的函数进行处理。一般可以将它们分成两类。
- 专有函数(即窗口环境下专有的函数,主要有排序函数三巨头,偏移函数,切分函数ntile)
- rank():为跳跃排序,结果相同的两个数据并列,例如并列第一,则为1134
- dense_rank():为有重复的连续排序,结果相同的两个数据并列,例如并列第一,则为1123
- row_number():为不重复的连续排序,例如并列第一,照样为1234
- ntile(n):用于将分组数据平均切分成n块,如果切分的每组数量不均等,则第一组分得的数据更多
- 偏移函数,用于取出同一字段的前N行数据或后N行数据,作为单独的列,分别是lead(str, n, default)和lag(str, n, default),n表示前/后n行数据,默认值为1,default表示如果取值范围已经超过整个表的返回值,可以不填,不填默认返回N/A
- 位置函数,用于取出第一行的first_value()函数和最后一行的last_value()函数,以及取出第n个的nth_value(str,n)函数
- 分布函数, 包括PERCENT_RANK()每行按照公式
(rank-1) / (rows-1)
进行计算。其中,rank
为RANK()函数
产生的序号,rows
为当前窗口的记录总行数。CUME_DIST()则按rank/rows进行计算,即当前行的行号/总行数。
- 聚合类函数(即普通场景下与group by一起使用的那类函数,作用相同)
- sum()
- count()
- avg()
- max()
- min()
掌握这些函数,具体还是需要在具体例子中完成。
#实战
#准备
建表
(考试成绩和生活消费记录)
|
|
插值
|
|
检查
|
|
|
|
#聚合函数
1.计算每位同学的得分与平均值的情况
分析:
- 这里的结果需要原来的得分,也需要平均值,结果还是需要有原来的行数,所以要用窗口函数
- 不同人的分需要隔离开,立即想到partition by的字段是人名
- 平均值不需要各分区的值排序,所以可以无order by
- 全区求平均,无需划定滑动小窗口,自始至终都是静态的大窗口——整个分区全部的行,也就是rows between需要用rows between unbounded preceding and unbounded following
- 但由于省略order by与rows between时,rows between默认就是unbounded preceding and unbounded following,同样满足条件,因此可简写
代码:
|
|
结果如下:
|
|
简写代码:
|
|
结果相同:
|
|
2.计算每位同学的消费情况和消费总额
分析:
- 既要消费情况又要消费总额,则窗口函数请求一战
- 【每位同学】,立马有partition by 同学名
- 消费总额,sum函数跃跃欲试,且是整个区的静态大窗口,无需rows between,且无关order by,简写方式与第一题同理
代码:
|
|
结果:
|
|
3.计算每位同学的消费情况和累计消费总额
分析:
- 这里与第二题基本一样,但这里是累积消费总额,是随时间累积的,与时间的顺序有关,因此order by后要接时间字段
- 窗口在每行都需要有所变化,累积即本行之前行至本行的总额,因此rows between是unbounded preceding and current row,窗口随着【本行】的变化是滑动的
- 但由于有partition by和order by但无rows between则rows between的默认结果是unbounded preceding and current row,因此可省略rows between
代码:
|
|
结果:
|
|
简化代码:
|
|
结果一样:
|
|
#排序函数
1.计算每个科目的排名,相同的分数排名不同,顺序依次增加
分析:
- 每个科目的排名,要用窗口排序函数,且【每个科目】锁定partition by 科目
- 排名一定要用到order by,字段显然是分数
- 排名是基于本行及之前行进行的,因此rows between使用默认的unbounded preceding and current row
- 相同的分数排名不同,要用row_number()函数
|
|
结果如下:
|
|
可以看到,英语成绩中李四与王五并列第二,但李四名字排名更前,因此排第二,王五含泪第三。
2.计算每个科目的排名,相同的分数排名相同,余下排名跳跃增加
分析:
与第一题同理,但函数换成rank()。
代码:
|
|
结果:
|
|
这回英语成绩李四与王五并列第二,但赵六还是第四。
3.计算每个科目的排名,相同的分数排名相同,余下排名顺序增加
分析:
与第一题同理,这回排序函数换成dense_rank()
代码:
|
|
结果:
|
|
这回结果英语成绩李四与王五还是并列第二,但赵六为第三。
#切分函数
这个函数一般是用来划分数据桶用的。
1.将exam_score表分成四份
代码:
|
|
结果:
|
|
由于没分组,因此对整个表进行切分,有12份,每份3个。
2.将exam_score表分成五份
代码:
|
|
结果:
|
|
这里它要保证前面的份量更大,因此第一二份有3个,第三四五份有2个。
3.对exam_score表,对score排序后,按照subject分组切成4份
分析:
这里有4个人,分组并排序后切分成4份的结果就相当于row_number()了
|
|
结果:
|
|
#位置函数
1.截止到当前日期,每位同学的“最后一次购买时间”、“首次购买时间”和“第二次购买金额”
注意【截止到当前日期】,注意窗口是前面的行至当前行。
代码:
|
|
结果:
|
|
注意,这里体现了first_value/last_value依前述这里有partition by和order by,窗口按默认应该是rows between unbounded preceding and current row,同样nth_value与前述一致,当计算分区第一行时并不知道第二个值,因此填NULL,计算到第二行时知道第二个值,返回,第三行也一样。
2.每位同学的“最后一次购买时间”、“首次购买时间”和“第二次购买金额”
这里窗口就是整个分区了
代码:
|
|
结果:
|
|
由于窗口是整个分区,在第一行就知道了第二次购买金额以及整个分区的最后一次购买时间。
#偏移函数
1.展示各位同学的“上次购买时间”和“下次购买时间”。对于第一天,显示 “first buy”;对于最后一天,显示 “last buy”
这里上次购买就相当于把排好序的日期向下偏移一行,首行空缺则填默认值first buy。下次购买则相当于把排好序的日期向上偏移一行,尾行空缺则填默认值last buy。
代码:
|
|
结果:
|
|
#分布函数
举例说明一下分布函数的用法
好的。
代码:
|
|
结果:
|
|
这里,每个分区的行数是3,我们看下法外狂徒张三的消费情况,这里percent_rank第一行是(rank-1)/(rows-1),rows已经固定了是3,那么第一行就是(1-1)/(3-1)=0了,第二行就是(2-1)/(3-1)=0.5了,第三行就是(3-1)/(3-1)就是1了。
而just-dist第一行是1/3,第二行是2/3,第三行是3/3=1。
只是计算方式不一样而已。