ES中的aggregations提供了数据分析能力,比如从数据中分组和提取数据的能力。最简单的聚合方法大致等于 SQL中GROU BY和SQL中的聚合函数。在 Elasticsearch 中,执行聚合返回 hits(命中结果)的同时还返回聚合结果。
测试数据(account.json)
基本语法,使用‘aggs
’属性进行标识
NAME
:自定义当前聚合的名称AGG_TYPE
:指定当前聚合的类型GET bank/_search
{
"aggs": {
"NAME": {
"AGG_TYPE": {}
}
}
}
1、搜索 address 中包含 mill 的所有人的年龄分布
GET bank/_search
{
"query": {
"match": {
"address": "mill"
}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age",
"size": 10
}
}
}
}
ageAgg
:自定义的当前的聚合名称terms
:是当前聚合的类型,terms表示分布情况
field
:表示当前聚合使用哪个字段size
:表示显示多少条聚合的信息
上图中,query的match一共命中了4条记录,其中的aggregations
节点展示了当前聚合的结果 ;可以明显的看到ageAgg
就是自定义的聚合名称,buckets
节点统计的age的分别情况:
2、聚合第一步4个人的平均年龄
以上就是address 中包含 mill 的所有人的年龄分布,接下来聚合这四个人的平均年龄,同样ageAvg
是给该聚合结果自定义的一个名称;avg
是该聚合类型,表示聚合平均
下面是**搜索 address 中包含 mill 的所有人的年龄分布以及平均年龄,但不显示这些人的详情 **的完整DSL
GET bank/_search
{
"query": {
"match": {
"address": "mill"
}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age",
"size": 10
}
},
"ageAvg":{
"avg": {
"field": "age"
}
}
},
"size": 0
}
# 2、按照年龄聚合,并且请求这些年龄段的这些人的平均薪资
# 2.1、求出所有的年龄分布
GET bank/_search
{
"query": {
"match_all": {}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age"
}
}
},
"size": 0
}
# 2.2、最终;请求这些年龄段的这些人的平均薪资
GET bank/_search
{
"query": {
"match_all": {}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age"
},
"aggs": {
"ageGroupBalanceAvg": {
"avg": {
"field": "balance"
}
}
}
}
},
"size": 0
}
4.1、聚合所有人的年龄分布
GET bank/_search
{
"query": {
"match_all": {}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age",
"size": 100
}
}
},
"size": 0
}
4.2、在4.1的基础上再对每组中的gender进行分布聚合
# 再所有的年龄分布基础上,再根据gender进行分布
GET bank/_search
{
"query": {
"match_all": {}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age",
"size": 100
},
"aggs": {
"genderAgg": {
"terms": {
"field": "gender.keyword",
"size": 10
}
}
}
}
},
"size": 0
}
4.3、最后求得每个年龄段的平均薪资
GET bank/_search
{
"query": {
"match_all": {}
},
"aggs": {
"ageAgg": {
"terms": {
"field": "age",
"size": 100
},
"aggs": {
"genderAgg": {
"terms": {
"field": "gender.keyword",
"size": 10
}
},
"balanceAvg":{
"avg": {
"field": "balance"
}
}
}
}
},
"size": 0
}