【SparkSQL】SparkSQLの集約関数

SQL

2023.07.022023.05.20

SparkSQLの集約関数とは

最近の業務ではSparkSQLを書くことが多くあります。

集約関数はデータベースのテーブルやビューなどの集合データに対して、集計や統計的な操作を行うための関数です。

以下によく使う集約関数を中心にまとめてみたいと思います！

SELECT SUM(column_name) 
FROM table_name

SELECT COUNT(column_name) 
FROM table_name

SELECT AVG(column_name) 
FROM table_name

SELECT MIN(column_name) 
FROM table_name

SELECT MAX(column_name) 
FROM table_name

SELECT COUNT(DISTINCT column_name) 
FROM table_name

SELECT SUM(DISTINCT column_name) 
FROM table_name

SELECT AVG(DISTINCT column_name) 
FROM table_name

SELECT group_column, COLLECT_LIST(column_name) 
FROM table_name GROUP BY group_column

SELECT group_column, COLLECT_SET(column_name) 
FROM table_name GROUP BY group_column

SELECT group_column, FIRST(column_name) 
FROM table_name 
GROUP BY group_column

SELECT group_column, LAST(column_name) 
FROM table_name 
GROUP BY group_column

集約関数使用時にはGROUP BYでカラムの値に基づいたグループ化を行います。

SELECT column_name, SUM(another_column) 
FROM table_name 
GROUP BY column_name

そのほかの関数もこちらにまとめておりますのでご参考ください。
>SparkSQLの文字列関数
 >SparkSQLの日付関数コード

参考になれば幸いです☕