SparkSQLの文字列関数に関して
SparkSQLの文字列関数では、文字列の切り出しや結合などができます。
そちらの文字列関数を中心にまとめてみたいと思います。
SparkSQLの文字列関数
length(str)
- 文字列の長さを返します。
concat(str1, str2, ..., strn)
- 複数の文字列を結合します。
substring(str, start, length)
- 文字列の一部分を切り出します。
trim(str)
- 文字列の先頭と末尾の余分な空白を削除します。
lower(str)
- 文字列を小文字に変換します。
upper(str)
- 文字列を大文字に変換します。
regexp_replace(str, pattern, replacement)
- 正規表現に一致する部分を置換します。
split(str, delimiter)
- 文字列を指定されたデリミタで分割し、配列として返します。
substring_index(str, delimiter, count)
- デリミタを指定して、指定されたカウントだけ文字列を分割します。
replace(str, search, replacement)
- 文字列内の指定された部分文字列を別の文字列で置換します。
initcap(str)
- 文字列の各単語の最初の文字を大文字に変換し、他の文字を小文字に変換します。
lpad(str, len, pad)
- 文字列を指定の長さになるように左側にパディングします。
rpad(str, len, pad)
- 文字列を指定の長さになるように右側にパディングします。
concat_ws(delimiter, str1, str2, ..., strn)
- 指定されたデリミタで複数の文字列を結合します。
split_part(str, delimiter, index)
- デリミタで分割された文字列の指定されたインデックスの部分文字列を返します。
instr(str, substr)
- 文字列内でサブ文字列の最初の出現位置を返します。
substring_index(str, delimiter, count)
- デリミタを指定して文字列を分割し、指定されたカウントの部分文字列を返します。
reverse(str)
- 文字列を逆順にします。
regexp_extract(str, pattern, index)
- 正規表現パターンに一致する文字列の指定されたインデックスの部分を抽出します。
translate(str, matchingStr, replaceStr)
- 文字列内の一致する文字を置換します。対応する位置の文字が一致する場合、対応する位置の置換文字に置き換えられます。
like(str, pattern)
- 文字列が指定されたパターンに一致するかどうかを判定します。パターンにはワイルドカード文字(%や_)を使用できます。
regexp_like(str, pattern)
- 正規表現パターンに一致するかどうかを判定します。
initcap(str)
- 文字列の各単語の最初の文字を大文字に変換し、他の文字を小文字に変換します。
soundex(str)
- 文字列のSoundexコードを返します。類似の音の単語を検索するために使用できます。
levenshtein(str1, str2)
- 2つの文字列間のLevenshtein距離を計算します。つまり、2つの文字列を同じ文字列に変換するために必要な編集操作(挿入、削除、置換)の最小数を示します。
「プログラムの環境構築からわからない、、」「データサイエンティストになるには?」など自己学習に不安がありましたら、以下のスクールのご活用をご検討ください!
SparkSQLの文字列関数まとめ
以上が文字列関数の一例となります。
文字列の切り出しや結合などケースに応じてご活用ください!
SQL参考本
SQL学び始めの時はこちらの本を参考にしていました。DBやテーブルの構造から、よく使う関数などがまとめられています。基礎を身につけたい方におススメかと思います。
リンク
SQL関連記事
そのほか、こちらにSQL関連情報をまとめております。
>Coffee Tech Blog SQL関連情報
もしIT業界への転職でお困りでしたら、下記サービスのご活用をご検討ください!
私は転職の際にGeeklyを活用させて頂き、ご縁を頂くことができました。
参考になれば幸いです☕
コメント