R言語で、文字ベクトル内の各文字列を可変数の分割に分割して文字ベクトルのリストを返す方法について解説します。文字列の操作には、tidyverseパッケージに含まれているstringrパッケージを使用するのが便利です。ここでは、stringrパッケージのstr_split()を使用した方法についてお伝えします。
str_split()の概要
str_split()は、文字ベクトル内の各文字列を可変数の分割に分割して文字ベクトルのリストを返すための関数です。
str_split()の使い方
str_split(string, pattern, n = Inf, simplify = FALSE)
str_splitの引数
string
文字ベクトルまたは文字ベクトルに変換可能なものを指定します。
pattern
検索するパターンを指定します。
デフォルトの解釈は、vignette(“regular-expressions”)で説明されている正規表現です。マッチング動作をより細かく制御するには、regex()を使用してください。
fixed()を使用して、固定文字列(つまり、バイトのみを比較する)をマッチングします。これは高速ですが、近似値です。一般的に、人間のテキストをマッチングするには、指定されたロケールの文字マッチング規則を尊重するcoll()が適しています。
boundary()を使用して、文字、単語、行、文の境界をマッチングします。空のパターン””は、boundary(“character”)と同等です。
n = Inf
返される分割の最大数を指定します。
デフォルト(Inf)では、すべての可能な分割位置が使用されます。
simplify = FALSE
真偽値を指定します。
- FALSE(デフォルト):文字ベクトルのリストを返します
- TRUE:文字行列を返します
準備
あらかじめ、tidyverseパッケージを読み込んでおきます。
library(tidyverse)
使用例
文字ベクトル「りんご,ごりら,らっぱ」と「すずめ, めだか, からす」を「,」で分割して文字ベクトルのリストを返すには次のようにします。
str_split(c("りんご,ごりら,らっぱ", "すずめ, めだか, からす"), ",")
[[1]]
[1] "りんご" "ごりら" "らっぱ"
[[2]]
[1] "すずめ" " めだか" " からす"