R言語で、一致する文字列を検索する方法について解説します。文字列の操作には、tidyverseパッケージに含まれているstringrパッケージを使用するのが便利です。ここでは、stringrパッケージのstr_subset()を使用した方法についてお伝えします。
str_subset()の概要
str_subset()は、一致する文字列を検索するための関数です。文字列の中でパターンに一致する要素を少なくとも1つ返します。これは x[str_detect(x, pattern)] のラッパーであり、grep(pattern, x, value = TRUE) と同等です。各文字列内で一致する要素の位置を検索するには、str_extract() を使用してください。
str_subset()の使い方
str_subset(string, pattern, negate = FALSE)
str_subset()の引数
string
文字ベクトルまたは文字ベクトルに変換可能なものを指定します。
pattern
検索するパターンを指定します。
デフォルトの解釈は、vignette(“regular-expressions”)で説明されている正規表現です。一致動作をより細かく制御するには、regex()を使用してください。
fixed()を使用して、固定文字列(つまり、バイトのみを比較)に一致させます。これは高速ですが、近似値です。一般的に、人間のテキストをマッチングするには、指定されたロケールの文字マッチング規則を尊重するcoll()を使用します。
文字、単語、行、文の境界をマッチングするには、boundary()を使用します。空のパターン””は、boundary(“character”)と同等です。
negate = FALSE
TRUEの場合、結果のブールベクトルを反転します。
str_subset()の戻り値
通常は文字列よりも小さい文字ベクトルです。
準備
あらかじめ、tidyverseパッケージを読み込んでおきます。
library(tidyverse)
使用例
3つの文字列「りんご」「ごりら」「らっぱ」のそれぞれに対して、文字列「り」が含まれている文字列を取得するには次のようにします。
str_subset(c("りんご", "ごりら", "らっぱ"), "り")
[1] "りんご" "ごりら"