R言語で、指定した文字列に一致するインデックスを取得する方法について解説します。文字列の操作には、tidyverseパッケージに含まれているstringrパッケージを使用するのが便利です。ここでは、stringrパッケージのstr_which()を使用した方法についてお伝えします。
str_which()の概要
str_which()は、指定した文字列に一致するインデックスを取得するための関数です。str_which()は、文字列の中でパターンに少なくとも1つ一致するインデックスを返します。これはwhich(str_detect(x, pattern))のラッパーであり、grep(pattern, x)と同等です。
str_which()の使い方
str_which(string, pattern, negate = FALSE)
str_which()の引数
string
文字ベクトルまたは文字ベクトルに変換可能なものを指定します。
pattern
検索するパターンを指定します。
デフォルトの解釈は、vignette(“regular-expressions”)で説明されているように、正規表現です。一致動作をより細かく制御するには、regex()を使用してください。
fixed()を使用して、固定文字列(つまり、バイトのみを比較)に一致させます。これは高速ですが、近似値です。一般的に、人間のテキストをマッチングするには、指定されたロケールの文字マッチング規則を尊重するcoll()が必要です。
文字、単語、行、文の境界をboundary()でマッチングします。空のパターン””はboundary(“character”)と同等です。
negate = FALSE
TRUEの場合、結果のブールベクトルを反転します。
str_which()の戻り値
通常は文字列よりも小さい整数ベクトルを返します。
準備
あらかじめ、tidyverseパッケージを読み込んでおきます。
library(tidyverse)
使用例
文字列ベクトル(“ゆきや”, “こんこ”, “あられや”, “こんこ”, “ふっては”, “ふっては”, “ずんずん”, “つもる”)で”こんこ”のインデックスを取得するには次のようにします。
str_which(c("ゆきや", "こんこ", "あられや", "こんこ", "ふっては", "ふっては", "ずんずん", "つもる"), "こんこ")
[1] 2 4