CRAN Task View: Natural Language Processingの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載した。

Maintainer: Fridolin Wild, Performance Augmentation Lab (PAL, Department of Computing and Communications Technologies, Oxford Brookes University, UK
Contact: fridolin.wild at open.ac.uk
Version: 2017-01-17
URL: https://CRAN.R-project.org/view=NaturalLanguageProcessing

自然言語処理は、その基盤が1940年代と50年代に敷設されて以来、長い道のりを歩んできた(例えば、Jurafsky and Martin(2008):Speech and Language Processing、Pearson Prentice Hall)。 このCRANタスクビューは、言葉、構文、意味論、およびプラグマティクスに焦点を当てて、さまざまなレベルで言語と言語の分析を実行する際に計算言語担当者をサポートする関連するRパッケージを収集します。

近年、我々は、書面による処理を扱うパッケージで使用されるフレームワーク、すなわちパッケージtm を精緻化した。 この領域の拡張パッケージは、tmの基本ルーチンとのインタフェースに強く推奨されています。useRsはこのフレームワークパッケージのさらなる開発に関する議論に参加することを心から招待しています。 自然言語処理に取り組むには、cRunch servicetutorials が役立ちます。

フレームワーク:

  • tmはRの総合的なテキストマイニングのフレームワークを提供している。Text Mining Infrastructure in R の記事Journal of Statistical Softwareは、詳細な概要と、カウントベースの分析方法、テキストクラスタリング、テキスト分類と文字列カーネルのための技術を提供する。
  • tm.plugin.dcは、ストレージデバイス(ローカルのファイルやHadoopの分散ファイルシステム)間でコーパスを配布することができます。
  • tm.plugin.mailはThunderbird(mbox、eml)で使用されるようなアーカイブファイルからメールをインポートするに役立ちます。
  • tm.plugin.alcesteはAlceste形式のファイルで記述されたテキストコーパスをインポートすることができます。
  • tm.plugin.factivatm.plugin.lexisnexistm.plugin.europresseは、Dow Jones Factiva、LexisNexis、Europresse(それぞれ)からプレスとWebコーパスをインポートできる。
  • tm.plugin.webminingはニュースがXML(RSS、ATOM)とJSON形式のフィードをインポートすることができます。現在、以下のフィードが実装されています:Google Blog Search, Google Finance, Google News, NYTimes Article Search, Reuters News Feed, Yahoo Finance, and Yahoo Inplay.
  • RcmdrPlugin.temisは時系列分析、コレスポンデンス分析、階層的クラスタリング、用語や文書数、語彙表、用語共起や文書類似度、インポートやコーパスをクリーニングのようなテキストマイニング一連のタスクを実行するための統合ソリューションを提供しているRcommanderプラグインです。
  • openNLPは、最大エントロピーモデルを使用し、訓練のためのMAXENT Javaパッケージを使用し、文検出器、トークナイザ、pos-tagger、浅く完全な構文のパーサ、名前付きエンティティ検出器を含む自然言語処理ツールのコレクション、OpenNLPへのRインターフェースを提供します。
  • openNLPと一緒に使用される英語とスペイン語のための訓練されたモデルは、それぞれのパッケージopenNLPmodels.enとopenNLPmodels.esとしてhttp://datacube.wu.ac.at/から入手可能である。
  • RWekaは、Javaで記述されたデータ・マイニング・タスクのための機械学習アルゴリズムのコレクションであるWekaへのインタフェースです。自然言語処理との関連で特に有用なのは、トークン化およびステミングのための機能です。
  • tidytext は、dplyr、ggplot2などの整形ツールを使用したワープロやセンチメント解析のためのテキストマイニングの手段を提供します。
  • monkeylearn は、テキスト分析、すなわち分類と抽出のためにMonkeylearnの機械学習サービスにラッパーインターフェースを提供します。

言葉(字句のDB、キーワード抽出、文字列操作、ステミング)

  • Rの基本パッケージは、すでに文字操作ルーチンの豊富なセットを提供します。これらの機能の詳細については、help.search(keyword = ”character” , package = “base”)を参照してください。
  • wordnetWordNetの英語の大語彙データベースへのRインターフェースを提供します。
  • RKEAKEA(バージョン5.0)へのRインターフェースを提供します。KEA(キーフレーズ抽出アルゴリズムのための)は、テキスト文書からキーフレーズを抽出することができます。それはどちらか無料で索引付けのためか、統制語彙とインデックス作成のために使用することができます。
  • gsubfnは、むしろ区切り文字でよりコンテンツストリングスから単語を抽出するなどの特定の構文解析タスクに使用することができます。デモ(「gsubfn-gries」)は、自然言語処理コンテキストで、この例を示している。
  • textreuse は、文書間の類似度を測定するためのツールセットを提供し、再利用された通路を検出に役立ちます。 このパッケージは次を実装しています。
    • shingled n-gram, skip n-gram, and other tokenizers
    • 類似/非類似度関数
    • 対比較
    • minhashとlocality sensitiveハッシュアルゴリズム
    • 自然言語に適したSmith-Waterman local alignment algorithmのバージョン。
  • boilerpipeRは、HTMLファイルからテキストコンテンツを抽出し、サニタイズに役立ちます:boilerpipe Javaライブラリを使用した広告、サイドバー、およびヘッダーの除去。
  • tauは、文字エンコーディング、言語、パターンカウント、およびトークン化を扱うようにテキスト処理に必要な基本的な文字列操作や解析ルーチンが含まれています。
  • SnowballCはRstemとまったく同じAPIを提供していますが、スノーボールプロジェクトからのC libstemmerライブラリのわずかに異なるデザインを使用しています。また、2つ以上の言語をサポートしています。
  • stringi は、Unicode(ICU)ライブラリのための国際コンポーネントのR言語のラッパーを提供し、次が可能:
    • テキストエンコーディングの変換。
    • 任意のロケールの文字列検索と照合。
    • テキストのUnicodeの正規化。
    • 混合読み出し方向でテキストを扱い(例えば、右から左、左から右) 。
    • (異なる集計レベルにトークン化または適切な行の折り返し位置を識別するための )テキスト境界解析。
  • Rstem(Omegahatから入手可能)はポーターの語幹アルゴリズムのCバージョンに代わるインタフェースです。
  • KoNLPはステミング変換ルーチンの集まり(字母に例えばハングル)、およびLuceneのHanNanum・アナライザとのインタフェースを通じてタグ付け品詞を提供しています。バージョン0.0から8.0に、ドキュメントはまばらで、まだいくつかの助けを必要とします。
  • koRpusは自動言語検出、ハイフネーション、字句多様性(例えば、型トークン比、HD-D/vocd-D、MTLD)と読みやすさ(例えば、Flesch,SMOG、LIX、Dale-Chall)のいくつかの指標のための関数の多様なコレクションです。詳細については、web pageを参照してください。
  • languageRは、データセットと統計的手法を例示する機能、およびRH Baayenで本書で使用されるいくつかの促通ユーティリティ関数を提供します。”Analyzing Linguistic Data: a Practical Introduction to Statistics Using R”, Cambridge University Press, 2008.
  • zipfRは、単語頻度分布のためのいくつかの統計的なモデルを提供しています。ユーティリティは、ロードのための機能、単語頻度データを操作し、可視化と語彙成長曲線が含まれています。パッケージには、人口の単語の出現頻度の分布のために、いくつかの統計モデルを実装しています。(このライブラリの名前は、最も有名な単語頻度分布、ジップの法則に由来する。)
  • maxentは非常に大規模なデータセットのメモリ消費量を最小限に抑えmaxinumエントロピーの実装です。
  • wordcloudは有名ワードルものと同様の視覚化を提供します。それは、水平方向および垂直方向の周波数によってスケーリングされたフォントサイズに心地よい視覚化の機能を分配する。
  • hunspell は、豊富な形態と複雑な単語の複合または文字エンコーディングを持つ言語用に設計されたステマーとスペルチェッカーライブラリです。 パッケージは、個々の単語の確認と分析を行うだけでなく、テキスト、latexまたは(Rパッケージ)マニュアルドキュメント内の不適切な単語を検索することもできます。
  • phonics は、Soundex、Metaphone、NYSIIS、Caverphoneなどの発音アルゴリズムのコレクションを提供します。
  • tesseract は、ユニコード(UTF-8)をサポートするOCRエンジンであり、100を超える言語をすぐに認識することができます。
  • mscsweblm4r は、Microsoft Cognitive Services Web Language Model APIへのインターフェイスを提供し、一連の単語が一緒に現れる確率、特定の単語が既存の単語のシーケンスに従う条件付き確率、単語のリストを取得するための確率を計算するために使用できます 与えられた一連の単語に従う可能性が最も高い単語(補完)を作成し、空白(ハッシュタグ、URLなど)を使わずに隣接する単語の文字列にスペースを挿入します。
  • mscstexta4r は、Microsoft Cognitive Services Text Analytics APIへのインターフェイスを提供し、感情分析、トピック検出、言語検出、およびキーフレーズ抽出を実行するために使用できます。
  • tokenizers は、テキストをトークンに分割し、混乱したnグラムをサポートし、nグラム、単語、語幹、文章、段落、文字、行、および正規表現をスキップします。

意味:

  • lsaはRで潜在意味解析を実行するためのルーチンを提供する。潜在意味解析(LSA)の基本的な考え方は、テキストしかし、単語の使用によって隠され(例えば、同義語や多義性の使用による)、高次(=潜在的意味)構造を有するか、である。所与のドキュメント・ターム・マトリックス上に切り捨てられた特異値分解(2モード因子分析)を介して統計的に導出される概念インデックスを使用することによって、この変動の問題を克服することができる。Investigating Unstructured Texts with Latent Semantic Analysis 資料には、詳細な概要を提供し、技術強化学習のアールの事例を持つパッケージを使用する方法を示します。
  • topicmodelsは、Xuan-Hieu Phanと共著者によるギブスサンプリングを使用するフィッティングLDAモデルのためのC++コード、潜在的ディリクレ配分(LDA)モデルとDavid M.Bleiと共著者による相関トピックモデル(CTM)のためのCコードへのインターフェイスを提供します。
  • ldaは、LSAとtopicmodelsに似て潜在的ディリクレ配分および関連モデルを実装しています。
  • kernlabは作成および完全な文字列、スペクトル、または有界範囲文字列カーネルのような文字列カーネル、と計算することができます。直接入力としてtmが使用する文書フォーマットを使用することができます。
  • skmeansはクラスタリングは、球面分割をk平均のためのいくつかのアルゴリズムを提供して支援します。
  • movMFは別のクラスタリング代替手段(近似値は、単位長さのベクトルのフォン・ミーゼス・フィッシャー分布が付いています)を提供します。
  • RTextToolsはテキストの自動分類のための機械学習パッケージです。それは精度の評価を支援する9種類のアルゴリズム(svm, slda, boosting, bagging, rf, glmnet, tree, nnet, and maxent)とルーチンを実装しています。
  • textirは、テキストや感情マイニングのためのツール群です。
  • textcatはnグラム基づくテキスト分類のためのサポートを提供します。
  • corporaは、コーパスの頻度データの統計分析のためのユーティリティ関数を提供しています。
  • text2vec は、テキストベクトル化、トピックモデリング(LDA、LSA)、単語埋め込み(GloVe)、および類似点のためのツールを提供します。

語用論:

  • qdapは転写物の定量的談話分析に役立ちます。
  • quanteda は、テキストデータの定量分析をサポートしています。

コーパス:

  • gutenbergr は、Project Gutenbergコレクションのパブリックドメインの作品をダウンロードして処理することができます。 すべてのProject Gutenberg作品のメタデータが含まれているため、検索や検索が可能です。
R言語 CRAN Task View:自然言語処理

One thought on “R言語 CRAN Task View:自然言語処理

Comments are closed.