Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。
Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。

Wikipediaのデータファイルをプレーンテキストに変換するPythonプログラム「WikiExtractor」を以下のサイトからダウンロードする。

使い方は、適当なディレクトリを作成し、以下のコマンドでそのディレクトリに変換したプレーンテキストを保存する。プレーンテキストの容量はデフォルトでだいたい500KBごとに分割される。


$ mkdir extracted
$ bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -o extracted

作成されたディレクトリ構成や変換されたプレーンテキストは、以下のようになる。


$ ls extracted
AA  AC  AE  AG  AI  AK  AM  AO  AQ  AS  AU  AW  AY  BA  BC  BE  BG  BI  BK
AB  AD  AF  AH  AJ  AL  AN  AP  AR  AT  AV  AX  AZ  BB  BD  BF  BH  BJ  BL

$ ls extracted/AA
wiki_00  wiki_07  wiki_14  wiki_21  wiki_28  wiki_35  wiki_42  wiki_49  wiki_56  wiki_63  wiki_70  wiki_77  wiki_84  wiki_91  wiki_98
wiki_01  wiki_08  wiki_15  wiki_22  wiki_29  wiki_36  wiki_43  wiki_50  wiki_57  wiki_64  wiki_71  wiki_78  wiki_85  wiki_92  wiki_99
wiki_02  wiki_09  wiki_16  wiki_23  wiki_30  wiki_37  wiki_44  wiki_51  wiki_58  wiki_65  wiki_72  wiki_79  wiki_86  wiki_93
wiki_03  wiki_10  wiki_17  wiki_24  wiki_31  wiki_38  wiki_45  wiki_52  wiki_59  wiki_66  wiki_73  wiki_80  wiki_87  wiki_94
wiki_04  wiki_11  wiki_18  wiki_25  wiki_32  wiki_39  wiki_46  wiki_53  wiki_60  wiki_67  wiki_74  wiki_81  wiki_88  wiki_95
wiki_05  wiki_12  wiki_19  wiki_26  wiki_33  wiki_40  wiki_47  wiki_54  wiki_61  wiki_68  wiki_75  wiki_82  wiki_89  wiki_96
wiki_06  wiki_13  wiki_20  wiki_27  wiki_34  wiki_41  wiki_48  wiki_55  wiki_62  wiki_69  wiki_76  wiki_83  wiki_90  wiki_97

$ vim extraced/AA/wiki_00

アンパサンド

アンパサンド (, &) とは「…と…」を意味する記号である。英語の に相当するラテン語の の合字で、 (et cetera = and so forth)を と記述することがあるのはそのため。Trebuchet MSフォントでは、と表示され "et" の合字であることが容易にわかる。
__TOC__
その使用は1世紀に遡ることができ (1)、5世紀中葉 (2,3) から現代 (4-6) に至るまでの変遷がわかる。
Z に続くラテン文字アルファベットの27字目とされた時期もある。
記号名の「アンパサンド」は、ラテン語の「& はそれ自身 "and" を表す」 からきている。
また同様に、「t」または「+(プラス)」に輪を重ねたような、無声歯茎側面摩擦音を示す発音記号「」のようなものが使われることもある。
プログラミング言語では、C など多数の言語で AND 演算子として用いられる。以下は C の例。
BASIC 系列の言語では文字列の連結演算子として使用される。codice_4 は codice_5 を返す。また、主にマイクロソフト系では整数の十六進表記に codice_6 を用い、codice_7 (十進で15)のように表現する。
SGML、XML、HTMLでは、アンパサンドを使ってSGML実体を参照する。
なお、現象として、&を大文字のSの筆記体に近い鏡文字で書いてしまう・そのような形で覚えてしまっている例がある。



言語

狭義には、人間のコミュニケーション、相互作用を統べる規則の内、声にまつわる部分、あるいはその声の代替としての文字表記などにまつわる部分を指す。手話、トーキングドラムなどの例においても、おおよそ声によるコミュニケーションと対応している。
厳密には、言語の定義には多くの困難が伴う。コミュニケーションの「規則」がどこかに明記されており人々がそれを参照しながらコミュニケーションが行われるわけではなく、実際人々が単一の規則に従っていないと考えさせる材料もある。方言のような地理的なバリエーション、新語の普及のような歴史的変化、言い間違いや言いかけに終わる発言など、文法として通常考えられる規則に反する発話などが、その例として考えられる。また、「声」を基礎とし、文字をその代替とする発想に対する批判を投げかける立場(『声と現象』)もある(言語哲学)。

<<以下、省略>>

関連する記事

  • R ggplotでファセットラベルテキストの体裁を変更する方法 ggplotのfacet_gridやfacet_wrapを用いた場合、垂直方向のラベルテキストが縦書きとなり直感的でないときがあります。 この場合は、ラベルテキストのアングルを横書きに変更することで、より見やすいグラフとなります。 デフォルト 特に何も指定しない場合は、次のようなグラフとなります。 library(ggplot2) data("diamond […]
  • R実装と解説 対応のない2標本の母平均の差の検定(母分散が等しい) [latexpage] 母分散が等しい場合の対応のない2標本の母平均の差の検定とは、2つの母集団が正規分布に従い、ともに母分散が等しいと仮定できるとき、一方の母平均が他方の母平均と「異なる」または「大きい」、「小さい」かどうかを、検定統計量がt分布に従うことを利用して検定します。 統計的検定の流れ 検定の大まかな流れを確認しておきます。 […]
  • Ubutnu,R topicmodelsパッケージのインストールの方法Ubutnu,R topicmodelsパッケージのインストールの方法 Ubuntu14.04上のRで「topicmodels」をインストールする方法をお伝えする。 R上で、install.package("topicmodels")を実行すると、次のようなエラーが出てイントールできない。 > install.packages("topicmodels") ctm.c:29:25: fatal error: […]
  • SlideShareで公開されているR言語関係のまとめSlideShareで公開されているR言語関係のまとめ SlideShareで公開されているR言語関係の資料をまとめてみたのでご紹介する。全てを網羅しているわけではないが、あなたのお役に立てれば幸いだ。 Rによる医療統計2015 第1部 医療統計の基礎知識 前編 2015-12-18 / 70 slides Rによる医療統計2015 第1部 後半 2015-12-18 / 57 […]
  • これだけは抑えておきたい収益性分析の基本これだけは抑えておきたい収益性分析の基本 収益性分析とは、主に損益起算書上の数値から収益獲得力や投資効率性を測定する分析である。企業が継続的発展を遂げるためには利益確保が欠かせないが、企業経営は好調のときもあれば不調のときもあるため、様々な観点から収益または利益の状況を把握する必要がある。 ここでは、収益性分析の代表的な指標をいくつか紹介する。 これらの代表的な指標を活用するに当たっては、業種によってかなり異 […]
Wikipediaのデータファイルをプレーンテキストに変換する