Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。
Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。

Wikipediaのデータファイルをプレーンテキストに変換するPythonプログラム「WikiExtractor」を以下のサイトからダウンロードする。

使い方は、適当なディレクトリを作成し、以下のコマンドでそのディレクトリに変換したプレーンテキストを保存する。プレーンテキストの容量はデフォルトでだいたい500KBごとに分割される。


$ mkdir extracted
$ bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -o extracted

作成されたディレクトリ構成や変換されたプレーンテキストは、以下のようになる。


$ ls extracted
AA  AC  AE  AG  AI  AK  AM  AO  AQ  AS  AU  AW  AY  BA  BC  BE  BG  BI  BK
AB  AD  AF  AH  AJ  AL  AN  AP  AR  AT  AV  AX  AZ  BB  BD  BF  BH  BJ  BL

$ ls extracted/AA
wiki_00  wiki_07  wiki_14  wiki_21  wiki_28  wiki_35  wiki_42  wiki_49  wiki_56  wiki_63  wiki_70  wiki_77  wiki_84  wiki_91  wiki_98
wiki_01  wiki_08  wiki_15  wiki_22  wiki_29  wiki_36  wiki_43  wiki_50  wiki_57  wiki_64  wiki_71  wiki_78  wiki_85  wiki_92  wiki_99
wiki_02  wiki_09  wiki_16  wiki_23  wiki_30  wiki_37  wiki_44  wiki_51  wiki_58  wiki_65  wiki_72  wiki_79  wiki_86  wiki_93
wiki_03  wiki_10  wiki_17  wiki_24  wiki_31  wiki_38  wiki_45  wiki_52  wiki_59  wiki_66  wiki_73  wiki_80  wiki_87  wiki_94
wiki_04  wiki_11  wiki_18  wiki_25  wiki_32  wiki_39  wiki_46  wiki_53  wiki_60  wiki_67  wiki_74  wiki_81  wiki_88  wiki_95
wiki_05  wiki_12  wiki_19  wiki_26  wiki_33  wiki_40  wiki_47  wiki_54  wiki_61  wiki_68  wiki_75  wiki_82  wiki_89  wiki_96
wiki_06  wiki_13  wiki_20  wiki_27  wiki_34  wiki_41  wiki_48  wiki_55  wiki_62  wiki_69  wiki_76  wiki_83  wiki_90  wiki_97

$ vim extraced/AA/wiki_00

アンパサンド

アンパサンド (, &) とは「…と…」を意味する記号である。英語の に相当するラテン語の の合字で、 (et cetera = and so forth)を と記述することがあるのはそのため。Trebuchet MSフォントでは、と表示され "et" の合字であることが容易にわかる。
__TOC__
その使用は1世紀に遡ることができ (1)、5世紀中葉 (2,3) から現代 (4-6) に至るまでの変遷がわかる。
Z に続くラテン文字アルファベットの27字目とされた時期もある。
記号名の「アンパサンド」は、ラテン語の「& はそれ自身 "and" を表す」 からきている。
また同様に、「t」または「+(プラス)」に輪を重ねたような、無声歯茎側面摩擦音を示す発音記号「」のようなものが使われることもある。
プログラミング言語では、C など多数の言語で AND 演算子として用いられる。以下は C の例。
BASIC 系列の言語では文字列の連結演算子として使用される。codice_4 は codice_5 を返す。また、主にマイクロソフト系では整数の十六進表記に codice_6 を用い、codice_7 (十進で15)のように表現する。
SGML、XML、HTMLでは、アンパサンドを使ってSGML実体を参照する。
なお、現象として、&を大文字のSの筆記体に近い鏡文字で書いてしまう・そのような形で覚えてしまっている例がある。



言語

狭義には、人間のコミュニケーション、相互作用を統べる規則の内、声にまつわる部分、あるいはその声の代替としての文字表記などにまつわる部分を指す。手話、トーキングドラムなどの例においても、おおよそ声によるコミュニケーションと対応している。
厳密には、言語の定義には多くの困難が伴う。コミュニケーションの「規則」がどこかに明記されており人々がそれを参照しながらコミュニケーションが行われるわけではなく、実際人々が単一の規則に従っていないと考えさせる材料もある。方言のような地理的なバリエーション、新語の普及のような歴史的変化、言い間違いや言いかけに終わる発言など、文法として通常考えられる規則に反する発話などが、その例として考えられる。また、「声」を基礎とし、文字をその代替とする発想に対する批判を投げかける立場(『声と現象』)もある(言語哲学)。

<<以下、省略>>

関連する記事

  • Ubuntu 日本語構文・格・照応解析システムKNPのインストール方法Ubuntu 日本語構文・格・照応解析システムKNPのインストール方法 Ubuntu14.04で日本語構文・格・照応解析システムKNPのインストール方法をお伝えする。 あらかじめ、JUMANをインストールしておく(参照「Ubuntu 日本語形態素解析システムJUMANのインストール方法」)。 まずはKNP - KUROHASHI-KAWAHARA LABより最新のKNPをダウンロードしておく。 今回はKNP […]
  • Ubuntuに日本語係り受け解析器CaboChaをインストールする手順Ubuntuに日本語係り受け解析器CaboChaをインストールする手順 日本語のテキストデータを解析する際に、係り受けを抽出したいときがある。係り受けを行うことができるフリーのソフトウェアの一つにCaboChaがある。CaboChaは, Support Vector […]
  • Ubuntu 日本語形態素解析システムJUMANのインストール方法Ubuntu 日本語形態素解析システムJUMANのインストール方法 buntu14.04で日本語形態素解析システムJUMANのインストール方法をお伝えする。 JUMAN単体では次のコマンドで簡単にインストールできる。 $ sudo apt-get install […]
  • Ubuntu14.04とPython3でMeCabを使う方法Ubuntu14.04とPython3でMeCabを使う方法 MeCabは各種スクリプト言語(perl、ruby、python、Java)から、各言語バイディングで利用できるようになっている。 しかし、Pythonで用意されているのはPython2系のもので、残念ながらPython3系では使えない。 そこで、ここでは用意されているPython2系バイディングをPython3系に変換して使用する方法をお伝えする。 MeCab […]
  • Python KNPを用いて係り受け構造を抽出する方法Python KNPを用いて係り受け構造を抽出する方法 Ubuntu14.04環境で、Python3と日本語構文・格・照応解析システムKNPを用いて係る語と受ける語のペアを抽出する方法をご紹介する。 係り受け構造を抽出するPython3のソースコードは次である。 from pyknp import KNP def […]
Wikipediaのデータファイルをプレーンテキストに変換する