Wikipediaのデータファイルをプレーンテキストに変換する

Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。
Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。

ウィキペディア日本語版

Wikipediaのデータファイルをプレーンテキストに変換するPythonプログラム「WikiExtractor」を以下のサイトからダウンロードする。

Wikipedia Extractor – Medialab

使い方は、適当なディレクトリを作成し、以下のコマンドでそのディレクトリに変換したプレーンテキストを保存する。プレーンテキストの容量はデフォルトでだいたい500KBごとに分割される。


mkdir extracted
bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -o extracted

作成されたディレクトリ構成や変換されたプレーンテキストは、以下のようになる。


ls extracted
AA  AC  AE  AG  AI  AK  AM  AO  AQ  AS  AU  AW  AY  BA  BC  BE  BG  BI  BK
AB  AD  AF  AH  AJ  AL  AN  AP  AR  AT  AV  AX  AZ  BB  BD  BF  BH  BJ  BL

ls extracted/AA
wiki_00  wiki_07  wiki_14  wiki_21  wiki_28  wiki_35  wiki_42  wiki_49  wiki_56  wiki_63  wiki_70  wiki_77  wiki_84  wiki_91  wiki_98
wiki_01  wiki_08  wiki_15  wiki_22  wiki_29  wiki_36  wiki_43  wiki_50  wiki_57  wiki_64  wiki_71  wiki_78  wiki_85  wiki_92  wiki_99
wiki_02  wiki_09  wiki_16  wiki_23  wiki_30  wiki_37  wiki_44  wiki_51  wiki_58  wiki_65  wiki_72  wiki_79  wiki_86  wiki_93
wiki_03  wiki_10  wiki_17  wiki_24  wiki_31  wiki_38  wiki_45  wiki_52  wiki_59  wiki_66  wiki_73  wiki_80  wiki_87  wiki_94
wiki_04  wiki_11  wiki_18  wiki_25  wiki_32  wiki_39  wiki_46  wiki_53  wiki_60  wiki_67  wiki_74  wiki_81  wiki_88  wiki_95
wiki_05  wiki_12  wiki_19  wiki_26  wiki_33  wiki_40  wiki_47  wiki_54  wiki_61  wiki_68  wiki_75  wiki_82  wiki_89  wiki_96
wiki_06  wiki_13  wiki_20  wiki_27  wiki_34  wiki_41  wiki_48  wiki_55  wiki_62  wiki_69  wiki_76  wiki_83  wiki_90  wiki_97

vim extraced/AA/wiki_00

アンパサンド

アンパサンド (, &) とは「…と…」を意味する記号である。英語の に相当するラテン語の の合字で、 (et cetera = and so forth)を と記述することがあるのはそのため。Trebuchet MSフォントでは、と表示され "et" の合字であることが容易にわかる。
__TOC__
その使用は1世紀に遡ることができ (1)、5世紀中葉 (2,3) から現代 (4-6) に至るまでの変遷がわかる。
Z に続くラテン文字アルファベットの27字目とされた時期もある。
記号名の「アンパサンド」は、ラテン語の「& はそれ自身 "and" を表す」 からきている。
また同様に、「t」または「+（プラス）」に輪を重ねたような、無声歯茎側面摩擦音を示す発音記号「」のようなものが使われることもある。
プログラミング言語では、C など多数の言語で AND 演算子として用いられる。以下は C の例。
BASIC 系列の言語では文字列の連結演算子として使用される。codice_4 は codice_5 を返す。また、主にマイクロソフト系では整数の十六進表記に codice_6 を用い、codice_7 （十進で15）のように表現する。
SGML、XML、HTMLでは、アンパサンドを使ってSGML実体を参照する。
なお、現象として、&を大文字のSの筆記体に近い鏡文字で書いてしまう・そのような形で覚えてしまっている例がある。



言語

狭義には、人間のコミュニケーション、相互作用を統べる規則の内、声にまつわる部分、あるいはその声の代替としての文字表記などにまつわる部分を指す。手話、トーキングドラムなどの例においても、おおよそ声によるコミュニケーションと対応している。
厳密には、言語の定義には多くの困難が伴う。コミュニケーションの「規則」がどこかに明記されており人々がそれを参照しながらコミュニケーションが行われるわけではなく、実際人々が単一の規則に従っていないと考えさせる材料もある。方言のような地理的なバリエーション、新語の普及のような歴史的変化、言い間違いや言いかけに終わる発言など、文法として通常考えられる規則に反する発話などが、その例として考えられる。また、「声」を基礎とし、文字をその代替とする発想に対する批判を投げかける立場（『声と現象』）もある（言語哲学）。

<<以下、省略>>

関連記事