Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。
Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。

Wikipediaのデータファイルをプレーンテキストに変換するPythonプログラム「WikiExtractor」を以下のサイトからダウンロードする。

使い方は、適当なディレクトリを作成し、以下のコマンドでそのディレクトリに変換したプレーンテキストを保存する。プレーンテキストの容量はデフォルトでだいたい500KBごとに分割される。


$ mkdir extracted
$ bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -o extracted

作成されたディレクトリ構成や変換されたプレーンテキストは、以下のようになる。


$ ls extracted
AA  AC  AE  AG  AI  AK  AM  AO  AQ  AS  AU  AW  AY  BA  BC  BE  BG  BI  BK
AB  AD  AF  AH  AJ  AL  AN  AP  AR  AT  AV  AX  AZ  BB  BD  BF  BH  BJ  BL

$ ls extracted/AA
wiki_00  wiki_07  wiki_14  wiki_21  wiki_28  wiki_35  wiki_42  wiki_49  wiki_56  wiki_63  wiki_70  wiki_77  wiki_84  wiki_91  wiki_98
wiki_01  wiki_08  wiki_15  wiki_22  wiki_29  wiki_36  wiki_43  wiki_50  wiki_57  wiki_64  wiki_71  wiki_78  wiki_85  wiki_92  wiki_99
wiki_02  wiki_09  wiki_16  wiki_23  wiki_30  wiki_37  wiki_44  wiki_51  wiki_58  wiki_65  wiki_72  wiki_79  wiki_86  wiki_93
wiki_03  wiki_10  wiki_17  wiki_24  wiki_31  wiki_38  wiki_45  wiki_52  wiki_59  wiki_66  wiki_73  wiki_80  wiki_87  wiki_94
wiki_04  wiki_11  wiki_18  wiki_25  wiki_32  wiki_39  wiki_46  wiki_53  wiki_60  wiki_67  wiki_74  wiki_81  wiki_88  wiki_95
wiki_05  wiki_12  wiki_19  wiki_26  wiki_33  wiki_40  wiki_47  wiki_54  wiki_61  wiki_68  wiki_75  wiki_82  wiki_89  wiki_96
wiki_06  wiki_13  wiki_20  wiki_27  wiki_34  wiki_41  wiki_48  wiki_55  wiki_62  wiki_69  wiki_76  wiki_83  wiki_90  wiki_97

$ vim extraced/AA/wiki_00

アンパサンド

アンパサンド (, &) とは「…と…」を意味する記号である。英語の に相当するラテン語の の合字で、 (et cetera = and so forth)を と記述することがあるのはそのため。Trebuchet MSフォントでは、と表示され "et" の合字であることが容易にわかる。
__TOC__
その使用は1世紀に遡ることができ (1)、5世紀中葉 (2,3) から現代 (4-6) に至るまでの変遷がわかる。
Z に続くラテン文字アルファベットの27字目とされた時期もある。
記号名の「アンパサンド」は、ラテン語の「& はそれ自身 "and" を表す」 からきている。
また同様に、「t」または「+(プラス)」に輪を重ねたような、無声歯茎側面摩擦音を示す発音記号「」のようなものが使われることもある。
プログラミング言語では、C など多数の言語で AND 演算子として用いられる。以下は C の例。
BASIC 系列の言語では文字列の連結演算子として使用される。codice_4 は codice_5 を返す。また、主にマイクロソフト系では整数の十六進表記に codice_6 を用い、codice_7 (十進で15)のように表現する。
SGML、XML、HTMLでは、アンパサンドを使ってSGML実体を参照する。
なお、現象として、&を大文字のSの筆記体に近い鏡文字で書いてしまう・そのような形で覚えてしまっている例がある。



言語

狭義には、人間のコミュニケーション、相互作用を統べる規則の内、声にまつわる部分、あるいはその声の代替としての文字表記などにまつわる部分を指す。手話、トーキングドラムなどの例においても、おおよそ声によるコミュニケーションと対応している。
厳密には、言語の定義には多くの困難が伴う。コミュニケーションの「規則」がどこかに明記されており人々がそれを参照しながらコミュニケーションが行われるわけではなく、実際人々が単一の規則に従っていないと考えさせる材料もある。方言のような地理的なバリエーション、新語の普及のような歴史的変化、言い間違いや言いかけに終わる発言など、文法として通常考えられる規則に反する発話などが、その例として考えられる。また、「声」を基礎とし、文字をその代替とする発想に対する批判を投げかける立場(『声と現象』)もある(言語哲学)。

<<以下、省略>>

関連する記事

  • 地図で見る石川県金沢市の人口 2014年1月地図で見る石川県金沢市の人口 2014年1月 金沢市役所が公開している平成26年1月の住民基本台帳人口と総務省統計局が公開している地図データを基に人口、人口密度、世帯数、未成年・高齢者の年齢別などの数値および前年同月からの増減率を地図上に色分けして視覚化したものと上位・下位のランキングをご紹介する。 人口、世帯数などのデータを活用しようと考えた場合、まずは国勢調査を思いつくが、国勢調査は5年ごとに行われており、最近 […]
  • R言語 CRAN Task View:確率分布R言語 CRAN Task View:確率分布 CRAN Task View: Probability Distributionsの英語での説明文をGoogle翻訳を使用させていただき機械的に翻訳したものを掲載しました。 Maintainer: Christophe Dutang, Patrice Kiener Contact: Christophe.Dutang at […]
  • これだけは抑えておきたい成長性分析の基本これだけは抑えておきたい成長性分析の基本 成長性分析とは、様々な観点から成長性・拡大性・発展性を測定する分析である。 規模拡大などの経営戦略がいつも経営者の思い描く通りに進むとは限らないため、様々な観点から自社および自社を取り巻く環境の状況を把握する必要がある。 ここでは、成長性分析の代表的な指標をいくつか紹介する。 売上高伸び率 売上高伸び率とは、前期売上高より当期売上高がどの程度上昇または下降したかを […]
  • R実装と解説 母平均の検定(母分散未知) [latexpage] 母分散が未知の場合の母平均の検定とは、母集団が正規分布に従い、母分散が未知のときに母平均が標本平均と「異なる」または「大きい」、「小さい」かどうかを、検定統計量がt分布に従うことを利用して検定します。 統計的検定の流れ 検定の大まかな流れを確認しておきます。 帰無仮説H0と対立仮設H1をたてます […]
  • R スティール(Steel)法R スティール(Steel)法 スティール(Steel)法とは、ダネット(Dunnett)法の多重比較に対応するノンパラメトリックな多重比較である。 スティール法を簡単に言うと、正規分布を仮定しない1つの対照群と2つ以上の処理群間を順位を用いて多重比較で調べる方法である。 Rで、スティール法を使う場合は、「スティール(Steel)の方法による多重比較」のページにソースコードが紹介されている。 […]
Wikipediaのデータファイルをプレーンテキストに変換する