Wikipediaのデータファイルをプレーンテキストに変換する方法を備忘記録として記しておく。
Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。
Wikipedia日本語版のデータファイルは以下のサイトからダウンロードできる。
Wikipediaのデータファイルをプレーンテキストに変換するPythonプログラム「WikiExtractor」を以下のサイトからダウンロードする。
使い方は、適当なディレクトリを作成し、以下のコマンドでそのディレクトリに変換したプレーンテキストを保存する。プレーンテキストの容量はデフォルトでだいたい500KBごとに分割される。
mkdir extracted
bzip2 -dc jawiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -o extracted
作成されたディレクトリ構成や変換されたプレーンテキストは、以下のようになる。
ls extracted
AA AC AE AG AI AK AM AO AQ AS AU AW AY BA BC BE BG BI BK
AB AD AF AH AJ AL AN AP AR AT AV AX AZ BB BD BF BH BJ BL
ls extracted/AA
wiki_00 wiki_07 wiki_14 wiki_21 wiki_28 wiki_35 wiki_42 wiki_49 wiki_56 wiki_63 wiki_70 wiki_77 wiki_84 wiki_91 wiki_98
wiki_01 wiki_08 wiki_15 wiki_22 wiki_29 wiki_36 wiki_43 wiki_50 wiki_57 wiki_64 wiki_71 wiki_78 wiki_85 wiki_92 wiki_99
wiki_02 wiki_09 wiki_16 wiki_23 wiki_30 wiki_37 wiki_44 wiki_51 wiki_58 wiki_65 wiki_72 wiki_79 wiki_86 wiki_93
wiki_03 wiki_10 wiki_17 wiki_24 wiki_31 wiki_38 wiki_45 wiki_52 wiki_59 wiki_66 wiki_73 wiki_80 wiki_87 wiki_94
wiki_04 wiki_11 wiki_18 wiki_25 wiki_32 wiki_39 wiki_46 wiki_53 wiki_60 wiki_67 wiki_74 wiki_81 wiki_88 wiki_95
wiki_05 wiki_12 wiki_19 wiki_26 wiki_33 wiki_40 wiki_47 wiki_54 wiki_61 wiki_68 wiki_75 wiki_82 wiki_89 wiki_96
wiki_06 wiki_13 wiki_20 wiki_27 wiki_34 wiki_41 wiki_48 wiki_55 wiki_62 wiki_69 wiki_76 wiki_83 wiki_90 wiki_97
vim extraced/AA/wiki_00
アンパサンド
アンパサンド (, &) とは「…と…」を意味する記号である。英語の に相当するラテン語の の合字で、 (et cetera = and so forth)を と記述することがあるのはそのため。Trebuchet MSフォントでは、と表示され "et" の合字であることが容易にわかる。
__TOC__
その使用は1世紀に遡ることができ (1)、5世紀中葉 (2,3) から現代 (4-6) に至るまでの変遷がわかる。
Z に続くラテン文字アルファベットの27字目とされた時期もある。
記号名の「アンパサンド」は、ラテン語の「& はそれ自身 "and" を表す」 からきている。
また同様に、「t」または「+(プラス)」に輪を重ねたような、無声歯茎側面摩擦音を示す発音記号「」のようなものが使われることもある。
プログラミング言語では、C など多数の言語で AND 演算子として用いられる。以下は C の例。
BASIC 系列の言語では文字列の連結演算子として使用される。codice_4 は codice_5 を返す。また、主にマイクロソフト系では整数の十六進表記に codice_6 を用い、codice_7 (十進で15)のように表現する。
SGML、XML、HTMLでは、アンパサンドを使ってSGML実体を参照する。
なお、現象として、&を大文字のSの筆記体に近い鏡文字で書いてしまう・そのような形で覚えてしまっている例がある。
言語
狭義には、人間のコミュニケーション、相互作用を統べる規則の内、声にまつわる部分、あるいはその声の代替としての文字表記などにまつわる部分を指す。手話、トーキングドラムなどの例においても、おおよそ声によるコミュニケーションと対応している。
厳密には、言語の定義には多くの困難が伴う。コミュニケーションの「規則」がどこかに明記されており人々がそれを参照しながらコミュニケーションが行われるわけではなく、実際人々が単一の規則に従っていないと考えさせる材料もある。方言のような地理的なバリエーション、新語の普及のような歴史的変化、言い間違いや言いかけに終わる発言など、文法として通常考えられる規則に反する発話などが、その例として考えられる。また、「声」を基礎とし、文字をその代替とする発想に対する批判を投げかける立場(『声と現象』)もある(言語哲学)。
<<以下、省略>>
Wikipediaのデータファイルをプレーンテキストに変換する