[藤棚ONLINE]共通教育センター・鳩貝耕一先生コラム『文字萌え』

図書館報『藤棚ONLINE』
共通教育センター・鳩貝耕一先生コラム『文字萌え』

 ピコ太郎さんのPPAPが流行りだしたのが2016年で、今でも私は一人カラオケで歌ったりします(笑)。ところが、最近になって撲滅しなければならないとされる新PPAPが登場しました。詳細については触れませんが、「Password付きZIPファイルを送ります、Passwordを送ります、Aん号化(暗号化)、Protocol(プロトコル)」と、ダジャレもさることながら、最後の「protocolって何だ?」ということになってしまいます。
 一般的には、テレビのニュースで時々見かける、外相どうしがサインしあって交換する書面(議定書)のことです。情報科学の分野では、コンピュータどうしの通信における、やりとりに関する取り決め(通信規約)を指します。みなさんが普段からとどこおりなくメールしたり、ホームページ(Webページ)をブラウズできたりするのも、このprotocolが「標準化」されているおかげなのです。ただ、それだけでは文字化けする可能性があり、文字コードの標準化も必要です。文章の1文字には1つの数が割り当てられており、これを「文字コード」と呼んでいます。
 ネジの規格を始めとして標準化には様々な分野がありますが、1990年ごろに行われていた標準化活動の一つとして全世界の文字を表すことのできる文字コードであるUnicodeがあります。当初は32ビット(4バイト)文字コードを日本の代表者が強く推していたにもかかわらず、突如「Unicodeという全世界の文字を表すことができる16ビット(2バイト)文字コードを策定しました」のような高圧的な文字コードの決め打ちがありました。どうやら、以前、私が追っかけをしていたのはUnicodeではなく、ISO/IEC 10646という別の標準化活動だったようです(この二つは、後に統合されますが)。Unicodeが出てきた当時のいきさつに不信をいだきつつ、今日まで悶々と過ごしてきた私がここにいます(大げさ)。
 最近になって、これではいけないと思い立ち、当時の経緯を確認するため、様々な参考資料を集めだしました。私も(別の標準化活動の)経験者の一人ではありますが、標準化の舞台は常にドロドロとした世界であり、『ユニコード戦記』(小林 2011)にはUnicode 2.0の頃の舞台裏が描かれています。この本を紹介したところで、みなさんにとってはどうでも良い話しか載っていませんので、『世界の文字と記号の大図鑑 ― Unicode 6.0の全グリフ』(ベルガーハウゼン他 2014)を紹介することにします。

 私は幼いころから「百科事典萌え」していまして、必要に迫られて解説を探すのではなく、百科事典を適当にパラパラとめくりながら妄想の世界にひたるのが好きでした(笑)。この大図鑑では「文字萌え」、すなわち世界の文字をながめながら妄想にひたることができます。「好萌啊!(Hǎo méng a)」といったあたりでしょうか。
 それでは、Unicodeの表現の豊かさについて見ていきましょう。実は、このブログ自身もUnicode(UTF-8)で書かれています。
 『ユニコード戦記』では、フランス語のセディーユ(cédille)のことがセディラと書かれています。コムサ・デ・モード (COMME ÇA DU MODE)のÇに付いている発音区別符号のことです。「著者はフランス語のこと知ってるの?」と一瞬疑いましたが、英語の辞書をひいてみると、英語ではセディラ(cedilla)と呼ぶことがすぐに分かりました。標準化会議で用いられる言語は、ほぼ100%が英語です。よって、この本でも英語読みで書かれているということが分かりました。老舗ベーカリーのKÖLN[kœln]など、ドイツ語のウムラウトや音声記号も問題なく表示できます。これらの文字は、「ラテン文字」としてUnicodeの最初のほうに格納されています。
 Unicodeの標準化においては、後々まで批判の対象となったUnicode 2.0での「ハングルの大移動」問題があります。ハングル文字は、公布された当時は訓民正音 (훈민정음)と呼ばれていました。初声(초성)、中声(중성)、終声(받침)に表音文字の字母を1つ以上割り当てて音節(조합)文字を作ります。Unicode 1.1と2.0の間の非互換、大移動の意味は、組合わせた結果の6,656文字が11,172文字に増えてしまった結果、もとの(文字コードの)場所には収まりきらず、別の場所に移動せざるを得なくなってしまったことが原因です。
 上記のように、Unicodeでは様々な国の文字を同時に表示することができます。16ビット(65,536文字)ごとに面(plane)という単位で区切られています。一般的に使用されているのはBMP(Basic Multilingual Plane)と呼ばれており、BMPは面00です。
 以下の括弧内の文字の例はWindows 10以外では表示されない可能性がありますが、面01には、学術的に価値のある言語の文字、たとえばエジプトのヒエログリフ(𓋹𓁾𓅂𓅢𓁢)、メソポタミア文明の楔形文字など、あるいは変体仮名(そば屋の看板文字など)、麻雀牌やトランプ(🀀🂓🂡)、絵文字(👽😁🐵🐶🚿🚽🛀)などが格納されています。面02には、今日では使われなくなった漢字(𩾛𤯔𡆠𪚥)が格納されています。
 普段、私もかな漢字変換で出てくる文字しか使用していませんが、上記のようにUnicodeを使用すると多彩な文字表現ができますので、知っておいて損はないです。

書誌情報
トニー・グラハム,『Unicode標準入門』,翔泳社,2001
・小林龍生,『ユニコード戦記 文字符号の国際標準化バトル』,東京電機大学出版局,2011
ヨハネス・ベルガーハウゼン,シリ・ポアランガン,『世界の文字と記号の大図鑑 ― Unicode 6.0の全グリフ』,研究社,2014