どうやって「ㇷ゚」などを入力しているのか

| コメント(0) | トラックバック(1)

先の記事に「ㇷ゚」などアイヌ語特有の片仮名を書きましたが、私のこのブログの入力環境では、こうした文字の入力には少々問題があります。

このブログの入力環境というのは、ブラウザはFirefoxで、アドオンのMozExを使って外部エディタとしてEmacs 22を呼び出してテキストエリアを編集するというものです。EmacsにはMule-UCSをインストールしています。

この環境では、JIS X 0213の文字を自在に入力することができます。Mule-UCSのJIS X 0213サポートのおかげです。Emacsのバッファ上での入力・編集だけなら何の問題もありません。過去の記事に第3・第4水準漢字や「゠」(ダブルハイフン)のような記号を書いているようにです。前にも書いたように、私はSKKを使ってこれらの文字を入力しています。

しかし問題になるのは、編集したテキストをFirefoxに渡すためにはバッファをUTF-8で保存する必要があることです。Mule-UCSでは、JIS X 0213の文字のうちUnicodeで表現する際に結合文字を使って二つの符号位置によって表す必要のある25文字は(例えば「ㇷ゚」)、Unicode系の符号化方式では正しく保存されないのです。EUC-JIS-2004のようなJIS X 0213の符号化方式なら問題ないのですが。

そこでどうすればいいかというと、仕方ないので結合文字はHTMLの文字参照で表すことにします。「ㇷ゚」ならば「ㇷ゚」のように書くのです。せっかくUTF-8を使っているのに文字参照を使うのは何だかなあという感じですが、致し方ありません。

文字参照で表すといっても、手で打つのは面倒ですから、これもSKKで変換してしまえ、ということになります。SKKの第3・第4水準漢字辞書では「ぷ」から「ㇷ゚」を入力できますが、それに加えて「ㇷ゚」という文字参照付きの表現も辞書に登録してしまうのです。「゚」というのが合成用の半濁点だと覚えておけば、格好は悪いですがともかく入力・編集することはできます。

ただし、SKKの辞書形式では「;」はアノテーションを示す区切り文字として意味を持っているので、ちょっと特別な書き方をしてやる必要があります。

下記に例を示します。私はこれをSKK-JISYO.ucscompという名前で保存して、SKKの辞書のひとつとして読み込ませています。

;; -*- mode: fundamental; coding: euc-jisx0213 -*-
;;
;; okuri-ari entries.
;; okuri-nasi entries.
nga /(concat "か&#x309A\073")/(concat "カ&#x309A\073")/
nge /(concat "け&#x309A\073")/(concat "ケ&#x309A\073")/
ngi /(concat "き&#x309A\073")/(concat "キ&#x309A\073")/
ngo /(concat "こ&#x309A\073")/(concat "コ&#x309A\073")/
ngu /(concat "く&#x309A\073")/(concat "ク&#x309A\073")/
が /(concat "か&#x309A\073")/(concat "カ&#x309A\073")/
ぎ /(concat "き&#x309A\073")/(concat "キ&#x309A\073")/
ぐ /(concat "く&#x309A\073")/(concat "ク&#x309A\073")/
げ /(concat "け&#x309A\073")/(concat "ケ&#x309A\073")/
ご /(concat "こ&#x309A\073")/(concat "コ&#x309A\073")/
せ /(concat "セ&#x309A\073")/
つ /(concat "ツ&#x309A\073")/
と /(concat "ト&#x309A\073")/
ぷ /(concat "ㇷ&#x309A\073")/

これによって、アイヌ語用に必要な文字と、鼻濁音用の半濁点付きカキクケコは、文字参照を使った表現が入力可能になります。ほかにも同種の措置の必要な文字が発音記号等にあるので、もうちょっと整備が必要かもしれません。

と、ここまで書いて気付いたのですが、環境によっては「ㇷ゚」などが正しく見えていないと思います。JIS X 0213対応のフォントを使って、新しめのブラウザを使えば表示できると思いますから、「ㇷ゚」が小書きのプに見えていない方はこの機会に環境をアップグレードされることをおすすめします。

トラックバック(1)

トラックバックURL: http://yanok.net/yanok/mt-tb.cgi/22

配布物の一環として、「JIS X 0213の文字のUnicode合成表現のための... 続きを読む

コメントする

最近のブログ記事

ゲッティと英語と日本語
私は1年ちょっと前くらいから、自分で撮っ…
ウソに戸惑う
JIS X 0213の追補1:2004で…
第3第4水準辞書を使おう!
いまだに、広く使われている日本語入力環境…
文字コードを知るための本棚
当サイトのメモのセクションに「文字コード…
今年もやります
震災被災地支援プログラム2012を実施し…