漢字文化圏のためのわかりやすい桁区切り

万進法プロジェクト

東アジアの言語は万単位で数を数えます。
桁区切りも、そうあるべきです。

この数を日本語で読んでみてください
1,234,567,890 12_3456_7890

ずれ

アラビア数字を書くとき、私たちは3桁ごとにカンマを打つ方式に慣れています。1,000,000,000。しかしこの数を日本語で読むと「十億」です。カンマが3つあるのに、日本語話者が実際に数を区切って読む単位は4桁です。億、万、そして一の位。

3桁区切りは千進法、つまり千を基準に数をまとめる英米圏の方式です。日本語、中国語、韓国語は万進法を使います。万単位で区切るのです。この不一致のせいで、アラビア数字で大きな数を見るたびに、頭の中で換算する手間が生じます。

日本語で読むと

十二億三千四百五十六万七千八百九十

並べて見る

好きな数を入力してください。同じ数字列が3桁カンマと4桁アンダースコアでどう異なって区切られるか、そして実際の日本語読みとどちらが一致するかを確かめられます。

数を入力すると比較が表示されます。

  • 3桁区切り 1,234,567,890
  • 万単位区切り 12_3456_7890
  • 日本語の読み 12億3456万7890

提案

万単位の区切り記号としてアンダースコア(_)を使います。

アンダースコアはASCIIの範囲内にあり、どのキーボードからでも直接入力できます。カンマと視覚的に十分区別でき、数値の文脈で他の意味を持ちません。Python、Rustなど多くのプログラミング言語がすでに数値リテラルの区切り記号としてアンダースコアを採用しており、ソフトウェアの世界でも馴染みのある表記です。

現行

1,234,567,890

提案

12_3456_7890

千単位カンマとの併用

アンダースコアが万単位、カンマが千単位を表し、二つの体系が階層的に共存できます。国際的な文書や混用が必要な文脈で便利です。

併用 1,2_34,56_7,890

なぜ4桁カンマではないのか

最も単純な代替案は、カンマを4桁ごとに打つことです。しかしカンマはすでに3桁区切り記号として世界中に定着しています。ソフトウェア、金融システム、国際標準がすべてこれを前提に動作しており、3桁カンマに慣れた読者には4桁カンマがかえって誤読を招きます。

記号を変えるのではなく追加することで、既存の表記と衝突せずに万進法の読みやすさを得ることができます。

他の候補

アンダースコアに至るまで、いくつかの記号を検討しました。

  1. 中点

    · U+00B7

    東アジアの活字文化で親しまれており、カンマと視覚的によく区別されます。しかしほとんどのキーボードで直接入力できないため、日常的な使用に障壁があります。

  2. 狭いスペース

    U+2009

    ISO 80000-1が桁区切り記号として推奨しており、標準に沿っています。しかし通常のスペースと目視で区別できず、テキスト処理ツールの扱いも一定しません。

  3. アポストロフィ

    ' U+0027

    ASCIIの範囲内にあり、入力しやすいのですが、スイスではすでに3桁区切り記号として使われており、混同の余地があります。より決定的な問題は、Microsoft Word、Google Docs、モバイルキーボードなど多くのソフトウェアが、アポストロフィを曲線引用符に自動変換してしまうことです。

  4. 通常のスペース

    U+0020

    最も入力しやすいのですが、数を別々のトークンに分割してしまいます。検索、コピー&ペースト、データの解析で問題が生じますし、数の途中で改行が入ることもあります。

使い始めるには

文章を書く上では、今すぐ使えます。アンダースコアキーを押すだけです。

ソフトウェアやデータの世界では、まだこの表記を自動的に処理する標準はありません。解析の前にアンダースコアを取り除く正規化のステップが必要になります。