青空文庫 PDF 化
青空文庫というプロジェクトがある。著作権切れ(一部著作権の切れていないものも含む)の文学作品を電子化・蓄積・公開する、というものだけど、ここでは電子化した文書を plain text と XHTML document というかたちで公開している。僕等がこの手の文章を読んだり使ったりする際には、たとえば PDF であると都合がいいのだけど、いきなり PDF で公開する、というのは、たしかにいささか能率が悪いと思う。
僕の場合は TeX を使うので、たとえばこんな風(gon.pdf)に PDF 化が容易(でもないかな……でもまあ、この程度には)にできる。今度、『ごん狐』はちょっと使う用事があるのでこんなものを作成したけれど、自動的に TeX document に変換するような方法は、ちょっと頭が回ればできないこともない。実際、齋藤修三郎氏が公開されているコンテンツ『青空文庫を読もう!』のアーカイブを使えば、pLaTeX と ruby でこの変換を実現することができる。
ただし、元となる青空文庫の document 仕様には、実は致命的な問題がひとつある。ルビの分かち書き、という概念が入っていないのだ。
どういうことかを具体的に示そう。ルビ(いわゆる「振り仮名」)というのは、特に戦前の文章を読む場合には非常に重要なものなわけだけど、青空文庫では、このルビを表示するのに、《》でルビを囲んで表示している。青空文庫でルビを用いている文書に必ず添付される例で示すと、
(例)私《わたし》のように表示しているわけだ。この例のような場合はこれでよろしい。しかし、今回の『ごん狐』の場合で一例を挙げるなら、
火縄銃《ひなわじゅう》のような場合はどうするのか、ということである。
何が問題なのか?と問われそうだけど、「火縄銃」に「ひなわじゅう」とルビをふる場合は、実際には「火」に「ひ」、「縄」に「なわ」、「銃」に「じゅう」とルビをふるのが適切なわけだ。だから、このような場合には、
火《ひ》縄《なわ》銃《じゅう》と、ルビを各々の漢字との対応関係が明示されるように「分かち書き」しなければならないのだ。誤解なきように強調しておくけれど、本来の書籍における組版では、このように分かち書きされた状態でルビが付いているものである。「いやーその二つって実際に差があるの?とか言われそうなので、以下に二者の相違を示す:
ではなぜ、青空文庫ではそのようにしていないのか。これは容易に想像がつくのだけど、テキストをそのまま人間が読むときに、このような表記が煩雑で読みづらくなるからこうしましょう、と「安易に」決めてしまったのだろう。しかし、文学作品を電子化する旨味というものを考えると、電子書籍としての利用や全文検索だけでなく、いわゆるタイプセッティングシステムの俎上に、このような文書を容易に載せることができる、ということは決して無視できない。
テキストを人が眺めることしか考えずに、本来の組版において込められていたルビの「分かち書き」に関する情報を、青空文庫ではそぎ落としてしまっている。これは、後で人がいちいちチェックするか、分かち書きを失敗することを覚悟した上で、辞書を用いたシステムで改めて分かち書きを行う、という作業を経なければ、本来の組版が持っていた情報を回復できないことを意味している。
これ以外にも、青空文庫に関しては、その運営が独善的である、等の批判がある。文書を資源化するということは、大きな恩恵が得られる行為なのだから、どうかその本道をちゃんと考えていただきたいものだ。そして、自分が見るもの、見ること、見る方法だけで、世界が成り立っているわけではない、という謙譲の意志を、どうかちゃんと持っていただきたいものなのだが。
Re:青空文庫 PDF 化
>分かち書きされたものを統合するのは機械処理でどうとでもなります私がここで述べている全文検索というのは、作品個々に対しての検索ではなく、青空文庫の全作品に対し、ネット上から全文検索をかけることを指します。
現在、青空文庫に登録されたすべてのテキストは、googleなどの検索サイトを利用し、すべての作品に対し全文検索をかけることができます。
たとえば、 「火縄銃」 をキーワードに、google から青空文庫全作品に全文検索をかける方法は次のとおりです。
火縄銃 site:aozora.gr.jp
実際に検索をかけてみたところ、 『ごん狐』 以外にも9作品がヒットしました。
( 『大菩薩峠』 の火縄銃《ひなわづつ》というルビは興味深いですね)
一方、ルビの分かち書きは 「機械処理でどうとでもなる」 というお話ですが、 「火《ひ》縄《なわ》銃《じゅう》」 というルビの振り方を採用した場合、 google のこうした利便性は、そのまま維持できるということでしょうか?
そちらでどういった機械処理の方法を考えられているのか、具体的な説明がないため、これ以上の話はできませんが。
ルビの分かち書きについては、 「活版印刷における慣習」 という面はこちらでも理解できます。
一方、子供たちへの学習効果や、著者の意向という面については、そちらのご説明では疑問が残りました。
そもそも、ルビの分かち書きに関しては、原本の情報が失われているわけではありません。
この点は重要なことです。
実際、100円ショップのダイソーで販売されている 『ダイソー文学シリーズ』 では、青空文庫のテキストデータを利用していますが、通常の書籍と同様ルビの分かち書きは行われています。
(興味深いことに、ルビの拗音・促音は小書きされています)
また、 「印刷における慣習」 ということを考えれば、たとえ著者や青空文庫がルビを分かち書きしていなくても、印刷に出せば印刷業者が 「慣習として」 ルビを分かち書きをするのが普通でしょう。
子供たちへの教育的配慮に関しても、子供たちと向き合う大人たちの責任で行うべき問題です。
テキストの選定や印刷、場合によっては、学習効果を高めるための加工なども必要かも知れません。
子供たちのために手間ひまを割く気持ちさえあれば、ルビの分かち書きまでふくめ、印刷業者でなくてもできることです。
結局は、そういった作業のコストを、青空文庫が負担するのか、利用者側が負担するのかという違いでしかありません。
青空文庫側で対応した方が、社会全体のコストは下がるという発想もあるかも知れませんが、それはルビの分かち書きを利用したいという人がどの程度いるのかにもよるでしょう。
あとは、冒頭でも指摘したよう、ルビの修正により、現在活用している利便性が失われないかどうかも大きな問題です。