校正は並列処理可能だ ("米国版青空文庫 - bookscanner記")

書籍の電子化は当然人の手で行われるわけではなく (そんなことしてたら永遠に終わらない)、OCR で行われるわけだけど、それには誤認識がつきもので、正確な電子化のためには校正も必要。そこで Distributed Proofreaders という団体が紹介される。
これは名前そのままの活動をしてる団体。あっちゃこっちゃにいる校正家たち と訳されてるけど、オープンソース・ソフトウェアの開発に関していわれる "Distributed Development" という言葉を思い浮かべる自分的には、もっと直訳ぽく "分散校正者集団" とかいうふうに読みたい。といっても、これはむりやりいってるわけでもなくて、これらはともにネットが出現させた巨大な人のプールが可能にしたものだから。Distributed Proofreaders はプロジェクト・グーテンベルクを支援する団体としてはじまったということだけど、思い出すのはむしろウィキペディアのこと。ウィキペディアの成功を考えれば、Distributed Proofreaders の活動が成功してるという話もすごく納得できる。
また、"伽藍とバザール" にある デバッグは並列処理可能だ という言葉は、ここで "校正は並列処理可能だ" という言葉に置き換えられる。ちなみにウィキペディアの場合は "百科事典の作成は並列処理可能だ" って感じか。なるほどなぁと感心した。