人気ブログランキング |

たこぶ・ろぐ-日本一お気楽な48歳-

tacobu.exblog.jp
ブログトップ
2008年 02月 03日

分かりにくい間違い

珍しく仕事の話です。
仕事で、生物の分類をしています。といっても、実際に草や虫を目の前にして、何科の何種、というふうにしているのではなく、文献とか資料とか実際の調査結果とかのつき合わせみたいなことをしてるんですね。実際の調査で見つかった草や虫が、どの文献に載ってるか、あるいは載っていないか。最近なにかと話題になっている「絶滅危惧」とかを調べているわけ。

で、その作業は主にパソコン上で、エクセルで突き合わせするわけですな。それが簡単だから。
しかし。
昨日はまいりました(_◎_)。
文献のひとつが、どうやら紙のデータをスキャナーで読み込んで、文字変換させるっていう、ええと「OCR」とかいうんですか、そういうので資料をいただいたわけですよ。
これってねえ、しょっちゅう「読み間違い」をするんですね。だから、名前が一致しない。(基本的に、生物の名前はカタカナで表記することになっています。だからカタカナで一致しないとダメなわけ)
「マンネングサ」が「マンネンゲサ」とか「マンネンダサ」になってたり。
「ゲンジボタル」が「ゲンジポタル」になってたり(パッと見て違いが分からないあなた、文字を4倍ぐらいに拡大してみてください)
極め付けは「ミヤマハコベ」が「ミヤマハコべ」に。
えっ? どこが違うの? なんでこれが一致しないの?
10倍ぐらいに拡大して、ようやく分かりました。
はい、あとのほうは「べ」がひらがななんですね(^◎^;)

ま、ひらがなの「べ」を検索して、ことなきを得ましたが。OCRはあんまり信用ならんなあ,という話でした。

by tacobu | 2008-02-03 00:04 | コンピュータ


<< 【ソラリス】スタニスワフ・レム...      【シューベルト:交響曲第9番「... >>