タイ語のOCR認識

タイ語のプリントをOCR認識させてテキストを抽出したい…というニーズがどの程度あるのかわかりませんが、実際にできるソフトを探してみるとタイ語対応のアプリが意外と少ないことに気づきました。

以前、タイ語書類を Acrobat reader でPDF化してテキスト抽出してみましたが、発音記号がうまく認識されずなんとも中途半端なものになってしまいました(今は違うかも)。

PCにソフトをインストールする手間を惜しまないのであれば、それなりにタイ語対応のソフトがあるようですが、実際の認識率がわからないものをそれなりの値段を出して購入するのはちょっと躊躇します。おまけに面倒くさがりの自分はPCあんまり使わないんですよね…。

ちょっとググってみると Google Drive → Google Docs でタイ語書類画像をテキストにする方法が見つかりましたが、この方法はコストはかかりませんが、PC経由なのでちょっとめんどうです。

で、試してみました Google 翻訳

へ? と思うかもしれませんが、以前タイ語にはなかった画像からのデータ読み込みができるようになっていたのに自分はようやく気づいたのです。

手順は、ホーム 翻訳表示エリアの左下のカメラ入力を押して、読み込み対象の写真をカメラ撮影あるいは写真から読み込む。認識後はテキストデータをコピペするだけ。PCいらずで簡単です。

肝心の認識率ですが、かなりおおざっぱ+異なる文章なので単純比較はできませんが

1. 標準的なタイ語フォント

元データ → 認識された文字
เป็นห่วงเรื่องนี้เลยโทรหาไงเป็นห่วงเรื่องนี้เลยโทรหาไง 100%

2. 特殊フォント

ผมจะปั้นต่อไปจนกว่าขาคู่นี้จะฉีกWมจะปั้นต่อไปจนกว่า-ขาคู่นี้จะยา 約80%

3. 手書きフォント(自分の手書き…はっきり言ってきたない笑)

ผนจะปั้นต่อไปจนกว่าขาคู่นี้จะฉีกผมฤชในต่อไปจนกว่าคนี้จะ 約60%

かなり大雑把ななんちゃって比較ですが、日本のタイ語テキストに使用されている標準的なフォントであれば問題なく使えそうです。

すごいぜ Google!

シェアしてね

フォローしてみない?