2011/10/20

google doc的掃描辨識功能

今天同事跟我說,google可以把掃瞄好的英文圖檔放上去翻譯,讓我感到有點疑惑,什麼時候這麼厲害了?後來研究之下,不是一口氣就可以搞定,而是跟以前掃瞄辨識的流程有些重疊,首先得把把要scan的文件掃成圖檔,如果沒的選黑白掃瞄模式(非灰階),就得手動用軟體把圖片轉成純黑白,接著在上傳到google doc之前,要先把設定修改一下,把Convert Text from upload PDF & Images打勾(從已上載的PDF或圖片轉換文字),接著把圖片上傳,然後會問你要辨識的語言是什麼,目前還沒有繁體中文這個選項,我也還沒試過,english倒是ok,建議不要一次給很多頁的PDF比較保險,上傳到98%左右會突然停頓,這就是google在進行辨識,辨識完成後開啟這個圖片,上方就是浮動的圖片檔,下方則是google辨識好的文字,如果沒什麼錯的話,把這些字貼到 google 翻譯一下就可以了,如果錯誤很多,那就貼到word讓字典檢查一下,把錯的字更正再來翻譯就好了。另外今天嘗試之下,發現跟以前辨識的一些癥結一樣,首先來源檔要夠乾淨,掃瞄影印的文件錯誤率會提昇。另外就是解析度要夠高,我用150不太夠,300就ok了。
我在猜google圖書應該也是用同樣的系統,只是他把這部份放出來給人使用。

如果有相關需求,又懶得灌辨識軟體或是買掃瞄筆,其實可以參考一下。

沒有留言:

張貼留言