2008年11月7日 星期五

Google News:Google 為 PDF 文件搜尋加入 OCR 技術



Google 上周四(10/30)宣布利用光學字型辨識技術 ( Optical Character Recognition,OCR )開始支援 PDF 文件的內容搜尋。

PDF 文件的內容搜尋?這個部份,不是單純搜尋 PDF 檔案而已,而是利用 OCR 的技術,把原本圖像的文字,轉化為數位的文字,以利 Google 搜尋辨識其中的內文,我想,Google 的搜尋技術一直再翻新,無非是希望給大家更美好的搜尋結果,這一點,無庸置疑。

大前研一說:「從Google與Yahoo!亦步亦趨的「貼身肉搏戰」,到微軟(Microsoft)一心想收購Yahoo!的「所有權攻防戰」,未來的世界將是「情資戰爭」;也就是說,凡是掌握到最多情資的企業,就能從網路世界中勝出。」

Google 的搜尋技術屢屢創新,似乎與大前研一的說法,不謀而合。

另外,我想跟大家分享一下 OCR 的了解,一般來說,圖片式的文件,裡面通常會有一些文字或表格,這時候,如果你不想慢慢 Key 資料的話,你可以用一個叫「JOCR」的軟體,來試試看,而且,這是免費的!請注意,欲正常使用 JOCR,必須先安裝 Microsoft Office 2003,且必須安裝 Microsoft Office 2003 裡的 Micorosoft Office Document Imaging(MODI)方能正確辨視且使用。

如果,你覺得不花錢不開心的話,你也可以用另一個叫「PDF2XL OCR」的軟體,這個似乎功能也很強喔!PDF2XL OCR 是專為 Excel 使用者所設計的,並且是非常容易使用的,有需要進一步了解的,可以自己去試試看!


請見我今天為大家轉載的新聞片段:轉載並感謝:iThome online 編譯/陳曉莉


Google 上周四(10/30)宣布利用光學字型辨識技術( Optical Character Recognition,OCR )開始支援 PDF 文件的內容搜尋。

Google 產品經理 Evin Levey 表示,官方的政府報告或是學術文件通常內含文字圖像而非文字,由於 Google 很難確定這些掃描而來的檔案內容,因此很少出現在搜尋結果中,使用者也許只能找到標題,但看不到內容。而現在 Google 採用 OCR 技術,將 PDF 格式的文字圖像轉為數位文字,以供使用者搜尋。

Levey 說,掃描與列印剛好相反,列印是將數位文字轉為在紙上的文字,而掃描則是將紙上的文字變成數位圖像,隨後 Google 再利用 OCR 技術將含有文字的圖像轉為真正的數位文字。

當使用者搜尋到原本是 PDF 格式的內容時,可以看到它原本的檔案格式是 PDF ,但得以利用 HTML模式瀏覽,這是因為 Google 已利用 OCR 技術將這些以圖像方式儲存的內容轉為數位文字並加以索引,供使用者搜尋及檢視內容。


沒有留言:

張貼留言