【關鍵行銷】: Google News：Google 為 PDF 文件搜尋加入 OCR 技術

Google 上周四（10/30）宣布利用光學字型辨識技術　( Optical Character Recognition，OCR )開始支援 PDF 文件的內容搜尋。

PDF 文件的內容搜尋？這個部份，不是單純搜尋 PDF 檔案而已，而是利用 OCR 的技術，把原本圖像的文字，轉化為數位的文字，以利 Google 搜尋辨識其中的內文，我想，Google 的搜尋技術一直再翻新，無非是希望給大家更美好的搜尋結果，這一點，無庸置疑。

大前研一說：「從Google與Yahoo!亦步亦趨的「貼身肉搏戰」，到微軟（Microsoft）一心想收購Yahoo!的「所有權攻防戰」，未來的世界將是「情資戰爭」；也就是說，凡是掌握到最多情資的企業，就能從網路世界中勝出。」

Google 的搜尋技術屢屢創新，似乎與大前研一的說法，不謀而合。

另外，我想跟大家分享一下 OCR 的了解，一般來說，圖片式的文件，裡面通常會有一些文字或表格，這時候，如果你不想慢慢 Key 資料的話，你可以用一個叫「JOCR」的軟體，來試試看，而且，這是免費的！請注意，欲正常使用 JOCR，必須先安裝 Microsoft Office 2003，且必須安裝 Microsoft Office 2003 裡的 Micorosoft Office Document Imaging（MODI）方能正確辨視且使用。

如果，你覺得不花錢不開心的話，你也可以用另一個叫「PDF2XL OCR」的軟體，這個似乎功能也很強喔！PDF2XL OCR 是專為 Excel 使用者所設計的，並且是非常容易使用的，有需要進一步了解的，可以自己去試試看！

請見我今天為大家轉載的新聞片段：轉載並感謝：iThome online 編譯/陳曉莉

Google 上周四（10/30）宣布利用光學字型辨識技術（ Optical Character Recognition，OCR ）開始支援 PDF 文件的內容搜尋。

Google 產品經理 Evin Levey 表示，官方的政府報告或是學術文件通常內含文字圖像而非文字，由於 Google 很難確定這些掃描而來的檔案內容，因此很少出現在搜尋結果中，使用者也許只能找到標題，但看不到內容。而現在 Google 採用 OCR 技術，將 PDF 格式的文字圖像轉為數位文字，以供使用者搜尋。

Levey 說，掃描與列印剛好相反，列印是將數位文字轉為在紙上的文字，而掃描則是將紙上的文字變成數位圖像，隨後 Google 再利用 OCR 技術將含有文字的圖像轉為真正的數位文字。

當使用者搜尋到原本是 PDF 格式的內容時，可以看到它原本的檔案格式是 PDF ，但得以利用 HTML模式瀏覽，這是因為 Google 已利用 OCR 技術將這些以圖像方式儲存的內容轉為數位文字並加以索引，供使用者搜尋及檢視內容。

【關鍵行銷】

2008年11月7日星期五

Google News：Google 為 PDF 文件搜尋加入 OCR 技術

沒有留言:

張貼留言

2008年11月7日 星期五

Google News：Google 為 PDF 文件搜尋加入 OCR 技術

沒有留言:

張貼留言

2008年11月7日星期五