Отсканированные документы уже в течение достаточно долгого времени
можно увидеть в результатах поиска в Google. Однако до сих пор их поиск
выполнялся по метаданным, а не по содержимому.
Теперь же Google сообщила о внедрении новой OCR-технологии (Optical
Character Recognition), которая даст поисковой системе возможность
выполнять распознавание символов в отсканированных документах,
сохраненных в формате Adobe PDF. Иными словами, изображение будет
преобразовано в слова, которые будут вноситься в поисковую базу и по
которым будет выполняться поиск. Технология уже работает для запросов
на английском языке.
|