
Роботам по поиску частенько приходится сталкиваться с PDF-файлами, презентациями и электронными таблицами. Каким же образом происходит индексирование подобных страниц, Google рассказывает в своем блоге.
Как оказалось, поисковая система имеет возможность индексировать текст из документов PDF, который написан на любом из языков. Основное чтобы файл не имел шифровки и не был защищен при помощи пароля. Гугл может извлечь тексты при помощи OCR алгоритмов, даже если его представили как изображение. Картинки в PDF-файлах не индексируют. По поводу ссылок, в PDF документах их обработка происходит также как по ссылкам в HTML.
HTML-файлы не имеют приоритета при ранжировании. PDF может занять высокое позиционирование в итогах поиска. Для этого необходим контент высокого качества и также ссылки с остальных ресурсов. Если же владельцы порталов или вебмастера не желают, чтобы PDF файлы были в итогах поиска, Гугл дает рекомендации применять X-Robots-Tag: noindex в заголовках HTTP. Так что, теперь при желании можно создать блог состоящий из одних только pdf файлов и он будет прекрасно ранжироваться!
Для того чтобы отобразить заголовок в выдаче применяются метаданные title в файле и тексты анкоров со ссылок, которые указывают на PDF. Так что для того, чтобы алгоритмам дать сигнал про правильное название, рекомендуют обновлять две этих детали.