PDF в DWG стал быстрее: обновление обработки в GISFlow

Мы ускорили обработку «PDF в DWG» сразу в двух направлениях: теперь сервис быстрее работает с PDF, где уже есть текст, и быстрее распознаёт сканированные документы.

Это обновление особенно полезно для выписок ЕГРН, документов с координатами, экспортов из AutoCAD/QGIS и других PDF-файлов, которые часто используются в кадастровых и геодезических задачах.

PDF с текстовым слоем теперь обрабатываются за секунды

Многие PDF-документы — это не просто картинка. В них уже есть текстовый слой.

Проще говоря, если в PDF можно выделить строку мышкой, скопировать её и вставить в Excel — значит, внутри файла уже есть текст.

Раньше GISFlow не разделял такие PDF и обычные сканы. Все документы проходили через OCR — распознавание изображения. Это занимало больше времени: иногда несколько минут на одну выписку.

Теперь сервис сначала проверяет, можно ли прочитать текст напрямую. Если PDF содержит текстовый слой, обработка проходит намного быстрее: 5-страничная выписка может обработаться за 3–5 секунд вместо 3–5 минут.

Если текстового слоя нет и файл является сканом или фотографией, GISFlow автоматически переключается на OCR. Пользователю ничего выбирать вручную не нужно.

Как понять, что ваш PDF обработается быстро

Откройте PDF-файл и попробуйте выделить мышкой строку с координатами.

Если текст выделяется и копируется — это PDF с текстовым слоем. Такой файл будет обработан максимально быстро.
Если выделить текст нельзя — скорее всего, это скан. В этом случае сервис будет использовать OCR.

OCR тоже стал быстрее

Для сканированных документов OCR по-прежнему нужен. Например, если у вас бумажная выписка, которую отсканировали или сфотографировали.

Но теперь OCR работает быстрее: страницы обрабатываются параллельно в 4 потока. Раньше страницы шли по очереди — теперь несколько страниц могут распознаваться одновременно.

Например, документ на 5–6 страниц теперь распознаётся примерно за минуту вместо четырёх.

Что нужно сделать пользователю

Ничего сложного. Просто загружайте PDF как раньше — GISFlow сам определит, какой путь использовать:

если в PDF есть текст — прочитает его напрямую;
если это скан — запустит OCR.

Как ещё ускорить обработку

Если у вас многостраничный PDF, а координаты находятся только на нескольких страницах, укажите нужные страницы в форме обработки. Например: 1-3,5.

Так сервис не будет тратить время на страницы, где нет нужных данных.

Совет для работы с выписками ЕГРН

Если есть возможность, используйте электронные выписки ЕГРН с электронной подписью. Обычно такие файлы содержат текстовый слой, поэтому:

обрабатываются быстрее;
читаются точнее;
дают меньше ошибок при распознавании;
лучше подходят для автоматической обработки.

Сканированные документы тоже поддерживаются, но в них выше риск ошибок: плохое качество скана, перекос, размытость или слабый контраст могут повлиять на результат.

Итог

Обработка «PDF в DWG» стала заметно быстрее:

PDF с текстовым слоем теперь обрабатываются за секунды;
сканы распознаются быстрее благодаря OCR в 4 потока;
сервис сам выбирает нужный способ обработки;
пользователь продолжает загружать файлы как обычно.

Это обновление делает работу с выписками, координатами и PDF-документами быстрее и удобнее.

PDF с текстом теперь обрабатываются мгновенно