Мы ускорили обработку «PDF в DWG» сразу в двух направлениях: теперь сервис быстрее работает с PDF, где уже есть текст, и быстрее распознаёт сканированные документы.
Это обновление особенно полезно для выписок ЕГРН, документов с координатами, экспортов из AutoCAD/QGIS и других PDF-файлов, которые часто используются в кадастровых и геодезических задачах.
PDF с текстовым слоем теперь обрабатываются за секунды
Многие PDF-документы — это не просто картинка. В них уже есть текстовый слой.
Проще говоря, если в PDF можно выделить строку мышкой, скопировать её и вставить в Excel — значит, внутри файла уже есть текст.
Раньше GISFlow не разделял такие PDF и обычные сканы. Все документы проходили через OCR — распознавание изображения. Это занимало больше времени: иногда несколько минут на одну выписку.
Теперь сервис сначала проверяет, можно ли прочитать текст напрямую. Если PDF содержит текстовый слой, обработка проходит намного быстрее: 5-страничная выписка может обработаться за 3–5 секунд вместо 3–5 минут.
Если текстового слоя нет и файл является сканом или фотографией, GISFlow автоматически переключается на OCR. Пользователю ничего выбирать вручную не нужно.
Как понять, что ваш PDF обработается быстро
Откройте PDF-файл и попробуйте выделить мышкой строку с координатами.
- Если текст выделяется и копируется — это PDF с текстовым слоем. Такой файл будет обработан максимально быстро.
- Если выделить текст нельзя — скорее всего, это скан. В этом случае сервис будет использовать OCR.
OCR тоже стал быстрее
Для сканированных документов OCR по-прежнему нужен. Например, если у вас бумажная выписка, которую отсканировали или сфотографировали.
Но теперь OCR работает быстрее: страницы обрабатываются параллельно в 4 потока. Раньше страницы шли по очереди — теперь несколько страниц могут распознаваться одновременно.
Например, документ на 5–6 страниц теперь распознаётся примерно за минуту вместо четырёх.
Что нужно сделать пользователю
Ничего сложного. Просто загружайте PDF как раньше — GISFlow сам определит, какой путь использовать:
- если в PDF есть текст — прочитает его напрямую;
- если это скан — запустит OCR.
Как ещё ускорить обработку
Если у вас многостраничный PDF, а координаты находятся только на нескольких страницах, укажите нужные страницы в форме обработки. Например: 1-3,5.
Так сервис не будет тратить время на страницы, где нет нужных данных.
Совет для работы с выписками ЕГРН
Если есть возможность, используйте электронные выписки ЕГРН с электронной подписью. Обычно такие файлы содержат текстовый слой, поэтому:
- обрабатываются быстрее;
- читаются точнее;
- дают меньше ошибок при распознавании;
- лучше подходят для автоматической обработки.
Сканированные документы тоже поддерживаются, но в них выше риск ошибок: плохое качество скана, перекос, размытость или слабый контраст могут повлиять на результат.
Итог
Обработка «PDF в DWG» стала заметно быстрее:
- PDF с текстовым слоем теперь обрабатываются за секунды;
- сканы распознаются быстрее благодаря OCR в 4 потока;
- сервис сам выбирает нужный способ обработки;
- пользователь продолжает загружать файлы как обычно.
Это обновление делает работу с выписками, координатами и PDF-документами быстрее и удобнее.
Комментарии
Пока ни одного комментария. Будьте первым!