GISFlow
PDF с текстом теперь обрабатываются мгновенно
Релизы Улучшено · 3 мин чтения · v3.0.0

PDF с текстом теперь обрабатываются мгновенно

Если в вашем PDF координаты выделяются мышкой — обработка занимает секунды вместо минут. Для сканов OCR ускорился в 4 раза.

Мы ускорили обработку «PDF в DWG» сразу в двух направлениях: теперь сервис быстрее работает с PDF, где уже есть текст, и быстрее распознаёт сканированные документы.

Это обновление особенно полезно для выписок ЕГРН, документов с координатами, экспортов из AutoCAD/QGIS и других PDF-файлов, которые часто используются в кадастровых и геодезических задачах.

PDF с текстовым слоем теперь обрабатываются за секунды

Многие PDF-документы — это не просто картинка. В них уже есть текстовый слой.

Проще говоря, если в PDF можно выделить строку мышкой, скопировать её и вставить в Excel — значит, внутри файла уже есть текст.

Раньше GISFlow не разделял такие PDF и обычные сканы. Все документы проходили через OCR — распознавание изображения. Это занимало больше времени: иногда несколько минут на одну выписку.

Теперь сервис сначала проверяет, можно ли прочитать текст напрямую. Если PDF содержит текстовый слой, обработка проходит намного быстрее: 5-страничная выписка может обработаться за 3–5 секунд вместо 3–5 минут.

Если текстового слоя нет и файл является сканом или фотографией, GISFlow автоматически переключается на OCR. Пользователю ничего выбирать вручную не нужно.

Как понять, что ваш PDF обработается быстро

Откройте PDF-файл и попробуйте выделить мышкой строку с координатами.

  • Если текст выделяется и копируется — это PDF с текстовым слоем. Такой файл будет обработан максимально быстро.
  • Если выделить текст нельзя — скорее всего, это скан. В этом случае сервис будет использовать OCR.

OCR тоже стал быстрее

Для сканированных документов OCR по-прежнему нужен. Например, если у вас бумажная выписка, которую отсканировали или сфотографировали.

Но теперь OCR работает быстрее: страницы обрабатываются параллельно в 4 потока. Раньше страницы шли по очереди — теперь несколько страниц могут распознаваться одновременно.

Например, документ на 5–6 страниц теперь распознаётся примерно за минуту вместо четырёх.

Что нужно сделать пользователю

Ничего сложного. Просто загружайте PDF как раньше — GISFlow сам определит, какой путь использовать:

  • если в PDF есть текст — прочитает его напрямую;
  • если это скан — запустит OCR.

Как ещё ускорить обработку

Если у вас многостраничный PDF, а координаты находятся только на нескольких страницах, укажите нужные страницы в форме обработки. Например: 1-3,5.

Так сервис не будет тратить время на страницы, где нет нужных данных.

Совет для работы с выписками ЕГРН

Если есть возможность, используйте электронные выписки ЕГРН с электронной подписью. Обычно такие файлы содержат текстовый слой, поэтому:

  • обрабатываются быстрее;
  • читаются точнее;
  • дают меньше ошибок при распознавании;
  • лучше подходят для автоматической обработки.

Сканированные документы тоже поддерживаются, но в них выше риск ошибок: плохое качество скана, перекос, размытость или слабый контраст могут повлиять на результат.

Итог

Обработка «PDF в DWG» стала заметно быстрее:

  • PDF с текстовым слоем теперь обрабатываются за секунды;
  • сканы распознаются быстрее благодаря OCR в 4 потока;
  • сервис сам выбирает нужный способ обработки;
  • пользователь продолжает загружать файлы как обычно.

Это обновление делает работу с выписками, координатами и PDF-документами быстрее и удобнее.


Эта статья про обработку

9 0
Поделиться

Комментарии

Войдите, чтобы оставить комментарий.

Пока ни одного комментария. Будьте первым!