Скопировать текст из PDF Выделяю текст в PDF, нажимаю CTRL+c, потом открываю Word и нажимаю CTRL+v. Но вместо текста копируются "козябры". Как быть? Пример PDF (20 мегабайт): [url]http://www.kubnews.ru/upload/uf/373/31-susdffvqqdwu-2012.pdf[/url] Пробовал Foxit Reader и Adobe Acrobat Reader. |
Вот пример pdf поменьше (3 Мб) [url]http://www.kubnews.ru/upload/iblock/e91/0.pdf[/url] То есть текст выделяется, но не получается скопировать его в Word или блокнот. |
[b]ScreenshotReader[/b] Можно использовать хоть с растра все прочитает |
ScreenshotReader [b]ABBYY[/b] канешна я имел ввиду |
С распознаванием можно и через FineReader пропустить. Вопрос в том, можно ли без распознавания текст вытащить. Т.е. текст выделяется, но при копировании получаются козябры и каждая строка - как отдельный абзац. |
Явно у текста едет кодировка, однако если послать это сюда [url]http://www.convertpdftotext.net/[/url] то получишь текст или сюда тут ограничение по размеру [url]http://www.onlineocr.net/default.aspx[/url] и получишь doc файл но что текст что док файл придется серьезно допиливать ручками |
Попробуйте сменить язык клавиатуры перед Ctrl+C. Для 1С это помогает. Есть однако такие PDF-файлы с юникодом, из которых будет скопирован заведомо однобайтовый текст, как бы кто ни старался. Это своеобразная защита от пиратства, реализуется при компилировании PDF путем подмены в уже готовом файле тега с кодировкой. |
7) пробовал менять раскладку - козябры остались. Похоже, действительно, PDF с юникодом, а при копировании он преобразуется в ANSI, отчего получаются козябры. |
[quote=Suppir;23010458]http://www.kubnews.ru/upload/uf/373/...qqdwu-2012.pdf[/quote] как то вот так получилось, забирайте [url]http://narod.ru/disk/39329412001/%D0%9A%D0%A3%D0%91%D0%90%D0%9D%D0%A1%D0%9A%D0%98%D0%95.rar.html[/url] |
Текущее время: 22:13. Часовой пояс GMT +3. |