Перейти к публикации

Pdf файлы с чертежами и DXF файлы, "вытащить" обозначение и наименование пакетно и преименовать файлы.


Рекомендованные сообщения

Задача банальна, есть PDF файлы или DFX с чертежами и спецификациями, фрагментами КОМПАС , ECXEL и др задача переименовать или видеть что внутри оформительная рамка заполнена "обозначение", "наименование" и тд.

Решение есть и банально просто решается регулярными выражениями которые "вытаскивают" нужные данные . Я лично не силен в регах выражений, кто поможет написать регулярку для высасывания нужных данных.

Я написал регулярки из файла чертежа вытаскивается, мне не хватает опыта по этим регуляркам. Есть ассы по ним тут ?

 

Масштаб

\d{1,2}:\d{1,2}

 

Обозначение

[À-ÓA-ZА-Я0-9]{2,3}(.)[À-ÓA-ZА-Я0-9]{2,3}(.)[0-9]{1,2}(.[0-9]{1,2}(.))([À-ÓA-ZА-Я0-9]{1,})([À-ÓA-ZА-Я0-9]{1,2}|[À-ÓA-ZА-Я0-9][À-ÓA-ZА-Я0-9])

 

Формат чертежа

\b(Формат|Ôîðìàò) (.)(.)

 

При конвертации старые файлы некоторые не в той кодировки конвертировалось.. так что не обращаем.

Сам плагин тут http://wincmd.ru/plugring/PCREsearch.html, его можно переделать как отдельный для данных по конструкторской до САПР информации тех документации

Он на лету конвертирует файлы (Word, ECXEL, PDF   и др) всякие в текст и по нему работают регулярные выражения.

Кто то может помочь в более полной вытаскивания значений из файлов для поиска (в том числе внутри самого файла), сортировки и переименования файлов.

 

 

 

 

 

PDF data.jpg

pdf перименовать.jpg

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
  • 7 месяцев спустя...


UnPinned posts

Но я всё равно не понимаю цель всего этого.

У меня на работе архив свыше 200 тыс. чертежей.

Представляете сколько нужно времени, чтобы в каждый файл влезть, вставить табличку как у @Snake 60 , и потом пересохранить в pdf.

Но у нас всегда название файла - это децимальник. И поэтому относительно легко можно сортировать даже гигантские объёмы с помощью Total Commander.

 

А если у @Maik812 достаточно времени, чтобы такое проделать - то количество файлов явно небольшое. И пока он это будет делать - он всё равно откроет все файлы по очереди.

 

P.s. У нас Total Commander не используется. Есть средства помощнее.

P.p.s. У меня в домашнем архиве всякой халтурки Total Commander искал децимальники по регулярке в pdf'ах минут 30. Нашел 1283 файла. В целом всё работает и без плагинов.

Ссылка на сообщение
Поделиться на других сайтах
37 минут назад, Krusnik сказал:

Поставил. Ищет по регулярке и без плагинов

Странно!!! Вы по содержимому текста в нутри *.PDF файла ищете или по имени ? По имени это другое.. верней не какой сложности.

Скажите про версию ТС или в свойствах стоит что в WDX секции из плагинов!

 

pdf.jpg

Вот на фото там есть справка в которой тоже говорит тоже самое что для поиска текста  внутри PDF, нужен плагин.

Дело в том что ПДФ закрытый формат по сути.

41 минуту назад, Krusnik сказал:

Лицензия. Макросы не пропускает. Даже дистрибутивы удаляет. Даже в архивах.

Что за зверский такой антивирус что макросы не пропускает?

42 минуты назад, Krusnik сказал:

А по каким параметрам нужно сортировать?

Ну обычно стандартно по наименованию и  обозначению. Тут больше удобства в копировании и отправки, выборки файлов, ну и естественно переименования автоматически файлов.

46 минут назад, Krusnik сказал:

Есть такой внегласный стандарт: файлы называют по децимальнику; или децимальник+наименование

Вот как раз в основном чтобы при пердачи обозвать правильно или видеть. Я не называю по децимальнику файлы , по причине того что это не удобна при копии или повторении части проекта.

27 минут назад, Krusnik сказал:

Но я всё равно не понимаю цель всего этого.

У меня на работе архив свыше 200 тыс. чертежей.

Представляете сколько нужно времени, чтобы в каждый файл влезть, вставить табличку как у @Snake 60 , и потом пересохранить в pdf.

Смысл все этого именно в этом что открывать не надо и все видно и выбрать можно и отсортировать и скопировать по этим данным.

На фото в само начале вид такого выбора. Есть еще быстрый поиск по полям, обычный только в имени фильтрует с диалогом поиска.

30 минут назад, Krusnik сказал:

Но у нас всегда название файла - это децимальник. И поэтому относительно легко можно сортировать даже гигантские объёмы с помощью Total Commander.

Именно не нужно как раз иметь имя или его автоматом дать. Инструмент поиска с плагином или переименования одинаковы по сути.

31 минуту назад, Krusnik сказал:

У нас Total Commander не используется. Есть средства помощнее.

Расскажите про свое на работе средство? ПДМ?

Ссылка на сообщение
Поделиться на других сайтах
50 минут назад, Krusnik сказал:

У меня в домашнем архиве всякой халтурки Total Commander искал децимальники по регулярке в pdf'ах минут 30. Нашел 1283 файла. В целом всё работает и без плагинов.

Да можно возможно я например искал в компас файлах и по содержимому находил , может что то с изменением пдф и текст отдельным слоем, не знаю.  Может что то путаем, даже интересно.  Но вот пример того что вы нашли по регулярки значения поиском и потом выбранные файлы можно выкинуть на панель, потом выделив их, внести с помощью "изменить атрибуты" выбрав плагин mPDM.wdx и внести все эти значения (поисковые запросы) как любое значение какое пропишите в ини плагина. Дальше можете выводить эти значения или использовать для переименования, фильтрации, сортировки и поиска это просто как пример.

 

50 минут назад, Krusnik сказал:

У меня в домашнем архиве всякой халтурки Total Commander искал децимальники по регулярке в pdf'ах минут 30. Нашел 1283 файла. В целом всё работает и без плагинов.

У нас не ищет , сразу показывает в столбце рядом, как заходите в папку так он их выводить начинает. нету поиска как принято на фото выше.

Просто в папку зашли PDF файлы вывели значения свои в столбцах что в них находится. Не каких 30 минут поиска нету, там в плагине есть типа буфер , очень быстро выводит повторно уже эти значения, в настройках можно увеличить обьем файлов в базе держать. Как и картинки эскизы PDF выводятся из базы эскизов почти мгновенно , фаил базы Total commander в настройках можно настроить путь.

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
50 минут назад, Maik812 сказал:

Странно!!! Вы по содержимому текста в нутри *.PDF файла ищете или по имени ? По имени это другое.. верней не какой сложности.

Скажите про версию ТС или в свойствах стоит что в WDX секции из плагинов!

Commander.jpg

Без плагинов. Голая версия. 10.00. Скачана по вашей ссылке.

Сам залезает в каждый pdf и смотрит содержимое. Правда не показывает что именно в файле нашел. Но я не очень силен в тотале. Может это где-то и есть.

52 минуты назад, Maik812 сказал:

Что за зверский такой антивирус что макросы не пропускает?

BitDefender

54 минуты назад, Maik812 сказал:

Вот как раз в основном чтобы при пердачи обозвать правильно или видеть. Я не называю по децимальнику файлы , по причине того что это не удобна при копии или повторении части проекта.

Тогда регулярные выражения не спасут. Вам бы найти софт, который смотрит текст в определенном месте внутри файла (в штампе, он же всегда справа внизу).

Или всё же придется называть файлы децимальникамми.

59 минут назад, Maik812 сказал:

Расскажите про свое на работе средство? ПДМ?

Нет. Админы используют Windows PowerShell (он входит в состав самой Windows).

Мной использовался как раз для сортировки по децимальникам.

Раскидывания чертежей отдельно, а извещений отдельно. И подобных задач.

Ссылка на сообщение
Поделиться на других сайтах
6 часов назад, Krusnik сказал:

Мной использовался как раз для сортировки по децимальникам.

Как Вы их сортировали интересно? через командную строку..

 

6 часов назад, Krusnik сказал:

Вам бы найти софт, который смотрит текст в определенном месте внутри файла (в штампе, он же всегда справа внизу).

Или всё же придется называть файлы децимальникамми.

Ну вот тотал смотрит текст , верней конверт его и вытаскивает, как то выделить не получается. х2док вот конвертирует в текст можете глянуть что получается. Нет не придется называть, если надо пердать то предаю с переименованием групповым по содержимому как раз столбцу что нашел.

Мне для работы как раз не нужен децимальник от слова совсем, на крайняк вот он на фото.

6 часов назад, Krusnik сказал:

Без плагинов. Голая версия. 10.00. Скачана по вашей ссылке.

Сам залезает в каждый pdf и смотрит содержимое. Правда не показывает что именно в файле нашел. Но я не очень силен в тотале. Может это где-то и есть.

В этом то и проблема он просто ерунду похожию может находить просто и все. ну любой пдф в тотале ф3 сделайте и увидите массу всего , кроме того что надо.

Вы искали просто по содержимому не выводили в столбец значения как в шапке темы. Это не то совсем.

 

 

6 часов назад, Krusnik сказал:

Но я не очень силен в тотале.

Ну за то потратили время и силы в POWER Sell освоении.. хотя зачем ей разгребать файлы, для меня странно звучит, есть ну как бы инструменты для файлов и работы с ними... но мы не ищем легких путей :)

Ссылка на сообщение
Поделиться на других сайтах
4 часа назад, Krusnik сказал:

Представляете сколько нужно времени, чтобы в каждый файл влезть, вставить табличку как у @Snake 60 , и потом пересохранить в pdf.

Да, для старых PDF-ок это не прокатит. У меня эта табличка присутствует в каждом шаблоне чертежа. И, кстати, очень выручает когда надо найти исходники с которых сделана эта PDF.

В шаблоны вставлял блоком, потом разносил, так что, действие сие на уровне переделки шаблонов, не особо время-затратное.

По просьбе @Maik812 Перечень используемых свойств в блоке:

2021-11-14_18-48-51_.jpg

  1. Дата создания модели: $PRPSHEET:"SW-Created Date"
  2. Дата последнего сохранения модели: $PRPSHEET:"SW-Last Saved Date"
  3. Дата создания чертежа: $PRP:"SW-Created Date"
  4. Дата последнего сохранения чертежа: $PRP:"SW-Last Saved Date"
  5. Автор: $PRP:"SW-Author"
  6. Компьютер: $PRP:"SW-Last Saved By"
  7. Конфигурация: $PRPSHEET:"SW-Configuration Name"
  8. Папка хранения файла модели: $PRPSHEET:"SW-Folder Name"
  9. Полный путь к файлу модели: $PRPSHEET:"SW-Folder Name"$PRPSHEET:"SW-File Name".SLDPRT
  10. Папка хранения файла чертежа: $PRP:"SW-Folder Name"
  11. Полный путь к файлу чертежа: $PRP:"SW-Folder Name"$PRP:"SW-File Name".SLDDRW
Ссылка на сообщение
Поделиться на других сайтах
4 часа назад, Maik812 сказал:

Как Вы их сортировали интересно? через командную строку..

Блин, PowerShell'ом.

Написал скрипт, который смотрит децимальник файла, потом проверяет есть ли такая папка (с номером децимальника). Если папки нет - то она создаётся, если есть то файл переносится в эту папку.

Потом внутри папки проверяется версия файла. Если в папке есть более новая версия - то создаётся подпапка "Old Versions" и файл старой версии кладется туда.

Нажал enter и всё отсортировалось. Вместо 200 000 файлов появилось около 20 000 папок по децимальникам.

 

Размер скрипта около 7 строк. Сейчас из дома не вспомню точно. Есть копия на работе.

 

Потом ввёл второй скрипт, который работает аналогично. Берёт из имени папки (а это децимальник) первые 6 цифр (код) и создаёт папку с таким именем. Все папки, содержащие эти 6 цифр переносятся во вновь созданную папку. И так со всеми папками.

 

Этот скрипт вообще 2 строки.

 

И потом снова этот же короткий скрипт, но уже отделял не 6, а первые 3 цифры из кода.

 

И потом в третий раз этот же скрипт выделял только первую цифру.

 

В итоге получилось что-то типа

С:>archive>3>322>322452>322452.243>322452.243СБ_V7

Там же лежат МЧ, УЧ, РЭ, ТУ и пр. документы (если такие конечно есть).

А предыдущие версии лежат в

С:>archive>3>322>322452>322452.243>Old Versions>

 

4 часа назад, Maik812 сказал:

Ну за то потратили время и силы в POWER Sell освоении.. хотя зачем ей разгребать файлы, для меня странно звучит, есть ну как бы инструменты для файлов и работы с ними... но мы не ищем легких путей :)

Освоение заняло 3-4 дня. Прочитал базовые статьи и попросил совета на тематическом форуме. Таком же как этот.

Зачем PowerShell? Да затем что с тоталом как раз ничего не получилось. я честно пытался повторить всё по вашим постам, поставить ваши "волшебные" макросы, только вот ни черта не заработало. Обратился к сисадминам - те посоветовали PowerShell. И всё завертелось.

ИМХО. Сортировать огромные архивы документации тоталом - это всё равно что чистить зубы через ректальный проход.

 

 

4 часа назад, Maik812 сказал:

Ну вот тотал смотрит текст , верней конверт его и вытаскивает,

Какой ещё конверт??? О чём вы вообще?

4 часа назад, Maik812 сказал:

 х2док вот конвертирует в текст можете глянуть что получается.

Не могу. Антивирус шлёт в корзину ваш х2док.

Могли бы уже выложить результат конвертации какого-нибудь захудалого чертежа.

4 часа назад, Maik812 сказал:

Мне для работы как раз не нужен децимальник от слова совсем, на крайняк вот он на фото.

Да ладно?

А как же ответ на мой вопрос: "А по каким параметрам нужно сортировать? "

11 часов назад, Maik812 сказал:

Ну обычно стандартно по наименованию и  обозначению.

 

 

 

4 часа назад, Maik812 сказал:

В этом то и проблема он просто ерунду похожию может находить просто и все. ну любой пдф в тотале ф3 сделайте и увидите массу всего , кроме того что надо.

Проблема в самом регулярном выражении. Если хотите, чтобы находил то, что нужно - то и регулярку нужно составить ту, которую нужно.

У меня тотал нашел именно то, что я и задавал. Я проверил. У меня есть разные pdfы, не только с чертежами. А есть с чертежами, но с децимальниками не по ЕСКД. И тотал (голый без плагинов) нашел именно те файлы, именно pdf, именно с децимальниками по ЕСКД. Как я собственно в окне поиска и задал. Массу всего, кроме того, что надо тотал благополучно отсеял.

 

4 часа назад, Maik812 сказал:

Вы искали просто по содержимому не выводили в столбец значения как в шапке темы. Это не то совсем.

Ну так вы определитесь что вам нужно.

 

Шаблон таблички с нужными данными вам показали, даже свойства описали.

Регулярное выражение, которое отыскивает эти данные вам тоже дали.

Макросы у вас есть.

Так что вперёд!

Изменено пользователем Krusnik
Ссылка на сообщение
Поделиться на других сайтах
46 минут назад, Krusnik сказал:
46 минут назад, Krusnik сказал:

Да затем что с тоталом как раз ничего не получилось. я честно пытался повторить всё по вашим постам, поставить ваши "волшебные" макросы, только вот ни черта не заработало.

Макросы у вас есть.

Макросы для всего сказанного не нужны. все делается в настройках плагина .

46 минут назад, Krusnik сказал:

Не могу. Антивирус шлёт в корзину

Выкиньте это дерьмо в корзину ! которое не чего не видит и не отличает.

Это прога конвертер известна давно и используется много где, как и плагины ТС, проверить на не зависимом онлайн может сервисе на наличие вируса.

 

46 минут назад, Krusnik сказал:

А как же ответ на мой вопрос: "А по каким параметрам нужно сортировать? "

Вы поймите файлы у меня по имени, но если нужен децимальник в имени я кликаю в колонки показать например PDF SW и у меня выводится пользовательская колонка или колонки, это шаблоны.

Не разу ко мне не обращались за настройками, я отвечаю и фото даю..

46 минут назад, Krusnik сказал:

Освоение заняло 3-4 дня. Прочитал базовые статьи и попросил совета на тематическом форуме.

Вот бы и про ТС почитали бы , хотбя бы хелп.. там всего то 4 типа настроек для всех плагинов их 4 типа, все одинаково и понятно.

В Тотале есть VBS макросы и нп тематических форумах пишут скрипты для создании кнопки например или обменом кнопок, но так как ВАш "супер антивирус" все убивает то даже не знаю как быть.

http://forum.wincmd.ru/viewtopic.php?t=5622

пример темы. Вроде видел подобные задачи там.

Есть альтернатива сборки с массой таких авторских скриптов http://tc-image.3dn.ru/forum/2-1038-1

Но антивирус Ваш повесится наверно!

46 минут назад, Krusnik сказал:

С:>archive>3>322>322452>322452.243>322452.243СБ_V7

Не очень понял смысл скриптов, достаточно в тотале настроить в настройках быстрый поиск "Буква (диалог)" галку, и нажав ctrl+b начать выбирать, верней фильтровать набрав 322452 и все файлы не содержащие ся этих цифр исчезнут, после выбрали и Ф6 пернос в папку 322452 (как угодно называйте) ну и так далие. 5 минутное дело.

У меня библиотека книг название которое не известно точно, именно так фильтрую все книги среди тысячи папок и нахожу то что нужно!!!

https://www.listary.com/

аналог этой платной фигни..

ctrl+b и поиск с диалогом- вся программа эта платная заменяется

46 минут назад, Krusnik сказал:

я честно пытался повторить всё по вашим постам, поставить ваши "волшебные" макросы, только вот ни черта не заработало.

Спросите что не получалось ? Я всегда отвечаю или фото присылаю..

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
7 часов назад, Maik812 сказал:

Макросы для всего сказанного не нужны. все делается в настройках плагина .

Да плагин. Плагин имелся ввиду.

Ссылка на сообщение
Поделиться на других сайтах
1 час назад, Krusnik сказал:

Да плагин. Плагин имелся ввиду.

 

поставьте плагин, это не мой плагин. попробуйте я фотки пришлю настроек своих если что.

19.03.2021 в 21:26, Maik812 сказал:

 

 

 

 

Сам плагин тут http://wincmd.ru/plugring/PCREsearch.html

 

Ссылка на сообщение
Поделиться на других сайтах
29 минут назад, Maik812 сказал:

 

поставьте плагин, это не мой плагин. попробуйте я фотки пришлю настроек своих если что.

 

Поставьте себе этот плагин сами и радуйтесь.

Мне он нафиг не нужен.

 

Хотите регулярные выражения - возьмите свой плагин, сконвертируйте пробный чертеж в txt и выложите сюда. Текстом. Будем смотреть что можно сделать, какие регулярки подойдут.

А не кидайте ссылки на плагин. 

Ссылка на сообщение
Поделиться на других сайтах
52 минуты назад, Krusnik сказал:

возьмите свой плагин, сконвертируйте пробный чертеж в txt и выложите сюда. Текстом.

получилось х2док конвертер не могу понять кодировку только, сделал двумя. второй с -u ключем

фаил конвертер приложил. В ярлыке в конце дописать -f и на него перенести фаил.

РК 994_845(1).txt РК 994_845.txt РК 994_845.pdf xdoc2txt.exe

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах

Попробовал открыть txt.

Ни одна кодировка не подошла. Читает только цифры и латинские буквы.

 

В первом файле кодировка Windows.

"-u" - это юникод

 

У меня вот такой файл получился.

Так должно быть после конвертации?

РК 994_845(2).txt

У меня сохранилось в Юникод (UTF-8)

Ссылка на сообщение
Поделиться на других сайтах
42 минуты назад, Krusnik сказал:

У меня вот такой файл получился.

да правильно , странно у меня не просто не с U не получилась.

Я как не изучал текстовик зацепится не за что .. или Вы смогли?

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах

D:\xdoc2txt.exe -8 -f

и наоборот не помог вывод в адекватную кодировку. Ну ладно, у Вас получилось и гуд.

Ссылка на сообщение
Поделиться на других сайтах
22 минуты назад, Maik812 сказал:

да правильно , странно у меня не просто не с U не получилась.

Я как не изучал текстовик зацепится не за что .. или Вы смогли?

Я тупо в Foxit Reader'е  нажал сохранить как...

А с xdoc2txt.exe нужно разбираться.

Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, Krusnik сказал:

Я тупо в Foxit Reader'е  нажал сохранить как...

Я проверил Ваш не соответствует конвертирующему Х2DOC , он он другой, это важно очень, работать будет по конвертеру.

Ссылка на сообщение
Поделиться на других сайтах
15 минут назад, Maik812 сказал:

Я проверил Ваш не соответствует конвертирующему Х2DOC , он он другой, это важно очень, работать будет по конвертеру.

Вот такое у меня выдаёт Х2DOC. Похоже нужно искать другой софт

Цитата

xdoc.jpg

 

Ссылка на сообщение
Поделиться на других сайтах
15.11.2021 в 15:38, Krusnik сказал:

Вот такое у меня выдаёт Х2DOC. Похоже нужно искать другой софт

У вас не верна кодировка или отображения результата. попробуйте на др ом пдф файле или смотреть текст

У меня же показывает и ищет дэцимальник чертежа

Ссылка на сообщение
Поделиться на других сайтах
9 минут назад, Maik812 сказал:

У вас не верна кодировка или отображения результата. попробуйте на др ом пдф файле или смотреть текст

А может у Х2DOC нет верной кодировки?

 

Все наши чертежи (с кириллицей) он превращает в кракозябры. А вот японские, написанные на английском выдаёт прекрасно.

ITT-Cannon_D-Subminiature-Products.txt

ITT-Cannon_D-Subminiature-Products.pdf

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.
Примечание: вашему сообщению потребуется утверждение модератора, прежде чем оно станет доступным.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.



×
×
  • Создать...