Перейти к публикации

Pdf файлы с чертежами и DXF файлы, "вытащить" обозначение и наименование пакетно и преименовать файлы.


Рекомендованные сообщения

Задача банальна, есть PDF файлы или DFX с чертежами и спецификациями, фрагментами КОМПАС , ECXEL и др задача переименовать или видеть что внутри оформительная рамка заполнена "обозначение", "наименование" и тд.

Решение есть и банально просто решается регулярными выражениями которые "вытаскивают" нужные данные . Я лично не силен в регах выражений, кто поможет написать регулярку для высасывания нужных данных.

Я написал регулярки из файла чертежа вытаскивается, мне не хватает опыта по этим регуляркам. Есть ассы по ним тут ?

 

Масштаб

\d{1,2}:\d{1,2}

 

Обозначение

[À-ÓA-ZА-Я0-9]{2,3}(.)[À-ÓA-ZА-Я0-9]{2,3}(.)[0-9]{1,2}(.[0-9]{1,2}(.))([À-ÓA-ZА-Я0-9]{1,})([À-ÓA-ZА-Я0-9]{1,2}|[À-ÓA-ZА-Я0-9][À-ÓA-ZА-Я0-9])

 

Формат чертежа

\b(Формат|Ôîðìàò) (.)(.)

 

При конвертации старые файлы некоторые не в той кодировки конвертировалось.. так что не обращаем.

Сам плагин тут http://wincmd.ru/plugring/PCREsearch.html, его можно переделать как отдельный для данных по конструкторской до САПР информации тех документации

Он на лету конвертирует файлы (Word, ECXEL, PDF   и др) всякие в текст и по нему работают регулярные выражения.

Кто то может помочь в более полной вытаскивания значений из файлов для поиска (в том числе внутри самого файла), сортировки и переименования файлов.

 

 

 

 

 

PDF data.jpg

pdf перименовать.jpg

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
  • 7 месяцев спустя...


UnPinned posts
10.11.2021 в 14:07, Krusnik сказал:

И какие регулярки нужны? (если ещё нужны)

 

Да все что можно вытащить из чертежа для поиска и сортировки, облечения работы с архивом пдф файлов в работе. 

Попробуйте вытащить " наименование"  ! У меня не получилось, так как не к чему прицепится мне.

Работает это,  через конвертацию в текст и по нему ищется уже.

 

Да любое выражение можно использовать в сложном поиске и переименовании файла и количество таких  регулярных за один раз не ограниченно почти.

 

Ссылка на сообщение
Поделиться на других сайтах

А как выглядит PDF, сконвертированный в текст?

Я так понимаю он конвертирует кусками, как они идут в PDF'е?

 

1 час назад, Maik812 сказал:

Попробуйте вытащить " наименование"  ! У меня не получилось, так как не к чему прицепится мне.

Наименование не вытащить, т.к. там нет ни закономерностей, ни заголовков. Оно по сути может быть любым.

 

Децимальник проще. Но тут геморройчик. Он найдет и децимальнк (причем 2 раза) и применяемость. А вот понять что есть что он не сможет. Если только чертежи с кодами (СБ, МЧ и т.д.)

(?<основная_часть>[А-Я]{4}\.\d{6}\.\d{3})(?'исполнение'-\d{2})(?'код_документа'(СБ|ВО|ТЧ|ГЧ|МЭ|МЧ|УЧ|ВС|ВДЭ|ВД|ВП|ВИ|ДП|ПТ|ЭП|ТП|ПЗ|ТУ|ПМ|ТБ|РР))

 

 

Формат в простом случае

Формат\s((A|А)\d)

А если со сложными форматами тип А2х3 то

Формат\s((A|А)\d)(?'дополнительная_часть'(Х|X|х|x)/d{1,2})

 

 

Покрытие

(?<покрытие>Покрытие(\s|:\s).{1,})

 

Пока что больше ничего в голову не приходит.

Ссылка на сообщение
Поделиться на других сайтах
28 минут назад, Krusnik сказал:

Пока что больше ничего в голову не приходит.

Улучшенный вариант появился не сатл пока выкладывать.

По поводу масштабов - а если попадется масштаб чертежей 1:500 или 1:5000? (обычно карты и планы делают с такими масштабами)
Согласно твоей записи он выдаст неправильный результат 1:50
То есть сможет прочитать только две цифры.

Лучше так:
\d+:\d+
То есть одна или более цифр (хоть 2, 3, 4 и т.д).
Но, и в твоем, и в моем случае может быть ложное срабатывание, если будет похожая запись цифр через двоеточие, например время 23:59.

У масштабов всегда присутствует единица, то есть 1:50 или 2:1. Может быть сразу продумать и исключить возможные ложные срабатывания:
\Q1:\E\d+|\d+\Q:1\E

И вообще, лучше используй более краткие формы записи:
1. вместо [0-9] используй \d
2. вместо [À-ÓA-ZА-Я0-9] используй \w
3. точка обычно экранируется, то есть \.
4. вместо {1,} лучше используй + (один и более)
5. и еще непонятно зачем объединяешь в группы (скобки)
6. может быть вместо {1,2} лучше тоже использовать "+", но это тебе видней

и тогда вместо длинного кода можно сделать так:
\w{2,3}\.\w{2,3}\.\d{1,2}\.\d{1,2}\.\w+

не тестировал как следует так как пример выше работает пока, попробуй. Думаю лучше твой но нужно пробовать.

Там в настройках есть "первое применение" есть значение первое найденное.

 

28 минут назад, Krusnik сказал:

А как выглядит PDF, сконвертированный в текст?

посмотри хелп

попробуй. Можешь и Тотал поставить не такая сложная вещь.

xdoc2txt_ru.chm

28 минут назад, Krusnik сказал:

Наименование не вытащить, т.к. там нет ни закономерностей, ни заголовков. Оно по сути может быть любым.

Эта проблема но все же можно наверно строку вытащить между или после типа "дата" и тд. Нужно придумать, возможно между строк или пред строками.

Попробуй "препарировать " конверт и найти зависимость. Жаль что нету в "Наименовании" не каких зацепок в отличее вроде от ISO или DIN.

Нужно было вводить в ГОСТ изменения.. для автоматизации в  ПДФ. Я могу писать в поток все что угодно  но это для Total commander

 

 

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
19.03.2021 в 21:26, Maik812 сказал:

Сам плагин тут http://wincmd.ru/plugring/PCREsearch.html, его можно переделать как отдельный для данных по конструкторской до САПР информации тех документации

конвертер лежит в папке плагина, его можно отдельно скачать, используется в 3х разных плагинах.

Ссылка на сообщение
Поделиться на других сайтах
7 часов назад, Maik812 сказал:

посмотри хелп

попробуй. Можешь и Тотал поставить не такая сложная вещь.

Хелп пустой

help.jpg

 

А тотал я ставил пару лет назад. Как раз пытался твои макросы поставить и попробовать, но просто так с ходу застрял на подключении макроса. Даже добавить не смог. Тотал ругался.

Вечером попробую.

Ссылка на сообщение
Поделиться на других сайтах
1 час назад, Krusnik сказал:

А тотал я ставил пару лет назад. Как раз пытался твои макросы поставить и попробовать, но просто так с ходу застрял на подключении макроса. Даже добавить не смог. Тотал ругался.

Тотал сам подключает плагины, макросы Солид юзаед.

 

 

http://ebstudio.info/home/xdoc2txt.html

 

XDoc2txt.zip

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах

mpdm2_0.zip

Добавлю что поиск осуществлять можно тоже по содержимому PDF файлу и по сути по чертежу. Total commander поддерживает поиск с регулярными выражениями тоже и сохраняет как шаблон поиска.  а вывод значений в столбцы это по сути просмотр содержимого без открытия файла, при этом возможность фильтра и сортировки среди всех файлов что нашел нужные значения или не нашел.

Предлагаю писать тут свои пожелания и решения для поиска/сортировки/фильтрации/ переименования,  файлов PDF , Excel , MS WORD, DFX

По поводу сортировки или метки файлов с нужным поиском можно использовать запись в поток , таким образом тоже выводить эти значения и сортировать. Например поиск вывел значения и можно внести что там есть эти значения в поток и уже выводить или фильтровать. Ввод поисковых или любых других меток осуществляеться  пакетно с помощью плагина через изменение атрибутов.

 

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
12.11.2021 в 01:48, Krusnik сказал:

Наименование не вытащить, т.к. там нет ни закономерностей, ни заголовков. Оно по сути может быть любым.

Можно на свободном поле чертежа в солиде (в шаблоне) мелким шрифтом дублировать наименование с каким нибудь ключём, да хотя бы "Наименование: Планка" например. Вот как это выглядит в моем шаблоне:

Скрытый текст

2021-11-13_2-19-45_.jpg

 

17 часов назад, Krusnik сказал:

Хелп пустой

Разблокировать файл надо, т.к. с инета скачен

Скрытый текст

2021-11-13_2-32-23.jpg

 

Ссылка на сообщение
Поделиться на других сайтах
52 минуты назад, Snake 60 сказал:

Можно на свободном поле чертежа в солиде (в шаблоне) мелким шрифтом дублировать наименование с каким нибудь ключём, да хотя бы "Наименование: Планка" например. Вот как это выглядит в моем шаблоне:

Абсолютно прав и я бы еще требовал прописывать в чертеже ссылку на путь и имя файла *отдельно детали или сборки.

Так как сразу будет понятна связь с файлом прородителем .

а обозначения  заключать в чертеже #! Обозначение чертежа#!

а наименование ##НАИМЕНОАВНИЕ## 

Например.

53 минуты назад, Snake 60 сказал:

на свободном поле чертежа в солиде

Просто бывает у тебя куча чертежей от кого то осталось или прислали. Хорошо что бывает текстовик, а часто приходится файнридером приходится распознавать текст и потом переименовать. Берут пачку чертежей сканят тупо в пдф и присылают!

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
57 минут назад, Snake 60 сказал:

Разблокировать файл надо, т.к. с инета скачен

Total commander  смотрит прекрасно, плагинов масса

Ieview.wlx , Slister.wlx

 

chm view.jpg

Ссылка на сообщение
Поделиться на других сайтах
17 часов назад, Snake 60 сказал:

Можно на свободном поле чертежа в солиде (в шаблоне) мелким шрифтом дублировать наименование с каким нибудь ключём, да хотя бы "Наименование: Планка" например. Вот как это выглядит в моем шаблоне:

Если так можно, то задача в топике не стоит и выеденного гроша. Делаете в свободном поле заметки типа ##Наименование: "Планка"

Тупо вбиваете в поиск

##Наименование:\s"(?<Наименование>.+)"

Для других свойств заменяете "Наименование" на другие слова: Обозначение, Масса, Формат и т.д.

И всё.

 

 

17 часов назад, Snake 60 сказал:

Разблокировать файл надо, т.к. с инета скачен

Да пофиг. Я нашел и прочитал хелп в html.

Но мой антивирус забраковал все плагины к тотал коммандеру.

Как и пиратский тотал. А покупать лицензионный ради форума я не буду.

Ссылка на сообщение
Поделиться на других сайтах
10 minutes ago, Krusnik said:

пиратский тотал. А покупать лицензионный ради форума я не буду

официальный тотал вроде не запрещает пользоваться, просто напоминает, что пора бы купить

Ссылка на сообщение
Поделиться на других сайтах
37 минут назад, Krusnik сказал:

Как и пиратский тотал. А покупать лицензионный ради форума я не буду.

Какие то странные слова говорите !!! Тотал абсолютно бесплатный для себя родного или домашний. Качайте и пользуйтесь нажимая 1.2.3

http://wincmd.ru/

Нету там вирусов!!!

26 минут назад, SWX сказал:

официальный тотал вроде не запрещает пользоваться, просто напоминает, что пора бы купить

Он разрешает им пользоваться нажимай 123 и все .. для компаний да типа должны уплатить если вы компания и зарабатываете!

 

37 минут назад, Krusnik сказал:

Но мой антивирус забраковал все плагины к тотал коммандеру.

Может у Вас пиратский антивирус??? так как  с оф сайто все нормально и нет проблем 28 лет программе !!!! Это срок!

37 минут назад, Krusnik сказал:

Если так можно, то задача в топике не стоит и выеденного гроша. Делаете в свободном поле заметки типа ##Наименование: "Планка"

Тупо вбиваете в поиск

Это понятно, но тут во первых можно ли как то обойти проблему "вытаскивании" потом и сортировки pdf файлов. Тем более без из открытия и тд. Если не кто не может решить вытаскивания "Наименования " то другого пути нет по сути. Нужно вводить так сказать стандарт в шаблон документов всех чертежей .

Давайте что ли сформируем  общие требования и правила? Как насчет написания точной и правильного значения в шаблоне , для создания подобного чертежа. Думаю возможно вписать это тоже с помощью макроса мелкими буквами например в уголок за рамку для существующих чертежей и тогда все встанет на место для PDF  файлов.

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
22 часа назад, Snake 60 сказал:

Вот как это выглядит в моем шаблоне:

Можно Ваши шаблоны увидеть ? Желательно в SW формтате не старше 2014  :)

Ссылка на сообщение
Поделиться на других сайтах
19 минут назад, Maik812 сказал:

Можно Ваши шаблоны увидеть ? Желательно в SW формтате не старше 2014  :)

У меня SW 2018-й. Но у меня всё просто. Этот блок, что на скрине, формируется встроенными свойствами самого солида, те свойства, которые начинаются на SW-...

Если нужно чуть попозже накидаю список используемых свойств.

Ссылка на сообщение
Поделиться на других сайтах
3 минуты назад, Snake 60 сказал:

Если нужно чуть попозже накидаю список используемых свойств.

Да нужно и форумчанам польза.. накидайте. И пдф какой получился в реальности глянуть. не фото его.

Кстати а если в шаблоне на чертеже их сделать белым цветом, при сохранение в белом он станет черным цветом? просто чтоб скрыть надпись от глаз долой всяких норм контролей..

Изменено пользователем Maik812
Ссылка на сообщение
Поделиться на других сайтах
15 минут назад, Maik812 сказал:

Да нужно и форумчанам польза.. накидайте. И пдф какой получился в реальности глянуть. не фото его.

PDF - могу в личку скинуть.

15 минут назад, Maik812 сказал:

Кстати а если в шаблоне на чертеже их сделать белым цветом, при сохранение в белом он станет черным цветом? просто чтоб скрыть надпись от глаз долой всяких норм контролей..

Можно в шаблоне создать слой с белым цветом и туда покидать все заметки, тогда при печати это всё видно не будет, а в PDF-е будет распознаваться текстом.

Ссылка на сообщение
Поделиться на других сайтах
16 часов назад, Maik812 сказал:

Какие то странные слова говорите !!! Тотал абсолютно бесплатный для себя родного или домашний. Качайте и пользуйтесь нажимая 1.2.3

http://wincmd.ru/

Нету там вирусов!!!

Он разрешает им пользоваться нажимай 123 и все .. для компаний да типа должны уплатить если вы компания и зарабатываете!

Поставил. Ищет по регулярке и без плагинов.

16 часов назад, Maik812 сказал:

Может у Вас пиратский антивирус???

Лицензия. Макросы не пропускает. Даже дистрибутивы удаляет. Даже в архивах.

16 часов назад, Maik812 сказал:

Это понятно, но тут во первых можно ли как то обойти проблему "вытаскивании" потом и сортировки pdf файлов. Тем более без из открытия и тд.

А по каким параметрам нужно сортировать?

 

17 часов назад, Maik812 сказал:

Давайте что ли сформируем  общие требования и правила? Как насчет написания точной и правильного значения в шаблоне , для создания подобного чертежа.

Есть такой внегласный стандарт: файлы называют по децимальнику; или децимальник+наименование. И тогда в файл лезть не нужно.

Ссылка на сообщение
Поделиться на других сайтах

Присоединяйтесь к обсуждению

Вы можете опубликовать сообщение сейчас, а зарегистрироваться позже. Если у вас есть аккаунт, войдите в него для написания от своего имени.
Примечание: вашему сообщению потребуется утверждение модератора, прежде чем оно станет доступным.

Гость
Ответить в тему...

×   Вставлено в виде отформатированного текста.   Вставить в виде обычного текста

  Разрешено не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отобразить как ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставить изображения напрямую. Загрузите или вставьте изображения по ссылке.

  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу.



×
×
  • Создать...