Как открыть pkl файл python

10.01.202310.01.2023 admin 0 Comments

Модуль Pickle в Python

Pickling – популярный способ консервирования продуктов. Согласно Википедии, это тоже довольно древняя процедура – хотя происхождение маринования неизвестно, древние месопотамцы, вероятно, использовали этот процесс 4400 лет назад. Поместив продукт в определенный раствор, можно увеличить срок его хранения. Другими словами, это метод, который позволяет нам хранить пищу для последующего употребления.

Если вы разработчик Python, однажды вам может понадобиться способ хранения ваших объектов для последующего использования.

Что такое сериализация в Python?

Сериализация в Python – это процесс преобразования объектов или структур данных в байтовые потоки или строки. Поток байтов – это один байт состоит из 8 бит нулей и единиц. Эти байтовые потоки затем можно легко сохранить или передать. Это позволяет разработчикам сохранять, например, данные конфигурации или прогресс пользователя, а затем сохранять их (на диске или в базе данных) или отправлять в другое место.

Объекты в Python также можно сериализовать с помощью модуля под названием Pickle.

Одним из основных отличий маринования объектов в Python от маринования овощей является неизбежное и необратимое изменение вкуса и текстуры маринованной пищи. Между тем, маринованные объекты можно легко вернуть в их первоначальную форму. Кстати, этот процесс широко известен, как десериализация.

Pickling (или сериализацию в целом) не следует путать со сжатием. Целью Pickling является перевод данных в формат, который может быть перенесен из ОЗУ на диск. С другой стороны, сжатие – это процесс кодирования данных с использованием меньшего количества бит (для экономии места на диске).

Сериализация особенно полезна в любом программном обеспечении, где важно иметь возможность сохранить некоторый прогресс на диске, выйти из программы, а затем загрузить прогресс обратно после повторного открытия программы. Видеоигры могут быть наиболее интуитивным примером полезности сериализации, но есть много других программ, в которых сохранение и загрузка данных или прогресса пользователя имеет решающее значение.

Сравнение pickle и JSON

Возможно, вы слышали о JSON (нотация объектов JavaScript), который является популярным форматом, который также позволяет разработчикам сохранять и передавать объекты, закодированные в виде строк. Этот метод сериализации имеет некоторые преимущества перед сохранением. Формат JSON удобочитаем, не зависит от языка и быстрее, чем pickle.

Однако у него есть и некоторые важные ограничения. Что наиболее важно, по умолчанию только ограниченное подмножество встроенных типов Python может быть представлено JSON. С помощью Pickle мы можем легко сериализовать очень широкий спектр типов Python и, что важно, настраиваемые классы. Это означает, что нам не нужно создавать настраиваемую схему (как мы делаем для JSON) и писать сериализаторы и парсеры, подверженные ошибкам. С Pickle вся тяжелая работа будет сделана за вас.

Что можно сериализовать?

Важно помнить, что травление не является независимым от языка методом сериализации, поэтому ваши консервированные данные могут быть извлечены только с помощью Python. Более того, важно убедиться, что объекты обрабатываются с использованием той же версии Python, которая будет использоваться для их выделения. В этом случае смешивание версий может вызвать множество проблем.

Кроме того, функции выбираются по ссылкам на их имена, а не по их значениям. Полученный в результате Pickling не содержит информации о коде или атрибутах функции. Следовательно, вы должны убедиться, что среда, в которой функция не выбрана, может импортировать функцию. Другими словами, если мы выберем функцию, а затем удалим ее в среде, где она либо не определена, либо не импортирована, возникнет исключение.

Также очень важно отметить, что маринованные предметы могут использоваться специально. Например, извлечение данных из ненадежного источника может привести к выполнению вредоносного кода.

Использование модуля

В следующем очень простом примере показаны основы использования модуля Pickle в Python 3:

Во-первых, мы должны импортировать модуль pickle, что выполняется в строке 1. В строке 3 мы определяем простой список из трех элементов, который будет обработан.

В строке 5 мы указываем, что имя нашего выходного файла pickle будет test_pickle.pkl. Используя параметр wb, мы сообщаем программе, что хотим записать (w) двоичные данные (b) внутри нее (потому что мы хотим создать поток байтов). Обратите внимание, что расширение pkl не обязательно – мы используем его в этом руководстве, потому что это расширение включено в документацию Python.

В строке 6 мы используем метод pickle.dump(), чтобы собрать наш тестовый список и сохранить его в файле test_pickle.pkl.

Я рекомендую вам попробовать открыть сгенерированный файл pickle в текстовом редакторе. Вы быстро заметите, что поток байтов определенно не является удобочитаемым форматом.

Распаковка

Теперь давайте раскроем содержимое тестового файла pickle и вернем наш объект к его исходной форме.

Как видите, эта процедура не сложнее, чем когда мы мариновали объект. В строке 3 мы снова открываем наш файл test_pickle.pkl, но на этот раз наша цель – прочитать (r) двоичные данные (b), хранящиеся в нем.

Затем, в строке 5, мы используем метод pickle.load(), чтобы распаковать наш список и сохранить его в переменной unpickled_list.

Затем вы можете распечатать содержимое списка, чтобы убедиться, что он идентичен списку, который мы выбрали в предыдущем примере. Вот результат выполнения приведенного выше кода:

Сериализация и распаковка нестандартных объектов

Как я упоминал ранее, используя Pickle, вы можете сериализовать свои собственные настраиваемые объекты. Взгляните на следующий пример:

Как видите, этот пример почти такой же простой, как и предыдущий. Между строками 3 и 7 мы определяем простой класс, который содержит один атрибут и один метод, который изменяет этот атрибут. В строке 9 мы создаем экземпляр этого класса и сохраняем его в переменной cucumber, а в строке 10 мы устанавливаем цвет его атрибута на «зеленый».

Затем, используя те же функции, что и в предыдущем примере, мы сериализуем и отделяем наш только что созданный объект. Выполнение приведенного выше кода приводит к следующему выводу:

Помните, что мы можем распаковать объект только в среде, где класс Veggy либо определен, либо импортирован. Если мы создадим новый скрипт и попытаемся выделить объект без импорта класса Veggy, мы получим «AttributeError». Например, выполните следующий скрипт:

В выводе приведенного выше скрипта вы увидите следующую ошибку:

Заключение

Как видите, благодаря модулю Pickle сериализация объектов Python довольно проста. В наших примерах мы выбрали простой список, но вы можете использовать тот же метод для сохранения большого спектра типов данных Python, если вы убедитесь, что ваши объекты содержат только другие выбираемые объекты.

У Pickling есть некоторые недостатки, самый большой из которых может заключаться в том, что вы можете распаковать свои данные только с помощью Python – если вам нужно кросс-языковое решение, JSON определенно лучший вариант. И, наконец, помните, что сериализованные объекты можно использовать для переноса кода, который вы не обязательно хотите выполнять.

Источник

Введение в модуль Python Pickle

Вступление

Если вы являетесь разработчиком Python, то однажды вам может понадобиться способ хранения ваших объектов Python для последующего использования. Ну, а что, если я скажу вам, что вы тоже можете мариновать объекты Python?

Сериализация

Сериализация-это процесс преобразования объектов или структур данных в байтовые потоки или строки. Поток байтов – это, ну, поток байтов-один байт состоит из 8 битов нулей и единиц. Затем эти байтовые потоки могут быть легко сохранены или переданы. Это позволяет разработчикам сохранять, например, данные конфигурации или прогресс пользователя, а затем хранить их (на диске или в базе данных) или отправлять в другое место.

Травление (или сериализацию вообще) не следует путать со сжатием. Целью травления является перевод данных в формат, который может быть перенесен из оперативной памяти на диск. Сжатие, с другой стороны, представляет собой процесс кодирования данных с использованием меньшего количества битов (для экономии дискового пространства).

Сериализация особенно полезна в любом программном обеспечении, где важно иметь возможность сохранить некоторый прогресс на диске, выйти из программы и затем загрузить прогресс обратно после повторного открытия программы. Видеоигры могут быть наиболее интуитивным примером полезности сериализации, но есть много других программ, где сохранение и загрузка прогресса пользователя или данных имеет решающее значение.

Пикл против ДЖЕЙСОНА

Есть вероятность, что вы слышали о JSON (JavaScript Object Notation), который является популярным форматом, который также позволяет разработчикам сохранять и передавать объекты, закодированные в виде строк. Этот метод сериализации имеет некоторые преимущества перед травлением. Формат JSON удобочитаем для человека, не зависит от языка и работает быстрее, чем pickle.

Однако у него есть и некоторые важные ограничения. Самое главное, что по умолчанию только ограниченное подмножество встроенных типов Python может быть представлено JSON. С помощью Pickle мы можем легко сериализовать очень большой спектр типов Python и, что немаловажно, пользовательские классы. Это означает, что нам не нужно создавать пользовательскую схему (как мы делаем для JSON) и писать подверженные ошибкам сериализаторы и парсеры. Все тяжелые подъемы делаются за вас с Рассолом.

Что можно мариновать и не мариновать

Следующие типы могут быть сериализованы и десериализованы с помощью модуля Pickle:

Кроме того, функции маринуются по ссылкам на их имена, а не по их значению. Полученный рассол не содержит информации о коде или атрибутах функции. Таким образом, вы должны убедиться, что среда, в которой функция не загружена, может импортировать эту функцию. Другими словами, если мы замаринуем функцию, а затем распакуем ее в среде, где она либо не определена, либо не импортирована, возникнет исключение.

Также очень важно отметить, что маринованные предметы могут быть использованы злонамеренно. Например, распаковка данных из ненадежного источника может привести к выполнению вредоносного фрагмента кода.

Выбор списка Python

Следующий очень простой пример показывает основы использования модуля Pickle в Python 3 :

В строке 6 мы используем метод pickle.dump() для маринования нашего тестового списка и хранения его внутри test_pickle.pkl файл.

Я рекомендую вам попробовать открыть сгенерированный файл pickle в вашем текстовом редакторе. Вы быстро заметите, что поток байтов определенно не является удобочитаемым форматом.

Распаковка списка Python

Теперь давайте распакуем содержимое файла test pickle и вернем наш объект в его первоначальную форму.

Как видите, эта процедура не сложнее, чем когда мы выбирали объект. В строке 3 мы открываем наш test_pickle.pkl файл снова, но на этот раз наша цель-прочитать ( r ) двоичные данные ( b ), хранящиеся в нем.

Затем вы можете распечатать содержимое списка, чтобы убедиться, что он идентичен списку, который мы замариновали в предыдущем примере. Вот результат выполнения приведенного выше кода:

Травление и распаковка пользовательских объектов

Как я уже упоминал ранее, используя Pickle, вы можете сериализовать свои собственные пользовательские объекты. Взгляните на следующий пример:

В выводе приведенного выше скрипта вы увидите следующую ошибку:

Вывод

Как вы можете видеть, благодаря модулю Pickle сериализация объектов Python довольно проста. В наших примерах мы мариновали простой список Python, но вы можете использовать тот же самый метод для сохранения большого спектра типов данных Python, если вы убедитесь, что ваши объекты содержат только другие маринуемые объекты.

Маринование имеет некоторые недостатки, самым большим из которых может быть тот факт, что вы можете распаковать свои данные только с помощью Python – если вам нужно кросс-языковое решение, JSON определенно является лучшим вариантом. И, наконец, помните, что соленые огурцы могут использоваться для переноса кода, который вы не обязательно хотите выполнять. Как и в случае с маринованной пищей, пока вы получаете маринованные огурцы из надежных источников, вы должны быть в порядке.

Источник

Pickle — сериализация объектов Python / pd 9

Модуль pickle предоставляет мощный алгоритм сериализации и десериализации структур данных Python. Pickling — это процесс, при котором иерархия объекта конвертируется в поток байтов.

Это позволяет переносить и хранить объект, так что получатель может восстановить его, сохранив все оригинальные черты.

Сериализация объекта с помощью cPickle

Формат данных, используемый pickle (или cPickle), универсален для Python. По умолчанию для превращения в человекочитаемый вид используется представление в виде ASCII. Затем, открыв файл в текстовом редакторе, можно понять его содержимое. Для использования модуля его сначала нужно импортировать:

Теперь выполним сериализацию с помощью функции dumps() модуля cPickle.

Когда данные сериализованы, их можно записать в файл, отправить через сокет, канал или другими способами.

А после передачи их можно пересобрать (выполнить десериализацию) с помощью функции loads() из модуля cPickle.

Процесс “pickling” в pandas

Когда дело доходит до сериализации (или десериализации), то pandas с легкостью справляется с задачей. Не нужно даже импортировать модуль cPickle, а все операции выполняются неявно.

Также формат сериализации в pandas не целиком в ASCII.

Для его открытия используется следующая команда:

0	1	2	3
up	0	1	2	3
down	4	5	6	7
left	8	9	10	11
right	12	13	14	15

На этом примере видно, что все нюансы скрыты от пользователя pandas, что делает работу простой и понятной, особенно для тех, кто занимается непосредственно анализом данных.

Примечание. При использовании формата важно убедиться, что открываемый файл безопасен. Формат не очень защищен от вредоносных данных.

Источник

Как хранить объекты Python со сложной структурой

Leo Matyushkin

Время от времени требуется сохранить на диск или отослать по сети объект со сложной структурой. Например, текущее состояние нейронной сети, находящейся в процессе обучения. Процесс перевода структуры данных в цепочку битов называется сериализацией.

После прочтения статьи вы будете знать:

Сериализация в Python

Итак, сериализация (англ. serialization, marshalling) – это способ преобразования структуры данных в линейную форму, которую можно сохранить или передать по сети. Обратный процесс преобразования сериализованного объекта в исходную структуру данных называется десериализацией (англ. deserialization, unmarshalling).

В стандартной библиотеке Python три модуля позволяют сериализовать и десериализовать объекты:

Кроме того, Python поддерживает XML, который также можно применять для сериализации объектов.

Модуль json обеспечивает работу со стандартными файлами JSON. Это широко используемый формат обмена данными, удобный для чтения и не зависящий от языка программирования. С помощью модуля json вы можете сериализовать и десериализовать стандартные типы данных Python:

Внутри модуля pickle

Модуль pickle содержит четыре основные функции:

В коде ниже показано, как создаётся и сериализуется экземпляр класса. Затем мы изменяем значение внутреннего словаря. Для восстановления исходной структуры можно использовать сохранённый с помощью pickle объект.

Таким образом, pickle создаёт глубокую копию исходной структуры.

Форматы протоколов модуля pickle

Модуль pickle специфичен для Python — результаты сериализации могут быть прочитаны только другой программой на Python. Но даже если вы работаете только с Python, полезно знать, как модуль эволюционировал со временем. От версии протокола зависит совместимость. Сейчас существует 6 версий протоколов:

Сериализуемые и несериализуемые типы

Попытавшись запустить эту программу, мы получим исключение: pickle не может сериализовать лямбда-функцию:

Попробуем заменить pickle на dill (библиотеку можно установить с помощью pip):

Запустим код и увидим, что модуль dill сериализует лямбда-функцию без ошибок:

Ещё одна особенность dill заключается в том, что он умеет сериализовать сеанс интерпретатора:

В этом примере после запуска интерпретатора и ввода нескольких выражений мы импортируем модуль dill и вызываем dump_session() для сериализации сеанса в файле test.pkl в текущем каталоге:

Запустим новый экземпляр интерпретатора и загрузим файл test.pkl для восстановления последнего сеанса:

В подобных случаях нужно исключить несериализуемый объект из процесса сериализации и повторно инициализировать после десериализации.

В следующем примере показано, как можно определить класс с несколькими атрибутами и исключить один атрибут из сериализации с помощью __getstate__() :

Если мы запустим этот пример, а затем десериализуем объект, то увидим, что новый экземпляр не содержит атрибут c :

Мы также можем выполнить дополнительные инициализации в процессе десериализации. Например, добавить исключённый объект c обратно в десериализованную сущность. Для этого используется метод __setstate__() :

Сжатие сериализованных объектов

Формат данных pickle является компактным двоичным представлением структуры объекта, но мы всё равно можем её оптимизировать, используя сжатие. Для bzip2-сжатия сериализованной строки можно использовать модуль стандартной библиотеки bz2 :

Безопасность отправки данных в формате pickle

Процесс сериализации удобен, когда необходимо сохранить состояние объекта на диск или передать по сети. Однако это не всегда безопасно. Как мы обсудили выше, при десериализации объекта в методе __setstate__() может выполняться любой произвольный код. В том числе код злоумышленника.

Простое правило гласит: никогда не десериализуйте данные, поступившие из подозрительного источника или ненадёжной сети. Чтобы предотвратить атаку посредника, используйте модуль стандартной библиотеки hmac для создания подписей и их проверки.

Вы можете протестировать этот скрипт на Mac или Linux, открыв терминал и набрав команду nc для прослушивания порта 8080 :

Это будет терминал атакующего. Затем открываем терминал на том же компьютере (или другом компьютере той же сети) и выполняем приведённый код Python. IP-адрес в коде нужно заменить на IP-адрес атакующего терминала. Выполнив следующую команду, жертва предоставит атакующему доступ:

При запуске скрипта жертвой в терминале злоумышленника оболочка Bash перейдёт в активное состояние:

Эта консоль позволить атакующему работать непосредственно на вашей системе.

Заключение

Теперь вы знаете, как работать с модулями pickle и dill для преобразования иерархии объектов со сложной структурой в поток байтов. Структуры можно сохранять на диск или передавать в виде байтовой строки по сети. Вы также знаете, что процесс десериализации нужно использовать с осторожностью. Если у вас остались вопросы, задайте их в комментарии под постом.

Источник

Модуль Pickle в Python

Pickle в Python используется для сериализации и десериализации структуры объекта. Любой объект можно законсервировать, чтобы потом сохранить на диске.

Сначала pickle сериализует объект, а затем преобразует объект в символьный поток, чтобы он содержал всю информацию, необходимую для восстановления объекта в другом скрипте.

Обратите внимание, что модуль pickle не защищен от ошибочных или злонамеренно созданных данных в соответствии с документацией. Поэтому никогда не отбирайте данные, полученные из ненадежных или не аутентифицированных источников.

pickle.dump()

В этом разделе мы узнаем, как хранить данные с помощью Python pickle. Для этого мы должны сначала импортировать модуль pickle.

Затем используйте функцию pickle.dump() для сохранения данных объекта в файле. Функция pickle.dump() принимает 3 аргумента. Первый аргумент – это объект, который вы хотите сохранить. Второй аргумент – это объект файла, который вы получаете, открывая желаемый файл в двоичном режиме записи (wb). И третий аргумент – это аргумент «ключ-значение». Этот аргумент определяет протокол. Существует два типа протокола – pickle.HIGHEST_PROTOCOL и pickle.DEFAULT_PROTOCOL. Пример кода:

Следующая программа предложит вам ввести некоторые данные. В моем случае это было так.

pickle.load()

Чтобы получить данные, шаги довольно просты. Для этого вам нужно использовать функцию pickle.load(). Основным аргументом функции загрузки pickle является объект файла, который вы получаете, открывая файл в режиме двоичного чтения (rb).

Давайте напишем код для получения данных, которые мы обработали, используя код дампа pickle.

Результат будет следующим:

Пример

Я сделал короткое видео, показывающее выполнение примеров программы pickle – сначала для сохранения данных в файл, а затем для их загрузки и печати.

Как вы можете видеть, файл, созданный через pickle dump, является двоичным файлом и показывает символы мусора в текстовом редакторе.

Важные замечания

Несколько важных моментов о модуле pickle в python:

Источник

Онлайн портал по обучению иностранным языкам.

Как открыть pkl файл python

Модуль Pickle в Python

Что такое сериализация в Python?

Сравнение pickle и JSON

Что можно сериализовать?

Использование модуля

Распаковка

Сериализация и распаковка нестандартных объектов

Заключение