Используя Python, мы можем легко создать таблицу из любых необработанных данных. Необработанные данные поступают во многих форматах, но процесс практически одинаков для всех них. В этой статье мы сосредоточимся на том, как преобразовать raw-файл в XLS-файл с помощью Python.

Сначала нам нужно понять, что такое необработанные данные. Необработанные данные — это, как правило, файл, содержащий неформатированные или необработанные данные. Это может быть изображение, звуковой файл, обычный текстовый файл или даже данные, хранящиеся в базе данных SQL. Необработанный файл содержит данные в их исходном состоянии, что означает, что его может быть трудно прочитать или проанализировать.

Чтобы создать таблицу из необработанных данных, нам нужно обработать ее, упорядочив данные по строкам и столбцам. Мы можем использовать библиотеку Python pandas для создания фрейма данных из необработанного файла. Pandas — это мощная библиотека, предоставляющая структуры данных и инструменты анализа данных.

Одна из самых важных вещей, которую необходимо учитывать перед созданием таблицы, — это убедиться, что у нас есть правильный набор информации для создания таблицы. Нам нужно определить столбцы таблицы, заголовки и тип данных для каждого столбца. Эта информация имеет решающее значение, поскольку она определит, как будут организованы данные и как мы будем их анализировать.

Как только у нас будет готова необходимая информация, теперь мы можем использовать Python для создания таблицы из необработанных данных. Первое, что нужно сделать, это импортировать pandas в нашу программу на Python. Мы можем сделать это, выполнив команду “импортировать pandas как pd”. Это импортирует библиотеку pandas и дает нам доступ ко всем функциям и методам, которые нам нужны.

После импорта pandas мы затем будем использовать метод pandas read_csv для загрузки необработанного файла. Например, мы хотим загрузить необработанный файл с именем data.txt . Мы запустим команду “df=pd.read_csv(‘data.txt ’).” Функция read_csv загрузит файл во фрейм данных.

Затем мы можем отобразить таблицу, выполнив команду “print(df)”. Это выведет фрейм данных на консоль. Из выходных данных мы можем наблюдать, что данные организованы в строки и столбцы с заголовками, соответствующими столбцам. Кроме того, мы можем наблюдать, что pandas автоматически определил тип данных каждого столбца, который он отображает рядом с заголовком столбца.

Мы можем редактировать таблицу, добавляя или удаляя из нее данные. Добавление данных так же просто, как добавление строк к фрейму данных с помощью метода “df.append()”. С другой стороны, удаление данных выполняется с помощью метода “df.drop()”.

Библиотека Python pandas позволяет легко создавать таблицу из необработанных данных. Используя pandas, мы можем загрузить необработанный файл, создать фрейм данных и отобразить таблицу. Мы также можем редактировать таблицу, добавляя или удаляя данные. Правильно отформатировав данные, мы можем проанализировать их и извлечь из них ценную информацию. Важность визуализации необработанных данных в табличном формате невозможно переоценить, поскольку это помогает нам видеть закономерности в данных, выявлять выбросы и принимать решения, основанные на данных.

Делаем  нормальную таблицу в Excel, со столбцами и строками

Итак, у нас есть некие сырые данные. Либо это парсинг чего-либо, либо просто набор каких-то символов, цифр, etc. Возможно, это выгрузка это будет выгрузка CSV, но в любом случае нам нужно сделать из этого нормальную таблицу в Excel — со столбцами и строками. Исходник:

RAW to XLS: как создать таблицу из данных с помощью Python

Как мы будем это делать? Вне зависимости от того, в каком виде к вам попали эти данные — скопируйте их в текстовый документ, в блокнот или notepad++ (да, при большом объеме данных придётся подождать)

RAW to XLS: как создать таблицу из данных с помощью Python

Важный момент конкретно в этом примере — наличие разделителя, т.е. запятая после каждого элемента данных. Он может быть любой, не обязательно именно запятая. Без него будет несколько сложнее.

Код

Будем работать с библиотекой Pandas, для работы с датафреймами. В переменную Excel записываем наш текстовый файл (если не писать путь до него, то он должен находится в одной папке со скриптом).

Далее вызываем метод чтения данных CSV с параметрами, где sep — это разделитель.

Зачем мы добавляем error_bad_lines=False в параметры? Если наш парсер не сможет обработать какие-то строки, то выдаст ошибку pandas.errors.ParserError: Error tokenizing data и выполнение скрипта прекратится. Чтобы этого избежать мы даём команду игнорировать ошибки при обработке.

Записываем в переменную список всех имён столбцов (column_indexes). Сбрасываем индексы (df.reset_index), удаляем первый столбец df.drop (если вам нужен дополнительный столбец ID, который идёт первым, то можете этого не делать, если нужны только оригинальные данные — оставляем код)

После чего подставляем (переименовываем) названия столбцов и записываем результат в Excel.

Полный код:

import pandas as pd    excel = 'raw_data2.txt'    df = pd.read_csv(excel, sep=',', error_bad_lines=False)    column_indexes = list(df.columns)    df.reset_index(inplace=True)  df.drop(columns=df.columns[0], inplace=True)    column_indexes = dict(zip(list(df.columns), column_indexes))    df.rename(columns=column_indexes, inplace=True)  df.to_excel('output_2.xlsx', 'Sheet1', index=False)

Можно ли это сделать с помощью Excel?

Теоретически — можно, если Power Query сможет разобрать, что написано в вашем файле. Делается это просто: в Excel переходим во вкладку «Данные» и блок  «Получить и преобразовать данные«. Нажимаем на «Из текстового/CSV-файла«.

RAW to XLS: как создать таблицу из данных с помощью Python

Выбираем текстовый документ с данными и механизм выдаст нам уже подготовленные данные:

RAW to XLS: как создать таблицу из данных с помощью Python

Нажимаем «Преобразовать данные» и получаем готовую таблицу (если всё ок просто нажмите «Загрузить и закрыть» в левом верхнем углу)

RAW to XLS: как создать таблицу из данных с помощью Python

  

Добавить комментарий