Перейти до основного контенту

Як зчитувати дані з Excel та розбирати дату за допомогою Pandas

3 хв читання
2173 переглядів

У наш час дані відіграють важливу роль в аналізі та прийнятті рішень. Часто нам доводиться працювати з різними джерелами даних, включаючи таблиці Excel. Pandas є однією з найбільш популярних бібліотек для роботи з даними в пітоні, і у неї є відмінна підтримка для читання даних з Excel.

Одна з часто зустрічаються завдань-робота з датами. Дати можуть бути представлені в різних форматах, і розбір цих даних може бути не завжди простим. Однак, Pandas надає ряд інструментів для роботи з датами, що робить завдання більш простим.

У цій статті я розповім, як зчитувати дані з Excel за допомогою Pandas і як проаналізувати дати. Ми вивчимо різні способи читання даних з Excel, розбір дати з рядкового формату, створення і роботу з об'єктами дати і часу, і багато іншого.

Якщо ви хочете дізнатися, як ефективно працювати з даними з Excel і розбирати дати на Python, то цей матеріал для вас!

Excel в Pandas: як зчитати дані і розібрати дату

Читати дані з файлів Excel за допомогою Pandas дуже просто. Перш ніж почати, переконайтеся, що ви встановили бібліотеку Pandas. Якщо ви ще не встановили його, ви можете зробити це за допомогою наступної команди:

pip install pandas

Після того, як у вас встановлена бібліотека Pandas, ви можете розпочати роботу з файлами Excel. У Pandas є функція read_excel(), яка дозволяє читати дані з файлів Excel. Вона приймає шлях до файлу і повертає DataFrame, що містить дані з файлу.

Одним з найпоширеніших випадків є робота з файлами Excel, що містять дані, що включають дати. При імпорті даних з Excel-файлу Pandas автоматично зчитує дати як об'єкти типу datetime. Однак, іноді може виникнути потреба в розборі дати на її компоненти, такі як рік, місяць і день тижня. Для цього Pandas надає функцію to_datetime().

Приклад використання функції to_datetime() для розбору дати зі стовпця DataFrame:

У цьому прикладі 'Дата' - це назва стовпця, що містить дату. Функція to_datetime() розбирає дату, перетворюючи її у формат типу datetime64, який може бути використаний для виконання різних операцій з датами.

Тепер, коли у вас є стовпець з розібраною датою, ви можете виконувати різні операції з датами за допомогою Pandas. Наприклад, ви можете витягти Рік, місяць і день тижня зі стовпця з розібраною датою за допомогою атрибутів year, month і weekday.

Приклад вилучення року зі стовпця з розібраною датою:

У цьому прикладі ' рік '- це назва стовпця, в який буде збережено рік зі стовпця'Дата'. Атрибут dt використовується для доступу до атрибутів дати, таких як рік, місяць та день тижня.

Це лише невеликий огляд можливостей роботи з даними з файлів Excel за допомогою Pandas. Бібліотека Pandas надає безліч функцій і можливостей для роботи з даними різних типів. Вона є потужним інструментом для аналізу даних і обробки файлів Excel за допомогою Python.

Підготовка даних

Перед тим, як приступати до аналізу даних з Excel за допомогою бібліотеки Pandas, необхідно їх підготувати. Важливо переконатися, що дані мають правильний формат і не містять помилок.

Спочатку потрібно завантажити дані з Excel у Pandas. Для цього можна скористатися функцією read_excel() і вказати шлях до файлу, який необхідно вважати. Якщо файл знаходиться в поточній директорії, можна вказати тільки його ім'я.

Після завантаження даних, необхідно проаналізувати структуру датафрейма і переконатися, що дані правильно вважалися. Для цього можна використовувати методи head(), tail() і info().

Якщо дані містять стовпець з датами, їх потрібно перетворити у правильний формат. Для цього можна скористатися методом to_datetime() і вказати формат дати. Якщо дата містить час, необхідно також вказати формат часу.

Після перетворення дати, можна виконувати різні операції з даними, такі як фільтрація, сортування і агрегація. Pandas надає багато зручних методів для роботи з датами, таких як dt.month для отримання Місяця, dt.day для отримання дня і dt.year для отримання року.

Налаштування середовища та встановлення бібліотек

Для роботи з даними з Excel і розбору дати скористаємося Python і бібліотекою Pandas. Перш ніж почати, необхідно налаштувати середовище розробки і встановити всі необхідні бібліотеки.

1. Встановлення Python: перейдіть на офіційний веб-сайт Python (https://www.python.org/ downloads/) та завантажте останню версію Python для вашої операційної системи. Дотримуйтесь інструкцій по установці. Переконайтеся, що Python успішно встановлено, перевіривши його версію в командному рядку:

2. Установка бібліотек: для роботи з даними з Excel і розбору дати, необхідні наступні бібліотеки: Pandas, openpyxl. Встановіть їх за допомогою команди pip у командному рядку:

pip install pandas openpyxl

Після установки бібліотек можна приступити до читання даних з Excel і розбору дати за допомогою Pandas.

Читання даних з Excel

Для початку встановимо бібліотеку Pandas:

pip install pandas

Потім імпортуємо бібліотеку в наш скрипт:

import pandas as pd

Для читання даних з Excel ми будемо використовувати функцію read_excel (). Вона приймає на вхід шлях до файлу Excel і повертає об'єкт DataFrame, який представляє собою таблицю з даними.

Ось приклад використання функції read_excel():

data = pd.read_excel('file.xlsx')

У цьому прикладі ми читаємо дані з файлу ' file.xlsx ' і зберігаємо їх у змінну data.

Якщо наш файл Excel містить кілька аркушів, ми можемо вказати ім'я потрібного аркуша в параметрі sheet_name:

data = pd.read_excel('file.xlsx', sheet_name='Sheet1')

Тепер у нас є Об'єкт DataFrame data, який містить дані з файлу Excel.

Щоб переконатися, що дані були успішно прочитані, ми можемо вивести перші кілька рядків таблиці. Для цього використовуємо метод head ():

print(data.head())

Метод head () виводить перші п'ять рядків таблиці. Якщо нам потрібно вивести більше рядків, ми можемо передати параметр із потрібною кількістю рядків:

print(data.head(10))

Тепер ми знаємо, як читати дані з Excel за допомогою бібліотеки Pandas. Далі ми можемо використовувати отримані дані для роботи та аналізу.

Використання бібліотеки Pandas для читання файлів Excel

Для початку роботи з Excel-файлами в Pandas необхідно встановити бібліотеку за допомогою команди:

!pip install pandas

Після успішної інсталяції Pandas можна використовувати для читання файлів Excel за допомогою функції read_excel (). Ця функція може приймати різні параметри, які дозволяють налаштувати процес читання файлів.

Перш ніж працювати з файлом, необхідно імпортувати бібліотеку Pandas:

import pandas as pd

Розглянемо приклад читання даних з Excel-файлу:

df = pd.read_excel("file.xlsx")

У цьому прикладі ми використовували функцію read_excel () для читання даних з файлу під назвою " file.xlsx". Результат читання зберігається у змінну df . Після цього дані з файлу будуть доступні у вигляді таблиці, яку можна обробляти за допомогою функцій Pandas.

Метод read_excel() також дозволяє задавати різні параметри читання, наприклад:

  • sheet_name-ім'я аркуша Excel, який потрібно прочитати;
  • header-номер рядка, з якого починаються імена стовпців;
  • index_col - номер стовпця, який буде використовуватися як індекс;
  • usecols-список стовпців, які потрібно прочитати;
  • dtype-словник, що задає типи даних для стовпців.

Наприклад, наступний код читає дані з аркуша "Sheet1" і використовує перший стовпець як індекс:

df = pd.read_excel("file.xlsx", sheet_name="Sheet1", index_col=0)

Використання бібліотеки Pandas для читання Excel-файлів робить процес роботи з даними максимально зручним і ефективним. Ця бібліотека надає величезну кількість функцій і можливостей для аналізу і обробки даних, що робить її невід'ємною частиною роботи з Excel-файлами.

Розбір дати в Pandas

При роботі з даними в Pandas дуже важливо вміти зчитувати і розбирати дату. Дати можуть бути представлені в різних форматах, наприклад, "yyyy-mm-DD" або "DD/mm/yyyy". Pandas надає потужні інструменти для роботи з датами, які дозволяють легко і гнучко розбирати і обробляти дати.

Для початку, нам знадобиться імпортувати бібліотеку Pandas:

import pandas as pd

Припустимо, у нас є датафрейм з даними в форматі Excel і однією з колонок містить дати. Щоб прочитати дані з Excel, можна скористатися функцією read_excel () :

df = pd.read_excel('data.xlsx')

Для розбору дати в Pandas використовується функція to_datetime (). Вона дозволяє вказати формат дати, якщо він відрізняється від стандартного формату "yyyy-mm-DD". Наприклад, якщо дати в колонці мають формат "dd/mm / yyyy", можна використовувати наступний код:

df['date'] = pd.to_datetime(df['date'], format='%d/%m/%Y')

Після виконання цього коду, колонка з датами буде містити правильно розібрані дати. Тепер з ними можна проводити різні операції, наприклад, сортувати дані за датою або обчислювати різницю між датами.

Якщо дати в колонці мають формат "yyyy-mm-DD", то нам не потрібно вказувати формат, так як він збігається зі стандартним. Можна просто використовувати наступний код:

df['date'] = pd.to_datetime(df['date'])

Крім того, можна використовувати функцію parse_dates при читанні даних з Excel, щоб Pandas автоматично розібрав дати:

df = pd.read_excel('data.xlsx', parse_dates=['date'])

Після цього датафрейм буде містити стовпець з розібраними датами.

Оригінальна датаРозібрана дата
2025-01-012025-01-01
31.12.20252025-12-31
01/01/20252025-01-01

Як видно з прикладу, Pandas успішно розібрав дати в різних форматах і перетворив їх в стандартний формат.

Розбір дати в Pandas-це важлива і корисна операція, яка дозволяє працювати з датами в зручному форматі і виконувати різні операції з ними.