Перейти до основного контенту

Завантаження даних з Excel у Python: посібник із прикладами

8 хв читання
316 переглядів

Python-одна з найпопулярніших мов програмування, яка широко використовується для аналізу даних. У рамках цієї статті ми розглянемо, як завантажити дані з файлу Excel у Python за допомогою різних бібліотек та модулів.

Excel - це потужний інструмент для обробки даних і широко застосовується в різних галузях, таких як Бухгалтерія, Фінанси, наукові дослідження тощо, завдяки можливості експорту даних із Excel у форматі .xls або .xlsx, ми можемо використовувати Python для виконання додаткових операцій, таких як обробка даних, побудова графіків та звітування.

Існує кілька способів завантаження даних з Excel у Python, але ми розглянемо два найпоширеніші підходи. Перший підхід полягає у використанні модуля pandas, який надає потужні інструменти для обробки даних. Другий підхід заснований на використанні модуля openpyxl, який дозволяє нам працювати безпосередньо з файлами Excel і витягувати дані з них.

Підготовка до роботи

Перед тим як почати роботу з даними в Excel, необхідно встановити і імпортувати необхідні бібліотеки. Для роботи з Excel файлами в Python ми будемо використовувати бібліотеку Pandas.

Встановити бібліотеку Pandas можна за допомогою команди:

!pip install pandas

Після встановлення бібліотеки Pandas потрібно імпортувати її у свій проект. Для цього використовується команда:

import pandas as pd

Також нам може знадобитися бібліотека xlrd для читання файлів Excel старого формату (xls). Встановимо її за допомогою команди:

!pip install xlrd

Після установки бібліотеки xlrd, імпортуємо її в проект:

Після успішної установки та імпорту бібліотек необхідно підготувати Excel файл з даними, які ми збираємося завантажити в Python. Переконайтеся, що файл знаходиться в тому ж каталозі, де знаходиться Ваш проект Python.

Тепер, коли все необхідне готове, ми можемо почати завантажувати дані з Excel у Python за допомогою бібліотеки Pandas.

Встановлення необхідних бібліотек

Для роботи з даними з Excel у Python нам знадобляться деякі сторонні бібліотеки. Основна бібліотека, яку ми будемо використовувати, називається pandas. Вона дозволяє нам завантажувати і обробляти дані з різних форматів, включаючи Excel.

Щоб встановити бібліотеку pandas, можна скористатися пакетним менеджером pip. У командному рядку (терміналі) потрібно виконати наступну команду:

pip install pandas

Крім бібліотеки pandas, для завантаження даних з Excel може знадобитися додаткова бібліотека, звана openpyxl. Вона дозволяє працювати з файлами формату XLSX (Excel 2007 і новіше).

Щоб встановити бібліотеку openpyxl, можна також скористатися пакетним менеджером pip. У командному рядку (терміналі) потрібно виконати наступну команду:

pip install openpyxl

Тепер ми готові почати завантажувати та аналізувати дані з Excel за допомогою бібліотек Python та pandas та openpyxl.

Завантаження даних з Excel

Python надає потужні та гнучкі інструменти для роботи з даними у форматі Excel. З використанням відповідних бібліотек, ви можете легко і зручно завантажувати дані з файлів Excel, обробляти їх і використовувати для аналізу або інших цілей. У цьому розділі ми розглянемо, як завантажити дані з Excel у Python за допомогою кількох прикладів.

Однією з популярних бібліотек для роботи з даними Excel в Python є pandas. Вона забезпечує зручний інтерфейс для читання даних з файлів Excel і подання їх у вигляді таблиці даних, відомої як DataFrame. Далі наведено приклад використання бібліотеки pandas для завантаження даних із файлу Excel:

import pandas as pd# Загрузка данных из Exceldata = pd.read_excel('название_файла.xlsx')# Вывод первых пяти строк данныхprint(data.head())

Після виконання цього коду, дані з файлу Excel будуть завантажені в змінну data у вигляді DataFrame. Ви можете використовувати різні методи та атрибути DataFrame для подальшої роботи з цими даними.

Якщо вам потрібно завантажити лише певні аркуші або стовпці з файлу Excel, ви можете вказати відповідні параметри функції read_excel . Наприклад, щоб завантажити дані лише з аркуша "Аркуш1" і лише зі стовпців "A" та "B" , ви можете використовувати такий код:

data = pd.read_excel('название_файла.xlsx', sheet_name='Лист1', usecols=['A', 'B'])

Крім бібліотеки pandas, існує також ряд інших бібліотек для роботи з даними Excel в Python, таких як openpyxl, xlrd і xlsxwriter. Кожна з цих бібліотек має свої особливості і надає різні можливості для роботи з файлами Excel.

У цьому розділі ми розглянули основні приклади завантаження даних з Excel у Python за допомогою бібліотеки pandas. Вам слід вивчити документацію цих бібліотек і експериментувати з різними функціями і можливостями, щоб повністю освоїти цю тему і успішно застосовувати її в своїх проектах.

Приклади використання

Ось кілька прикладів використання бібліотеки Pandas для завантаження даних з Excel у Python:

1. Завантаження всього листа:

import pandas as pd
data = pd.read_excel('data.xlsx', sheet_name='Sheet1')
print(data)

2. Завантаження певних стовпців:

import pandas as pd
selected_columns = ['Name', 'Age', 'Email']
data = pd.read_excel('data.xlsx', sheet_name='Sheet1', usecols=selected_columns)
print(data)

3. Завантаження даних за допомогою фільтра:

import pandas as pd
data = pd.read_excel('data.xlsx', sheet_name='Sheet1')
filtered_data = data[data['Age'] > 18]
print(filtered_data)

4. Завантаження даних з декількох листів:

import pandas as pd
data = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])
print(data)

Це лише деякі приклади того, як можна використовувати бібліотеку Pandas для завантаження даних з Excel у Python. Завдяки широкому функціоналу бібліотеки, ви можете налаштувати завантаження даних під свої потреби і виконувати різні маніпуляції з ними.