pandas
pandas — програмна бібліотека, написана для мови програмування Python для маніпулювання даними та їхнього аналізу. Вона, зокрема, пропонує структури даних та операції для маніпулювання чисельними таблицями та часовими рядами. pandas є вільним програмним забезпеченням, що випускається за трипунктовою ліцензією BSD[5]. Ця назва походить від терміну «панельні дані» (англ. panel data), який в економетрії позначає багатовимірні структуровані набори даних.
Тип | бібліотека Pythond і numerical softwared |
---|---|
Автор(и) | Вес Маккінніd[1] |
Розробник | Спільнота |
Стабільний випуск | 0.23.4[2] (3 серпня, 2018 ) |
Версії | 1.4.1 (12 лютого 2022)[3] |
Репозиторій | github.com/pandas-dev/pandas |
Операційна система | Багатоплатформова |
Мова програмування | Python[4] |
Ліцензія | Ліцензія BSD |
Онлайн-документація | pandas.pydata.org/docs/user_guide/index.html#user-guide |
Вебсайт | pandas.pydata.org |
Можливості бібліотеки
- Об'єкт DataFrame із вбудованим індексуванням для маніпулювання даними.
- Інструменти для зчитування та записування даних між структурами даних у пам'яті та різними форматами файлів.
- Вирівнювання даних та вбудована підтримка пропущених даних.
- Переформатовування для отримання зведених наборів даних.
- Отримання зрізів за мітками, індексування з розширеними можливостями[6] та отримання піднаборів з великих наборів даних.
- Вставляння та вилучення стовпчиків у структурах даних.
- Рушій групування, що дозволяє робити з наборами даних операції розділення-зміни-об'єднання (англ. split-apply-combine).
- Злиття та з'єднання наборів даних.
- Ієрархічне індексування осей для роботи з даними високої вимірності в структурі даних нижчої вимірності.
- Функціональність для часових рядів: породження діапазонів дат та перетворення частоти, статистики рухливого вікна, лінійні регресії рухливого вікна, зсування дат та запізнювання.
Цю бібліотеку сильно оптимізовано за продуктивністю, критичні ланцюжки коду написано мовами Cython та C.[7]
DataFramse
Pandas в основному використовується для аналізу даних. Pandas дозволяє імпортувати дані з різних форматів файлів, таких як значення, розділені комами, JSON, SQL, Microsoft Excel. Pandas дозволяє здійснювати різні операції з обробкою даних, такі як об'єднання, зміна форми, вибір, а також очищення даних та функції перегляду даних.[8] reshaping,[9]
Індексування DataFrames
Існує кілька способів індексування Pandas DataFrames. Один із найпростіших способів зробити це за допомогою позначення у квадратних дужках.
У наведеному нижче прикладі можна використати квадратні дужки для вибору одного стовпця автомобільної рамки даних. Ви можете використовувати як одну, так і подвійну дужку. Одинарна дужка виводить серію Pandas, тоді як подвійна дужка виводить Pandas DataFrame. [10]
# Import pandas and cars.csv import pandas as pd cars = pd.read_csv('cars.csv', index_col = 0) # Print out country column as Pandas Series print(cars['cars_per_cap']) # Print out country column as Pandas DataFrame print(cars[['cars_per_cap']]) # Print out DataFrame with country and drives_right columns print(cars[['cars_per_cap', 'country']])
Історія
Розробник Вес Маккінні почав працювати над pandas 2008 року, коли був у AQR Capital Management, через потребу у високопродуктивному, гнучкому інструменті для здійснення кількісного аналізу фінансових даних. Перед тим, як покинути AQR, він зміг переконати керівництво дозволити йому віддати цю бібліотеку у відкритий доступ.
Інший співробітник AQR, Чан Ше (англ. Chang She), приєднався до цих зусиль 2012 року як другий з основних за внеском до цієї бібліотеки.
Див. також
- matplotlib
- NumPy
- SciPy
- R (мова програмування)
- scikit-learn
- Statsmodels
Примітки
- https://wesmckinney.com/pages/about.html
- Release Notes – pandas 0.23.4 documentation. pandas. 3 серпня 2018. Процитовано 1 січня 2019.
- Release Pandas 1.4.1
- The py-pandas Open Source Project on Open Hub: Languages Page — 2006.
- http://pandas.pydata.org/pandas-docs/stable/overview.html#license (англ.)
- http://stackoverflow.com/questions/16563552/pandas-fancy-indexing-a-dataframe (англ.)
- http://pandas.pydata.org (англ.)
- https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html
- https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html
- Daniel Chen (2017). Pandas for Everyone: Python Data Analysis. Addison-Wesley Professional. ISBN 978-0134546933.