Использование библиотеки Pandas для анализа данных
Аннотация
Рассмотрены использование библиотеки Pandas для анализа массивов данных, достоинства данной библиотеки для проведения действий с числовыми данными и временными рядами, представленными в виде числовых таблиц. Для сравнения указаны недостатки обработки массивов данных в среде Excel с помощью моделей трендового анализа, таких как линейная, логарифмическая, полиномиальная, степенная, экспоненциальная, возможность обработки данных библиотекой Pandas из разных программных сред, таких как HTML, и буфера обмена данных.
Ключевые слова
Тип | Статья |
Издание | Мир образования — образование в мире № 01/2023 |
Страницы | 184-188 |
УДК | 511-33+519.66+378.4 |
DOI | 10.51944/20738536_2023_1_184 |
Библиотека Pandas является наиболее популярной для анализа данных. Она позволяет работать с различными источниками данных. Возникает вопрос, почему не обработать данные на языке Python или каком-нибудь алгоритмическом языке. На самом деле Python не самый быстрый язык, и если у нас большой массив данных, его надо как-то прочитать, например, из среды Excel, и затем как-то обработать. Для этого подходит библиотека Pandas, которая является мощным и довольно быстрым инструментом, так как она работает с данными, загруженными в оперативную память. В своей работе Pandas использует библиотеку нижнего уровня NumPy, представляет собой структуры данных и дает возможность проводить действия с числовыми данными и временными рядами, то есть является библиотекой более высокого уровня [3]. Pandas может забирать данные из электронных таблиц и SQL запросами и выбирать данные из баз данных, из среды HTML и даже из буфера обмена при необходимости. Полученные данные Python выстраивает у себя в виде таблиц, что представляет удобный интерфейс для пользователя. Возникает вопрос, зачем использовать Pandas, если можно взять файл из среды Excel и использовать его для работы. Но если приходится работать с большим объемом данных, например, с данными из интернетмагазина помесячно за год, имеется большое количество файлов, каждый файл содержит тысячи или миллионы строк и необходимо свести данные многих файлов в единый отчет, то данная операция в Excel будет вызывать проблемы. Для Pandas работа с большим количеством файлов и записей внутри файла не представляет трудностей. Так как Pandas является библиотекой для Python, то необходимы минимальные знания языка Python.
При выполнении практической работы со студентами по обработке данных по заболеванию коронавирусом в Москве мы использовали программную среду Excel и встроенный математический аппарат для трендового анализа. В качестве временного интервала взяли два месяца — июль и август 2022 года.
Исходные данные представлены в таблице 1.
Таблица 1
Количество инфицированных коронавирусом в Москве за июль и август 2022 года