Дата публикации: 31.12.2022

Использование библиотеки Pandas для анализа данных

Аннотация

Рассмотрены использование библиотеки Pandas для анализа массивов данных, достоинства данной библиотеки для проведения действий с числовыми данными и временными рядами, представленными в виде числовых таблиц. Для сравнения указаны недостатки обработки массивов данных в среде Excel с помощью моделей трендового анализа, таких как линейная, логарифмическая, полиномиальная, степенная, экспоненциальная, возможность обработки данных библиотекой Pandas из разных программных сред, таких как HTML, и буфера обмена данных.




Библиотека Pandas является наиболее популярной для анализа данных. Она позволяет работать с различными источниками данных. Возникает вопрос, почему не обработать данные на языке Python или каком-нибудь алгоритмическом языке. На самом деле Python не самый быстрый язык, и если у нас большой массив данных, его надо как-то прочитать, например, из среды Excel, и затем как-то обработать. Для этого подходит библиотека Pandas, которая является мощным и довольно быстрым инструментом, так как она работает с данными, загруженными в оперативную память. В своей работе Pandas использует библиотеку нижнего уровня NumPy, представляет собой структуры данных и дает возможность проводить действия с числовыми данными и временными рядами, то есть является библиотекой более высокого уровня [3]. Pandas может забирать данные из электронных таблиц и SQL запросами и выбирать данные из баз данных, из среды HTML и даже  из буфера обмена при необходимости. Полученные данные Python выстраивает у себя в виде таблиц, что представляет удобный интерфейс для пользователя. Возникает вопрос, зачем использовать Pandas, если можно взять файл из среды Excel и использовать его для работы. Но если приходится работать с большим объемом данных, например, с данными из интернетмагазина помесячно за год, имеется большое количество файлов, каждый файл содержит тысячи или миллионы строк и необходимо свести данные многих файлов в единый отчет, то данная операция в Excel будет вызывать проблемы. Для Pandas работа с большим количеством файлов и записей внутри файла не представляет трудностей. Так как Pandas является библиотекой для Python, то необходимы минимальные знания языка Python.

При выполнении практической работы со студентами по обработке данных по заболеванию коронавирусом в Москве мы использовали программную среду Excel и встроенный математический аппарат для трендового анализа. В качестве временного интервала взяли два месяца — июль и август 2022 года.

Исходные данные представлены в таблице 1.

Таблица 1 

Количество инфицированных коронавирусом в Москве за июль и август 2022 года 

Список литературы

1. 1. Судариков Г. В. Использование ряда Фурье для экономических расчетов / Г. В. Судариков, Н. Д. Саркисян // В сб. : Актуальные проблемы современной России: психология, педагогика, экономика, управление и право. Сб. статей и тезисов / гл. ред. И. В. Вологд
2. 2. Судариков Г. В. Анализ и прогнозирование экономической информации в области искусственного интеллекта / Г. В. Судариков, Н. Д. Саркисян // В сб. : Актуальные проблемы современной России: психология, педагогика, экономика, управление и право : сб. стате
3. 3. Судариков Г. В. Числовые ряды / Г. В. Судариков // Высшая математика. Числовые, функциональные и степенные ряды : учеб. пособие. — М., 2017. — С. 4–29.
4. 4. Судариков Г.В.Трендовый анализ социально-экономических процессов средствами Excel / Г. В. Судариков, Н. Д. Саркисян // В сб. : Актуальные проблемы современной России: психология, педагогика, экономика, управление и право : сб. науч. тр. — М., 2022. — С

Остальные статьи