Предварительная подготовка данных в Python. Том 1-2
- Добавил: literator
- Дата: 28-01-2023, 03:29
- Комментариев: 0

Автор: Артем Груздев
Издательство: ДМК Пресс
Год: 2023
Страниц: 818+816
Язык: русский
Формат: pdf
Размер: 121,4 MB
В двухтомнике представлены материалы по применению классических методов машинного обучения в различных промышленных задачах. Первый том посвящен инструментам Python – основным библиотекам, классам и функциям, необходимым для предварительной подготовки данных, построения моделей машинного обучения, выполнения различных стратегий валидации. В конце первого тома разбираются задачи с собеседований по SQL, Python, математической статистике и теории вероятностей. Во втором томе рассматривается сам процесс предварительной подготовки данных, а также некоторые метрики качества и ряд полезных библиотек и фреймворков (H2O, Dask, Docker, Google Colab).
NumPy (произносится как нампай) – это один из основных пакетов для вычислений в Python. Он содержит функциональные возможности для работы с многомерными массивами и различными математическими функциями. Основа NumPy – это объект ndarray, n-мерный массив. В Python массив NumPy – это базовая структура данных. Библиотека scikit-learn, с помощью которой мы будем строить модели, требует, чтобы данные были записаны в виде массивов NumPy. Датафреймы pandas, с которыми мы познакомимся позднее, также будут внутренне преобразованы библиотекой scikit-learn в массивы NumPy. Массивы похожи на списки Python, за исключением того, что элементы массива должны иметь одинаковый тип данных, как float и int. С массивами можно проводить числовые операции с большим объемом информации в разы быстрее и, главное, намного эффективнее, чем со списками.
Pandas – одна из самых популярных библиотек для исследования данных с открытым исходным кодом, доступных в настоящее время. Она дает своим пользователям возможность исследовать, манипулировать, запрашивать, агрегировать и визуализировать табличные данные. Табличные данные относятся к двумерным данным, состоящим из строк и столбцов. Обычно мы называем такую организованную структуру данных таблицей. pandas – это инструмент, который мы будем использовать для анализа данных почти в каждом разделе этой книги.
Matplotlib (произносится как матплотлиб) – это основная библиотека для построения научных графиков в Python. Она включает функции для создания визуализаций типа линейных диаграмм, круговых диаграмм, гистограмм, диаграмм разброса и т. д. Библиотека matplotlib имеет иерархическую структуру. Наиболее простыми для понимания являются высокоуровневые функции. Поэтому знакомство с библиотекой matplotlib обычно начинают с самого высокоуровневого интерфейса, предлагаемого модулем pyplot.
Издание рассчитано на специалистов по анализу данных, а также может быть полезно широкому кругу специалистов, интересующихся машинным обучением.
Список книг:
1) Предварительная подготовка данных в Python: Том 1. Инструменты и валидация
2) Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Скачать Предварительная подготовка данных в Python. Том 1-2

[related-news] [/related-news]
Внимание
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.