Интеллектуальный анализ факторов, влияющих на статус заказа клиента

Научная статья
DOI:
https://doi.org/10.60797/itech.2025.8.1
Выпуск: № 4 (8), 2025
Предложена:
24.02.2025
Принята:
15.07.2025
Опубликована:
14.10.2025
11
1
XML
PDF

Аннотация

В данной работе проводится интеллектуальный анализ данных интернет-магазина техники с целью выявления ключевых факторов, оказывающих влияние на статус заказа клиента. Исследование включает анализ различных характеристик клиентов и их заказов, таких как пол, возраст, стоимость заказа, участие в программе лояльности и другие параметры. Для оценки взаимосвязей между этими характеристиками и статусом заказа проведен расчет коэффициентов корреляции, что позволило выявить наиболее значимые факторы, влияющие на процесс оформления и выполнения заказов. Результаты данного анализа могут быть использованы для оптимизации бизнес-процессов интернет-магазина, повышения эффективности логистики, улучшения прогнозирования спроса и минимизации рисков, связанных с отменой или задержкой заказов.

1. Введение

В условиях стремительного развития электронной коммерции и цифровизации бизнес-процессов особое значение приобретает задача эффективного управления заказами клиентов. Одним из ключевых аспектов в этой области является анализ факторов, влияющих на статус заказа, что позволяет оптимизировать бизнес-процессы, повысить удовлетворённость клиентов и снизить издержки. Современные методы интеллектуального анализа данных, в частности машинное обучение и глубокое обучение, предоставляют широкие возможности для решения подобных задач.

Ранее для анализа факторов, влияющих на заказы, применялись преимущественно методы регрессионного анализа и традиционные статистические подходы. Однако современные исследования демонстрируют эффективность использования автоматизированных моделей машинного обучения, которые позволяют выявлять сложные нелинейные зависимости между переменными и обеспечивать более высокую точность прогнозирования.

Целью данной работы является построение и обоснование моделей машинного обучения для анализа влияния различных факторов на статус заказа клиента, а также сравнение эффективности различных подходов. В работе особое внимание уделяется корректному выбору методов, этапам построения модели и интерпретации полученных результатов.

2. Методы и принципы исследования

Описание данных

В исследовании использовался набор данных, содержащий информацию о заказах в интернет-магазине техники за 2023–2024 гг. Для каждого заказа были доступны следующие признаки:

1. Пол клиента (мужской/женский).

2. Возраст клиента.

3. Участие в программе лояльности (да/нет).

4. Способ оплаты (онлайн/наличными).

5. Сумма заказа.

6. Количество товаров в заказе.

7. География доставки (город/регион).

8. Статус заказа (успешно выполнен/отменён/возвращён).

Постановка задачи

Задача формулируется как задача классификации: на основе имеющихся признаков необходимо предсказать статус заказа. Статус заказа рассматривается как целевая переменная с тремя классами.

Предварительная обработка данных

Пропущенные значения обработаны методом медианного заполнения.

Категориальные признаки преобразованы методом однократного кодирования.

Данные разделены на обучающую (70%) и тестовую (30%) выборки.

Выбор и обоснование методов

Для решения задачи классификации были выбраны следующие модели:

Логистическая регрессия — это метод классификации, который использует логистическую функцию для прогнозирования вероятности принадлежности наблюдения к определённому классу

.

Случайный лес — ансамблевый метаалгоритм, предназначенный для улучшения стабильности и точности алгоритмов машинного обучения, используемых в задачах классификации и регрессии

, а также позволяющий выявлять сложные взаимосвязи и обладающий высокой обобщающей способностью.

Градиентный бустинг — современный ансамблевый алгоритм, который широко применяется для задач классификации и регрессии, поскольку обеспечивает высокую точность, устойчивость к переобучению и хорошую работу с данными, содержащими сложные зависимости

.

K-ближайших соседей — выбран для сравнения, так как часто используется для задач классификации с небольшим количеством признаков.

Глубокая нейронная сеть — использовалась для оценки возможности выявления сложных нелинейных зависимостей.

Выбор моделей обусловлен необходимостью сравнения как простых, так и сложных алгоритмов, их интерпретируемости, устойчивости к переобучению и способности работать с разными типами данных.

Оценка качества моделей

Для оценки качества моделей использовались следующие метрики:

1. Accuracy (точность).

2. Оценка F1 для каждого класса.

3. Матрица ошибок (матрица смешения).

4. ROC-AUC (для бинарных классификаций).

Для предотвращения переобучения использовалась кросс-валидация (5-кратная).

3. Основные результаты

Корреляционный анализ

В ходе исследования был проведён комплексный анализ факторов, влияющих на статус заказа клиента интернет-магазина техники. На первом этапе выполнен корреляционный анализ с использованием коэффициента Крамера, который показал, что наиболее существенные связи наблюдаются между статусом заказа и такими признаками, как участие в программе лояльности (0,32), способ оплаты (0,28) и сумма заказа (0,27). Согласно шкале Чеддока, эти значения соответствуют слабой или умеренной связи

, что указывает на ограниченность простого корреляционного анализа для выявления всех закономерностей.

Сравнение моделей

Для более глубокого анализа были построены и сравнены различные модели машинного обучения: логистическая регрессия, случайный лес, градиентный бустинг, метод k-ближайших соседей и глубокое обучение. Сравнение проводилось по метрикам точности (accuracy) и F1-оценки для каждого класса (успешно выполнен, отменён, возвращён).

Таблица 1 - Сравнение эффективности моделей машинного обучения для классификации статуса заказа

Модель

Точность

Оценка F1 (успешно)

Оценка F1 (отмена)

Оценка F1 (возврат)

Примечания

Логистическая регрессия

0,71

0,78

0,65

0,60

Хорошая интерпретируемость, базовый уровень

Случайный лес

0,77

0,82

0,71

0,68

Высокая устойчивость к переобучению

Градиентный бустинг

0,79

0,84

0,74

0,70

Лучшая точность, хорошо работает с данными

K-ближайших соседей

0,69

0,76

0,62

0,58

Чувствителен к масштабу признаков

Глубокое обучение

0,78

0,83

0,72

0,69

Требует больше данных и вычислений

Лучшие результаты продемонстрировал градиентный бустинг с общей точностью 0,79 и наивысшими F1-оценками по всем классам, что объясняется его способностью выявлять сложные нелинейные зависимости и устойчивостью к переобучению. Глубокое обучение показало сопоставимые результаты (точность 0,78), однако требует большего объёма данных и вычислительных ресурсов. Модели случайного леса и логистической регрессии также показали достойные результаты, но уступили по точности ансамблевым методам.

Важность признаков

Анализ важности признаков (по модели случайного леса и градиентного бустинга) показал, что наибольшее влияние на статус заказа оказывают:

1. Сумма заказа.

2. Участие в программе лояльности.

3. Способ оплаты.

4. География доставки.

4. Обсуждение

Полученные результаты исследования подтверждают, что для анализа факторов, влияющих на статус заказа клиента, целесообразно использовать современные ансамблевые методы машинного обучения и глубокое обучение, поскольку они способны выявлять значимые закономерности и тенденции

, сложные и нелинейные взаимосвязи между признаками, которые не обнаруживаются простыми статистическими методами или корреляционным анализом.

Выбор моделей обусловлен их способностью работать с разнородными и частично коррелированными признаками, а также устойчивостью к переобучению, что особенно важно при наличии большого количества параметров и ограниченного объёма данных. Кросс-валидация позволила объективно оценить качество моделей и снизить риск переобучения.

Важно отметить, что коэффициенты корреляции показали лишь слабую или умеренную связь между отдельными признаками и статусом заказа, что свидетельствует о необходимости комплексного подхода к анализу, включающего построение сложных моделей и анализ их интерпретируемости. Кроме того, выявленные значимые факторы (сумма заказа, программа лояльности, способ оплаты, география) могут быть использованы для разработки персонализированных стратегий взаимодействия с клиентами и оптимизации бизнес-процессов.

5. Заключение

В работе проведён всесторонний интеллектуальный анализ факторов, влияющих на статус заказа клиента в интернет-магазине техники. Использование ансамблевых методов машинного обучения и глубоких нейронных сетей позволило достичь наилучших результатов в задаче классификации статуса заказа, что подтверждается высокими значениями точности и F1-оценки.

Наиболее значимыми факторами, влияющими на статус заказа, были определены сумма заказа, участие в программе лояльности, способ оплаты и география доставки. Полученные результаты могут быть практически применены для повышения эффективности логистики, оптимизации бизнес-процессов, улучшения прогнозирования спроса и минимизации рисков отмены или возврата заказов. Кроме того, они создают основу для дальнейших исследований и внедрения персонализированных сервисов в электронной коммерции.

Метрика статьи

Просмотров:11
Скачиваний:1
Просмотры
Всего:
Просмотров:11