ОЦЕНКА СТОИМОСТИ АВТОМОБИЛЕЙ С ПРИМЕНЕНИЕМ МЕТОДОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
ОЦЕНКА СТОИМОСТИ АВТОМОБИЛЕЙ С ПРИМЕНЕНИЕМ МЕТОДОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА
Аннотация
Если сравнивать рынок подержанных и новых автомобилей, то очевидно, что первый намного больше. В последние годы данный рынок достаточно непредсказуем из-за чего становится очень рисковым. Для помощи в принятии верного решения как покупателю, так и продавцу помогут несколько моделей машинного обучения. Целью работы является определение основных факторов, влияющих на стоимость авто, а также оценка их влияния с помощью алгоритмов искусственного интеллекта. Результат проведенной работы показал, что наиболее влияющими факторами на цену автомобиля являются пробег, возраст, марка, техническое состояние и экономическая ситуация. Полученные данные могут быть полезными для понимания реальной рыночной стоимости подержанного авто.
1. Введение
Актуальность данной работы связана с тем, что цены на авто в России на протяжении последних пяти лет сильно растут. На это влияет множество факторов, которые каждый год добавляются. Последними, с которыми пришлось столкнуться, стали: коронавирус, начало СВО, упадок великих авто брендов, множество ограничений различных стран на продажу иностранных машин. Модели машинного обучения могут анализировать различные характеристики авто и большие объемы данных. Передовые алгоритмы дают возможность высокого точного прогнозирования. Это гораздо эффективнее таких традиционных методов, как однофакторная и многомерная линейная регрессия, которые имеют некоторые минусы. Во-первых, они работают только с линейными зависимостями между переменными. Во-вторых, если данные имеют выбросы или экстремальные значения, прогноз сильно искажается. Применение автоматизированного процесса предсказания цен на автомобили поможет повысить точность прогнозов.
Цель работы: выявить ключевые факторы, влияющие на стоимость авто с применением методов машинного обучения.
Задачи, поставленные перед этой работой:
- изучение различных методов машинного обучения;
- выявление тенденций в оценке автомобилей с использованием искусственного интеллекта (ИИ) и больших данных;
- проанализировать и понять, какие факторы больше всего влияют на цену автомобилей.
2. Основные результаты
Машинное обучение (Machine Learning, ML) — это совокупность методов искусственного интеллекта, с помощью которых можно создавать самообучающиеся компьютерные системы (в частности, нейросети). Для таких систем разработчики не прописывают конкретные алгоритмы решения задач, а предоставляют подготовленные данные и описывают критерии успешного решения, по которым учатся нейросети .
В традиционном программировании для решения некой задачи разработчику необходимо определить алгоритм и «объяснить» его компьютеру с помощью кода на языке программирования. У специалистов по машинному обучению другой подход: они пытаются научить машину «думать», подобно человеку, и самостоятельно находить решения.
Рассмотрим различные методы машинного обучения, которые помогут предсказать цены на подержанные автомобили.
Первый и самый простой метод — это линейная регрессия. Её суть заключается в нахождении наилучшей прямой, которая описывает линейную связь между целевой переменной и множеством объясняющих факторов. В нашем случае объясняющими (независимыми) переменными выступают марка, возраст и пробег автомобиля, а целевой (зависимой) — его цена. Этот метод позволяет выявить общие тенденции, но даёт неточные результаты, если взаимосвязи между факторами имеют сложный, нелинейный характер .
Более точный прогноз можно получить, применяя деревья решений и случайный лес. Дерево решений представляет данные в мелких группах, после делает прогноз. Это выглядит как цепочка вопросов, где каждый вопрос делит данные на две части, точнее на промежуточные узлы, которые формируются на основе бинарных условий (да/нет) . Пример по теме статьи:
Автомобиль старше 5 лет?
Да — следовательно, цена, скорее всего, ниже.
Нет — значит, идем дальше.
Случайный лес выглядит следующим образом. Берется много деревьев решений, работающих вместе, где каждое делает свое предсказание. После полученные результаты усредняются. Данная процедура позволяет получить более точный результат. При данных методах алгоритмы учитывают сложные нелинейные зависимости, но при этом чувствительны к шуму данных.
Самый передовой и умный способ улучшить предсказания — это градиентный бустинг. Его суть заключается в объединении множества слабых моделей, которые каждый раз повышают свою точность, опираясь на совершенные раннее ошибки. В результате получается мощная модель, которая может делать очень точные прогнозы .
Выделим три его главных плюса:
1. Улавливает сложные закономерности.
2. Исправляет в каждой новой модели предыдущие ошибки.
3. Может работать с разными данными и задачами.
XGBoost, LightGBM, CatBoost — популярные алгоритмы градиентного бустинга, которые показали отличные результаты в быстродействии и эффективности .
Еще один интересный метод — это кластеризация. В нем данные делятся на группы так, чтобы похожие объекты были рядом. Это позволяет группировать автомобили по схожим характеристикам и выявлять закономерности в их стоимости. Самый простой и популярный метод — К-средних. Он берет К случайных центров, после чего все объекты распределяют в группы и начинают постепенно уточнять границы кластеров .
Также могут использоваться нейросетевые методы, к примеру MLP и CNN. Тут надо понимать, что нейросети — это алгоритмы, которые работают по принципу человеческого мозга. Они делают анализ данных, затем занимаются поиском закономерностей, в результате чего можно получить прогноз. MLP работает с числами. Он берет пробег, год выпуска, количество владельцев и так далее, после чего делает расчеты и выдает итоговую цену. CNN анализирует картинки и находит важные детали. Он способен заметить царапины, повреждения и износ салона .
Внешние факторы, такие как цена топлива, сезонность, рыночные колебания, также очень важны для предсказания цен на автомобили. Для этого можно использовать методы временных рядов. ARIMA может, как пожилой эксперт, оценить как менялись цены в прошлом, то есть выстроить повторяющиеся закономерности и на основе этого предсказать будущее . LSTM — это нейросеть способная запомнить множество разных факторов из прошлого и сопоставить их между собой для предсказания будущего .
Последним в изучении машинного обучения будет их интерпретируемость. Обычно нейросети и сложные алгоритмы не объясняют, как они приходят к своему выводу, что ставит под сомнение результат. Для этого есть методы объяснения решений моделей. SHAP делает разбор каждого фактора, о том какой финансовый вклад был вложен. К примеру, малый пробег +200 000 руб., старый год -100 000 руб. LIME объясняет отдельные предсказания модели, показывая, какие факторы повлияли на конкретный результат .
Теперь важно поговорить о будущей оценки автомобилей: роль искусственного интеллекта и больших данных.
Современные технологии в последние десятилетия развиваются с очень быстрой скоростью, поэтому стоит выделить основные тенденции оценки стоимости автомобилей.
Тенденции в оценке автомобиля с использованием ИИ:
1. Алгоритмы машинного обучения, которые описаны выше, такие как линейная регрессия и деревья решений, уже предсказывают цены на автомобили, однако если факторов становится слишком много, то начинают появляться ошибки. Решением этой проблемы и дальнейшим развитием являются глубокие нейросети. Они могут учитывать больше факторов и выстраивать сложные взаимосвязи между ними. К примеру, рекуррентные нейронные сети (RNN) и трансформеры могут анализировать изменения цен во времени, а также как они будут меняться в будущем. Про сверточные нейросети (CNN) было сказано выше.
2. Полная интеграция Интернета вещей (IoT) в оценку автомобилей. С каждым годом машины все больше оснащаются различными датчиками для сбора информации, такими как GPS, расходы различных жидкостей и так далее. Также автопроизводители постоянно их улучшают для уменьшения риска программного взлома и сброса показаний. Эти данные позволяют нейросетям оценить не только такие факторы, как пробег, но и качество эксплуатации автомобилей на каждом промежутке жизни. Покупатель, благодаря этому, сможет узнать, как ездили на машине (быстро или спокойно), часто ли меняли расходники и так далее
.Применение больших данных в прогнозировании стоимости автомобилей:
1. Раньше прогнозирование цен автомобиля исходило из исторических данных. Сейчас есть облачные платформы, которые хранят всю информацию о ситуации на рынке, что позволяет машинному обучению и нейросетям выдавать точные прогнозы.
2. Применение блокчейн-технологий с автомобилем. Это одна из перспективных областей в мире автомобилей, так как покупатель и технологии, описанные выше, смогут получить данные недоступные для подделки, в которых будут храниться стоимости при продаже, покупки запчастей, аварии, пробег
Автоматизация на рынке оценки автомобилей:
1. Специалисты по оценке автомобилей будут постепенно уходить в прошлое, так как все вышеописанные технологии вместе смогут предоставлять быстрый и качественный вариант и скорее всего за более низкую цену. Также важно учитывать вопрос простоты взаимодействия. Последнее время люди предпочитают хорошо настроенную онлайн платформу, нежели общение с другим человеком.
2. Уровень персонализации. Сейчас каждый сайт пытается собрать информацию о человеке, чтобы предоставить ему интересный товар и соответствующую рекламу партнера. Платформа, на которой человек оставляет свой цифровой след, намного лучше может понять потребности и пожелания, если сравнивать ее со специалистом, который потребует множество вводных данных для начала, а после может предлагать неинтересные варианты.
Будущее оценки автомобиля уже связано с ИИ и анализом больших данных. Дальше нас ждет продолжение этого развития, которое позволит делать прогнозы более точными, прозрачными, удобными для всех участников рынка.
Последняя поставленная задача — это понять, какие факторы больше всего влияют на цену автомобиля. Проанализировав различные популярные источники и результаты ИИ, анализ показал следующий топ из пяти мест
:1. Возраст автомобиля. Это самый главный фактор при выборе машины, так как невозможно восстановить старую машину до состояния новой. При этом это не рентабельно: придется заплатить стоимость, равную новой машине или даже больше, но устаревший дизайн и старые технологии не обновятся.
2. Пробег. Проехав много километров, даже новая машина за короткий срок будет в изношенном состоянии, так как автопроизводители закладывают определенный жизненный цикл в такие важные части, как мотор с коробкой и кузов.
3. Марка и модель. Каждый авто бренд имеет свою историю и заслуги, что сильно влияет на стоимость как новой машины, так и подержанной. Некоторые модели становятся легендами своего времени, поэтому даже в массовом сегменте можно встретить авто, которые стоят дороже своих конкурентов и при этом пользуются, несмотря на это, большой популярностью.
4. Техническое состояние. Даже легендарная модель, побывавшая в серьезном ДТП и после восстановленная, не может стоить дорого, так как восстановить в заводской вариант невозможно, что сказывается на безопасности водителя при следующем ДТП. Не только важно состояние кузова, но и мотор с подвеской, так как двигатель авто в некоторых случаях может стоить как половина или вся машина целиком.
5. Рынок и экономические факторы. Последние годы мы можем прочувствовать этот фактор на себе, так как на нестабильность цен на автомобили оказывают колебания валют, налоговая и таможенная политика, кредитование.
3. Практическое применение интеллектуального анализа в автооценке
Получение прогнозируемой цены не является итогом - еще важно преобразовать полученные данные в инсайт. Сделанный анализ дает возможность выделить несколько ключевых направлений применения этих данных:
1. Получение прогнозируемой цены на автомобиль с помощью автоматизированных алгоритмов, позволяет покупателям определять реальную цену авто и избегать переплат.
2. Удобная оптимизация ценообразования для дилеров. Автосалоны смогут определить конкурентоспособные цены при использовании машинного обучения.
3. Дилеры и страховые компании смогут предсказать остаточную стоимость транспортного средства через несколько лет. Это позволит им точно рассчитать лизинговые платежи и страховые взносы.
4. Постоянное изменение внешних факторов, таких как изменение законодательства, социальные волнения, напрямую влияют на стоимость авто. Проанализировав эти факторы современными технологиями, можно адаптировать стратегии продаж.
Современные методы интеллектуального анализа данных могут не просто предсказать стоимость автомобиля, но и позволяют принимать обоснованные решения на основе реальных рыночных закономерностей.
4. Заключение
Использование методов интеллектуального анализа данных помогают автоматизировать, а также повысить точность оценки стоимости авто. В данной работе были изучены различные методы машинного обучения, выявлены тенденции в оценке автомобилей с использованием ИИ и больших данных и проанализированы факторы, которые больше всего влияют на цену автомобилей.
Результаты исследования могут помочь разным субъектам авторынка. Также важно учитывать, что машинное обучение не только говорит точную прогнозную цену, но и способствует автоматизированной системе оценивания, делает рынок более прозрачным и предсказуемым.
Дальнейшие исследования можно развивать в сторону более сложных факторов — к примеру, результаты автоспорта, тенденции в производстве авто и развитие задающих факторов стиля авто.
