КЛАСТЕРИЗАЦИЯ В ИССЛЕДОВАНИИ ЗАКОНОМЕРНОСТЕЙ РАЗВИТИЯ И УСТОЙЧИВОСТИ РОССИЙСКИХ КОММЕРЧЕСКИХ БАНКОВ СИСТЕМАМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

Ломакин Н.И. 1 Марамыгин М.С. 2 Черная Е.Г. 3 Кузьмина Т.И. 4 Бестужева Л.И. 5 Борискина Т.Б. 1

1 ФГБОУ ВО «Волгоградский государственный технический университет»

2 ФГБОУ ВО «Уральский государственный экономический университет»

3 ГБОУ ВО «Волжский институт экономики

4 ФГБОУ ВО «Российский экономический университет имени Г.В. Плеханова

5 Волгоградский кооперативный институт (филиал) АНОО ВО «Российский университет кооперации»

Проведен анализ современного состояния, результативности и устойчивости коммерческих банков в современных условиях. Рассмотрена задача моделирования динамики параметров крупнейших отечественных банков, вошедших в Топ-12 с использованием кластеризации на основе применения систем искусственного интеллекта. В ходе исследования были использованы такие методы, как кластерный анализ с использованием метода k-средних, иерархическая кластеризация с применением искусственного интеллекта, анализ с применением ML-модели «Случайный лес». Актуальность состоит в том, что в современных исследованиях все чаще используются системы искусственного интеллекта для поиска закономерностей при анализе развития и устойчивости российских коммерческих банков для обеспечения поддержки принятия управленческих решений. Цель исследования состоит в исследовании теоретических основ развития отечественных банков, выявлении закономерностей их развития и устойчивости в современных условиях на основе использования различных моделей с последующим сравнением полученных результатов. Научная новизна в том, что выдвинута и доказана гипотеза, что на основе современных методов исследования, включая модель машинного обучения ML – «Случайный лес», могут быть выявлены определенные закономерности и получен прогноз требуемого параметра – чистой прибыли. Практическая значимость в том, что полученные результаты могут быть использованы на практике для поддержки принятия управленческих решений.

Статья в формате PDF

1776 KB

иерархическая кластеризация

модель ML – «Случайный лес»

цифровая экономика

метод k-средних

результативность и устойчивость коммерческих банков

1. Steiber A., Alange S. Organizational innovation: a comprehensive model for catalyzing organizational development and change in a rapidly changing world // Steiber and Alänge Triple Helix. 2015. Vol. 25. Is. 2. P. 9. DOI: 10.1186/s40604-015-0021-6.

2. DL_RF_Top12. [Электронный ресурс]. URL: https://colab.research.google.com/drive/12_-UMj1KSC5H7MtFzaSHirN8VSNTjE1t#scrollTo=iTJ_U1xlMHJq (дата обращения: 30.01.2024).

3. Рейтинг банков России по активам [Электронный ресурс]. URL: https://www.vbr.ru/banki/raiting/?utm_referrer=https %3A %2F %2Fyandex.ru %2F (дата обращения: 30.01.2024).

4. Обучение без учителя: 4 метода кластеризации данных на Python [Электронный ресурс]. URL: https://www.vbr.ru/banki/raiting/?utm_referrer=https %3A %2F %2Fyandex.ru %2F (дата обращения: 30.01.2024).

5. Louppe G., Wehenkel L., Sutera A., Geurts P. Understanding variable importances in forests of randomized trees. December 2013 Advances in Neural Information Processing Systems // Conference: NIPS. 2013. P. 9-10. [Электронный ресурс]. URL: https://www.researchgate.net/publication/264046801_Understanding_variable_importances_in_Forests_of_randomized_trees (дата обращения: 30.01.2024).

6. Breiman B. L. Classification and Regression Trees. [Электронный ресурс]. URL: https://www.taylorfrancis.com/books/mono/10.1201/9781315139470/classification-regression-trees-leo-breiman (дата обращения: 30.01.2024).

7. Bril A., Kalinina O., Ilin I. Small innovative company’s valuation within venture capital financing of projects in the construction industry. // MATEC Web of Conferences. 2017. Conference paper. DOI: 10.1051/matecconf/201710608010 EID: 2-s2.0 [Электронный ресурс]. URL: https://www.matec-conferences.org/articles/matecconf/ abs/ 2017/20/matecconf_spbw2017_08010/matecconf_spbw2017_ 08010.html (дата обращения: 30.01.2024).

8. Demidova S., Gusarova V., Kulachinskaya A. Features of segmentation and positioning processes when creating an educational brand in neural network economy. // ACM International Conference Proceeding Series DEFIN ‘20: Proceedings of the III International Scientific and Practical Conference March. 2020. No. 28. P. 1–5 DOI: 10.1145/3388984.3390634.

9. Ilin I., Lepekhin A., Levina A., Iliashenko O. Analysis of Factors, Defining Software Development Approach // Advances in Intelligent Systems and Computing. 2018. № 692. P. 1306–1314.

10. Lomakin N.I., Maramygin M., Kataev A., Krashenko S., Yurova O.V., Lomakin I.N. Cognitive Model of Financial Stability of the Domestic Economy Based on Artificial Intelligence in Conditions of Uncertainty and Risk. // International Journal of Technology (IJTech). 2022. Vol. 13, Is. 7. P. 1588–1597. DOI: 10.14716/ijtech.v13i7.6185.

Актуальность состоит в том, что в современных исследованиях все чаще используются системы искусственного интеллекта для поиска закономерностей при анализе развития и устойчивости российских коммерческих банков, чтобы обеспечить поддержку принятия оптимальных решений. Цель исследования состоит в исследовании теоретических основ развития отечественных банков, выявлении закономерностей их развития и устойчивости в современных условиях на основе использования различных моделей с последующим сравнением полученных результатов. Научная новизна в том, что выдвинута и доказана гипотеза, что, применяя современные методы исследования, в частности модель ML – модель «Случайный лес», могут быть выявлены определенные закономерности и получен прогноз требуемого параметра. Среди ключевых факторов, которые обуславливают в последнее десятилетие радикальные структурные сдвиги в мировой экономике, следует отметить повышение экономической роли инноваций. Прежде всего это связано с фундаментальными техническими и технологическими сдвигами, которые легли в основу крупномасштабных социально-экономических перемен. В связи с этим меняется и набор основных факторов экономического роста. По мнению А. Штайбера и С. Аланге, большинство попыток сохранения устойчивого развития относятся к организационным инновациям. Фирмам необходимо постоянно меняться из-за внедрения технологических новшеств, им следует эффективнее применять на практике инновации касательно организации бизнес-процессов, чтобы поддерживать собственную конкурентоспособность [1].

Материалы и методы исследования

В ходе проведения настоящего исследования были использованы такие методы, как метод k-средних, иерархическая кластеризация и модель глубокого обучения DL-модель «Случайный лес», причем расчеты были проведены в облачном сервисе Google Collab с использованием скриптов на языке Python [2]. Для формирования ML-модели «Random forest» были импортированы и использованы такие библиотеки, как DecisionTreeRegressor, matplotlib, numpy, sklearn.tree, xlrd, pandas.

missing image file

Рис. 1. Гистограмма активов российских банков, вошедших в Топ-12 в 2023 г.

Таблица 1

Результативность работы коммерческих банков в 2023 г.

Наименование	Активы, трлн руб.	Прибыль, млрд руб.	Доля активов, в % к итогу	Рентабельность активов, %
Сбербанк	44,51	100,21	33,02	0,233
ВТБ	22,31	1,32	16,51	0,012
Газпромбанк	13,61	179,42	10,11	1,321
АЛЬФА-банк	6,21	6,12	4,61	0,302
Россельхозбанк	4,51	23,82	3,31	0,532
Московский кредитный банк	4,41	48,02	3,31	10,902
ФК Открытие	3,52	1,01	2,62	0,031
Совкомбанк	2,41	76,02	1,81	3,171
Райффайзенбанк	2,22	2,11	1,61	0,103
Банк Дом.РФ	1,81	1,72	1,32	0,091
Росбанк	1,82	1,92	1,31	0,112
Тинькофф Банк	1,62	4,51	1,21	0,282

Как видно из анализа, крупнейшим банком по величине активов является ПАО «Сбербанк», активы которого составляют 44,5 трлн руб., затем следует Банк ВТБ (ПАО) с 22,3 млрд руб. Третьим банком, активы которого превысили среднее значение 9,1 трлн руб., выступает Банк ГПБ (АО) с активами 13,6 трлн руб. Замыкает список банков, вошедших в Топ-12 по итогам работы в 2023 г., АО Тинькофф Банк с активами 1,6 трлн руб. (рис. 1).

Анализ показал, что в суммарном выражении по итогам 2023 г. коммерческие банки, вошедшие в Топ-12, имеют активы, доля которых составляет 80,7 % от активов всей банковской системы РФ. Таким образом, устойчивость российской банковской системы во многом определяется устойчивостью рассматриваемых банков. В тройке лидеров с соответствующими долями активов: ПАО «Сбербанк» – 33,0 %, Банк ВТБ (ПАО) – 16,5 %, Банк Газпромбанк (АО) – 10,1 % [3].

Замыкает рейтинг АО «Тинькофф Банк», доля активов которого составляет 1,2 % (табл. 1).

Важно выявление закономерностей в сложившейся ситуации в российском секторе, с использованием различных методов, в частности метода кластерного анализа. На практике часто применяют четыре метода обучения без учителя с целью получения визуализации данных посредством кластеризации с использованием языка Python [4]. В настоящей статье были использованы два из них. Целесообразно применять обучение без учителя (unsupervised learning), что позволяет использовать возможности алгоритма по поводу проведения разметки данных. Как известно, обучение без учителя есть не что иное, как класс методов машинного обучения, который позволяет выявить закономерности в изучаемом массиве данных. Очень удобно, не имея меток “y” в обучающем множестве, используя «обучение без учителя», в конечном итоге получить размеченный массив данных, имеющих не только метки “X”, но и “у”, поскольку система самостоятельно проведет подбор путем поиска шаблона в имеющихся примерах, опираясь на алгоритм.

Результаты исследования и их обсуждение

1. Кластерный анализ с использованием метода k-средних

Среди экспертов бытует мнение, что метод k-средних вполне применим как алгоритм кластеризации для автоматизации процесса разметки неразмеченного набора данных, поскольку основан на формировании некоторой совокупности точек кластеров, которые выбираются вокруг некоторых случайно выбранных точек, называемых центроидами, при соблюдении принципа минимизации суммарных квадратичных отклонений.

Для формирования датасета поля таблицы исходных данных для удобства были переименованы: Активы, трлн руб. – Assets; Доля активов, в % к итогу – Share of assets; Прибыль, млрд руб. – Net profit; Рентабельность активов, % – Return on assets (табл. 2).

Таблица 2

Датасет нейросети для кластерного анализа (фрагмент)

missing image file

Рис. 2. Центроиды сформированных кластеров, полученных на основе параметров Топ-12 российских банков по критериям Assets и Share of assets

В целях проведения исследования методом k-средних необходимо выполнить некоторые действия. В частности, вначале определить, сколько кластеров будет формировать алгоритм, например, может быть установлен параметр модели n_clusters, равный некоторому целому числу. В нашем примере были сформированы три кластера. Далее алгоритм случайным образом выбрал три точки, которые стали центрами кластеров – центроидами. Затем алгоритм добавляет точки, осуществляя поиск «ближайших соседей» относительно каждого из имеющихся центроидов и происходит перерасчет местоположения центроидов, с поправкой на координаты новых точек. Как только координаты центроидов перестают меняться, алгоритм прекращает свою работу. Следует отметить, что полученные координаты центроидов в каждом из кластеров отражают некоторые усредненные параметры сформированных кластеров.

Разделение данных на кластеры происходит на основе имеющихся характеристик, а предсказание свойств основано на том, к какому кластеру может принадлежать пример. Эксперты склоняются к мнению о том, что это метод кластеризации является наиболее востребованным и широко применяемым среди известных алгоритмов машинного обучения.

Цель кластеризации обычно сводится к отбору и выделению некоторых параметров, обладающих некоторыми похожими чертами, причем процесс происходит при отсутствии такого разбиения. Финальной целью является предсказание степени соответствия объектов выборки их классам на основе сформированных кластеров. Центроиды сформированных кластеров, полученных на основе параметров Топ-12 российских банков, отмечены на гистограмме (рис. 2).

Как следует из логики алгоритма, происходит случайным образом выбор центров кластеров, и затем алгоритм старается минимизировать функцию потерь. Следует указать на один недостаток при использовании такого подхода. В том случае, если центры кластеров выбираются относительно близко друг к другу, то алгоритм часто разделяет то, что должно быть единым кластером, и при этом может «объединить» два разных.

2. Иерархическая кластеризация с применением искусственного интеллекта

Использованная в исследовании иерархическая кластеризация представляет собой алгоритм, основанный на применении искусственного интеллекта, который имеет своей целью формирование кластеров, что оказывается весьма целесообразным при поиске закономерностей в больших массивах данных. В отличие от метода k-средних, иерархическая кластеризация упорядочивает исходный массив таким образом, что каждое значение в конечном счете получает отдельный кластер. После чего происходит объединение ближайших кластеров в один – и так до тех пор, пока не сформируется общий кластер, как правило, его представляют в виде дендрограммы (рис. 3).

missing image file

Рис. 3. Дендрограмма иерархической кластеризация банков по Net profit и Return on assets

Дендрограмма обеспечивает визуализацию ранжирования по кластерам по уровню параметра рентабельность активов от минимальных значений у гигантов с низкой рентабельностью ПАО ГПБ (АО) – 1,32 % и Банк ВТБ (ПАО) – 0,01 %, до мелких по размеру, но высокорентабельных ПАО «Совкомбанк» – 3,17 % и ПАО «Московский кредитный банк» – 10,9 %.

3. Анализ с применением ML-модели «Случайный лес»

Формирование DL-модели происходит с использованием библиотек pandas, matplotlib.pyplot, sklearn, LinearRegressio, RandomForestRegressor. Формирование DL-модели происходит в четыре этапа: 1) создание случайных выборок из заданного набора данных; 2) построение для каждой выборки дерева решений и получение результата предсказания при использовании данного дерева; 3) проведение голосования за каждый полученный прогноз; 4) выбор предсказания с наибольшим количеством голосов в качестве окончательного результата.

Работа DL-модели «Случайный лес» может быть настроена с помощью гиперпараметров, если использовать библиотеку GridSearchCV. Фрагмент датасета для прогноза чистой прибыли для использования ML-модели «Случайный лес» представлен в табл. 3.

Для разделения данных на обучающее и тестовое множества случайным образом, с заданным соотношением, например 0,20, была использована библиотека model_selection Scikit-Learn, которая содержит метод train_test_split.

Важную роль играет правильный подбор гиперпараметров, который может быть выполнен с помощью функции GridSearchCV. В процессе работы алгоритма происходит последовательный перебор сочетаний вариантом и из общей совокупности (ансамбля) деревьев решений выбирается лучшее. В ходе исследования были заданы три параметра количества деревьев n_estimators: 5, 10 и 50. Следующим параметром выступали три критерия: squared error, absolute error, poisson. Кроме того, при подборе гиперпараметров использовалась настройка – максимальная глубина деревьев max depth: 2, 5, 10. В результате работы алгоритма был получен некоторый результат «лучшее дерево», имеющий минимальные значения ошибки, оно имело следующие настройки гиперпараметров: количества деревьев – 5, максимальная глубина дерева 10 уровней. Визуализация лучшего дерева представлена ниже (рис. 4).

Величина чистой прибыли банков является результативным признаком, который был обозначен как target. После удаления ненужного столбца (названий банков) датасет принял рабочий вид. Использование библиотеки lin_reg.coef позволяет рассчитать матрицу парных коэффициентов корреляции и сформировать уравнение многофакторной линейной регрессии, что позволит сделать прогноз величины прибыли рассматриваемых банков на следующий тайм фрейм.

Таблица 3

Фрагмент датасета для ML-модели «Случайный лес»

missing image file

Если обозначить исходные параметры: Х1 – Активы, трлн руб., Х2 – Доля активов в % к итогу, Х3 – Рентабельность активов, % и У – Прибыль, млрд руб., уравнение регрессии примет вид

У = –11,8562 – 219,273 × Х1 + 298,353 × Х2 + 22,764 × Х3. (1)

Величины парных коэффициентов корреляции указывают на то, что связь положительная и средняя у факториальных признаков Х1 +0,440; Х2 +0,441 и слабая у Х3 + 0,212.

Качество сформированной DL-модели характеризуется следующими параметрами: Средняя абсолютная ошибка (MAE – Mean Absolute Error): 92,3073713994; Среднеквадратическая ошибка (MSE – Mean Squared Error): 15409,114181908903 и Среднеквадратическое отклонение (RMSE – Root Mean Squared Error): 124,13345311361036.

missing image file

Рис. 4. Лучшее дерево DL-модели «Случайный лес»

missing image file

Рис. 5. Вектор параметров DL-модели для получения прогноза

Как показывает практика, использование таких моделей «Случайного леса» приемлемо для решения широкого круга задач, ввиду его гибкости и практичности. Модель машинного обучения «Случайный лес» с успехом может быть использована для прогнозирования, классификации, а также отбора ряда признаков, причем как прикладных задач отдельного предприятия или отрасли в целом, так и для научных задач, связанных с поиском закономерностей в массивах больших данных. Нейросетевой алгоритм DL-модель «Случайный лес» не может быть переучена в силу специфики применяемого алгоритма, а также превосходит по точности прогноза отдельное «Дерево решений», поскольку благодаря использованию гиперпараметров может генерировать обширную совокупность, «ансамбль» деревьев, из числа которых выбирается лучшее.

В целях формирования прогнозного значения величины чистой прибыли для ПАО «Сбербанк» на следующий год, был сформирован вектор для подстановки в DL-модель (рис. 5).

Прогнозное значение для Сбербанка при прочих равных условиях – по данным 2022 г. составило 81,38 млрд руб. при фактически достигнутом 100,2 млрд руб., т.е. ожидаемая чистая прибыль может оказаться в 2023 г. на 18,7 % меньше. Алгоритм «Случайного леса» не переучивается, в отличие от остальных нейросетей, минимизируя таким образом шансы допущения неточности, то есть большое количество отдельных деревьев будут работать точнее, чем одно отдельное дерево.

Как показывает практика, использование систем искусственного интеллекта очень важно в современных условиях. Рассмотренные модели имеют как определенные преимущества, так и недостатки. Представляется целесообразным в перспективе расширить как перечень рассматриваемых параметров, которые бы отражали процесс развития и усиление устойчивости, так и временной горизонт. Важно опираться на широкие возможности систем искусственного интеллекта, не только ML «Случайного леса», но и глубоких сверточных нейронных сетей, таких как: CNN – сверточная нейронная сеть (ConvNet/CNN), которая представляет собой алгоритм глубокого обучения, RNN – рекуррентная нейронная сеть (RNN), представляющая класс нейронных сетей, которые успешно используются для прогнозирования последовательных данных, таких как временные ряды и др.

Результаты, полученные современными российскими и зарубежными исследователями, свидетельствуют о том, что отдельные аспекты затронутой проблемы требуют проведения дальнейших научных исследований. Как известно, алгоритм «дерево решений» находит широкое применение для решения множества различных практических задач. Это совершенно справедливо и для алгоритма «Случайного леса», поскольку многие ученые широко используют в своих исследованиях, например, Г. Лoуппе и др. [5]. По мнению Бреймана, классической разновидностью является бинарное дерево классификации, которое представляет собой некоторую модель, имеющую выраженную древовидную структуру Т из случайного входного вектора (Х1–Хр). [6] Отдельные авторы: A. Bril и др. [7], S. Demidova с коллегами [8] и I. Ilin [9] – отмечают, что налицо особенности процессов протекания сегментации и позиционирования в нейросетевой экономике. Исследователи приходят к выводу, что особенности процессов сегментации и позиционирования в нейросетевой экономике во многом обусловлены такими факторами, как прикладные вычисления, компьютеры и бизнес.

Как показывает практика, все более широкое применение находят когнитивные модели. В частности, Н.И. Ломакиным и его коллегами сформирована когнитивная модель, с помощью которой можно подготовить данные и, применяя нейросети, получить прогноз финансовой устойчивости отечественной экономики в условиях рыночной неопределенности и усиления всех видов риска. [10]

Заключение

На основе вышеизложенного можно сделать определенные выводы.

Большое значение в современных условиях имеет исследование проблем развития не только реального сектора экономики, но и отечественной банковской сферы и выявление путей, обеспечивающих их устойчивое развитие. В основе устойчивости российской банковской системы лежит устойчивое развитие ведущих банков. В тройке лидеров с соответствующими долями активов: ПАО «Сбербанк» – 33,0 %, Банк ВТБ (ПАО) – 16,5 %, Банк Газпромбанк (АО) – 10,1 %. Среди известных методов кластеризации можно отметить алгоритмом кластеризации данных метод k-средних. Такой подход имеет один недостаток. Центры кластеров могут быть выбраны слишком близко друг к другу, в этом случае алгоритм может разделить совокупность, которая могла бы образовать единый кластер, и объединить два разных. Результат иерархической кластеризации представлен с помощью дендрограммы, которая обеспечивает визуализацию ранжирования в кластерах по уровню параметра рентабельность активов от минимальных значений у гигантов с низкой рентабельностью ПАО ГПБ (АО) – 1,32 % и Банк ВТБ (ПАО) – 0,01 %, до мелких по размеру, но высокорентабельных ПАО «Совкомбанк» – 3,17 % и ПАО «Московский кредитный банк» – 10,9 %. В результате использования разработанной системы искусственного интеллекта МL-модели получено прогнозное значение чистой прибыли для Сбербанка. При прочих равных условиях, по входным параметрам 2022 г. прогноз составил 81,38 млрд руб. при фактически достигнутом значении 100,2 млрд руб., то есть ожидаемая чистая прибыль может оказаться в 2023 году на 18,7 % меньше.

Библиографическая ссылка

Ломакин Н.И., Марамыгин М.С., Черная Е.Г., Кузьмина Т.И., Бестужева Л.И., Борискина Т.Б. КЛАСТЕРИЗАЦИЯ В ИССЛЕДОВАНИИ ЗАКОНОМЕРНОСТЕЙ РАЗВИТИЯ И УСТОЙЧИВОСТИ РОССИЙСКИХ КОММЕРЧЕСКИХ БАНКОВ СИСТЕМАМИ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА // Фундаментальные исследования. – 2024. – № 2. – С. 17-25;
URL: https://fundamental-research.ru/ru/article/view?id=43565 (дата обращения: 19.05.2024).

Переводная версия журнала "Современные проблемы науки и образования"
"Modern Problems of Science and Education. Surgery» (ISSN - 2686-9101)

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»

(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Современные проблемы науки и образования» список ВАК ИФ РИНЦ = 1,006

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1,674

«Современные наукоемкие технологии» список ВАК ИФ РИНЦ = 0,940

«Успехи современного естествознания» список ВАК ИФ РИНЦ = 0,775

«Международный журнал прикладных и фундаментальных исследований» ИФ РИНЦ = 0,593

«Международный журнал экспериментального образования» ИФ РИНЦ = 0,425

«Научное Обозрение. Биологические Науки» ИФ РИНЦ = 0,400

«Научное Обозрение. Медицинские Науки» ИФ РИНЦ = 0,801

«Научное Обозрение. Экономические Науки» ИФ РИНЦ = 0,871

«Научное Обозрение. Педагогические Науки» ИФ РИНЦ = 0,733

«Научное Обозрение. Технические Науки» ИФ РИНЦ = 0,695

«European journal of natural history» ИФ РИНЦ = 0,301

«Международный студенческий научный вестник»

Издание научной и учебно-методической литературы ISBN РИНЦ DOI

РЕЦЕНЗИИ и ОТЗЫВЫ
кандидатов и докторов наук
на статьи, авторефераты, диссертации, монографии, учебники, учебные пособия

Академия Естествознания готовит к изданию реестр новых научных направлений, разработанных российскими учеными

Научный журнал
Фундаментальные исследования

ISSN 1812-7339

"Перечень" ВАК

ИФ РИНЦ = 1,674

Библиографическая ссылка

Фундаментальные исследования
Научный журнал | ISSN 1812-7339 | ПИ №77-63397