Behavioral-scoring

Содержание
  1. Скоринг в банке — что это такое простыми словами?
  2. Определение скоринга
  3. Виды скоринга
  4. Как работает скоринг?
  5. Какие финансовые структуры используют скоринг?
  6. Как поднять скоринговый балл?
  7. Плюсы и минусы скоринговой системы
  8. Что такое скоринг?
  9. Функционирование системы кредитного скоринга
  10. Цели скоринга
  11. Разновидности скоринга
  12. Преимущества кредитного скоринга
  13. Недостатки кредитного скоринга
  14. Что влияет на снижение баллов?
  15. Что такое скоринг простыми словами?
  16. Понятие скоринга
  17. Виды кредитного скоринга
  18. Application-scoring
  19. Collection-scoring
  20. Behavioral – scoring
  21. Fraud-scoring
  22. Данные для проведения скоринга
  23. Пишем скоринговую модель на Python
  24. Для чего нужна скоринговая модель?
  25. Знакомство с данными
  26. Начальные соображения и предобработка данных
  27. Стратегии работы с пропущенными значениями
  28. Стратегии работы с несбалансированными выборками
  29. Скоринг — что это в банке, виды
  30. Что такое скоринг
  31. Прескоринг (пре-скоринг)
  32. Как он работает
  33. Данные, необходимые для проведения скоринга

Скоринг в банке — что это такое простыми словами?

Behavioral-scoring

Финансовые компании, занимающиеся вопросами кредитования населения, каждую минуту рискуют попасть на недобросовестного в плане погашения долговых обязательств клиента и понести материальные потери.

Чтобы снизить фактор риска, разработаны специальные инструменты, позволяющие дать качественную оценку финансовому благополучию лица, желающего получить заём.

Что такое кредитный скоринг, и как он работает – об этом сегодняшний материал.

Определение скоринга

Скоринговая система – это специальная компьютерная программа, которую используют банки для качественной оценки клиентов на основании внесённых в неё персональных данных заёмщика.

Машина выдаёт результат, по итогам которого решается вопрос о предоставлении займа или отказе в нём.

Основная цель подобных программ – минимизировать издержки и снизить операционные риски посредством автоматизации в процессе принятия решения.

Виды скоринга

Выделяют несколько видов кредитного скоринга, способных качественно оценить возможности потенциального клиента банка. В процессе изучения применяют специальные программы – с ними можно работать комплексно, так результат будет максимально эффективным, а можно остановить свой выбор на какой-то одной:

  1. Application-scoring. Тщательно изучает анкетные данные лица, подавшего заявку на оформление кредитного договора. Самый популярный и простой в работе вид скоринга. Широко используется отечественными компаниями. Работник организации собирает информацию о человеке с помощью специального бланка-заявки, после чего система обработает полученные сведения и выдаст полезную информацию и своё решение.
  2. Collection-scoring. Специально направлена на работу с потенциально «опасными» клиентами с подмоченной кредитной репутацией. Помогает сотруднику банка понять, какие действия нужно предпринять в ситуациях с непогашенными долговыми обязательствами. Например, можно официально уведомить клиента о серьезности последствий такого поведения с его стороны либо обратиться в коллекторские компании и судебные органы.
  3. Behavioral-scoring. Отслеживает статистику кредитного поведения человека. Даёт возможность прогнозировать и предугадывать колебания финансовой благосостоятельности заёмщика и подобрать для него идеальную программу кредитования путём проведённого анализа погашения займов, взятых им ранее. Очень доступный и простой вариант отслеживания операций гражданина по его кредитным картам.
  4. Fraud-scoring. Система быстро распознаёт мошенника и потенциального правонарушителя. Эффективна при комплексном применении с вариантами, рассмотренными выше. По статистике, один из десяти займов, который так и остался непогашенным – дело рук данной категории лиц, и компьютерный скоринг препятствует повторению подобных ситуаций в будущем.

Как работает скоринг?

В основу принципа банковского скоринга заложено предположение, что лица, имеющие похожие социальные показатели, ведут себя примерно одинаково.

Скоринговая оценка позволяет выделить в отдельную категорию граждан, имеющих специфические характеристики и низкий показатель платёжеспособности, рассчитывая на то, что их платёжная дисциплина также будет схожей.

На основании полученных данных программа сама будет выстраивать персональные карты, формирующие окончательные цифры – баллы.

Карта включает в себя десятки позиций, они постоянно корректируются и дополняются новыми пунктами. За основу берётся общая статистика клиентов по процентному соотношению уже погашенных и невыплаченных в полном объёме кредитных займов.

Результаты корректируются с учётом региона проживания целевого сегмента населения, уровня экономического развития и среднего прожиточного минимума в конкретном субъекте государства.

Кроме баллов есть и другие критерии, способные заблокировать рассмотрение заявки без права дальнейшего её пересмотра. Это могут быть:

  • возраст заявителя;
  • профессия и величина заработной платы;
  • наличие нескольких несовершеннолетних детей или опекунов.

Кроме соответствия по баллам, на результаты скоринговой обработки влияют десятки проверок, которые проводят в перекрёстном режиме – поднимаются кредитные истории, проверяются родственные связи. И только по совокупности всей информации программа вынесет окончательное решение – кредитовать заявителя либо отказать в предоставлении займа.

Какие финансовые структуры используют скоринг?

Крупные финансовые компании активно применяют скоринг для предварительной оценки потенциальных клиентов. Соответствие заявленным банком требованиям позволяет заёмщику рассчитывать на возможность более детального изучения его кандидатуры по факту предоставления основного пакета документов и принятия окончательного решения по заявке.

Они предпочитают использовать сразу несколько программ, получать сведения с различных баз данных и ресурсов, объединять полученную информацию.

Данный метод повышает конкурентоспособность и популярность кредитных организаций, а вероятные риски непогашенных сумм они компенсируют путём высоких процентных ставок, куда эти расходы заложены заранее.

Не столь популярна данная услуга там, где практикуется принцип микрокредитования населения, и требования к кандидатам минимальные.

Как поднять скоринговый балл?

Отказ по скоринговому баллу означает, что показатель ниже требуемой нормы, и заявка гражданина на получение кредитных средств, скорее всего, не будет удовлетворена банком.

Как правило, данный показатель варьируется в диапазоне от 350 до 850. Претенденту, имеющему предельно низкий скоригновый балл, получить кредит почти нереально, который, кстати, вполне по силам повысить.

И первое, что можно сделать в этом направлении – обеспечить хорошую кредитную историю.

Если есть долги, непогашенные обязательства все необходимо закрыть в полном объёме. Можно сразу взять несколько микрозаймов и быстро их выплатить. Желательно, раньше установленного срока. Данная информация попадает в базы, и сведения формируют новую историю в кредитном бюро.

Второй показатель – семейный статус. Люди, имеющие официальной брак, получают более высокие баллы, поскольку с точки зрения коммерческих структур такие клиенты более обязательны и надёжны. И, наконец, возрастные рамки.

Тут, конечно, ничего особо не откорректируешь, но возраст от 35 до 50 лет – наиболее привлекателен и даёт самый высокий рейтинговый показатель. Плюс – образование, хорошая работа и достойная заработная плата. Положительно могут сказаться и активы, имеющиеся у заявителя.

Наличие собственной недвижимости, транспортного средства даёт банку гарантию, что это имущество может стать залогом и минимизировать риски неуплаты по кредиту.

Плюсы и минусы скоринговой системы

Если рассматривать систему скоринговой проверки с объективной точки зрения, то в ней можно выделить как сильные, так и слабые стороны. Преимуществами можно считать:

  • применение баллов при определении платёжеспособности клиента – эта процедура даёт достаточно высокий объективный результат, позволяющий в короткий срок оценить, возможны ли риски некредитоспособности;
  • снижение субъективного воздействия человеческого и личностного фактора в процессе рассмотрения заявок от кандидатов – часто слишком лояльное поведение работника банковской организации может обернуться для компании выдачей кредита лицу, которое относится к неблагополучной в финансовом плане категории потенциальных неплательщиков;
  • сокращение временных сроков, которые уходят на изучение личности заявителя и принятие окончательного решения;
  • рост рейтинговой конкурентоспособности кредитной компании, применяющей скоринговую политику кредитования, в сравнении с теми организациями, кто работает «по старинке» и применяет ручной метод обработки сведений;
  • риск выдать заём мошеннику сведен к критическому минимуму.

Способ автоматического скорингового анализа информации имеет и свои недостатки:

  • специальные программы-анализаторы, которые использует скоринг, нередко дают сбои, причиной которых являются попытки взлома конфиденциальных сведений и внешние хакерские атаки (часто причиной выхода из строя таких программ становятся вирусы и вредоносные программы, исключить риск внедрения которых в сеть практически нереально);
  • потребность поддержания анализатора в объективном состоянии – для этого необходимо регулярно вносить текущие изменения в уже имеющуюся базу данных;
  • система не способна быстро реагировать на сложные экономические моменты, происходящие в стране;
  • требуется учёт всех нюансов и факторов, имевших востребованность и актуальность в прошлом и не представляющих ценной информации на текущий момент времени;
  • слишком высокая, по мнению некоторых специалистов, оценочная шкала, в силу своей недоступности лишающая большую категорию граждан со средним и низким доходом возможности получить кредит, который, в принципе, они вполне могут себе финансово позволить;
  • выборку можно сделать только по тем людям, кто хоть однажды пользовался услугами кредитования (если лицо делает это впервые – получить объективные данные не получится).

Несмотря на значительное число недостатков, система кредитного скоринга широко применяется отечественными банками и является на сегодняшний день самым эффективным инструментом, совмещающим исследование кредитной истории потенциального заёмщика и быструю возможность выявить уровень его платёжеспособности по финансовым обязательствам.

Кредитные карты с высокой вероятностью одобрения

  • 100 дней без процентов
  • до 500 000 рублей
  • 0₽ за снятие наличных
  • до 55 дней без процентов
  • до 700 000 рублей
  • до 30% кэшбэка
  • 111 дней без процентов
  • до 500 000 рублей
  • до 25% кэшбэка

Следите за новостями на нашем телеграм-каналеПерейти

Источник: https://mnogo-kreditov.ru/kredity/chto-takoe-skoring.html

Что такое скоринг?

Behavioral-scoring

Скоринг – это система, которая оценивает потенциального заемщика на предмет платежеспособности. Когда клиент приходит в микрофинансовую организацию или в банк, ему нужно заполнить анкету и предоставить определенный список документов.

Вся полученная информация заносится в системы, чтобы получить одобрение или отклонение данной заявки на кредит. Скоринг основан на подсчете баллов, которые начисляются с учетом кредитной истории клиента, его заработной платы, семейного положения, наличия имущества и ряда иных факторов.

Функционирование системы кредитного скоринга

Скоринг является только первым шагом к тому, чтобы получить кредит. Он обеспечивает возможность определить сотрудникам финансовой организации, нужно ли доверять потенциальному клиенту. Баллы начисляются в системе во время проверки среднестатистической информации иных клиентов.

Учитываются даже наиболее мельчайшие детали:

  • Класс мобильного телефона.
  • Бижутерия.
  • Наличие дорогих часов.
  • Внешний вид клиента и многое другое.

Система скоринга осуществляет определение границ набора баллов, с помощью которых определяется платежеспособность клиентов. Первичное одобрение займа заключается в их превышении.

Цели скоринга

  • Выявление фактов мошенничества.
  • Проверка кредитной истории.
  • Ранжирование клиентов в зависимости от вероятности появления просрочек выплат.
  • Прогнозирование рисков несоблюдения всех условий кредитного договора.
  • Достоверная оценка платежеспособности клиента.

Внутри системы скоринга собирается информация от разных клиентов.

Это позволяет пресекать незаконные действия путем выявления злостных неплательщиков, что обезопасит от денежного риска владельцев банка.

Разновидности скоринга

Сейчас выделяют следующие варианты кредитного скоринга:

  • Application-scoring. Здесь подразумевается обработка анкеты и заявки потенциального заемщика. Основываясь на предоставленной им информации будет определена степень доверия и уровень платежеспособности. Недостаток подобного исследования заключается в том, что клиент заполняет анкету или это делает с его слов сотрудник банка. На достоверность проверить некоторую информацию просто невозможно. Поэтому появляется риск банального обмана или мошеннических действий.
  • Collection-scoring. Данная система направлена на возвращение кредита, если в установленные сроки он не будет погашен. Программа помогает банковским сотрудникам действовать последовательно. Вначале используются предупредительные звонки неплательщику, а на заключительном – долг передается коллекторному агентству. Согласно практике, приблизительно 40% клиентов кредит получают еще на первом этапе.
  • Behavioral-scoring. Делает возможным проведение предварительной оценки потенциальных финансовых действий заемщика, к которым относится падение или рост платежеспособности. Такой анализ в основной выполняется на основе информации про применение кредитной карты. С ее помощью можно повысить лимиты.
  • Fraud-scoring. Позволяет определить риски мошеннических действий со стороны потенциальных клиентов. Эта система применяется в совокупности с сопутствующими способами исследований. Важно отметить, что согласно статистике, приблизительно 10% банковских клиентов являются должниками.

В некоторых системах скоринга не только обрабатывается информация о клиентах на основе имеющихся данных, но и дополняется.

Преимущества кредитного скоринга

  • Помогает кредитной организации или банку разработать свою стратегию действий.
  • Уменьшение вероятности одобрения заявки, основываясь на человеческом факторе.
  • Ускорение процесса обработки информации о клиентах.
  • Сокращение затрат труда и времени на определение платежеспособности потенциального клиента.

Недостатки кредитного скоринга

Скоринг, в отличие от ручного способа обработки информации о клиенте, операции производит моментально. Но ему присущи определенные недостатки:

  • Запоздалое реагирование на экономические изменения в стране.
  • Необходимость периодического пополнения и доработки данных.
  • Анализ информации, предоставленной потенциальным заемщиком. Данные могут нести в себе риски обмана.
  • Учет прошлого опыта, способный датироваться десятками лет.

Несмотря на наличие небольших недостатков, с помощью скоринга минимизируется риск финансовых организаций. Это способствует оперативной выдаче кредитов и в целом централизованной работе банковской системы.

Что влияет на снижение баллов?

  • Отсутствие недвижимости и постоянного места работы.
  • Сведения о просроченных выплатах по кредитному договору.
  • Количество действующих кредитов.
  • Количество повторных запросов.
  • Молодая или плохая кредитная история.

Зачастую при вычислении баллов используется информация за прошедшие 5 лет. Банками не берутся в учет кредитные договора, которые заключены с микрофинансовыми компаниями.

Не рассчитываются баллы при устаревшей или отсутствующей кредитной истории, и закрытые по решению суда договоры.

Больше информации в сфере экономике: economista.ru

Источник: https://zen.yandex.ru/media/id/5a96e372ad0f223b0cb55b84/chto-takoe-skoring-5aba92fe9e29a23c43125ed3

Что такое скоринг простыми словами?

Behavioral-scoring

Автор статьи

Юсупова Александра Сергеевна

Кандидат экономических наук, эксперт сайта.

Наверняка вы задумывались, почему ответ по заявке на один кредит приходит в течение 20 минут, а на другой – от суток до двух недель?

Как же кредитные менеджеры в различных банках и точках микрозаймов принимают решение, кому можно разрешить выдать кредит, а кому стоит отказать? Для этого существует кредитный скоринг.

Понятие скоринга

Финансовый скоринг – это специальная система, по которой банки оценивают возможность выдачи клиенту кредита, а также потенциальные риски и его платежеспособность. На практике это выглядит так. Сотрудник вводит в компьютерную программу информацию о потенциальном заемщике.

После чего система выдает результат скоринга в баллах. Их количество позволяет сотруднику оценить, можно ли выдать обратившемуся клиенту кредит или нет.

Также скоринг используется для расчета максимальной суммы займа, установления ставки в процентах, определения риска мошенничества и вероятности неисполнения долговых обязательств.

Виды кредитного скоринга

В банковской и финансовой сфере существует четыре вида скоринга.

Application-scoring

Это самый распространенный метод оценки способности заемщика выплачивать кредит. Сотрудник собирает данные о клиенте, программа обрабатывает их и выводит результат о предоставлении займа либо об отказе.

Collection-scoring

Предназначена для работы с непогашенными кредитами. На практике программа помогает сотруднику финансовой организации организовать работу с невозвращенными займами от предупреждения до передачи задолженности коллекторам.

Behavioral – scoring

Этот вид скоринга позволяет оценить наиболее вероятное финансовое поведение заемщика. Сотрудник может проанализировать составленный программой прогноз динамики платежеспособности и скорректировать определенный для него лимит. Информацией для проведения такого скоринга являются финансовые действия человека за какой-то период. Например, внесение платежей в счет долга по кредитной карте.

Fraud-scoring

Определяет вероятность мошенничества со стороны клиента, обратившегося за получением займа. Чаще всего этот тип скоринга применяется вместе с остальными способами анализа. Метод востребован по причине роста случаев мошенничества, связанных с невозвратом кредитов.

Данные для проведения скоринга

В стандартный перечень сведений входят следующие параметры:

  • Семейный статус. Получить максимальное количество баллов могут заемщики, которые состоят в официально зарегистрированном браке, проживают вместе и оформили брачный контракт.
  • Наличие и возраст детей. Наибольшее число баллов начислят семье, в которой нет детей. Наличие каждого последующего ребенка снизит значение скорингового балла.
  • Возраст. Является одной из самых основных характеристик, учитываемых скоринговой программой. Максимальную оценку получают потенциальные заемщики примерно 30-летнего возраста. Клиенты моложе 21 года и находящиеся на пенсии считаются системой скоринга не самой надежной категорией.
  • Положительная кредитная история. Своевременное погашение ранее оформленных кредитов и займов.
  • Официальное место трудоустройства. Сотрудники крупных коммерческих и государственных организаций получат больший балл, чем, например, неработающие официально пенсионеры.
  • Трудовой стаж. Скоринговая оценка будет выше, если общее число отработанных лет выше пяти.
  • Квалификация и занимаемая должность. Чем они выше и престижнее, тем большую оценку выдаст скоринговая система.
  • Уровень заработка. Прямо пропорционален количеству начисляемых скоринговых баллов.
  • Кредитная нагрузка. Чем больше у потенциального заемщика действующих долговых обязательств, тем меньшую скоринговую оценку он получит.
  • Образование. Наличие среднего профессионального или высшего образования увеличивает общую оценку.
  • Источники дополнительного дохода. Положительно скажутся на итоговом балле документы, подтверждающие дополнительный заработок.
  • Наличие в собственности недвижимого имущества или автомобиля. Добавляет некоторое число баллов от автоматической скоринговой системы.
  • Паспортные данные. Актуальная и подлинная информация, наличие постоянной или временной регистрации повысят шансы на одобрение кредита.
  • Контактная информация. Скоринговая программа берет в расчет наличие домашнего мобильного или стационарного телефона и данных контактных лиц.

Источник: https://finance03.ru/kredity/chto-takoe-skoring-prostymi-slovami.html

Пишем скоринговую модель на Python

Behavioral-scoring

Кредитный скоринг – одна из наиболее распространенных задач среди множества проблем, решаемых финансовыми аналитиками. В данной статье мы разберемся с ключевыми шагами для написания собственной скоринговой модели на Python.

Два наиболее важных вопроса кредитования:

  1. Насколько рискованно поступает заемщик, беря кредит?
  2. Учитывая известный риск заемщика, должны ли мы его кредитовать?

Определить рискованность действий заемщика можно опираясь на данные об экономическом поведении как его самого, так и результаты кредитования предыдущих заемщиков.

Для чего нужна скоринговая модель?

Вопрос, который максимально интересует банк в вопросе кредитования потребителей — это сможет ли он\она вернуть займ. Соответственно, все модели будут пытаться предугадать вероятность возврата( или дефолта) данного заемщика на основе имеющихся факторов и параметров: заработка, кредитной истории, уже имеющиеся кредиты.

В реальной жизни при построении данных моделей мы сталкиваемся с неполными данными, поэтому в данной статье мы сфокусируемся на двух моментах:

  • Что делать, если часть данных отсутствует?
  • Как строить классификаторы для несбалансированных выборок?

В качестве реальных данных воспользуемся выборкой из 9.5 тысяч записей с сайта LendingClub.com с мая 2007 года по февраль 2010 года.

При этом стоить обратить максимальное внимание на тот факт, что на данный временный отрезок пришёлся пик кризиса, поэтому данные будут представлять собой так называемый «стрессовый сценарий».

Поэтому для поведения заемщиков в некризисные периоды нам нужно будет найти другую выборку, скажем с 2013 по 2016 год, но при этом нам придется решать схожие проблемы с данными.

В качестве библиотек и функций импортируем следующие:

import numpy as npimport pandas as pdimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom imblearn.pipeline import make_pipeline as imb_make_pipelinefrom imblearn.under_sampling import RandomUnderSamplerfrom imblearn.ensemble import BalancedBaggingClassifier, EasyEnsemble from sklearn.preprocessing import Imputer, RobustScaler, FunctionTransformerfrom sklearn.ensemble import RandomForestClassifier, VotingClassifier, GradientBoostingClassifierfrom sklearn.model_selection import train_test_split, cross_val_score, cross_val_predictfrom sklearn.metrics import (roc_auc_score, confusion_matrix, accuracy_score, roc_curve, precision_recall_curve, f1_score)from sklearn.pipeline import make_pipeline

Знакомство с данными

Для начала ознакомимся с признаками, соответствующими столбцам датасета:

  • credit_policy: значение показателя равно 1, если клиент отвечает критериям кредитного андеррайтинга LendingClub.com или 0 в противном случае.
  • purpose: цель кредита (credit_card, debt_consolidation и т. д.).
  • int_rate: процентная ставка по кредиту (в десятичных долях).
  • installment: ежемесячные взносы заемщика.
  • log_annual_inc: натуральный логарифм годового дохода заемщика.
  • dti: отношение займа к доходу.
  • fico: кредитная оценка заемщика по системе FICO.
  • days_with_cr_line: число дней кредитной линии заемщика.
  • revol_bal: возобновляемый баланс заемщика.
  • revol_util: коэффициент использования возобновляемого баланса заемщика.
  • inq_last_6mths: количество запросов заемщика кредиторам за последние 6 месяцев.
  • delinq_2yrs: количество раз за последние два года, когда заемщик просрочил оплату более чем на 30 дней.
  • pub_rec: количество негативных отметок в кредитной записи.
  • not_fully_paid: 1 указывает, что долг не был выплачен полностью (заемщик обанкротился или маловероятно, что он вернет долг целиком). Этот признак и будет нашей целевой переменной.

Для начала определим тип данных каждого признака:

df = pd.read_csv(«loans.csv»)print(df.dtypes)

В результате можно видеть, что единственным категориальным признаком является признак purpose:

credit_policy int64purpose objectint_rate float64installment float64log_annual_inc float64dti float64fico int64days_with_cr_line float64revol_bal int64revol_util float64inq_last_6mths float64delinq_2yrs float64pub_rec float64not_fully_paid int64

Определим число пустых ячеек в каждом столбце:

print(df.isnull().sum())

В таблице имеется небольшое число пропусков для шести признаков:

credit_policy 0purpose 0int_rate 0installment 0log_annual_inc 4dti 0fico 0days_with_cr_line 29revol_bal 0revol_util 62inq_last_6mths 29delinq_2yrs 29pub_rec 29not_fully_paid 0

Рассмотрим как сбалансирована выборка относительно оплаченных кредитов:

pos = df[df[«not_fully_paid»] == 1].shape[0]neg = df[df[«not_fully_paid»] == 0].shape[0]plt.figure(figsize=(8, 6))sns.countplot(df[«not_fully_paid»])plt.xticks((0, 1), [«Оплачено полностью», «Оплачено не полностью»])plt.xlabel(«»)plt.ylabel(«Число заемщиков»)

Полученная диаграмма показывает, что выборка не сбалансирована относительно целевой переменной not_fully_paid.

Начальные соображения и предобработка данных

Для моделирования будем применять алгоритмические композиции, представляющие собой объединения моделей в более сложную для уменьшения ошибок обобщения. Такой подход полагается на предположение, что каждая модель рассматривает различные аспекты данных, захватывая часть общей истинной картины.

Сочетая независимо обученные модели, можно достичь лучших результатов, чем при использовании их одиночных экземпляров. Это приводит к более точным предсказаниям и меньшим ошибкам обобщения.Производительность алгоритмических композиций почти всегда возрастает с ростом числа используемых моделей.

Объединение максимально различных моделей уменьшает корреляцию между ними и повышает производительность композиции — коррелирующие между собой модели дают производительность идентичную или даже худшую, чем одиночная модель.

Кратко рассмотрим наиболее распространенные подходы к построению алгоритмических композиций:

  • Смешивание (blending, блендинг): усреднение прогнозов группы моделей.
  • Бэггинг (баггинг, bagging, bootstrap aggregating): независимое построение моделей на различных наборах данных с последующим выбором предсказания по результатам ания моделей.
  • Бустинг (boosting): последовательное построение моделей, при котором каждая модель учится с учетом результатов предыдущей модели. Чтобы избежать ошибок переобучения, каждая новая модель учится на результатах всех предыдущих моделей.
  • Стекинг (stacking): построение k моделей базовых учеников с дальнейшей подгонкой модели под метаклассификатор.

В нашей модели мы будем использовать бэггинговую модель случайного леса (Random Forest). Обратим внимание, что далее в коде мы проведем предварительную обработку данных:

  1. Создадим переменные признака purpose вместо используемых категориальных значений.
  2. Разобьем данные на обучающую (80%) и тестовую (20%) выборки.
  3. Чтобы выбросы в данных оказывали меньшее влияние на обучение, стандартизируем выборку при помощи метода RobustScaler.

Этот метод центрует данные вокруг медианы и масштабирует их с использованием межквартильного диапазона.

Стратегии работы с пропущенными значениями

В реальных выборках встречаются пропуски данных. Это может быть вызвано тем, что клиенты не заполнили часть банковских форм, изменились сами формы и т. д.

Одна из хороших практик учета отсутствующих данных — генерация бинарных функций. Такие функции принимают значение 0 или 1, указывающие на то, присутствует ли в записи значение признака или оно пропущено.

Другими распространенными практиками являются следующие подходы:

  • Удаление записей с отсутствующими значениями. Обычно так делается, если число недостающих значений очень мало в сравнении со всей выборкой, при этом сам факт пропуска значения имеет случайный характер. Недостатком такой стратегии является возникновение ошибок в случаях идентичных пропусков в тестовых данных.
  • Подстановка среднего, медианного или наиболее распространенного значения данного признака.
  • Использование различных предсказательных моделей для прогнозирования пропущенного значения при помощи остальных данных датасета.

Начнем с создания бинарных функций для отсутствующих значений, а затем вычислим показатель AUC для различных моделей на обучающей выборке:

df = pd.get_dummies(df, columns=[«purpose»], drop_first=True)for feature in df.columns: if np.any(np.isnan(df[feature])): df[«is_» + feature + «_missing»] = np.isnan(df[feature]) * 1

Выделим в качестве целевой переменной признак not_fully_paid и разобьем данные на обучающую и тестовую выборки:

X = df.loc[:, df.columns != «not_fully_paid»].valuesy = df.loc[:, df.columns == «not_fully_paid»].values.flatten()X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=0, stratify=y)print(«Оригинальные размеры данных: «, X_train.shape, X_test.shape)

В результате получаем:

Оригинальные размеры данных: (7662, 24) (1916, 24)

Рассмотрим в нашем примере самый простой вариант – выкинем из выборки записи с пропусками:

train_indices_na = np.max(np.isnan(X_train), axis=1)test_indices_na = np.max(np.isnan(X_test), axis=1)X_train_dropna, y_train_dropna = X_train[~train_indices_na, :][:, :-6], y_train[~train_indices_na]X_test_dropna, y_test_dropna = X_test[~test_indices_na, :][:, :-6], y_test[~test_indices_na]print(«После выкидывания NA: «, X_train_dropna.shape, X_test_dropna.shape)

В результате запуска увидим:

После выкидывания NA: (7610, 18) (1906, 18)

Построим классификатор случайного леса и определим показатель AUC для данной модели:

rf_clf = RandomForestClassifier(n_estimators=500, max_features=0.25, criterion=»entropy», class_weight=»balanced»)pip_baseline = make_pipeline(RobustScaler(), rf_clf)scores = cross_val_score(pip_baseline, X_train_dropna, y_train_dropna, scoring=»roc_auc», cv=10)print(«Среднее значение AUC базовой модели {}».format(scores.mean()))

Запуск кода дает:

Среднее значение AUC базовой модели 0.662.

Проверим, улучшают ли бинарные функции качество нашей модели:

rf_clf.fit(RobustScaler().fit_transform(Imputer(strategy=»median»).fit_transform(X_train)), y_train)importances = rf_clf.feature_importances_indices = np.argsort(rf_clf.feature_importances_)[::-1]plt.figure(figsize=(12, 6))plt.bar(range(1, 25), importances[indices], align=»center»)plt.xticks(range(1, 25), df.columns[df.columns != «not_fully_paid»][indices], rotation=90) plt.title(«Значимость признаков»)

Вы можете попробовать и более сложные стратегии, однако для такого малого числа потерь данных при использовании различных подходов обработки пропусков обычно наблюдаются сопоставимые результаты.

Рассматривая полученную диаграмму, можно заметить, что добавление двоичных функций в этом конкретном случае не приводит к приросту производительности модели.

Таким образом для нашей выборки их можно удалить:

X_train = X_train[:, :-6]X_test = X_test[:, :-6]

Стратегии работы с несбалансированными выборками

Лучшими метриками для несбалансированных наборов данных считаются AUC (площадь под ROC-кривой) и f1-score. Но одних метрик недостаточно — классовый дисбаланс влияет на процесс обучения модели, делая ее предвзятой. В этом случае используются следующие подходы:

  • Удалить часть экземпляров мажоритарного класса так, чтобы сравнять число положительных и отрицательных примеров (недостаток: существенная потеря данных.
  • Дополнить повторами миноритарные представители класса, чтобы сравнять число положительных и отрицательных примеров (недостаток: возможное переобучение на повторяющихся примерах).
  • Избирательно настроить классификатор на объекты мажоритарного/миноритарного классов.
  • Создать синтетические объекты миноритарного класса.

В большинстве приложений неправильная классификация меньшинства (ложноотрицательная классификация) стоит намного дороже ложноположительной.

В контексте кредитования потеря денег из-за незаслуживающего доверия заемщика обходится существенно выше, чем отсутствие возможности кредитования надежного заемщика. Поэтому мы можем назначать этим классам различные веса и отсечки.

В качестве примера сравним результат прошлой модели случайного леса с теми, где мы либо сбалансируем выборку, удалив часть мажоритарных записей (under-sample подход), либо воспользуемся синтетическим подходом:

rf_clf = RandomForestClassifier(n_estimators=500, max_features=0.25, criterion=»entropy», class_weight=»balanced») pip_orig = make_pipeline(Imputer(strategy=»mean»), RobustScaler(), rf_clf)scores = cross_val_score(pip_orig, X_train, y_train, scoring=»roc_auc», cv=10)print(«AUC оригинальной модели: «, scores.mean()) pip_undersample = imb_make_pipeline(Imputer(strategy=»mean»), RobustScaler(), RandomUnderSampler(), rf_clf)scores = cross_val_score(pip_undersample, X_train, y_train, scoring=»roc_auc», cv=10)print(«AUC модели без большей части мажоритарных примеров: «, scores.mean()) resampled_rf = BalancedBaggingClassifier(base_estimator=rf_clf, n_estimators=10, random_state=0)pip_resampled = make_pipeline(Imputer(strategy=»mean»), RobustScaler(), resampled_rf)scores = cross_val_score(pip_resampled, X_train, y_train, scoring=»roc_auc», cv=10) print(«AUC модели EasyEnsemble: «, scores.mean())

Результат работы скрипта:

AUC оригинальной модели: 0.663AUC модели без большей части мажоритарных примеров: 0.658AUC модели EasyEnsemble 0.671

Можно видеть, что в случае рассматриваемой выборки простое исключение экземпляров мажоритарного класса не приводит к улучшению качества предсказания модели. В то же время применение синтетического подхода, например, EasyEnsemble, позволяют сбалансировать выборку и улучшить предсказательные возможности модели.

Такие сбалансированные классификаторы можно обучать и делать на них предсказания аналогично традиционным:

resampled_rf.fit(X_train_dropna, y_train_dropna)print(y_test_dropna[-3], y_test_dropna[-2])print(resampled_rf.predict([X_test_dropna[-3]]), resampled_rf.predict([X_test_dropna[-2]]))

Вывод:

1 0[1] [0]

Для улучшения предсказания скоринговых моделей существует гораздо больше сложных концепций, чем мы можем изложить в рамках одной публикации. С некоторыми из них в продолжение работы с этой статьей на примере того же датасета вы можете ознакомиться здесь.

Научиться анализировать сложные алгоритмы аналитических моделей можно на курсе «Machine Learning» от SF Education!

Подписывайтесь на полезную рассылку от SF Education в  и в Telegram!

Источник: https://blog.sf.education/it-pishem-skoringovuyu-model-na-python/

Скоринг — что это в банке, виды

Behavioral-scoring

Скоринг – это экспресс-оценка надежности заемщика и потенциальных рисков банка, определяемая с помощью специальной программы. Скоринг широко применяется при выдаче всех видов кредитов, включая ипотечные.

Но чаще всего систему скоринга используют при выдаче так называемых экспресс-кредитов, где решение по заявке принимается в течение нескольких минут.

В этой статье мы рассмотрим виды скоринга с примерами, а также расскажем, какие основные параметры влияют на получение положительного решения при выдаче кредита.

Что такое скоринг

Итак, скоринг клиента – это оценка платежеспособности потенциального заемщика с помощью специальных программных средств. Слово «скоринг» образовано от английского “score”, что означает «счет» или «количество баллов».

Программа, алгоритм работы которой держится в секрете даже от сотрудников банка, оценивает клиента по некой системе баллов. Общее количество позволяет сотруднику вынести решение относительно того, выдать кредит, отказать или выдать на более жестких условиях.

Банковский скоринг может проводиться в несколько этапов:

  • предварительный скоринг;
  • углубленный скоринг;
  • ручное рассмотрение заявки специалистом.

Прескоринг (пре-скоринг)

Предварительная оценка вашей платежеспособности как заемщика может проводиться путем заполнения короткой анкеты на сайте или в офисе банка. Вам понадобится указать ФИО, дату рождения и данные паспорта.

Многие из вас наверняка получали смс от банков о предварительно одобренном кредите на определенную сумму. Это означает, что прескоринг (предварительный скоринг) в банке был проведен автоматически.

Эта проверка исключает такие факторы, как:

  1. Судимость.
  2. Стояние на учете в психоневрологическом и наркологическом диспансерах.
  3. Задолженность, переданная на взыскание в службу судебных приставов.
  4. Банкротство физического лица.
  5. Высокая кредитная нагрузка. Критерии определения кредитной нагрузки индивидуальны для каждого банка и составляют в среднем более 60-70 % от дохода заемщика.
  6. Большое количество обращений за кредитами за последние несколько дней. Если вы подавали заявки в разные банки в одно время, высока вероятность того, что в выдаче кредита вам будет отказано.

Итак, если вы не отвечаете всем вышеперечисленным пунктам, это значит, что предварительный скоринг пройден. Далее вам может быть предложено предоставить сведения о доходах, контактные телефоны и другую информацию в электронном виде или лично в офисе банка.

Как он работает

Сразу нужно отметить, что система скоринга постоянно совершенствуется в целях устранения ошибок, основанных на стереотипном подходе при подсчете баллов.

Пример. Есть два потенциальных заемщика – Николай и Константин. Николай холост, Константин состоит в браке 5 лет. Оба мужчины примерно одного возраста (около 30 лет), имеют хорошую кредитную историю и высокие доходы, ни у кого из них нет судимостей и долгов.

Однако Николай по результатам скоринга получит меньше баллов, чем Константин. Это объясняется тем, что клиентам, состоящим в браке и не имеющим иждивенцев (у обоих мужчин пока нет детей) начисляется большее количество баллов, так как принимается во внимание доход супруга.

Это не значит, что Николаю откажут в выдаче кредита. Скорее всего, оба заемщика получат положительное решение. Но по количеству начисленных баллов между ними будет разница, о которой клиенты не узнают.

Таким образом, даже не проверяя тот факт, трудоустроена ли супруга Константина и каков ее доход, система применяет стереотип.

Другой пример. Светлана является студенткой дневного отделения и работает в агентстве недвижимости, предлагая квартиры для сдачи в аренду.

На этой работе девушка имеет неплохой доход и даже трудоустроена официально.

Однако молодой возраст и неоконченное высшее образование будут основанием для снижения баллов: считается, что студенты и вообще молодые люди не являются кредитоспособными клиентами.

Светлана обратилась в банк за кредитом на покупку техники. Возможно, ей удастся получить деньги от банка, но условия могут быть более жесткими, например, банк может снизить сумму займа.

Таким образом, программа скоринга анализирует данные, предоставленные клиентом, по определенным стереотипам, которые заложены в ней на основании информации по предшествующим операциям.

Кроме того, данные анкеты проверяются в различных источниках. К ним относятся:

  1. Бюро кредитных историй.
  2. Данные Единого государственного реестра юридических лиц (при указании места работы проверяется, является ли организация действующей).
  3. Налоговая служба.
  4. Пенсионный фонд.
  5. Служба судебных приставов и др.

При проведении скоринга информация из бюро кредитных историй запрашивается во всех случаях без исключения. Если у вас нет кредитной истории, ваши шансы пройти банковский скоринг минимальны.

Данные, необходимые для проведения скоринга

По каким данным проверяет клиентов скоринг? В разных банках пункты анкеты могут отличаться друг от друга. Данные о возрасте, адресе регистрации и семейном положении можно взять из паспорта. Кроме того, клиент должен также указать:

  1. Информацию об образовании.
  2. Информацию о трудоустройстве (стаж работы, должность, размер дохода, адрес организации, телефоны контактных лиц).
  3. Сведения о наличии или отсутствии иждивенцев.
  4. Сведения о наличии имущества в собственности (недвижимость, автомобиль).
  5. Данные о действующих кредитах в других банках (вид займа, остаток задолженности и сумма ежемесячных платежей).

Источник: https://retireearly.ru/financial-literacy/skoring

Все термины
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: