Ulubione
  1. Strona główna
  2. MODELOWANIE DLA BIZNESU. METODY MACHINE LEARNING, MODELE PORTFELA CONSUMER FINANCE, MODELE REKURENCYJNE, ANALIZY PRZEŻYCIA, MODELE SCORINGOWE

MODELOWANIE DLA BIZNESU. METODY MACHINE LEARNING, MODELE PORTFELA CONSUMER FINANCE, MODELE REKURENCYJNE, ANALIZY PRZEŻYCIA, MODELE SCORINGOWE

48,00 zł
43,20 zł
/ szt.
Oszczędzasz 10 % ( 4,80 zł).
Najniższa cena produktu z 30 dni przed obniżką: 38,70 zł
Autor: Redakcja naukowa: Karol Przanowski Sebastian Zając
Kod produktu: 978-83-8030-404-8
Cena regularna:
48,00 zł
43,20 zł
/ szt.
Oszczędzasz 10 % ( 4,80 zł).
Najniższa cena produktu z 30 dni przed obniżką: 38,70 zł
Dodaj do ulubionych
Łatwy zwrot towaru w ciągu 14 dni od zakupu bez podania przyczyny

 

Książka Modelowanie dla biznesu, metody machine learning, modele portfela CF, modele rekurencyjne analizy przeżycia, modele scoringowe pod redakcją naukową dr. Karola Przanowskiego i dr. Sebastiana Zająca jest odpowiedzią nauki i biznesu na zapotrzebowanie związane ze zrozumieniem i zastosowaniem szerokich metod uczenia maszynowego w analizie dużych zbiorów danych.  Książka ta łącząc ze sobą teorię oraz zastosowania praktyczne bez wątpienia powinna zainteresować nie tylko analityków danych w obszarach biznesowych, ale również studentów kierunków ilościowych jak i pracowników naukowo-dydaktycznych. W kompleksowy sposób rozszerza ona wiedzę z pierwszej części książki. Wprowadza czytelnika w tematykę wykorzystania zaawansowanych metod uczenia maszynowego i głębokiego w problemach modeli scoringowych, które, szczególnie w sektorze bankowym, ograniczone są licznymi regulacjami prawnymi, jak i modeli analizy historii zdarzeń w predykcji zjawiska kryzysu, czy też procesu migracji klientów. Całość uzupełniona jest o techniczną analizę metod selekcji zmiennych. W książce przedstawiono wykorzystanie zarówno narzędzi komercyjnych takich jak SAS, ale również i kody oparte o bardzo szybko rozwijające się programowanie w Pythonie. Mamy nadzieję, że przedstawiona tematyka pomoże przybliżyć problemy dzisiejszej analityki oraz zainspiruje czytelników do wysiłku w jej rozwijaniu w czasie oczekiwania na III część.

 

Karol Przanowski, Sebastian Zając

 

 

[[[separator]]]

 

Oddajemy do rąk czytelników kolejną książkę z serii "Modelowanie dla biznesu". Rozpoczynając wydanie tej serii w 2019 roku, nikt z nas nie zdawał sobie sprawy, że rozpoczniemy wiele działań (w tym wydarzeń naukowo-biznesowych i publikacji) zmierzających do tworzenia pomostu pomiędzy biznesem a nauką.Z perspektywy czasu możemy teraz śmiało dzielić się radością gromadzenia i łączenia wielu ekspertów i sympatyków w jednym środowisku, które staje się inspiracją, fermentem analitycznym, nadającym właściwe trendy rozwoju i stosowania zaawansowanej analityki biznesowej w Polsce i na świecie.Rozpoczęliśmy przygotowania do tego wydania w czasach przed światową pandemią COVID-19. Nie wiedzieliśmy wtedy, że wybrane tematy naszych rozdziałów staną się istotnym wsparciem przemian analitycznego świata przed i po pandemii. Nikt dziś nie wie, jak potoczą się losy ludzkości i jak będzie wyglądał świat po zlikwidowaniu wpływu wirusa SARS. Jednocześnie w czasie jego działania obserwujemy dynamiczny rozwój w budowaniu nowej kultury pracy, komunikacji i biznesu. Śmiało możemy zakładać, że świat po pandemii będzie jeszcze bardziej potrzebował automatyzacji procesów, większej liczby modeli predykcyjnych i pełnej cyfryzacji. Ludzka ingerencja w podejmowanie decyzji będzie ogranicza-na. Zarządzanie procesami przesunie się prawdopodobnie z metod eksperckich w stronę analizowania szczegółowych raportów monitorujących kolejne automa-tyczne punkty decyzyjne procesu i ewentualne tworzenie hipotez weryfikowanych testami AB. Pandemia tylko tę przemianę przyspiesza i zmusza wszystkich rozwijających zaawansowaną analitykę do bardziej zdecydowanych kroków. Już przed pandemią pojawiły się wyzwania związane z rozwojem technik sztucznej inteligencji (ang. Artificial Intelligence - AI) i uczenia maszynowego (ang. Machine Learning - ML). Problem można sformułować następująco: co jest lepsze? Model predykcyjny bardziej złożony, z nieliniowymi zależnościami i trudniejszy w interpretacji, ale za to posiadający lepsze parametry zdolności do prognozy, czy też model z prostszą konstrukcją, lepiej interpretowany, ale z mniejszą mocą predykcyjną? Odpowiedź nie jest prosta, związana jest także z istnieniem wielu regulacji w środowiskach instytucji finansowych.

W rozdziale 1 przywołane są nowe zaawansowane techniki budowy modeli w zastosowaniu do ryzyka kredytowego. Autorzy głównie koncentrują się na porównaniu klasycznego modelu regresji logistycznej z algorytmem XGBoosting i lasami losowymi. W tym miejscu należy podkreślić nową i szybko rozwijającą się teorię związaną z interpretacją modeli. Cieszy nas fakt, że równolegle w trakcie powstawania naszej książki pojawiła się publikacja autorów Przemysława Biecka i Tomasza Burzykowskiego, dostępna także on-line 2, która przybliża tematykę XAI (ang. eXplainable Artificial Intelligence) i IML (ang. Interpretable Machine Learning). Pojawiają się tu szczegółowo opisane metody SHAP (ang. SHapley Additive exPlanation) i LIME (ang. Local Interpretable model-agnostic explonation), a także poruszony jest już we wstępie problem struktur danych modelowych potrzebnych do budowy modeli. Obecnie zespoły analityczne potrafią budować dane z kilkoma tysiącami zmiennych opisujących zjawisko modelowe. Tak duża liczba zmiennych powoduje rozrastanie się zasobów informatycznych, służących do ich przechowywania. Ich koszt staje się powoli istotnym czynnikiem planowania projektu. Nowe techniki modelowe potrafią zmniejszyć złożoność danych na wejściu. Innymi słowy, poszukiwany jest jakiś kompromis pomiędzy złożonością danych wejściowych i prostotą modelu a prostotą danych wejściowych i złożonością modelu. Pod tym względem ma się wrażenie, że ludzkość czeka na jakąś rewolucję naukową, która powinna przekonać środowiska nadzorujące do większego otwarcia się na nowoczesne modelowanie, a jednocześnie by to modelowanie dało się ująć w jakieś ramy i metody weryfikacji, aby nie narazić się na duże straty finansowe. Ryzyko modelu jest już pojęciem wprowadzonym po światowym kryzysie w latach 2008-2009, ale ryzyko modeli ML i AI nie jest jeszcze dobrze zmierzone i to stanowi barierę ich stosowania w biznesie nadzorowanym. Z drugiej strony w licznych prezentacjach Przemysława Biecka pod wspólnym hasłem ang. XAI or DIE 3 (w tłumaczeniu: wyjaśnij model lub umieraj) pojawia się nowe wyzwanie formułowane przez nadzorcę o szczegółowym wyjaśnianiu klientom przyczyny odmowy udzielenia kredytu 4. Tego typu wezwanie wymaga nowszego spojrzenia na techniki modelowe, gdyż realizacja regulacji nie może ujawniać pełnej postaci stosowanego modelu. Może to podlegać innej regulacji związanej ujawnieniem tajemnicy bankowej, co w konsekwencji może prowadzić do nadużyć finansowych np. w procesie akceptacji kredytowej. Muszą zatem pojawić się nowe metody wskazujące istotne czynniki wpływające na ocenę modelu w ujęciu indywidualnym danego klienta, które jednak nie ujawnią pełnej informacji o modelu, ale będą wystarczające by uzasadnić przyczynę odmowy danego wniosku kredytowego.

Warto zatem badać modele ML i AI oraz dokonywać różnego rodzaju porównań, głównie koncentrując się na selekcji zmiennych i tworzeniu kryteriów porównawczych. Nie istnieje jedno najlepsze kryterium i nie istnieje pojęcie dobrego modelu. Trud poszukiwania najlepszego modelu dla przykładowych danych przedstawiono w rozdziale 2.W pierwszych dwóch rozdziałach przedstawiono metody modelowania, prognozowania zjawiska binarnego (będzie / nie będzie), czyli estymacji prawdopodobieństwa zajścia zdarzenia modelowego w jakimś z góry ustalonym horyzoncie czasowym. Dwa kolejne rozdziały poruszają temat prognozowania czasu tego zdarzenia, który związany jest z modelami analizy historii zdarzeń. Szczególnie w rozdziale 3 zaprezentowano metodykę analizowania krzywych do życia i hazardu, łącznie z ich metodami estymacji. Dodatkowo przedstawiono zagadnienie modelowania zdarzeń rekurencyjnych w zastosowaniu biznesowym programu lojalnościowego. Niewątpliwie metody analizy historii zdarzeń będą coraz częściej stosowane w biznesie i obecne opracowanie jest ważnym drogowskazem ich rozwoju. W sposób uproszczony i jednocześnie dostosowany do ryzyka kredytowego w procesie akceptacji kredytowej zastosowanie modeli analizy historii ukazano w rozdziale 4. W tym wypadku prezentowana jest metoda dynamiczna reagowania na zmieniające się ryzyko kredytowe w czasie. Trzeba zdać sobie sprawę, że obecnie stosowane są metody prognozowania ryzyka kredytowego na podstawie wskaźników makroekonomicznych, czyli ogólnie prognozowanych zmian koniunktury. Problem tylko w tym, że ani kryzysu w latach 2008 - 2009 nie udało się przewidzieć, ani pandemii COVID-19 w 2020 roku. Być może zatem poszukiwanie metod wiążących zmianę koniunktury z ryzykiem kredytowym nie pomogą nam przewidzieć kolejnego kryzysu, ale dynamiczna metoda reagująca bezpośrednio na podstawie obserwowanych krótkookresowych wskaźników ryzyka być może pomoże nam szybciej zmienić parametry procesu akceptacji kredytowej i zaoszczędzić straty kredytowe. Jesteśmy przekonani, że zebrane tematy pomogą przybliżyć najważniejsze problemy dzisiejszej analityki oraz zainspirują czytelników do pogłębionych studiów oraz pomogą wspólnie rozwijać zastosowania zaawansowanej analizy danych w biznesie.

 

Karol Przanowski

Sebastian Zając

 

 

 

[[[separator]]]

 

 

Przedmowa

1  Metody Machine Learning w ryzyku kredytowym

Barbara Szewczak, Kamil Niedźwiedzki

Wprowadzenie

1.1         Metodyka budowy modeli

1.2         Regresja logistyczna

1.2.1      Segmentacja

1.2.2      Podział zbioru

1.2.3      Przepróbkowanie zbioru

1.2.4      Kategoryzacja zmiennych

1.2.5      Preselekcja zmiennych

1.2.6      Korelacja zmiennych

1.2.7      Identyfikacja obserwacji wpływających

1.2.8      Modelowanie

1.3         Metoda Gradient Boosting

1.3.1      Dobór próby

1.3.2      Preselekcja zmiennych

1.3.3      Korelacja zmiennych

1.3.4      Zjawisko przeuczenia modelu

1.3.5      Budowa karty skoringowej

1.3.6      Monitoring modelu

1.3.7      Inne cechy

1.4         Metoda lasów losowych

1.5         Porównanie omówionych metod

Podsumowanie

Bibliografia

 

2  Metody selekcji zmiennych w modelach scoringowych

Karol Przanowski, Sebastian Zając

2.1         Predykcyjne modele skoringowe

2.2        Budowa modelu skoringowego oraz karty skoringowej

2.3         Metodyka wyboru zmiennych

2.3.1      Analiza głównych składowych i sieci neuronowe

2.3.2      Wariancja cech

2.3.3      Statystyka Giniego

2.3.4      Modele jednoczynnikowe

2.3.5      Inforamtion Value

2.3.6      Regularyzacja regresji logistycznej L1

2.3.7      Rekurencyjna eliminacja zmiennych

2.3.8      Drzewa decyzyjne i lasy losowe

2.3.9      Branch & bound

2.4         Przygotowanie danych

2.5        Wyniki wyboru różnych metod selekcji zmiennych

2.5.1      Wariancja cech

2.5.2      Statystyka Giniego oraz IV

2.5.3      Statystyczna istotność zmiennych

2.5.4      Rekurencyjne metody doboru zmiennych

2.5.5      Regularyzacja regresji logistycznej

2.5.6      Feature importance dla algorytmów drzewa decyzyjnego i lasów losowych

2.5.7      Analityczna metoda Branch & bound

2.5.8      Wizualizacja wyników oraz finalne wnioski

Podsumowanie

Bibliografia

 

3  Proces migracji klientów na przykładzie programu lojalnościowego. Modelowania z zastosowaniem analizy przeżycia

Ewa Frątczak, Piotr Rozenbajgier, Adrianna Wołowiec

Wprowadzenie

3.1         Podstawy analizy przeżycia

3.2        Opis programu PAYBACK i zbioru danych

3.2.1      Opis programu PAYBACK

3.2.2      Opis segmentacji uczestników PAYBACK

3.2.3      Wstępne przetworzenie zbioru danych - statystyki segmentów i przejść pomiędzy nimi

3.3         Procedury analizy przeżycia w SAS

3.4         Modelowanie nieparametryczne - analiza procesu migracji dla pojedynczych epizodów

3.4.1     Analiza nieparametryczna pojedynczego epizodu

3.5         Modele rekurencyjne - estymacja i interpretacja wyników

3.5.1      PROCRELIABILITY

3.5.2      PROCPHREG

Podsumowanie

Bibliografia

 

4  Prognozowanie kryzysu portfela Consumer finance

Karol Przanowski

Wprowadzenie

4.1  Prognozowanie kryzysu ryzyka kredytowego dla kredytów konsumenckich

4.1.1      Dane symulacyjne. Opis algorytmu generowania danych

4.1.2      Opłacalność procesu akceptacji kredytowej. Podstawowe składniki zysku: prowizja, przychody odsetkowe i strata kredytowa

4.1.3      Strategia pełnej akceptacji

4.1.4      Strategia prosta - pierwsze punkty odcięcia

4.1.5      Strategia na bazie modelu analizy historii zdarzeń (AHZ)

4.1.6      Strategia na bazie modelu analizy historii zdarzeń z prognozowaniem wskaźników

4.1.7      Strategia na bazie typowego modelu skoringowego

4.1.8      Dlaczego model analizy historii zdarzeń jest lepszym od zwykłego modelu skoringowego

4.1.9      Nieudane próby estymacji modeli na próbach danych z czasu przed kryzysem

4.1.10   Strategie dynamicznej korekty na bazie default3 lub default6

4.1.11   Porównanie wszystkich strategii, finalne wnioski

4.2         Podsumowanie

4.3         Dokumentacje modeli

4.3.1      Model PD Survival

4.3.2      Model PD Suma

4.3.3      Model PD Crisis

4.3.4      Model PD Ins

4.3.5      Model PD Css

4.3.6      Tabela analityczna, opisy wszystkich zmiennych

Bibliografia

 

 

 

Opis

Wydanie: I
Rok wydania: 2020
Wydawnictwo: Oficyna Wydawnicza
Format: B5
Liczba stron: 186
Oprawa: twarda

 

Książka Modelowanie dla biznesu, metody machine learning, modele portfela CF, modele rekurencyjne analizy przeżycia, modele scoringowe pod redakcją naukową dr. Karola Przanowskiego i dr. Sebastiana Zająca jest odpowiedzią nauki i biznesu na zapotrzebowanie związane ze zrozumieniem i zastosowaniem szerokich metod uczenia maszynowego w analizie dużych zbiorów danych.  Książka ta łącząc ze sobą teorię oraz zastosowania praktyczne bez wątpienia powinna zainteresować nie tylko analityków danych w obszarach biznesowych, ale również studentów kierunków ilościowych jak i pracowników naukowo-dydaktycznych. W kompleksowy sposób rozszerza ona wiedzę z pierwszej części książki. Wprowadza czytelnika w tematykę wykorzystania zaawansowanych metod uczenia maszynowego i głębokiego w problemach modeli scoringowych, które, szczególnie w sektorze bankowym, ograniczone są licznymi regulacjami prawnymi, jak i modeli analizy historii zdarzeń w predykcji zjawiska kryzysu, czy też procesu migracji klientów. Całość uzupełniona jest o techniczną analizę metod selekcji zmiennych. W książce przedstawiono wykorzystanie zarówno narzędzi komercyjnych takich jak SAS, ale również i kody oparte o bardzo szybko rozwijające się programowanie w Pythonie. Mamy nadzieję, że przedstawiona tematyka pomoże przybliżyć problemy dzisiejszej analityki oraz zainspiruje czytelników do wysiłku w jej rozwijaniu w czasie oczekiwania na III część.

 

Karol Przanowski, Sebastian Zając

 

 

Wstęp

 

Oddajemy do rąk czytelników kolejną książkę z serii "Modelowanie dla biznesu". Rozpoczynając wydanie tej serii w 2019 roku, nikt z nas nie zdawał sobie sprawy, że rozpoczniemy wiele działań (w tym wydarzeń naukowo-biznesowych i publikacji) zmierzających do tworzenia pomostu pomiędzy biznesem a nauką.Z perspektywy czasu możemy teraz śmiało dzielić się radością gromadzenia i łączenia wielu ekspertów i sympatyków w jednym środowisku, które staje się inspiracją, fermentem analitycznym, nadającym właściwe trendy rozwoju i stosowania zaawansowanej analityki biznesowej w Polsce i na świecie.Rozpoczęliśmy przygotowania do tego wydania w czasach przed światową pandemią COVID-19. Nie wiedzieliśmy wtedy, że wybrane tematy naszych rozdziałów staną się istotnym wsparciem przemian analitycznego świata przed i po pandemii. Nikt dziś nie wie, jak potoczą się losy ludzkości i jak będzie wyglądał świat po zlikwidowaniu wpływu wirusa SARS. Jednocześnie w czasie jego działania obserwujemy dynamiczny rozwój w budowaniu nowej kultury pracy, komunikacji i biznesu. Śmiało możemy zakładać, że świat po pandemii będzie jeszcze bardziej potrzebował automatyzacji procesów, większej liczby modeli predykcyjnych i pełnej cyfryzacji. Ludzka ingerencja w podejmowanie decyzji będzie ogranicza-na. Zarządzanie procesami przesunie się prawdopodobnie z metod eksperckich w stronę analizowania szczegółowych raportów monitorujących kolejne automa-tyczne punkty decyzyjne procesu i ewentualne tworzenie hipotez weryfikowanych testami AB. Pandemia tylko tę przemianę przyspiesza i zmusza wszystkich rozwijających zaawansowaną analitykę do bardziej zdecydowanych kroków. Już przed pandemią pojawiły się wyzwania związane z rozwojem technik sztucznej inteligencji (ang. Artificial Intelligence - AI) i uczenia maszynowego (ang. Machine Learning - ML). Problem można sformułować następująco: co jest lepsze? Model predykcyjny bardziej złożony, z nieliniowymi zależnościami i trudniejszy w interpretacji, ale za to posiadający lepsze parametry zdolności do prognozy, czy też model z prostszą konstrukcją, lepiej interpretowany, ale z mniejszą mocą predykcyjną? Odpowiedź nie jest prosta, związana jest także z istnieniem wielu regulacji w środowiskach instytucji finansowych.

W rozdziale 1 przywołane są nowe zaawansowane techniki budowy modeli w zastosowaniu do ryzyka kredytowego. Autorzy głównie koncentrują się na porównaniu klasycznego modelu regresji logistycznej z algorytmem XGBoosting i lasami losowymi. W tym miejscu należy podkreślić nową i szybko rozwijającą się teorię związaną z interpretacją modeli. Cieszy nas fakt, że równolegle w trakcie powstawania naszej książki pojawiła się publikacja autorów Przemysława Biecka i Tomasza Burzykowskiego, dostępna także on-line 2, która przybliża tematykę XAI (ang. eXplainable Artificial Intelligence) i IML (ang. Interpretable Machine Learning). Pojawiają się tu szczegółowo opisane metody SHAP (ang. SHapley Additive exPlanation) i LIME (ang. Local Interpretable model-agnostic explonation), a także poruszony jest już we wstępie problem struktur danych modelowych potrzebnych do budowy modeli. Obecnie zespoły analityczne potrafią budować dane z kilkoma tysiącami zmiennych opisujących zjawisko modelowe. Tak duża liczba zmiennych powoduje rozrastanie się zasobów informatycznych, służących do ich przechowywania. Ich koszt staje się powoli istotnym czynnikiem planowania projektu. Nowe techniki modelowe potrafią zmniejszyć złożoność danych na wejściu. Innymi słowy, poszukiwany jest jakiś kompromis pomiędzy złożonością danych wejściowych i prostotą modelu a prostotą danych wejściowych i złożonością modelu. Pod tym względem ma się wrażenie, że ludzkość czeka na jakąś rewolucję naukową, która powinna przekonać środowiska nadzorujące do większego otwarcia się na nowoczesne modelowanie, a jednocześnie by to modelowanie dało się ująć w jakieś ramy i metody weryfikacji, aby nie narazić się na duże straty finansowe. Ryzyko modelu jest już pojęciem wprowadzonym po światowym kryzysie w latach 2008-2009, ale ryzyko modeli ML i AI nie jest jeszcze dobrze zmierzone i to stanowi barierę ich stosowania w biznesie nadzorowanym. Z drugiej strony w licznych prezentacjach Przemysława Biecka pod wspólnym hasłem ang. XAI or DIE 3 (w tłumaczeniu: wyjaśnij model lub umieraj) pojawia się nowe wyzwanie formułowane przez nadzorcę o szczegółowym wyjaśnianiu klientom przyczyny odmowy udzielenia kredytu 4. Tego typu wezwanie wymaga nowszego spojrzenia na techniki modelowe, gdyż realizacja regulacji nie może ujawniać pełnej postaci stosowanego modelu. Może to podlegać innej regulacji związanej ujawnieniem tajemnicy bankowej, co w konsekwencji może prowadzić do nadużyć finansowych np. w procesie akceptacji kredytowej. Muszą zatem pojawić się nowe metody wskazujące istotne czynniki wpływające na ocenę modelu w ujęciu indywidualnym danego klienta, które jednak nie ujawnią pełnej informacji o modelu, ale będą wystarczające by uzasadnić przyczynę odmowy danego wniosku kredytowego.

Warto zatem badać modele ML i AI oraz dokonywać różnego rodzaju porównań, głównie koncentrując się na selekcji zmiennych i tworzeniu kryteriów porównawczych. Nie istnieje jedno najlepsze kryterium i nie istnieje pojęcie dobrego modelu. Trud poszukiwania najlepszego modelu dla przykładowych danych przedstawiono w rozdziale 2.W pierwszych dwóch rozdziałach przedstawiono metody modelowania, prognozowania zjawiska binarnego (będzie / nie będzie), czyli estymacji prawdopodobieństwa zajścia zdarzenia modelowego w jakimś z góry ustalonym horyzoncie czasowym. Dwa kolejne rozdziały poruszają temat prognozowania czasu tego zdarzenia, który związany jest z modelami analizy historii zdarzeń. Szczególnie w rozdziale 3 zaprezentowano metodykę analizowania krzywych do życia i hazardu, łącznie z ich metodami estymacji. Dodatkowo przedstawiono zagadnienie modelowania zdarzeń rekurencyjnych w zastosowaniu biznesowym programu lojalnościowego. Niewątpliwie metody analizy historii zdarzeń będą coraz częściej stosowane w biznesie i obecne opracowanie jest ważnym drogowskazem ich rozwoju. W sposób uproszczony i jednocześnie dostosowany do ryzyka kredytowego w procesie akceptacji kredytowej zastosowanie modeli analizy historii ukazano w rozdziale 4. W tym wypadku prezentowana jest metoda dynamiczna reagowania na zmieniające się ryzyko kredytowe w czasie. Trzeba zdać sobie sprawę, że obecnie stosowane są metody prognozowania ryzyka kredytowego na podstawie wskaźników makroekonomicznych, czyli ogólnie prognozowanych zmian koniunktury. Problem tylko w tym, że ani kryzysu w latach 2008 - 2009 nie udało się przewidzieć, ani pandemii COVID-19 w 2020 roku. Być może zatem poszukiwanie metod wiążących zmianę koniunktury z ryzykiem kredytowym nie pomogą nam przewidzieć kolejnego kryzysu, ale dynamiczna metoda reagująca bezpośrednio na podstawie obserwowanych krótkookresowych wskaźników ryzyka być może pomoże nam szybciej zmienić parametry procesu akceptacji kredytowej i zaoszczędzić straty kredytowe. Jesteśmy przekonani, że zebrane tematy pomogą przybliżyć najważniejsze problemy dzisiejszej analityki oraz zainspirują czytelników do pogłębionych studiów oraz pomogą wspólnie rozwijać zastosowania zaawansowanej analizy danych w biznesie.

 

Karol Przanowski

Sebastian Zając

 

 

 

Spis treści

 

 

Przedmowa

1  Metody Machine Learning w ryzyku kredytowym

Barbara Szewczak, Kamil Niedźwiedzki

Wprowadzenie

1.1         Metodyka budowy modeli

1.2         Regresja logistyczna

1.2.1      Segmentacja

1.2.2      Podział zbioru

1.2.3      Przepróbkowanie zbioru

1.2.4      Kategoryzacja zmiennych

1.2.5      Preselekcja zmiennych

1.2.6      Korelacja zmiennych

1.2.7      Identyfikacja obserwacji wpływających

1.2.8      Modelowanie

1.3         Metoda Gradient Boosting

1.3.1      Dobór próby

1.3.2      Preselekcja zmiennych

1.3.3      Korelacja zmiennych

1.3.4      Zjawisko przeuczenia modelu

1.3.5      Budowa karty skoringowej

1.3.6      Monitoring modelu

1.3.7      Inne cechy

1.4         Metoda lasów losowych

1.5         Porównanie omówionych metod

Podsumowanie

Bibliografia

 

2  Metody selekcji zmiennych w modelach scoringowych

Karol Przanowski, Sebastian Zając

2.1         Predykcyjne modele skoringowe

2.2        Budowa modelu skoringowego oraz karty skoringowej

2.3         Metodyka wyboru zmiennych

2.3.1      Analiza głównych składowych i sieci neuronowe

2.3.2      Wariancja cech

2.3.3      Statystyka Giniego

2.3.4      Modele jednoczynnikowe

2.3.5      Inforamtion Value

2.3.6      Regularyzacja regresji logistycznej L1

2.3.7      Rekurencyjna eliminacja zmiennych

2.3.8      Drzewa decyzyjne i lasy losowe

2.3.9      Branch & bound

2.4         Przygotowanie danych

2.5        Wyniki wyboru różnych metod selekcji zmiennych

2.5.1      Wariancja cech

2.5.2      Statystyka Giniego oraz IV

2.5.3      Statystyczna istotność zmiennych

2.5.4      Rekurencyjne metody doboru zmiennych

2.5.5      Regularyzacja regresji logistycznej

2.5.6      Feature importance dla algorytmów drzewa decyzyjnego i lasów losowych

2.5.7      Analityczna metoda Branch & bound

2.5.8      Wizualizacja wyników oraz finalne wnioski

Podsumowanie

Bibliografia

 

3  Proces migracji klientów na przykładzie programu lojalnościowego. Modelowania z zastosowaniem analizy przeżycia

Ewa Frątczak, Piotr Rozenbajgier, Adrianna Wołowiec

Wprowadzenie

3.1         Podstawy analizy przeżycia

3.2        Opis programu PAYBACK i zbioru danych

3.2.1      Opis programu PAYBACK

3.2.2      Opis segmentacji uczestników PAYBACK

3.2.3      Wstępne przetworzenie zbioru danych - statystyki segmentów i przejść pomiędzy nimi

3.3         Procedury analizy przeżycia w SAS

3.4         Modelowanie nieparametryczne - analiza procesu migracji dla pojedynczych epizodów

3.4.1     Analiza nieparametryczna pojedynczego epizodu

3.5         Modele rekurencyjne - estymacja i interpretacja wyników

3.5.1      PROCRELIABILITY

3.5.2      PROCPHREG

Podsumowanie

Bibliografia

 

4  Prognozowanie kryzysu portfela Consumer finance

Karol Przanowski

Wprowadzenie

4.1  Prognozowanie kryzysu ryzyka kredytowego dla kredytów konsumenckich

4.1.1      Dane symulacyjne. Opis algorytmu generowania danych

4.1.2      Opłacalność procesu akceptacji kredytowej. Podstawowe składniki zysku: prowizja, przychody odsetkowe i strata kredytowa

4.1.3      Strategia pełnej akceptacji

4.1.4      Strategia prosta - pierwsze punkty odcięcia

4.1.5      Strategia na bazie modelu analizy historii zdarzeń (AHZ)

4.1.6      Strategia na bazie modelu analizy historii zdarzeń z prognozowaniem wskaźników

4.1.7      Strategia na bazie typowego modelu skoringowego

4.1.8      Dlaczego model analizy historii zdarzeń jest lepszym od zwykłego modelu skoringowego

4.1.9      Nieudane próby estymacji modeli na próbach danych z czasu przed kryzysem

4.1.10   Strategie dynamicznej korekty na bazie default3 lub default6

4.1.11   Porównanie wszystkich strategii, finalne wnioski

4.2         Podsumowanie

4.3         Dokumentacje modeli

4.3.1      Model PD Survival

4.3.2      Model PD Suma

4.3.3      Model PD Crisis

4.3.4      Model PD Ins

4.3.5      Model PD Css

4.3.6      Tabela analityczna, opisy wszystkich zmiennych

Bibliografia

 

 

 

Opinie

Twoja ocena:
Wydanie: I
Rok wydania: 2020
Wydawnictwo: Oficyna Wydawnicza
Format: B5
Liczba stron: 186
Oprawa: twarda

 

Książka Modelowanie dla biznesu, metody machine learning, modele portfela CF, modele rekurencyjne analizy przeżycia, modele scoringowe pod redakcją naukową dr. Karola Przanowskiego i dr. Sebastiana Zająca jest odpowiedzią nauki i biznesu na zapotrzebowanie związane ze zrozumieniem i zastosowaniem szerokich metod uczenia maszynowego w analizie dużych zbiorów danych.  Książka ta łącząc ze sobą teorię oraz zastosowania praktyczne bez wątpienia powinna zainteresować nie tylko analityków danych w obszarach biznesowych, ale również studentów kierunków ilościowych jak i pracowników naukowo-dydaktycznych. W kompleksowy sposób rozszerza ona wiedzę z pierwszej części książki. Wprowadza czytelnika w tematykę wykorzystania zaawansowanych metod uczenia maszynowego i głębokiego w problemach modeli scoringowych, które, szczególnie w sektorze bankowym, ograniczone są licznymi regulacjami prawnymi, jak i modeli analizy historii zdarzeń w predykcji zjawiska kryzysu, czy też procesu migracji klientów. Całość uzupełniona jest o techniczną analizę metod selekcji zmiennych. W książce przedstawiono wykorzystanie zarówno narzędzi komercyjnych takich jak SAS, ale również i kody oparte o bardzo szybko rozwijające się programowanie w Pythonie. Mamy nadzieję, że przedstawiona tematyka pomoże przybliżyć problemy dzisiejszej analityki oraz zainspiruje czytelników do wysiłku w jej rozwijaniu w czasie oczekiwania na III część.

 

Karol Przanowski, Sebastian Zając

 

 

 

Oddajemy do rąk czytelników kolejną książkę z serii "Modelowanie dla biznesu". Rozpoczynając wydanie tej serii w 2019 roku, nikt z nas nie zdawał sobie sprawy, że rozpoczniemy wiele działań (w tym wydarzeń naukowo-biznesowych i publikacji) zmierzających do tworzenia pomostu pomiędzy biznesem a nauką.Z perspektywy czasu możemy teraz śmiało dzielić się radością gromadzenia i łączenia wielu ekspertów i sympatyków w jednym środowisku, które staje się inspiracją, fermentem analitycznym, nadającym właściwe trendy rozwoju i stosowania zaawansowanej analityki biznesowej w Polsce i na świecie.Rozpoczęliśmy przygotowania do tego wydania w czasach przed światową pandemią COVID-19. Nie wiedzieliśmy wtedy, że wybrane tematy naszych rozdziałów staną się istotnym wsparciem przemian analitycznego świata przed i po pandemii. Nikt dziś nie wie, jak potoczą się losy ludzkości i jak będzie wyglądał świat po zlikwidowaniu wpływu wirusa SARS. Jednocześnie w czasie jego działania obserwujemy dynamiczny rozwój w budowaniu nowej kultury pracy, komunikacji i biznesu. Śmiało możemy zakładać, że świat po pandemii będzie jeszcze bardziej potrzebował automatyzacji procesów, większej liczby modeli predykcyjnych i pełnej cyfryzacji. Ludzka ingerencja w podejmowanie decyzji będzie ogranicza-na. Zarządzanie procesami przesunie się prawdopodobnie z metod eksperckich w stronę analizowania szczegółowych raportów monitorujących kolejne automa-tyczne punkty decyzyjne procesu i ewentualne tworzenie hipotez weryfikowanych testami AB. Pandemia tylko tę przemianę przyspiesza i zmusza wszystkich rozwijających zaawansowaną analitykę do bardziej zdecydowanych kroków. Już przed pandemią pojawiły się wyzwania związane z rozwojem technik sztucznej inteligencji (ang. Artificial Intelligence - AI) i uczenia maszynowego (ang. Machine Learning - ML). Problem można sformułować następująco: co jest lepsze? Model predykcyjny bardziej złożony, z nieliniowymi zależnościami i trudniejszy w interpretacji, ale za to posiadający lepsze parametry zdolności do prognozy, czy też model z prostszą konstrukcją, lepiej interpretowany, ale z mniejszą mocą predykcyjną? Odpowiedź nie jest prosta, związana jest także z istnieniem wielu regulacji w środowiskach instytucji finansowych.

W rozdziale 1 przywołane są nowe zaawansowane techniki budowy modeli w zastosowaniu do ryzyka kredytowego. Autorzy głównie koncentrują się na porównaniu klasycznego modelu regresji logistycznej z algorytmem XGBoosting i lasami losowymi. W tym miejscu należy podkreślić nową i szybko rozwijającą się teorię związaną z interpretacją modeli. Cieszy nas fakt, że równolegle w trakcie powstawania naszej książki pojawiła się publikacja autorów Przemysława Biecka i Tomasza Burzykowskiego, dostępna także on-line 2, która przybliża tematykę XAI (ang. eXplainable Artificial Intelligence) i IML (ang. Interpretable Machine Learning). Pojawiają się tu szczegółowo opisane metody SHAP (ang. SHapley Additive exPlanation) i LIME (ang. Local Interpretable model-agnostic explonation), a także poruszony jest już we wstępie problem struktur danych modelowych potrzebnych do budowy modeli. Obecnie zespoły analityczne potrafią budować dane z kilkoma tysiącami zmiennych opisujących zjawisko modelowe. Tak duża liczba zmiennych powoduje rozrastanie się zasobów informatycznych, służących do ich przechowywania. Ich koszt staje się powoli istotnym czynnikiem planowania projektu. Nowe techniki modelowe potrafią zmniejszyć złożoność danych na wejściu. Innymi słowy, poszukiwany jest jakiś kompromis pomiędzy złożonością danych wejściowych i prostotą modelu a prostotą danych wejściowych i złożonością modelu. Pod tym względem ma się wrażenie, że ludzkość czeka na jakąś rewolucję naukową, która powinna przekonać środowiska nadzorujące do większego otwarcia się na nowoczesne modelowanie, a jednocześnie by to modelowanie dało się ująć w jakieś ramy i metody weryfikacji, aby nie narazić się na duże straty finansowe. Ryzyko modelu jest już pojęciem wprowadzonym po światowym kryzysie w latach 2008-2009, ale ryzyko modeli ML i AI nie jest jeszcze dobrze zmierzone i to stanowi barierę ich stosowania w biznesie nadzorowanym. Z drugiej strony w licznych prezentacjach Przemysława Biecka pod wspólnym hasłem ang. XAI or DIE 3 (w tłumaczeniu: wyjaśnij model lub umieraj) pojawia się nowe wyzwanie formułowane przez nadzorcę o szczegółowym wyjaśnianiu klientom przyczyny odmowy udzielenia kredytu 4. Tego typu wezwanie wymaga nowszego spojrzenia na techniki modelowe, gdyż realizacja regulacji nie może ujawniać pełnej postaci stosowanego modelu. Może to podlegać innej regulacji związanej ujawnieniem tajemnicy bankowej, co w konsekwencji może prowadzić do nadużyć finansowych np. w procesie akceptacji kredytowej. Muszą zatem pojawić się nowe metody wskazujące istotne czynniki wpływające na ocenę modelu w ujęciu indywidualnym danego klienta, które jednak nie ujawnią pełnej informacji o modelu, ale będą wystarczające by uzasadnić przyczynę odmowy danego wniosku kredytowego.

Warto zatem badać modele ML i AI oraz dokonywać różnego rodzaju porównań, głównie koncentrując się na selekcji zmiennych i tworzeniu kryteriów porównawczych. Nie istnieje jedno najlepsze kryterium i nie istnieje pojęcie dobrego modelu. Trud poszukiwania najlepszego modelu dla przykładowych danych przedstawiono w rozdziale 2.W pierwszych dwóch rozdziałach przedstawiono metody modelowania, prognozowania zjawiska binarnego (będzie / nie będzie), czyli estymacji prawdopodobieństwa zajścia zdarzenia modelowego w jakimś z góry ustalonym horyzoncie czasowym. Dwa kolejne rozdziały poruszają temat prognozowania czasu tego zdarzenia, który związany jest z modelami analizy historii zdarzeń. Szczególnie w rozdziale 3 zaprezentowano metodykę analizowania krzywych do życia i hazardu, łącznie z ich metodami estymacji. Dodatkowo przedstawiono zagadnienie modelowania zdarzeń rekurencyjnych w zastosowaniu biznesowym programu lojalnościowego. Niewątpliwie metody analizy historii zdarzeń będą coraz częściej stosowane w biznesie i obecne opracowanie jest ważnym drogowskazem ich rozwoju. W sposób uproszczony i jednocześnie dostosowany do ryzyka kredytowego w procesie akceptacji kredytowej zastosowanie modeli analizy historii ukazano w rozdziale 4. W tym wypadku prezentowana jest metoda dynamiczna reagowania na zmieniające się ryzyko kredytowe w czasie. Trzeba zdać sobie sprawę, że obecnie stosowane są metody prognozowania ryzyka kredytowego na podstawie wskaźników makroekonomicznych, czyli ogólnie prognozowanych zmian koniunktury. Problem tylko w tym, że ani kryzysu w latach 2008 - 2009 nie udało się przewidzieć, ani pandemii COVID-19 w 2020 roku. Być może zatem poszukiwanie metod wiążących zmianę koniunktury z ryzykiem kredytowym nie pomogą nam przewidzieć kolejnego kryzysu, ale dynamiczna metoda reagująca bezpośrednio na podstawie obserwowanych krótkookresowych wskaźników ryzyka być może pomoże nam szybciej zmienić parametry procesu akceptacji kredytowej i zaoszczędzić straty kredytowe. Jesteśmy przekonani, że zebrane tematy pomogą przybliżyć najważniejsze problemy dzisiejszej analityki oraz zainspirują czytelników do pogłębionych studiów oraz pomogą wspólnie rozwijać zastosowania zaawansowanej analizy danych w biznesie.

 

Karol Przanowski

Sebastian Zając

 

 

 

 

 

Przedmowa

1  Metody Machine Learning w ryzyku kredytowym

Barbara Szewczak, Kamil Niedźwiedzki

Wprowadzenie

1.1         Metodyka budowy modeli

1.2         Regresja logistyczna

1.2.1      Segmentacja

1.2.2      Podział zbioru

1.2.3      Przepróbkowanie zbioru

1.2.4      Kategoryzacja zmiennych

1.2.5      Preselekcja zmiennych

1.2.6      Korelacja zmiennych

1.2.7      Identyfikacja obserwacji wpływających

1.2.8      Modelowanie

1.3         Metoda Gradient Boosting

1.3.1      Dobór próby

1.3.2      Preselekcja zmiennych

1.3.3      Korelacja zmiennych

1.3.4      Zjawisko przeuczenia modelu

1.3.5      Budowa karty skoringowej

1.3.6      Monitoring modelu

1.3.7      Inne cechy

1.4         Metoda lasów losowych

1.5         Porównanie omówionych metod

Podsumowanie

Bibliografia

 

2  Metody selekcji zmiennych w modelach scoringowych

Karol Przanowski, Sebastian Zając

2.1         Predykcyjne modele skoringowe

2.2        Budowa modelu skoringowego oraz karty skoringowej

2.3         Metodyka wyboru zmiennych

2.3.1      Analiza głównych składowych i sieci neuronowe

2.3.2      Wariancja cech

2.3.3      Statystyka Giniego

2.3.4      Modele jednoczynnikowe

2.3.5      Inforamtion Value

2.3.6      Regularyzacja regresji logistycznej L1

2.3.7      Rekurencyjna eliminacja zmiennych

2.3.8      Drzewa decyzyjne i lasy losowe

2.3.9      Branch & bound

2.4         Przygotowanie danych

2.5        Wyniki wyboru różnych metod selekcji zmiennych

2.5.1      Wariancja cech

2.5.2      Statystyka Giniego oraz IV

2.5.3      Statystyczna istotność zmiennych

2.5.4      Rekurencyjne metody doboru zmiennych

2.5.5      Regularyzacja regresji logistycznej

2.5.6      Feature importance dla algorytmów drzewa decyzyjnego i lasów losowych

2.5.7      Analityczna metoda Branch & bound

2.5.8      Wizualizacja wyników oraz finalne wnioski

Podsumowanie

Bibliografia

 

3  Proces migracji klientów na przykładzie programu lojalnościowego. Modelowania z zastosowaniem analizy przeżycia

Ewa Frątczak, Piotr Rozenbajgier, Adrianna Wołowiec

Wprowadzenie

3.1         Podstawy analizy przeżycia

3.2        Opis programu PAYBACK i zbioru danych

3.2.1      Opis programu PAYBACK

3.2.2      Opis segmentacji uczestników PAYBACK

3.2.3      Wstępne przetworzenie zbioru danych - statystyki segmentów i przejść pomiędzy nimi

3.3         Procedury analizy przeżycia w SAS

3.4         Modelowanie nieparametryczne - analiza procesu migracji dla pojedynczych epizodów

3.4.1     Analiza nieparametryczna pojedynczego epizodu

3.5         Modele rekurencyjne - estymacja i interpretacja wyników

3.5.1      PROCRELIABILITY

3.5.2      PROCPHREG

Podsumowanie

Bibliografia

 

4  Prognozowanie kryzysu portfela Consumer finance

Karol Przanowski

Wprowadzenie

4.1  Prognozowanie kryzysu ryzyka kredytowego dla kredytów konsumenckich

4.1.1      Dane symulacyjne. Opis algorytmu generowania danych

4.1.2      Opłacalność procesu akceptacji kredytowej. Podstawowe składniki zysku: prowizja, przychody odsetkowe i strata kredytowa

4.1.3      Strategia pełnej akceptacji

4.1.4      Strategia prosta - pierwsze punkty odcięcia

4.1.5      Strategia na bazie modelu analizy historii zdarzeń (AHZ)

4.1.6      Strategia na bazie modelu analizy historii zdarzeń z prognozowaniem wskaźników

4.1.7      Strategia na bazie typowego modelu skoringowego

4.1.8      Dlaczego model analizy historii zdarzeń jest lepszym od zwykłego modelu skoringowego

4.1.9      Nieudane próby estymacji modeli na próbach danych z czasu przed kryzysem

4.1.10   Strategie dynamicznej korekty na bazie default3 lub default6

4.1.11   Porównanie wszystkich strategii, finalne wnioski

4.2         Podsumowanie

4.3         Dokumentacje modeli

4.3.1      Model PD Survival

4.3.2      Model PD Suma

4.3.3      Model PD Crisis

4.3.4      Model PD Ins

4.3.5      Model PD Css

4.3.6      Tabela analityczna, opisy wszystkich zmiennych

Bibliografia

 

 

 

Napisz swoją opinię
Twoja ocena:
Szybka wysyłka zamówień
Kup online i odbierz na uczelni
Bezpieczne płatności
pixel