Ulubione
  1. Strona główna
  2. DEKOMPOZYCJE WIELOWYMIAROWE W AGREGACJI PREDYKCYJNYCH MODELI DATA MINING

DEKOMPOZYCJE WIELOWYMIAROWE W AGREGACJI PREDYKCYJNYCH MODELI DATA MINING

60,00 zł
54,00 zł
/ szt.
Oszczędzasz 10 % ( 6,00 zł).
Autor: Ryszard Szupiluk
Kod produktu: 978-83-7378-827-5
60,00 zł
54,00 zł
/ szt.
Oszczędzasz 10 % ( 6,00 zł).
Dodaj do ulubionych
Łatwy zwrot towaru w ciągu 14 dni od zakupu bez podania przyczyny
DEKOMPOZYCJE WIELOWYMIAROWE W AGREGACJI PREDYKCYJNYCH MODELI DATA MINING
DEKOMPOZYCJE WIELOWYMIAROWE W AGREGACJI PREDYKCYJNYCH MODELI DATA MINING

Niniejsza praca dotyczy wielowymiarowych dekompozycji metodami ślepej separacji i ich zastosowania w agregacji (integracji) modeli predykcyjnych, zwłaszcza w odniesieniu do zagadnień ekonomicznych, finansowych i zarządzania. Podejmuje tematykę aktualną i dynamicznie rozwijaną w prestiżowych środowiskach naukowych zajmujących się zaawansowanym przetwarzaniem danych.

[[[separator]]]

Niniejsza praca podejmuje tematykę wykorzystania wielowymiarowych dekompozycji w procesie agregacji modeli predykcyjnych, wraz z przykładami zastosowań w finansach i zarządzaniu. Zamierzone cele prowadzonych rozważań są następujące:

1. Zaprezentowanie nowej koncepcji agregacji modeli wykorzystującej wielowymiarowe dekompozycje. Metoda ta, w celu poprawy jakości predykcji, zakłada identyfikację oraz eliminację ukrytych komponentów, destrukcyjnych dla wyników prognoz, co sprowadza zagadnienie do tzw. problemu ślepej separacji. Jest to nowatorska koncepcja agregacji, stanowiąca alternatywę dla już istniejących technik łączenia modeli. Zagadnienie agregacji zostanie rozważone w kontekście predykcyjnych modeli Data Mining.

2. Przedstawienie współczesnych metod dekompozycji i reprezentacji danych powstałych w ramach badań nad problemem ślepej separacji. Metody ślepej separacji są kluczowym elementem efektywnego działania opracowanej metody agregacji. Ich omówienie będzie miało charakter monograficzny i przeglądowy, przy czym przedstawione zostaną także autorskie modyfikacje i rozwinięcia. W ramach rozwoju technik dekompozycji, adresowanych do problemu ślepej separacji, zaproponowana zostanie nowa metoda analizy składowych gładkich.

3. Zaprezentowanie przykładowych zastosowań opisanych metod w rozwiązywaniu praktycznych problemów predykcyjnych w dziedzinie finansów i zarządzania. W tej części pracy wykazana zostanie skuteczność samej metody dla wielu typowych problemów Data Mining, a także zostaną poruszone pewne kwestie związane z praktyczną stroną zastosowań algorytmów ślepej separacji.

Wielowątkowość i zakres podjętej pracy wymagają zróżnicowania stopnia szczegółowości rozważań w poszczególnych obszarach. Prezentacja nowej metody agregacji odbędzie się w kontekście predykcyjnych modeli Data Mining. Motywacją takiego ujęcia jest powszechne wykorzystanie w Data Mining metod opartych na uczeniu maszynowym (ang. Machine Learining), określanym także jako uczenie z danych bądź modelowanie algorytmiczne. Typowe problemy Data Mining, takie jak modelowanie ryzyka klienckiego, wykrywanie oszustw lub przewidywanie odejść,

ze względu na ograniczone możliwości stawiania wiarygodnych hipotez a priori co do natury modelu są naturalnymi kandydatami do ujęcia wielomodelowego. Sprzyja to kreacji różnorodnych modeli adresowanych do tego samego zagadnienia. Podejście i metody Data Mining/Machine Learning ogrywają także istotną rolę w metodach dekompozycji zastosowanych do agregacji. Mając genezę w problemie ślepej separacji, dekompozycje te są często rozważane na płaszczyźnie sieci neuronowych i stanowią jednocześnie jeden z głównych nurtów tzw. systemów uczonych bez nadzoru. Z kolei koncentracja na problemach predykcyjnych odpowiada typowemu biznesowemu wykorzystaniu Data Mining, a ponadto w zasadzie czysto instrumentalne podejście do kwestii jakości prognozy pozwala ograniczyć dyskusje o celu, roli, adekwatności czy jakości wybranego modelu. Należy jednak mieć na uwadze, że proponowana metoda może być w ogólnym przypadku stosowana dla dowolnego problemu regresyjnego, dla którego istnieją różne alternatywne modele.

W ostatnich kilkunastu latach dekompozycje wielowymiarowe przeżyły fazę dynamicznego wzrostu, obejmującego wraz z zastosowaniami prawie wszystkie dyscypliny związane z analizą danych. Ów rozwój dotyczy w szczególności metod wywodzących się z badań nad tzw. problemem ślepej separacji, obecnie rozważanym w ogólnych kategoriach transformacji, reprezentacji bądź dekompozycji danych. Metody takie jak analiza składowych niezależnych, nieujemna faktoryzacja macierzy lub analiza składowych rzadkich mają szerokie zastosowania aplikacyjne, m.in. w zakresie techniki, medycyny, psychologii czy geologii. Na tym tle ich obecność w dziedzinie ekonomii jest stosunkowo skromna. Niewątpliwie wiąże się to z faktem, że dostępne dane lub informacje ekonomiczne są najczęściej efektem oddziaływania tak wielu czynników, że trudno oczekiwać uzyskania dekompozycji na bezpośrednio interpretowalne wielkości. Z tego względu stosowanie dekompozycji w modelowaniu ekonomicznym było dotychczas stosunkowo ograniczone. Najczęściej odgrywały one rolę wtórną i pomocniczą, wiązały się raczej ze wstępnym przygotowaniem danych niż z zasadniczą analizą lub konstrukcją podstawowego modelu. Ta sytuacja może się znacznie zmienić, jeżeli przyjmiemy podejście wielomodelowe w analizie odpowiednich problemów.

Jedną z idei przyświecających podejściu Data Mining jest oddzielenie ogólnych metod analizy od indywidualnych problemów. Podobnie uczynimy w tej pracy, oddzielając część metodyczną od praktycznej części problemowej. Omówienie metod ślepej separacji ogniskować się będzie na postaciach algorytmów oraz podstawach teoretycznych ich działania. Są to zagadnienia podstawowe dla efektywnego zastosowania Data Mining w zakresie agregacji modeli. W części praktycznej zostanie zaprezentowana natura danego problemu oraz praktycznie wykazana zasadność zastosowania wielomodelowego podejścia Data Mining.

Jeśli chodzi o język, porządek i organizację prowadzonego wywodu, w opinii autora, przyjęcie jednolitego systemu definicji i nomenklatury jest zadaniem trudnym, o ile w ogóle możliwym. Metody ślepej separacji oraz uczenia maszynowego rozwijane były w różnych obszarach: przetwarzania sygnałów, analizy danych, metod matematycznych, inżynierii, informatyki i zastosowań aplikacyjnych. Mimo szeroko wykorzystywanego aparatu statystycznego, ich główny rozwój odbył się poza zasadniczym nurtem dyscypliny statystycznej. Znajduje to odzwierciedlenie w formie i nomenklaturze przedstawianych w pracy zagadnień, gdzie określone pojęcia i wielkości, w zależności od perspektywy i kontekstu rozważań, są różnie określane.

Niezależnie od dokładniejszego omówienia w dalszej części pracy, w ramach tych wstępnych uwag warto także zasygnalizować przyjęte rozumienie kliku zasadniczych pojęć. Predykcja rozumiana jest w pracy jako prognozowanie wielkości nieznanych na podstawie znanych zmiennych objaśniających. Należy zwrócić uwagę, że w takim rozumieniu nie jest zakładane następstwo czasowe. Brak wiedzy o prognozowanych wielkościach może mieć wiele przyczyn, m.in. zjawisko jeszcze nie zaszło, jest niedostępne pomiarowi lub jest "ukryte" w danych.

Pojęcie modelu występować będzie w kilku znaczeniach. Model Data Mining może oznaczać zarówno pewien sformalizowany obraz danego zjawiska, jak i system, nie tyle opisujący zjawisko, ile na nie wpływający i je kształtujący. Pojęcie modelu w obszarze ślepej separacji także występuje w różnych znaczeniach, w zależności od kontekstu rozważań. Czynione w obszarze ślepej separacji założenia co do modelowania danych empirycznych mają na celu zwykle stworzenie pewnego roboczego modelu, pozwalającego za pomocą określonych metod badać dany problem. Owe założenia w żaden sposób nie przesądzają o prawdziwej naturze zjawiska. Metody oparte na odmiennych założeniach często dają komplementarny obraz problemu lub prowadzą do identycznych rozwiązań numerycznych.

Pojęcia: zmienna, sygnał, szereg czasowy, dane obserwowane, komponent, używane będą wymiennie, tak jak w literaturze przedmiotu. Poszczególne metody wyrosłe w pewnych środowiskach badawczych mają typową nomenklaturę, jednak w przypadku pracy przeglądowej lub zastosowań, w których testowanych jest wiele podejść, powstaje kwestia przyjęcia podejścia ujednolicającego lub pluralistycznego. Autor zdecydował się na tę drugą opcję.

Jeśli chodzi o tłumaczenie anglojęzycznych wyrażeń, wiele z nich w języku polskim nie występuje w ogóle, ewentualnie nazewnictwo nie jest jeszcze utrwalone czy jednoznacznie przyjęte. Autor przyjął konwencję, według której przetłumaczone zostały zwroty niebudzące większych wątpliwości. W innych przypadkach pozostawiono nazwy angielskie. Skróty czy akronimy funkcjonujące jako nazwy własne pozostawiono w wersjach angielskich.

Materiał zawarty w pracy został podzielony na następujące zasadnicze części.

Część pierwsza ustanawia ramy rozważań, którymi są: ogólna problematyka Data Mining, metody w niej stosowane oraz nowa koncepcja agregacji modeli. Część ta składa się z czterech rozdziałów. W rozdziale pierwszym przedstawiono ogólną problematykę podejmowaną w pracy. Rozdział drugi poświęcony jest podstawowym ideom metodyki Data Mining. Przedstawiono tu biznesowy i ekonomiczny punkt widzenia. W rozdziale trzecim zarysowano problematykę sieci neuronowych. W kontekście prowadzonych rozważań sieci neuronowe są z jednej strony charakterystycznym reprezentantem metod Data Mining, z drugiej zaś występują w wielu różnych odmianach i rolach w obszarze ślepej separacji. Sieci neuronowe są także podstawowym podejściem do budowy modeli predykcyjnych stosowanych w praktycznych problemach prezentowanych w pracy. Rozdział czwarty poświęcony jest problematyce agregacji modeli, a w szczególności przedstawieniu nowej koncepcji agregacji opartej na wielowymiarowych dekompozycjach.

Część druga obejmuje podstawowe dekompozycje związane ze ślepą separacją sygnałów. Składa się z rozdziałów od piątego do dwunastego. W rozdziale piątym przedstawiono historię oraz formalne ujęcie problemu ślepej separacji. Wskazano także na związki z nową metodą agregacji. W rozdziale szóstym przedstawiono techniki dekorelacji. Rozdział siódmy poświęcony jest analizie składowych niezależnych. Rozdział ósmy przedstawia zarys nieliniowej analizy składowych głównych. W rozdziale dziewiątym przedstawiono metody separacji oparte na statystykach drugiego rzędu. W rozdziale dziesiątym przedstawiono algorytmy nieujemnej faktoryzacji macierzy. Rozdział jedenasty poświęcony jest autorskiej koncepcji analizy składowych gładkich. Metody oceny komponentów bazowych omówione są w rozdziale dwunastym.

Cześć trzecia, składająca się z czterech rozdziałów, przedstawia praktyczne zastosowania nowej metody agregacji modeli. W rozdziale trzynastym zaprezentowano problem prognozowania odejść klienckich. Rozdział czternasty poświęcony jest wykrywaniu nadużyć telekomunikacyjnych oraz podejmuje problematykę ograniczania ryzyka klienckiego związanego z niepłatnością faktur. Rozdział piętnasty odnosi się do prognozowania energii elektrycznej. W rozdziale szesnastym zaprezentowano zastosowanie metod ślepej separacji do danych z rynków finansowych.

[[[separator]]]

Wstęp

 

Część I. Modele Data Mining i ic h agregacja

1. Wprowadzenie do problematyki pracy

2. Data Mining - idee i uwarunkowania

3. Sieci neuronowe

4. Agregacja modeli

 

Część II. Wielowymiarowe dekompozycje w ślepej separacji sygnałów

5. Dekompozycje i separacja danych

6. Dekorelacja i separacja danych przestrzennych

7. Analiza składowych niezależnych

8. Nieliniowa analiza składowych głównych

9. Statystki drugiego rzędu i separacja sygnałów niestacjonarnych

10. Nieujemna faktoryzacja macierzy

11. Analiza składowych gładkich

12. Ocena komponentów bazowych

 

Część III. Praktyczne zastosowania metod agregacji BSS

13. Prognozowanie odejść klienckich - problem churnu

14. Wykrywanie nadużyć

15. Prognozowanie obciążeń systemu elektroenergetycznego

16. Data Mining i metody separacji na rynkach finansowych

 

Zakończenie

 

Załącznik

 

Bibliografia

Opis

Wydanie: 1
Rok wydania: 2013
Wydawnictwo: Oficyna Wydawnicza
Oprawa: miękka
Format: B5
Liczba stron: 306

Niniejsza praca dotyczy wielowymiarowych dekompozycji metodami ślepej separacji i ich zastosowania w agregacji (integracji) modeli predykcyjnych, zwłaszcza w odniesieniu do zagadnień ekonomicznych, finansowych i zarządzania. Podejmuje tematykę aktualną i dynamicznie rozwijaną w prestiżowych środowiskach naukowych zajmujących się zaawansowanym przetwarzaniem danych.

Wstęp

Niniejsza praca podejmuje tematykę wykorzystania wielowymiarowych dekompozycji w procesie agregacji modeli predykcyjnych, wraz z przykładami zastosowań w finansach i zarządzaniu. Zamierzone cele prowadzonych rozważań są następujące:

1. Zaprezentowanie nowej koncepcji agregacji modeli wykorzystującej wielowymiarowe dekompozycje. Metoda ta, w celu poprawy jakości predykcji, zakłada identyfikację oraz eliminację ukrytych komponentów, destrukcyjnych dla wyników prognoz, co sprowadza zagadnienie do tzw. problemu ślepej separacji. Jest to nowatorska koncepcja agregacji, stanowiąca alternatywę dla już istniejących technik łączenia modeli. Zagadnienie agregacji zostanie rozważone w kontekście predykcyjnych modeli Data Mining.

2. Przedstawienie współczesnych metod dekompozycji i reprezentacji danych powstałych w ramach badań nad problemem ślepej separacji. Metody ślepej separacji są kluczowym elementem efektywnego działania opracowanej metody agregacji. Ich omówienie będzie miało charakter monograficzny i przeglądowy, przy czym przedstawione zostaną także autorskie modyfikacje i rozwinięcia. W ramach rozwoju technik dekompozycji, adresowanych do problemu ślepej separacji, zaproponowana zostanie nowa metoda analizy składowych gładkich.

3. Zaprezentowanie przykładowych zastosowań opisanych metod w rozwiązywaniu praktycznych problemów predykcyjnych w dziedzinie finansów i zarządzania. W tej części pracy wykazana zostanie skuteczność samej metody dla wielu typowych problemów Data Mining, a także zostaną poruszone pewne kwestie związane z praktyczną stroną zastosowań algorytmów ślepej separacji.

Wielowątkowość i zakres podjętej pracy wymagają zróżnicowania stopnia szczegółowości rozważań w poszczególnych obszarach. Prezentacja nowej metody agregacji odbędzie się w kontekście predykcyjnych modeli Data Mining. Motywacją takiego ujęcia jest powszechne wykorzystanie w Data Mining metod opartych na uczeniu maszynowym (ang. Machine Learining), określanym także jako uczenie z danych bądź modelowanie algorytmiczne. Typowe problemy Data Mining, takie jak modelowanie ryzyka klienckiego, wykrywanie oszustw lub przewidywanie odejść,

ze względu na ograniczone możliwości stawiania wiarygodnych hipotez a priori co do natury modelu są naturalnymi kandydatami do ujęcia wielomodelowego. Sprzyja to kreacji różnorodnych modeli adresowanych do tego samego zagadnienia. Podejście i metody Data Mining/Machine Learning ogrywają także istotną rolę w metodach dekompozycji zastosowanych do agregacji. Mając genezę w problemie ślepej separacji, dekompozycje te są często rozważane na płaszczyźnie sieci neuronowych i stanowią jednocześnie jeden z głównych nurtów tzw. systemów uczonych bez nadzoru. Z kolei koncentracja na problemach predykcyjnych odpowiada typowemu biznesowemu wykorzystaniu Data Mining, a ponadto w zasadzie czysto instrumentalne podejście do kwestii jakości prognozy pozwala ograniczyć dyskusje o celu, roli, adekwatności czy jakości wybranego modelu. Należy jednak mieć na uwadze, że proponowana metoda może być w ogólnym przypadku stosowana dla dowolnego problemu regresyjnego, dla którego istnieją różne alternatywne modele.

W ostatnich kilkunastu latach dekompozycje wielowymiarowe przeżyły fazę dynamicznego wzrostu, obejmującego wraz z zastosowaniami prawie wszystkie dyscypliny związane z analizą danych. Ów rozwój dotyczy w szczególności metod wywodzących się z badań nad tzw. problemem ślepej separacji, obecnie rozważanym w ogólnych kategoriach transformacji, reprezentacji bądź dekompozycji danych. Metody takie jak analiza składowych niezależnych, nieujemna faktoryzacja macierzy lub analiza składowych rzadkich mają szerokie zastosowania aplikacyjne, m.in. w zakresie techniki, medycyny, psychologii czy geologii. Na tym tle ich obecność w dziedzinie ekonomii jest stosunkowo skromna. Niewątpliwie wiąże się to z faktem, że dostępne dane lub informacje ekonomiczne są najczęściej efektem oddziaływania tak wielu czynników, że trudno oczekiwać uzyskania dekompozycji na bezpośrednio interpretowalne wielkości. Z tego względu stosowanie dekompozycji w modelowaniu ekonomicznym było dotychczas stosunkowo ograniczone. Najczęściej odgrywały one rolę wtórną i pomocniczą, wiązały się raczej ze wstępnym przygotowaniem danych niż z zasadniczą analizą lub konstrukcją podstawowego modelu. Ta sytuacja może się znacznie zmienić, jeżeli przyjmiemy podejście wielomodelowe w analizie odpowiednich problemów.

Jedną z idei przyświecających podejściu Data Mining jest oddzielenie ogólnych metod analizy od indywidualnych problemów. Podobnie uczynimy w tej pracy, oddzielając część metodyczną od praktycznej części problemowej. Omówienie metod ślepej separacji ogniskować się będzie na postaciach algorytmów oraz podstawach teoretycznych ich działania. Są to zagadnienia podstawowe dla efektywnego zastosowania Data Mining w zakresie agregacji modeli. W części praktycznej zostanie zaprezentowana natura danego problemu oraz praktycznie wykazana zasadność zastosowania wielomodelowego podejścia Data Mining.

Jeśli chodzi o język, porządek i organizację prowadzonego wywodu, w opinii autora, przyjęcie jednolitego systemu definicji i nomenklatury jest zadaniem trudnym, o ile w ogóle możliwym. Metody ślepej separacji oraz uczenia maszynowego rozwijane były w różnych obszarach: przetwarzania sygnałów, analizy danych, metod matematycznych, inżynierii, informatyki i zastosowań aplikacyjnych. Mimo szeroko wykorzystywanego aparatu statystycznego, ich główny rozwój odbył się poza zasadniczym nurtem dyscypliny statystycznej. Znajduje to odzwierciedlenie w formie i nomenklaturze przedstawianych w pracy zagadnień, gdzie określone pojęcia i wielkości, w zależności od perspektywy i kontekstu rozważań, są różnie określane.

Niezależnie od dokładniejszego omówienia w dalszej części pracy, w ramach tych wstępnych uwag warto także zasygnalizować przyjęte rozumienie kliku zasadniczych pojęć. Predykcja rozumiana jest w pracy jako prognozowanie wielkości nieznanych na podstawie znanych zmiennych objaśniających. Należy zwrócić uwagę, że w takim rozumieniu nie jest zakładane następstwo czasowe. Brak wiedzy o prognozowanych wielkościach może mieć wiele przyczyn, m.in. zjawisko jeszcze nie zaszło, jest niedostępne pomiarowi lub jest "ukryte" w danych.

Pojęcie modelu występować będzie w kilku znaczeniach. Model Data Mining może oznaczać zarówno pewien sformalizowany obraz danego zjawiska, jak i system, nie tyle opisujący zjawisko, ile na nie wpływający i je kształtujący. Pojęcie modelu w obszarze ślepej separacji także występuje w różnych znaczeniach, w zależności od kontekstu rozważań. Czynione w obszarze ślepej separacji założenia co do modelowania danych empirycznych mają na celu zwykle stworzenie pewnego roboczego modelu, pozwalającego za pomocą określonych metod badać dany problem. Owe założenia w żaden sposób nie przesądzają o prawdziwej naturze zjawiska. Metody oparte na odmiennych założeniach często dają komplementarny obraz problemu lub prowadzą do identycznych rozwiązań numerycznych.

Pojęcia: zmienna, sygnał, szereg czasowy, dane obserwowane, komponent, używane będą wymiennie, tak jak w literaturze przedmiotu. Poszczególne metody wyrosłe w pewnych środowiskach badawczych mają typową nomenklaturę, jednak w przypadku pracy przeglądowej lub zastosowań, w których testowanych jest wiele podejść, powstaje kwestia przyjęcia podejścia ujednolicającego lub pluralistycznego. Autor zdecydował się na tę drugą opcję.

Jeśli chodzi o tłumaczenie anglojęzycznych wyrażeń, wiele z nich w języku polskim nie występuje w ogóle, ewentualnie nazewnictwo nie jest jeszcze utrwalone czy jednoznacznie przyjęte. Autor przyjął konwencję, według której przetłumaczone zostały zwroty niebudzące większych wątpliwości. W innych przypadkach pozostawiono nazwy angielskie. Skróty czy akronimy funkcjonujące jako nazwy własne pozostawiono w wersjach angielskich.

Materiał zawarty w pracy został podzielony na następujące zasadnicze części.

Część pierwsza ustanawia ramy rozważań, którymi są: ogólna problematyka Data Mining, metody w niej stosowane oraz nowa koncepcja agregacji modeli. Część ta składa się z czterech rozdziałów. W rozdziale pierwszym przedstawiono ogólną problematykę podejmowaną w pracy. Rozdział drugi poświęcony jest podstawowym ideom metodyki Data Mining. Przedstawiono tu biznesowy i ekonomiczny punkt widzenia. W rozdziale trzecim zarysowano problematykę sieci neuronowych. W kontekście prowadzonych rozważań sieci neuronowe są z jednej strony charakterystycznym reprezentantem metod Data Mining, z drugiej zaś występują w wielu różnych odmianach i rolach w obszarze ślepej separacji. Sieci neuronowe są także podstawowym podejściem do budowy modeli predykcyjnych stosowanych w praktycznych problemach prezentowanych w pracy. Rozdział czwarty poświęcony jest problematyce agregacji modeli, a w szczególności przedstawieniu nowej koncepcji agregacji opartej na wielowymiarowych dekompozycjach.

Część druga obejmuje podstawowe dekompozycje związane ze ślepą separacją sygnałów. Składa się z rozdziałów od piątego do dwunastego. W rozdziale piątym przedstawiono historię oraz formalne ujęcie problemu ślepej separacji. Wskazano także na związki z nową metodą agregacji. W rozdziale szóstym przedstawiono techniki dekorelacji. Rozdział siódmy poświęcony jest analizie składowych niezależnych. Rozdział ósmy przedstawia zarys nieliniowej analizy składowych głównych. W rozdziale dziewiątym przedstawiono metody separacji oparte na statystykach drugiego rzędu. W rozdziale dziesiątym przedstawiono algorytmy nieujemnej faktoryzacji macierzy. Rozdział jedenasty poświęcony jest autorskiej koncepcji analizy składowych gładkich. Metody oceny komponentów bazowych omówione są w rozdziale dwunastym.

Cześć trzecia, składająca się z czterech rozdziałów, przedstawia praktyczne zastosowania nowej metody agregacji modeli. W rozdziale trzynastym zaprezentowano problem prognozowania odejść klienckich. Rozdział czternasty poświęcony jest wykrywaniu nadużyć telekomunikacyjnych oraz podejmuje problematykę ograniczania ryzyka klienckiego związanego z niepłatnością faktur. Rozdział piętnasty odnosi się do prognozowania energii elektrycznej. W rozdziale szesnastym zaprezentowano zastosowanie metod ślepej separacji do danych z rynków finansowych.

Spis treści

Wstęp

 

Część I. Modele Data Mining i ic h agregacja

1. Wprowadzenie do problematyki pracy

2. Data Mining - idee i uwarunkowania

3. Sieci neuronowe

4. Agregacja modeli

 

Część II. Wielowymiarowe dekompozycje w ślepej separacji sygnałów

5. Dekompozycje i separacja danych

6. Dekorelacja i separacja danych przestrzennych

7. Analiza składowych niezależnych

8. Nieliniowa analiza składowych głównych

9. Statystki drugiego rzędu i separacja sygnałów niestacjonarnych

10. Nieujemna faktoryzacja macierzy

11. Analiza składowych gładkich

12. Ocena komponentów bazowych

 

Część III. Praktyczne zastosowania metod agregacji BSS

13. Prognozowanie odejść klienckich - problem churnu

14. Wykrywanie nadużyć

15. Prognozowanie obciążeń systemu elektroenergetycznego

16. Data Mining i metody separacji na rynkach finansowych

 

Zakończenie

 

Załącznik

 

Bibliografia

Opinie

Twoja ocena:
Wydanie: 1
Rok wydania: 2013
Wydawnictwo: Oficyna Wydawnicza
Oprawa: miękka
Format: B5
Liczba stron: 306

Niniejsza praca dotyczy wielowymiarowych dekompozycji metodami ślepej separacji i ich zastosowania w agregacji (integracji) modeli predykcyjnych, zwłaszcza w odniesieniu do zagadnień ekonomicznych, finansowych i zarządzania. Podejmuje tematykę aktualną i dynamicznie rozwijaną w prestiżowych środowiskach naukowych zajmujących się zaawansowanym przetwarzaniem danych.

Niniejsza praca podejmuje tematykę wykorzystania wielowymiarowych dekompozycji w procesie agregacji modeli predykcyjnych, wraz z przykładami zastosowań w finansach i zarządzaniu. Zamierzone cele prowadzonych rozważań są następujące:

1. Zaprezentowanie nowej koncepcji agregacji modeli wykorzystującej wielowymiarowe dekompozycje. Metoda ta, w celu poprawy jakości predykcji, zakłada identyfikację oraz eliminację ukrytych komponentów, destrukcyjnych dla wyników prognoz, co sprowadza zagadnienie do tzw. problemu ślepej separacji. Jest to nowatorska koncepcja agregacji, stanowiąca alternatywę dla już istniejących technik łączenia modeli. Zagadnienie agregacji zostanie rozważone w kontekście predykcyjnych modeli Data Mining.

2. Przedstawienie współczesnych metod dekompozycji i reprezentacji danych powstałych w ramach badań nad problemem ślepej separacji. Metody ślepej separacji są kluczowym elementem efektywnego działania opracowanej metody agregacji. Ich omówienie będzie miało charakter monograficzny i przeglądowy, przy czym przedstawione zostaną także autorskie modyfikacje i rozwinięcia. W ramach rozwoju technik dekompozycji, adresowanych do problemu ślepej separacji, zaproponowana zostanie nowa metoda analizy składowych gładkich.

3. Zaprezentowanie przykładowych zastosowań opisanych metod w rozwiązywaniu praktycznych problemów predykcyjnych w dziedzinie finansów i zarządzania. W tej części pracy wykazana zostanie skuteczność samej metody dla wielu typowych problemów Data Mining, a także zostaną poruszone pewne kwestie związane z praktyczną stroną zastosowań algorytmów ślepej separacji.

Wielowątkowość i zakres podjętej pracy wymagają zróżnicowania stopnia szczegółowości rozważań w poszczególnych obszarach. Prezentacja nowej metody agregacji odbędzie się w kontekście predykcyjnych modeli Data Mining. Motywacją takiego ujęcia jest powszechne wykorzystanie w Data Mining metod opartych na uczeniu maszynowym (ang. Machine Learining), określanym także jako uczenie z danych bądź modelowanie algorytmiczne. Typowe problemy Data Mining, takie jak modelowanie ryzyka klienckiego, wykrywanie oszustw lub przewidywanie odejść,

ze względu na ograniczone możliwości stawiania wiarygodnych hipotez a priori co do natury modelu są naturalnymi kandydatami do ujęcia wielomodelowego. Sprzyja to kreacji różnorodnych modeli adresowanych do tego samego zagadnienia. Podejście i metody Data Mining/Machine Learning ogrywają także istotną rolę w metodach dekompozycji zastosowanych do agregacji. Mając genezę w problemie ślepej separacji, dekompozycje te są często rozważane na płaszczyźnie sieci neuronowych i stanowią jednocześnie jeden z głównych nurtów tzw. systemów uczonych bez nadzoru. Z kolei koncentracja na problemach predykcyjnych odpowiada typowemu biznesowemu wykorzystaniu Data Mining, a ponadto w zasadzie czysto instrumentalne podejście do kwestii jakości prognozy pozwala ograniczyć dyskusje o celu, roli, adekwatności czy jakości wybranego modelu. Należy jednak mieć na uwadze, że proponowana metoda może być w ogólnym przypadku stosowana dla dowolnego problemu regresyjnego, dla którego istnieją różne alternatywne modele.

W ostatnich kilkunastu latach dekompozycje wielowymiarowe przeżyły fazę dynamicznego wzrostu, obejmującego wraz z zastosowaniami prawie wszystkie dyscypliny związane z analizą danych. Ów rozwój dotyczy w szczególności metod wywodzących się z badań nad tzw. problemem ślepej separacji, obecnie rozważanym w ogólnych kategoriach transformacji, reprezentacji bądź dekompozycji danych. Metody takie jak analiza składowych niezależnych, nieujemna faktoryzacja macierzy lub analiza składowych rzadkich mają szerokie zastosowania aplikacyjne, m.in. w zakresie techniki, medycyny, psychologii czy geologii. Na tym tle ich obecność w dziedzinie ekonomii jest stosunkowo skromna. Niewątpliwie wiąże się to z faktem, że dostępne dane lub informacje ekonomiczne są najczęściej efektem oddziaływania tak wielu czynników, że trudno oczekiwać uzyskania dekompozycji na bezpośrednio interpretowalne wielkości. Z tego względu stosowanie dekompozycji w modelowaniu ekonomicznym było dotychczas stosunkowo ograniczone. Najczęściej odgrywały one rolę wtórną i pomocniczą, wiązały się raczej ze wstępnym przygotowaniem danych niż z zasadniczą analizą lub konstrukcją podstawowego modelu. Ta sytuacja może się znacznie zmienić, jeżeli przyjmiemy podejście wielomodelowe w analizie odpowiednich problemów.

Jedną z idei przyświecających podejściu Data Mining jest oddzielenie ogólnych metod analizy od indywidualnych problemów. Podobnie uczynimy w tej pracy, oddzielając część metodyczną od praktycznej części problemowej. Omówienie metod ślepej separacji ogniskować się będzie na postaciach algorytmów oraz podstawach teoretycznych ich działania. Są to zagadnienia podstawowe dla efektywnego zastosowania Data Mining w zakresie agregacji modeli. W części praktycznej zostanie zaprezentowana natura danego problemu oraz praktycznie wykazana zasadność zastosowania wielomodelowego podejścia Data Mining.

Jeśli chodzi o język, porządek i organizację prowadzonego wywodu, w opinii autora, przyjęcie jednolitego systemu definicji i nomenklatury jest zadaniem trudnym, o ile w ogóle możliwym. Metody ślepej separacji oraz uczenia maszynowego rozwijane były w różnych obszarach: przetwarzania sygnałów, analizy danych, metod matematycznych, inżynierii, informatyki i zastosowań aplikacyjnych. Mimo szeroko wykorzystywanego aparatu statystycznego, ich główny rozwój odbył się poza zasadniczym nurtem dyscypliny statystycznej. Znajduje to odzwierciedlenie w formie i nomenklaturze przedstawianych w pracy zagadnień, gdzie określone pojęcia i wielkości, w zależności od perspektywy i kontekstu rozważań, są różnie określane.

Niezależnie od dokładniejszego omówienia w dalszej części pracy, w ramach tych wstępnych uwag warto także zasygnalizować przyjęte rozumienie kliku zasadniczych pojęć. Predykcja rozumiana jest w pracy jako prognozowanie wielkości nieznanych na podstawie znanych zmiennych objaśniających. Należy zwrócić uwagę, że w takim rozumieniu nie jest zakładane następstwo czasowe. Brak wiedzy o prognozowanych wielkościach może mieć wiele przyczyn, m.in. zjawisko jeszcze nie zaszło, jest niedostępne pomiarowi lub jest "ukryte" w danych.

Pojęcie modelu występować będzie w kilku znaczeniach. Model Data Mining może oznaczać zarówno pewien sformalizowany obraz danego zjawiska, jak i system, nie tyle opisujący zjawisko, ile na nie wpływający i je kształtujący. Pojęcie modelu w obszarze ślepej separacji także występuje w różnych znaczeniach, w zależności od kontekstu rozważań. Czynione w obszarze ślepej separacji założenia co do modelowania danych empirycznych mają na celu zwykle stworzenie pewnego roboczego modelu, pozwalającego za pomocą określonych metod badać dany problem. Owe założenia w żaden sposób nie przesądzają o prawdziwej naturze zjawiska. Metody oparte na odmiennych założeniach często dają komplementarny obraz problemu lub prowadzą do identycznych rozwiązań numerycznych.

Pojęcia: zmienna, sygnał, szereg czasowy, dane obserwowane, komponent, używane będą wymiennie, tak jak w literaturze przedmiotu. Poszczególne metody wyrosłe w pewnych środowiskach badawczych mają typową nomenklaturę, jednak w przypadku pracy przeglądowej lub zastosowań, w których testowanych jest wiele podejść, powstaje kwestia przyjęcia podejścia ujednolicającego lub pluralistycznego. Autor zdecydował się na tę drugą opcję.

Jeśli chodzi o tłumaczenie anglojęzycznych wyrażeń, wiele z nich w języku polskim nie występuje w ogóle, ewentualnie nazewnictwo nie jest jeszcze utrwalone czy jednoznacznie przyjęte. Autor przyjął konwencję, według której przetłumaczone zostały zwroty niebudzące większych wątpliwości. W innych przypadkach pozostawiono nazwy angielskie. Skróty czy akronimy funkcjonujące jako nazwy własne pozostawiono w wersjach angielskich.

Materiał zawarty w pracy został podzielony na następujące zasadnicze części.

Część pierwsza ustanawia ramy rozważań, którymi są: ogólna problematyka Data Mining, metody w niej stosowane oraz nowa koncepcja agregacji modeli. Część ta składa się z czterech rozdziałów. W rozdziale pierwszym przedstawiono ogólną problematykę podejmowaną w pracy. Rozdział drugi poświęcony jest podstawowym ideom metodyki Data Mining. Przedstawiono tu biznesowy i ekonomiczny punkt widzenia. W rozdziale trzecim zarysowano problematykę sieci neuronowych. W kontekście prowadzonych rozważań sieci neuronowe są z jednej strony charakterystycznym reprezentantem metod Data Mining, z drugiej zaś występują w wielu różnych odmianach i rolach w obszarze ślepej separacji. Sieci neuronowe są także podstawowym podejściem do budowy modeli predykcyjnych stosowanych w praktycznych problemach prezentowanych w pracy. Rozdział czwarty poświęcony jest problematyce agregacji modeli, a w szczególności przedstawieniu nowej koncepcji agregacji opartej na wielowymiarowych dekompozycjach.

Część druga obejmuje podstawowe dekompozycje związane ze ślepą separacją sygnałów. Składa się z rozdziałów od piątego do dwunastego. W rozdziale piątym przedstawiono historię oraz formalne ujęcie problemu ślepej separacji. Wskazano także na związki z nową metodą agregacji. W rozdziale szóstym przedstawiono techniki dekorelacji. Rozdział siódmy poświęcony jest analizie składowych niezależnych. Rozdział ósmy przedstawia zarys nieliniowej analizy składowych głównych. W rozdziale dziewiątym przedstawiono metody separacji oparte na statystykach drugiego rzędu. W rozdziale dziesiątym przedstawiono algorytmy nieujemnej faktoryzacji macierzy. Rozdział jedenasty poświęcony jest autorskiej koncepcji analizy składowych gładkich. Metody oceny komponentów bazowych omówione są w rozdziale dwunastym.

Cześć trzecia, składająca się z czterech rozdziałów, przedstawia praktyczne zastosowania nowej metody agregacji modeli. W rozdziale trzynastym zaprezentowano problem prognozowania odejść klienckich. Rozdział czternasty poświęcony jest wykrywaniu nadużyć telekomunikacyjnych oraz podejmuje problematykę ograniczania ryzyka klienckiego związanego z niepłatnością faktur. Rozdział piętnasty odnosi się do prognozowania energii elektrycznej. W rozdziale szesnastym zaprezentowano zastosowanie metod ślepej separacji do danych z rynków finansowych.

Wstęp

 

Część I. Modele Data Mining i ic h agregacja

1. Wprowadzenie do problematyki pracy

2. Data Mining - idee i uwarunkowania

3. Sieci neuronowe

4. Agregacja modeli

 

Część II. Wielowymiarowe dekompozycje w ślepej separacji sygnałów

5. Dekompozycje i separacja danych

6. Dekorelacja i separacja danych przestrzennych

7. Analiza składowych niezależnych

8. Nieliniowa analiza składowych głównych

9. Statystki drugiego rzędu i separacja sygnałów niestacjonarnych

10. Nieujemna faktoryzacja macierzy

11. Analiza składowych gładkich

12. Ocena komponentów bazowych

 

Część III. Praktyczne zastosowania metod agregacji BSS

13. Prognozowanie odejść klienckich - problem churnu

14. Wykrywanie nadużyć

15. Prognozowanie obciążeń systemu elektroenergetycznego

16. Data Mining i metody separacji na rynkach finansowych

 

Zakończenie

 

Załącznik

 

Bibliografia

Napisz swoją opinię
Twoja ocena:
Szybka wysyłka zamówień
Kup online i odbierz na uczelni
Bezpieczne płatności
pixel