Ulubione
  1. Strona główna
  2. MODELOWANIE STATYSTYCZNE DLA BIZNESU TEORIA I ZASTOSOWANIA Z WYKORZYSTANIEM SAS VIYA, R I PYTHON

MODELOWANIE STATYSTYCZNE DLA BIZNESU TEORIA I ZASTOSOWANIA Z WYKORZYSTANIEM SAS VIYA, R I PYTHON

55,00 zł
49,50 zł
/ szt.
Oszczędzasz 10 % ( 5,50 zł).
Najniższa cena produktu z 30 dni przed obniżką: 49,50 zł
Autor: Adam Korczyński
Kod produktu: 978-83-8030-621-9
Cena regularna:
55,00 zł
49,50 zł
/ szt.
Oszczędzasz 10 % ( 5,50 zł).
Najniższa cena produktu z 30 dni przed obniżką: 49,50 zł
Dodaj do ulubionych
Łatwy zwrot towaru w ciągu 14 dni od zakupu bez podania przyczyny
MODELOWANIE STATYSTYCZNE DLA BIZNESU TEORIA I ZASTOSOWANIA Z WYKORZYSTANIEM SAS VIYA, R I PYTHON
MODELOWANIE STATYSTYCZNE DLA BIZNESU TEORIA I ZASTOSOWANIA Z WYKORZYSTANIEM SAS VIYA, R I PYTHON

[[[separator]]]

Celem pracy jest przeglad technik i narzedzi słuzacych do analizy statystycznej z wykorzystaniem wysokowydajnych metod przetwarzania danych dostepnych
w ramach narzedzia SAS Viya i jezyka chmury obliczeniowej CASL (ang. Cloud Analytic Services Language) oraz narzedzi dostepnych w jezykach R i Python.
Prezentacja poszczególnych etapów analizy i narzedzi rozpoczyna sie od zupełnie podstawowych aspektów przetwarzania danych oraz miar analizy struktury.
Podano opis zadan technicznych takich jak komunikacja z baza danych, przetwarzanie danych, przesyłanie wyników, po czym dokonano wprowadzenia do tematyki modelowania statystycznego, posługujac sie wybranym zestawem modeli liniowych obejmujacym: analize wariancji i kowariancji, analize korelacji i regresji z uwzglednieniem modelu regresji adaptacyjnej oraz model regresji kwantylowej. W rozdziale pierwszym zawarto wprowadzenie do systemu SAS Viya i podstawy składni jezyka CASL. Opisano tematy wczytywania i eksportowania danych, eksploracji danych za pomoca interaktywnej aplikacji SAS Explore and Visualize, elementarne zadania zwiazane z przetwarzaniem danych, takie jak filtrowanie, sortowanie, formatowanie oraz tworzenie zapytan, a takze raportowanie tabel i wykresów w plikach zewnetrznych. W rozdziale drugim przedstawiono wybrane zagadnienia z zakresu metody reprezentacyjnej. Dokonano tego w ujeciu klasycznym i w zastosowaniach na potrzeby walidacji modeli predykcyjnych. Rozdział trzeci zawiera opis podstawowych miar analizy struktury stosowanych wobec róznego typu rozkładów. Opisano równiez miary odporne połozenia i zróznicowania wykorzystywane w analizie wpływu obserwacji odstajacych.Wczwartym rozdziale ksiazki zaprezentowano opis rozkładów wybranych zmiennych losowych obejmujacy funkcje prawdopodobienstwa oraz dystrybuante wraz z zestawem standardowych zadan wykonywanych w ramach analizy rozkładów i weryfikacji zgodnosci z rozkładem teoretycznym. Ostatnie z wymienionych zagadnien
przedstawiono z podziałem na estymacje parametryczna i nieparametryczna. W ostatniej czesci rozdziału zaprezentowano schemat symulowania danych z zadanego rozkładu, co moze stanowic przydatne narzedzie stosowane w ramach oceny modeli. Rozdział piaty obejmuje tematyke podstawowych modeli liniowych, w tym analize wariancji z klasyfikacja pojedyncza i podwójna, model analizy kowariancji oraz analize nieparametryczna wykorzystujaca test Kruskala–Wallisa. Przedstawiono zapis modeli oraz własciwych testów statystycznych. Ostatnia czesc rozdziału prezentuje wybrany zestaw miar diagnostycznych stosowany do oceny modeli. Rozdział szósty dotyczy analizy korelacji i zaleznosci. Zawarto w nim opis współczynnika korelacji liniowej Pearsona, współczynnika rang Spearmana, a takze miary zaleznosci -Kendalla i miare Hoeffdinga. W tej czesci pracy zaprezentowano równiez narzedzia stosowane do oceny zwiazków pomiedzy zmiennymi skokowymi, w tym test niezaleznosci 2 oraz współczynnik V Craméra. Rozdział ukazuje takze zastosowanie współczynnika Cronbacha do oceny zwiazków pomiedzy wieksza liczba zmiennych. W rozdziale siódmym przedstawiono zagadnienia modeli regresji liniowej oraz rozwiniecia tej koncepcji. Uwzgledniono zapis podstawowych miar diagnostycznych oraz technik słuzacych do doboru zmiennych i specyfikacji modelu. Zagadnienia te ukazano w kontekscie modelowania predykcyjnego. W ostatnim rozdziale zawarto podstawowy opis modelu regresji kwantylowej jako wszechstronnego narzedzia znajdujacego zastosowanie w modelowaniu predykcyjnym, ale takze w ocenie jakosci danych. W pracy podjeto sie kontynuacji zagadnien opisanych w podreczniku Statystyka od podstaw z systemem SAS (Fratczak, Korczynski, 2013), ale jednoczesnie w istotny sposób je rozwinieto, uwzgledniajac wybrane metody nieparametryczne, a takze ujecie predykcyjne w modelowaniu. Praca zawiera ponadto kody programu w składni jezyka CASL oraz zastosowania bezposrednio w narzedziach srodowiska SAS Viya. Warto zaznaczyc, ze SAS Viya jest znaczaco rozbudowana wersja pakietu w stosunku do poprzednika, czyli wersji 9.4, jezeli idzie zarówno o kod programu, jak i o narzedzia wyposazone w graficzny interfejs. Przedstawione kody programu obejmuja procedury przeznaczone do pracy z danymi duzej objetosci. Podstawowe przykłady opracowane w SAS Viya uzupełniono o kody programu
w jezykach R i Python. Przykłady w R i Python zostały przygotowane na podstawie dokumentacji wybranych bibliotek i pakietów oraz zestawu publikacji poswieconych tym jezykom programowania. Wsród prac obejmujacych przykłady w jezyku R wymienic mozemy: Kopczewska et al., 2009; Muenchen, 2011; Shahbaba, 2012; MacFarland, 2014; Freeman, Ross, 2020. W przypadku jezyka Python sa to m.in. prace: McKinney, 2013; Brownley, 2016; Haslwanter, 2016; James et al., 2017; Grus, 2020; Bruce et al., 2021. Wsród wymienionych wyzej publikacji znajdziemy zarówno wprowadzenie do programowania w obu jezykach, jak i przykłady zastosowan wybranych metod statystycznych. Prezentowane w pracy zagadnienia uwzgledniaja przykłady zastosowan wraz z interpretacjami. Celem pracy nie jest przedstawienie pełnego teoretycznego opisu wybranych zagadnien, a raczej wskazanie na istote metod oraz ich strone aplikacyjna. Stosowne fragmenty zawieraja elementy teorii tam, gdzie jest to własciwe do opisu konkretnego modelu lub miary. Czytelnik zaznajomiony ze składnia jezyka SAS 4GL bedzie mógł zapoznac sie z wybranym zestawem procedur CASL rozszerzajacych funkcjonalnosci standardowej składni. Tekst i przykłady napisane sa w taki sposób, aby równiez osoba bez doswiadczenia w programowaniu statystycznym w jezyku SAS mogła zapoznac sie z podstawami tego zagadnienia. Czytelnik zainteresowany wyłacznie składnia jezyków otwartego dostepu R i Python moze pominac rozdział pierwszy, który dotyczy wprowadzenia do pracy z systemem SAS Viya i podstaw składni jezyka CASL. Przykłady zostały dobrane i zaprezentowane w taki sposób, aby niezaleznie od jezyka programowania ukazywały istote wybranych podstawowych metod i modeli statystycznych.

[[[separator]]]

Wstęp

1. Podstawy przetwarzania danych w SAS Viya

1.1. Wprowadzenie

1.2. Połaczenie z serwerem CAS w SAS Studio

1.3. Podstawy programowania w SAS Viya

1.4. Praca ze zródłami danych

1.4.1. Wczytywanie danych

1.4.2. Eksportowanie danych

1.5. Przegladanie danych w SAS Data Explorer

1.6. Wyswietlanie atrybutów i przegladanie danych

1.7. Podstawowe przekształcenia danych

1.7.1. Filtrowanie danych

1.7.2. Sortowanie danych i przetwarzanie w grupach

1.7.3. Formatowanie danych

1.7.4. Tworzenie podstawowych zapytan SQL

1.8. Wprowadzenie do raportowania w plikach zewnetrznych

1.8.1. Tworzenie wykresu w kodzie programu

1.8.2. Tworzenie raportu w kodzie programu – procedury drukujace

1.8.3. Wykresy interaktywne w SAS Visual Analytics

2. Wybrane zagadnienia z zakresu metody reprezentacyjnej

2.1. Wprowadzenie

2.2. Wybrane schematy losowania próby

2.2.1. Losowanie proste

2.2.2. Losowanie warstwowe

2.2.3. Losowanie systematyczne

2.2.4. Losowanie dwu- i wielostopniowe

2.3. Próbkowanie na potrzeby modelowania predykcyjnego

2.3.1. Losowanie z nadreprezentacja klasy mniejszosciowej – oversampling

2.3.2. Losowanie warstwowe z ograniczeniem udziału klasy wiekszosciowej– undersampling

2.3.3. Losowanie warstwowe – k-krotny podział próby

3. Analiza struktury

3.1. Wprowadzenie

3.2. Tabele liczebnosci i czestosci

3.3. Miary analizy struktury

3.3.1. Miary połozenia rozkładu

3.3.2. Miary zróznicowania

3.3.3. Miary asymetrii

3.3.4. Miary koncentracji

3.4. Obserwacje odstajace i miary odporne

4. Rozkłady teoretyczne zmiennych losowych

4.1. Wprowadzenie

4.2. Graficzna prezentacja rozkładów wybranych zmiennych losowych

4.2.1. Rozkład zero-jedynkowy (Bernoulliego)

4.2.2. Rozkład dwumianowy

4.2.3. Rozkład beta

4.2.4. Rozkład normalny

4.2.5. Rozkład lognormalny

4.2.6. Dobór parametrów rozkładu za pomoca interaktywnego wykresu. Zastosowanie pakietu R Shiny

4.3. Nieparametryczny estymator funkcji gestosci prawdopodobienstwa

4.4. Badanie zgodnosci rozkładu empirycznego z rozkładem teoretycznym

4.5. Generowanie danych z okreslonego rozkładu za pomoca procedury IML

5. Analiza wariancji i kowariancji

5.1. Wprowadzenie

5.2. Analiza wariancji z pojedyncza klasyfikacja

5.3. Analiza wariancji z podwójna klasyfikacja

5.4. Nieparametryczna analiza wariancji – test Kruskala–Wallisa

5.5. Analiza kowariancji

5.6. Porównanie modeli analizy wariancji i kowariancji

6. Analiza korelacji i zaleznosci

6.1. Wprowadzenie

6.2. Współczynnik korelacji liniowej Pearsona

6.3. Nieparametryczne miary zaleznosci

6.3.1. Współczynnik korelacji rang Spearmana

6.3.2. Współczynnik -Kendalla

6.3.3. Miara zaleznosci Hoeffdinga

6.4. Test niezaleznosci 2 i współczynnik V Craméra w ocenie asocjacji

6.5. Współczynnik Cronbacha

6.6. Ocena zwiazków pomiedzy zmiennymi na potrzeby modelowania

7. Regresja liniowa

7.1. Wprowadzenie

7.2. Model regresji liniowej

7.2.1. Klasyczny model regresji liniowej

7.2.2. Regresja wieloraka

7.3. Diagnostyka modelu

7.3.1. Ocena zdolnosci predykcyjnej

7.3.2. Identyfikacja obserwacji odstajacych i wpływowych

7.3.3. Dobór zmiennych do modelu

7.3.4. Ocena specyfikacji modelu

7.4. Regresja adaptacyjna – dopasowanie funkcjami sklejanymi

8. Regresja kwantylowa

8.1. Wprowadzenie

8.2. Model regresji kwantylowej

8.3. Estymacja modelu regresji kwantylowej

8.4. Identyfikacja obserwacji odstajacych za pomoca modelu regresji kwantylowej

8.5. Zarys budowy aplikacji za pomoca biblioteki R Shiny na przykładzie modeli regresji

Aneks

Bibliografia

Opis

Wydanie: I
Rok wydania: 2023
Wydawnictwo: Oficyna Wydawnicza
Oprawa: miękka
Liczba stron: 325
Format: B5

Wstęp

Celem pracy jest przeglad technik i narzedzi słuzacych do analizy statystycznej z wykorzystaniem wysokowydajnych metod przetwarzania danych dostepnych
w ramach narzedzia SAS Viya i jezyka chmury obliczeniowej CASL (ang. Cloud Analytic Services Language) oraz narzedzi dostepnych w jezykach R i Python.
Prezentacja poszczególnych etapów analizy i narzedzi rozpoczyna sie od zupełnie podstawowych aspektów przetwarzania danych oraz miar analizy struktury.
Podano opis zadan technicznych takich jak komunikacja z baza danych, przetwarzanie danych, przesyłanie wyników, po czym dokonano wprowadzenia do tematyki modelowania statystycznego, posługujac sie wybranym zestawem modeli liniowych obejmujacym: analize wariancji i kowariancji, analize korelacji i regresji z uwzglednieniem modelu regresji adaptacyjnej oraz model regresji kwantylowej. W rozdziale pierwszym zawarto wprowadzenie do systemu SAS Viya i podstawy składni jezyka CASL. Opisano tematy wczytywania i eksportowania danych, eksploracji danych za pomoca interaktywnej aplikacji SAS Explore and Visualize, elementarne zadania zwiazane z przetwarzaniem danych, takie jak filtrowanie, sortowanie, formatowanie oraz tworzenie zapytan, a takze raportowanie tabel i wykresów w plikach zewnetrznych. W rozdziale drugim przedstawiono wybrane zagadnienia z zakresu metody reprezentacyjnej. Dokonano tego w ujeciu klasycznym i w zastosowaniach na potrzeby walidacji modeli predykcyjnych. Rozdział trzeci zawiera opis podstawowych miar analizy struktury stosowanych wobec róznego typu rozkładów. Opisano równiez miary odporne połozenia i zróznicowania wykorzystywane w analizie wpływu obserwacji odstajacych.Wczwartym rozdziale ksiazki zaprezentowano opis rozkładów wybranych zmiennych losowych obejmujacy funkcje prawdopodobienstwa oraz dystrybuante wraz z zestawem standardowych zadan wykonywanych w ramach analizy rozkładów i weryfikacji zgodnosci z rozkładem teoretycznym. Ostatnie z wymienionych zagadnien
przedstawiono z podziałem na estymacje parametryczna i nieparametryczna. W ostatniej czesci rozdziału zaprezentowano schemat symulowania danych z zadanego rozkładu, co moze stanowic przydatne narzedzie stosowane w ramach oceny modeli. Rozdział piaty obejmuje tematyke podstawowych modeli liniowych, w tym analize wariancji z klasyfikacja pojedyncza i podwójna, model analizy kowariancji oraz analize nieparametryczna wykorzystujaca test Kruskala–Wallisa. Przedstawiono zapis modeli oraz własciwych testów statystycznych. Ostatnia czesc rozdziału prezentuje wybrany zestaw miar diagnostycznych stosowany do oceny modeli. Rozdział szósty dotyczy analizy korelacji i zaleznosci. Zawarto w nim opis współczynnika korelacji liniowej Pearsona, współczynnika rang Spearmana, a takze miary zaleznosci -Kendalla i miare Hoeffdinga. W tej czesci pracy zaprezentowano równiez narzedzia stosowane do oceny zwiazków pomiedzy zmiennymi skokowymi, w tym test niezaleznosci 2 oraz współczynnik V Craméra. Rozdział ukazuje takze zastosowanie współczynnika Cronbacha do oceny zwiazków pomiedzy wieksza liczba zmiennych. W rozdziale siódmym przedstawiono zagadnienia modeli regresji liniowej oraz rozwiniecia tej koncepcji. Uwzgledniono zapis podstawowych miar diagnostycznych oraz technik słuzacych do doboru zmiennych i specyfikacji modelu. Zagadnienia te ukazano w kontekscie modelowania predykcyjnego. W ostatnim rozdziale zawarto podstawowy opis modelu regresji kwantylowej jako wszechstronnego narzedzia znajdujacego zastosowanie w modelowaniu predykcyjnym, ale takze w ocenie jakosci danych. W pracy podjeto sie kontynuacji zagadnien opisanych w podreczniku Statystyka od podstaw z systemem SAS (Fratczak, Korczynski, 2013), ale jednoczesnie w istotny sposób je rozwinieto, uwzgledniajac wybrane metody nieparametryczne, a takze ujecie predykcyjne w modelowaniu. Praca zawiera ponadto kody programu w składni jezyka CASL oraz zastosowania bezposrednio w narzedziach srodowiska SAS Viya. Warto zaznaczyc, ze SAS Viya jest znaczaco rozbudowana wersja pakietu w stosunku do poprzednika, czyli wersji 9.4, jezeli idzie zarówno o kod programu, jak i o narzedzia wyposazone w graficzny interfejs. Przedstawione kody programu obejmuja procedury przeznaczone do pracy z danymi duzej objetosci. Podstawowe przykłady opracowane w SAS Viya uzupełniono o kody programu
w jezykach R i Python. Przykłady w R i Python zostały przygotowane na podstawie dokumentacji wybranych bibliotek i pakietów oraz zestawu publikacji poswieconych tym jezykom programowania. Wsród prac obejmujacych przykłady w jezyku R wymienic mozemy: Kopczewska et al., 2009; Muenchen, 2011; Shahbaba, 2012; MacFarland, 2014; Freeman, Ross, 2020. W przypadku jezyka Python sa to m.in. prace: McKinney, 2013; Brownley, 2016; Haslwanter, 2016; James et al., 2017; Grus, 2020; Bruce et al., 2021. Wsród wymienionych wyzej publikacji znajdziemy zarówno wprowadzenie do programowania w obu jezykach, jak i przykłady zastosowan wybranych metod statystycznych. Prezentowane w pracy zagadnienia uwzgledniaja przykłady zastosowan wraz z interpretacjami. Celem pracy nie jest przedstawienie pełnego teoretycznego opisu wybranych zagadnien, a raczej wskazanie na istote metod oraz ich strone aplikacyjna. Stosowne fragmenty zawieraja elementy teorii tam, gdzie jest to własciwe do opisu konkretnego modelu lub miary. Czytelnik zaznajomiony ze składnia jezyka SAS 4GL bedzie mógł zapoznac sie z wybranym zestawem procedur CASL rozszerzajacych funkcjonalnosci standardowej składni. Tekst i przykłady napisane sa w taki sposób, aby równiez osoba bez doswiadczenia w programowaniu statystycznym w jezyku SAS mogła zapoznac sie z podstawami tego zagadnienia. Czytelnik zainteresowany wyłacznie składnia jezyków otwartego dostepu R i Python moze pominac rozdział pierwszy, który dotyczy wprowadzenia do pracy z systemem SAS Viya i podstaw składni jezyka CASL. Przykłady zostały dobrane i zaprezentowane w taki sposób, aby niezaleznie od jezyka programowania ukazywały istote wybranych podstawowych metod i modeli statystycznych.

Spis treści

Wstęp

1. Podstawy przetwarzania danych w SAS Viya

1.1. Wprowadzenie

1.2. Połaczenie z serwerem CAS w SAS Studio

1.3. Podstawy programowania w SAS Viya

1.4. Praca ze zródłami danych

1.4.1. Wczytywanie danych

1.4.2. Eksportowanie danych

1.5. Przegladanie danych w SAS Data Explorer

1.6. Wyswietlanie atrybutów i przegladanie danych

1.7. Podstawowe przekształcenia danych

1.7.1. Filtrowanie danych

1.7.2. Sortowanie danych i przetwarzanie w grupach

1.7.3. Formatowanie danych

1.7.4. Tworzenie podstawowych zapytan SQL

1.8. Wprowadzenie do raportowania w plikach zewnetrznych

1.8.1. Tworzenie wykresu w kodzie programu

1.8.2. Tworzenie raportu w kodzie programu – procedury drukujace

1.8.3. Wykresy interaktywne w SAS Visual Analytics

2. Wybrane zagadnienia z zakresu metody reprezentacyjnej

2.1. Wprowadzenie

2.2. Wybrane schematy losowania próby

2.2.1. Losowanie proste

2.2.2. Losowanie warstwowe

2.2.3. Losowanie systematyczne

2.2.4. Losowanie dwu- i wielostopniowe

2.3. Próbkowanie na potrzeby modelowania predykcyjnego

2.3.1. Losowanie z nadreprezentacja klasy mniejszosciowej – oversampling

2.3.2. Losowanie warstwowe z ograniczeniem udziału klasy wiekszosciowej– undersampling

2.3.3. Losowanie warstwowe – k-krotny podział próby

3. Analiza struktury

3.1. Wprowadzenie

3.2. Tabele liczebnosci i czestosci

3.3. Miary analizy struktury

3.3.1. Miary połozenia rozkładu

3.3.2. Miary zróznicowania

3.3.3. Miary asymetrii

3.3.4. Miary koncentracji

3.4. Obserwacje odstajace i miary odporne

4. Rozkłady teoretyczne zmiennych losowych

4.1. Wprowadzenie

4.2. Graficzna prezentacja rozkładów wybranych zmiennych losowych

4.2.1. Rozkład zero-jedynkowy (Bernoulliego)

4.2.2. Rozkład dwumianowy

4.2.3. Rozkład beta

4.2.4. Rozkład normalny

4.2.5. Rozkład lognormalny

4.2.6. Dobór parametrów rozkładu za pomoca interaktywnego wykresu. Zastosowanie pakietu R Shiny

4.3. Nieparametryczny estymator funkcji gestosci prawdopodobienstwa

4.4. Badanie zgodnosci rozkładu empirycznego z rozkładem teoretycznym

4.5. Generowanie danych z okreslonego rozkładu za pomoca procedury IML

5. Analiza wariancji i kowariancji

5.1. Wprowadzenie

5.2. Analiza wariancji z pojedyncza klasyfikacja

5.3. Analiza wariancji z podwójna klasyfikacja

5.4. Nieparametryczna analiza wariancji – test Kruskala–Wallisa

5.5. Analiza kowariancji

5.6. Porównanie modeli analizy wariancji i kowariancji

6. Analiza korelacji i zaleznosci

6.1. Wprowadzenie

6.2. Współczynnik korelacji liniowej Pearsona

6.3. Nieparametryczne miary zaleznosci

6.3.1. Współczynnik korelacji rang Spearmana

6.3.2. Współczynnik -Kendalla

6.3.3. Miara zaleznosci Hoeffdinga

6.4. Test niezaleznosci 2 i współczynnik V Craméra w ocenie asocjacji

6.5. Współczynnik Cronbacha

6.6. Ocena zwiazków pomiedzy zmiennymi na potrzeby modelowania

7. Regresja liniowa

7.1. Wprowadzenie

7.2. Model regresji liniowej

7.2.1. Klasyczny model regresji liniowej

7.2.2. Regresja wieloraka

7.3. Diagnostyka modelu

7.3.1. Ocena zdolnosci predykcyjnej

7.3.2. Identyfikacja obserwacji odstajacych i wpływowych

7.3.3. Dobór zmiennych do modelu

7.3.4. Ocena specyfikacji modelu

7.4. Regresja adaptacyjna – dopasowanie funkcjami sklejanymi

8. Regresja kwantylowa

8.1. Wprowadzenie

8.2. Model regresji kwantylowej

8.3. Estymacja modelu regresji kwantylowej

8.4. Identyfikacja obserwacji odstajacych za pomoca modelu regresji kwantylowej

8.5. Zarys budowy aplikacji za pomoca biblioteki R Shiny na przykładzie modeli regresji

Aneks

Bibliografia

Opinie

Twoja ocena:
Wydanie: I
Rok wydania: 2023
Wydawnictwo: Oficyna Wydawnicza
Oprawa: miękka
Liczba stron: 325
Format: B5

Celem pracy jest przeglad technik i narzedzi słuzacych do analizy statystycznej z wykorzystaniem wysokowydajnych metod przetwarzania danych dostepnych
w ramach narzedzia SAS Viya i jezyka chmury obliczeniowej CASL (ang. Cloud Analytic Services Language) oraz narzedzi dostepnych w jezykach R i Python.
Prezentacja poszczególnych etapów analizy i narzedzi rozpoczyna sie od zupełnie podstawowych aspektów przetwarzania danych oraz miar analizy struktury.
Podano opis zadan technicznych takich jak komunikacja z baza danych, przetwarzanie danych, przesyłanie wyników, po czym dokonano wprowadzenia do tematyki modelowania statystycznego, posługujac sie wybranym zestawem modeli liniowych obejmujacym: analize wariancji i kowariancji, analize korelacji i regresji z uwzglednieniem modelu regresji adaptacyjnej oraz model regresji kwantylowej. W rozdziale pierwszym zawarto wprowadzenie do systemu SAS Viya i podstawy składni jezyka CASL. Opisano tematy wczytywania i eksportowania danych, eksploracji danych za pomoca interaktywnej aplikacji SAS Explore and Visualize, elementarne zadania zwiazane z przetwarzaniem danych, takie jak filtrowanie, sortowanie, formatowanie oraz tworzenie zapytan, a takze raportowanie tabel i wykresów w plikach zewnetrznych. W rozdziale drugim przedstawiono wybrane zagadnienia z zakresu metody reprezentacyjnej. Dokonano tego w ujeciu klasycznym i w zastosowaniach na potrzeby walidacji modeli predykcyjnych. Rozdział trzeci zawiera opis podstawowych miar analizy struktury stosowanych wobec róznego typu rozkładów. Opisano równiez miary odporne połozenia i zróznicowania wykorzystywane w analizie wpływu obserwacji odstajacych.Wczwartym rozdziale ksiazki zaprezentowano opis rozkładów wybranych zmiennych losowych obejmujacy funkcje prawdopodobienstwa oraz dystrybuante wraz z zestawem standardowych zadan wykonywanych w ramach analizy rozkładów i weryfikacji zgodnosci z rozkładem teoretycznym. Ostatnie z wymienionych zagadnien
przedstawiono z podziałem na estymacje parametryczna i nieparametryczna. W ostatniej czesci rozdziału zaprezentowano schemat symulowania danych z zadanego rozkładu, co moze stanowic przydatne narzedzie stosowane w ramach oceny modeli. Rozdział piaty obejmuje tematyke podstawowych modeli liniowych, w tym analize wariancji z klasyfikacja pojedyncza i podwójna, model analizy kowariancji oraz analize nieparametryczna wykorzystujaca test Kruskala–Wallisa. Przedstawiono zapis modeli oraz własciwych testów statystycznych. Ostatnia czesc rozdziału prezentuje wybrany zestaw miar diagnostycznych stosowany do oceny modeli. Rozdział szósty dotyczy analizy korelacji i zaleznosci. Zawarto w nim opis współczynnika korelacji liniowej Pearsona, współczynnika rang Spearmana, a takze miary zaleznosci -Kendalla i miare Hoeffdinga. W tej czesci pracy zaprezentowano równiez narzedzia stosowane do oceny zwiazków pomiedzy zmiennymi skokowymi, w tym test niezaleznosci 2 oraz współczynnik V Craméra. Rozdział ukazuje takze zastosowanie współczynnika Cronbacha do oceny zwiazków pomiedzy wieksza liczba zmiennych. W rozdziale siódmym przedstawiono zagadnienia modeli regresji liniowej oraz rozwiniecia tej koncepcji. Uwzgledniono zapis podstawowych miar diagnostycznych oraz technik słuzacych do doboru zmiennych i specyfikacji modelu. Zagadnienia te ukazano w kontekscie modelowania predykcyjnego. W ostatnim rozdziale zawarto podstawowy opis modelu regresji kwantylowej jako wszechstronnego narzedzia znajdujacego zastosowanie w modelowaniu predykcyjnym, ale takze w ocenie jakosci danych. W pracy podjeto sie kontynuacji zagadnien opisanych w podreczniku Statystyka od podstaw z systemem SAS (Fratczak, Korczynski, 2013), ale jednoczesnie w istotny sposób je rozwinieto, uwzgledniajac wybrane metody nieparametryczne, a takze ujecie predykcyjne w modelowaniu. Praca zawiera ponadto kody programu w składni jezyka CASL oraz zastosowania bezposrednio w narzedziach srodowiska SAS Viya. Warto zaznaczyc, ze SAS Viya jest znaczaco rozbudowana wersja pakietu w stosunku do poprzednika, czyli wersji 9.4, jezeli idzie zarówno o kod programu, jak i o narzedzia wyposazone w graficzny interfejs. Przedstawione kody programu obejmuja procedury przeznaczone do pracy z danymi duzej objetosci. Podstawowe przykłady opracowane w SAS Viya uzupełniono o kody programu
w jezykach R i Python. Przykłady w R i Python zostały przygotowane na podstawie dokumentacji wybranych bibliotek i pakietów oraz zestawu publikacji poswieconych tym jezykom programowania. Wsród prac obejmujacych przykłady w jezyku R wymienic mozemy: Kopczewska et al., 2009; Muenchen, 2011; Shahbaba, 2012; MacFarland, 2014; Freeman, Ross, 2020. W przypadku jezyka Python sa to m.in. prace: McKinney, 2013; Brownley, 2016; Haslwanter, 2016; James et al., 2017; Grus, 2020; Bruce et al., 2021. Wsród wymienionych wyzej publikacji znajdziemy zarówno wprowadzenie do programowania w obu jezykach, jak i przykłady zastosowan wybranych metod statystycznych. Prezentowane w pracy zagadnienia uwzgledniaja przykłady zastosowan wraz z interpretacjami. Celem pracy nie jest przedstawienie pełnego teoretycznego opisu wybranych zagadnien, a raczej wskazanie na istote metod oraz ich strone aplikacyjna. Stosowne fragmenty zawieraja elementy teorii tam, gdzie jest to własciwe do opisu konkretnego modelu lub miary. Czytelnik zaznajomiony ze składnia jezyka SAS 4GL bedzie mógł zapoznac sie z wybranym zestawem procedur CASL rozszerzajacych funkcjonalnosci standardowej składni. Tekst i przykłady napisane sa w taki sposób, aby równiez osoba bez doswiadczenia w programowaniu statystycznym w jezyku SAS mogła zapoznac sie z podstawami tego zagadnienia. Czytelnik zainteresowany wyłacznie składnia jezyków otwartego dostepu R i Python moze pominac rozdział pierwszy, który dotyczy wprowadzenia do pracy z systemem SAS Viya i podstaw składni jezyka CASL. Przykłady zostały dobrane i zaprezentowane w taki sposób, aby niezaleznie od jezyka programowania ukazywały istote wybranych podstawowych metod i modeli statystycznych.

Wstęp

1. Podstawy przetwarzania danych w SAS Viya

1.1. Wprowadzenie

1.2. Połaczenie z serwerem CAS w SAS Studio

1.3. Podstawy programowania w SAS Viya

1.4. Praca ze zródłami danych

1.4.1. Wczytywanie danych

1.4.2. Eksportowanie danych

1.5. Przegladanie danych w SAS Data Explorer

1.6. Wyswietlanie atrybutów i przegladanie danych

1.7. Podstawowe przekształcenia danych

1.7.1. Filtrowanie danych

1.7.2. Sortowanie danych i przetwarzanie w grupach

1.7.3. Formatowanie danych

1.7.4. Tworzenie podstawowych zapytan SQL

1.8. Wprowadzenie do raportowania w plikach zewnetrznych

1.8.1. Tworzenie wykresu w kodzie programu

1.8.2. Tworzenie raportu w kodzie programu – procedury drukujace

1.8.3. Wykresy interaktywne w SAS Visual Analytics

2. Wybrane zagadnienia z zakresu metody reprezentacyjnej

2.1. Wprowadzenie

2.2. Wybrane schematy losowania próby

2.2.1. Losowanie proste

2.2.2. Losowanie warstwowe

2.2.3. Losowanie systematyczne

2.2.4. Losowanie dwu- i wielostopniowe

2.3. Próbkowanie na potrzeby modelowania predykcyjnego

2.3.1. Losowanie z nadreprezentacja klasy mniejszosciowej – oversampling

2.3.2. Losowanie warstwowe z ograniczeniem udziału klasy wiekszosciowej– undersampling

2.3.3. Losowanie warstwowe – k-krotny podział próby

3. Analiza struktury

3.1. Wprowadzenie

3.2. Tabele liczebnosci i czestosci

3.3. Miary analizy struktury

3.3.1. Miary połozenia rozkładu

3.3.2. Miary zróznicowania

3.3.3. Miary asymetrii

3.3.4. Miary koncentracji

3.4. Obserwacje odstajace i miary odporne

4. Rozkłady teoretyczne zmiennych losowych

4.1. Wprowadzenie

4.2. Graficzna prezentacja rozkładów wybranych zmiennych losowych

4.2.1. Rozkład zero-jedynkowy (Bernoulliego)

4.2.2. Rozkład dwumianowy

4.2.3. Rozkład beta

4.2.4. Rozkład normalny

4.2.5. Rozkład lognormalny

4.2.6. Dobór parametrów rozkładu za pomoca interaktywnego wykresu. Zastosowanie pakietu R Shiny

4.3. Nieparametryczny estymator funkcji gestosci prawdopodobienstwa

4.4. Badanie zgodnosci rozkładu empirycznego z rozkładem teoretycznym

4.5. Generowanie danych z okreslonego rozkładu za pomoca procedury IML

5. Analiza wariancji i kowariancji

5.1. Wprowadzenie

5.2. Analiza wariancji z pojedyncza klasyfikacja

5.3. Analiza wariancji z podwójna klasyfikacja

5.4. Nieparametryczna analiza wariancji – test Kruskala–Wallisa

5.5. Analiza kowariancji

5.6. Porównanie modeli analizy wariancji i kowariancji

6. Analiza korelacji i zaleznosci

6.1. Wprowadzenie

6.2. Współczynnik korelacji liniowej Pearsona

6.3. Nieparametryczne miary zaleznosci

6.3.1. Współczynnik korelacji rang Spearmana

6.3.2. Współczynnik -Kendalla

6.3.3. Miara zaleznosci Hoeffdinga

6.4. Test niezaleznosci 2 i współczynnik V Craméra w ocenie asocjacji

6.5. Współczynnik Cronbacha

6.6. Ocena zwiazków pomiedzy zmiennymi na potrzeby modelowania

7. Regresja liniowa

7.1. Wprowadzenie

7.2. Model regresji liniowej

7.2.1. Klasyczny model regresji liniowej

7.2.2. Regresja wieloraka

7.3. Diagnostyka modelu

7.3.1. Ocena zdolnosci predykcyjnej

7.3.2. Identyfikacja obserwacji odstajacych i wpływowych

7.3.3. Dobór zmiennych do modelu

7.3.4. Ocena specyfikacji modelu

7.4. Regresja adaptacyjna – dopasowanie funkcjami sklejanymi

8. Regresja kwantylowa

8.1. Wprowadzenie

8.2. Model regresji kwantylowej

8.3. Estymacja modelu regresji kwantylowej

8.4. Identyfikacja obserwacji odstajacych za pomoca modelu regresji kwantylowej

8.5. Zarys budowy aplikacji za pomoca biblioteki R Shiny na przykładzie modeli regresji

Aneks

Bibliografia

Napisz swoją opinię
Twoja ocena:
Szybka wysyłka zamówień
Kup online i odbierz na uczelni
Bezpieczne płatności
pixel