Dummy coding

Dummy coding – w statystyce jest to metoda kodowania danych nominalnych (jakościowych) za pomocą wartości 0 i 1 w celu ich analizy statystycznej, np. w analizie regresji. Tak stworzone nowe zmienne binarne (zero-jedynkowe) nazywane są zmiennymi sztucznymi (ang. dummy variables)[1][2].

Przykład zastosowania: związek między płcią (wartości: kobieta i mężczyzna) a trybem studiów (wartości: stacjonarne i niestacjonarne) możemy obliczyć za pomocą wzoru na współczynnik fi. Można jednak osiągnąć ten sam efekt (czyli obliczyć siłę związku pomiędzy płcią i trybem studiów) za pomocą współczynnika korelacji liniowej Pearsona, jednak wcześnie trzeba zastosować dummy coding. Zmienną płeć przekształcamy na dane liczbowe: wartość kobieta jest kodowana za pomocą 0, wartość mężczyzna1. To samo robimy ze zmienną tryb studiów: wartość stacjonarne zamieniamy na 0, wartość niestacjonarne zamieniamy na 1.

Przypisy

  1. AurélienA. Géron AurélienA., Uczenie maszynowe z użyciem Scikit-Learn i TensorFlow, KrzysztofK. Sawka (tłum.), Wydanie II, aktualizacja do modułu TensorFlow 2, Gliwice: Helion, 2020, s. 88, ISBN 978-83-283-6002-0 [dostęp 2024-06-28] .
  2. AlicjaA. Grześkowiak AlicjaA., PiotrP. Peternek PiotrP. (red.), Zastosowanie metod ilościowych w ekonomii i finansach, Debiuty Studenckie 2023, Wrocław: Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu, 2023, s. 18, ISBN 978-83-67899-09-3 [dostęp 2024-06-28] .

Bibliografia

  • Kenneth S. Bordens, Bruce B. Abbott, Research Design and Methods. A Process Approach, Seventh Edition, McGraw-Hill, New York 2008, s. 380.
  • UCLA
Encyklopedie internetowe (zmienna):
  • Britannica: topic/dummy-variable, topic/indicator-variable, topic/qualitative-variable