MARCIN MENDELBAUM: Janina Bąk, sama o sobie mówi, że oprócz tego, że jest statystyczką, to jeszcze komendantką komedii i pangą biznesu. Także autorką dwóch bestsellerowych książek o statystyce – „Statystycznie rzecz biorąc…” Moje pierwsze pytanie dotyczy sondaży wyborczych. Skąd takie różnice pomiędzy niektórymi ośrodkami badawczymi. Jedni informowali, że partia X ma tyle, a drudzy, że zdecydowanie mniej i na odwrót.
JANINA BĄK: Wynika to najczęściej z różnych metodologii. Czyli różne sondaże różnie dobierały próbę, to znaczy grupę respondentów, którą pytali. Różne były też pytania. I również to, czy na przykład dany respondent w ogóle planuje pójść na wybory czy nie. Niektóre z nich były przeprowadzane metodą internetową, niektóre telefonicznie, więc to w jaki sposób taki sondaż był przeprowadzany miało znaczenie. Niemniej mamy już podsumowanie tego, jak spisały się różne sondażownie. Jeśli chodzi o trafność tych predykcji generalnie spisały się bardzo dobrze, nie licząc jednej sondażowni CBOS, którego sondaże przedwyborcze pomyliły się o 24 punkty procentowe. Dlaczego się pomyliły? To jest sondażownia państwowa, więc niestety w obecnej sytuacji nie bardzo mogliśmy jej ufać. Niemniej na przykład, jeśli spojrzymy na wyniki pozostałych, to okazało się, że w exit poll różnica była 0,78 punktu procentowego. To naprawdę doskonały wynik. Late poll 0,3 punktu procentowego. Myślę, że ten przykład fajnie pokazuje, że jak zawsze mówię, z sondażami jest jak z wędliną. Mamy takiej najwyższej jakości polędwicę sopocką i to na przykład są te topowe sondażownie. No i mamy też czasem takie mielonki zrobione z kawałka kalosza i sznurka.
- „211023 - Janina B¹k o statystyce” z albumu „S³owo”.
Czy w statystyce bywa czasami tak, że tworzymy badanie, a chcemy, żeby wynik wyszedł taki jakbyśmy chcieli?
Oczywiście można tak zrobić. Zresztą referendum pokazało, że można zadać pytanie w taki sposób, żeby samo pytanie sugerowało odpowiedź. Niemniej dobre rzetelnie sondażownie mają zdecydowanie zbyt dużo do stracenia, żeby manipulować wynikami sondaży, zwłaszcza w obecnych czasach, gdzie możemy im patrzeć na ręce i możemy później porównywać trafność prognoz. Ja zawsze mówię, że jak natrafiamy na wynik jakiegoś sondażu, to powinniśmy podchodzić do nich tak ostrożnie jak labrador do jeża. Przyjrzyjmy się im czy na pewno nas nie oszukują. Niemniej dobrze przeprowadzony sondaż, dobrze przeprowadzone badanie, nie zawiedzie nas i nie okłamie.
Jak to się robi, że w sondażu odpowiada około tysiąca osób, a później wyniki badania jest prawie identyczny z tym rzeczywistym, czyli zgodnym z głosem kilkunastu albo nawet kilkudziesięciu milionów osób?
Po pierwsze ważna jest wielkość próby, ale jeszcze ważniejsza od wielkości próby jest tak naprawdę jej jakość. To znaczy, żeby ta próba była reprezentatywna dla całości populacji. Czyli żeby grupa osób, którą pytamy była jak najbardziej zbliżona do populacji wszystkich głosujących Polaków, pod względem kluczowych cech demograficznych – płci, miejsca zamieszkania, wieku, itp. Zawsze mówię, że z sondażami jest tak, że jak byśmy nagotowali 5 litrów zupy pomidorowej i chcieli sprawdzić czy jest smaczna. Nie musimy w tym celu wypijać całego garnka. Możemy po prostu bardzo dobrze tę zupę zamieszać, spróbować chochelki i ta reprezentatywna chochelka powie nam, jaki jest smak tej zupy. Sondażownie mają swoje sposoby, żeby ta próba była reprezentatywna, ona musi zostać pobrana w odpowiedni sposób. A jeśli jest, to możemy być właśnie jak ten statystyk na safari i ekstrapolować i tak naprawdę ta jakość próby jest znacznie ważniejsza niż jej wielkość. Tutaj zawsze podaję taki przykład badania, które niegdyś przeprowadzono i ewidentnie coś metodologicznie zawiodło. Kiedyś chciano sprawdzić, ile procent Polaków to katolicy. Pytanie „czy jesteś katolikiem” zadawano osobom wychodzącym po mszy z kościoła. Jeśli pobieramy próbę w taki sposób, to nieważne, ile osób pod tym kościołem przepytamy, czy tysiąc czy pół miliona, to ta próba tak samo jest niereprezentatywna. Próba tysiąca osób to jest złoty standard. Za tym stoją naprawdę zaawansowane obliczenia i wzory matematyczne, które pozwalają nam z takiej grupy ekstrapolować na większą. Tylko właśnie ta próba musi być odpowiednio pobrana.
A lubimy statystykę? Uwielbiamy ją?
Nie.
Dlaczego? Wydaje mi się, że wszyscy uwielbiają statystykę. Na każdym kroku pojawiają się jakieś badania statystyczne i nie chodzi tu tylko o wybory.
No właśnie, tutaj jest pewien problem. Polega na tym, że ufamy bardziej wszystkiemu, czemu możemy przysposobić jakąś liczbę, jakąś statystykę. Czyli jeśli podam jakąś informację i obok tej informacji podam statystykę, to będziemy jej ufać bardziej, choć niestety nie zawsze sprawdzamy źródło, skąd pochodzi ta statystyka. Niemniej problem polega na tym, że z jednej strony lubimy statystyki i ufamy bardziej. Z drugiej strony nie zawsze wiemy jak z nich korzystać. Dla mnie dobrze, bo to znaczy, że zawsze będę mieć pracę. Ale też sobie myślę, że nie ma w tym naszej winy, że trochę się tej statystyki boimy, bo niestety w szkole, na studiach nie zawsze mieliśmy okazję się nauczyć, jak poprawnie interpretować te liczby i jak o nich myśleć. Nie mniej to, że no napisałam te dwie książki i ponad 100 tysięcy osób je kupiło, jest fantastyczną wiadomością właśnie dlatego, że to są książki popularno-naukowe o statystyce. Okazało się, że jest ponad 100 tysięcy osób, które chcą wiedzieć, w jaki sposób ze statystyką można i należy się zaprzyjaźnić. Może po prostu nigdy nie mieli okazji tego się dowiedzieć.
Obserwując różne wydarzenia, na przykład piłkarskie spotkanie reprezentacji Polski, to od razu widzimy różne statystyki. Przed każdym meczem od razu wiemy, że nasza reprezentacja wygrała tyle i tyle spotkań z tym rywalem i na ile nasz najlepszy strzelec ma szansę na zdobycie gola, bo w ostatnich meczach strzelał średnio tyle i tyle goli. Dodajemy sobie otuchy tymi dobrymi statystykami?
Myślę, że tak. My w ogóle lubimy rozumieć i porządkować świat. I w tym sensie dane liczbowe pozwalają nam trochę nadać sens na to na co patrzymy. Może mieć trochę nadziei przed meczem piłkarskim. Zawsze cieszy jak gdzieś tam ktoś do mnie pisze z pytaniem na przykład czy mogę tej statystyce ufać albo jak ma zinterpretować to czy inne prawdopodobieństwo? No bo tak naprawdę statystyka jest obecna w naszym codziennym życiu. Jak bierzemy syrop, bo boli nas gardło to za tym, że ten syrop powstał, stoją również badania kliniczne i potężne obliczenia statystyczne. Jak kupujemy kupon na loterii, bo chcemy wygrać ten milion, to to też jest statystyka i prawdopodobieństwo, więc tak naprawdę ze statystyką jest trochę jak z polityką. Nawet jak nam się wydaje, że nas nie dotyczy, to tak naprawdę mamy z nią do czynienia każdego dnia.
Skoro ze statystyką jest tak jak z polityką, a na polityce i piłce nożnej znają się wszyscy, to na statystyce też?
Trochę tak. Z tym, że to z czym ja się najczęściej spotykam, gdy widzę jakieś dyskusje o statystyce, to to, że jest szykanowana. Nie umiem znaleźć ładniejszego słowa. Bardzo często jest dyskredytowana. Pojawia się takie sformułowanie, że w sumie to statystyka do niczego się nie nadaje, bo statystycznie to wychodząc ze swoim psem na spacer mamy po trzy nogi. Od razu powiem, że to zdanie o psie i trzech nogach jest nieprawdziwe. Napisałam na ten temat cały rozdział w książce, bo już byłam tak zmęczona słuchaniem o tym. Ale przede wszystkim, gdy właśnie ten argument pojawia się w dyskusji, to bardzo mnie to niepokoi. Rozumiem, że statystyki można nie rozumieć. Rozumiem, że można się jej bać, ale w momencie, kiedy od razu się ją dyskredytuje, to jest to pewien objaw ignorancji. Uważam, że taka ignorancja już może być niebezpieczna, więc zachęcam wszystkich, nawet jeśli mają przekonanie, że statystyki kłamią i są przekonani, że wychodząc z psem na spacer mają po trzy nogi, żeby jednak spróbować dać tej statystyce jeszcze raz szansę i zobaczyć, że nie jest prawdą, że statystyka kłamie tylko ludzie. Czasem kłamią na temat statystyk. To niestety prawda.
Ci, którzy są pytani mogą nie mówić prawdy?
Mamy na to sposoby w nauce, to znaczy my już wiemy, że istnieją pewne efekty, które mogą wpływać na odpowiedzi respondenta. Na przykład efekt społecznych oczekiwań. Wiemy z badań, że są pewne kwestie, które często lubimy w sondażach zawyżać w stosunku do rzeczywistości. Na przykład zawyżamy praktyki religijne albo zdrowe żywienie. W ankietach nagle okazuje się, że wszyscy jemy brokuły na śniadanie albo jesteśmy aktywni fizycznie. Są też takie czynniki, których częstotliwość w sondażach zaniżamy, bo trochę się ich wstydzimy. Na przykład korzystanie z wszelkich używek czy przekonania rasistowskie. My wiemy, że takie efekty występują i mamy sposoby na to, żeby sobie z nimi poradzić. To nie znaczy, że zawsze sobie z nimi radzimy. Podczas wyborów prezydenckich Hilton-Trump niemal wszystkie sondaże wskazywały na zwycięstwo Hillary Clinton. Wynikało to właśnie z tego błędu, że ludzie bardzo często, nawet gdy zamierzali głosować na Trumpa, wstydzili się o tym mówić i wstydzili się przyznać w sondażach, że na niego zagłosują.
Plus minus 3 procent to jest ten błąd statystyczny, o którym bardzo często się wspomina. Skąd wzięło się to 3 procent?
Za tym też stoją dość skomplikowane wzory matematyczne. Wyniki sondażowe będą się różnić w górę lub w dół. Szacuje się właśnie, że maksymalnie o te trzy punkty procentowe w przypadku sondaży exit poll. W przypadku late poll ten błąd statystyczny jest niższy, bo te sondaże są dokładniejsze. Będzie maksymalnie wynosił jeden punkt procentowy. Zawsze to podkreślam, że sondaże mają margines niepewności, ten błąd statystyczny, ale my potrafimy tę niepewność policzyć. Potrafimy powiedzieć, że z określonym prawdopodobieństwem. Te wyniki będą się różnić w górę i w dół o taką i taką wartość. Zresztą mówię, że tym nauka różni się od pseudonauki, że pseudonauka oferuje pewność, a nauka oferuje prawdopodobieństwo. Możemy jedynie powiedzieć, że na tyle i tyle procent jesteśmy pewni tego wyniku, ale zawsze to coś.
Wracając jeszcze do tego psa i właściciela, który idzie na spacer. Owszem wychodzi na to, że ja i mój pies mamy statystycznie sześć nóg. Ja mam dwie, pies cztery, razem sześć. Dzielimy na dwa i mamy trzy. Tyle że to zwykłe obliczenie. Druga strona jest taka, że musimy prawidłowo odczytać, zrozumieć, przeanalizować to, co statystyka nam daje.
Dokładnie o to chodzi. Jestem właścicielką cudownie statystycznego kota o trzech łapach. Tutaj te obliczenia byłyby ciut bardziej skomplikowane. Zawsze mówię, że my kochamy komórki excela, ale jest coś znacznie od nich ważniejszego- nasze szare komórki i to żeby o tych danych pomyśleć i je poprawnie zinterpretować. Żebyśmy właśnie wiedzieli, że tak naprawdę pies należy do innego gatunku niż my, więc liczenie średniej w tym wypadku nie za bardzo ma sensu. Podobnie jak liczenie średniej ze zbioru dwuelementowego – ja i pies. Programy statystyczne wzory policzą nam absolutnie wszystko, ale ostatecznie to my musimy wiedzieć, czy te te liczby mają sens czy nie.
Najdziwniejsze badanie statystyczne, jakie kiedykolwiek widziałaś?
Czytałam ostatnio badanie, że jeśli zaproponujemy komuś wątpliwy moralnie scenariusz, by zjadł swojego psa, to jesteśmy bardziej skłonni się na to zgodzić jeśli ta propozycja zostanie nam złożona w języku obcym. Okazuje się, że gdy mamy dokonać sądów moralnych w obcym języku, to czujemy jakiś większy dystans psychiczny pomiędzy sobą, a tym czynem, którego mamy dokonać i jesteśmy bardziej skłonni się zgodzić na to. Jeśli chcemy kogoś przekonać do czegoś niezgodnego z prawem, to róbmy to po angielsku, tak bym to powiedziała.
Jestem zaskoczony. Statystyka może być zaskakująca?
Statystyka jest niesamowicie zaskakująca. Ja zawsze mówię, że tak naprawdę statystycy są trochę jak detektywi. My dostajemy jakieś wskazania w danych i musimy nadać im sens. Na przykład było takie badanie w Szwecji, które wykazało, że na dachach domów, na których żyją bociany, rodzi się więcej dzieci. Tak pokazują dane, a my później musimy to rozwikłać. Co tu zaszło i czy może przez te wszystkie lata jednak te bociany mają coś wspólnego z przyrostem naturalnym? Okazało się, że nie, że po prostu bociany częściej żyją na dachach domów w środowiskach wiejskich, a w środowiskach wiejskich częściej też spotkamy rodziny wielodzietne. I takich przykładów mamy w statystyce mnóstwo. Istnieje też bardzo silna korelacja pomiędzy liczbą sprzedanych lodów, a liczbą utonięć. Znowu nie oznacza to, że za każdym razem jak jemy rożka truskawkowego, to musimy dzwonić po Davida Hasselhoffa, tylko jest i trzecia zmienna, która wyjaśnia tę zależność. I to jest temperatura. Gdy jest ciepło, gdy jest lato, częściej kupujemy lody, częściej też wchodzimy do wody i niestety czasem się topimy. Tak naprawdę statystyka, to jest trochę praca detektywa, niesamowicie satysfakcjonująca i niesamowicie ciekawa.
Ale bardziej Sherlock Holmes czy James bond?
Bardziej ojciec Mateusz, bo jestem psychofanką serialu „Ojciec Mateusz”. Widziałem wszystkie 28 sezonów. Nie wiem dlaczego, ale kocham to.
To statystycznie, ile minut ma ten serial?
40 minut. W sumie mogłabym policzyć ile już lat życia oglądałam ojca Mateusza.
Mamy październik, sezon grzybowy trwa. Jakie statystycznie mamy szanse na to, że znajdziemy grzyby?
Dokładnie nie wiem, bo brakuje mi danych, ile jest grzybów, ile osób jest tam na metr kwadratowy? Ale to też pewnie zależy od godziny, od pory dnia, od miejsca. Jestem przekonana, znając Internet, że gdzieś tam jest mapa, która to wylicza. Gdzie jest największa szansa na borowika.
A później jedziemy i okazuje się, że ktoś był przed nami i wszystko zebrał.
No tak. Czasem można się rozczarować. Ja akurat nie przepadam za grzybobrania ale mój mąż bardzo lubi, więc on jest jednym z tych co poluje na te borowiki.
I tu też można zastosować statystykę, że tylko 50 procent?
Generalnie statystykę można zastosować wszędzie.
A statystyka bywa denerwująca?
Bywa frustrująca, kiedy dostaje jakieś dziwne wskazanie w danych, jakąś zależność. Nie potrafię sobie z tym poradzić. Nie potrafię znaleźć uzasadnienia tego, na co patrzę. Ale z drugiej strony zawsze jest satysfakcja, kiedy się udaje.
Wspomniałaś wcześniej, że statystyka jest intrygująca? Świadczą o tym tytuły Twoich książek „Statystycznie rzecz biorąc, czyli ile trzeba zjeść czekolady, żeby dostać Nobla”. Ktoś to policzył?
Tak. Policzył to i w książce przedstawiam.
Mam szansę?
No właśnie najlepsze jest to, że możesz to sprawdzić, bo w książce przedstawiam dokładne wyliczenia, ile trzeba zjeść tej czekolady, żeby dostać Nobla. Dwa lata po premierze Olga Tokarczuk dostała i teraz można uznać, że to przypadek albo można…
Nie sądzę.
Powiem tylko nie ma za co Polsko. Ale tak, przedstawiam takie wyliczenia, a druga książka ma podtytuł, jak zmierzyć siłę tornada za pomocą gofra. To też przedstawiam. Jeden z przykładów, gdzie właśnie siła tornada w Stanach Zjednoczonych jest mierzona właśnie za pomocą gofra. Tylko dwa z bardzo, bardzo wielu ciekawych przypadków kiedy statystyka ułatwia nam życie i przy okazji tak miło pieści synapsy.
Napisałaś o sobie, że jesteś Stevenem Spielbergiem statystyki. Intrygująco, po raz kolejny.
Trochę gra. Generalnie zawodowo faktycznie uczę ludzi, że ze statystyką można się i należeć się zaprzyjaźnić, opowiadając o niej w Internecie, opowiadając o niej na różnych konferencjach i szkoleniach. I zawsze staram się robić to właśnie tak, żeby słuchając mnie ludzie trzęśli się z ekscytacji, jak nóżki w galarecie. Dlatego tak napisałam, bo mam nadzieję, że faktycznie po tych moich wykładach statystyka jawi nam się jako trochę przyjaźniejsza i bardziej pluszowa. Jeśli ktoś miałby ochotę, to w Internecie są dostępne chociażby dwa moje wykłady TEDx o statystyce jeden ma tytuł podobny do książki, czyli ile trzeba zjeść czekolady, żeby dostać Nobla, a drugi – czy naukowcy są jak żony i nigdy się nie mylą. I tam właśnie przedstawiam więcej takich dziwnych zagadek statystycznych i tego, co czego możemy się z nich nauczyć.
Czyli żony mogą się nie mylić?
Nie będę spojlerowała. Ale tak podjęłam się tego trudnego zadania, by odpowiedzieć na to pytanie.
Żona może się mylić, ale i tak ma rację?
Wiadomo. Jestem żoną od ośmiu lat, więc wiem wszystko na każdy temat, wszystko najlepiej, ale no to już taka rozkosz.
Komentowane 1
Nie zgadzam się absolutnie jak 3/4 Polaków
Lokale wyborcze do 21.00
Skąd dojeżdżające tysiące autokarów z PO do 3 rano
Skąd zmazujące się długopisy
Autokary w okolicach lasu,to w lesie były lokale wyborcze?
W DPD panie z PO ludziom pokazywały nazwiska polityków Tuska do zaznaczenia,bo staruszki dą oderwani od rzeczywistości….?
Widziałam kilkanaście filmików
Sami studenci,których była masa,za obiecane bezpłatne akademiki,masa ćpunów i debili na utrzymaniu rodziców,którzy jak Tusk powtarzał”Odsunąć PiS od władzy
Dlaczego Pani kłamie jak Tusk,że wyniki są nieomylne
Następna z PO razem z koleżankami i kolegami starcie na swoją ojczyznę
Wstyd!!!!!!