Oliver Saal
@osaal.bsky.social
23 followers 42 following 55 posts
Senior Specialist @ Ministry of the Interior, Finland | Passionate about quant methods, open science, and scientific reproducibility | 🇫🇮🇸🇪🇬🇧 | osaal.dev
Posts Media Videos Starter Packs
osaal.bsky.social
Bro trust me, just one more number and I'll be in control, just one more quantification bro
osaal.bsky.social
Jos haluaa tietää lisää tästä aiheesta, avainsana on NHST, eli null hypothesia significance testing (nollahypoteesimerkitsevyystestaus).

Summa summarum: VM ei tarkoita mitä luullaan eikä kerro mitä halutaan. Todellinen tilastotiede ei käytä VM:ää testatakseen eroja 14/14

Seuraavaksi pari linkkiä!
osaal.bsky.social
Käytimmekö VM:ää? Ei ollenkaan! Käytimme vain aineistossa esiintyvien vastausten määriä.

Jos kävisikin niin, että p-arvo on suuri (suurempi tod.näk.), niin emme voisi hylätä hypoteesia. Toisin sanoen, *voi* olla niin, että kannatukset ovat samat - emme pysty osoittamaan toisin. 13/14
osaal.bsky.social
(Tätä kutsutaan khii neliö-testiksi, jos kiinnostaa tarkemmin!)

Laskemme suht monimutkaisen testin, jonka vastaukseksi saamme ns. p-arvon, eli todennäköisyysarvon väliltä 0-1 (mahdoton - taattu)

Jos p-arvo on hyvin matala (erittäin pieni tod.näk.) hylkäämme hypoteesin (ei luultavasti oikein) 12/14
osaal.bsky.social
Asetetaan hyp., että Y:n todellinen arvo on sama kuin X:llä (4,5 %). Voimme rakentaa nelikentän: Kuinka moni vastasi Y vs. ei Y, kuinka moni vastasi X vs. ei X?

Jos hyp. on oikeassa, Y- ja X-vastausten määrä tulisi olla sama. Mitä isompi ero, sitä pienemmällä tod.näk. ovat oikeasti samoja 11/14
osaal.bsky.social
Auttaako VM? Ei oikeastaan. VM on pitkän aikavälin mitta: 95 % VM:stä sisältää todellisen arvon äärettömässä määrässä samanaikaisia otoksia.

Miten sitten arvioidaan, onko kyseessä virhemittaus? Muistetaan tilastotieteen määritelmä: aineiston tod.näk. huomioiden hypoteesin 10/14
osaal.bsky.social
Sanotaan seuraavaksi, että näemme seuraavat arvot: Puolue X 4,5 %, Puolue Y 5,7 %, molemmilla VM +- 2,7 %-yksikköä.

Ensimmäinen tulkinta: Y:llä kannatus on suurempaa kuin X:llä!
Mutta, mitä jos Y:n kannatus onkin virhemittaus ja oikeasti on paljon matalampi?

Tarvitaan siis jonkinlainen testi! 9/14
osaal.bsky.social
Epäkorrekti: Samat arvot kuin yllä. Mikä on todennäköisyys, että todellisen ja mitatun arvon erotus on nolla, ottaen huomioon mitatut arvot? (= hypoteesin tod.näk.)

Epäkorrekti tulkinta on lähempänä arjen ajattelua, mutta edustaa todellisuudessa erityistä (bayesilaista) tilastotiedettä! 8/14
osaal.bsky.social
Korrekti: Sanotaan, että puolueen X kannatus on todellisuudessa 5 %, ja mittauksessamme 4,5 % +- 2,1 %. Mikä on todennäköisyys, että saamme nämä mitat, jos oikeasti on niin, että todellisen ja mitatun arvon erotus on nolla, eli ovat samoja? (= aineiston tod.näk.) 7/14
osaal.bsky.social
Korrekti tulkinta on abstraktimmalla tasolla aineiston todennäköisyys, ottaen huomioon hypoteesin. Aineisto = laskettu arvo ja VM, hypoteesi = oletus, että laskettu arvo on sama, kuin todellinen arvo

Yleinen väärinkäsitys edustaa kuitenkin hypoteesin todennäköisyyttä, ottaen huomioon aineiston 6/14
osaal.bsky.social
Toinen osio VM:n määritelmästä: se koskettaa todennäköisyyttä olla todellisen arvon sisältävä, ei todennäköisyyttä sisältää todellista arvoa. Kuulostaa pilkunviilaukselta, mutta tämä on perinpohjainen piirre ns. taajuustilastotieteessä (frequentist statistics), mitä VM edustaa. 5/14
osaal.bsky.social
Ongelmana kuitenkin on, että VM vaatisi muuten täydellisen samanlaiset otokset toimiakseen toistotutkimuksissa. Koska puoluekannatus vaihtelee ajan myötä, todellisessa tilanteessa eri aikoina toteutettuja VM:iä ei voida aggregoida järkevästi. 4/14
osaal.bsky.social
VM edustaa teoreettista pitkän aikavälin todennäköisyyttä - ei yksittäisen otoksen todennäköisyyttä. Tiukassa tulkinnassa VM ei siis oikeasti kerro yhtään mitään yksittäisestä tuloksesta! Sen todellinen hyöty on toistotutkimuksissa, joissa kaikki VM:t voidaan koota yhteen. 3/14
osaal.bsky.social
Virhemarginaali on luottamusvälin versio prosenttiluvuille. VM tulee tulkita niin, että äärettömässä määrässä samanaikaisissa otoksissa 95 % virhemarginaaleista sisältäisi todellisen arvon.

Hieman tekninen määritelmä, niin puretaan osiin! 2/14
osaal.bsky.social
yle.fi/a/74-20178647

Yle on uusinut tiedonsa puoluekannatusmittausten toteuttamisesta - hyvä juttu!
Virhemarginaalin määritelmä on vieläkin harhaanjohtava - huonompi juttu... 1/14
Näin Ylen puoluekannatusmittaus syntyy
Yle seuraa kuukausittain puolueiden kannatusta. Tässä jutussa kerromme, miten kysely toteutetaan ja tulokset saadaan.
yle.fi
osaal.bsky.social
Nyt palvelutarvearviointia, sisältäen suuria datamassoja, rekisterianalyysejä, paikkatietoa ja tilastollisia ennustemalleja. Alalla voi tutkia vähän mitä vain! 2/2
osaal.bsky.social
Enpä ole aikaisemmin osallistunut, joten #minätutkin pelastusalaa määrällisin menetelmin! Aikaisempia projekteja olleet suomalaisten pelastusasenteet, omatoiminen varautuminen ja riskiasenteet; sekä epäasiallinen kohtelu ja väkivalta pelastusalalla (tästä PhD meneillään!). 1/2
osaal.bsky.social
Finally, a real student pub: first time I've seen R package stickers in toilets
A hexagonal sticker surrounded by graffiti. The sticker says "mia", with the web address "microbiome.github.io" in small font. The yellow sticker shows small microbes.
osaal.bsky.social
For the first time ever, today I actually finished a programming project (QGIS plugin w/ Python and Qt) - and it's even for use at work! Time to celebrate methinks 🥳 (Just don't look at my Github graveyard...)
osaal.bsky.social
Somewhere, Baudrillard is having a fit
osaal.bsky.social
Sadly, it's a great place (and despite the name, not actually libertarian - we Finns just don't know what we're referencing)
Reposted by Oliver Saal