Miten paljon big data muuttaa talousennustajan työtä?

Labore-blogit Ilkka Kiema

Käsitteellä big data viitataan suuriin tietojoukkoihin, joiden luomisen ja käsittelyn tietokoneet ovat mahdollistaneet. Ilmeisimpiä esimerkkejä ekonomistin kannalta relevantista big datasta ovat pankkien ja suurten kauppaketjujen asiakkaittensa maksutapahtumista keräämät tiedot, mutta myös tekstiaineistot ja internetin käytön ”sivutuotteena” syntyvät, taloustoimiin suoraan liittymättömät aineistot voivat olla hyödyllisiä ekonomisteille.

Perinteisten ekonometristen menetelmien soveltaminen big data -aineistoihin on haasteellista osin datan valtaisan määrän takia ja osin muista syistä. Kuten Googlen pääekonomisti Hal Varian kiteyttää, ”kun havaintoja on miljardi mikä tahansa on merkityksellistä”: tavanomaiset nollahypoteesin falsifiointiin pyrkivät tilastolliset testit lakkaavat olemasta mielenkiintoisia erittäin suurissa otoksissa, jos niitä käytettäessä nollahypoteesit falsifioituvat miltei aina. Internetin datamassoilla on usein myös vähemmän rakennetta (tai monimutkaisempi rakenne) kuin tavanomaiset ekonometriset menetelmät edellyttäisivät: esimerkiksi yrityksen hallussa olevat asiakasta koskevat olennaiset tiedot voivat sisältää ostotapahtumatietojen lisäksi tietoja suuresta joukosta sekalaisia klikkauksia. Lisäksi tavallisimpien tilastollisten menetelmien käyttö edellyttää, että otos on valittu populaatiosta satunnaisesti, eikä esimerkiksi koostu samaan sosiaaliseen verkostoon kuuluvista henkilöistä.

Ekonomistien käyttämät big datan hyödyntämisen tavat ovatkin vielä usein varsin yksinkertaisia. Esimerkiksi Google trends –työkalua voidaan käyttää annettua aihetta koskevien Google-hakujen vaihtelua arvioitaessa. Hakuja koskevat tiedot soveltuvat ”nykyhetken ennustamiseen” (nowcasting): jos esimerkiksi jonkin tuotemerkin myyntiä koskevat tiedot julkistetaan viiveellä mutta tuotteen mainitsevien Google-hakujen määrä saadaan tietää päivittäin, Google-hakujen määrää voidaan hyödyntää merkin tämänhetkistä myyntiä arvioitaessa.

Suomessa Googlen julkistamia tietoja hyödyntää ETLAnow –projekti, joka tuottaa Google-hakumäärien perusteella Euroopan maiden työllisyystilannetta koskevan, kolmeksi kuukaudeksi tulevaisuuteen ulottuvan ja päivittäin päivittyvän ennusteen.

Myös internetin tekstimuotoiset tietomassat voivat olla hyödyllisiä nykyhetken ”ennustajalle”. Esimerkiksi yritysten ja tuotteiden nimiin sovellettu sävyanalyysi [sentiment analysis] tuottaa arvioita yksittäisen sanojen isoissa tekstimassoissa saamien mainintojen keskimääräisistä tunnelatauksista. Jos tarkasteltu sana on tuotteen nimi, sävyanalyysilla mitattujen tunnelatausten voidaan olettaa korreloivan tuotteen myynnin kanssa.

Matemaattiselta kannalta sävyanalyysi ei ole useinkaan Google-hakujen ynnäämistä haastavampi tehtävä. Esimerkiksi suosittu SentiStrength-ohjelma perustuu tavallisimmille (muille kuin analyysin kohteena oleville) sanoille annettuun pisteytykseen, joka ilmentää sanoihin liittyviä positiivisia ja negatiivisia tunnelatauksia. (Pisteytyksessä esimerkiksi ”love” saa pistemäärän +3 ja ”hate” saa pistemäärän -4). Ohjelma arvioi, kuinka usein analysoitava sana esiintyy myönteisiä ja kuinka usein kielteisiä tunteita ilmentävässä kontekstissa analysoidun tekstin sisällä.

Internetin sisältämien data- ja tekstimassojen matemaattisesti haastavampia hyödyntämisen tapoja on kehitelty ekonometrian sijasta tiedonlouhinnan [data mining], tietämyksen muodostamisen [knowledge discovery] ja koneoppimisen [machine learning] toisiinsa läheisesti liittyville aloilla, joita vain harvat ekonomistit tuntevat. Toisin kuin tavanomaisten ekonometristen menetelmien käyttäjä, ”tiedonlouhija” tai koneoppimisen hyödyntäjä ei aina lähesty dataa täsmällinen, testattavissa oleva hypoteesi mielessään, vaan saattaa myös jättää tietokoneen tehtäväksi selvittää, millaisia yhteyksiä datan osien väliltä löytyy.

Koska datatieteilijöiden uusissa menetelmissä tulosten tilastollisella merkittävyydellä ei ole lainkaan samaa painoarvoa kuin ekonometriassa, niiden tulosten arviointi on vaikeampaa kuin ekonometristen tulosten. Uudet menetelmät tuovat mukanaan myös uusia eettisiä ongelmia. Jos esimerkiksi pankin asiakkaan luottokelpoisuutta arvioidaan malleilla joita mallien käyttäjät eivät itse kunnolla ymmärrä, arviot saattavat sisältää käyttäjiltä piiloon jäävää diskriminaatiota.

Big data -menetelmiä yhdysvaltalaisessa julkisuudessa paljon kritisoinut datatieteilijä Cathy O’Neil havainnollistaa diskriminaation ongelmia toteamalla, että kaikki hänen opiskelijansa kokevat rodun käyttämisen asiakkaan luottokelpoisuuden arviointikriteerinä epäreiluksi, mutta useimmat pitävät silti postinumeron käyttämistä hyväksyttävänä. Opiskelijoilta jää huomaamatta, että kriteerit tuottavat suunnilleen samat tulokset silloin kun lainanhakijoiden etniset taustat ja postinumerot korreloivat voimakkaasti keskenään.

Entä miten paljon datatieteilijöiden keksimät uudet menetelmät muuttavat talousennustajan työtä, sitten kun ekonomistitkin ovat oppineet niitä käyttämään? Oma ennustamisen tulevaisuutta koskeva ennusteeni on, että muutokset voivat olla hyvin dramaattisia paitsi ennustamisen myös koko makrotaloustieteen kannalta, mutta dramaattiset muutokset ovat tuskin kovin nopeita.

Kuten Sirin ja Cortanan kaltaiset puhelinsovellukset osoittavat, älylaitteet pystyvät jäljittelemään myös toimintoja, jotka vaativat suurempaa älykkyyttä kuin Google-hauissa esiintyvien sanojen laskenta. Kun älykkäämmät automatisoidun tekstin analyysin tavat yhdistetään tietokoneiden kykyyn lukea valtaisia, ihmisen luettaviksi toivottoman suuria aineistoja, tavallisten kuluttajien taloudellisille päätöksille ja niiden perusteluille voidaan ehkä löytää realistisempia malleja kuin mitä nykyisten makromallien edustava, keskimääräinen ja hyötyfunktiotaan järkevästi maksimoiva kotitalous on.

Mikään ei kuitenkaan viittaa siihen, että datatieteilijöiden uudet menetelmät saisivat makroteorian perusteisiin asti ulottuvia sovelluksia nopeasti. Tällä hetkellä big data -menetelmät ovat makroekonomistin ja myös talousennustajan työkalupakissa vain hyödyllinen täydennys. Työllisyyden ennustamisen lisäksi yksi niiden ilmeisistä sovelluksista on kuluttajaluottamuksen arviointi. Myös nykyisillä primitiivisenoloisilla työkaluilla suoritettu nettikeskustelujen analyysi voisi tarjota arvokkaan täydennyksen haastattelututkimuksiin perustuvan kuluttajabarometrin tarjoamiin kuluttajien luottamusta ja talousnäkemyksiä koskeviin tietoihin.