Osaako algoritmi ennakoida yrityksen nopean kasvun?

T&Y 1/2023 Artikkeli Ari Hyytinen, Mika Pajarinen, Petri Rouvinen, Joosua Virtanen

Pääomasijoittajien valikoimista yrityksistä enemmistö osoittautuu hudeiksi. Tuotoista valtaosan tuovat muutamat todella onnistuneet sijoitukset. Ohjattujen koneoppimismenetelmien avulla ennustetuista kasvuyrityksistä lähes puolet osoittautuu kasvavan nopeasti vielä kolmen vuoden kuluttuakin.

Osaako algoritmi ennakoida yrityksen nopean kasvun?
Kuva: Hans Eiskonen

Nuoriin yrityksiin sijoituksia tekevät pääomasijoittajat käyvät yleensä läpi kymmeniä, elleivät peräti satoja mahdollisia kohteita kutakin tekemäänsä sijoitusta kohden. Tutkimuksissa on havaittu, että tiukasta valikoinnista ja karsinnasta huolimatta parhaidenkin pääomasijoittajien valinnat ovat usein – sijoitustoiminnan tuottotavoitteen kannalta arvioituna – lähes huteja, jolloin pääomasijoitusrahaston tuotosta pääosa muodostuu muutamista todella onnistuneista sijoituksista.

Pääomasijoittaja ei pääse helpolla sijoituskohteita valitessaan. Valintaan on käytettävissä vain rajallisesti aikaa ja rahaa, mutta silti valituksi tulevien yritysten pitäisi olla mahdollisimman laadukkaita ja tarjota mahdollisimman hyvät tuotto-odotukset. Pienilläkin valintaprosessin tehokkuusparannuksilla voi olla sijoittajille suuri taloudellinen merkitys. Tällaisilla edistysaskeleilla voi olla myös kansantaloudellista merkitystä, koska pääomasijoituksia saavien yritysten katsotaan usein olevan merkittävä muutosvoima ja vaikuttavan talouden uusiutumiskykyyn.

Pääomasijoittajan haaste kohdeyritysten valintaprosessissa on samanlainen kuin monissa muissa tilanteissa, joissa on ensin tarve poimia suurehkosta joukosta muutamia kohteita ja joissa kiinnostuksen kohteena on valittujen kohteiden menestys. Näin on käytännössä kaikessa oman ja vieraan pääoman ehtoisessa rahoituksessa, joskin toisinaan paino on jakauman toisessa päässä eli pikemminkin negatiivisten lopputulemien, kuten konkurssien, välttämisessä.

Tilanne on vastaava myös teknologiakiihdyttämöissä tai yrityspuistoissa, joilla on käytössään rajalliset tilat ja joiden menestystä arvioidaan ainakin osin niiden tiloissa toimivien yritysten kehityksen perusteella. Elinkeinopolitiikassa tilanne on käsillä esimerkiksi Business Finlandin Nuoret innovatiiviset yritykset -rahoituksessa, jonka tarkoituksena on yhtäältä tunnistaa etukäteen suurimman liiketoimintapotentiaalin omaavia alle viisivuotiaita yrityksiä ja toisaalta kiihdyttää niiden kasvua.1 Näistä ensimmäinen on ennusteongelma ja jälkimmäinen syy–seuraus-kysymys.

Tässä artikkelissa lähestymme sijoituskohteiden valintahaastetta pääomasijoittajan näkökulmasta. Arvioimme, kuinka tarkasti yritysten nopeaa liikevaihdon kasvua voidaan ennustaa. Vaikka tämä on vain yksi käytetyistä valintakriteereistä, se on usein välttämätön ehto sijoitukselle: ellei nopeaa kasvua ja siihen liittyvää skaalautuvuutta ole ennakoitavissa, yritys ei ole pääomasijoittajalle kiinnostava.

Kirjoitus perustuu pitkälti artikkeliimme Ex Ante Predictability of Rapid Growth: A Design Science Approach, jossa tutkitaan yritysten nopean kasvun ennustettavuutta ohjattujen koneoppimismenetelmien avulla suomalaisella aineistolla vuosilta 2005–2018. Tutkimus julkaistiin hiljattain Entrepreneurship Theory and Practice -julkaisussa.2

Apua koneoppimisesta

Tekoälyä, tai tarkemmin sanottuna ohjattua koneoppimista, tarjotaan ratkaisuksi milloin mihinkin haasteeseen. Ohjattu koneoppiminen on kokoelma tilastollisia algoritmeja, jotka ”oppivat” ohjatusti tilastoaineistosta hyviä ennustussääntöjä mielenkiinnon kohteena olevalle lopputulemalle. Tällä logiikalla toimivat algoritmit suodattavat esimerkiksi roskapostit oikeiden sähköpostien seasta tai tunnistavat auton rekisterinumeron, kun se ajaa pysäköintihalliin.

Kun koneoppimista käytetään esimerkiksi päätöksenteon tukena, kyse on usein siis tietokoneavusteisesti tuotetuista (tilastollisista) ennusteista ja niiden hyödyntämisestä.

Käytännössä koneoppimisen lupaavimmat sovelluskohteet ovat edelleen melko rajattuja. Toteutettavat ratkaisut edellyttävät paljon aineisto- ja mallinnustyötä jopa tilanteissa, joissa historiallisiin vuorovaikutussuhteisiin perustuvista tietokoneavusteisista tilastollisista ennusteista – mistä useimmissa koneoppimisen sovelluksissa on käytännössä kyse – on merkittävää apua. Ilmeisiä ja valtavia mahdollisuuksia on esimerkiksi sairauksien ennakoinnissa ja optimaalisten hoitopolkujen määrittelyssä. Ihmisten ja organisaatioiden käyttäytymistä sivuavissa sovelluksissa haasteina ovat toisinaan havaitsemattomat seikat, kuten valintoihin ja suoriutumiseen vaikuttavat päätöksentekijöiden luonteenpiirteet. Tällainen havaitsematon, aineistosta puuttuva tekijä voi johtaa siihen, että aineistolla opetettu koneoppimisalgoritmi onnistuu ennustamaan valintoja tai suoriutumista vain melko epätarkasti.

Laajasta aihetta sivuavasta akateemisesta kirjallisuudesta kumpuava näkemys on, että tilastollisessa mielessä yrityksien tuleva kasvu on lähes satunnaista.

Yrityksen tulevan kasvun ennustaminen tuntuu ilmeiseltä ja helpoltakin koneoppimissovellukselta. Näin ei kuitenkaan ole. Laajasta aihetta sivuavasta akateemisesta kirjallisuudesta kumpuava näkemys on, että tilastollisessa mielessä yrityksien tuleva kasvu on lähes satunnaista, eikä se siten ole kovin hyvin ennustettavissa.

Artikkelimme lähtökohta on käytännön päätöksentekotilanteen vaatimukset ja päätöksenteon tukeminen koneoppimisen avulla. Vaikka aiemmissa tutkimuksissa on sovellettu koneoppimista yrityksen kasvun ennustamiseen, niissä ei ole tyypillisesti huomioitu päätöksentekijän rajallisia voimavaroja (aikaa ja rahaa) tai sitä, että mielenkiinto kohdistuu vain muutamiin parhaisiin kohdeyrityksiin (erotuksena nopean kasvun ennustettavuudesta keskimäärin).

Kuva: Hans EiskonenAiemmissa tutkimuksissa ei myöskään ole yleensä otettu niin sanottua reaaliaikaisen ennustamisen haastetta vakavasti. Tämä tarkoittaa sitä, että tutkimuksissa ennusteiden muodostamiseen on käytetty tilastoaineistoa, jota todellisessa tilanteessa ei olisi päätöksentekijän käytettävissä. Lisäksi mielenkiinto aiemmissa tutkimuksissa on ollut tilastollisissa virheissä, vaikka sijoitus on selvästi kyllä/ei-päätös, eikä sijoittaja ole kiinnostunut kasvun ennustettavuudesta keskimäärin. Niinpä me painotamme tutkimuksessamme päätöksentekovirheitä ja mittaamme niitä uudella tavalla.

Menetelmämme ennustaa yritysten nopeaa kasvua (tai tarkasti ottaen kasvuyritysten ryhmään kuulumista) ja tuottaa tätä tietoa päätöksentekoa varten. Tarkastelemme kahta tilannetta.

Voimme ensinnäkin ajatella, että koneoppimismenetelmän tuottamat ennusteet korvaavat ihmisen arvion. Tässä tilanteessa inhimillinen arvio ja teknologia ovat toisiaan korvaavia eli substituutteja. Toisaalta voimme arvioida ihmisen ja koneen yhdessä tekemiä ratkaisuja. Tässä tilanteessa inhimillinen arvio ja teknologia ovat toisiaan täydentäviä eli komplementteja.

Käytännössä menetelmämme toimii siten, että ennustamme ensin OECD-määritelmän mukaista liikevaihdon kasvuun perustuvaa kasvuyritysstatusta kolme vuotta eteenpäin. Käytämme tähän tilastotietoa, joka yrityksistä on käytettävissä ennustehetkellä. Ennusteet tuotetaan niin kutsutulla Random forest -menetelmällä, joka on yksi usein käytetyistä koneoppimisalgoritmeista. Aikaisemmista sovelluksista poiketen otamme tähän mallinnukseen mukaan päätöksentekijän budjettirajoitteen. Se tarkoittaa sitä, että menetelmä keskittyy valitsemaan vain pientä ja parhaiten ennustettavissa olevaa osaa kaikista aineistossa olevista yrityksistä. Tämän jälkeen analysoimme joko puhtaasti algoritmin tai algoritmin ja ihmisen tekemien ennusteiden osumatarkkuutta ”toteutunutta tulevaisuutta” koskevan aineiston avulla. Toteutuneella tulevaisuudella viitataan tässä aineistoon, jota ei olisi ollut ennusteiden laatimishetkellä päätöksentekijän käytettävissä, kuten tietoa kasvuyritysten liikevaihdon kehittymisestä ennustehetken jälkeen.

Lopputuloksena saamme lukuja siitä, kuinka tarkasti nämä menettelytavat ovat onnistuneet tunnistamaan kasvuyrityksiä. Mittarina tässä tarkastelussa on oikein tunnistettujen kasvuyritysten osuus kaikkien niiden yritysten joukossa, joiden menetelmä ennusti olevan kasvuyrityksiä. Tämä ennustetarkkuutta kuvaava mittari tunnetaan kirjallisuudessa positiivinen ennustearvo eli positive predictive value (PPV) -mittarina.

Algoritmi toimii siellä, missä sillä on merkitystä

Kuviossa 1 koneoppimisalgoritmi tunnistaa kasvuyrityksen yksinään; kuviossa 2 algoritmi ja ihminen toimivat yhteistyössä.3 Vaaka-akselin prosentit viittaavat budjettirajoitteeseen eli siihen, mikä osuus potentiaalisista kasvuyrityksistä voidaan budjettirajoitteen puitteissa ”poimia kohdeyritysportfolioon”.

Koneoppimismallin ennustetarkkuus

Kuvio 1. Koneoppimismalli tunnistaa kasvuyrityksen yksinään

Kuvio 1. Koneoppimismalli tunnistaa kasvuyrityksen yksinään

Vasemmassa reunassa olevan palkin alla oleva ­”1 %” tarkoittaa sitä, että tuhannesta potentiaalisesta kohdeyrityksestä valitaan algoritmin tuottamien ennusteiden valossa kymmenen lupaavinta. Pystyakselin arvot kertovat, mikä osuus yrityksistä on lopulta nopeakasvuisia. Oikeassa reunassa oleva vaaleanruskea palkki (Pr[HGE=1) kertoo, miten suuri osuus yrityksistä osoittautuu nopeakasvuisiksi, jos ne valikoitaisiin mukaan satunnaisesti.

Lähde: Hyytinen, Rouvinen, Pajarinen ja Virtanen; Ex Ante Predictability of Rapid Growth: A Design Science Approach; Entrepreneurship Theory and Practice; tulossa; julkaistu verkossa 6.11.2022.

Kuvio 2. Koneoppimismalli ja pääomasijoittaja toimivat yhdessä

Kuvio 2. Koneoppimismalli ja pääomasijoittaja toimivat yhdessä

Tässä asetelmassa sijoitusprosessi toteutetaan kahdessa vaiheessa: kone karsii ensin vaihtoehdot, joiden pohjalta kuvitteellinen pääomasijoittaja tekee lopulliset sijoituspäätökset. Jos tuhannesta potentiaalisesta kasvuyrityksestä valitaan kymmenen lupaavinta (vasemmassa reunassa oleva palkki ”1 %”), ennustetarkkuus nousee liki 45 prosenttiin. Oikeassa reunassa oleva vaaleanruskea palkki (Pr[HGE=1) kertoo, miten suuri osuus yrityksistä osoittautuu nopeakasvuisiksi, jos ne valikoitaisiin mukaan satunnaisesti.

Lähde: Hyytinen, Rouvinen, Pajarinen ja Virtanen; Ex Ante Predictability of Rapid Growth: A Design Science Approach; Entrepreneurship Theory and Practice; tulossa; julkaistu verkossa 6.11.2022.

Esimerkiksi kuvioiden vasemmassa reunassa olevan palkin alla oleva ”1 %” tarkoittaa sitä, että tuhannesta potentiaalisesta kohdeyrityksestä valitaan algoritmin tuottamien ennusteiden valossa kymmenen lupaavinta. Pystyakselin arvot kertovat, mikä osuus yrityksistä osoittautuu lopulta nopeakasvuisiksi. Kuvioiden oikeassa laidassa on vertailupiste (Pr[HGE = 1]). Tämän vaaleanruskean palkin korkeus kertoo, kuinka suuri osuus yrityksistä on kasvuyrityksiä, mikäli ne valitaan mukaan satunnaisesti. Tässä tapauksessa kasvuyrityksien osuus olisi 9,3 prosenttia.

Koneoppiminen tunnistaa kasvuyrityksiä etukäteen hyvin – erityisesti tilanteissa, joissa budjettirajoite on tiukka.

Havaitsemme, että koneoppiminen tunnistaa kasvuyrityksiä etukäteen hyvin – erityisesti tilanteissa, joissa budjettirajoite on tiukka. Parhaimmillaan ennustetarkkuus on 38,6 prosenttia, kun päätöksentekijän budjetti riittää 1 prosenttiin potentiaalisista sijoituskohteista (kuviossa 1). Ylipäätään koneoppiminen suoriutuu erityisen hyvin siellä, missä sillä on käytännössä merkitystä, eli ennustettujen kasvuyritysten todennäköisyyksien jakauman yläpäässä.

Jos sijoitusprosessi toteutetaan kaksivaiheisena siten, että hypoteettinen pääomasijoittaja tekee lopullisen valinnan koneen karsimista vaihtoehdoista, tulokset ovat vielä parempia (kuviossa 2). Esimerkiksi 1 prosentin budjetilla ennustetarkkuus on 44,7 prosenttia. Vaikka näitä lukuja ei pidä ottaa liian kirjaimellisesti, tarkoittaa esimerkiksi tämä jälkimmäinen prosenttiluku sitä, että lähes puolet kolme vuotta etukäteen kasvuyrityksiksi tunnistetuista yrityksistä osoittautuu lopulta oikeasti kasvuyrityksiksi.

Sijoittajat hyödyntävät koneoppimista jo nyt

Vaikka koneoppimismenetelmillä on aiemman kirjallisuuden perusteella ongelmansa kasvun ennustamisessa yleensä, ne toimivat varsin hyvin siellä, missä ennustamisella on merkitystä käytännössä eli kasvujakauman ylimmässä hännässä. Onnistumme ennustamaan varsin hyvin ne muutamat yritykset, jotka kaikkein todennäköisimmin kasvavat nopeasti.

Henkilö- tai yritysrahoituksessa koneoppimismenetelmät ovat jo korvanneet inhimillistä päätöksentekoa.

Käytännössä suuret institutionaaliset sijoittajat ja monet rahoitussektorin toimijat hyödyntävät jo nyt koneoppimismenetelmiä tehdessään erilaisia rahoitus- ja sijoituspäätöksiä. Esimerkiksi yhdysvaltalainen pääomasijoitusyhtiö Google Ventures käyttää koneoppimista pääomasijoituspäätöksiä tehdessään, mutta oletettavaa on, että lopullisen sijoituspäätöksen tekee ihminen. Henkilö- tai yritysrahoituksessa koneoppimismenetelmät ovat jo korvanneet inhimillistä päätöksentekoa: näin on missä tahansa heti hyväksyttävässä lainoituksessa, kuten pikavipeissä, joissakin asuntoluotoissa, kulutusluotoissa tai verkkokauppaostoksen toimituksessa laskulla. Globaalisti laajin koneoppimissovellus tältä osin lienee käytössä Kiinassa verkkokaupasta monialaiseksi teknologiajätiksi kasvaneella Alibaballa.

Menetelmämme on yksinkertainen, mutta on ajateltavissa, että sitä voisi soveltaa vaikkapa hiljattain kansainvälisessä pääomasijoittamisessa yleistyneen ”ruiskuta ja rukoile” (spray & pray) -sijoitusstrategian tukena. Tässä sijoitusstrategiassa tehdään aluksi sarja pieniä sijoituksia melko suureen määrään yrityksiä, ja keskitytään myöhemmillä kierroksilla niihin, jotka ovat aiemmilla kierroksilla osoittaneet hyvää kasvupotentiaalia. Menetelmämme voisi auttaa tunnistamaan niitä yrityksiä, johon tätä strategiaa voisi soveltaa.

Vaikka algoritmipainotteista kehitystä hidastaviakin voimia ja syitä on, kasvuyritysrahoituksen tulevaisuus näyttää yhä enemmän olevan kytköksissä koneoppimismenetelmien kehitykseen.

ARI HYYTINEN

Ari Hyytinen

Ari Hyytinen on kauppatieteiden tohtori ja työskentelee taloustieteen professorina Hankenilla ja Helsinki GSE:ssä. Hän toimii parhaillaan vierailevana professorina Bolognan yliopistossa Italiassa. Hyytinen on erikoistunut toimialan taloustieteeseen ja tekee soveltavaa mikro­ekonometrista tutkimusta.

MIKA PAJARINEN

Mika Pajarinen

Mika Pajarinen työskentelee yritys- ja toimialatutkijana Elinkeinoelämän tutkimuslaitoksessa sekä sen projektitutkimus- ja tietopalveluyksikössä Etlatieto Oy:ssä. Hänen tutkimusaiheensa ovat liittyneet mm. yritysten innovaatiotoimintaan, kilpailukykyyn, kansainvälistymiseen, digitalisaatioon ja yrittäjyyteen.

PETRI ROUVINEN

Petri Rouvinen

Petri Rouvinen on kauppatieteen tohtori. Vielä alkuvuonna 2023 hän toimii VTT:n työelämäprofessorina ja sitten Etlan tutkimusneuvonantajana. Hän tekee soveltavaa yritys- ja toimialatutkimusta sivuten elinkeino- ja yhteiskuntapoliittisia kysymyksiä.

JOOSUA VIRTANEN

Joosua Virtanen

Joosua Virtanen on taloustieteen väitöskirjatutkija Hankenilla ja Helsinki GSE:ssä. Hän tekee empiiristä tutkimusta mm. yrityksien kasvusta ja julkisista hankinnoista. Virtasen erikoisosaamista ovat koneoppimissovellukset.