REFERENSSI
TEKOÄLY ANALYSOI ASIAKASKYSELYN AVOIMIA TEKSTIVASTAUKSIA
Tekoäly analysoi asiakaskyselyn avoimia tekstivastauksia
Useissa asiakastyytyväisyyskyselyissä kysytään numeerisia arvosteluja ja annetaan mahdollisuus perustella vastauksia avoimissa tekstikentissä. Kun vastauksia oli kertynyt asiakkaalle yli 10 000, volyymi vaati koneellista käsittelyä. Knowit rakensi vastausten analysointiin tekoälytyökalun, joka mahdollistaa jatkossa vastausten nopean analysoinnin ja epäkohtiin puuttumisen.
Knowit pääsi rakentamaan tekoälyratkaisun asiakkaansa asiakastyytyväisyyskyselyn analysointiin. Kyselyn kysymykset oli muodostettu sekä Likert-asteikolla että avoimilla tekstikenttäkommenteilla. Erityisesti haluttiin analysoida tekstikommentteja ja etsiä niistä syitä sille, miksi tietyn palvelun asiakasryhmä on toista tyytymättömämpi.
Analysoitavia vastauksia oli kertynyt jo yli 10 000, joten manuaalisesti sen läpikäyminen ei ollut enää mahdollista, vaikka sitäkin oli yritetty ja joitain löydöksiäkin saatu. Tekstidatan manuaalinen analysointi on kuitenkin erittäin aikaa vievää ja myös altista inhimillisille virheille. Lisäksi vastaava kysely toistetaan vuosittain. Siksi ratkaisu haluttiin rakentaa kerralla sellaiseksi, että se palvelee myös tulevien kyselyiden kohdalla ja säästää jatkossa merkittävästi henkilötyötunteja
"Vastausten tulkinnan lisäksi data-analyysi auttaa jatkossa muotoilemaan kysymyksiä parhaalla mahdollisella tavalla, ja ennen kaikkea kysymään juuri oikeita asioita."
NLP-teknologian avulla pyrittiin etsimään toistuvia tekijöitä
Analyysissa haluttiin tutkia, löytyykö avoimista tekstikentistä selityksiä heikommille numeroarvosanoille. Tekoälyn avulla pyrittiin vastaamaan esimerkiksi seuraavanlaisiin kysymyksiin:
- Kokoa viimeisestä kysymyksestä (Muut terveisesi) kymmenen useimmin mainittua tai käyttäjien mielestä merkittävintä tekijää.
- Mitkä tekstimuotoisissa vapaissa kommenteissa mainitut tekijät vaikuttavat hyvien (>3) arvosanojen muodostumiseen?
- Mitkä tekstimuotoisissa vapaissa kommenteissa mainitut tekijät vaikuttavat negatiivisten (<3) arvosanojen muodostumiseen?
Ensimmäisen kysymyksen tutkimiseksi muodostettiin baseline perinteisellä ngram-menetelmällä, jonka avulla haluttiin tietää, onko tekstikentässä ensinnäkään merkittäviä tekijöitä. Tekstissä todettiin esiintyvän mm. yleisiä sanapareja, joten teksti oli mahdollista jakaa aihealueisiin. Jakoon valittiin neuroverkkoihin perustuva FinBERT, joka on mallinnettu käyttäen suomenkielisiä tekstejä. Sen avulla kukin teksti voidaan projisoida noin 700-ulotteiseen avaruuteen, jolloin samankaltaiset aiheet voitiin ryhmitellä käyttäen perinteisiä luokittelumenetelmiä.
Koska tekstissä esiintyi suomenkielen lisäksi myös ruotsin- että englanninkieleisiä kommentteja, kokeiltiin myös vastaavaa monikielistä LaBSE-menetelmää. Asiakkaan kanssa pohdittiin, montako aihealuetta haluttiin tarkasteltavaksi.
"Suomen kieli on agglutinatiivinen kieli, eli sanarunkoon voidaan lisätä runsaasti erimuotoisia osia. Tämän vuoksi ideaalisten mallien opettamiseen tarvittaisiin hypoteettisesti kaikkia sanamuotoja kaikissa eri aiheyhteyksissä esiintyviä tekstejä. Koska opettamiseen käytetty aineisto on aina rajallinen, mallien suorituskyky on myöskin rajallinen", kertoo projektissa data scientistina toiminut Knowitin Petri Puustinen.
LaBSE-menetelmällä saatiin kuitenkin riittävän hyviä aihealueita eristetyksi, koska sen avulla myös englannin- ja ruotsinkieliset aiheet saatiin samoihin alueisiin suomalaisten tekstien kanssa. Jatkokysymysten suhteen haasteena oli liittää muodostetut aihealueet negatiivisiin ja positiivisiin arvosanoihin.
Vastausten analysointiin päätettiin käyttää NLP- eli Natural Language Processing teknologiaa. Koneoppimisen ja luonnollisen kielen prosessoinnin avulla on mahdollista analysoida suuria määriä tietoa nopeasti ja kustannustehokkaasti.
Haasteena teknologioiden Suomen kielen taito
NLP-teknologiat ovat kehittyneet merkittävästi viime vuosien aikana ja niiden avulla voidaan tehostaa prosesseja huomattavasti. Vaikka isommille kielille on suoraan tarjolla valmiita ratkaisuja, NLP-ratkaisujen Suomen kielen taito on vielä tällä hetkellä hyvin rajallista. Tässä toteutuksessa oman haasteensa aiheutti se, että vastauksia oli annettu kolmella kielellä ja osa käytetystä sanastosta oli asiakkaan sisäistä.
Nykyisillä koneoppimis-/tekoälymenetelmillä ei ole ylipäätään mahdollista täydellisesti “ymmärtää” tekstiä. Yksi haaste oli tälle datalle sopivan klusterointitavan löytäminen
Lopputuloksena selkeä kansankielinen esitys
nalyysin lopputuloksena vastausten ja arvosanojen todettiin jakautuvan tiettyjen ehtojen mukaan. Lopputuotteena oli selkeä kansankielinen esitys, jossa löydöksiä esiteltiin. Data-analyysi todettiin hyödylliseksi ja sitä jatketaan tulevien kyselyiden myötä.
"Vastausten tulkinnan lisäksi data-analyysi auttaa jatkossa muotoilemaan kysymyksiä parhaalla mahdollisella tavalla, ja ennen kaikkea kysymään juuri oikeita asioita. Kun pohjatyö on kerran tehty, tuloksia voidaan jatkossa analysoida nopeammin ja sen myötä puuttua juuri niihin asioihin, joilla on palvelun käyttäjille merkitystä", kertoo projektipäällikkönä toiminut Knowitin Erkki Ruskio.
Analyysin avulla päästään nopeammin kiinni vastausten syihin ja ongelmiin voidaan puuttua. Reagointi nostaa käyttäjien motivaatiota vastata kyselyihin jatkossakin.
Juuso Viljanen
Head of Offering, Principal Consultant
Knowit Solutions