Et forskningsprosjekt skal bruke maskinlæring for å trekke ut og analysere data fra pasientjournaler hos helprivate fysioterapitjenester. Fysiofondet har innvilget stipend til prosjektet som starter i disse dager.
Prosjektleder Britt Elin Øiestad (OsloMet) forteller at det handler om å utvikle en metode for å trekke ut data fra fysioterapijournaler i helprivat praksis på en effektiv måte.
Sammenligning av helprivat og offentlig
Det skal de gjøre ved å først å bruke maskinlæringsmetoder til å effektivt trekke ut tall og tekst fra pasientjournaler, konvertere teksten til et forskningsdatasett og beskrive pasientgrunnlaget. Dernest å sammenligne pasienter som bruker helprivate fysioterapitjenester med pasienter som bruker offentlige fysioterapitjenester. Målet er at informasjonen kan brukes til rapportering og forskning.
Foto: OsloMet
Prosjektet ledes av fysioterapeut og forsker Bjørnar Berg (t.v.) i samarbeid med fysioterapeut og professor Britt Elin Øiestad (t.h.) og et forskerteam bestående av forskere fra Oslo universitetssykehus/Norges idrettshøgskole, Folkehelseinstituttet, BI og Volvat Nimi. I tillegg er det med en brukerrepresentant som har vært med helt fra planleggingen av prosjektet.
- Det foreligger ikke strukturerte data på pasientgrunnlaget i helprivat praksis, noe som gjør at det mangler grunnlag for å sammenligne pasienter som oppsøker offentlig med pasienter som oppsøker helprivate fysioterapitjenester, sier Øiestad.
Fra tekst til data
- I prosjektet skal vi bruke en maskinlæringsmetode innen kunstig intelligens som gjør om store mengder tekst til data. Dette vil gjøres i en tretrinns prosess, beskriver Øiestad.
1) Datapreparering
Første trinn inneholder å lagre rådata fra fysioterapijournaler til filer maskinlæringsmetoden kan lese. Dette kan være alle typer filer (pdf, jpg, excel). I denne fasen blir det viktig å ivareta personvern, og derfor vil ikke navn og personnummer lagres i rådatafilene. Data på kjønn, alder, diagnose, utdanningsstatus, arbeidstype og status, og komorbiditeter er data det er ønskelig å trekke ut og som vi kan sammenligne med data fra pasient- og helseregistre.
2) Dataprosessering
I andre trinn vil data bearbeides ved å bruke "Natural Language Processing". Først vil vi lese noen av filene for å danne et bilde av hva teksten inneholder av ord. Deretter lages noen restriksjoner for å redusere omfanget av tekst programmet skal lese til et håndterbart nivå. For eksempel kan man be programmet lese ulike beskrivelser av en plage (akillessmerter, ankelsmerter, tendinopathy, tendinose) og strukturere det inn i mindre begrepskategorier. Med andre ord legger vi inn nøkkelord i algoritmen slik at maskinen vet hva den skal strukturere og hente ut av ord fra tekstfilene og hvordan ordene skal struktureres slik at de kan analyseres som tradisjonelle data.
3) Dataanalyse
I siste trinn vil data analyseres med tradisjonelle statistiske metoder for å beskrive pasientgrunnlaget og for å sammenligne med data fra offentlige registre.
Første steg
Prosjektet administreres og gjennomføres fra forskningsgruppene Muskelskjeletthelse ved Institutt for rehabiliteringsvitenskap og helseteknologi og Senter For Intelligent Muskelskjeletthelse (CIM) ved OsloMet i samarbeid med Volvat Nimi i Oslo. Volvat Nimi har per dags dato 14 helprivate fysioterapeuter som gir grunnlag for å hente ut data.
Prosjektet er avgrenset til et forskerprosjekt tilsvarende ett årsverk, derfor vil dette være et første steg på å utvikle og beskrive en metode som kan brukes i store, fremtidige prosjekter.
Fysiofondet vi følge det nyskapende prosjektet med stor interesse. Har du en god idé til et forskningsprosjekt? Her kan du lese om vårt forskningsstipend.