04 maj 2018

Från sensordata till vanligt språk

Hadi Banaees semantiska modell tar fram information som vi kanske inte känner till.

Hur kan man få fram meningsfull information från en stor mängd sensordata för att i nästa steg presentera den med vanligt språk? Datavetaren Hadi Banaee beskriver i sin avhandling en datadriven metod som länkar sensordata till ord och meningar.

I sin studie har Hadi Banaee använt sig av sensorer som samlar in fysiologisk data som blodtryck, hjärt- och andningsfrekvens. För att sedan betydelsefull information som exempelvis upprepningar av ett visst mönster, ännu okänd eller oväntad information ska kunna användas av vårdpersonalen måste den genereras och beskrivas i ord.

– Min lösning är en så kallad semantisk modell som beskriver siffror med vanligt språk. Det som är unikt för den här modellen är att vi inte är intresserade av att beskriva det vi redan vet, istället låter vi modellen ta fram information som vi kanske inte känner till, förklarar Hadi Banaee, doktorand vid Centrum för tillämpade autonoma system, Örebro universitet.

I fallet med fysiologisk data ska läkare kunna få intressant och användbar information om patienter utan att i förväg behöva bestämma vad man vill hitta eller är intresserad av.

Efterliknar människans sätt att tänka

Hela processen är datadriven och bygger på teorin om så kallade ”conceptual spaces”. Dessa konstrueras automatiskt från redan kända begrepp och egenskaper hos data. På det sättet kan man skapa konceptuella utrymmen för exempelvis frukt och beskriva dem med hjälp av färg, storlek och smak. Andning kan beskrivas med hjälp av svängningar i andningstakten och med ökad- eller sänkt andningsfrekvens.

– Med hjälp av denna modell blir det sedan möjligt att beskriva numerisk data i text, men också hitta särdrag hos data. Låt oss säga att vi vill beskriva ett något ovanligt djur som ökenspringråtta. Då kan man använda sig av konceptuellt utrymme för en mus där den lingvistiska beskrivningen skulle kunna vara att djuret liknar en mus, men har två ben istället för fyra. Då får man som människa en ganska klar bild av en ökenspringråtta, säger Hadi Banaee.

Meningen är att modellen ska efterlikna människans sätt att tänka och förklara observationer. Särskilt användbar är den när man är intresserad av att beskriva något okänt.

– Målet har inte varit att skräddarsy en modell enbart för fysiologisk data. Den ska kunna användas för vilken typ av data som helst där man är intresserad av att beskriva data med vanligt språk.

Etiska aspekter

Hadi Banaee tar även upp etiska aspekter i denna modell som gör det möjligt att bearbeta personlig information om människornas hälsotillstånd eller sjukdomar.

– Det är viktigt att vi endast har tillgång till relevant data och är hela tiden måna om den personliga integriteten hos människor, säger han.

En annan utmaning med denna datadrivna modell kan vara att märkningen av data är överflödig eller att den inte håller måttet. Resultatet kan då bli en felaktig text som genereras i slutändan.

– Detta kan vilseleda slutanvändare och beslut baserade på felaktig information kan fattas. Aspekten är särskilt viktig när beslutet direkt påverkar människor, säger Hadi Banaee.

Text och foto: Jasenka Dobric