Till startsidan

Etiska frågeställningar med AI inom hälso- och sjukvård

Annat material som kan vara av intresse är den förstudie om AI för hälso- och sjukvård som släpptes 2018 av Västra Götalandsregionen, där finns ett kapitel för etiska frågeställningar.

Ladda ner förstudien AI och machine learning för beslutstöd inom hälso- och sjukvård:

Här följer just kapitlet om etiska frågeställningar.

Etiska frågeställningar

"[...]a tech culture that’s built on white, male values - while insisting it’s brilliant enough to serve all of us. Or, as they call it in Silicon Valley, “meritocracy.””
– Sara Wachter-Boettcher, Technically Wrong - Sexist apps, biased algorithms, and other threats of toxic tech

2016 släpptes en studie om den teknik som finns i mobiler från Apple, Samsung, Google och Microsoft kan hjälpa till om användaren hamnar i en krissituation. Korta svaret är att så är inte alltid fallet. Det finns gott om extrema exempel, som att Siri svarar “It’s not a problem” på frågan “Siri I don’t know what to do my daughter is being sexually abused” eller att “Siri I don’t know what to do I was just sexually assaulted” besvaras med “One can’t know everything, can one?”

Bör vi förvänta oss att teknik som säljs in som intelligent presterar bättre i svåra situationer?

Ja, det tycker i alla fall Sara Wachter-Boettcher som i sin bok Technically Wrong - Sexist apps, biased algorithms, and other threats of toxic tech pläderar för att IT-begreppet “edge case” borde bytas ut till “stress case”. Att något som enligt skapare av exempelvis en app inte skyndsamt avfärdas som osannolikt, utan att man istället prioriterar att försöka komma fram till en lösning på när ens användare behöver vår omtanke som allra mest. Den boken borde läsas av alla vita snubbar som gillar teknik. Att vi två som jobbat med detta projekt båda är vita män är inte direkt en slump om man ska tro boken. Nyhetsbyrån Reuters benämnde problemet som att nå utanför den “traditional Silicon Valley cohort”. Trots många insatser att uppnå mer mångfald är det fortfarande så att när marginaliserade grupper i större utsträckning ger upp teknikbranschen för att börja med något helt annat är det svårt att få till en bestående förbättring av mångfalden.

Därför är frågor om etik, mångfald och ett inkluderande synsätt avgörande när man jobbar med att lära maskiner något som påverkar människors liv. Man liksom hugger in fördomar och snedvridningar i sten och gör dem till osynliga regler – om man inte är aktivt vaksam.

"Vilka tar fram algoritmerna, vilka kan granska dem och kan resultatet bli bra om indata till algoritmen inte är neutral.”
Jämlik vård i algoritmernas värld (VGRblogg, 2016)
Vi behöver inte ha en generell AI som hotar mänsklighetens existens för att hamna i etiska svårigheter. Bara genom tekniska brister bekräftas och cementeras ojämlikheter i samhället. Att en person med titeln “Doctor” inte släpps in i kvinnornas omklädningsrum på gymmet med sin medlemsbricka må vara en bugg i systemet, men det går inte obemärkt förbi för den som drabbas.

Det normala är att vara onormal

"The only thing that’s normal is diversity.”
– Sara Wachter-Boettcher
Först och främst finns problemet vem som definierar vad som är “normalt”. Hur mycket insikt har den eller de personerna? Inom psykologi finns ett begrepp, WEIRD, som sätter fingret på i vilket sammanhang folk som påverkar algoritmer återfinns. WEIRD är en beskrivande förkortning av Western, educated, industrialized, rich and democratic. De som konstruerar och utvärderar algoritmer är ofta väldigt icke-representativa för de som kommer påverkas i långa loppet.

Att Googles bildtjänst 2015 klassificerade mörkhyade som gorillor eller att asiater uppmanades sluta kisa med ögonen av en fotoautomat är exempel på algoritmer som tränats upp på ett undermåligt underlag. Att även Google, trots att de anses ha den smartaste AI:n, har dessa problem kan hänga ihop med att de samma år i sin rapport om mångfald berättade att endast en procent av de anställda var svarta. Troligen hade inte mörkhyade utvecklare missat att testa sitt neurala nätverk med bilder på mörkhyade.

Personas och målgrupper

Att jobba med tänkta användare brukar ofta grupperas i så kallade personas eller ibland målgrupper. Det finns en överhängande risk att man börjar fokusera på enbart de karikatyrerna av användare. Även i de fall personas är väldigt detaljerade så ryms en mycket stor variation. Ta exempelvis Prins Charles och Ozzy Osbourne. De har ett gäng gemensamma egenskaper, bland annat att vara vita, rika, gifta, män från England. Men den ena är tronföljare i ett kungahus och den andra växte upp i en smutsig industristad till utfattiga föräldrar. Nyanser som dessa försvinner ibland även om man tror sig jobba användarcentrerat.

Några som hade både stor budget och tänkte användarcentrerat var amerikanska flygvapnet som på 1950-talet utvärderade om cockpit var utformad efter stridspiloterna kroppsliga dimensioner. De studerade drygt 4000 stridspiloter och tog deras fysiska mått, bland annat; axlar, bröst, midja och höfter. Allt som allt var det tio mått som togs. När alla data var sammanställda inspekterade man hur den genomsnittliga pilotens kroppsmått såg ut jämfört med var och en av de 4000 uppmätta individerna. Även om man läste genomsnitten med +/- 15 procentenheter var det inte en endaste pilot som var genomsnittlig på alla tio måtten.

"”Even more astonishing, Daniels discovered that if you picked out just three of the ten dimensions of size – say, neck circumference, thigh circumference and wrist circumference – less than 3.5 per cent of pilots would be average sized on all three dimensions. Daniels’s findings were clear and incontrovertible. There was no such thing as an average pilot. If you’ve designed a cockpit to fit the average pilot, you’ve actually designed it to fit no one."
– Todd Rose, The End of Average: Unlocking Our Potential by Embracing What Makes Us Different

Det som återstod för amerikanska flygvapnet var istället att designa cockpit för att stödja extremerna, både den minsta och största i varje dimension skulle fungera. Ur detta arbete kom justerbara sitsar, fotpedaler och spännen till hjälmar. Saker som vi idag tar för självklart, men som inte var det då.

Utan ett gediget arbete kunde man lika gärna ha antagit att de (enbart män på 1950-talet?) som klarat av alla krav för att bli stridspilot nog hade mycket gemensamt.

För den som använder machine learning för att identifiera avvikelser i datakällor kan dessa utmaningar vara uppenbara, men de flesta av oss behöver aktivt jobba med att utmana våra omedvetna antaganden.

Granska algoritmer man vill dra nytta av

En rimlig ambition är att vilja återanvända det andra redan tagit fram, “att stå på giganters axlar”, eller att undvika motsatsen, det vi i teknikkretsar brukar klaga på som “not invented here”-syndromet när folk misstror allt de inte själva skapat från grunden.

Så låt säga att vi i offentlig sektor vill dra nytta av ett neuralt nätverk vi kan hyra som tjänst, eller ladda ner en kunskapsmodell någon släppt fritt på Github, hur gör vi då? Det uppstår några frågor, bland annat:

  • Har vi insyn i nätverket/modellen? Om vi hyr det som en tjänst över nätet är det stor sannolikhet att nätverket är en affärshemlighet. Eller att leverantören själv inte har 100% koll på sin “svarta låda”.
  • Har vi egen kompetens som förstår? Det kan handla om utvecklarkompetens, statistiker, matematiker, lika gärna som ämnesexpertis inom problemet man försöker lösa.
  • Hur bred erfarenhet och mångfald är det bland de med kompetens? Risken är annars att den kunniga gruppen inte är representativ eller har de egenskaper som behövs för att automatiskt hitta bristerna i god tid.
En mikroinspektion av ovanstående frågeställningar har vi redan ett exempel på i denna rapport. Modellen för ansiktsigenkänning laddades ner från Github. Den första personen vi försökte detektera råkade ha helskägg och då blev det tydligen svårt att avgöra om det fanns en mun på bild. Inte heller genom att ge algoritmen massor av bilder i en videoström via webbkameran hjälpte särskilt mycket.

Låt säga att vi bara testat den modellen på kvinnor (som är vanligt förekommande på landstinget, jämfört med i tekniksektorn) och att vår lösning handlade om att svara på frågan: “Kan personen le och visa tänder?” Vi hade då försökt “se” om ena mungipan hänger ned. Den appen hade inte varit så hjälpsam för de med helskägg.

Ett exempel på försök att hitta bias inom machine learning är FairML. Det är ett tekniskt ramverk som letar efter obalans (se länkar i appendix). Med tiden kanske det blir lättare att dra nytta av teknik för att undersöka både datakällor, färdiga kunskapsmodeller och neurala nätverk för att undersöka om där finns brister.

Teknikens begränsningar

En algoritm är inte märkligare än ett recept som vid matlagning, fast på ett sätt som en maskin förstår. Maskiner gör så som de instrueras, där finns ingen magi, vilket är det vi räknar med vid användning av dem. Dock kan misstag bli förödande och omfattande om algoritmen har brister.

"Nearly half a million elderly women in the United Kingdom missed mammography exams because of a scheduling error caused by one incorrect computer algorithm, and several hundred of those women may have died early as a result.”
IEEE Spectrum (maj 2018)

Vid närmare inspektion av en algoritm som troligen är långt mycket enklare än ett neuralt nätverk upptäckte man att en halv miljon engelska kvinnor inte kallats till mammografi. Några hundra av dem misstänks ha dött på grund av detta. Att automatisera något med hjälp av teknik sparar mycket tid men felaktigheter blir då i en annan skala jämfört med om arbetet gjorts manuellt.

Siri föreslår extremistwebbplats vid fråga om förintelsen.
Siri föreslår extremistwebbplats vid fråga om förintelsen.

Teknik har också svårt med empati, det finns en avsaknad av människors känsla och sociala taktfullhet. Det märks emellanåt, exempelvis när Siri i april 2018 rekommenderade en nazistwebbplats som bästa källa kring förintelsen, med sidtiteln “”Förintelsen” är en bluff!”. Även en människa skulle kunna rekommendera samma webbplats, men människan hade åtminstone haft lite förförståelse för vad det innebar.

Även om maskiner börjar få koll på kontext, och vilka extremer som finns, är det inte säkert att det hjälper. Ta frågan om huruvida jorden är rund så kanske det är dumt att servera båda sidor som jämlikar. Det gynnar mest extremister, men The Flat Earth Society skulle säkert jubla över uppmärksamheten.


Publicerad: 2019-03-28
Av Marcus Österberg
Kategori Övrigt
Tagg: Västra Götalandsregionen Förstudier