KEINOÄLYN KÄYTÖSTÄ POTILAAN HOIDOSSA (WATSON) KOKEMUKSIA BIGDATA-POHJAISESTA ENNUSTAVASTA ANALYTIIKASTA JA KEINOÄLYOHJELMISTOJEN KOEKÄYTÖSTÄ IT-Kehitysjohtaja Mikko Rotonen HUS-TIETOHALLINTO 25.5.2016
SISÄLTÖ 1.Lyhyt oppimäärä tekoälyä 2.BigData 3.Case Hyksin lastenklinikan keskosteho 4.Mitä seuraavaksi
2
1. LYHYT OPPIMÄÄRÄ TEKOÄLYÄ
9.5.2016
3
TEKOÄLYN TEKNIIKAT A. Koneoppiminen (machine learning) B. Neuroverkot (artificial neural networks) C. Syvä neuroverkko (deep learning) D. Ohjattu oppiminen (supervised learning) E. Vahvistusoppiminen (reinforcement learning) F. Ohjaamaton oppiminen (unsupervised learning)
9.5.2016
4
A. KONEOPPIMINEN (MACHINE LEARNING) Älyn logiikkaa ei kirjoiteta käsin, vaan rakenne löytyy dataa analysoimalla ja kokemuksen kautta.
9.5.2016
5
B . NEUROVERKOT (ARTIFICIAL NEURAL NETWORKS) Jäljittelee aivojen rakennetta ja niiden toimintaa. Mahdollistaa nopean rinnakkaislaskennan.
9.5.2016
6
C. SYVÄ NEUROVERKKO (DEEP LEARNING) Neuroverkossa on useita kerroksia, joissa syötteen abstraktiotaso nousee mitä pidemmälle verkossa syöte etenee. Mitä monimutkaisempaa data on, sitä syvempiä verkkoja tarvitaan. 9.5.2016
7
D. OHJATTU OPPIMINEN (SUPERVISED LEARNING) Kone tietää ongelman vastauksen itse ja on päätellyt ratkaisun massiivisen aineiston perusteella. Data annetaan syötevastauspareina. Tehtävä on oppia jäljittelemään annettua oikeaa vastausta mahdollisimman hyvin. 9.5.2016
8
E. VAHVISTUSOPPIMINEN (REINFORCEMENT LEARNING) Koneelle annetaan palautetta eli sille kerrotaan oliko tulos johon se pääsi oikea vai väärä. Kone säätää toimintaansa (algoritmia) ja yrittää uudelle ja tulos paranee.
9.5.2016
9
F. OHJAAMATON OPPIMINEN (UNSUPERVISED LEARNING) Koneelle ei anneta oikeita vastauksia eikä palautetta, vaan data annetaan pelkkänä syötteenä, jonka sisäistä rakennetta on tarkoitus tarkastella.
9.5.2016
10
2. BIG DATA
9.5.2016
11
KUINKA PALJON TIETOA TARVITAAN JOTTA VOI HYÖDYNTÄÄ TEKÖÄLYÄ? • Tiedon määrä riippuu käytettävästä tekniikasta • Kuva-analytiikassa on syötetarve on 10 000 kuvaa • Esim. Watson for Oncology • •
- Perustuu 300 lääketieteelliseen julkaisun, 200 kirjaan ja 12 miljoonaan kirjoitettuun sivuun aiheesta, - Opettamiseen on käytetty 15 000 tuntia (=2 000 työpäivää, = 9 työvuotta) asiantuntijoiden työaikaa 9.5.2016
12
Integroitavat tietovarannot Kuva-arkistot
Laskutus ja tietovarasto BCB Laaturekisterit Uranus / Epic Laboratorio Kuvantaminen Anestesia ja teho Leikkaussali Lääkitys
PACS XDS
Mobiilisovellukse t
NRT Mynla ja Tietovarasto
Metadata, Integrointi, Lataus Tietoaltaaseen
Laaturekisterit
Potilastietojärjestelmät ja HealthWeb Terveyskylä
9.5.2016
Genomi Biopankki
Potilaan omat mittaukset - Noona syöpäseuranta - Diabetes-seuranta - Kipupäiväkirja - EKG-seuranta
Tutkijat
Palveluoperaattori -
HUS TIETOALLAS (HUS Datalake) Watson Kirontech Aalto yo Nokialab
Analyyttiset algoritmit ja ennustava
Lääkärit Hoitajat Tutkijat
Metadata Tutkimuslupa Tiedon hallinta Monitorointi
Hallinto
Potilaat
13
Potilastietojärjestelmien kypsyystasot ja sukupolvet
Cognitive / Deep learning (IBM Watson)
9.5.2016
Tekoälyä tarvitaan, jotta voidaam saavuttaa Gartnerin kypsyystasot 4 ja 5
14
3. CASE HYKS LASTENKLINIKAN KESKOSTEHO
9.5.2016
15
A. Tekninen ratkaisu Potilaan elintoimintatietojen käsittelyvaihtoehdotja ja niiden ajantasaisuus ja validointi Tietojärjestelmäarkkitehtuuri integraatiot
Philips potilasmonitori
GE Clinisoft
digiConnect/ ebox
GE Clinisoft database
IBM WATSON
Watson database
16
B. KÄYTETTY ANALYSOINTI- JA ENNUSTETEKNIIKKA Käytetyt potilaiden elintoimintoja kuvaavat muuttujat • • •
Syke (HR) Hengitystaajuus (RESP) Happisaturaatio (SaO2)
SPSS Modelerin avulla päätöspuumalli (CR&T) sovitettiin dataan, jossa sepsispositiivisten dataa päivää ennen kliinikon ottamaa veriviljelyä verrattiin satunnaistettuun otantaan sepsisnegatiivisten potilaiden datasta • Malli ottaa huomioon myös muuttujien väliset riippuvuudet • Data jaettiin testi- ja mallinnusosioon mallin validointia varten
17
C. Projektin löydökset - sepsiksen ennustaminen GE Clinisoftin datalla • Päätöspuun avulla datasta tunnistaa korrelaatioita, jotka ennustavat sepsistä • Algoritmi valitsee ja optimoi päätöspuussa näkyvät raja-arvot automaattisesti käytössä olevan datan perusteella • Esimerkiksi päätöspuusta voidaan nähdä kuinka alhainen sykkeen vaihtelu (HR_VAR10) kasvattaa sepsisriski • Havainto on yhtenevä alan muiden tutkimusten kanssa, joissa käytetty reaaliaikaista potilasmonitorointi dataa
18
D. Projektin löydökset - Teknisen ratkaisun kehittäminen tuotantokäyttöön Ehdotus tulevaisuuden analytiikka arkkitehtuuriksi NICU Data Sources
Video data
Real-Time Stream Computing
IBM Infosphere Streams
Millions of Events per Second / all kinds of data
Complex analytics: Everything you can express via an algorithm
Watson Analytics
Big Data Hifi-signals (Audio, Monitoring data)
IBM BigInsights for Hadoop Laboratory results Patient Monitors Ordered medication & Procedures External devices Electronic Health Records
Immediate action in real time Real-time data correlation, Anomaly Detection - Event and flow normalization context & enrichment
•
Historical data storage for research
•
Integration to production and existing data sources
•
Preservation of raw data from patient monitors
•
Long-term, multi-PB storage
•
New and old data sources
•
Predictive modeling
•
Anomaly detection
•
Research
•
New Models and variables
•
Text data analytics
Clinisoft •Legislative compliance •Laboratory results
EHR data
19 Collect
Store & Process
Analyze
TIIVISTELMÄ KOKEILUSTA JA SEN TULOKSISTA JA JATKOSUUNNITELMISTA Ennustekyvykkyys todettu GE Healthcare Centricity Critical Care Clinisoft sovelluksen datalla • •
jo medianisoidussa datassa näkyy merkkejä siitä, että sepsis voidaan ennustaa 24 h ennen kuin kliinikko tilaa verinäytteen Hoitohenkilökunnan päätöksentekoa voidaan helpottaa visualisoimalla tulokset
Ennustetarkkuutta voidaan kehittää • • • •
Hyödyntämällä lähes reaaliaikaista potilasmonitorointitietoa (esim. EKG, veren happisaturaatio, hengitystiheys, verenpaine) Parantamalla datan laatua (puuttuvien arvojen vähentäminen) Lisäämällä uusia muuttujia (esim. videoanalytiikan avulla määritetty fyysinen aktiivisuus) Parantamalla analytiikkaympäristön laskentatehoa
Seuraavat askeleet • • • •
Tieteellinen tutkimus (tutkimusluvat, infrastruktuuri yms.) näytöistä, että reaaliaikaisella datalla voidaan ennustaa sepsis. Saatava näyttöä ennustekyvystä, jonka tuloksen mukaan voidaan edetä Ennustetarkkuuden kehittäminen tieteellisen tutkimuksen kautta Käytäntöön viemisen suunnittelu • Tuotantoa ja analytiikan kehittämistä tukevan ympäristön luonti Menetelmän laajentaminen muihin käyttötapauksiin
20
Potilaan elintoimintatietojen siirto ja dokumentointi Video data
GE potilasmonitori
GE Clinisoft Critical Care
Tuotanto Kehitys/DL Ennustava analytiikka Watson Cortana Open Source
Multilab
Clinisoft database
3
1
Teksti
1
GE Gateway
3 Tietoallas
BT / Stream Analytics Ajantasaisuus
Tiedon validointi, formaatti
Tiedon sisältö
Vaihtoehto 1
60 + 120 sekuntia
Arvot mediaaneja, HL7
Laboratoriotiedot sisältyvät, samoin kertomus, ei käytetä ennustamiseen
Vaihtoehto 3
2 sekuntia
Ei, XML High Speed
Laboratoriotiedot täydennetään suoraan ennustemalliin HL7:llä, Muut tiedot siirretään XML:llä, ei siirretä kertomustietoja
9.5.2016
21
4. MITÄ SEURAAVAKSI
9.5.2016
22
KÄYNNISSÄ OLEVAT HANKKEET TAVOITTEET TOTEUTTAMISEKSI 1. Avoimen lähdekoodin tietoaltaan (Datalake) toteuttaminen HUS Azureen 2. Lähesreaaliaikaisten integraatioiden toteuttaminen eri potilastietojärjestelmiin ja lääkintälaitteisiin (XML High Speed, IOT) 3. IBM SPSS, Rule Engine ja Watson tuotteiden tuotantokäyttöönotto analytiikassa ja ennustavassa analytiikassa (Tehohoito, Terveyskylän oirenavigaatiot, harvinaisten sairauksen analytiikka ja seulonta, Pandemia analytiikka ja ennustemallit jne). 4. Muiden analytiikka ohjelmien testaaminen ja hankinta täydentämään palvelukokonaisuutta (MS Cortana Analytics Suite, Kirontech, Nokialab jne).
9.5.2016
23
Tiedonjalostus ja sen tasot Informaation merkitys Optimointi
Ennustava mallinnus
BigDatan tiikerin loikka
Raaka data
Puhdistettu data
Vakioraportti
Mikä olisi parasta mitä voisi tapahtua?
Kuvaileva mallinnus
Mitä tulee tapahtumaan?
Kuutiot ja kyselyt
Miksi niin tapahtui?
Mitä tapahtui? Data Perus järjestelmät
Informaatio
Tietovarasto
Tietämys
BigData
Ymmärrys 24
9.5.2016
25