Text og data mining har enormt potentiale. Fra sundhedsforskning til finansverdenen bruges metoden til at finde sammenhænge og mønstre i ellers uoverskuelige datamængder. Det er en ny metode til at gøre information til viden, og derfor skal forskningsbiblioteker og informationsspecialister spille med.
Forestil dig 15 millioner videnskabelige artikler fra perioden 1823 til 2016, som du liiige skal læse igennem og tjekke for mulige sammenhænge – nope, ikke menneskeligt muligt, vel? Til gengæld er det – på grund af den konstant voksende computerkraft – blevet muligt digitalt. Søgeteknikken kaldes text mining og går kort fortalt ud på at hive informationer ud og finde sammenhænge i enorme tekstmængder.
Ifølge eksperterne kan text mining give et solidt fundament for ny forskning, fordi det leverer et samlet billede af resultaterne på et givent forskningsfelt, men text mining er også forskning i sig selv, fordi helt nye sammenhænge og mønstre kan dukke op, når man går på tværs af så mange tekster. Text mining kan så at sige skabe nye resultater ud af ældre forskning.
»Vi skal bevæge os ind i text og data mining for at kunne levere den service og forskerstøtte, der kræves af et moderne forskningsbibliotek,« siger teamleder på DTU Bibliotek Christian Tønsberg
- Vi kan gå til litteratur, videnskabelige artikler og andre former for tekst såsom patientjournaler – også af ældre dato – og opdage nye sammenhænge, siger professor i bioinformatik på DTU og Københavns Universitet Søren Brunak. Han har netop afsluttet et forskningsprojekt om text mining som metode i samarbejde med DTU Bibliotek. Her har de taget text mining til »the next level« ved at bruge teknikken til at søge i 15 millioner videnskabelige artikler i fuld længde i stedet for kun i artiklernes abstracts, som har været den gængse metode hidtil. Og det giver pote, siger professoren (læs om projektet i boksen, red.).
Men ét er det ideelle datagrundlag for text mining. Noget andet er, hvilke muligheder, metoden giver os?
FORSKNING I SIG SELV
Lad os dykke ned i et par konkrete eksempler inden for sundhedsforskning, hvor man eksempelvis er interesseret i lægemidlers bivirkninger. Selvom danskerne indtager millionvis af de 7.500 registrerede lægemidler hvert år, som hver i gennemsnit har tre bekrevne bivirkninger – altså mere end 20.000 i alt – så bliver der kun indberettet 6.-7.000 bivirkninger om året til Sundhedsstyrelsen for hele befolkningen.
- Så vi mangler reelt viden på det felt, og det er jo ikke fordi, at medicin ikke har kendte bivirkninger, siger Søren Brunak.
- På hospitalerne har de ikke tid til at indberette dem, men de skriver ofte om dem i patientens journal. Så når vi sætter computeren til at gennemgå millioner af patientjournaler, får vi pludselig et mere retvisende billede af bivirkningernes hyppigheder. En viden, som forskere kan bruge i videreudviklingen af medicin henimod færre bivirkninger, forklarer Søren Brunak.
Desuden giver text mining et unikt indblik i, hvad der sker, når man kombinerer forskellige slags medicin, hvilket man kalder polyfarmaci eller populært: medicincocktails.
»Vi kan gå til litteratur, videnskabelige artikler og for eksempel patientjournaler og opdage nye sammenhænge,« siger professor i bioinformatik på DTU og Københavns Universitet Søren Brunak
- Vi er for eksempel i gang med at lave text mining i tre millioner journaler fra Region Hovedstaden og Region Midtjylland for at finde ud af, om bestemte sammensætninger af medicin giver flere eller færre bivirkninger. Vi taler her om mange tusind komplekse kombinationer, som man ikke kan teste, før et produkt markedsføres. På den måde bliver text mining til selvstændig forskning og en fortsat testning af medicinen, efter at den er taget i brug. Igen til gavn for os alle.
En tredje udløber af text mining er repositionering af medicin, altså når en bestemt medicin viser sig at virke effektivt på andre sygdomme end den, medicinen oprindeligt er udviklet til.
- Det er jo både interessant for forskningen, patienterne og medicinalvirksomhederne, der allerede har den gennemtestede medicin og kan udvide markedet og dermed indtjeningen, siger professoren.
TIDEN ER LØBET FRA STRUKTUREREDE DATA
Essensen i text og data mining er, at det omdanner helt eller delvist ustrukturerede data (en pdf-fil, en patientjournal, litteratur, rapporter eller artikler) til strukturerede data. En vigtig pointe for at forstå metodens potentialer, mener Søren Brunak.
Mængden af ustrukturerede data vokser massivt, men hidtil har man videnskabeligt set de strukturerede data som de mest sagliggørende. Men med text mining kan man hive informationer ud af de ustrukturerede data, og videnskaben kan indtage nye områder. For eksempel indeholder blogs masser af relevant information for sundhedsforskningen.
- Når vi kan læse på tværs af ti millioner blogs, hvor mødre skriver om modermælkserstatning, udslæt, feber og så videre, kan vi se mønstre og dokumentere sammenhænge, siger Søren Brunak. Han mener, at tiden er inde til generelt at opgive ideen om, at alting skal struktureres, da det er dyrt, og man gør det ikke altid, så det passer til den efterfølgende analyse.
NLP: Natural Language Processing
Et tværfelt mellem datalogi, kunstig intelligens og lingvistik. Analyse af naturlige sprog ved hjælp af computere. NLP er under udvikling både akademisk og af private virksomheder, eksempelvis Google Translate, der endnu ikke kan oversætte sætningers betydninger.
Kilde Wikipedia
- Et eksempel er den omdiskuterede Sundhedsplatform, hvor lægerne skal klikke eller skrive sig igennem »journalskrivningen« på struktureret vis. Det kan være fornuftigt nok på nogle parametre, som for eksempel patientens temperatur, mens det for mange andre symptomer og observationer kan være problematisk at koge tingene ned til struktureret data uden at miste vigtig information. Udviklingen har overhalet tankegangen om, at det kun er de strukturerede data, der er til gavn for forskningen. Forsimplingen er ikke længere nødvendig, fordi computeren forstår tekster og kun bliver bedre også til at forstå nuancer og antydninger fremover, siger han.
MATEMATISK LINGVISTIK
Text mining er nemlig tekstanalyse på højt plan. Bag programmerne er blandt andet såkaldt matematisk lingvistik. For ét er at lede efter bestemte ord i teksterne, kaldet »named entity«. Noget andet er at analysere de grammatiske strukturer og få computeren til at analysere meningen med sætningerne, kaldet »Natural Language Processing« (NLP).
- I patientjournaler, for eksempel, skriver yngre og ældre læger og sygeplejersker i forskelligt sprog, og journaler er fulde af negationer, fordi diagnoser ofte stilles ved at udelukke andre ting: »Der er IKKE tegn på dit eller dat«. Så det er vigtigt, at sætningernes betydning aflæses rigtigt. Programmet skal kunne tekstgenkendelsestricks for at kunne håndtere stavefejl og forkortelser. Bare det at splitte en tekst op i sætninger er ikke nemt for en computer, blandt andet fordi et punktum også bruges efter forkortelser, forklarer Søren Brunak, der understreger, at text mining er komplekst og resultatet af flere fagligheders indsats. Og han ser en aktiv rolle for forskningsbibliotekerne.
»Inden for de sidste tre til fire år er forskerne begyndt at efterspørge vores publikationer som data til deres forskning, fordi de gerne vil lave text mining på et område,« siger teamleder Christian Tønsberg.
BIBLIOTEKET SOM TEXT MINING-LABORATORIUM
- Forskningsbibliotekerne bør være et laboratorium for informationssøgning og udføre og forske i metoder som text og data mining. Ellers kommer de til at tilbyde metoder fra i forgårs, og deres infrastruktur vil sygne hen, fordi den ikke linkes op mod den aktuelle forskning, siger Søren Brunak, der mener, at bibliotekernes fordel er, at medarbejderne ved noget om tekster og infrastruktur og kan lave aftaler med forlagene, hvilket er essentielt for text mining.
Teamleder på DTU Bibliotek Christian Tønsberg er enig i, at forskningsbibliotekerne er nødt til at komme et spadestik dybere end metadata.
- Vi skal bevæge os ind i text og data mining for at kunne levere den service og forskerstøtte, der kræves af et moderne forskningsbibliotek, siger Christian Tønsberg, hvis team samarbejdede med Søren Brunaks forskergruppe på DTU om projektet med sammenligningen af text mining i henholdsvis abstracts og hele tekster.
Christian Tønsberg forudser ret dramatiske ændringer for både danske og internationale forskningsbiblioteker de næste fem til ti år. Fællesnævneren er data.
- Data er en kæmpe ressource, som vi er nødt til at forholde os til, og det vil kræve, at vi gør mange ting anderledes for at kunne servicere forskernes behov. Vi skal eksempelvis på sigt selv kunne udføre text og data mining både for at hjælpe forskerne med bedre søgninger, og fordi mængden af publikationer er så stor, at ingen kan følge med på ét forskningsfelt uden de her redskaber, siger Christian Tønsberg.
MERVÆRDI AF VORES DATA
Det er en global trend, at forskningsbibliotekernes publikationer nu bliver set som data.
- Inden for de sidste tre til fire år er forskerne begyndt at efterspørge vores publikationer som data til deres forskning, fordi de gerne vil lave text mining på et område.
På DTU Bibliotek har vi i den lokale it-infrastruktur publikationer med metadata fra de store forlag som Elsevier og Springer. Det betyder, at vi allerede kan levere 80-90 procent af den samlede forskning på et område. Bibliotekets bidrag består i at indsamle, klargøre og videreformidle publikationsfilerne, så de kan bruges af forskerne til text mining. For eksempel skal pdf-filer omdannes til brødtekst. Ikke nogen nem opgave, da tekniske artikler er fulde af ligninger, tabeller, spalter og figurer. I projektet med Søren Brunak var DTU Bibliotekets rolle desuden indledningsvis at sikre forlagenes accept af text og data mining af deres pdf-filer, som er licensbelagte.
DRØMMEN ER EN SAMLING ÅBNE DATA
En udfordring for text mining er nemlig ophavsret, samt hvilken brugsret institutionerne har til publikationerne. Derfor er forlagene ofte første barriere i ethvert text mining projekt.
- Forskningsartiklerne er kommercielle produkter, som forlagene ikke bare afgiver. De forsøger sig med selv at tilbyde forskerne adgang til text mining, hvilke mange forskere ikke finder optimalt, og desuden er det dyrt, siger Christian Tønsberg, der mener, at open access kan være en løsning.
- Det er det spor, forskningsbibliotekerne kan gå ad for at gøre text mining lettere, og drømmen er en samling med åbne og mere lettilgængelige data, siger han.
Det kræver, at ledelsen prioriterer det og giver medarbejderne et kompetenceløft.
- Der er brug for en kombination af programmører, der er vant til store datamængder og statistisk analyse, og informationsspecialister som brobyggere mellem de tekniske forskeres behov og forståelsen for data og bibliotekets service, siger Christian Tønsberg.
TID TIL TOLKNING I STEDET FOR SØGNING
I Novo Nordisk Global Information & Analysis (GLIA) er den ledelsesmæssige beslutning taget. For det kan betale sig for en privat virksomhed at bruge text mining, og informationsspecialisterne skal være en del af teamet, sagde leder af GLIA Rikke Andreassen i et interview til Perspektiv nr. 7, 2017. Hun understregede, at efteruddannelse er nødvendigt, fordi det er en krævende og meget anderledes teknik end en klassisk søgning.
»Men fordelen ved text mining er, at vi kan søge i kæmpestore datamængder, i ustrukturerede typer af data og i en blanding af offentlige og interne data. Og det går meget hurtigere end klassisk søgning. (…) Det betyder, at vi i stedet kan bruge tiden på at fortolke resultaterne og give folk en kvalificeret »suppeterning« med relevant information«
TEXT MINING som metode – hvad er bedst?
Der har længe været debat blandt forskere om, hvorvidt text mining i artikler i fuld længde eller i abstracts gav de bedste resultater. Danske forskere står bag den hidtidige største data og text mining-undersøgelse, og konklusionen er klar. Det giver et langt bedre resultat at lave text mining i hele tekster end i abstracts.
Det virker måske åbenlyst, men påstanden har været, at der kan være for meget overflødig information. For at få afgjort debatten har forskere fra DTU og Københavns Universitet sammen med DTU Bibliotek sammenlignet resultater fra text mining i 15 millioner artikler henholdsvis som abstracts og fuld længde-artikler.
- Resultatet er ret overbevisende. Det ideelle text mining-studie er i teksternes fulde længde, siger en udenforstående forsker fra University of Pennsylvania Daniel Himmelstein til tidsskriftet Science. Men han understreger, at det ofte er sværere at få fat i teksterne på grund af copyright, så text mining i hele tekster har lange udsigter.
To af forskerne bag projektet – professor Søren Brunak og Lars Juhl Jensen – erkender også, at forhandlingerne med forlagene og konverteringen af teksterne fra forlagenes pdf-format til brødtekst tog længere tid end selve text miningen. Lars Juhl Jensen opfordrer derfor de store internationale forlag til fremadrettet at vælge et format, der let kan bruges til text mining og arbejde med samme format.
Kilder: Artikel i Science 21. juli 2017: Want to analyse millions of scientific papers all at once? Here’s the best way to do it. Samt interview med professor Søren Brunak, KU, og teamleder på DTU Bibliotek Christian Tønsberg.