1,9 millioner euro har it-professor Rasmus Pagh fået til at komme nærmere en algoritme, der skal sikre, at søgemaskiner ikke overser noget.
For syv forskere på ITU faldt juleaften en måned senere i 2015. Efter (blot) et års jagt på den hellige algoritme – der kan levere et pålideligt søgeresultat – blev den fundet 8. januar.
- Vi var overraskede over, at det lykkedes, siger Rasmus Pagh, der er en glad, men også en beskeden og realistisk, mand. For der er stadig tale om grundforskning, og der er endnu lang vej, før hans algoritme, som det er hans håb, kan blive en integreret del af eksempelvis Googles infrastruktur.
I praksis vil superalgoritmen nemlig kræve hundrede gange mere computerkapacitet end nutidens søgemaskiner. Heldigvis har Rasmus Pagh og hans hold fire år mere til at udvikle algoritmen og komme nærmere et anvendeligt resultat. Til næste år bliver en programmør tilknyttet projektet for at bygge et stykke software, der gør det muligt for andre at teste algoritmen i mindre målestok.
Hvorfor Det Europæiske Forskningsråd har tildelt Rasmus Pagh et Consolidator Grant – forskningens svar på en Oscar – medfølgende 14 millioner kroner til hans mission om at gøre søgninger pålidelige, er ifølge Rasmus Pagh selv: rettidig omhu.
- Der kommer flere og flere »sorte kasser« på nettet, hvor vi ikke aner, hvad der sker. Der er ikke ret meget regulering eller forpligtelser i forhold til data. Kort sagt er problemet, når vi søger, mangel på transparens. Vi aner ikke, hvordan vores søgeresultater er prioriteret, eller hvilke søgeresultater vi slet ikke ser. Der er måske to millioner match på hele nettet, når du søger på et ord, og hvad afgør hvilke ti, der kommer først, og hvilke data der overhovedet kommer i betragtning i en datamængde, der hele tiden vokser?
Kun meget få ved, hvordan det fungerer i hjertet af Google, siger Rasmus Pagh, der nok er en af dem, der trods alt har en ret god fornemmelse af netop det. Som 9-årig lånte han bøger på biblioteket om programmering og lavede selv et program, der skulle løbe alle muligheder igennem for, hvordan brikkerne i hans klovnepuslespil kunne lægges – computeren blev aldrig færdig.
- Det var en tidlig aha-oplevelse, siger Rasmus Pagh, fordi det netop viste ham, at søgninger, hvor man går alle muligheder igennem, er der ingen, der har tid til at vente på. I dag leder han derfor efter en metode til at gøre det smartere, men med samme sikre resultat, som havde du kigget alt igennem.
Konsekvensen ved de voksende sorte kasser og mangel på transparens på nettet er, at der let sker en form for usynlig censur. Det er potentielt muligt at slippe af sted med at udnytte søgemaskinerne og »gemme« dokumenter. Eksempler kunne være firmaer, der helst ikke lader konkurrenterne komme frem i søgninger eller betaler sig fra at lade visse dokumenter være mere eller måske især mindre søgbare.
- Der er altså ingen garanti for, at man finder det, man leder efter på nettet, selvom det er der et sted. På visse områder er det selvfølgelig mere fatalt end på andre, for eksempel hvis en læge overser en behandlingsform, eller hvis politiets søgning efter et DNA-match overser en forbryder.
Rasmus Paghs forskningsprojekt handler om de bløde søgninger, såkaldte similarity searches, for det er der, det halter. De eksakte søgninger går det nemlig meget godt for, eksempelvis hvis man søger efter »IT Universitetet i København«.
En blød søgning kan for eksempel være på »stor flodbølge«, hvor du også gerne vil finde »enorm tsunami« eller »kæmpestor flodbølge«, men du ikke ved, hvilke ord der præcis er brugt. I dag er der ikke meget hjælp at hente i søgemaskinen.
- Hvis et ord er stavet lidt forkert eller i stedet er i to ord, så giver søgemaskinen dig et bud på noget, der ligner, men du får typisk ikke et bud på en anden bøjning af ordet eller synonymer, siger Rasmus Pagh.
En blød søgning foregår ved, at søgemaskinen laver en stikprøve ned i datamængden, fordi det er umuligt at søge alt igennem på nettet. Men risikoen i dag er, at du får en »uheldig« stikprøve, hvor maskinen ikke finder et resultat, selv om der var et match et sted. Systemerne har også fået indbygget en vis dovenskab, så de stopper med at lede på et tidspunkt for at kunne håndtere alle vores søgninger.
Den algoritme, Rasmus Pagh og hans hold har udviklet, giver en ny, mere systematisk og effektiv måde at tage stikprøver på, så der er garanti for, at hvis det findes i datamængden, så finder du det også.
- Søger du for eksempel på fem forskellige ord, vil algoritmen kunne finde alle kombinationer af ordene, kaldet en femdimensionel søgning, men det kunne også være en flere hundrededimensionel søgning, siger Rasmus Pagh.
Udfordringen er så the curse of dimensionality, forbandelsen ved høj dimensionalitet, fordi de pålidelige søgninger kræver mange hundrede gange mere computerkapacitet. Som et bedre Indiana Jones-plot er det Rasmus Pagh og holdets mission at forsøge at overvinde den forbandelse.
Rasmus Pagh ser sin forskning som en del af et større projekt mod et mere demokratisk internet med pålidelige og transparente søgninger.
Og generelt er der behov for meget mere gennemsigtighed – også i forhold til brug af big data, mener professoren, fordi dataene bliver brugt til at tage beslutninger, der påvirker os alle.
I USA er politiet eksempelvis begyndt at sende patruljevognene derhen, hvor computeren udregner, at der er størst sandsynlighed for kriminalitet.
- Det er jo sådan set fornuftigt nok, men problemet er, at vi ikke kan se, hvilke parametre der ligger til grund for beslutningerne. Det betyder, at parametre som race og køn for eksempel kunne risikere at blive brugt til at vurdere, om vi kan få et lån eller ej, uden at vi aner det, siger Rasmus Pagh, der mener, at kravet om mere gennemsigtighed er nødt til at komme fra brugerne.
Som ramaskriget, da det kom frem for år tilbage, at firmaer kunne betale visse søgemaskiner for at komme i toppen af søgeresultatet, uden at brugerne kunne se, at pladsen var købt. Det gjorde, at det i dag er tydeligt, at købeannoncer er øverst.
- Og det er fint. Men vi skal mere bekymre os om alt det, vi ikke får at se. Bibliotekarer og informationsspecialister ved godt, at hullerne i Googles »viden« er mange og dybe, men størstedelen af befolkningen har vænnet sig til, at det er fyldestgørende med én enkelt søgning på Google, siger Rasmus Pagh.
Mange ved også godt, at deres søgeresultater i dag er personaliseret, så deres egen og andres klikhistorik afgør, hvad de ser på Google. Et etisk problem, mener professoren, fordi Google bruger data om dine søgninger til at forbedre andre menneskers søgninger.
- Hvad jeg søger på er fortroligt, men alligevel har min søgning betydning for, hvilket resultat du får, når du søger på kanariefugle eller Maldiverne, siger Rasmus Pagh.
- Mange ved ikke, at de kan slå personaliseringen fra i deres browser, ligesom de kan slå deres lokalitet fra, men det bør de vide, for du får ret forskellige resultater afhængigt af, om du søger fra Nørrebro eller Australien. Man kan for eksempel bruge sider som startpage.com til at lave anonyme søgninger på Google.
Et skridt i den rigtige demokratiske retning er Open Source-søgemaskiner som DuckDuckGo eller Lucene. De har åben kildekode, som alle (læs: folk som Rasmus Pagh) kan gå ind i og dermed se, hvilke parametre de søger efter. Og i Tyskland debatterer man, om staten eventuelt skulle stå for uvildige Open Source-søgemaskiner.
Jagten på pålidelige søgninger går på tværs af de nationale grænser. I juli i år udsendte en ung russisk forsker en artikel, som peger i samme retning som Rasmus Paghs forskning. Så mens Perspektiv opholder Rasmus Pagh, skyper hans kollega i kontoret ved siden af med den unge russer. For ingen af dem har en forestilling om, at de kan løse opgaven alene.
Navn: Scalable Similarity Search
Mål: At finde effektive algoritmer,
der giver et garanteret pålideligt søgeresultat
Tid: Fem år
Midler: 1,9 millioner euro
Hvem: Professor Rasmus Pagh, tre post doc'er, tre
ph.d.-studerende og en programmør (i 2016).