This page in English

AI och informationssökning

AI-genererad bild på en person som sitter vid ett bord med en dator och högar med böcker. Bakom personen står en robot.

AI-genererad bild från Bing Image Creator.

AI kan användas som verktyg för att stödja och förbereda informationssökning på flera olika sätt. Du kan exempelvis använda AI-verktyg för att hitta uppslag till din uppsats, få förslag på sökord och hitta artiklar.

Generativ AI, ChatGPT och informationssökning

Verktyg baserade på generativ AI som exempelvis ChatGPT kan vara till hjälp för att ge dig en snabb överblick över ett ämne. Du kan få hjälp med vilka termer som används inom ämnet, be om sammanfattningar från olika perspektiv och testa olika idéer.

Generativ AI som exempelvis ChatGPT bygger i stor utsträckning på sannolikhet. Om en mening börjar så här, hur borde den fortsätta? Dessa verktyg kan oftast inte ange några källor för sin information eftersom de inte själva söker efter dessa, och i de fall du får källor så kan de vara helt påhittade.

När du söker efter till exempel artiklar till ditt arbete är det viktigt att veta att informationen stämmer och att du kan se var den kommer ifrån, därför är det bättre att du använder dig av en vetenskaplig databas.

Verktyg för informationssökning

Det finns flera verktyg som använder sig av bland annat AI för att hjälpa dig hitta mer liknande material om du redan hittat några artiklar att utgå från. Verktygen kan både använda sig av citeringsanalys och av semantisk likhet för att ge förslag på fler artiklar. Det finns också verktyg som använder AI för att tolka frågor ställda i naturligt språk.

Vid citeringsanalys utnyttjas vilka källor artikeln använder sig av och vilka andra artiklar som har artikeln som källa för att ge förslag på mer material.

Vid semantisk sökning används en språkmodell för att försöka förstå ett dokuments eller en sökfrågas innebörd och matcha den mot andra dokument med liknande innehåll även om de inte nödvändigtvis innehåller samma ord. Istället för att få resultatet som en lista med träffar så presenterar en del tjänster resultatet som en graf där du kan klicka dig vidare för att upptäcka ännu mer material.

För att dra nytta av språkmodeller och generativ AI även när det gäller informationssökning så använder sig en del verktyg av en teknik som kallas Retrieval Augmented Generation (RAG). Idén bakom RAG är att använda generativ AI för språkförståelse men att hämta faktainnehåll från en extern källa. I en sökkontext kan det innebära att en fråga kan ställas och besvaras i naturligt språk medan en sökning i bakgrunden sker i en vetenskaplig databas. Frågan omvandlas av språkmodellen till en sökfråga som databasen förstår och artiklarna som hittats används som kontext för språkmodellen när den ursprungliga frågan besvaras.

Olika AI-tekniker används också redan idag i många av de mer traditionella databaser som biblioteket prenumererar på som nås via databaslistan och flera databasleverantörer planerar att öka inslagen av AI i sina tjänster. AI kan användas för att utöka själva sökresultatet men även för till exempel relevansrankning eller för att i vissa databaser skapa sammanfattningar.

Vilket material är sökbart i verktyget?

Det här är en fråga som du alltid ska ställa vid informationssökning men den kan bli extra viktig när det gäller nya verktyg från nya leverantörer. Vissa verktyg innehåller endast fritt tillgängligt (open access) material. Det material biblioteket prenumererar på kan du inte hitta där. Ett verktyg kan ha en bred täckning över olika ämnen eller endast vara lämpligt för vissa specifika ämnen. Antalet publikationer som är sökbara varierar mellan olika verktyg. Typen av material kan också variera och visst innehåll kan vara vetenskapligt medan annat inte är det. Som alltid när du söker information för dina studier är det viktigt att du granskar källorna du hittar. 

Vilket data har använts för att träna de AI-modeller som används?

För att exempelvis upptäcka likheter mellan artiklar så tränas en modell med en stor mängd data. Även om det ofta handlar om väldigt mycket data så är mängden alltid begränsad, det kan röra sig om begränsningar i storlek, bredd och aktualitet. Ibland redovisas heller inte vilken data som använts.

Obalans i träningsunderlaget kan slå igenom och riskerar att generera ”bias” i modellen. Har träning utförts med data från vissa källor under en viss tidperiod så är det generaliseringar från den tiden och de källorna som kommer att synas i vad modellen levererar. Exempelvis kan en modell tränad med teknisk litteratur vara sämre på att hitta relaterade artiklar inom samhällsvetenskap och humaniora. 

Hur används det du matar in i verktyget?

Det du skriver in i verktyget eller dokument du laddar upp kan sparas och användas av verktyget på sätt du inte har kontroll över. Verktyg kan kontinuerligt förbättra sina modeller genom att använda sig av nya data från användare. Du bör aldrig mata in känsliga data, personuppgifter eller data som inte kan spridas fritt. 

Vilken grad av transparens och replikerbarhet kräver sökuppgiften?

Transparens, att vara öppen med och redovisa hur du kommit fram till ett resultat, är en grundläggande princip inom forskning och vetenskap som du alltid ska tillämpa i dina studier. Replikerbarhet är en annan grundläggande princip som går ut på att någon annan ska kunna återskapa det du gjort och komma fram till samma resultat.

Ibland beskrivs många AI-verktyg som av ”black box”-typ. Du ger verktyget input i form av till exempel en sökfråga eller ett antal artiklar och den levererar ett resultat. Det kan dock vara svårt att peka på exakt vad det var som gjorde att resultatet blev det som det blev. Därmed blir det ett helt annat sätt att upptäcka artiklar på jämfört med när du använder dig av ämnesord och söktermer som du själv kan se finns i beskrivningarna av artiklarna.

När AI-modeller tränas så används också ofta sannolikhetsberäkningar vilket medför att samma input kan ge olika resultat. Det här påverkar hur transparanta verktygen är och hur replikerbara resultaten är i sig. Oavsett verktyg gäller dock att du behöver vara öppen med vilka verktyg du använt och vilka resultat du fått.

Några exempel på AI-baserade tjänster för att söka efter eller hitta vetenskapliga artiklar listas nedan. Observera att universitetsbiblioteket inte prenumererar på eller ger support i något av de listade verktygen. 

Semantic Scholar

Semantic Scholar är ett AI-drivet sökverktyg från The Allen Institute for AI som visar relaterade artiklar både med hjälp av citeringar och ämnesmässig likhet. Ursprungligen låg fokus på datavetenskap, neurologi och geovetenskap. Idag finns ett brett utbud av ämnen.

Verktyget innehåller enligt leverantören data om över 200 miljoner vetenskapliga publikationer. Data samlas dels in genom samarbeten med utgivare, dels genom användande av sökrobotar.

På många artiklar skapas en sammanfattning av artikeln i en mening. Vissa artiklar kan läsas i Semantic Reader där funktioner finns för att markera de viktigaste delarna av artikeln relaterade till mål, metod, resultat och innovationer. Vissa termer kan också få AI-skapade förklaringar.

Inciteful

Inciteful startar sökprocessen med antingen en eller två artiklar. Används en artikel så genereras en graf med liknande artiklar. Viktiga artiklar, författare och översiktsartiklar i nätverket identifieras också. Används två artiklar så genereras en graf som visar vilken relation artiklarna har via citeringar.

Inciteful använder sig av data från OpenAlex, Semantic Scholar, Crossref och OpenCitations.

ResearchRabbit

ResearchRabbit utgår från en eller flera artiklar och sedan ger förslag på andra artiklar. Relationer mellan olika artiklar visas i form av en graf som går att klicka sig vidare i för att hitta mer material.

Verktyget är gratis men kräver att du registrerar ett konto.

Enligt leverantören så innehåller verktyget hundratals miljoner artiklar.

Connected Papers

Connected Papers är ett verktyg för att utifrån en artikel skapa en graf med relaterade artiklar. Artiklarna ordnas i kluster där artiklar med större grad av likhet hamnar närmare varandra och artiklar med mindre grad av likhet längre från varandra.

Connected Papers använder sig av data från Semantic Scholar.

För att kunna skapa några gratis grafer per månad måste ett konto skapas. För att skapa fler grafer krävs en prenumeration.

Elicit

Elicit använder antingen en forskningsfråga eller ett antal artiklar som utgångspunkt. Artiklarna kan sedan utökas genom en funktion för liknande artiklar. Verktyget ger ett svar på frågan utifrån artiklarna. Varje artikel får också en kort sammanfattning på en mening och olika delar av artiklarna kan identifieras.

Elicit använder sig av data från Semantic Scholar.

Enligt leverantören fungerar verktyget bäst för domäner med empirisk experimentell forskning. Två områden som nämns är biomedicin och maskininlärning.

För att använda verktyget måste du registrera ett konto. Med ett kostnadsfritt konto kommer du åt grundläggande funktioner. För ytterligare funktionalitet kan en prenumeration tecknas.