LIBRIS utvecklingsblogg // - projekt, metoder, idéer, utbyte…..

Nationell databrunn - behövs det?

February 3, 2010 av MarjaDatabrunnInga kommentarer

Flera frågor har kommit till KB/LIBRIS om hur vi ställer oss till en nationell databrunn. Frågorna bottnar dels i de nya tjänster som började erbjudas på marknaden under 2009, dels i bibliotekens behov av att göra alla sina (fysiska såväl som digitala) resurser och samlingar sökbara på ett ställe. Frågan har också väckts i samband med pågående projektet LIBRIS som lokal OPAC (L-OPAC).

Av denna anledning pågår en förstudie för att undersöka förutsättningarna kring en databrunn.

Vad är en databrunn?

Termen databrunn har vi tagit till oss från danskans databrönd, då man i Danmark sedan 2007 har arbetat med frågan om att samla metadata för bland annat e-artiklar, e-tidskrifter och e-böcker från olika informationsleverantörer på ett ställe. Det ger möjlighet att indexera datat och erbjuda en samlad sökingång för många typer av resurser, snabba sökningar, relevansrankning, klustring av sökresultat, sammanslagen träfflista etc.

Frågeställningar

En viktig strategisk fråga är om vi själva ska utveckla en lösning för nationell databrunn från grunden eller om vi ska köpa en färdig lösning eller ingen databrunn alls! Finns det möjligheter att kombinera viss egenutveckling med inköp av färdiga moduler eller deltjänster? Vad blir konsekvenserna om vi väljer det ena eller det andra?

Andra frågor är:

  • Ska KB/LIBRIS driva en nationell databrunn eller är det någon annans uppgift? Ska och kan KB konkurrera med andra leverantörer på det här området?
  • Vad är målet med databrunn för KB? Vilka behov uppfyller den och kan de behoven tillgodoses på annat sätt?
  • Vad ska en nationell databrunn innehålla? Fria resurser, lokala resurser, avtalsbundna resurser? Vem ska bestämma över det?
  • Ska vi inleda samarbete över nationsgränser?
  • KB:s samlingar? Hur ska man förhålla sej till e-pliktleveranser och KB:s digitaliseringssamordning?
  • KB:s utökade uppdrag, vad kommer det att innebära?

Vad omfattar förstudien?

En marknadskartläggning av databrunnsleverantörer, såväl leverantörslösningar som open source-lösningar och hybrider av dessa.
En enklare teknisk testinstallation utifrån det system som byggts upp för SwePub. Testerna syftar till att ge en uppfattning om möjliga tekniska komplikationer vid insamling, uppdatering och indexering av metadata.
En undersökning av förekommande begränsningar i tillgången till - och rättigheterna att använda - det metadata som samlas in eller erhålls. Licensverksamheten vid KB/LIBRIS tar också upp dessa frågor i samband med förhandlingar inför förnyelser av avtal med informationsleverantörer.
 

Vad blir resultatet?

Dels har vi fått en förståelse för vad det innebär att skapa en nationell databrunn, dels ska det bli ett underlag till nybildade Expertgruppen för Libris nationella system för vidare strategiska diskussioner om färdriktningen när det gäller e-resurser.

Share/Save/Bookmark

Tags: ,

Annonsera Sondera i Google

February 2, 2010 av HelenaMarknadsföringInga kommentarer

Vi testar nya sätt att nå ut med våra tjänster och annonserar nu söktjänsten Sondera i Google AdWords. Vi annonserar i 3 månader och följer med spänning utfallet.

Share/Save/Bookmark

Tags: ,

Ny kategori - Tips, så här kan LIBRIS användas

January 26, 2010 av MariaTips, UncategorizedInga kommentarer

Jag introducerar en ny kategori, “Tips”. Bibliotek och övriga användare av LIBRIS-systemen ute i landet är påhittiga och vi får då och då nys om att de använder våra system på diverse smarta sätt.

Ett aktuellt tips (som vi senast fick på Biblist den 22 januari 2010 av Helena Klein) är hur Asienbiblioteket vid Lunds universitet använder LIBRIS som ett alternativ till tryckta nyförvärvslistor (eller ett sätt att presentera specialsamlingar på bibliotekets webbplats). Vid katalogiseringstillfället skriver de in sitt biblioteks sigel och t.ex. år och månad i beståndsposten (852 i delfält x). I LIBRIS söker man sedan fram det  man vill ha en sammanställning av och använder den permanenta länken man får i “länka till träfflistan” på sin webbplats.

Exempel på detta från vi på http://www.ace.lu.se/library/new-acquisitions

Eftersom man bara länkar till en sökning kan man ju använda detta till att lyfta fram diverse saker så länge man anger det vi katalogisering i fält 852. Vid Asienbiblioteket har man t.ex. lagt in Taiwan-donation i fält 852 och kan sedan söka fram och länka till en lista på dessa i LIBRIS. Ladok-koderna fungerar även bra för kursböcker!

Share/Save/Bookmark

Tags: , ,

Konferenser på ingång

January 21, 2010 av KristinKonferenserInga kommentarer

Nytt år, nya termin och nya konferenser på ingång.

En konferens vi alltid brukar delta i är ELAG (European Library Automation Group). Dels är det en väldigt trevlig konferens i lagom format, trevliga människor, lagom informell med en liten touch åt icke-konferens (utan att vara det) med presentationer men också mycket workshops och en session med mer eller mindre spontana lightening talks på 5-10 minuter. Dels tar den upp ständigt aktuella ämnen för oss som håller på med system, utveckling, kataloger…med en tendens åt det tekniska hållet utan att bli tekniknördig. I år hålls konferensen 9-11 juni i Helsingfors. Pricka in det i almanackan och kom. Rekommenderas!

Just nu är det även Call for proposals. Kom gärna med förslag på en presentation eller en workshop!
Den officiella webbplatsen för konferensen är hittar du på adressen http://elag2010.nationallibrary.fi/

Anders Söderbäck ska medverka i Kunnskapsorganisasjonsdagene 2010 i Oslo, 28-29 januari. Anders ska prata om semantisk webb på biblioteket.

Och till sist ska Martin Malmsten vara Keynote speaker på emtacl10 (emerging technologies in academic libraries) i Trondheim, 26-28 april. Rubriken på Martins framförande är “Why Cultural Institutions Should Care About Linked Data - a Case for Openness”.

Man kan misstänka att detta inte är allt. Nya djärva presentationer och konferenser brukar alltid dyka upp!

Share/Save/Bookmark

Tags: , ,

Invigningen av SwePub

December 13, 2009 av KristinSwePub2 kommentarer

Nu finns filmerna från invigningen av SwePub på OpenAccess webbplats, liksom övriga inspelningar från konferensen Mötesplats Open Access 2009.

Själva invigningen och det officiella öppnandet döljer sig bakom filmen med Bengt Karlsson. Där pratar även Gunnar Sahlin och Katarina Bjelke från Utbildningsdepartementet gör den officiella ridåavtäckningen.

Såväl Kristin Olofsson som Henrik Lindström pratar om SwePub där bildtexten (tyvärr) endast anger Kristin.

Titta också gärna på övriga presentationer - där finns mycket intressant och underhållande att hämta.

Share/Save/Bookmark

Tags: ,

Dubbletter del 2: Hopslagning

December 9, 2009 av HenrikSwePub, TeknikInga kommentarer

I ett tidigare inlägg beskrev vi hur dubbletter i SwePub identifieras. Som utlovats kommer här en beskrivning av hur vi slår ihop dessa dubbletter i söktjänsten SwePub.kb.se.

Kort kan man beskriva skapandet av en sammanslagen post enligt följande:

  1. En masterpost väljs (= den post i dubblettupeln som har flest antal metadatafält).
  2. Icke upprepningsbara fält tas från mastern. Från övriga poster kastas alltså dessa värden bort.
  3. Unionen av upprepningsbara fält läggs till i den nya posten.

Till de upprepningsbara hör författare, lärosäte, ämnesord (nyckelord och svep-kategorier), anmärkningar, serieuppgift, id:n och uri:er (externa länkar). Bland dessa är författare de mest intrikata. Detta dels för att sampublikationer till sin natur har fler än en författare, dels för att personamn anges på lite olika sätt (med förnamn utskrivna eller endast initialer, med för och efternamn i separata fält eller kommaseparerat). Det krävs därmed en del logik för att jämföra författarnamn, så att samma namn inte upprepas i den sammanslagna posten. Det kan nämnas att vi i detta fall anser att exempelvis Andersson, P. och Andersson, Pia är samma person.

De icke upprepningsbara fälten är titel, värdpublikation, publikations- och innehållstyp, språk, utgivningsår, fysisk beskrivning och abstracts. Ett litet undantag är dock fält som kan förekomma på både svenska och engelska. Dessa kompletteras med det/dem språk som inte förekommer i mastern.

Exempel på en sammanslagen post baserad på inte mindre än sex lokala poster från fem lärosäten: http://swepub.kb.se/bib/swepub:oai:services.scigloo.org:84589.

Share/Save/Bookmark

Tags:

RSS till SwePub

December 9, 2009 av HenrikSwePub, Teknik3 kommentarer

Nu finns möjlighet att bevaka en sökning med RSS (egentigen atom) i SwePub.kb.se. Flödet skapas från träfflistan.

Flödet är baserat på uppdateringsdatum i de lokala databaserna. Detta innebär att om det sker någon form av massuppdateringar i ett lokalt system kan det komma en hel del poster i flödet, som dock är begränsat till de 200 senast uppdaterade.

Share/Save/Bookmark

Tags: ,

Dubbletter, tripletter och en och annan kvadrupel

December 6, 2009 av HenrikSwePub, Teknik3 kommentarer

SwePub är som sagt lanserad. Det ligger en hel del arbete bakom den samlade nationella noden, inte minst från alla deltagande lärosätens sida. Det har handlat mycket om att implementera metadataspecar och att fortlöpande göra dataförbättringar; ett arbete som även fortsätter efter lanseringen.

En viktig del i arbetet med söktjänsten SwePub.kb.se har varit att hantera alla de dubbletter som förekommer i datat. Det finns en hel del av den varan i SwePub-datat eftersom det består av poster insamlade från en rad olika lokala system.

Ett typexempel är två forskare som samarbetat kring en publikation och lagt in den var för sig i sitt eget lokala system. Detta förekommer såväl för samarbeten olika lärosäten emellan som när forskarna är verksamma vid samma universitet. Andra exempel är forskare som flyttat och lagt in samma publikation i två olika system. Eller avhandlingar från lärosäten som saknar examinationsrätt: både det examinerande lärosätet och forskarens “hemmalärosäte” levererar en post för avhandlingen.

Det rör sig om i runda tal 10% dubbletter, vilket med 250 000 poster medför ca 25 000 dubblettposter. Dessa är fördelade på ungefär 11 000 dubblett-tupler (två eller flera poster som beskriver samma publikation). Det rör sig alltså främst om dubbletter men det förekommer även en hel del tripletter (runt 700), kvadrupler (runt 100) et cetera (ett fåtal).

För att identifiera och slå ihop dessa går posterna igenom ett dedupliceringssteg innan de laddas i sökmotorn. Mängden data och dubbletter gör det ganska klart att dedupliceringen måste ske i huvudsak på automatisk väg. Eftersom data även uppdateras frekvent har vi valt att göra dedupliceringen från början varje natt för att slippa hålla reda på en lång historia av hopslagna poster.

En algoritm är ju dock aldrig hundraprocentig och vi har därför lagt till en möjlighet att ange undantag manuellt, d.v.s. att säga att två eller flera poster *inte* är dubbletter. En vidareutveckling blir att även kunna tvinga ihop dubbletter som missats av algoritmen.

Själva dedupliceringsalgoritmen är inte helt enkel att beskriva kortfattat, men här kommer ett försök i punktform:

  1. Skapa en nyckel för varje post bestående av dess publikationstyp (artikel, kapitel, doktorsavhandling etc.) och de första femton normaliserade tecknen i titeln.
  2. Skapa temporära kluster för poster med samma nyckel.
  3. För varje par av poster i ett sådant kluster, jämför dessa enligt nedan (ett uppfyllt villkor innebär att posterna anses vara dubbletter, och kollen avbryts):
    1. Identiska id:n (isbn, pmid, isi-id)?
    2. Samma tidskriftsreferens (issn+vol+num+startsida)?
    3. Överensstämmande titlar och utgivningsår? För publikationstyper som har värdpublikation måste även värdpublikationens titel överensstämma

Vad gäller strängjämföresle av titlar kan påpekas att dessa görs med en algoritm som inte kräver exakt liket utan tolererar att strängarna skiljer sig åt till en viss grad. Detta är nödvändigt då fält inte bara skiljer sig åt p.g.a rena stavfel utan även att titlar m.m. anges på lite olika sätt. Det kan exempelvis handla om hur man använder förkortningar.

Det finns en del andra finesser i algoritmen. För överskådlighetens skull lämnar vi dock dessa därhän.

I avsaknad av uppmärkt testdata (vilket är mycket tidskrävande att ta fram) har vi gjort en manuell utvärdering av algoritmen. Detta har gått till genom att manuellt granska ett slumpvis urval av dubbletter samt par av poster som “precis” klassats som icke-dubbletter. Resultatet visar på att både precision (andelen av de identifierade dubbletter som är äkta dubbletter) och täckning (andel av alla äkta dubbletter som hittas) ligger över 95%.

Vi är ganska nöjda med detta resultat och tror att det i kombination med möjligheten att manuellt ange undantag mycket väl fyller sina syften för söktjänsten.

Hur vi slår ihop poster återkommer vi till i ett kommande inlägg.

Share/Save/Bookmark

Tags:

SwePub lanserad

November 28, 2009 av KristinSwePub5 kommentarer

Nu är SwePub lanserad!
Vetenskaplig publicering från (just nu) 29 av våra svenska lärosäten.

Invigningen blev lyckad. Och vi lätt euforiska. Öppningstal av Gunnar Sahlin (riksbibliotekarie), Bengt Karlsson (generalsekreterare SUHF) och Katarina Bjelke (departementsråd Utbildningsdepartementet). Katarina fick göra den officiella knapptryckningen och avslöja vad som fanns bakom den sammetsröda ridån.

Stefan Andersson (projektledare) berättade om upprinnelsen till projektet och visade den smått klassiska servett med projektskiss som kom till på en krog på Valhallavägen.

Ulf Kronman diskuterade runt möjligheterna att använda SwePub som källa för bibliometriska analyser för Vetenskapsrådet, om det skulle kunna komplettera datat från ThompsonReuter de laborerar med idag.

Nåväl, nu har vi lanserat SwePub som är:

  • En söktjänst
  • En samlad, nationell nod för vetenskaplig publicering
  • Ett magasin för fritt åtkomligt data, med flera olika åtkomstgränssnitt

Utforska och kom gärna med feedback!

Share/Save/Bookmark

Tags: ,

Mockingbird

Mockingbird liknar till stor del Mockups som vi skrev om i ett tidigare inlägg. Även här har man ett stort antal designelement till förfogande när man skapar sina skisser. Det är lite kantigare och känns inte lika färdigt som Mockups. Men det är en smaksak vilket man föredrar. Mockingbird är gratis och helt webbaserat. Man har möjlighet att länka mellan sidor och spara sina projekt viket endast var möjligt i betalvarianten av Mockups.

 

Mockingbird hittar du här.

Napkee
På tal om Mockups har vi hittat ett roligt program, Napkee, som överför dina Mockups-skisser till html, css och javascript. Vi har inte testat själva, men det finns en liten film att titta på på Napkees webbplats.

Share/Save/Bookmark

Tags: , ,