Irodalom mint adat? Barangolás a Wikidata és egy kistestvére adatbázisában 2023 június 30. – # Az irodalom rejtett hálózatai

Érdekelnek az adatvizualizációk?
🖱️ Látogass el a Kattanj a tudományra Tableau profiljára!

A Wikidatáról

A Wikidata mindenki számára nyitott tudástár, mely az adatokat strukturáltan rögzíti, és emberi, illetve számítógépes olvasásra, szerkesztésre egyaránt alkalmas. A Wikipédiához hasonlóan a világ bármely dolgáról enciklopédikus jelleggel találhatunk benne információkat, azonban ezzel ellentétben a Wikidatán az információk nem természetes nyelven, mondatokban, bekezdésekben vannak megfogalmazva, hanem formális nyelven, egyedi szabályok és szótár segítségével.

Blogsorozatunk zárócikkében ezt az egyre fejlődő, bővülő adatbázist szeretnénk bemutatni, a kezelésébe betekintést nyújtani. A Wikidata számára létrehozott, forráskódjában is nyílt, szabadon felhasználható adatbázisrendszer a Wikibase. A rendszer az ún. szemantikus webes technológiákat támogatja, ennek köszönhető, hogy a benne tárolt adatok strukturáltan és számítógépek számára „értelmezhető” módon érhetők el a weben. Ez a technológia arra is lehetőséget nyújt, hogy az adatbázison belül, illetve az interneten található más adatbázisokkal egyaránt össze lehessen kapcsolni az adatokat, így létrehozva egy tudásgráfot, az információk hálózatát.

A Wikibase további nagy előnye, hogy nemcsak grafikus lekérdező felület tartozik hozzá, hanem SPARQL végpont is, mely által egy szabványos számítógépes nyelven kérdezhetjük le az adatbázis tartalmát, sokkal rugalmasabb, összetettebb lekérdezésekre adva lehetőséget. Ez a funkció azért is praktikus, mert egyből olyan, más eszközökkel is könnyen kezelhető exportot kapunk, mellyel már kevés az utómunka, vagy egyáltalán nem is szükséges az adattisztítás, hiszen strukturált és rendszerezett adatokról van szó.

Kistestvérek

A WikiBase adatbázis rendszert számos projektben alkalmazták, elsők közt volt a Rhizome digitálisan keletkezett műtárgyak adatbázisa (Rhizome ArtBase), készült kísérleti jelleggel a biodiverzitás leképezésére is Wikibase (Opencura Biodiversity), és szintén ebben a keretben működik az Európai Unióval kapcsolatos tudástár (The EU Knowledge Graph).

FactGrid

A Wikibase rendszer egyik legismertebb kutatói célra újrafelhasznált verziója a FactGrid, mely elsősorban a történeti kutatások közös adatbázisának teremtett felületet. A teljes nyitottság, közösségi szerkesztés és a teljes zártság között képez átmenetet az adatbázis, hiszen a szerkesztők alapvetően kutatók, de bárki csatlakozhat a közösséghez regisztráció útján. Az adatokat több körben ellenőrzi a szerkesztői közösség. A FactGrid immár hét nyelven érhető el (többek között magyarul is), és több mint háromszáz szerkesztője van, így jól ki tudja használni a WikiBase közösségi adatbázis szerkesztési funkcióit.

ITIdata

A jelen posztunkban a BTK Irodalomtudományi Intézete által létrehozott ITIdata adatbázist szeretnénk még bemutatni. Ennek működését és céljait Dobás Kata és Fazekas Júlia 2022-es cikke mutatja be: 

Az ITIdata-projekt célja egy olyan irodalomtudományos adatbázis kialakítása, mely hálózatos formában képes különböző kutatások adatait tárolni, megjeleníteni és rendszerezni. Az adatbázis Wikibase szoftverrel működik, a Wikidata struktúráját veszi alapul, ugyanakkor független tőle. Az adatbázisban tárolt információk SPARQL lekérdezésekkel rendszerezhetők, mely a tájékozódáson túl elősegíti a mostani és a jövőbeli kutatásokat.

(Dobás – Fazekas, 2022)

Az adatbázis tartalmát az Intézet kutatói hozzák létre, zömét jelenleg a Bibliográfiai Osztály által digitalizált A magyar irodalomtörténet bibliográfiája, és ennek 2013-tól strukturált adatbázisban folytatott kurrens gyűjtése adja. A folyóiratokra vonatkozó adatok pedig részint a Bibliográfiai Osztály munkatársainak, részint Wirágh András századfordulós sajtóbibliográfiai kutatásai révén kerültek az ITIdatába. Az adatbázis a tudományos szakfolyóiratok szinte teljessége mellett irodalmi és regionális lapokat, valamint a társdiszciplínák lapjai közül is némelyeket magába foglal.

A nagyszabású vállalkozás még a kezdeteknél tart, így lekérdezéseink eredményességét, adatgazdagságát nem mérhetjük a világ felé nyitott, közösségi szerkesztésű Wikidata adatbázisához. Az adatbázis szerkesztőfelülete zárt, nem lehet hozzá csatlakozni, ahogy a Wikidatán vagy a FactGriden láttuk. Ennek ugyan vannak hátrányai (kevés és hiányos adat, relatíve lassú bővülés), de előnyei is, hiszen megvan a lehetősége, hogy egyből megbízhatóbb adatok kerülnek az adatbázisba. A tartalom jelentős része pedig nyitott, bárki számára elérhető, lekérdezhető.

SPARQL lekérdezések: a vizualizációk adatforrásai

Posztunk készítése során többféle SPARQL lekérdezéssel kísérleteztünk mind a Wikidata, mind pedig az ITIdata erre kialakított oldalán. Szerettünk volna informatív vizualizációkat készíteni a lekérhető adatokból, így aránylag nagyobb számú és egységes adatsorokat igyekeztünk kinyerni. A lekérdezések működéséről részletesen az Így készült blokkban írunk, példákat pedig a Források alatt közlünk.

Érdekes tapasztalat volt, hogy a Wikidatán csak elvétve szerepelnek magyar nyelvű és vonatkozású folyóiratok, míg az ITIdatán jelentős már most a folyóiratok száma. Ennek elsősorban az az oka, hogy – mint említettük – ezen adatbázis alapját jelentős részben az Irodalomtudományi Intézet digitalizált és kurrens irodalomtörténeti bibliográfiája adja.

Az ITIdatában viszont a személyekhez tartozó adatok száma kevés jelen pillanatban (a személyi névtér építése még folyamatban van), így ebben az esetben érdemesebb volt a Wikidatára támaszkodnunk. Az alábbiakban a magyar irodalmi élet személyiségeihez kapcsolódó vizualizációhoz ebből kifolyólag a Wikidata, a magyar folyóiratkultúráról szólókhoz pedig az ITIdata nyilvános felületéről lekérdezhető adatokat használtuk.

Írók a Wikidatán

Az alábbi térképes vizualizáción a Wikidatán található magyar nemzetiségű írók, költők, szerkesztők, fordítók és irodalomtörténészek szerepelnek születésük helye szerint. A jelölt településekre kattintva megjelenik az ott született személyek listája. Amennyiben a írónak a Wikipédián is található adatlapja, annak linkjére kattintva megtekinthetjük a táblázat alatt a személyről készült szócikket is.

Folyóiratok az ITIdatában

Mint említettük, az ITIdatában jóval több magyar nyelvű és vonatkozású folyóirat található, mint a Wikidatában. Az Irodalomtudományi Intézet projektje keretében fejlesztett adatbázis azonban még korántsem teljes – a jelen pillanatfelvétellel azt szeretnénk megmutatni, mennyi lehetőség rejlik az így gyűjtött irodalomtörténeti adatok elemzésében és vizualizációjában.

A térképes ábrázolás a folyóiratokat megjelenési helyük, székhelyük szerint mutatja meg. A lekérdezés során a következő típusokat gyűjtöttük egybe: folyóirat, irodalmi lap, tudományos folyóirat. A térkép alatti idővonalon a folyóiratok az alapítás éve szerint lettek csoportosítva. Minél feljebb helyezkedik el a megjelent lapok számát jelző kör, annál több folyóirat, irodalmi lap, vagy tudományos folyóirat jelent meg az adott évben. (A periodikumok típusát színekkel különítettük el.)

Fontos kiemelnünk, hogy a periodikumok ezen osztályozása az ITIdata szerkezeti adottsága, így ezt a besorolást a vizualizáción is megtartottuk. Nem vontuk tehát össze a különféle folyóirattípusokat, megmaradt az általánosabb folyóirat, és a specifikusabb irodalmi lap és tudományos folyóirat besorolás. A halmazok elemei nem fedik egymást, azaz nincsenek emiatt duplumok az adatsorban. Az általunk lekérdezett adatokban csak azon periodikumok találhatók meg, melyek ITIdata adatlapján szerepelt a székhely és az alapítás / létrehozás ideje. A cikk készültekor összesen 294 ilyen folyóirat volt az adatbázisban, de a térképen megjelenítési szempontokból csak az európai székhelyűeket tüntettük fel.

Így készült

Az adatsorokat a Wikidata (https://query.wikidata.org/), illetve az ITIdata (https://query.itidata.abtk.hu/) SPARQL végpontjain futtatott lekérdezésekből nyertük. A Wikibase lényege, hogy az információkat tripletekben, hármas egységekben tárolja: az adott entitásról (pl. személyről, folyóiratról) tesz állításokat tulajdonság–érték (property–value) párokban kifejezve. Míg a Q kezdetű azonosítószámok az egyes létezőkre (személyekre, tárgyakra, fogalmakra stb.) utalnak, addig a P kezdetűek tulajdonságokra vonatkoznak.

Például a Wikidatában egy ilyen állítás és jelentése így néz ki (a szöveges megfogalmazásban linkeltük a Wikidata elemeket is külön-külön):

Q1400182 wdt:P31 wd:Q1002697

Az Irodalomtörténet egy példánya az irodalmi lapoknak. (Vagy: Az Irodalomtörténet nevű elem az irodalmi lapok osztályába tartozik.)

Önálló Wikibase alapú adatbázis kialakítása azt is magával vonja, hogy bennük egyedi adatszerkezet, adatelemek, tulajdonságok hozhatók létre. Így az ITIdata adatbázisában a fenti állítás már másképp hangzik a számítógép nyelvén, hiszen mások az azonosító számok. Az állítások és lekérdezések szintaxisa azonban megegyezik. A jelen példában ráadásul az osztályozás is eltér: míg a Wikidata irodalmi lapként, az ITIdata tudományos folyóiratként azonosítja a példában szereplő periodikumot:

Q23784 wdt:P1 wd:Q20

Az Irodalomtörténet egy példánya a tudományos folyóiratoknak. (Vagy: Az Irodalomtörténet nevű elem a tudományos folyóiratok osztályába tartozik.)

A Wikidata tulajdonságlistája itt érhető el: https://www.wikidata.org/wiki/Wikidata:List_of_properties, míg az ITIdatáé jelenleg itt böngészhető: https://itidata.abtk.hu/w/index.php?title=Special:ListProperties/. A SPARQL lekérdezésekre példákat az alábbiakban közlünk.

Az adatvizualizációk a Tableau szoftver segítségével készültek. A Wikidata adatait CSV formátumban töltöttük le, az így kapott adatfájlt használtuk forrásként. Az adatokon további átalakítást nem végeztünk, mert a Wikidatából kinyert adatok megfelelően strukturáltak és azonnal felhasználhatók – ezért is nagyszerű vele dolgozni. Az ITIdata esetében mindösszesen a földrajzi neveket láttuk el országkódokkal, hogy a Tableau megfelelően tudja azokat térképre helyezni, mivel a földrajzi adatok geokódolása még sok esetben hiányzik az adatbázisból.

Kitekintés

Posztunkban a Wikidata és Wikibase adatbázisokra fókuszáltunk, de fontos megemlíteni, hogy más, a Bölcsészettudományi Kutatóközponthoz kapcsolódó projektek is foglalkoznak a magyar értelmiség életrajzi adataival és kapcsolati hálójával. Olvasóink figyelmébe ajánljuk ezért a BTK Filozófiai Intézetében készülő Magyar Filozófusok Életrajzi Adatbázisát, mely az Életrajzi Lexikon strukturált adatbázisba szervezését, valamint az adatok elemzését és vizualizációját tűzte ki célul. (L. Varga–Szűcs 2021.)

Részlet az interaktív vizualizációból. https://filozofusok.hu/mel/hu/

Maróthy Szilvia és Minkó Mihály

Források

A vizualizációkhoz felhasznált adatokat az ITIdata és a Wikidata nyilvános lekérdező felületéről (SPARQL végpont) gyűjtöttük, az alábbi lekérdezéseket használva.

ITIdata:

https://query.itidata.abtk.hu/

Folyóiratok, irodalmi lapok és tudományos folyóiratok, melyek rendelkeznek székhellyel és alapítási/létrehozási dátummal. Össz. 294 találat. (Lekérdezés: 2023. június 30.)

SELECT ?item ?itemLabel ?incdate ?pubplaceLabel ?instanceofLabel

  WHERE

{

  VALUES ?o {wd:Q18 wd:Q19 wd:Q20}

  ?item wdt:P1 ?o.

  ?item wdt:P62 ?incdate.

  ?item wdt:P130 ?pubplace.

  ?item wdt:P1 ?instanceof.

  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],hu". }

}


Wikidata:

https://query.wikidata.org/

Írók, költők, szerkesztők, fordítók és irodalomtörténészek, akikhez születési és halálozási dátum, nem, születési hely és ország (koordinátákkal) adatok is rendelkezésre állnak, és opcionálisan tartozik hozzá WIkipédia oldal is. (Lekérdezés: 2023. június 30.)

SELECT DISTINCT ?item ?url_huLabel ?itemLabel ?bdate ?ddate ?genderLabel ?szulhelyLabel ?szulorszagLabel ?coordLabel
WHERE 
{
  VALUES ?o {wd:Q36180 wd:Q49757 wd:Q1607826 wd:Q333634 wd:Q13570226}
  ?item wdt:P31 wd:Q5. 
  ?item wdt:P27 wd:Q28. 
  ?item wdt:P106 ?o. 
  ?item wdt:P569 ?bdate.
  ?item wdt:P570 ?ddate.
  ?item wdt:P21 ?gender.
  ?item wdt:P19 ?szulhely.
  ?szulhely wdt:P17 ?szulorszag.
  ?szulhely wdt:P625 ?coord.
  
  OPTIONAL {
    ?url_hu schema:about ?item .
    ?url_hu schema:inLanguage "hu" .
    FILTER (SUBSTR(str(?url_hu), 1, 25) = "https://hu.wikipedia.org/")
  } 
  
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}

Szakirodalom

Dobás, Kata és Fazekas, Júlia (2022) ITIdata – Egy irodalmi adatbázis fejlesztése Wikibase alapon és ennek hasznosítása Kosztolányi Dezső forrásjegyzékénél. In: Valós térben – Az online térért : Networkshop 31: országos konferencia. 2022. április 20–22. Debreceni Egyetem. Kiadja a HUNGARNET Egyesület az MTA Könyvtár és Információs Központ közreműködésével, Budapest, pp. 211-218. https://doi.org/10.31915/NWS.2022.27

Varga Péter András – Szücs László Gergely. Magyar Filozófusok Életrajzi Adatbázisa. https://filozofusok.hu/mel/hu/

Varga Péter András – Szücs László Gergely. “A lexikon mint filozófiatörténet-írási forrás: A 19-20. századi magyar filozófusok struktúrája a Magyar Életrajzi Lexikon alapján”. Magyar Tudomány 182/6 (2021), 779–792. https://www.doi.org/10.1556/2065.182.2021.6.6 

Köszönetnyilvánítás

Köszönjük Császtvay Tündének értékes szakmai javaslatait, valamint Dobás Katának, hogy segítséget nyújtott az ITIdata adatbázis használatához.

*

A cikk a Bölcsészettudományi Kutatóközpontban megvalósuló NKFIH Tudományos Mecenatúra Katt(anj) a tudományra! (MEC-N140829) projekt keretében készült.