Reneszánsz angol kultúra a digitális térben: Vickers, a kvantitatív módszerek és az ember algoritmizálhatósága

Brian Vickers jó. Az előadás meggyőző, amelyet 2016-ban Göttingen Dialog in Digital Humanities előadássorozat keretében adott elő, és a digitális, kvantitatív szövegelemzésről szól különös tekintettel a szerzőség megállapítására, tehát nekem nagyon témába vág. Még november végén meg szerettem volna nézni, amikor egy tweetben utaltak rá, de csak most jutott eszembe. Eszembe jutott, úgyhogy egy vasalás alkalmával megnéztem, és az alábbiakban összefoglalom, mit találtam benne érdekesnek, és hogy milyen további kérdéseket vet fel az előadása.

Az előadás a számítógéppel lefuttatott kvantitatív, szóstatisztikai, stilisztikai elemzések megbízhatóbbá tételéhez, finomításához járul hozzá Ez a téma nekem azért fontos, mert rendkívüli módon foglalkoztat, hiszen a kvantifikált eredmények sok esetben vagy a számok bűvöletében az eredmények fetisizálásához, vagy kritikátlan elvetéséhez vezetnek. Mindkét véglet valószínűleg téves és jogtalan, ám annak a megfogalmazása, hogy mi az episztemológiai státusza vagy a meggyőződés mértéke, már sokkal nehezebb feladat. Vickers nem is érinti ezt a metakérdést, hanem inkább a maga erisztikus és nagyon tájékozott módján inkább módszertani kérdéseket tárgyal. Persze maga a módszertani tárgyalás is előfeltételez egyfajta hozzáállást a metakérdéshez, például minimál programon, hogy ez a fajta kutatás értelmes, eredményekkel kecsegtető vállalkozás

Az előadás módszertani kérdéseket vesz szemügyre elsősorban a szerzőség megállapítása szempontjából, amelyeket a következő tézisekben foglalhatok össze. Elsőként a szógyakoriság elemzés, mint eszköz, amelyik egyes színművek esetében hivatott megállapítani a szerző kilétét, esetében a kontrollkorpusz Vickers szerint nem lehet az egész Shakespeare korpusz, hanem egy szűkebb keresztmetszet, azaz hasonló műfajú darab ugyanabból a korszakból, amelyről tudható, hogy Shakespeare a szerzője. Nagyon logikusan és meggyőzően érvel Vickers ezen kritériumok mellett. (Megjegyzem azért ez nagyon leszűkíti a választható művek számát.) Másodszor amellett érvel Vickers, hogy ne egyes szavakat, hanem szókapcsolatok ngram-ok (pontosabban n+1gram-ok) legyenek az alapjai a szóstatisztika gyártásnak, hiszen Vickers szerint a szókapcsolatok jellemzőbbek lehetnek egy alkotóra, mint egyes szavak gyakorisága. (Ebben is sok az igazság van, ám az egyes szavak statisztikai elemzését ez szerintem nem zárja ki, esetleg kiegészíti, vagyis egészítse ki. Persze érthető, hogy Vickers a szókapcsolatok elemzése mellett teszi le a voksát, hiszen Craig-ék ellenében fogalmazza meg saját álláspontját. (Nyilván nem is Vickers lenne, ha nem egy autoritás ellenében fogalmazná érveit, innen az erisztikus hangvétel.)

Egy kis hiányérzetem azért maradt az előadás kapcsán, ugyanis Vickers említést sem tesz a szövegek verzióinak a problémájáról. Vagyis nem tér ki arra kifejezetten, hogy amikor szövegeket hasonlítunk össze, érdemes arra is figyelni az említetteken kívül, hogy azonos típusú szövegvariánsok összehasonlítása is hozzájárul az eredmények elfogadhatóságához. Azaz – egy extrém példát véve – két mű összevetésekor nem lehet az egyik egy korai nyomtatványon alapuló szövegváltozat, míg a másik egy huszadik századi kritikai kiadás szövege. Lehet, hogy én tévedek, amikor ezt is szempontnak tekintem? Vagy ez olyan magától értetődő? Sőt talán érdemes a tudós közösséget tájékoztatni, milyen szöveget használtunk az elemzéshez, hiszen ez általában elmarad, teljesen ellenőrizhetetlenné, megismételhetetlenné téve a kutatást. Szerintem Vickers nem említi, hogy a korpuszt, amelyiken saját elemzéseit végezte el, milyen szövegváltozatot tartalmaz.

Egy másik kérdés, amit az előadás kapcsán lehetne feszegetni ismét a szókapcsolatok témája köré rendezhető. Vickers ugyanis nem csak a szókapcsolatok gyakoriságát veszi a szerzőség megállapításának alapjául, hanem inkább adott szempontok szerint érdekes, különleges szókapcsolatokra figyel, és azok által kialakított mintázatok teszi központi helyre. Ennél a módszertannál két – nekem legalábbis érdekes – kérdés jut eszembe. Először azt a kérdést veti fel Vickers módszertana, hogy valójában az emberi tevékenység, az emberi intuícióra szükség van-e a kvantitatív módszerek alkalmazásakor is. Ez ahhoz a további kérdéshez vezet, hogy hol húzódik meg a határ a kvantitatív módszerek esetében az emberi tényező és a számítógép teljesítménye között. Másfelől ugyanezt a problémát úgy is felvethetjük, hogy mennyiben algoritmizálható az, amit eddig emberi intuíciónak neveztem. Az „adott szempont” vajon nem adható át a számítógépnek? Vajon milyen tanulási folyamat az, amelynek révén a számítógép is hasonlókat, hasonló alakzatokat keressen egy irodalmi szövegben, akár szerzőségi kérdések megállapításakor is, mint az ember? Ezek a kérdések pontosabban, részproblémákra szedve talán megválaszolhatóvá válnak, és akkor a számítógép más módokon is segítségére válhat az irodalomtudósnak, mint ahogy azt eddig használtuk.

Mielőtt azonban a kérdésekre elkezdenénk keresni a választ vagy a további elemzését maguknak a kérdéseknek, nézzük meg Vickers előadását.

Reneszánsz angol kultúra a digitális térben

2017. szeptember 28.

Vickers, a kvantitatív módszerek és az ember algoritmizálhatósága

Nincsenek megjegyzések:

Megjegyzés küldése