Mis juhtub, kui andmeteadlased kukuvad läbi Robinson Crusoe kolme sajandi jooksul?

MIS JUHTUB, KUI ANDA KOERALE LAIMI??! (Aprill 2019).

Anonim

Kuna Daniel Defoe laevavrakuna lugu "Robinson Crusoe" ilmus esmakordselt ligi 300 aastat tagasi, on tuhandeid väljaandeid ja spinoff-versioone avaldatud sadades keeltes.

Grant Glassi uurimisgrupp, Ph.D. Chapel Hillis Põhja-Carolina ülikooli inglise keele õppur ja võrdluskirjandus tahtsid teada, kuidas lugu muudeti erinevate väljaannete, jäljendite ja tõlgete järgselt ning näidati, millised osad olid aja testid.

Kõigi nende lugemine ühe päevaga peaks võtma aastaid. Selle asemel töötavad teadlased arvutid selleks, et neid teha.

Selle suve jooksul kasutasime Data + suveuuringute programmi Glass meeskond arvutialgoritme ja masinloetmismeetodeid 1482 Robinson Crusoe täis-tekstiga versioonide kaudu, mis on koondatud veebiarhiividest.

"Mitu korda me mõtleme kivi kleepuva raamatu, " ütles klaas. "Kuid selline projekt näitab teile, et see on räpane. Sellele on palju erinevusi."

"Kui te raamatu võtate, on oluline teada, mis see koopia on, sest see võib mõjutada seda, kuidas te lugu mõtlete, " ütles klaas.

Lihtsalt tekstide saamine kujul, mida arvuti saaks töödelda, osutus pooleks lahinguks, ütles ülikooli meeskonna liige Orgil Batzaya, hertsogi topeltmeister matemaatika ja infotehnoloogia valdkonnas.

Raamatud on juba skannitud ja postitatud veebis, nii et õpilased kasutasid skannimise Interneti-le allalaadimiseks tarkvarat, kasutades protsessi, milleks on kraapimine. Kuid vanade trükitud raamatute skannitud lehtede töötlemine, millest mõnedel juhtudel olid määrdunud, paksud või kulunud tüpograafiad, ja nende masinloetavas vormis muundamine osutus keerulisemaks, kui arvati.

Tarkvara võitleb kummaliste õigekirja ("deliver'd", "wish'd", "perswasions", "kallak" versus "shoar") dekodeerimiseks, eri kirjatüüpide vahel toimetükkide ja muude quirkide vahel.

18. sajandi kirjadest unikaalsed erimärgid, nagu kirja "s" uudishimulik f-kujuline versioon, muudavad isegi inimesi psühholoogilisest lugemisest "drifs" ja "poffible".

Nende esimesed katsed tulid välja gobbledygookiga. "Saadav optiline märgituvastus oli täiesti kasutu, " ütles meeskonna liige ja hertsog vanem Gabriel Guedes.

Augusti augustis Data + plakatite sessioonis tutvustasid Guedes, Batzaya ja ajalugu ja infotehnoloogia kahekordne suur Lucian Li oma esialgseid tulemusi: kollektsioon värviliste hajumistükkide, kaartide, voogaraktide ja joonte graafikute kohta.

Guedes osutas võrggraafi punktide klastritele. "Siin on punased väljaanded Ameerika, sinised väljaanded on Ühendkuningriigist, " ütles Guedes. "Võrgu graafik tuvastab kõigi nende väljaannete sarnasuse ja ühendab need kokku."

Kui nad skannitud lehti pöördusid masinloetavate tekstide poole, andis meeskond masinloetmisalgoritmi, mis mõõdab dokumentide sarnasust.

Algoritm võtab tekstid-laused, paragrahvid, isegi tervete romaanide osad - ja teisendab need kõrgmõõtmelisteks vektoriteks.

Iga sellise raamatu numbrilise esituse loomine, ütles Guedes, võimaldas neil matemaatilisi operatsioone teostada. Nad lisasid iga raamatu vektorid, et leida nende summa, arvutas keskmise ja otsis, milline väljaanne oli keskmise väljaande jaoks lähim. See osutus versioon Robinson Crusoe avaldatud Glasgow aastal 1875.

Nad analüüsisid ka konkreetsete graafikupunktide olulisust konkreetse trükise läheduse tuvastamisel "keskmisele" väljaandele: milline on hetk, kui Crusoe leiab jalajälg liival ja mõistab, et ta pole üksi? Või aeg, kui Crusoe ja reede pärast saare lahkumist lahingavad Püreneedes näljaseid hundi?

Meeskonna tulemused võivad olla häirivad neile, kes ei ole harjunud nägema 300 aasta pikkust kirjastamist, mida on vähendatud bar-diagrammiga. Kuid digitaalsete humanitaarteaduslike teadlaste arvu järgi, et võrrelda tuhandeid raamatuid korraga, on võimalik jälgida ulatuslikke mustreid ja suundumusi, mida inimesed ei saa üksikute raamatud üle kanda.

"See on tõesti ainult arvuti, mida saab teha, " sõnas Guedes, viidates aeglaselt kaardile, mis näitab, kuidas Crusoe lugu levib kogu maailmas, ehitatud 15 000 väljaande koha ja kuupäeva andmete põhjal.

"See on" kauge lugemise "vorm, " ütles Guedes. "Te kasutate seda tohutut teavet, et teha järeldusi avaldamise ajaloost, ideede liikumisest ja teadmistest üldiselt aja jooksul."

menu
menu