Az ArchiveTeamről

Bevezető

Az ArchiveTeam egy országokon átnyúló internetes szerveződés, amely önkéntes, amatőr archivistákból áll, és melynek elsődleges célja, hogy az olyan weboldalak, melyek sok felhasználói tartalmat gyűjtenek (pl. közösségi oldalak, ingyenes webtárhely-szolgáltatók, képmegosztók stb.), ne szűnhessenek meg úgy, hogy az általuk tárolt adatok is elvesznek.

Az ArchiveTeamet Jason Scott alapította 2009 elején, miután elege lett abból, hogy a felhasználói tartalmakat hosztoló cégek minden szívfájdalom nélkül törlik az adatokat, amint úgy érzik, hogy nem kívánják tovább üzemeltetni a szolgáltatást.

Az ArchiveTeam azóta százas nagyságrendő aktív taggal, számos közösen fejlesztett szoftvereszközzel gazdagodott, százas nagyságrendű projekten és megszámlálhatatlanul sok weboldal mentésén van túl.

Fontosabb projektek

Az ArchiveTeam első nagy projektje még 2009-ben a Geocities nevű ingyenes webhoszting szolgáltatás volt, amely saját készítésű kis weboldalak millióit tárolta, egészen a 90-es évekig visszamenőleg. Rendkívül fontos kordokumentum abból az időszakból, amikor az emberek még csak ismerkedtek a webbel és a weblapkészítéssel. Azon weboldalak archívuma, amit sikerült menteni, tömörítve 650 gigabájt méretű (és mellesleg a belőle készült torrent a világ második legnagyobb méretű seedelt torrentje volt akkor).

Ez azonban csak a kezdet volt. Az évek során számos kisebb-nagyobb weboldalt sikerült közösen archiválnia a csapatnak, és itt a kisebb egy idő után már a néhány terabájt nagyságrendet is jelentette. Néhány igazán nagy és ismert weboldal, ami az ArchiveTeamnek köszönhetően marad meg az utókornak:

Eszközök

ArchiveTeam Warrior

Az ekkora méretű weboldalakat nyilván nem tudja egy-két ember letölteni. Erre a célra az ArchiveTeam kifejlesztett egy rendszert, melynek révén bárki – szakértelem nélkül is – beszállhat az archiválásba. Az ArchiveTeam Warrior egy virtuális gép, amit bárki letölthet és elindíthat, és részt vehet az éppen futó projektek archiválásában.

A Warrior tartalmazza, illetve beszerzi azt a szkriptet, amely letölt egy feladatot a követőről, elvégzi az archiválást, majd feltölti az archívumot az ArchiveTeam szerverére, ahonnan az végül majd az Internet Archívumba kerül.

A Warrior nemcsak azért hasznos nagy weblapok archiválásánál, mert a felhasználók sávszélessége összeadódik, hanem azért is, mert egy-egy kevésbé együttműködő webhely nem tudja IP cím alapján kitiltani a letöltőket.

A követő (tracker)

Hogy az archiválás szervezett és elosztható legyen, az archiválandó weboldalt, szolgáltatást kis, egyénileg menthető elemekre bontják (pl. egy adott felhasználó profilja, egy videó, képek egy csoportja stb.). A Warrior egyszerre egy ilyen feladatleírást kap, és ez alapján dolgozik. Maguk az elemek (itemek) szétosztása és nyilvántartása az ArchiveTeam Trackeren keresztül történik. Itt követhető egyúttal bárki számára, hogy hogy áll az archiválás, és melyik felhasználó mennyi adatot archivált az adott projektben.

ArchiveBot

Az ArchiveBot egy rendkívül hasznos és könnyen kezelhető rendszer, mellyel bárki kezdeményezheti egy kisebb weboldal archiválását. A Hackint #archivebot IRC csatornájába lépve – és voice jogot kérve, vagy egy voice joggal rendelkező felhasználót megkérve – a megfelelő parancs kiadásával elindul egy webhely alapos és teljes archiválása. A háttérben a feladat egy csaltakoztatott szervernek kerül elküldésre, ahol a megfelelő programkészlet elvégzi az archiválást. Az ArchiveBot képes akár több százezer URL-ből álló, több száz gigabájtos webhelyek automatikus archiválására, Warrior projekt készítése nélkül.

Wpull

A wpull kifejezetten az ArchiveTeam igényeire szabott továbbfejlesztése a wget nevű régi és ismert Linuxos programnak. Webes fájlokat vagy teljes weboldalakat lehet vele letölteni parancssorból. Kezdettől fogva támogatja a WARC formátumot, és az URL-ek fájladatbázisban tárolása révén megszakíthatóvá és folytathatóvá tesz egy archiválási folyamatot. Lehetőséget nyújt arra is, hogy Python szkriptet kapcsoljunk hozzá, és módosítsuk a program működését.

Aki saját maga szeretne archiválni kisebb weboldalakat, annak javasolt ezzel a programmal megismerkedni és dolgozni.

Az adatok tárolása

Az ArchiveTeam 2009-es létrejötte óta több petabájtnyi (több millió gigabájtnyi) adatot mentett le megszűnő weboldalakról. Ekkora adatmennyiség tárolásához nagy adatközpontok szükségesek. Az ArchiveTeam saját infrastruktúráján csak átmenetileg tárolja egy-egy projekt archívumfájljait. Ezek végül az Internet Archívumba kerülnek.

A webes tartalmak mentésekor az ArchiveTeam mindig a WARC formátumot részesíti előnyben. Egy WARC fájl egy, akár több tíz gigabájtos tömörített fájl, amely nemcsak a letöltött fájlok tartalmát, de a HTTP kérés-válasz adatait is tartalmazza. Az Internet Archívum Wayback Machine szolgáltatása az ilyen fájlokból hűen képes rekonstruálni egy webhely adott időpontbeli állapotát.

Az Internet Archívum

Az Internet Archívum az ArchiveTeamtől független szervezet. Az IA lényegében egy hatalmas adatközpont és könyvtár, amely közel 100 petabájtnyi adatot tárol, elsősorban weboldalakat, digitalizált könyveket, zenét, TV- és hírműsorokat, illetve szoftvereket, mindenki számára ingyenesen és nyilvánosan hozzáférhetően.

Az ArchiveTeam két ponton kapcsolódik az Internet Archívumhoz:

Egyebekben a két szervezet egymástól teljesen független, szerveződésük és munkamódszereik is különbözőek. Az Internet Archívum egy hivatalosan és jogszerűen működő nonprofit szervezet, 150 fizetett alkalmazottal, és adományokból tartja fenn magát. Az ArchiveTeam egy hivatalosan be nem jegyzett, amatőrökből és szabadidős profikból álló szerveződés, ad-hoc projektekkel, és olykor a jogszerűség korlátait átlépő tevékenységgel.

Fontos tudni, hogy az Internet Archívum magától is (sőt, már jóval az ArchiveTeam megszületése előtt, a 90-es évektől kezdve) archiválja a világ weboldalait. A Wayback Machine-be beírva bármilyen weblap címét, nagy valószínűséggel meg tudod tekinteni, hogy nézett ki régen – akkor is, ha azóta már megszűnt a weblap!

Hogyan lehet segíteni?

Az internet hatalmas, bőven van mit archiválni. Az alábbiakban összefoglaljuk, hogyan lehet a leghatékonyabban segíteni az ArchiveTeam munkáját, céljait.

Programozással

Minden weboldal más és más szerkezetű. Ha alaposan archiválni akarunk egy weboldalt, akkor fel kell térképezni, hogyan szerveződnek az adatok (pl. felhasználói profilok, képek stb.). Fel kell fedezni az összes elérhető elemet, majd megírni azt a programot, ami egy-egy elem összes hozzá tartozó URL-jét letölti. Ez komoly és alapos munkát kíván meg. Az ArchiveTeam tagjai csak szabadidejükben érnek rá a projekttel foglalkozni, ezért a leghasznosabb segítség, ha valaki elvállalja egy-egy projekt programjának megírását. Olykor erre kevés idő van, mert néha csak röviddel a megszűnés előtt tudjuk meg, hogy egy weboldal bezárja kapuit.

Az ArchiveTeam kialakította azt a szoftveres keretrendszert, amelynek felhasználásával, kiegészítésével készíti Warrior projektjeit. Ennek részletes leírását itt találod. Példákért, illetve az ArchiveTeam összes szoftverének forráskódjáért látogasd meg a Github repójukat.

Jelzéssel

Amennyire egyszerű, annál fontosabb! Sok weboldalt csak azért nem tud megmenteni az ArchiveTeam, mert nem tud a megszűnéséről! Különösen igaz ez a nem angol nyelvű webhelyekre. (Az ArchiveTeam leginkább angol nyelvű, ill. nemzetközi szolgáltatásokat figyel, de bármely országban működő weboldalt szívesen lement, ha tud róla.) Úgyhogy ha tudomásodra jut, hogy egy weboldal meg fog szűnni, vagy várhatóan már nem sokáig húzza, lépj be az #archiveteam Hackint IRC csatornára, és jelezd (angolul)! Ha nem tudsz angolul, vagy a weblap kifejezetten magyar vonatkozású, akkor írj az ArchiveTeam Magyarországnak (kapcsolat [kukac] archiveteam [pont] hu)!

Pénzzel

Maguk az ArchiveTeam önkéntesei az idejüket, számítógépüket, korlátozott tárolókapacitásukat legtöbbször saját pénzből finanszírozzák, és általában nem is várnak ellenszolgáltatást. Nem is ők kérik a pénzbeli támogatásokat.

Az Internet Archívum azonban kiépített egy olyan adatközpontot, amely vetekszik a legnagyobb informatikai cégekével, azonban nem végez kereskedelmi tevékenységet, és reklámokból sincs bevétele. Csak magánszemélyek és cégek adományaira számíthat, és ehhez ragaszkodik, mert nem akar nagy cégek vagy a kormány befolyása alá kerülni, független akar maradni, mert szerintük az információk pártatlan és korlázotások nélküli közlésének ez a záloga. Úgyhogy javasoljuk, ismerd meg az Internet Archívum tevékenységét, és ha azonosulsz a céljaikkal, akkor támogasd őket!

Tipp: Az év bizonyos szakaszaiban, különösen decemberben, egyes cégek vállalják, hogy minden magánszemély adományához ugyanannyival, vagy akár annak kétszeresével csatlakoznak, így adományod akár háromszor annyit is érhet!

ArchiveBot szerver üzemeltetéssel

Az ArchiveBot az ArchiveTeam egyik legnépszerűbb szolgáltatása (lásd fent). Működéséhez nagy teljesítményű és tárolókapacitású szerverek szükségesek, amelyek akár hónapokon át megszakítás nélkül üzemelnek, hiszen egy nagyobb weboldal több millió URL-ből is állhat, és ennek mentése idő- és tárhelyigényes. Mivel egy gép több archiválási folyamatot is kezel egyszere, ezért processzor és memória tekintetében is erős vasnak kell lennie. (Itt nézheted meg a pillanatnyilag működő szervereket.) Ha véletlenül van ilyen géped (tárhelyszolgáltatók előnyben...), amit a jó cél érdekében közhasználatra bocsátanál, vedd fel a kapcsolatot az ArchiveTeammel (ha nem tudsz angolul, akkor az ArchiveTeam Magyarországgal). Technikai részletek itt.

Tájékoztatással

Az ArchiveΤeamet, illetve céljaikat még mindig csak nagyon kevesen ismerik, különösen a nem angol ajkú országokban. A világ sok weboldala elvész csak azért, mert nincs egy csapat, amelyik utána menne a megszűnő szolgáltatásoknak. Úgyhogy terjeszd az igét Te is!

ArchiveTeam Warrior üzemeltetéssel

Ez az utolsó helyre került, mert – a kezdeti évektől eltérően – ma már bőven van az ArchiveTeamnek annyi önkéntese, hogy egy weboldal archiválásánál nem a működő Warrior példányok (vagy szkriptek) száma a szűk keresztmetszet. Valójában aki elindít napjainkban egy Warriort, azt tapasztalja, hogy alig kap feladatot, mert a követő korlátozza a kiosztható feladatok számát. Ez azért van, mert máskülönben túlterhelnénk az archiválandó webszervert. Úgyhogy indíthatsz Warriort, de sokat fog üresjáratban menni.

Ha azon tűnődsz, hogyan tudnád egész nap működő számítógéped szabad kapacitását hasznos célra fordítani, keress rá erre: BOINC. Semmi köze az ArchiveTeamhez vagy az archiváláshoz, hanem tudományos kutatásokban vehet részt vele bárki, de ott mindig van feladat, és számos különféle tudományterületből válogathatsz.

Van még kérdésed?

Ha tudsz angolul, akkor a következő forrásokat ajánljuk az ArchiveTeamről való tájékozódáshoz:

Ha nem tudsz angolul, akkor bátran kérdezz e-mailben: kapcsolat [kukac] archiveteam [pont] hu.

Természetesen ez a tájékoztató lehet, hogy egyébként is bővülni fog idővel.