Asbjørn Ness
Asbjørn Ness Web

Follow

Asbjørn Ness Web

Follow
Å ta vare på nettsiden for ettertiden

Photo by Josh Redd on Unsplash

Å ta vare på nettsiden for ettertiden

Asbjørn Ness's photo
Asbjørn Ness
·Aug 5, 2022·

4 min read

I dette innlegget skal jeg ta for meg den gamle traveren Wayback Machine, som har arkivert nettsider siden 1996, og hvordan du kan lagre dine nettsider hos tjenesten.

En av mine digitale interesser er å ta vare på innhold som kan være nyttig eller spennende å se igjen senere. Derfor bruker jeg ofte Wayback Machine til å lagre eget innhold, eller andre nettsider jeg ønsker å finne igjen.

Da jeg opprinnelig skrev dette innlegget i april 2019, som du forøvrig kan lese nettopp via Wayback Machine (archive.org), var det før Wayback Machine innførte begrensninger på hvor mange nettadressen man kunne sende inn per minutt. I skrivende stund er grensen å sende inn fem innlegg per minutt. Så det vi skal gjøre i denne veiledningen er å hente ned en ruby gem fra GitHub, gjøre noen endringer i en fil, og så bruke ruby gem-en til å sende inn maks fem sider per minutt.

Lagre enkle sider

Har du en nettadresse så kan du med stor sannsynlighet lagre den til Wayback Machine, så sant eieren av siden ikke har laget en fil (robots.txt) på nettsiden sin hvor de spesifikt ber Wayback Machine om ikke å arkivere siden. Du kan gå til Wayback Machine og lime inn nettadressen i et felt der, og siden er lagret. Eventuelt finnes det nettleserutvidelsene Wayback Machine Extension til Google Chrome (google.com) og Wayback Machine Add-on til Firefox (mozilla.org) som tilbyr denne funksjonaliteten rett fra nettleseren.

Finne igjen enkle sider

På Wayback Machine kan du søke etter spesifikke nettadresser. Eventuelt kan du søke etter domenet, og bla i et sidekart. Se sidekartet for Asbjørn Ness Web på Wayback Machine (archive.org). Nettsiden lar deg bla tilbake i tid og mellom ulike versjoner av enkeltsider på flere måter, via en kalendervisning blant annet.

Lagre flere sider

Har du en større nettside som du i helhet ønsker å arkivere, så finnes det flere metoder for lagring. En forholdsvis enkel metode, men som likevel krever nok innsikt i kommandolinje og Ruby (rubyinstaller.org) er en ruby gem som heter wayback_archiver (github.com). Den lar deg sende inn en eller flere nettadresser på flere ulike måter. Standardmetoden når man ikke spesifiserer innsendingsmåte er å søke etter sidekartet og sende inn hele siden.

Ved å installere wayback_archiver og bruke følgende kommando i kommandolinjen, har jeg sendt inn hele Asbjørn Ness Web til Wayback Machine. Ved innsendingstidspunktet var det et par hundre unike nettadresser, som hadde vært urealtistisk mange å sende inn enkeltvis via Wayback Machines nettside (archive.org) eller nettleserutvidelse.

Først så henter du wayback_archiver fra GitHub:

git clone https://github.com/buren/wayback_archiver.git

Deretter går du inn i mappen med filene du klonet, og navigerer deg frem til og åpner archive.rb i et tekstredigeringsverktøy. Den finner du ved å gå til undermappen lib, og deretter til wayback_archiver-mappen.

Der legger du inn sleep(13) på en ny linje som blir linje 44. Da blir det seende sånn ut:

urls_queue.each do |url|
  pool.post do
    result = post_url(url)
    yield(result) if block_given?
    posted_urls << result unless result.errored?
    sleep(13)
  end
end

Denne gjøre at en ny side blir arkivert kun hvert 13. sekund, noe som betyr at det aldri vil overskride fem sider i minuttet som er grensen.

Naviger deg tilbake til hovedmappen til wayback_archiver som du klonet med ditt kommandolinjeverktøy, og skriv inn koden for å kompilere ruby gem-en:

gem build wayback_archiver.gemspec

Og deretter installerer du den:

 gem install wayback_archiver-1.4.0.gem

Merk at dette gjelder versjon 1.4.0, og at denne kan ha blitt oppdatert i ettertid av at jeg skriver denne veiledningen. Så gjør nødvendige endringer her.

Når alt over er gjennomført, så er det på tide å sette i gang arkiveringen med følgende kommando:

wayback_archiver https://www.snobjorn.no/sidekart/

Det hele vil se sånn ut. På tidspunktene ser du at det er over 13 sekunder mellom første og andre Posted-oppføring.

Noen ord på slutten

Det finnes flere godbiter på GitHub relatert til Wayback Machine, så jeg anbefaler de interesserte i å søke litt rundt. Skulle du ønske å legge til en eller flere sider, eller laste ned en eller flere sider, men verken kan eller har anledning til å sette deg inn i metodene over, ta kontakt med Asbjørn Ness Web for å bestille et oppdrag.

 
Share this