Asbjørn Ness
Asbjørn Ness Web

Follow

Asbjørn Ness Web

Follow
Hva Wayback Machine har lagret fra nettsiden din

Hva Wayback Machine har lagret fra nettsiden din

Asbjørn Ness's photo
Asbjørn Ness
·Aug 10, 2022·

4 min read

Wayback Machine lagrer innhold fra nettsiden din enten ved manuell lagring eller en algoritme som vurderer automatisk lagring. En ting som nesten er sikkert, er at siden din har en eller flere enkeltsider lagret i tjenesten. Her kan du lære hvilke sider de har.

Mac OS

Guiden tar utgangspunkt i at du har Mac OS, men med noen tilpassinger fungerer det også fint via Windows.

Hva du vil lære her

I dette innlegget vil jeg forklare hvordan du kan hente ned en fullstendig nettadresseliste over hva Wayback Machine har lagret fra nettsiden din. Du kan også søke etter domenet ditt på Wayback Machine, og få en visuell framstilling, men den er noe begrenset med tanke på en fullstendig oversikt.

I tillegg til å lage en nettadresseliste, vil jeg vise hvordan du også kan laste ned en kopi bestående av alle filene Wayback Machine har lagret fra nettsiden din, som du kan bla i lokalt på din datamaskin.

Før vi går videre

Opprinnelig gikk jeg rett på fremgangen med å bruke wayback-machine-downloader i dette innlegget. I ettertid kom jeg over en langt lettere metode, som du kan utføre rett i nettleseren uten å laste ned noe. Så jeg tar den lette fremgangsmetoden først.

Hent liste som .json

https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=json

Hent liste som .txt

https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=txt

Avgrens tidsrommet for listen

https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=txt&from=2020&to=2022

Avgrens antallet i listen

https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=txt&limit=998

wayback-machine-downloader

wayback-machine-downloader er et gratis program som jeg skal bruke til å laste ned både nettadresselisten og nettsidenefilene med. Du kan laste det ned som en ZIP-fil fra GitHub-siden til wayback-machine-downloader. Eller om du har git installert på datamaskinen, så kan du klone det med kommandoen:

git clone https://github.com/hartator/wayback-machine-downloader.git

Ruby

Du skal installere wayback-machine-downloader ved å bruke Ruby. En enkel måte å installere Ruby på, er å gjøre det via det mye bruke pakkehåndteringsverkøyet Homebrew. Så gjør det i følgende rekkefølge:

  1. Installer Homebrew: Se brukerveiledning på brew.sh

  2. Installer Ruby ved å bruke Homebrew: Se brukerveiledning på ruby-lang.org

  3. Installer wayback-machine-downloader ved å bruke Ruby: Les videre for hvordan

Installering av wayback-machine-downloader

Når du har Ruby ferdig installert. Når du har lastet ned (og pakket ut) programmet i en mappen, navigerer du fram til mappen i Terminal på Mac OS. Så taster du inn følgende kode:

gem install wayback_machine_downloader

Henting av nettadresser

Fremdeles i Terminal, og i samme mappe som wayback-machine-downloaders filer ligger, kan du nå kjøre følgende kommando for å hente ned en fullstendig nettadresseliste for ditt domene. Standardvalget til programmet er at kun den siste versjonen av en nettadresse hentes, men ved å legge til -s mot slutten av kommandoen, hentes alle versjoner. Husk å ta med -l mot slutten av kommandoen, ellers vil programmet starte å laste ned alle filene. Noe vi skal se på i neste punkt. Uansett, her er kommandoen. Erstatte domenet med ditt eget.

wayback_machine_downloader http://www.domene.no/ -s -l > logg.json

Det lagres nå en JSON-fil i mappen til wayback-machine-downloader. Det finnes mange verktøy på nettet for å konvertere en JSON-fil til Excel, eller du kan åpne den rett i et tekstbehandlerprogram og finpusse på filen selv. Selv tar jeg en kjapp vaskerunde i Sublime Text på følgende måter:

  • Søk og erstatt med regular expression (regex):

    • Erstatt {"file_url":" med ingenting.

    • Erstatt ","timestamp"(.\)* med ingenting

  • Edit > Extract Lines > Extract Unique: For å fjerne duplikater

  • Edit > Sort Lines: For å få en fin alfabetisk nettadresseliste

Resultatet hos meg for www.asbjornness.no var en liste med 38 unike nettadresser, her er hvordan litt av listen så ut før og etter vasking:

Før vasking

file_list_curated: 42
[
{"file_url":"https://www.asbjornness.no/","timestamp":20180127194545,"file_id":"20180127194545/"},
{"file_url":"https://www.asbjornness.no/","timestamp":20180203092746,"file_id":"20180203092746/"},
{"file_url":"https://www.asbjornness.no/","timestamp":20180204061033,"file_id":"20180204061033/"},
{"file_url":"https://www.asbjornness.no/","timestamp":20190425054755,"file_id":"20190425054755/"},
{"file_url":"https://www.asbjornness.no/blogg/","timestamp":20190425054816,"file_id":"20190425054816/blogg"},
{"file_url":"https://www.asbjornness.no/blogg/innlegg/","timestamp":20190425080201,"file_id":"20190425080201/blogg/innlegg"},
{"file_url":"https://www.asbjornness.no/blogg/innlegg/bloggarkivet-et-hobbyprosjekt/","timestamp":20190425054821,"file_id":"20190425054821/blogg/innlegg/bloggarkivet-et-hobbyprosjekt"},

Etter vasking

https://www.asbjornness.no/blogg/
https://www.asbjornness.no/blogg/innlegg/
https://www.asbjornness.no/blogg/innlegg/bloggarkivet-et-hobbyprosjekt/
https://www.asbjornness.no/blogg/innlegg/en-innforing-i-processwire/
https://www.asbjornness.no/blogg/innlegg/hvorfor-jeg-bruker-google-tag-manager/
https://www.asbjornness.no/blogg/innlegg/pdf-filer-pa-websiden-en-sjekkliste-for-du-laster-opp/
https://www.asbjornness.no/blogg/innlegg/slik-flytter-du-en-database-med-phpmyadmin/
https://www.asbjornness.no/blogg/innlegg/viktigheten-av-oppdaterte-apningstider/

Henting av filer

Som jeg streifen innom i forrige punkt, så er henting av filer nesten det samme som henting av nettadresser. Men her tar du altstå vekk -l i kommandoen. Da lagrer wayback-machine-downloader alle filene knyttet til dette nettstedet i en undermappe til wayback-machine-downloader-mappen. Tar du vekk -s fra kommandoen, så vil kun den nyeste versjonen av en side lagres. Det kan være nyttig for å unngå for mange filer:

wayback_machine_downloader http://www.domene.no/

Andre innstillinger for nedlasting

Fullstendig oversikt over parametre du kan legge til i kommandoen finner du på GitHub-siden til wayback-machine-downloader.

Eventuelle problemer

Har du problemer med å få installert alt, og får feilmeldinger på grunn av manglene tilganger. Legg til sudo foran kommandoen i Terminal, og tast inn ditt passord når du bes om det.

 
Share this