Wayback Machine lagrer innhold fra nettsiden din enten ved manuell lagring eller en algoritme som vurderer automatisk lagring. En ting som nesten er sikkert, er at siden din har en eller flere enkeltsider lagret i tjenesten. Her kan du lære hvilke sider de har.
Mac OS
Guiden tar utgangspunkt i at du har Mac OS, men med noen tilpassinger fungerer det også fint via Windows.
Hva du vil lære her
I dette innlegget vil jeg forklare hvordan du kan hente ned en fullstendig nettadresseliste over hva Wayback Machine har lagret fra nettsiden din. Du kan også søke etter domenet ditt på Wayback Machine, og få en visuell framstilling, men den er noe begrenset med tanke på en fullstendig oversikt.
I tillegg til å lage en nettadresseliste, vil jeg vise hvordan du også kan laste ned en kopi bestående av alle filene Wayback Machine har lagret fra nettsiden din, som du kan bla i lokalt på din datamaskin.
Før vi går videre
Opprinnelig gikk jeg rett på fremgangen med å bruke wayback-machine-downloader i dette innlegget. I ettertid kom jeg over en langt lettere metode, som du kan utføre rett i nettleseren uten å laste ned noe. Så jeg tar den lette fremgangsmetoden først.
Hent liste som .json
https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=json
Hent liste som .txt
https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=txt
Avgrens tidsrommet for listen
https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=txt&from=2020&to=2022
Avgrens antallet i listen
https://web.archive.org/cdx/search/cdx?url=eksempel.no*&output=txt&limit=998
wayback-machine-downloader
wayback-machine-downloader er et gratis program som jeg skal bruke til å laste ned både nettadresselisten og nettsidenefilene med. Du kan laste det ned som en ZIP-fil fra GitHub-siden til wayback-machine-downloader. Eller om du har git installert på datamaskinen, så kan du klone det med kommandoen:
git clone https://github.com/hartator/wayback-machine-downloader.git
Ruby
Du skal installere wayback-machine-downloader ved å bruke Ruby. En enkel måte å installere Ruby på, er å gjøre det via det mye bruke pakkehåndteringsverkøyet Homebrew. Så gjør det i følgende rekkefølge:
Installer Homebrew: Se brukerveiledning på brew.sh
Installer Ruby ved å bruke Homebrew: Se brukerveiledning på ruby-lang.org
Installer wayback-machine-downloader ved å bruke Ruby: Les videre for hvordan
Installering av wayback-machine-downloader
Når du har Ruby ferdig installert. Når du har lastet ned (og pakket ut) programmet i en mappen, navigerer du fram til mappen i Terminal på Mac OS. Så taster du inn følgende kode:
gem install wayback_machine_downloader
Henting av nettadresser
Fremdeles i Terminal, og i samme mappe som wayback-machine-downloaders filer ligger, kan du nå kjøre følgende kommando for å hente ned en fullstendig nettadresseliste for ditt domene. Standardvalget til programmet er at kun den siste versjonen av en nettadresse hentes, men ved å legge til -s mot slutten av kommandoen, hentes alle versjoner. Husk å ta med -l mot slutten av kommandoen, ellers vil programmet starte å laste ned alle filene. Noe vi skal se på i neste punkt. Uansett, her er kommandoen. Erstatte domenet med ditt eget.
wayback_machine_downloader http://www.domene.no/ -s -l > logg.json
Det lagres nå en JSON-fil i mappen til wayback-machine-downloader. Det finnes mange verktøy på nettet for å konvertere en JSON-fil til Excel, eller du kan åpne den rett i et tekstbehandlerprogram og finpusse på filen selv. Selv tar jeg en kjapp vaskerunde i Sublime Text på følgende måter:
Søk og erstatt med regular expression (regex):
Erstatt {"file_url":" med ingenting.
Erstatt ","timestamp"(.\)* med ingenting
Edit > Extract Lines > Extract Unique: For å fjerne duplikater
Edit > Sort Lines: For å få en fin alfabetisk nettadresseliste
Resultatet hos meg for www.asbjornness.no var en liste med 38 unike nettadresser, her er hvordan litt av listen så ut før og etter vasking:
Før vasking
file_list_curated: 42
[
{"file_url":"https://www.asbjornness.no/","timestamp":20180127194545,"file_id":"20180127194545/"},
{"file_url":"https://www.asbjornness.no/","timestamp":20180203092746,"file_id":"20180203092746/"},
{"file_url":"https://www.asbjornness.no/","timestamp":20180204061033,"file_id":"20180204061033/"},
{"file_url":"https://www.asbjornness.no/","timestamp":20190425054755,"file_id":"20190425054755/"},
{"file_url":"https://www.asbjornness.no/blogg/","timestamp":20190425054816,"file_id":"20190425054816/blogg"},
{"file_url":"https://www.asbjornness.no/blogg/innlegg/","timestamp":20190425080201,"file_id":"20190425080201/blogg/innlegg"},
{"file_url":"https://www.asbjornness.no/blogg/innlegg/bloggarkivet-et-hobbyprosjekt/","timestamp":20190425054821,"file_id":"20190425054821/blogg/innlegg/bloggarkivet-et-hobbyprosjekt"},
Etter vasking
https://www.asbjornness.no/blogg/
https://www.asbjornness.no/blogg/innlegg/
https://www.asbjornness.no/blogg/innlegg/bloggarkivet-et-hobbyprosjekt/
https://www.asbjornness.no/blogg/innlegg/en-innforing-i-processwire/
https://www.asbjornness.no/blogg/innlegg/hvorfor-jeg-bruker-google-tag-manager/
https://www.asbjornness.no/blogg/innlegg/pdf-filer-pa-websiden-en-sjekkliste-for-du-laster-opp/
https://www.asbjornness.no/blogg/innlegg/slik-flytter-du-en-database-med-phpmyadmin/
https://www.asbjornness.no/blogg/innlegg/viktigheten-av-oppdaterte-apningstider/
Henting av filer
Som jeg streifen innom i forrige punkt, så er henting av filer nesten det samme som henting av nettadresser. Men her tar du altstå vekk -l i kommandoen. Da lagrer wayback-machine-downloader alle filene knyttet til dette nettstedet i en undermappe til wayback-machine-downloader-mappen. Tar du vekk -s fra kommandoen, så vil kun den nyeste versjonen av en side lagres. Det kan være nyttig for å unngå for mange filer:
wayback_machine_downloader http://www.domene.no/
Andre innstillinger for nedlasting
Fullstendig oversikt over parametre du kan legge til i kommandoen finner du på GitHub-siden til wayback-machine-downloader.
Eventuelle problemer
Har du problemer med å få installert alt, og får feilmeldinger på grunn av manglene tilganger. Legg til sudo foran kommandoen i Terminal, og tast inn ditt passord når du bes om det.