12
Juli
2023
17:25

Ersetzen des Wget-Dienstprogramms durch Wget2

12 Juli 2023 17:25

Das Dienstprogramm Wget2 bietet die gleichen Funktionen wie Wget, die Geschwindigkeit ist jedoch aufgrund der parallelen Ausführung von Anforderungen um das Fünf- bis Zehnfache erhöht.

Um die gesamte Site (Spiegel) herunterzuladen, eine vorhandene Site auf defekte Links (404) zu überprüfen oder eine Datei herunterzuladen, verwenden Sie das Befehlszeilendienstprogramm Wget. Für dieses Dienstprogramm gibt es einen kostenlosen und verbesserten Ersatz – Wget2, der von einem anderen Programmierer geschrieben wurde.

Die Hauptverbesserung von Wget2 ist Multithreading, wodurch das Laden einer Site oder deren „Umgehung“ über Links um das 5- bis 10-fache beschleunigt wird.

Das Programm muss aus dem Quellcode kompiliert werden.

https://github.com/rockdaboot/wget2

  1. Zuerst habe ich die Pakete aktualisiert:

    sudo apt-get update
    sudo apt-get upgrade

  2. Installierte die für die Kompilierung erforderlichen Pakete:

    sudo apt-get install autoconf autogen automake autopoint libtool python3 rsync tar pkg-config doxygen pandoc gettext libgnutls30 libidn12 flex libpsl5 libnghttp2-14 lcov

  3. Zusammenstellung und Installation

Von Anweisungen für sie „Herunterladen und Erstellen aus Tarball“:

wget https://gnuwget.gitlab.io/wget2/wget2-latest.tar.gz

tar xf wget2-latest.tar.gz
cd wget2-
./configure
machen
Scheck machen
sudo make install

Das Programm wird im Ordner installiert /usr/local/bin/wget2

  1. Hilfe anrufen:

    man wget2

Die Verwendung des Dienstprogramms wget2 unterscheidet sich nicht von wget – die Programmschlüssel sind dieselben.

  1. Laufendes Beispiel: Überprüfung einer Website auf „defekte“ 404-Links:

    wget2 -o out.log -m -l 3 --save-content-on "404" -T 2 http://example.com/

wo:

-o – Protokolldatei
-m – „Spiegel“ – Spiegelkopie mit Ordnern und Dateien
-l 3 – Verschachtelungsebene für Übergänge

--save-content-on „404“ – nur speichern, wenn 404-Code zurückgegeben wird
-T 2 – Antwortwartezeit.

Es werden nur Serviceseiten wie „404“ gespeichert, die beim Crawlen der Seite über interne Links nicht gefunden wurden und deren Adressen fehlerhafte Links identifiziert werden können.

Mit diesen Einstellungen werden kontinuierlich Anfragen gestellt, was für lokale Websites optimal ist.
Für die Websites anderer Leute empfehle ich das Hinzufügen einer Pause -w 2 – der Wartezeit in Sekunden (2s) zwischen Anfragen.


MAN Wget2 auf Russisch

WGET2(1) GNU Wget2 2.0.1 WGET2(1)

Name
Wget2- Rekursiver Metalink-/Datei-/Website-Downloader.

Kurzer Überblick
wget2 [Optionen]... [URL]...

Beschreibung
GNU Wget2 ist ein kostenloses Dienstprogramm zum nicht-interaktiven Herunterladen von Dateien aus dem Internet. Es unterstützt HTTP- und HTTPS-Protokolle sowie das Abrufen von Informationen über HTTP(s)-Proxys.

Wget2 ist ein nicht interaktives Tool, das heißt, es kann im Hintergrund ausgeführt werden, während der Benutzer nicht angemeldet ist. Auf diese Weise können Sie mit dem Abrufen von Informationen beginnen und die Verbindung zum System trennen, sodass Wget2 seine Arbeit beenden kann. Im Gegenteil erfordern die meisten Webbrowser eine ständige Benutzerpräsenz, was bei der Übertragung großer Datenmengen ein großes Hindernis darstellen kann.

Wget2 kann Links in HTML-, XHTML-, CSS-, RSS-, Atom- und Sitemap-Dateien folgen, um lokale Versionen von Remote-Websites zu erstellen und dabei die Verzeichnisstruktur der ursprünglichen Website vollständig wiederherzustellen. Dies wird manchmal als rekursives Laden bezeichnet. Wget2 respektiert jedoch den Robot-Ausschlussstandard (/robots.txt). Wget2 kann angewiesen werden, Links in heruntergeladenen Dateien so zu konvertieren, dass sie zur Offline-Anzeige auf lokale Dateien verweisen.

Wget2 wurde entwickelt, um Zuverlässigkeit bei langsamen oder instabilen Netzwerkverbindungen zu gewährleisten. Wenn der Download aufgrund eines Netzwerkproblems fehlschlägt, versucht das Dienstprogramm es erneut, bis die gesamte Datei wiederhergestellt ist. Wenn der Server einen teilweisen Download unterstützt, wird er dort fortgesetzt, wo er aufgehört hat.

Wget2-Optionen

Optionssyntax

Optionen sind optionale Zusatzparameter, mit denen sich das Verhalten des Programms steuern lässt. - ca. Übersetzer

Jede Optionsoption hat eine Langform und manchmal eine Kurzform. Lange Optionen sind leichter zu merken, die Eingabe dauert jedoch länger. Sie können verschiedene Arten von Optionen frei kombinieren. Man könnte also schreiben:

wget2 -r --tries=10 https://example.com/ -o log

Das Leerzeichen zwischen der Option, die ein Argument annimmt, und dem Argument selbst kann weggelassen werden. Anstelle von -o log können Sie auch -olog schreiben.

Sie können mehrere Optionen kombinieren, die keine Argumente erfordern, wie zum Beispiel:

wget2 -drc URL

Was ist gleichwertig

wget2 -d -r -c URL

Da nach den Argumenten weitere Optionen angegeben werden können, können Sie diese durch -- trennen. Der folgende Befehl versucht also, die -x-URL zu laden und meldet den Fehler im Protokoll:

wget2 -o log -- -x URL

Optionen, die durch Kommas getrennte Argumentlisten akzeptieren, folgen der Konvention, dass das Hinzufügen von -no ihren Wert löscht. Dies kann zum Bereinigen der .wgetrc-Einstellungen nützlich sein. Wenn Ihr .wget2rc beispielsweise „exclude-directories“ auf „/cgi-bin“ setzt, setzt die Option „--no-exclude-directories“ diese Einstellung zunächst zurück und setzt sie dann auf „exclude/priv“ und „/trash“. Sie können auch Listen in der .wget2rc-Datei löschen.

wget2 --no-exclude-directories -X /priv,/trash

Die meisten Optionen, die keine Argumente annehmen, sind boolesche Optionen. Sie werden so genannt, weil ihr Zustand mithilfe einer „booleschen“ Variablen erfasst werden kann. Ein boolescher Parameter kann entweder positiv oder negativ sein (beginnend mit --no-). Alle diese Optionen haben mehrere gemeinsame Eigenschaften.

Bejahende Optionen können in negative Optionen umgewandelt werden, indem dem Optionsnamen das Präfix --no- vorangestellt wird. Negative Optionen können in positive umgewandelt werden, indem das Präfix --no- weggelassen wird. Dies mag überflüssig erscheinen – wenn die Standardeinstellung für eine „positive“ Option darin besteht, etwas nicht zu tun, warum sollte dann eine Möglichkeit bereitgestellt werden, sie explizit zu deaktivieren? Die Startdatei kann jedoch tatsächlich die Standardeinstellungen ändern. Wenn Sie beispielsweise die Option TimeStamping=on in .wget2rc verwenden, wird WGET2 angewiesen, nur aktualisierte Dateien herunterzuladen. Die Verwendung der Option --no-timestamping ist die einzige Möglichkeit, den werkseitigen Standardwert der Option über die Befehlszeile wiederherzustellen.

Grundlegende Startoptionen für Wget2

-V, --version
Wget2-Version anzeigen.

-h, -help
Gibt eine Hilfemeldung aus, die alle WGET2-Befehlszeilenoptionen beschreibt.

-b, --background
Senden Sie die Anwendung sofort nach dem Start in den Hintergrund. Wird über -o keine Ausgabedatei angegeben, wird die Ausgabe in die Datei „wget-log“ umgeleitet.

-e, -execute-command
Führen Sie den Befehl aus, als wäre er Teil von .wget2rc. Ein auf diese Weise deklarierter Befehl wird nach den Befehlen in .wget2rc ausgeführt und überschreitet somit seine Priorität. Wenn Sie mehr als einen WGET2RC-Befehl angeben müssen, verwenden Sie mehrere Instanzen von -e.

--hyperlink
Verwenden Sie Hyperlinks anstelle der Namen heruntergeladener Dateien, damit diese durch Anklicken vom Terminal aus geöffnet werden können. Derzeit unterstützen nur wenige Terminalemulatoren Hyperlinks. Aktivieren Sie diese Option, wenn Sie wissen, dass Ihr Terminal Hyperlinks unterstützt.

Protokoll- und Eingabedateioptionen

-o,--output-file = logfile
Drucken Sie alle Laufzeitmeldungen in die Protokolldatei. Andernfalls werden Fehlermeldungen in den Standardstream geschrieben.

-a,-append-output = logfile
Zur Protokolldatei hinzufügen. Dies ist dasselbe wie -o, nur wird es an das Protokoll angehängt, anstatt die alte Protokolldatei zu überschreiben. Wenn die Protokolldatei nicht vorhanden ist, wird eine neue Datei erstellt.

-d, --debug
Aktivieren Sie das Debuggen, das verschiedene Informationen enthält, die für WGET2-Entwickler wichtig sind, wenn es nicht wie erwartet funktioniert. Weil der Systemadministrator möglicherweise beschlossen hat, wget2 ohne Debugging-Unterstützung zu kompilieren. In diesem Fall funktioniert -d nicht. Bitte beachten Sie, dass das Kompilieren mit Debug-Unterstützung immer sicher ist. WGET2, das mit Debug-Unterstützung kompiliert wurde, gibt keine Debug-Meldungen aus, es sei denn, die Option -d wird explizit angegeben.

-q, -quiet
Deaktivieren Sie die Ausgabe von WGET2.

-v, --verbose
Aktivieren Sie die Mehrwortausgabe mit allen verfügbaren Daten. Die Ausgabe ist standardmäßig ausführlich.

-nv, --no-verbose
Deaktivieren Sie die ausführliche Ausgabe. Dieser Modus ist nicht völlig lautlos (verwenden Sie dazu -Q), was bedeutet, dass Fehlermeldungen und grundlegende Informationen weiterhin gedruckt werden.

--report-speed=type
Zeigen Sie eine horizontale Geschwindigkeitsanzeigeleiste mit Geschwindigkeitswerten im Typ an. Die einzigen akzeptierten Werte für den Typ sind Bytes (was die Standardeinstellung ist) und Bits. Diese Option funktioniert nur, wenn auch --progress=bar gesetzt ist.

-i,--input-file=file
Lesen Sie URLs aus einer lokalen oder externen Datei mit einer Liste von URLs. Wenn „-“ als Datei angegeben ist, werden die URLs aus der Standardeingabe gelesen. Verwenden Sie ./-, um aus einer Datei mit dem wörtlichen Namen „./-“ zu lesen.

Wenn diese Option verwendet wird, ist die Angabe der URL in der Befehlszeile nicht erforderlich. Wenn sowohl in der Befehlszeile als auch in der Datei „--input-file“ URLs vorhanden sind, werden zuerst die in den Befehlszeilen übergebenen URLs extrahiert. Es wird erwartet, dass die Datei eine Liste von Adressen enthält, eine URL pro Zeile, mit Ausnahme einer der --force-Optionen, die ein anderes Format angibt.
wenn Sie angegeben haben --force-html, das Dokument wird als HTML behandelt. In diesem Fall können Probleme mit relativen Links auftreten, die Sie durch Hinzufügen von <link> beheben können.«base href="url"» Etikett in Dokumenten oder durch Angabe --base=url auf der Kommandozeile.

Wenn Sie angegeben haben --force-css, wird das Dokument mit Links als CSS behandelt.

Wenn Sie angegeben haben --force-sitemap, wird das Dokument als XML-SiteMap behandelt.

Wenn Sie angegeben haben --force-atom, wird das Dokument als Atom-Feed behandelt.

Wenn Sie angegeben haben --force-rss, wird das Dokument als RSS-Feed behandelt.

Wenn Sie angegeben haben --force-metalink, wird das Dokument als Beschreibung von Metalink betrachtet.

Wenn Sie Probleme mit relativen Links haben, sollten Sie verwenden --base=url auf der Kommandozeile.
-F, --force-html
wenn eine Webseite mit der Option --input-file=file als Eingabedatei betrachtet wird, erzwingen Sie, dass sie als HTML-Datei behandelt wird. Dadurch können Sie Dateien über relative Links aus vorhandenen HTML-Dateien auf Ihrer lokalen Festplatte extrahieren, indem Sie entweder „“ zum HTML hinzufügen oder die Option -base in der Befehlszeile verwenden.

--force-css
Eingabedatei als CSS lesen und analysieren. Dadurch können Sie Links aus vorhandenen CSS-Dateien auf Ihrem lokalen Laufwerk extrahieren. Sie benötigen den Schalter -base, um relative Links korrekt zu verarbeiten.

--force-sitemap
Eingabedatei als Sitemap-XML lesen und analysieren. Dadurch können Sie Links aus vorhandenen Sitemaps auf Ihrem lokalen Laufwerk extrahieren. Sie benötigen den Schalter -base, um relative Links korrekt zu verarbeiten.

--force-atom
Lesen und analysieren Sie die Eingabedatei als Atom-XML-Feed. Dadurch können Sie Links aus vorhandenen Atom-XML-Feeddateien auf Ihrer lokalen Festplatte extrahieren. Sie benötigen den Schalter -base, um relative Links korrekt zu verarbeiten.

--force-rss

Lesen und analysieren Sie die Eingabedatei als RSS-XML-Feed. Dadurch können Sie Links aus vorhandenen RSS-XML-Feeddateien auf Ihrem lokalen Laufwerk extrahieren. Sie benötigen den Schalter -base, um relative Links korrekt zu verarbeiten.

--force-metalink
Lesen und analysieren Sie die Eingabedatei als Metalink-Datei. Dadurch können Sie Links aus vorhandenen Metalink-Dateien auf Ihrem lokalen Laufwerk abrufen. Sie benötigen den Schalter -base, um relative Links korrekt zu verarbeiten.

-B, --base=URL
Ermöglicht relative Links unter Verwendung einer URL als Referenzpunkt, wenn Links aus einer HTML-Datei gelesen werden, die über die Option -i/input -file (zusammen mit der Option -force...) angegeben wurde, oder wenn die Eingabedatei remote vom Server abgerufen wurde und sie als HTML, CSS, Atom oder RSS beschreibt. Dies entspricht einem „BASE“-Tag in der HTML-Eingabedatei mit der URL als Wert für das „href“-Attribut.

Wenn Sie beispielsweise https://example.com/bar/a.html als Basis-URL angeben und Wget2 über den Link ../baz/b.html in der Eingabedatei die Datei unter https://example.com/baz/b.html abruft.

--config=FILE
Geben Sie den Speicherort der Konfigurationsdateien an, die Sie verwenden möchten. Wenn Sie mehr als eine Datei angeben, entweder mithilfe einer durch Kommas getrennten Liste oder mehrerer Konfigurationsoptionen, werden diese Dateien in der Reihenfolge von links nach rechts gelesen. Die in den Umgebungsvariablen $SYSTEM_WGET2RC und ($WGET2RC oder ~/.wget2rc) aufgeführten Dateien werden in dieser Reihenfolge gelesen, gefolgt von vom Benutzer bereitgestellten Konfigurationsdateien. Falls angegeben, ersetzt $WGET2RC ~/.wget2rc.

--no-config
Löscht die interne Liste der Konfigurationsdateien. Wenn Sie daher verhindern möchten, dass Konfigurationsdateien gelesen werden, verwenden Sie die Option --no-config in der Befehlszeile.

--no-config gefolgt von --config=file überspringt das Lesen der Standarddateien und liest nur die Konfigurationsdatei.
wget versucht auf unterstützten Plattformen, in der Konfigurationsdatei geschriebene Dateinamen mit einer Tilde ~ als Verzeichnisnamen des Benutzers aufzulösen. Um eine Datei zu verwenden, die mit einem wörtlichen „~“-Zeichen beginnt, verwenden Sie „./~“ oder einen absoluten Pfad.

--rejected-log=logfile [Noch nicht implementiert]
Protokolliert alle widerrufenen Konfigurationsdatei-URLs als durch Kommas getrennte Liste. Zu den Werten gehören der Grund für die Ablehnung, die URL und die gefundene übergeordnete URL.

--local-db
Ermöglicht das Lesen/Schreiben in die lokale Dateidatenbank (Standard: aktiviert).

Es gibt Dateien für --hsts, --hpkp, --ocsp usw.

Wenn angegeben --no-local-db sie können das Lesen/Schreiben deaktivieren, was zum Testen praktisch ist.
Diese Option hat keinen Einfluss auf das Lesen von Konfigurationsdateien.

--stats-dns=[FORMAT:]FILE
Speichert DNS-Statistiken im FORMAT-Format in einer FILE-Datei.
FORMAT kann „human“ oder „csv“ sein.
die Ausgabedatei „-“ steht für stdout und „h“ ist die Abkürzung für Human Readable Format.

Das Ausgabe-CSV-Dateiformat ist wie folgt:
Hostname, IP, Port, Duration
wo:
Duration- Die Reaktionszeit wird in Millisekunden angegeben.

--stats-tls=[FORMAT:]FILE
Speichern Sie TLS-Statistiken (sicherer Verbindungen) im FORMAT-Format in einer FILE-Datei.
FORMAT kann „human“ oder „csv“ sein.

Die Ausgabedatei „-“ steht für stdout und „h“ ist die Abkürzung für Human Readable Format.

Das Ausgabe-CSV-Dateiformat ist wie folgt:
Hostname, TLSVersion, FalseStart, TFO, Resumed, ALPN, HTTPVersion, Certificates, Duration
wo:
Tlsversion kann 1,2,3,4,5 für SSL3, TLS1.0, TLS1.1, TLS1.2 und TLS1.3 sein. -1 bedeutet „nein“.
Falsestart- ob die False Start-Verbindung verwendet wurde. -1 falls nicht zutreffend.
Tfo- ob die Verbindung TCP „Fast Open“ verwendet. -1, wenn TFO deaktiviert war.
Resumed- ob die TLS-Sitzung wieder aufgenommen wurde oder nicht.
ALPN ist die ALPN-Aushandlungszeichenfolge.
HTTPVersion- ist gleich 0 für HTTP 1.1 und 1 für HTTP 2.0.
Certificates ist die Größe der Zertifikatskette des Servers.
Duration- Die Dauer wird in Millisekunden angegeben.

--stats-ocsp=[FORMAT:]FILE
Speichern Sie OCSP-Statistiken im FORMAT-Format in einer FILE-Datei.
FORMAT kann „human“ oder „csv“ sein. Die Ausgabedatei „-“ steht für stdout und „h“ ist die Abkürzung für Human Readable Format.

Das Ausgabe-CSV-Dateiformat ist wie folgt:
Hostname, Stapling, Valid, Revoked, Ignored

wo:
Stapling ob die OCSP-Antwort zusammengefügt wurde oder nicht.
Valid wie viele Serverzertifikate gegen OCSP gültig waren.
Revoked wie viele Serverzertifikate wurden bezüglich OCSP widerrufen?
Ignored wie viele Serverzertifikate bezüglich OCSP ignoriert wurden.

--stats-server=[FORMAT:]FILE
Speichern Sie Serverstatistiken im FORMAT-Format in einer FILE-Datei.
FORMAT kann „human“ oder „csv“ sein. Die Ausgabedatei „-“ steht für stdout und „h“ ist die Abkürzung für Human Readable Format.
das Ausgabe-CSV-Dateiformat ist wie folgt:
Hostname, IP, Scheme, HPKP, NewHPKP, HSTS, CSP
wo:
Scheme - зDie Werte 0, 1, 2 bedeuten jeweils: None, http, https.
HPKP – HTTP-Public-Key-Pinning-Werte 0,1,2,3 bedeuten „Kein HPKP“, „HPKP-Übereinstimmung“, „HPKP stimmt nicht überein“, „HPKP-Fehler“.
NewHPKP- ob der Server den HPKP-Header (Public-Key-Pins) gesendet hat
HSTS- Hat der Server den HSTS-Header (Strict-Transport-Security) gesendet?
CSP- ob der Server den CSP-Header (Content-Security-Policy) gesendet hat.

--stats-site=[FORMAT:]FILE
Speichern Sie Site-Statistiken im FORMAT-Format in einer FILE-Datei.
FORMAT kann „human“ oder „csv“ sein. Die Ausgabedatei „-“ steht für stdout und „h“ ist die Abkürzung für Human Readable Format.
Das Ausgabeformat der CSV-Datei ist wie folgt:
ID, ParentID, URL, Status, Link, Method, Size, SizeDecompressed, TransferTime, ResponseTime, Encoding, Verification
wobei:
ID eine eindeutige ID zur Erfassung von Statistiken ist.
ParentID ist die ID des übergeordneten Dokuments (gilt für den Rekursionsmodus --recursive).
URL ist die URL (Adresse) des Dokuments.
Status ist der HTTP-Antwortcode oder 0, falls nicht zutreffend.
Link – 1 bedeutet „direkter Link“, 0 bedeutet „weitergeleiteter Link“.
Method – 1, 2, 3 geben die Anfragetypen GET, HEAD und POST an.
Size ist die Größe des heruntergeladenen Inhalts (und der theoretische Wert für HEAD-Anfragen).
SizeDecompressed ist die Größe des dekomprimierten Inhalts (und 0 für HEAD-Anfragen).
TransferTime ist die Zeit in Millisekunden zwischen dem Beginn der Anfrage und dem Abschluss des Downloads.
ResponseTime ist die Zeit in Millisekunden zwischen dem Beginn der Anfrage und der ersten Antwort auf das Paket.
Encoding – 0, 1, 2, 3, 4, 5 – gibt den Komprimierungstyp auf dem Server an: 'identity', 'gzip', 'deflate', 'lzma/xz', 'bzip2', 'brotli', 'zstd', 'lzip'.
Verification ist der PGP-Verifizierungsstatus. 0, 1, 2, 3 bedeuten 'none', 'valid', 'invalid', 'bad', 'missing'.

Download options

-bind-address=ADDRESS
Binden Sie beim Erstellen von TCP/IP-Clientverbindungen eine bestimmte IP-Adresse auf dem lokalen Computer ein. Die Adresse kann als Hostname oder IP-Adresse angegeben werden. Diese Option kann nützlich sein, wenn Ihr Computer über mehrere IP-Adressen verfügt.

--bind-interface=INTERFACE
Binden Sie beim Erstellen von TCP/IP-Clientverbindungen eine Verbindung zu einer Schnittstelle auf dem lokalen Computer. Als Name der Netzwerkschnittstelle kann Interface angegeben werden. Diese Option kann nützlich sein, wenn Ihr Computer über mehrere Netzwerkschnittstellen verfügt. Die Option funktioniert jedoch nur, wenn wget2 mit erhöhten Rechten ausgeführt wird (unter GNU/Linux: root/sudo oder sudo setcap cap_net_raw+ep „path to wget | wget2“).

-t, --tries=number
Legen Sie die Anzahl der Versuche fest. Geben Sie 0 oder Inf an, um den Vorgang auf unbestimmte Zeit zu wiederholen. Standardmäßig wiederholt das Programm Anfragen 20 Mal, mit Ausnahme schwerwiegender Fehler wie „Verbindung abgelehnt“ oder „Nicht gefunden“ (404), die nicht erneut versucht werden.

--retry-on-http-error=list
Geben Sie eine durch Kommas getrennte Liste von HTTP-Codes an, für die WGET2 den Download erneut versucht. Listenelemente können Platzhalter enthalten. Wenn der HTTP-Code mit dem Zeichen beginnt ! dieser Code wird nicht geladen. Die Option ist nützlich, wenn Sie versuchen, etwas mit einer Ausnahme herunterzuladen. Versuchen Sie beispielsweise jeden fehlgeschlagenen Download mit Ausnahme des Fehlercodes 404 erneut:
wget2 --retry-on-http-error=*,!404 https://example.com/

Bitte beachten Sie, dass „200“ der einzige verbotene Code ist. Wenn es in der Statusliste enthalten ist, wird es von wget2 ignoriert. Die maximale Anzahl der Download-Versuche wird mit der Option --tries festgelegt.

-O, --output-document=file
Die Dokumente werden nicht in ihre jeweiligen separaten Dateien geschrieben, sondern alle zusammengeführt und in eine Datei geschrieben. Wenn „-“ als Datei verwendet wird, werden Dokumente in der Standardausgabe gedruckt, wodurch die Linkkonvertierung deaktiviert wird. Verwenden Sie ./-, um in eine Datei mit dem wörtlichen Namen „-“ zu drucken. Um zu vermeiden, dass WGET2-Statusmeldungen mit dem Dateiinhalt vermischt werden, verwenden Sie -q in Kombination mit „-“ (dies unterscheidet sich vom Verhalten von WGET 1.x).

Die Verwendung von „-r“ oder „-p“ mit „-o“ funktioniert möglicherweise nicht wie erwartet: Wget2 lädt nicht nur die erste Datei in eine Datei herunter und lädt dann den Rest unter ihren normalen Namen herunter: Der gesamte heruntergeladene Inhalt wird in einer Datei abgelegt.

Die Kombination mit -NC wird nur akzeptiert, wenn die angegebene Ausgabedatei nicht existiert.

Bei Verwendung in Verbindung mit der Option „-c“ versucht WGET2, den Download der Datei fortzusetzen, deren Name an die Option übergeben wird, unabhängig davon, ob die tatsächliche Datei auf der Festplatte vorhanden ist oder nicht. Dadurch können Benutzer eine Datei mit einem temporären Namen neben einer vorhandenen Datei herunterladen.

Beachten Sie, dass die Kombination „-k“ nur beim Laden eines einzelnen Dokuments zulässig ist, da in diesem Fall einfach alle relativen URIs in externe umgewandelt werden. „-k“ hat für mehrere URIs keine Bedeutung, wenn sie alle in eine Datei geladen werden; „-k“ kann nur verwendet werden, wenn die Ausgabe eine reguläre Datei ist.

Kompatibilitätshinweis: WGET 1.X verwendet bei der Verarbeitung der Option „-o“ einen Mechanismus ähnlich der Shell-Umleitung. Wget2 behandelt die Option nicht auf die gleiche Weise. Daher wird die Datei nicht immer erneut erstellt. Die Zeitstempel der Datei werden nicht beeinflusst, es sei denn, sie wird tatsächlich geschrieben. Daher werden nun sowohl „-c“ als auch „-n“ in Kombination mit dieser Option unterstützt.

-nc, --no-clobber
Wenn eine Datei mehr als einmal in dasselbe Verzeichnis heruntergeladen wird, hängt das Verhalten von Wget2 von mehreren Optionen ab, einschließlich -nc.

In einigen Fällen wird die lokale Datei beschädigt oder überschrieben, wenn Sie sie erneut herunterladen. In anderen Fällen wird die Originaldatei gespeichert.

Wenn Sie wget2 ohne „-n“, „-nc“, „-r“ oder „-p“ ausführen und dieselbe Datei im selben Verzeichnis herunterladen, bleibt die ursprüngliche Kopie der Datei erhalten und in der Nähe wird eine Instanz der Datei mit dem Namen file.1 erstellt. Wenn diese Datei erneut heruntergeladen wird, wird eine dritte Kopie mit dem Namen file.2 usw. erstellt. (Dies ist auch das Verhalten mit -nd, selbst wenn -P oder -p wirksam ist.) Verwenden Sie --keep-extension, um ein alternatives Dateibenennungsmuster zu verwenden.

Wenn -NC angegeben wird, wird dieses Verhalten (Datei.1, Datei.2) unterdrückt und WGET2 weigert sich, neue Kopien der Datei herunterzuladen. Daher ist „--no-clobber“ eigentlich eine Fehlbezeichnung für diesen Modus – es wird nicht das Überschreiben verhindert (da die numerischen Suffixe dies bereits verhindert hätten), sondern vielmehr die Verhinderung der Erstellung mehrerer Versionen derselben Datei.

Wenn Sie wget2 mit den Optionen „-r“ oder „-p“, aber ohne „-N“, „-nd“ oder „-nc“ ausführen, wird beim erneuten Herunterladen der Datei eine neue Version heruntergeladen, die die alte überschreibt. Das Hinzufügen von -NC verhindert dieses Verhalten und führt stattdessen dazu, dass die Originalversion beibehalten wird und alle neuen Kopien der Datei auf dem Server ignoriert werden.

Beim Ausführen von wget2 mit dem Schalter „-N“, mit oder ohne „-r“ oder -p, hängt die Entscheidung, ob eine neuere Kopie der Datei heruntergeladen werden soll, vom lokalen und Remote-Zeitstempel und der Dateigröße ab. Die Option -nc kann nicht mit -N angegeben werden. Die Kombination mit „-O“ / --output-document wird nur akzeptiert, wenn die angegebene Ausgabedatei nicht existiert.

Beachten Sie, dass bei Angabe von -nc Dateien mit den Suffixen .html oder .htm von der lokalen Festplatte heruntergeladen und analysiert werden, als ob sie aus dem Internet abgerufen würden.

--backups=backups
Erstellen Sie vor dem Überschreiben einer Datei eine Sicherungskopie der vorhandenen Datei, indem Sie dem Dateinamen das Suffix .1 hinzufügen. Solche Backup-Dateien werden mit Namen erstellt, die auf .2, .3 usw. enden – Backups (und gehen darüber hinaus verloren).

-c, --continue
Erhalten Sie weiterhin die teilweise heruntergeladene Datei. Dies ist nützlich, wenn Sie einen Download abschließen möchten, der von einer früheren Instanz von WGET2 oder einem anderen Programm gestartet wurde. Zum Beispiel:

wget2 -c https://example.com/tarball.gz

Wenn sich im aktuellen Verzeichnis eine Datei mit dem Namen tarball.gz befindet, geht WGET2 davon aus, dass dies der erste Teil der heruntergeladenen Datei ist, und fordert den Server auf, die Suche ab einem Offset fortzusetzen, der der Länge der lokalen Datei entspricht.

Beachten Sie, dass Sie diese Option nicht angeben müssen, wenn Sie lediglich möchten, dass der aktuelle WGET2-Aufruf erneut versucht, die Datei herunterzuladen, wenn die Verbindung während der Übertragung unterbrochen wird. Dies ist das Standardverhalten. Der Schalter „-c“ wirkt sich nur auf die Wiederaufnahme von Downloads aus, die vor diesem Wget2-Aufruf gestartet wurden und deren lokale Dateien vorhanden sind.

Ohne das „-c“ im vorherigen Beispiel lädt WGET2 einfach eine Datei namens Tarball.gz.1 aus dem Internet herunter und lässt die gekürzte Datei tarball.gz in der Nähe.

Wenn Sie „-c“ mit einer nicht leeren Datei verwenden und sich herausstellt, dass der Server die Fortsetzung des Downloads („erneutes Herunterladen“) nicht unterstützt, weigert sich Wget2, den Download von Grund auf zu starten, wodurch der vorhandene Inhalt der Datei effektiv zerstört wird. Wenn Sie wirklich möchten, dass der Download von vorne beginnt, löschen Sie die Datei.

Wenn Sie den Schalter „-c“ mit einer Datei verwenden, die dieselbe Größe wie die auf dem Server hat, weigert sich Wget2, die Datei herunterzuladen und gibt eine erklärende Meldung aus. Das Gleiche passiert, wenn die Datei auf dem Server kleiner ist als die lokale (vermutlich, weil sie sich seit Ihrem letzten Upload-Versuch auf dem Server geändert hat). Da „Weiter“ keinen Sinn ergibt, erfolgt kein Ladevorgang.

Auf der anderen Seite wird bei Verwendung von „-c“ jede Datei, die auf dem Server größer als lokal ist, als unvollständiger Download betrachtet und nur „(Länge(remote) – Länge(lokal))“ heruntergeladen und an das Ende der lokalen Datei angehängt. Dieses Verhalten kann in manchen Fällen wünschenswert sein. Sie können beispielsweise wget2 -c verwenden, um nur den neuen Teil herunterzuladen, der am Ende der erfassten Daten oder an die Protokolldatei angehängt wurde.

Wenn die Datei jedoch auf dem Server größer ist, weil sie geändert und nicht nur angehängt wurde, erhalten Sie am Ende eine fehlerhafte Datei. WGET2 kann nicht bestätigen, dass die lokale Datei tatsächlich ein gültiges Präfix der Remote-Datei ist. Hier müssen Sie besonders vorsichtig sein, wenn Sie -C in Kombination mit -R verwenden, da jede Datei als Kandidat für „unvollständiges Laden“ behandelt wird.

Ein weiterer Fall, in dem Sie eine fehlerhafte Datei erhalten, wenn Sie versuchen, -c zu verwenden, ist, wenn Sie einen fehlerhaften HTTP-Proxy haben, der eine „Transfer“-Zeile in eine lokale Datei einfügt. Zukünftig wird möglicherweise eine „Rollback“-Option hinzugefügt, um diesen Fall zu beheben.

Beachten Sie, dass -c nur mit HTTP-Servern funktioniert, die den „RANGE“-Header unterstützen.

--start-pos=OFFSET
Beginnen Sie mit dem Laden mit einem Positionsversatz relativ zu Null. Der Offset kann in Bytes, Kilobits mit dem Suffix „k“ oder Megabytes mit dem Suffix „m“ usw. ausgedrückt werden.

--start-pos hat Vorrang vor --continue. Wenn sowohl --start-pos als auch --continue angegeben sind, gibt WGET2 eine Konfliktwarnung aus.

Der Server muss die Fortsetzung des Ladens unterstützen, andernfalls hilft --start-pos nicht. Einzelheiten finden Sie in der Beschreibung der Option „-c“.

--progress=type
Wählen Sie den Fortschrittsbalkentyp aus, den Sie verwenden möchten. Unterstützte Indikatortypen sind „none“ und „bar“.

Der Typ „Balken“ zeichnet eine Grafik mit einem ASCII-Fortschrittsball (auch bekannt als „Thermometer“), der den Fortschrittsstatus anzeigt.

Wenn es sich bei der Ausgabe um eine TTY-Konsole handelt, ist „bar“ die Standardeinstellung. Andernfalls wird der Fortschrittsbalken deaktiviert, es sei denn, --force-progress wird verwendet.

Der Typ „Punkt“ wird derzeit nicht unterstützt, löst jedoch keinen Fehler aus, um WGET-Batchdateien nicht zu beschädigen.

Parametrisierte Paneltypen: „bar:force“ und „bar:force:noscroll“ fügen den Effekt „--force-progress“ hinzu. Dies geschieht aus Gründen einer besseren Kompatibilität mit WGET.

--force-progress
Ermöglicht wget2, einen Fortschrittsbalken (Fortschrittsbalken) anzuzeigen.

Standardmäßig zeigt Wget2 den Fortschrittsbalken nur im „--verbose“-Modus an. Möglicherweise möchte jedoch jemand, dass WGET2 in Kombination mit anderen Modi wie „–no-verbose“ oder „–quiet“ einen Fortschrittsbalken auf dem Bildschirm anzeigt. Dies ist häufig eine gewünschte Eigenschaft, wenn WGET2 aufgerufen wird, um mehrere kleine/große Dateien herunterzuladen. In einem solchen Fall kann WGET2 einfach mit diesem Parameter aufgerufen werden, um eine sauberere Ausgabe auf dem Bildschirm zu erhalten.

Diese Option bewirkt auch, dass der Fortschrittsbalken in den STDERR-Stream ausgegeben wird, wenn sie in Verbindung mit der Option „--output-file“ verwendet wird.

-N, --timestamping
Dateizeitstempel aktivieren.

-no-if-modified-since
Im „-N“-Modus darf der „If-Changed-With“-Header nicht gesendet werden. Senden Sie stattdessen die erste HEAD-Anfrage. Wirkt nur im „-N“-Modus.

--no-use-server-timestamps
Konvertieren Sie Datum und Uhrzeit lokaler Dateien nicht in die Datums- und Uhrzeitangaben auf dem Server.

По Wenn eine Datei heruntergeladen wird, werden ihre Zeitstempel standardmäßig so eingestellt, dass sie mit denen der Remote-Datei auf dem Server übereinstimmen. Dadurch können Zeitstempel in nachfolgenden WGET2-Aufrufen verwendet werden. Manchmal ist es jedoch sinnvoll, den Zeitstempel der lokalen Datei so zu belassen, wie sie tatsächlich zum ersten Mal heruntergeladen wurde. Zu diesem Zweck wurde die Option –no-server-timestamps bereitgestellt.

-S, --server-response
Von HTTP-Servern gesendete Antwortheader drucken.

--spider
Wenn Wget2 mit dieser Option aufgerufen wird, verhält es sich wie ein Webspider, was bedeutet, dass es keine Seiten lädt, sondern lediglich prüft, ob sie vorhanden sind. Sie können beispielsweise wget2 verwenden, um Ihre Lesezeichen zu überprüfen.

Sie können beispielsweise wget2 verwenden, um die Datei bookmarks.html zu überprüfen:

wget2 --spider --force-html -i bookmarks.html

Diese Funktion erfordert viel mehr Arbeit, damit Wget2 der Funktionalität echter Web-Spider nahe kommt.
-T seconds, --timeout=seconds
stellen Sie das Netzwerk-Timeout auf Sekunden ein. Dies entspricht der gleichzeitigen Angabe von --dns-timeout, --connect-timeout und --read-timeout.
Bei der Interaktion mit dem Netzwerk kann Wget2 nach einer Zeitüberschreitung suchen und den Vorgang abbrechen, wenn er zu lange dauert. Dies verhindert Anomalien wie Leseabbrüche und endlose Verbindungen. Das einzige standardmäßig aktivierte Timeout ist das Lese-Timeout von 900 Sekunden. Wenn Sie das Timeout auf 0 setzen, wird es vollständig deaktiviert. Sofern Sie nicht wissen, was Sie tun, ist es am besten, die Standardeinstellungen für die Zeitüberschreitung nicht zu ändern.

Alle Timeout-bezogenen Parameter akzeptieren sowohl Dezimalwerte als auch Bruchwerte. Beispielsweise ist 0,1 Sekunden eine zulässige (wenn auch unkluge) Timeout-Wahl. Zeitüberschreitungen unter Partitionen sind nützlich, um die Antwortzeit des Servers zu überprüfen oder die Netzwerklatenz zu testen.

--dns-timeout=seconds
Setzt das DNS-Timeout auf Sekunden. DNS-Suchvorgänge, die nicht innerhalb der angegebenen Zeit abgeschlossen werden, schlagen fehl. Standardmäßig gibt es keine Zeitüberschreitung für DNS-Suchen, außer bei den Systembibliotheken.

--connect-timeout=seconds
Legt das Verbindungszeitlimit auf Sekunden fest. TCP-Verbindungen, die länger dauern, werden beendet. Standardmäßig gibt es kein Verbindungszeitlimit, außer dem, was von den Systembibliotheken implementiert wird.

--read-timeout=seconds
Legt das Lese- (und Schreib-)Timeout auf Sekunden fest. Die „Zeit“ dieses Timeouts bezieht sich auf eine vorübergehende Ausfallzeit: Wenn zu irgendeinem Zeitpunkt während des Downloads für mehr als die angegebene Anzahl von Sekunden keine Daten empfangen wurden, werden der fehlerhafte Lesevorgang und der Download neu gestartet. Diese Option hat keinen direkten Einfluss auf die Dauer des gesamten Downloads.

Natürlich kann der Remote-Server entscheiden, die Verbindung zu schließen, bevor diese Option wirksam wird. Das Standard-Lese-Timeout beträgt 900 Sekunden.

--limit-rate=amount
Begrenzt die Download-Geschwindigkeit um die Anzahl der Bytes pro Sekunde. Die Menge kann in Bytes, Kilobits mit dem Suffix K oder Megabytes mit dem Suffix M ausgedrückt werden. Beispielsweise begrenzt –limit-rate = 20K die Abrufrate auf 20 KB/s. Dies ist nützlich, wenn Sie aus irgendeinem Grund nicht möchten, dass Wget2 die gesamte verfügbare Bandbreite verbraucht.

Diese Option ermöglicht die Verwendung von Dezimalzahlen, normalerweise in Kombination mit Dimensionssuffixen; Beispielsweise ist –limit-rate = 2.5K ein zulässiger Wert.

Beachten Sie, dass WGET2 eine Begrenzung implementiert, indem es nach dem Booten für eine Zeit in den Ruhezustand wechselt, die der Zeitspanne nach dem Lesen des Netzwerks entspricht, was weniger Zeit in Anspruch nahm als der angegebene Geschwindigkeitswert. Letztendlich führt diese Strategie dazu, dass die TCP-Übertragung auf ungefähr die angegebene Geschwindigkeit verlangsamt wird. Allerdings kann es einige Zeit dauern, bis dieses Gleichgewicht erreicht ist. Seien Sie also nicht überrascht, wenn die Geschwindigkeitsbegrenzung bei sehr kleinen Dateien nicht funktioniert.

-w seconds, --wait=seconds
Warten Sie die angegebene Anzahl von Sekunden zwischen den Anforderungen. Es wird empfohlen, diese Option zu verwenden, da sie die Belastung des Servers verringert, indem Anfragen weniger häufig erfolgen. Anstelle von Sekunden kann die Zeit mit dem Suffix „M“ in Minuten, mit dem Suffix „H“ in Stunden oder mit dem Suffix „D“ in Tagen angegeben werden.

Die Angabe eines großen Werts für diese Option ist nützlich, wenn das Zielnetzwerk oder der Zielhost ausgefallen ist (im Fehlerzustand), sodass WGET2 lange genug warten kann, um vernünftigerweise mit der Behebung des Netzwerkfehlers zu rechnen, bevor es einen erneuten Versuch durchführt. Das von dieser Funktion angegebene Warteintervall wird von der Option „--random-wait“ beeinflusst, sofern vorhanden.

--waitretry=seconds
Wenn Sie nicht möchten, dass WGET2 zwischen den einzelnen Anfragen wartet, sondern nur zwischen den Anfragen nach fehlgeschlagenen Downloads, können Sie diese Option verwenden. WGET2 verwendet einen linearen Fallback und wartet 1 Sekunde nach dem ersten Fehler in einer bestimmten Datei und dann 2 Sekunden nach dem zweiten Fehler in dieser Datei, bis zur von Ihnen angegebenen maximalen Anzahl von Sekunden.

Standardmäßig verwendet Wget2 einen Wert von 10 Sekunden.

--random-wait
Einige Websites können eine spontane Protokollanalyse durchführen, um Datei-Downloader zu identifizieren, wie z. B. WGET2, und dabei nach statistisch signifikanten zeitlichen Ähnlichkeiten zwischen Anfragen suchen. Diese Option bewirkt, dass die Zeit zwischen Anfragen zwischen 0,5 und 1,5 Sekunden variiert. Mithilfe der Option --random-wait können Sie versuchen, das Vorhandensein von Wget2 vor einer solchen Analyse zu verbergen.

--no-proxy[=exceptions]
Wenn das Optionsargument nicht angegeben ist, versucht Wget2, mit wget1.x abwärtskompatibel zu bleiben und keine Proxys zu verwenden, selbst wenn die entsprechende Umgebungsvariable *_proxy definiert ist.

Wenn das Optionsargument eine durch Kommas getrennte Liste von Ausnahmen (Domänen/IP-Adressen) ist, werden diese Ausnahmen ohne Verwendung eines Proxys geladen. Option übertrifft Umgebungsvariable no_proxy.

-Q quota, --quota=quota
Geben Sie ein Kontingent (Volumenlimit) für den automatischen Download an. Der Kontingentwert kann in Bytes (Standard), Kilobits (mit dem Suffix „k“) oder Megabytes (mit dem Suffix „M“) angegeben werden.

Bitte beachten Sie, dass sich das Kontingent niemals auf den Download einer einzelnen Datei auswirkt. Also, wenn Sie angeben

wget2 -q10k https://example.com/bigfile.gz

Die Datei bigfile.gz wird trotzdem heruntergeladen. Das Gleiche passiert auch dann, wenn mehrere URLs in der Befehlszeile angegeben werden. Das Kontingent wird jedoch beim rekursiven Laden oder gemäß der Liste aus der Eingabedatei angewendet. Auf diese Weise können Sie den Befehl sicher ausführen (ohne befürchten zu müssen, dass Ihre Festplatte voll wird):

wget2 -q2m -i website

Der Download wird abgebrochen, wenn das Kontingent überschritten wird.

Wenn Sie das Kontingent auf 0 oder Inf setzen, wird das Limit vom Download-Kontingent entfernt.

--restrict-file-names=modes
Konfigurieren Sie, welche Zeichen in Remote-URLs beim Erstellen lokaler Dateinamen durch Escape-Sequenzen ersetzt werden sollen. Durch diese Option verbotene Zeichen werden maskiert, d. h. durch %HH ersetzt, wobei HH die Hexadezimalzahl ist, die dem verbotenen Zeichen entspricht. Diese Option kann auch verwendet werden, um die Umwandlung aller Buchstaben in Klein- oder Großbuchstaben zu erzwingen.

Standardmäßig maskiert Wget2 Zeichen, die als Teil von Dateinamen auf Ihrem Betriebssystem ungültig oder sicher sind, sowie Steuerzeichen, die normalerweise nicht auf dem Bildschirm angezeigt werden. Diese Option ist nützlich, um diese Standardwerte zu ändern, möglicherweise weil Sie die Site auf einer anderen Dateisystempartition als der eigenen laden, oder weil Sie die Steuerzeichen-Escape-Funktion deaktivieren möchten oder weil Sie die Zeichen weiter auf diejenigen innerhalb des ASCII-Zeichensatz-Wertebereichs beschränken möchten.

Modi sind eine Reihe von Textwerten, die durch Kommas getrennt sind. Gültige Werte sind „unix“, „windows“, „nocontrol“, „ascii“, „lowercase“ und „uppercase“. Die Werte „unix“ und „windows“ schließen sich gegenseitig aus (einer überschreibt den anderen), genauso wie „lowercase“ „uppercase“ ausschließt. Bei den letzten beiden handelt es sich um Sonderfälle, da sie den Satz der zu maskierenden Zeichen nicht ändern, sondern vielmehr die Konvertierung lokaler Dateipfade in Klein- oder Großbuchstaben erzwingen.

КогWenn der Wert „unix“ ist, maskiert Wget2 das Zeichen oder die Zeichen und Escape-Sequenzen in den Zeichenbereichen 0–31 und 128–159. Dies ist die Standardeinstellung auf Unix-ähnlichen Betriebssystemen.

КогJa ist auf „Windows“ eingestellt, Wget2 maskiert die Zeichen „“, |, /, :, ?, „, *, „, „ und Steuerzeichen in den Bereichen 0–31 und 128–159. Darüber hinaus verwendet Wget2 im Windows-Modus + anstelle von:, um den Hostnamen vom Port in lokalen Dateinamen zu trennen, und verwendet @ anstelle von ?, um den URL-Teil des Dateinamens von der restlichen Anfrage zu trennen. Daher die URL, unter der gespeichert werden würde www.xemacs.org:4300/search.pl?input=blah im Unix-Modus würde im Windows-Modus als www.xemacs.org+4300/search.pl@in-put=blah gespeichert. Dies ist der Standardmodus im Windows-Betriebssystem.

Wenn Sie nocontrol angeben, ist die Steuerzeichen-Escape-Funktion ebenfalls deaktiviert. Diese Einstellung kann sinnvoll sein, wenn Sie URLs laden, deren Namen UTF-8-Zeichen enthalten, auf einem System, das Dateinamen in UTF-8 speichern und anzeigen kann (einige der möglichen Bytewerte, die in UTF-8-Bytesequenzen verwendet werden, fallen in den von Wget2 als „Steuerzeichen“ bezeichneten Wertebereich).

Der ASCII-Modus wird verwendet, um anzugeben, dass alle Bytes, deren Werte außerhalb des ASCII-Zeichenbereichs liegen (d. h. größer als 127), maskiert werden sollen. Dies kann beim Speichern von Dateinamen nützlich sein, deren Kodierung nicht mit der lokal verwendeten übereinstimmt.

-4, --inet4-only, -6, --inet6-only
Erzwingen Sie, dass das Programm eine Verbindung zu IPv4- oder IPv6-Adressen herstellt. Mit --inet4-only oder -4 stellt Wget2 nur eine Verbindung zu IPv4-Hosts her, ignoriert AAAA-Einträge im DNS und verbietet die Verbindung zu in URLs angegebenen IPv6-Adressen. Umgekehrt stellt Wget2 mit –inet6-only oder -6 nur eine Verbindung zu IPv6-Maschinen her und ignoriert A-Einträge und IPv4-Adressen.

Normalerweise ist keine der beiden Optionen erforderlich. Standardmäßig verwendet Wget2 mit IPv6-Unterstützung die im DNS-Eintrag des Hosts angegebene Adressfamilie. Wenn DNS mit IPv4- und IPv6-Adressen antwortet, probiert Wget2 diese nacheinander aus, bis es eine Adresse findet, mit der es eine Verbindung herstellen kann. (Siehe auch die unten beschriebene Option „--prefer-family“.)

Diese Einstellungen können verwendet werden, um die Verwendung von IPv4- oder IPv6-Adressfamilien auf Dual-Family-Systemen absichtlich zu erzwingen, typischerweise um das Debuggen zu erleichtern oder Netzwerkfehlkonfigurationen zu korrigieren. Es kann jeweils nur eine der Optionen --inet6-only oder --inet4-only angegeben werden. Keine der beiden Optionen ist in Wget2 verfügbar, das ohne IPv6-Unterstützung kompiliert wurde.

--prefer-family=none/IPv4/IPv6

Wenn Sie die Wahl zwischen mehreren IP-Adressen haben, stellen Sie zunächst eine Verbindung zu Adressen mit der angegebenen Adressfamilie her. Die von DNS zurückgegebene Standardadressenreihenfolge bleibt unverändert.

ЭтоVermeidet falsche Fehler und Verbindungsversuche beim Zugriff auf Hosts, die sowohl IPv6- als auch IPv4-Adressen aus IPv4-Netzwerken auflösen. Beispielsweise wird www.kame.net in 01:200:0:8002:203:47ff:fea5:3085 und 203.178.141.194 aufgelöst. Wenn die bevorzugte Familie „IPv4“ ist, wird zuerst die IPv4-Adresse verwendet; Wenn die bevorzugte Familie „IPv6“ ist, wird zuerst die IPv6-Adresse verwendet; wenn auf „none“ gesetzt, wird die Reihenfolge der von DNS zurückgegebenen Adressen unverändert verwendet.

Im Gegensatz zu -4 und -6 verweigert diese Option nicht den Zugriff auf eine Adressfamilie, sondern ändert lediglich die Reihenfolge, in der auf Adressen zugegriffen wird. Beachten Sie außerdem, dass die von dieser Option durchgeführte Neuordnung stabil ist. Dies hat keinen Einfluss auf die Reihenfolge der Adressen innerhalb derselben Familie. Das heißt, die relative Reihenfolge aller IPv4-Adressen und aller IPv6-Adressen bleibt in allen Fällen gleich.

--tcp-fastopen
Aktiviert die TCP Fast Open (TFO)-Unterstützung (Standard: aktiviert).

TFO reduziert die Verbindungslatenz um 1 Roundtrip bei Hot-Verbindungen (zweite Verbindung zum gleichen Host innerhalb einer bestimmten Zeit).
Dies funktioniert derzeit auf den neuesten Linux- und OSX-Kerneln sowie auf HTTP und HTTPS.

--dns-cache-preload=file
Laden Sie eine Liste von Tupeln (DNS-Ressourceneinträgen) aus der IP/Names-Datei in den DNS-Cache.

Das Dateiformat ähnelt /etc/hosts: Hostname des IP-Adressraums

Dies spart Zeit bei der Suche nach einem Domainnamen, was in manchen Fällen einen Engpass darstellt. Darüber hinaus kann diese Option verwendet werden, um die Verwendung der Umgebungsvariablen HOSTALIASES zu simulieren (die nicht auf andere Betriebssysteme portierbar ist).

--dns-cache
DNS-Caching zulassen (Standard: aktiviert).

Normalerweise merkt sich Wget2 die IP-Adressen, nach denen es im DNS sucht, sodass es nicht wiederholt den DNS-Server für dieselbe (normalerweise kleine) Gruppe von Hosts kontaktieren muss, von denen es abruft. Dieser Cache existiert nur im Speicher; Bei einer erneuten Ausführung von Wget2 wird der DNS erneut kontaktiert.

ОднEs gibt Berichte, dass es in manchen Situationen unerwünscht ist, Hostnamen selbst für die kurze Dauer einer Anwendung wie Wget2 zwischenzuspeichern. Mit der Option --no-dns-cache führt Wget2 jedes Mal, wenn eine neue Verbindung hergestellt wird, eine neue DNS-Suche (genauer gesagt einen neuen „gethostbyname“- oder „getaddrinfo“-Aufruf) durch. Beachten Sie, dass diese Einstellung keinen Einfluss auf das Caching hat, das möglicherweise von einer Resolver-Bibliothek oder einer externen Caching-Ebene wie NSCD durchgeführt wird.

--retry-connrefused
Behandeln Sie „Verbindung abgelehnt“ als vorübergehenden Fehler und versuchen Sie es erneut. Normalerweise lehnt Wget2 eine URL ab, wenn keine Verbindung zu einer Site hergestellt werden kann, da ein Verbindungsfehler als Zeichen dafür gewertet wird, dass der Server überhaupt nicht läuft und ein erneuter Versuch nicht hilft. Diese Option ist für die Spiegelung nicht vertrauenswürdiger Websites gedacht, deren Server für kurze Zeit verschwinden.

--user=user, --password=password
Geben Sie einen Benutzernamen und ein Passwort an, um über HTTP auf Dateien zuzugreifen. Dadurch wird die Suche nach Anmeldeinformationen in der .netrc-Datei außer Kraft gesetzt (die Option --netrc ist standardmäßig aktiviert). Diese beiden Optionen können durch die Verwendung der Optionen --http-user und --http-password für HTTP(S)-Verbindungen überschrieben werden.

Wenn weder --http-proxy-user noch --http-proxy-password angegeben ist, werden diese Einstellungen auch für die Proxy-Authentifizierung verwendet.

--ask-password

Zeigen Sie die Passwortabfrage in der Befehlszeile an. Überschreibt das durch --password festgelegte Passwort (falls angegeben).

--use-askpass=command
Fordert mit dem angegebenen Befehl zur Eingabe von Benutzername und Passwort auf. Überschreibt den Benutzer und/oder das Passwort, das durch --user/--password festgelegt wurde (falls angegeben).

--no-iri
Deaktivieren Sie die Unterstützung für internationalisierte URIs (IRIs). Verwenden Sie zum Aktivieren --iri. IRI ist standardmäßig aktiviert.

Sie können den Standard-IRI-Unterstützungsstatus mit dem Befehl „iri“ in .wget2rc festlegen. Diese Einstellung kann über die Befehlszeile überschrieben werden.

--local-encoding=encoding
Erzwingen Sie, dass Wget2 die angegebene Kodierung als Systemkodierung verwendet. Dies wirkt sich darauf aus, wie Wget2 als Argumente angegebene URLs von der lokalen Kodierung in UTF-8 für die IRI-Unterstützung konvertiert.

Wget2 verwendet die Funktion „nl_langinfo()“ und dann die Umgebungsvariable „CHARSET“, um das Gebietsschema abzurufen. Wenn dies fehlschlägt, wird ASCII verwendet.

--remote-encoding=encoding
Erzwingen Sie, dass Wget2 die Codierung als Standard-Remote-Server-Codierung verwendet. Dies wirkt sich darauf aus, wie Wget2 beim rekursiven Abruf in Dateien gefundene URIs von der Remote-Kodierung in UTF-8 konvertiert. Diese Optionen sind nur für die IRI-Unterstützung nützlich, um Nicht-ASCII-Zeichen zu interpretieren.

Für HTTP kann die Remote-Kodierung aus dem HTTP-Header-Feld „Content-Type“ und aus dem HTML-Tag „Content-Type http-equiv“ abgerufen werden.

--input-encoding=encoding
Verwenden Sie die angegebene Codierung für die Eingabedatei --input-file mit einer Liste von URLs. Standardmäßig wird die lokale Kodierung verwendet.

--unlink
Lassen Sie Wget2 die Verknüpfung einer Datei aufheben, anstatt eine vorhandene Datei zu überschreiben. (Siehe -nc oben als Referenz zum Maischen). Diese Option ist nützlich zum Hochladen in ein Verzeichnis mit Hardlinks.

--cut-url-get-vars
Entfernen Sie HTTP-GET-Parameter aus Dateinamen, wenn Sie Anfragen an den Server stellen. Beispielsweise wird „main.css?v=123“ durch „main.css“ ersetzt. Beachten Sie, dass dies unbeabsichtigte Nebenwirkungen haben kann. Beispielsweise wird „image.php?name=sun“ in „image.php“ geändert. Das Zuschneiden erfolgt, bevor URLs zur Download-Warteschlange hinzugefügt werden.

--cut-file-get-vars
Entfernen Sie HTTP-GET-Variablen aus Dateinamen. Beispielsweise wird „main.css?v=123“ durch „main.css“ ersetzt.

Beachten Sie, dass dies unbeabsichtigte Nebenwirkungen haben kann. Beispielsweise wird „image.php?name=sun“ in „image.php“ geändert. Das Zuschneiden erfolgt beim Speichern der Datei nach dem Herunterladen.

Vom „Content-Disposition“-Header abgeleitete Dateinamen sind von dieser Option nicht betroffen (siehe --content-disposition) und können eine Problemumgehung für dieses Problem darstellen.

Bei Verwendung von „--trust-server-names“ wirkt sich diese Einstellung auf die URL bei der Umleitung aus.

--chunk-size=size
Laden Sie große Dateien in mehreren Multithread-Blöcken. Dieser Schalter gibt die Blockgröße in Bytes an, sofern kein anderes Vielfaches von Bytes angegeben ist. Der Standardwert ist 0/deaktiviert.

--max-threads=number
Gibt die maximale Anzahl gleichzeitiger Download-Threads für eine Ressource an. Der Standardwert ist 5, aber wenn Sie mehr oder weniger zulassen möchten, verwenden Sie diese Option.

-s, --verify-sig[=fail|no-fail]
Aktiviert die PGP-Signaturüberprüfung (wenn kein „no-“-Präfix vorhanden ist). Wenn diese Option aktiviert ist, versucht Wget2, PGP-Signaturen für übereinstimmende Dateien herunterzuladen und zu überprüfen. Jede hochgeladene Datei, deren Inhaltstyp mit application/pgp-signature beginnt, veranlasst Wget2, eine Signatur für diese Datei anzufordern.

Der Name der Signaturdatei wird berechnet, indem die Erweiterung zum vollständigen Pfad der gerade heruntergeladenen Datei hinzugefügt wird.
Die verwendete Erweiterung wird durch die Option „--signature-extensions“ bestimmt. Wenn der Inhaltstyp für die Signaturanforderung application/pgp-signature ist, versucht Wget2, die Signatur mit der Quelldatei zu vergleichen. Wenn die Signaturdatei nicht gefunden werden kann (d. h. eine Anfrage erhält einen 404-Statuscode), wird Wget2 standardmäßig mit einem Fehlercode beendet.

Dieses Verhalten kann mit den folgenden Argumenten konfiguriert werden:
*scheitern*: Dies ist der Standardwert, d. h. dies ist der Wert, wenn Sie das Flag ohne Argument angeben. Zeigt an, dass fehlende Signaturdateien dazu führen, dass Wget2 mit einem Fehlercode beendet wird.
kein Fehler**: Dieser Wert behebt fehlende Signaturdateien. Die 404-Meldung wird weiterhin ausgegeben, aber das Programm funktioniert weiterhin normal (vorausgesetzt, es liegen keine unabhängigen Fehler vor).

Darüber hinaus --no-verify-sig Deaktiviert die Signaturprüfung vollständig. --no-verify-sig lässt keine Argumente zu.

--signature-extensions
Gibt Dateierweiterungen für Signaturdateien ohne führendes „.“ an. Sie können mehrere Erweiterungen als durch Kommas getrennte Liste auflisten. Bei der Suche nach der Signaturdatei werden alle bereitgestellten Erweiterungen gleichzeitig ausprobiert. Der Standardwert ist „sig“.

--gnupg-homedir
Gibt das Gnupg-Home-Verzeichnis an, das bei der Überprüfung der PGP-Signaturen heruntergeladener Dateien verwendet werden soll. Der Standardwert ist Ihr Home-Verzeichnis auf dem Betriebssystem.

--verify-save-failed
Weist Wget2 an, Dateien zu speichern, die die PGP-Signaturüberprüfung nicht bestehen. Standardmäßig werden Dateien, die die PGP-Überprüfung nicht bestehen, gelöscht.

--xattr
Dokumentmetadaten als „Benutzer-POSIX-erweiterte Attribute“ speichern (Standard: aktiviert). Diese Funktion funktioniert nur, wenn das Dateisystem sie unterstützt. Weitere Informationen unter https://freedesktop.org/wiki/CommonExtendedAttributes.

Derzeit legt Wget2 die Attribute fest

  • user.xdg.origin.url
  • user.xdg.referrer.url
  • user.mime_type
  • user.charset

So zeigen Sie erweiterte Dateiattribute an (unter Linux):getfattr -d \«file\»

--metalink
Erkunden/verarbeiten Sie Metalink-URLs, ohne sie zu speichern (Standard: aktiviert).

Metalink-Metalink-Dateien beschreiben Downloads, einschließlich Spiegelungen, Dateien, Prüfsummen und Signaturen. Dies ermöglicht Downloads aus mehreren Teilen, die automatische Auswahl des nächstgelegenen Spiegels und die Überprüfung der heruntergeladenen Datei auf Integrität.

--fsync-policy
Ermöglicht die Ausführung des Synchronisierungsbefehls, nachdem der Download jeder Datei abgeschlossen wurde (Standard: deaktiviert).

--http2-request-window=number
Legt die maximale Anzahl paralleler Threads auf einer HTTP/2-Verbindung fest (Standard: 30).

--keep-extension
Diese Option ändert das Verhalten beim Erstellen eines eindeutigen Dateinamens, wenn eine Datei bereits vorhanden ist.
Diese Option ändert das Verhalten beim Erstellen eines eindeutigen Dateinamens, wenn die Datei bereits vorhanden ist.

Das Standardmuster für Dateinamen ist „Dateiname“. „N“. Das neue Muster ist „basename“._N“.“ext“.
Die Idee besteht darin, solche Dateien zu verwenden, ohne sie umzubenennen, wenn das Öffnen mit Anwendungen von der Erweiterung abhängt, wie in Windows.

Diese Option ändert das Verhalten nicht --backups.

Verzeichnisoptionen

-nd, --no-directories
Erstellen Sie beim rekursiven Extrahieren keine Verzeichnishierarchie. Wenn diese Option aktiviert ist, werden alle Dateien im aktuellen Verzeichnis gespeichert, ohne sie zu überschreiben (wenn der Name mehr als einmal vorkommt, haben die Dateinamen die Erweiterung .n, wobei n eine ganze Zahl ist).

-x, --force-directories
Gegenteil -nd: Erstellen Sie eine Hierarchie von Verzeichnissen, auch wenn diese sonst nicht erstellt worden wären.
Zum Beispiel,wget2 -x https://example.com/robots.txt speichert die heruntergeladene Datei im Ordner example.com/robots.txt.

-nH, --no-host-directories
Deaktiviert die Erstellung von Verzeichnissen, die als Host-Präfixe benannt sind. Standardmäßig wird beim Aufruf von Wget2 mit dem Rekursionsschalter -r https://example.com/ eine Ordnerstruktur erstellt, die mit example.com/ beginnt. Diese Option deaktiviert dieses Verhalten.

--protocol-directories
Verwenden Sie den Protokollnamen als Teil des Namens für das Verzeichnis mit lokalen Dateien. Mit dieser Option wird zum Beispiel: wget2 -r --protocol-directories https://example.com unter https/example.com/... und nicht nur unter example.com/... gespeichert.

--cut-dirs=number
Nummern in der Verzeichniskomponente ignorieren. Dies ist nützlich, um eine genaue Kontrolle über das Verzeichnis zu erhalten, in dem die rekursive Suche gespeichert wird.

Nehmen Sie zum Beispiel das Verzeichnis "https://example.com/pub/sub/". Wenn Sie es mit -r abrufen, wird es lokal unter "example.com/pub/sub/" gespeichert. Obwohl die Option -nH möglicherweise den Teil "example.com/" entfernt, erhalten Sie weiterhin "pub/sub/".

Das wird sich als nützlich erweisen --cut-dirs; aus diesem Grund erkennt Wget2 einige Komponenten des entfernten Verzeichnisses nicht. Hier einige Beispiele zur Funktionsweise dieses Parameters. --cut-dirs.

Keine Optionen -» example.com/pub/sub/

--cut-dirs=1 -» example.com/sub/
--cut-dirs=2 -» example.com/

-nH -» pub/sub/
-nH --cut-dirs=1 -» sub/
-nH --cut-dirs=2 -» .

Wenn Sie nur die Verzeichnisstruktur entfernen möchten, ähnelt diese Option einer Kombination aus -nd und -P. Im Gegensatz zu -nd gehen bei --cut-dirs jedoch keine Unterverzeichnisse verloren. Zum Beispiel mit -nH --cut-dirs=1 unterverzeichnis Beta/ wird eingelegt sub/beta/, wie man es erwarten würde.

-P prefix, --directory-prefix=prefix
Setzen Sie das Verzeichnispräfix auf „Präfix“. Das Verzeichnispräfix ist das Verzeichnis, in dem alle anderen Dateien und Unterverzeichnisse gespeichert werden, also die Spitze des Suchbaums. Der Standardwert ist „.“, das aktuelle Verzeichnis. Wenn das Verzeichnispräfix nicht vorhanden ist, wird es erstellt.

HTTP- und HTTPS-Optionen

Siehe Teil 2 des Artikels.

Rekursive Extraktionsoptionen

-r, --recursive
Aktivieren Sie die rekursive Extraktion. Die standardmäßige maximale Extraktionstiefe beträgt 5.

-l Tiefe, --level=Tiefe
Geben Sie die maximale Rekursionstiefe in Tiefenebenen an

--delete-after
Diese Option weist Wget2 an, anschließend jede heruntergeladene Datei zu löschen. Dies kann nützlich sein, um beliebte Seiten über Proxyserver vorab zu laden, zum Beispiel:

wget2 -r -nd --delete-after https://example.com/~popular/page/

Dabei lautet die Option -r für rekursive Extraktion und -nd – keine Verzeichnisse erstellen.

Beachten Sie, dass bei Angabe von --delete-after die andere Option --convert-links ignoriert wird, sodass die .orig-Dateien einfach gar nicht erst erstellt werden.

-k, --convert-links
Sobald der Download abgeschlossen ist, konvertieren Sie die Links im Dokument, um sie für die lokale Anzeige geeignet zu machen. Dies betrifft nicht nur sichtbare Hyperlinks, sondern alle Teile des Dokuments, die auf externe Inhalte verweisen, z. B. Inline-Bilder, Links zu Stylesheets, Hyperlinks zu Nicht-HTML-Inhalten usw.

Jeder Link wird auf eine oder zwei Arten geändert:

  1. Links zu Dateien, die von Wget2 heruntergeladen wurden, werden so geändert, dass sie auf die Datei verweisen, auf die sie verweisen, und so zu einem relativen Dateilink werden.

Beispiel: Wenn die geladene Datei /foo/doc.html auf /bar/img.gif verweist, die ebenfalls geladen wurde, wird der Link in der Datei doc.html so geändert, dass er auf ../bar/img.gif verweist. Solche Transformationen funktionieren zuverlässig für jede Kombination von Verzeichnissen.

  1. Links zu Dateien, die noch nicht von Wget2 heruntergeladen wurden, werden so geändert, dass sie den Hostnamen und den absoluten Pfad zum Speicherort enthalten, auf den sie verweisen.

Beispiel: Wenn die geladene Datei /foo/doc.html auf /bar/img.gif (oder ../bar/img.gif) verweist, befindet sich der Link in doc.html
wird so geändert, dass es auf https://example.com/bar/img.gif verweist.

Dadurch funktioniert das lokale Browsen zuverlässig: Wenn eine verlinkte Datei heruntergeladen wurde, verweist der Link auf ihren lokalen Namen; Wenn es nicht heruntergeladen wurde, verweist der Link auf die vollständige Internetadresse und nicht auf einen defekten Link. Durch die Umwandlung der früheren Links in relative Links wird sichergestellt, dass Sie die heruntergeladene Ordnerhierarchie in ein anderes Verzeichnis verschieben können.

Bitte beachten Sie, dass Sie erst am Ende des Downloads erkennen können, welche Links heruntergeladen wurden. Aus diesem Grund wird die mit -k ausgeführte Arbeit am Ende aller Downloads ausgeführt.

--convert-file-only
Diese Option löst nur den Dateinamenteil der URL auf und lässt die übrigen URLs unberührt. Dieser Teil des Dateinamens wird manchmal als „Basisname“ bezeichnet, obwohl wir diesen Begriff hier vermeiden, um Verwirrung zu vermeiden.

Diese Option funktioniert besonders gut in Kombination mit --adjust-extension, obwohl diese Optionspaarung nicht erzwungen wird. Das Füllen von Internet-Caches kann beim Herunterladen von Dateien von verschiedenen Hosts hilfreich sein.

Beispiel: Wenn ein Link auf //foo.com/bar.cgi?xyz zeigt und die Option --adjust-extension angegeben ist, wird davon ausgegangen, dass sein lokales Ziel ./foo.com/bar.cgi?xyz.css ist, und der Link wird in //foo.com/bar.cgi?xyz.css geändert. Bitte beachten Sie, dass nur der Dateiname des Links geändert wird. Der Rest der URL bleibt unverändert, einschließlich des Netzwerkpfads („//“), der ansonsten von Wget2 verarbeitet und in das entsprechende Schema (z. B. „https://“) konvertiert würde.

-K, --backup-converted
Speichern Sie beim Konvertieren einer Datei die Originaldatei mit dem Suffix .orig. Beeinflusst die Option -N (Zeitstempel).

-m, --mirror
Enthält Optionen, die zum Spiegeln geeignet sind. Diese Option aktiviert Rekursion und Zeitstempel und legt die Rekursionsstufen auf unendliche Tiefe fest.
Derzeit entspricht es der Kombination der Optionen -r -N -l inf.

-p, --page-requisites
Diese Option bewirkt, dass Wget2 alle Dateien herunterlädt, die für die korrekte Anzeige der Webseite erforderlich sind. Dinge wie eingebettete Bilder, Sounds und referenzierte Stylesheets.

Beim normalen Laden einer einzelnen HTML-Seite werden alle erforderlichen Dokumente, die möglicherweise für die korrekte Anzeige erforderlich sind, nicht geladen.
Die Verwendung von -r zusammen mit -l kann hilfreich sein, aber da Wget2 normalerweise nicht zwischen externen und eingebetteten Dokumenten unterscheidet, bleiben erstere meist als „untergeordnete Dokumente“ bestehen, denen die erforderlichen Ressourcen fehlen.

Angenommen, Dokumente 1.html enthalten das Tag „IMG“, das auf 1.gif verweist, und das Tag „A“, das auf das externe Dokument 2.html verweist. Lassen Sie 2.html dem ersten ähnlich sein, mit einem Link zum Bild 2.gif und einem Link zum Dokument 3.html. Lass das auf unbestimmte Zeit so weitergehen.

Wenn wir den Befehl ausführen:

wget2 -r -l 2 https://«site»/1.html

dann werden 1.html, 1.gif, 2.html, 2.gif und 3.html geladen. Wie Sie sehen können, enthält 3.html nicht das erforderliche 3.gif
weil Wget2 einfach die Anzahl der „Hops“ (bis zu 2) von der (anfänglichen) 1.html zählt, um herauszufinden, wo die Rekursion gestoppt werden muss. Allerdings mit dem Befehl:

wget2 -r -l 2 -p https://«site»/1.html

Alle oben genannten Dateien und die erforderliche 3.html-Zeichnung 3.gif werden heruntergeladen.

Ebenso das Team

wget2 -r -l 1 -p https://«site»/1.html

lädt 1.html, 1.gif, 2.html und 2.gif. Manche denken vielleicht:

wget2 -r -l 0 -p https://«site»/1.html

lädt nur 1.html und 1.gif, aber leider ist dies nicht der Fall, da -l 0 das Äquivalent von -l inf ist, was eine unendliche Rekursion ist.

Um eine einzelne HTML-Seite (oder der Einfachheit halber alle in der Befehlszeile oder in der URL-Eingabedatei -i angegebenen) und ihre (oder ihre) erforderlichen Ressourcen zu laden, entfernen Sie einfach -r und -l:

wget2 -p https://«site»/1.html

Hinweis: Wget2 verhält sich so, als ob der Schalter -r angegeben wäre, aber nur für eine Seite werden alle für die Anzeige erforderlichen Ressourcen heruntergeladen.
Links von dieser Seite zu anderen externen Dokumenten werden nicht verfolgt. Um tatsächlich eine Webseite mit allen notwendigen Elementen zu laden (auch wenn diese auf verschiedenen Websites vorhanden sind) und um sicherzustellen, dass die Webseite korrekt von der lokalen Festplatte angezeigt wird, verwendet dieser Autor gerne -p mit etwas Auffüllung:

wget2 -E -H -k -K -p https://«site»/«document»

wobei -E – Erweiterungen zu Dateinamen hinzufügen
-H – beim Abrufen zu anderen Hosts wechseln
-k – Links für die lokale Anzeige konvertieren
-K – Sicherungskopien der Quelldateien mit der Erweiterung .orig speichern
-p – Extrahieren Sie alle für die Anzeige der Seite erforderlichen Dateien

Zum Abschluss dieses Themas ist es wichtig zu wissen, dass Wget2 jede in den Tags „A“, „AREA“ oder „LINK“ angegebene URL als externen Link betrachtet. außer „LINK REL="stylesheet"“.

--strict-comments
Veraltete Option aus Kompatibilitätsgründen mit Wget1.x. Wget2 fügt immer ein schließendes Kommentar-Tag hinzu, genau wie gängige Browser.

--robots
Aktivieren Sie die Einhaltung des Roboterausschlussstandards (Standard: aktiviert).

Befolgen Sie für jede Domain, die Sie besuchen, die in /robots.txt aufgeführten Regeln. Sie sollten die Regeln des Domaininhabers respektieren und es nur aus sehr guten Gründen deaktivieren.

Unabhängig davon, ob sie aktiviert ist oder nicht, wird die robots.txt-Datei geladen und nach Sitemaps durchsucht. Hierbei handelt es sich um Listen von Seiten/Dateien, die zum Herunterladen verfügbar sind und nicht unbedingt über einen rekursiven Crawl verfügbar sind.

Dieses Verhalten kann mit --no-follow-sitemaps deaktiviert werden.

Rekursive Akzeptanz-/Ablehnungsoptionen

-A acclist, --accept=acclist
-R rejlist, --reject=rejlist

Geben Sie durch Kommas getrennte Listen mit Suffixen oder Dateinamenmustern an, die akzeptiert oder abgelehnt werden sollen. Beachten Sie, dass, wenn einer der Platzhalter , ?, [, ] in einem acclist- oder rejlist-Element erscheint, dieser als Muster und nicht als Suffix behandelt wird.
In diesem Fall müssen Sie das Muster in Anführungszeichen setzen, um zu verhindern, dass Ihre Shell es erweitert, beispielsweise in -A "
.mp3" oder -A '*.mp3'.

--accept-regex=urlregex
--reject-regex=urlregex

Geben Sie einen regulären Ausdruck an, um Dateinamen zu akzeptieren oder abzulehnen.

--regex-type=regextype
Geben Sie den Typ des regulären Ausdrucks an. Mögliche Typen: Posix oder PCRE. Beachten Sie, dass wget2 mit libpcre-Unterstützung kompiliert werden muss, um den Typ pcre zu verwenden.

--filter-urls
Wenden Sie Akzeptanz- und Ablehnungsfilter auf die URL an, bevor Sie mit dem Download beginnen.

-D domain-list, --domains=domain-list
Legen Sie die zu überwachenden Domänen fest. Domänenliste ist eine durch Kommas getrennte Liste von Domänen. Beachten Sie, dass -H nicht enthalten ist.

--exclude-domains=domain-list
Geben Sie eine Liste von Domänen an, deren Links das Programm nicht folgen soll.

--follow-sitemaps
Analysieren Sie die Sitemap von robots.txt und folgen Sie den Links. (Standard: aktiviert).

Diese Option ist für rekursive Downloads aktiviert, unabhängig davon, ob Sie --robots oder -no-robots angeben. Das Tracking von in Sitemaps gefundenen URLs kann mit --no-follow-sitemaps deaktiviert werden.

--follow-tags=list
Wget2 verfügt über eine interne Tabelle mit HTML-Tag/Attribut-Paaren, die es bei der Suche nach verwandten Dokumenten während einer rekursiven Suche berücksichtigt. Wenn der Benutzer jedoch möchte, dass nur eine Teilmenge dieser Tags berücksichtigt wird, sollte er diese Tags mit dieser Option in einer durch Kommas getrennten Liste angeben.

--ignore-tags=list
Dies ist das Gegenteil der Option --follow-tags. Um bestimmte HTML-Tags bei der rekursiven Suche nach herunterzuladenden Dokumenten zu überspringen, listen Sie sie durch Kommas getrennt auf.

In der Vergangenheit war diese Option die beste Wahl, um eine einzelne Seite und ihre Details über die Befehlszeile zu laden, zum Beispiel:

wget2 --ignore-tags=a,area -H -k -K -r https://site/document

Der Autor dieser Option stieß jedoch auf eine Seite mit Tags wie „“ und kam zu dem Schluss, dass die Angabe von zu ignorierenden Tags nicht ausreichte. Sie können Wget2 nicht einfach anweisen, „“ zu ignorieren, da die Stylesheets dann nicht geladen werden. Die beste Wahl zum Laden einer einzelnen Seite und ihrer Details ist nun die spezielle Option --page-requisites.

--ignore-case
Ignorieren Sie die Groß-/Kleinschreibung beim Abgleichen von Dateien und Verzeichnissen. Dies wirkt sich auf das Verhalten der Optionen -R, -A, -I und -X aus. Beispielsweise akzeptiert die Option -A „*.txt“ die Dateien file1.txt, file2.TXT, file3.TxT usw.

-H, --span-hosts
Ermöglicht Übergänge zwischen Hosts bei der Durchführung einer rekursiven Extraktion.

-L, --relative [Noch nicht implementiert]
Folgen Sie nur relativen Links. Nützlich, wenn Sie ohne Ablenkung eine bestimmte Homepage abrufen möchten, selbst von denselben Hosts.

-I list, --include-directories=list
Geben Sie eine durch Kommas getrennte Liste der Verzeichnisse an, denen Sie beim Herunterladen folgen möchten. Listenelemente können Platzhalter enthalten.

wget2 -r https://webpage.domain --include-directories=*/pub/*/

Bitte beachten Sie, dass /pub// dasselbe wie //pub// ist und Verzeichnisse und keine Zeichenfolgen abgleicht. Das bedeutet, dass /pub keine Auswirkungen auf Dateien hat, die beispielsweise in /directory/something/pub enthalten sind, aber /pub/ jedes Unterverzeichnis von /pub abdeckt. -X list, --exclude-directories=list
geben Sie eine durch Kommas getrennte Liste der Verzeichnisse an, die Sie vom Download ausschließen möchten. Listenelemente können Platzhalter enthalten.

wget2 -r https://gnu.org --exclude-directories=/software

-I / -X combinations
Geben Sie in einem einzigen Befehl eine durch Kommas getrennte Liste von Verzeichnissen an, denen Wget2 beim Herunterladen folgen soll bzw. nicht. Listenelemente können Platzhalter enthalten.
Beachten Sie, dass sich Wget2 mit dieser Flag-Kombination etwas anders verhält als wget1.x.
Wenn die Option -I zuerst angegeben wird, ist die Standardeinstellung „Alle ausschließen“. Wenn -X zuerst angegeben wird, ist der Standardwert „enable all“.
Mehrere -I/-X-Optionen werden „Ende zu Ende“ verarbeitet. Das letzte Spiel ist relevant.

Beispiel:wget2 -I /pub -X /pub/trash lädt alles von /pub/ herunter, außer /pub/trash.
Beispiel:wget2 -X /pub -I /pub/important lädt alles außer /pub, wo nur der Abschnitt /pub/important geladen wird.
um die Liste zurückzusetzen (d. h. -I/-X aus .wget2rc-Dateien zu ignorieren), verwenden Sie --no-include-directories oder --no-exclude-directories.

-np, --no-parent
Gehen Sie beim Laden mit Rekursion niemals zum übergeordneten Verzeichnis. Dies ist eine nützliche Option, da sie sicherstellt, dass nur Dateien unterhalb einer bestimmten Hierarchie geladen werden.

--filter-mime-type=list
Geben Sie eine durch Kommas getrennte Liste der zu ladenden MIME-Typen an. Listenelemente können Platzhalter enthalten. Wenn der MIME-Typ mit dem Zeichen beginnt "!", It won't be downloaded, this is useful when trying to download something with an exception. If the server doesn't specify the MIME type of the file, it will be treated as ‘application/octet-stream‘. Laden Sie beispielsweise alles außer Bildern herunter:
wget2 -r https://site/document --filter-mime-type=*,\!image/*

es empfiehlt sich auch, Dateien herunterzuladen, die mit Ihrem Betriebssystem kompatibel sind. Um beispielsweise jede mit LibreOffice Writer kompatible Datei im rekursiven Modus von einer Website herunterzuladen:

wget2 -r https://site/document --filter-mime-type=$(sed -r '/^MimeType=/!d;s/^MimeType=//;s/;/,/g' /usr/share/applications/libreoffice-writer.desktop)

Plugin-Optionen, Exit-Codes, Wget2-Debugging

Siehe zweiter Teil des Artikels.



Verwandte Veröffentlichungen