Scroll to navigation

WGET(1) GNU Wget WGET(1)

NUME

wget - instrumentul de descărcare din rețea neinteractiv

SINOPSIS

wget [opțiune]... [URL]...

DESCRIERE

GNU wget este un instrument gratuit pentru descărcarea non-interactivă de fișiere din Internet. Acceptă protocoalele HTTP, HTTPS și FTP, precum și preluarea prin proxy-uri HTTP.

wget este non-interactiv, ceea ce înseamnă că poate funcționa în fundal, în timp ce utilizatorul nu este conectat. Acest lucru vă permite să începeți o recuperare și să vă deconectați de la sistem, lăsându-l pe wget să termine munca. În schimb, majoritatea navigatoarelor web necesită prezența constantă a utilizatorului, ceea ce poate fi un mare impediment atunci când se transferă o mulțime de date.

wget poate urmări legăturile din paginile HTML, XHTML și CSS, pentru a crea versiuni locale ale siturilor web de la distanță, recreând complet structura de directoare a sitului original. Acest lucru este denumit uneori „descărcare recursivă”. În timp ce face acest lucru, wget respectă Standardul de excludere a roboților (/robots.txt). wget poate fi instruit să convertească legăturile din fișierele descărcate pentru a indica fișierele locale, pentru vizualizare în modul deconectat.

wget a fost conceput pentru a fi robust în cazul conexiunilor de rețea lente sau instabile; dacă o descărcare eșuează din cauza unei probleme de rețea, va continua să încerce până când fișierul va fi recuperat în întregime. În cazul în care serverul acceptă reluarea, acesta va instrui serverul să continue descărcarea din punctul în care a fost întreruptă.

OPȚIUNI

Sintaxa opțiunilor

Deoarece wget folosește GNU getopt pentru a procesa argumentele din linia de comandă, fiecare opțiune are o formă lungă alături de cea scurtă. Opțiunile lungi sunt mai ușor de reținut, dar necesită timp pentru a fi tastate. Puteți amesteca în mod liber diferite stiluri de opțiuni sau puteți specifica opțiuni după argumentele liniei de comandă. Astfel, puteți scrie:

 wget -r --tries=10 http://fly.srk.fer.hr/ -o jurnal

Spațiul dintre opțiunea care acceptă un argument și argument poate fi omis. În loc de -o jurnal se poate scrie -ojurnal.

Puteți pune împreună mai multe opțiuni care nu necesită argumente, cum ar fi:

 wget -drc <URL>

Acest lucru este complet echivalent cu:

 wget -d -r -c <URL>

Deoarece opțiunile pot fi specificate după argumente, puteți să le terminați cu --. Astfel, următoarea comandă va încerca să descarce URL-ul -x, raportând eșecul în jurnal:

 wget -o jurnal -- -x

Toate opțiunile care acceptă liste separate prin virgule respectă convenția conform căreia specificarea unei liste goale șterge valoarea acesteia. Acest lucru poate fi util pentru a șterge parametrii .wgetrc. De exemplu, dacă .wgetrc definește parametrul "exclude_directories" la /cgi-bin, exemplul următor îl va reinițializa mai întâi și apoi îl va defini pentru a exclude /~nobody și /~somebody. De asemenea, puteți curăța listele din .wgetrc.

 wget -X "" -X /~nobody,/~somebody

Majoritatea opțiunilor care nu acceptă argumente sunt opțiuni booleane, denumite astfel deoarece starea lor poate fi captată cu o variabilă de tip da-sau-nu („boolean”). De exemplu, --follow-ftp îi indică lui wget să urmărească legăturile FTP din fișierele HTML și, pe de altă parte, --no-glob îi indică să nu efectueze căutarea de fișiere pe adresele URL FTP folosind modele cu caractere joker. O opțiune booleană este fie afirmativ, fie negativ (începând cu --no). Toate aceste opțiuni au în comun câteva proprietăți.

Cu excepția cazului în care se specifică altfel, se presupune că comportamentul implicit este opusul celui pe care îl realizează opțiunea. De exemplu, existența documentată a opțiunii --follow-ftp presupune că opțiunea implicită este de a nu urmări legăturile FTP din paginile HTML.

Opțiunile afirmative pot fi negate prin adăugarea prefixului --no- la numele opțiunii; opțiunile negative pot fi negate prin omiterea prefixului --no-. Acest lucru ar putea părea superfluu - dacă valoarea implicită a unei opțiuni afirmative este de a nu face ceva, atunci de ce să oferim o modalitate de a o dezactiva în mod explicit? Dar fișierul de pornire poate, de fapt, să schimbe valoarea implicită. De exemplu, utilizarea "follow_ftp = on" în .wgetrc face ca wget să urmeze în mod implicit legăturile FTP, iar utilizarea --no-follow-ftp este singura modalitate de a restabili valoarea implicită din fabrică din linia de comandă.

Opțiuni de bază pentru pornire

Afișează versiunea lui wget și iese.
Afișează un mesaj de ajutor care descrie toate opțiunile din linia de comandă a lui wget.
Trece în fundal imediat după pornire. Dacă nu este specificat niciun fișier de ieșire prin -o, ieșirea este redirecționată către wget-log.
Execută comanda ca și cum ar fi o parte din .wgetrc. O comandă astfel invocată va fi executată după comenzile din .wgetrc, având astfel prioritate față de acestea. Dacă trebuie să specificați mai multe comenzi wgetrc, utilizați mai multe instanțe de -e.

Opțiuni de jurnalizare și de fișier de intrare

Înregistrează toate mesajele în fișier-jurnal. În mod normal, mesajele sunt raportate la ieșirea de eroare standard.
Adaugă la fișier--jurnal. Este la fel ca -o, numai că se adaugă la fișier-jurnal în loc să suprascrie vechiul fișier jurnal. Dacă fișier-jurnal nu există, se creează un fișier nou.
Activează ieșirea de depanare, ceea ce înseamnă diverse informații importante pentru dezvoltatorii lui wget în cazul în care acesta nu funcționează corect. Este posibil ca administratorul de sistem să fi ales să compileze wget fără suport pentru depanare, caz în care -d nu va funcționa. Rețineți că compilarea cu suport de depanare este întotdeauna sigură --- wget compilat cu suport de depanare nu va imprima nicio informație de depanare, cu excepția cazului în care este solicitată cu -d.
Dezactivează ieșirea lui wget.
Activează ieșirea de informații detaliate, cu toate datele disponibile. Ieșirea implicită este descriptivă.
Dezactivează ieșirea descriptivă fără a fi complet silențioasă (utilizați -q pentru aceasta), ceea ce înseamnă că mesajele de eroare și informațiile de bază sunt totuși afișate.
Lățimea de bandă de ieșire ca tip. Singura valoare acceptată este bits.
Citește adresele URL dintr-un fișier local sau extern. Dacă - este specificat ca fișier, adresele URL sunt citite de la intrarea standard. Folosiți ./- pentru a citi dintr-un fișier numit literalmente -.

Dacă se utilizează această funcție, nu este necesar să fie prezente adrese URL în linia de comandă. În cazul în care există adrese URL atât în linia de comandă, cât și într-un fișier de intrare, cele din linia de comandă vor fi primele care vor fi recuperate. Dacă --force-html nu este specificat, atunci fișier trebuie să fie format dintr-o serie de adrese URL, una pe linie.

Cu toate acestea, dacă specificați --force-html, documentul va fi considerat ca fiind html. În acest caz, este posibil să aveți probleme cu legăturile relative, pe care le puteți rezolva fie adăugând „<base href="url">” în documente, fie specificând „--base=url” în linia de comandă.

Dacă fișier este un fișier extern, documentul va fi tratat automat ca html dacă Content-Type se potrivește cu text/html. În plus, locația fișierului va fi utilizată implicit ca bază href dacă nu a fost specificată niciuna.

Descarcă fișierele cuprinse în fișierul Metalink local. Sunt acceptate versiunile 3 și 4 ale Metalink.
Păstrează fișierele Metalink descărcate cu o sumă de control greșită. Adaugă .badhash la numele fișierelor Metalink care au o sumă de control necorespunzătoare, dar fără a suprascrie fișierele existente.
Emite o cerere HTTP HEAD în loc de GET și extrage metadatele Metalink din anteturile de răspuns. Apoi trece la descărcarea Metalink. În cazul în care nu se găsesc metadate Metalink valide, se revine la descărcarea HTTP obișnuită. Activează descărcarea/ procesarea fișierelor Content-Type: application/metalink4+xml.
Stabilește NUMĂRUL ordinal al meta-url-ului application/metalink4+xml al Metalink. De la 1 la numărul total de „application/metalink4+xml” disponibile. Specificați 0 sau inf pentru a alege primul bun. Meta-url-urile, cum ar fi cele de la un --metalink-over-http, pot fi sortate după valoarea cheii de prioritate; țineți cont de aceasta pentru a alege NUMĂRUL corect.
Stabilește locația preferată pentru resursele Metalink. Acest lucru are efect dacă sunt disponibile mai multe resurse cu aceeași prioritate.
Activează utilizarea atributelor extinse ale sistemului de fișiere pentru a salva adresa URL originală și valoarea antetului HTTP Referer, dacă este utilizată.

Rețineți că adresa URL poate conține informații private, cum ar fi jetoane de acces sau acreditări.

Atunci când datele de intrare sunt citite dintr-un fișier, forțează ca acesta să fie tratat ca un fișier HTML. Acest lucru vă permite să preluați legături relative din fișiere HTML existente pe discul local, adăugând „<base href="url">” la HTML sau utilizând opțiunea de linie de comandă „--base”.
Rezolvă legăturile relative folosind URL ca punct de referință, atunci când citește legăturile dintr-un fișier HTML specificat prin opțiunea -i/--input-file (împreună cu --force-html sau atunci când fișierul de intrare a fost preluat de la distanță de pe un server care îl descrie ca fiind HTML). Acest lucru este echivalent cu prezența unei etichete „BASE” în fișierul de intrare HTML, cu adresa URL ca valoare pentru atributul „href”.

De exemplu, dacă specificați http://foo/bar/a.html pentru adresa URL, iar wget citește ../baz/b.html din fișierul de intrare, acesta va fi rezolvat ca http://foo/baz/b.html.

Specifică locația unui fișier de pornire pe care doriți să îl utilizați în locul celor implicite. Utilizați opțiunea „--no-config” pentru a dezactiva citirea fișierelor de configurare. Dacă sunt indicate atât „--config”, cât și „--no-config”, „--no-config” este ignorată.
Înregistrează toate respingerile adreselor URL în fișier-jurnal ca valori separate prin virgule. Valorile includ motivul respingerii, adresa URL și adresa URL părinte în care a fost găsită.

Opțiuni de descărcare

Când se fac conexiuni TCP/IP client, se face legătura cu ADRESA de pe calculatorul local. ADRESA poate fi specificată ca nume de gazdă sau adresă IP. Această opțiune poate fi utilă în cazul în care mașina dumneavoastră este asociată cu mai multe IP-uri.
[numai cu libcares] Această adresă înlocuiește ruta pentru cererile DNS. Dacă aveți vreodată nevoie să ocoliți configurările standard din „/etc/resolv.conf”, această opțiune, împreună cu --dns-servers, vă este prietenă. ADRESA trebuie să fie specificată fie ca adresă IPv4, fie ca adresă IPv6. wget trebuie să fie construit cu libcares pentru ca această opțiune să fie disponibilă.
[numai cu libcares] Adresele date înlocuiesc adresele standard ale serverului de nume, de exemplu, așa cum sunt configurate în „/etc/resolv.conf”. ADRESELE pot fi specificate fie ca adrese IPv4, fie ca adrese IPv6, separate prin virgule. wget trebuie să fie construit cu libcares pentru ca această opțiune să fie disponibilă.
Stabilește numărul de încercări la număr. Specificați 0 sau inf pentru încercări infinite. Valoarea implicită este de 20 de încercări, cu excepția erorilor fatale, cum ar fi „connection refused” (conexiune refuzată) sau „not found -- (404)” (nu a fost găsit -- 404), care nu sunt încercate.
Documentele nu vor fi scrise în fișierele corespunzătoare, ci toate vor fi concatenate împreună și scrise în fișier. Dacă - este utilizat ca fișier, documentele vor fi afișate la ieșirea standard, dezactivând conversia legăturilor. Folosiți ./- pentru a scrie într-un fișier numit literalmente -.

Utilizarea lui -O nu înseamnă pur și simplu „utilizează numele fișier în locul celui din URL”; mai degrabă, este analogă cu redirecționarea shell-ului: «wget -O fișier http://foo» este menit să funcționeze ca «wget -O - http://foo > fișier»; fișier va fi trunchiat imediat, iar tot conținutul descărcat va fi scris acolo.

Din acest motiv, -N (pentru verificarea mărcii temporale) nu este acceptată în combinație cu -O: deoarece fișier este întotdeauna nou creat, acesta va avea întotdeauna o marcă temporală foarte nouă. În cazul în care se utilizează această combinație, se va emite un avertisment.

În mod similar, este posibil ca utilizarea -r sau -p cu -O să nu funcționeze așa cum vă așteptați: wget nu va descărca doar primul fișier în fișier și apoi va descărca restul în numele lor normal: tot conținutul descărcat va fi plasat în fișier. Acest lucru a fost dezactivat în versiunea 1.11, dar a fost reintrodus (cu un avertisment) în versiunea 1.11.2, deoarece există unele cazuri în care acest comportament poate avea într-adevăr o anumită utilitate.

O combinație cu -nc este acceptată numai în cazul în care fișierul de ieșire dat nu există.

Rețineți că o combinație cu -k este permisă numai atunci când se descarcă un singur document, deoarece în acest caz se vor converti toate adresele URI relative în externe; -k nu are sens pentru mai multe adrese URI atunci când toate sunt descărcate într-un singur fișier; -k poate fi utilizată numai atunci când rezultatul este un fișier obișnuit.

Dacă un fișier este descărcat de mai multe ori în același director, comportamentul lui wget depinde de câteva opțiuni, inclusiv -nc. În anumite cazuri, fișierul local va fi făcut șnițel, sau suprascris, în cazul descărcărilor repetate. În alte cazuri, acesta va fi păstrat.

Atunci când se execută wget fără -N, -nc, -r sau -p, descărcarea aceluiași fișier în același director va avea ca rezultat păstrarea copiei originale a fișierului și numirea celei de-a doua copii ca fișier.1. Dacă fișierul respectiv este descărcat din nou, a treia copie se va numi fișier.2, și așa mai departe. Acesta este, de asemenea, comportamentul cu -nd, chiar dacă -r sau -p sunt în vigoare. Atunci când se specifică -nc, acest comportament este suprimat, iar wget va refuza să descarce copii mai noi ale fișierului. Prin urmare, „no-clobber” este de fapt o denumire greșită în acest mod - aceasta nu împiedică suprascrierea (deoarece sufixele numerice împiedicau deja suprascrierea), ci mai degrabă salvarea mai multor versiuni este operația ce este împiedicată.

Atunci când se execută wget cu -r sau -p, dar fără -N, -nd sau -nc, re-descărcarea unui fișier va avea ca rezultat faptul că noua copie o va suprascrie pur și simplu pe cea veche. Adăugarea lui -nc va împiedica acest comportament, făcând în schimb ca versiunea originală să fie păstrată, iar orice copie mai nouă de pe server să fie ignorată.

Atunci când se execută wget cu -N, cu sau fără -r sau -p, decizia de a descărca sau nu o copie mai nouă a unui fișier depinde de data și ora locală și de cea de la distanță și de dimensiunea fișierului. -nc nu poate fi specificată în același timp cu -N.

O combinație cu -O/--output-document este acceptată numai în cazul în care fișierul de ieșire dat nu există.

Rețineți că atunci când se specifică -nc, fișierele cu sufixele .html sau .htm vor fi încărcate de pe discul local și analizate ca și cum ar fi fost preluate de pe Web.

Înainte de a (supra)scrie un fișier, face o copie de rezervă a unui fișier existent prin adăugarea unui sufix .1 (_1 pe VMS) la numele fișierului. Astfel de fișiere de rezervă sunt rotite în .2, .3 și așa mai departe, până la copii-de-rezervă (și se pierd dincolo de acesta).
Nu încearcă să obțină acreditările din fișierul .netrc. În mod implicit, fișierul .netrc este căutat pentru acreditări în cazul în care nu a fost transmis niciunul în linia de comandă și este necesară autentificarea.
Continuă să recupereze un fișier descărcat parțial. Această opțiune este utilă când vreți să finalizați o descărcare a unei instanțe anterioare a wget, sau a unui alt program. De exemplu:

 wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z
    

Dacă există un fișier numit ls-lR.Z în directorul curent, wget va presupune că acesta este prima porțiune a fișierului de la distanță și va cere serverului să continue recuperarea de la o poziție egală cu lungimea fișierului local.

Rețineți că nu este necesar să specificați această opțiune dacă doriți doar ca apelarea curentă a wget să reîncerce descărcarea unui fișier în cazul în care conexiunea se pierde la jumătatea drumului. Acesta este comportamentul implicit. Opțiunea -c afectează doar reluarea descărcărilor începute înainte de această invocare a wget și ale căror fișiere locale sunt încă în așteptare.

Fără opțiunea -c, exemplul anterior ar fi descărcat doar fișierul de la distanță în ls-lR.Z.1, lăsând în pace fișierul trunchiat ls-lR.Z.

Dacă utilizați opțiunea -c pe un fișier care nu este gol, iar serverul nu acceptă continuarea descărcării, wget va reporni descărcarea de la zero și va suprascrie în întregime fișierul existent.

Începând cu wget 1.7, dacă utilizați opțiunea -c pe un fișier care are aceeași dimensiune ca și cel de pe server, wget va refuza să descarce fișierul și va afișa un mesaj explicativ. Același lucru se întâmplă și atunci când fișierul este mai mic pe server decât cel local (probabil din cauză că a fost modificat pe server de la ultima încercare de descărcare) --- deoarece „continuarea” nu are sens, nu are loc nicio descărcare.

Pe de altă parte, în timp ce se utilizează opțiunea -c, orice fișier care este mai mare pe server decât la nivel local va fi considerat o descărcare incompletă și doar „(lungimea(de la distanță) - lungimea(locală))” octeți vor fi descărcați și adăugați la sfârșitul fișierului local. Acest comportament poate fi de dorit în anumite cazuri - de exemplu, puteți utiliza wget -c pentru a descărca doar noua porțiune care a fost adăugată la o colecție de date sau la un fișier jurnal.

Cu toate acestea, dacă fișierul este mai mare pe server pentru că a fost modificat, spre deosebire de doar adăugat, veți obține un fișier deformat. wget nu are nicio modalitate de a verifica dacă fișierul local este într-adevăr un prefix valid al fișierului de la distanță. Trebuie să fiți deosebit de atenți la acest aspect atunci când utilizați -c împreună cu -r, deoarece fiecare fișier va fi considerat drept candidat la „descărcare incompletă”.

Un alt caz în care veți obține un fișier deformat dacă încercați să utilizați opțiunea -c este dacă aveți un proxy HTTP deficitar care inserează un șir „transfer întrerupt” în fișierul local. În viitor, ar putea fi adăugată o opțiune „rollback” (revenire la starea precedentă) pentru a rezolva acest caz.

Rețineți că opțiunea -c funcționează numai cu servere FTP și cu servere HTTP care acceptă antetul „Range”.

Începe descărcarea de la poziția POZIȚIE pornind de la zero. Poziția poate fi exprimată în octeți, kiloocteți cu sufixul „k” sau megaocteți cu sufixul „m” etc.

Opțiunea --start-pos are prioritate mai mare decât opțiunea --continue. Atunci când opțiunile --start-pos și --continue sunt amândouă specificate, wget va emite un avertisment, apoi va continua ca și cum opțiunea --continue ar fi absentă.

Este necesar suportul serverului pentru continuarea descărcării, altfel opțiunea --start-pos nu poate fi de ajutor. A se vedea opțiunea -c pentru detalii.

Selectează tipul de indicator de progres pe care doriți să îl utilizați. Indicatorii legali sunt „dot” (punct) și „bar” (bară).

Indicatorul „bar” este utilizat în mod implicit. Acesta desenează o bară de progres ASCII (cunoscută și ca afișare „termometru”) care indică starea de recuperare. În cazul în care ieșirea nu este un terminal TTY, se va utiliza în mod implicit bara „dot”.

Utilizați --progres=dot pentru a trece la afișarea „punctului”. Acesta urmărește recuperarea prin imprimarea de puncte pe ecran, fiecare punct reprezentând o cantitate fixă de date descărcate.

Tipul de progres poate primi, de asemenea, unul sau mai mulți parametri. Parametrii variază în funcție de tipul selectat. Parametrii pentru tip sunt trecuți prin adăugarea lor la tipul sperat prin două puncte (:), astfel: --progress=tip:parametru1:parametru2.

Atunci când se utilizează recuperarea cu puncte, puteți configura stilul prin specificarea tipului ca dot:stilul. Stiluri diferite atribuie semnificații diferite unui punct. Cu stilul „default”, fiecare punct reprezintă 1K, există zece puncte într-un grup și 50 de puncte într-o linie. Stilul „binary” are o orientare mai apropiată de cea a unui „calculator” - 8K pe punct, grupuri de 16 puncte și 48 de puncte pe linie (ceea ce face 384K pe linie). Stilul „mega” este potrivit pentru descărcarea de fișiere mari --- fiecare punct reprezintă 64K recuperați, există opt puncte într-un grup și 48 de puncte pe fiecare linie (astfel încât fiecare linie conține 3M). În cazul în care „mega” nu este suficient, puteți utiliza stilul „giga” --- fiecare punct reprezintă 1M recuperat, există opt puncte într-un grup și 32 de puncte pe fiecare linie (deci fiecare linie conține 32M).

Cu --progres=bar, există în prezent doi parametri posibili, force și noscroll.

Când ieșirea nu este un terminal TTY, bara de progres revine întotdeauna la „dot”, chiar dacă opțiunea --progress=bar a fost transmisă către wget în timpul invocării. Acest comportament poate fi anulat, iar ieșirea „bar” poate fi forțată prin utilizarea parametrului „force” ca --progress=bar:force.

În mod implicit, bara de progres în stil bară derulează numele fișierului de la stânga la dreapta pentru fișierul în curs de descărcare dacă numele fișierului depășește lungimea maximă alocată pentru afișarea acestuia. În anumite cazuri, cum ar fi cu --progress=bar:force, este posibil să nu se dorească defilarea numelui fișierului în bara de progres. Prin trecerea parametrului „noscroll”, wget poate fi forțat să afișeze cât mai mult din numele fișierului fără a derula prin el.

Rețineți că puteți configura stilul implicit utilizând comanda «progress» din .wgetrc. Această configurare poate fi anulată din linia de comandă. De exemplu, pentru a forța ieșirea barei fără defilare, utilizați --progress=bar:force:noscroll.

Forțează wget să afișeze bara de progres în orice nivel de detaliere.

În mod implicit, wget afișează bara de progres doar în modul de ieșire descriptivă. Cu toate acestea, se poate dori ca wget să afișeze bara de progres pe ecran împreună cu orice alt mod de nivel de detaliere, cum ar fi --no-verbose sau --quiet. Aceasta este adesea o proprietate dorită atunci când se invocă wget pentru a descărca mai multe fișiere mici/mari. Într-un astfel de caz, wget ar putea fi invocat pur și simplu cu acest parametru pentru a obține o ieșire mult mai curată pe ecran.

Această opțiune va forța, de asemenea, ca bara de progres să fie afișată la ieșirea de eroare standard atunci când este utilizată împreună cu opțiunea --output-file.

Activează marcarea temporală.
Nu trimite antetul If-Modified-Since în modul -N. În schimb, trimite o cerere HEAD preliminară. Acest lucru are efect numai în modul -N.
Nu stabilește datarea fișierului local după cel de pe server.

În mod implicit, atunci când un fișier este descărcat, marcajele de timp ale acestuia sunt definite pentru a se potrivi cu cele din fișierul de la distanță. Acest lucru permite utilizarea lui --timestamping la invocările ulterioare ale wget. Cu toate acestea, uneori este util să se bazeze data și ora fișierului local pe data la care acesta a fost descărcat efectiv; în acest scop, a fost furnizată opțiunea --no-use-server-timestamps.

Afișează antetele trimise de serverele HTTP și răspunsurile trimise de serverele FTP.
Atunci când este invocat cu această opțiune, wget se va comporta ca un spider Web (păianjen Web, robot de indexare), ceea ce înseamnă că nu va descărca paginile, ci doar va verifica dacă acestea sunt acolo. De exemplu, puteți utiliza wget pentru a vă verifica marcajele (de pagini favorite):

 wget --spider --force-html -i marcaje.html
    

Această caracteristică necesită mult mai multă muncă pentru ca wget să se apropie de funcționalitatea roboților de indexare Web reali.

Stabilește timpul de așteptare al rețelei la secunde secunde. Acest lucru este echivalent cu specificarea --dns-timeout, --connect-timeout și --read-timeout, toate în același timp.

Când interacționează cu rețeaua, wget poate să verifice dacă există un timp de așteptare și să întrerupă operațiunea dacă durează prea mult. Acest lucru previne anomalii precum citirile suspendate și conexiunile infinite. Singurul timp de așteptare activat în mod implicit este un timp de așteptare pentru citire de 900 de secunde. Stabilirea unui timp de așteptare la 0 îl dezactivează complet. Dacă nu știți ce faceți, cel mai bine este să nu modificați configurările implicite de temporizare.

Toate opțiunile legate de temporizare acceptă valori zecimale, precum și valori de zecimi de secunde. De exemplu, 0,1 secunde este o alegere legală (deși nechibzuită) pentru timpul de așteptare. Timpii de așteptare de sub o secundă sunt utili pentru verificarea timpilor de răspuns ai serverului sau pentru testarea latenței rețelei.

Stabilește timpul de așteptare pentru căutarea DNS la secunde secunde. Căutările DNS care nu se finalizează în timpul specificat vor eșua. În mod implicit, nu există niciun termen de așteptare pentru căutările DNS, altul decât cel implementat de bibliotecile sistemului.
Stabilește timpul de așteptare pentru conectare la secunde secunde. Conexiunile TCP a căror stabilire durează mai mult timp vor fi întrerupte. În mod implicit, nu există un termen de conectare, altul decât cel implementat de bibliotecile sistemului.
Stabilește timpul de așteptare pentru citire (și scriere) la secunde secunde. „Timpul” acestui interval de timp se referă la timpul de inactivitate: dacă, în orice moment al descărcării, nu se primește niciun fel de date pentru mai mult de numărul de secunde specificat, citirea eșuează și descărcarea este repornită. Această opțiune nu afectează în mod direct durata întregii descărcări.

Desigur, serverul de la distanță poate alege să încheie conexiunea mai devreme decât cere această opțiune. Timpul de citire implicit este de 900 de secunde.

Limitează viteza de descărcare la cantitate octeți pe secundă. Cantitatea poate fi exprimată în octeți, kiloocteți cu sufixul k sau megaocteți cu sufixul m. De exemplu, --limit-rate=20k va limita viteza de preluare la 20Ko/s. Acest lucru este util atunci când, indiferent de motiv, nu doriți ca wget să consume întreaga lățime de bandă disponibilă.

Această opțiune permite utilizarea numerelor zecimale, de obicei în combinație cu sufixe de putere; de exemplu, --limit-rate=2.5k este o valoare legală.

Rețineți că wget implementează limitarea prin dormirea timpului indicat după o citire în rețea care a durat mai puțin timp decât cel specificat de rată. În cele din urmă, această strategie face ca transferul TCP să încetinească până la aproximativ rata specificată. Cu toate acestea, este posibil să dureze ceva timp pentru a se ajunge la acest echilibru, așa că nu fiți surprins dacă limitarea ratei nu funcționează bine cu fișiere foarte mici.

Așteaptă numărul de secunde specificat între recuperări. Se recomandă utilizarea acestei opțiuni, deoarece ușurează sarcina serverului prin faptul că solicitările sunt mai puțin frecvente. În loc de secunde, timpul poate fi specificat în minute, folosind sufixul „m”, în ore, folosind sufixul „h”, sau în zile, folosind sufixul „d”.

Specificarea unei valori mari pentru această opțiune este utilă în cazul în care rețeaua sau gazda de destinație nu funcționează, astfel încât wget să poată aștepta suficient de mult timp pentru a se aștepta în mod rezonabil ca eroarea de rețea să fie remediată înainte de o nouă încercare. Intervalul de așteptare specificat de această funcție este influențat de opțiunea „--random-wait”, care monitorizează.

Dacă nu doriți ca wget să aștepte între fiecare recuperare, ci doar între încercările de reîncercare a descărcărilor eșuate, puteți utiliza această opțiune. wget va utiliza retrocedarea liniară (backoff liniar), așteptând 1 secundă după primul eșec la un anumit fișier, apoi așteptând 2 secunde după al doilea eșec la acel fișier, până la numărul maxim de secunde pe care îl specificați.

În mod implicit, wget va adopta o valoare de 10 secunde.

Unele situri web pot efectua o analiză a jurnalelor pentru a identifica programe de recuperare, cum ar fi wget, căutând similitudini semnificative din punct de vedere statistic în ceea ce privește timpul dintre solicitări. Această opțiune face ca timpul dintre solicitări să varieze între 0,5 și 1,5 * așteptare secunde, unde așteptarea a fost specificată cu ajutorul opțiunii --wait, pentru a masca prezența lui wget de la o astfel de analizare.

Un articol din 2001 dintr-o publicație dedicată dezvoltării pe o platformă populară între pasionații de software a furnizat codul pentru a efectua această analiză din mers. Autorul său a sugerat blocarea la nivelul adreselor de clasă C pentru a se asigura că programele de recuperare automată erau blocate în ciuda schimbării adreselor furnizate de DHCP.

Opțiunea --random-wait a fost inspirată de această recomandare nepotrivită de a bloca mulți utilizatori fără legătură cu un sit web din cauza acțiunilor unui singur utilizator.

Nu utilizează proxy-uri, chiar dacă este definită variabila de mediu *_proxy corespunzătoare.
Specifică cota de descărcare pentru recuperările automate. Valoarea poate fi specificată în octeți (implicit), kiloocteți (cu sufixul k) sau megaocteți (cu sufixul m).

Rețineți că această cotă nu va afecta niciodată descărcarea unui singur fișier. Astfel, dacă specificați wget -Q10k https://example.com/ls-lR.gz, toate fișierele ls-lR.gz vor fi descărcate. Același lucru este valabil chiar și atunci când sunt specificate mai multe adrese URL în linia de comandă. Cota este verificată numai la sfârșitul fiecărui fișier descărcat, astfel încât nu va rezulta niciodată un fișier descărcat parțial. Astfel, puteți tasta în siguranță wget -Q2m -i sites -- descărcarea va fi întreruptă după ce fișierul care epuizează cota este complet descărcat.

Stabilirea cotei la 0 sau la inf elimină limitarea cotei de descărcare.

Dezactivează stocarea în cache a căutărilor DNS. În mod normal, wget memorează adresele IP pe care le-a căutat din DNS, astfel încât să nu fie nevoit să contacteze în mod repetat serverul DNS pentru același set (de obicei mic) de gazde de la care recuperează. Această memorie cache există doar în memorie; o nouă rulare a wget va contacta din nou DNS.

Cu toate acestea, s-a raportat că, în anumite situații, nu este de dorit să se stocheze în memoria cache numele gazdelor, chiar și pe durata unei aplicații cu durată scurtă de funcționare, cum ar fi wget. Cu această opțiune, wget efectuează o nouă căutare DNS (mai precis, un nou apel la „gethostbyname” sau „getaddrinfo” de fiecare dată când face o nouă conexiune. Vă rugăm să rețineți că această opțiune nu va afecta memoria cache care ar putea fi efectuată de biblioteca de rezolvare sau de un strat extern de memorie cache, cum ar fi NSCD.

Dacă nu înțelegeți exact ce face această opțiune, probabil că nu aveți nevoie de ea.

Modifică caracterele găsite în adresele URL de la distanță care trebuie să fie eludate în timpul generării de nume de fișiere locale. Caracterele care sunt restricționate prin această opțiune sunt eludate, adică înlocuite cu %HH, unde HH este numărul hexazecimal care corespunde caracterului restricționat. Această opțiune poate fi, de asemenea, utilizată pentru a forța toate cazurile alfabetice să fie scrise cu minuscule sau majuscule.

În mod implicit, wget eludează caracterele care nu sunt valide sau sigure ca parte a numelor de fișiere în sistemul dumneavoastră de operare, precum și caracterele de control care sunt de obicei neimprimabile. Această opțiune este utilă pentru a modifica aceste valori implicite, poate pentru că descărcați pe o partiție non-nativă, pentru că doriți să dezactivați eludarea caracterelor de control sau pentru că doriți să restricționați în continuare caracterele doar la cele din intervalul de valori ASCII.

modurile sunt un set de valori text separate prin virgulă. Valorile acceptabile sunt unix, windows, nocontrol, ascii, lowercase și uppercase. Valorile unix și windows se exclud reciproc (una se suprapune celeilalte), la fel ca și lowercase și uppercase. Ultimele sunt cazuri speciale, deoarece nu modifică setul de caractere care ar trebui să fie eludate, ci mai degrabă forțează rutele locale ale fișierelor să fie convertite fie în minuscule, fie în majuscule.

Când se specifică „unix”, wget eludează caracterul / și caracterele de control din intervalele 0--31 și 128--159. Aceasta este valoarea implicită pe sistemele de operare de tip Unix.

Când se specifică „windows”, wget eludează caracterele \, |, /, :, ?, ", *, <, >, precum și caracterele de control din intervalele 0--31 și 128--159. În plus, wget în modul „windows” utilizează + în loc de : pentru a separa gazda și portul în numele de fișiere locale și utilizează @ în loc de ? pentru a separa porțiunea de interogare a numelui de fișier de restul. Prin urmare, o adresă URL care ar fi salvată ca www.xemacs.org:4300/search.pl?input=blah în modul Unix va fi salvată ca www.xemacs.org+4300/search.pl@input=blah în modul „windows”. Acest mod este cel implicit pe Windows.

Dacă specificați nocontrol, atunci se dezactivează și eludarea caracterelor de control. Această opțiune poate avea sens atunci când descărcați adrese URL ale căror nume conțin caractere UTF-8, pe un sistem care poate salva și afișa nume de fișiere în UTF-8 (unele valori posibile ale octeților utilizate în secvențele de octeți UTF-8 se încadrează în intervalul de valori desemnate de wget ca „controale”).

Modul ascii este utilizat pentru a specifica faptul că toți octeții ale căror valori se află în afara intervalului de caractere ASCII (adică mai mari de 127) trebuie să fie eludați. Acest lucru poate fi util atunci când se salvează nume de fișiere a căror codificare nu se potrivește cu cea utilizată local.

-4
-6
Forțează conectarea la adrese IPv4 sau IPv6. Cu --inet4-only sau -4, wget se va conecta numai la gazde IPv4, ignorând înregistrările AAAA din DNS și refuzând să se conecteze la adresele IPv6 specificate în adresele URL. În schimb, cu --inet6-only sau -6, wget se va conecta numai la gazde IPv6 și va ignora înregistrările A și adresele IPv4.

Niciuna dintre aceste opțiuni nu ar trebui să fie necesară în mod normal. În mod implicit, un wget compatibil cu IPv6 va utiliza familia de adrese specificată de înregistrarea DNS a gazdei. Dacă DNS răspunde cu adrese IPv4 și IPv6, wget le va încerca în succesiune până când găsește una la care se poate conecta; (a se vedea, de asemenea, opțiunea „--prefer-family” descrisă mai jos.

Aceste opțiuni pot fi utilizate pentru a forța în mod deliberat utilizarea familiilor de adrese IPv4 sau IPv6 pe sistemele cu două familii, de obicei pentru a ajuta la depanare sau pentru a rezolva probleme de configurare a rețelei. Se poate specifica în același timp doar una dintre --inet6-only și --inet4-only. Niciuna dintre aceste opțiuni nu este disponibilă în wget compilat fără suport IPv6.

Atunci când se oferă posibilitatea de a alege între mai multe adrese, se conectează mai întâi la adresele cu familia de adrese specificată. Ordinea adreselor returnată de DNS este utilizată în mod implicit fără modificări.

Astfel se evită erorile false și încercările de conectare atunci când se accesează gazde care se rezolvă atât la adrese IPv6, cât și la adrese IPv4 din rețele IPv4. De exemplu, www.kame.net se rezolvă la 2001:200:0:8002:203:47ff:fea5:3085 și la 203.178.141.194. Atunci când familia preferată este „IPv4”, adresa IPv4 este utilizată mai întâi; atunci când familia preferată este „IPv6”, adresa IPv6 este utilizată mai întâi; dacă valoarea specificată este „none”, ordinea adreselor returnată de DNS este utilizată fără modificări.

Spre deosebire de -4 și -6, această opțiune nu inhibă accesul la nici o familie de adrese, ci doar modifică ordinea în care sunt accesate adresele. De asemenea, rețineți că reordonarea efectuată de această opțiune este stabilă -- nu afectează ordinea adreselor din aceeași familie. Altfel spus, ordinea relativă a tuturor adreselor IPv4 și a tuturor adreselor IPv6 rămâne intactă în toate cazurile.

Consideră eroarea „conexiune refuzată” ca fiind o eroare tranzitorie și încearcă din nou. În mod normal, wget renunță la o adresă URL atunci când nu se poate conecta la sit, deoarece eșecul conexiunii este considerat un semn că serverul nu funcționează deloc și că încercările repetate nu ar ajuta. Această opțiune este destinată oglindirii siturilor nesigure ale căror servere au tendința de a dispărea pentru perioade scurte de timp.
Specifică numele de utilizator utilizator și parola parolă atât pentru preluarea fișierelor prin FTP, cât și prin HTTP. Acești parametri pot fi suprascriși folosind opțiunile --ftp-user și --ftp-password pentru conexiunile FTP și opțiunile --http-user și --http-password pentru conexiunile HTTP.
Solicită o parolă pentru fiecare conexiune stabilită. Nu poate fi specificată atunci când se utilizează opțiunea --password, deoarece acestea se exclud reciproc.
Solicită un utilizator și o parolă folosind comanda specificată. Dacă nu se specifică nicio comandă, se utilizează comanda din variabila de mediu WGET_ASKPASS. Dacă WGET_ASKPASS nu este definită, se utilizează comanda din variabila de mediu SSH_ASKPASS. Specifică numele de utilizator utilizator și parola parolă atât pentru preluarea fișierelor prin FTP, cât și prin HTTP. Acești parametri pot fi suprascriși folosind opțiunile --ftp-user și --ftp-password pentru conexiunile FTP și opțiunile --http-user și --http-password pentru conexiunile HTTP.

Puteți stabili comanda implicită pentru „use-askpass” în fișierul .wgetrc. Această configurare poate fi suprascrisă din linia de comandă.

Dezactivează suportul pentru adresele URI internaționalizate (IRI). Utilizați opțiunea --iri pentru a-l activa. Suportul pentru IRI este activat în mod implicit.

Puteți stabili starea implicită a suportului IRI utilizând comanda „iri” din .wgetrc. Această configurare poate fi suprascrisă din linia de comandă.

Forțează wget să utilizeze codificarea ca codificare implicită a sistemului. Aceasta afectează modul în care wget convertește adresele URL specificate ca argumente din codificarea locală dictată de configurația regională în UTF-8 pentru suportul IRI.

wget utilizează funcția nl_langinfo() și apoi variabila de mediu „CHARSET” pentru a obține configurația regională (codificarea caracterelor). Dacă nu reușește, se utilizează ASCII.

Puteți defini codificarea locală implicită folosind comanda „local_encoding” din .wgetrc. Această configurare poate fi suprascrisă din linia de comandă.

Forțează wget să utilizeze codificarea drept codificarea implicită a serverului de la distanță. Acest lucru afectează modul în care wget convertește adresele URI găsite în fișiere din codificarea de la distanță în UTF-8 în timpul unei preluări recursive. Această opțiune este utilă doar pentru suportul IRI, pentru interpretarea caracterelor non-ASCII.

Pentru HTTP, codificarea la distanță poate fi găsită în antetul HTTP „Content-Type” și în metaeticheta HTML „Content-Type http-equiv”.

Puteți stabili codificarea implicită utilizând comanda „remoteencoding” din .wgetrc. Această configurare poate fi suprascrisă din linia de comandă.

Forțează wget să dezlege un fișier în loc să suprascrie fișierul existent. Această opțiune este utilă pentru descărcarea în directorul cu legături dure.

Opțiuni director

Nu creează o ierarhie de directoare atunci când recuperează recursiv. Cu această opțiune activată, toate fișierele vor fi salvate în directorul curent, fără a se face suprapunerea (suprascrierea), dacă un nume apare de mai multe ori, numele fișierelor vor primi extensii .n.
Opusul lui -nd --- creează o ierarhie de directoare, chiar dacă altfel nu ar fi fost creată niciuna. De exemplu, wget -x http://fly.srk.fer.hr/robots.txt va salva fișierul descărcat în fly.srk.fer.hr/robots.txt.
Dezactivează generarea de directoare cu prefix de gazdă. În mod implicit, invocarea Wget cu -r http://fly.srk.fer.hr/ va crea o structură de directoare care începe cu fly.srk.fer.hr/. Această opțiune dezactivează un astfel de comportament.
Utilizează numele protocolului ca o componentă de director a numelor de fișiere locale. De exemplu, cu această opțiune, wget -r http://gazda va salva la http/gazda/..., mai degrabă decât doar la gazda/....
Ignoră numărul de componente ale directorului. Acest lucru este util pentru a obține un control fin asupra directorului în care va fi salvată recuperarea recursivă.

Să luăm, de exemplu, directorul de la ftp://ftp.xemacs.org/pub/xemacs/. Dacă îl preluați cu opțiunea -r, acesta va fi salvat local sub ftp.xemacs.org/pub/xemacs/. În timp ce opțiunea -nH poate elimina partea ftp.xemacs.org/, rămâneți blocat cu pub/xemacs. Aici este unde opțiunea --cut-dirs este utiă; aceasta face ca wget să nu „vadă” componentele directoarelor la distanță numărul. Iată câteva exemple de funcționare a opțiunii --cut-dirs.

 Fără opțiuni -> ftp.xemacs.org/pub/xemacs/  -nH -> pub/xemacs/
 -nH --cut-dirs=1 -> xemacs/  -nH --cut-dirs=2 -> .  
--cut-dirs=1 -> ftp.xemacs.org/xemacs/  ...
    

Dacă doriți doar să scăpați de structura directoarelor, această opțiune este similară cu o combinație între -nd și -P. Cu toate acestea, spre deosebire de -nd, --cut-dirs nu se pierde cu subdirectoarele - de exemplu, cu -nH --cut-dirs=1, un subdirector beta/ va fi plasat în xemacs/beta, așa cum ar fi de așteptat.

Stabilește prefixul directorului la prefix. prefixul directorului este directorul în care vor fi salvate toate celelalte fișiere și subdirectoare, adică în vârful arborelui de recuperare. Valoarea implicită este . (directorul curent).

Opțiuni HTTP

Utilizează nume ca nume de fișier implicit atunci când acesta nu este cunoscut (de exemplu, pentru adresele URL care se termină cu o bară oblică), în loc de index.html.
Dacă se descarcă un fișier de tip application/xhtml+xml sau text/html și adresa URL nu se termină cu expresia regulată \.[Hh][Tt][Mm][Ll]?, această opțiune va face ca sufixul .html să fie adăugat la numele de fișier local. Acest lucru este util, de exemplu, atunci când faceți o oglindire a unui sit de la distanță care utilizează pagini .asp, dar doriți ca paginile oglindite să poată fi vizualizate pe serverul Apache existent. O altă utilizare bună pentru acest lucru este atunci când descărcați materiale generate de CGI. O adresă URL precum http://site.com/article.cgi?25 va fi salvată ca article.cgi?25.html.

Rețineți că numele de fișiere schimbate în acest mod vor fi descărcate din nou de fiecare dată când veți reface o oglindă a unui sit, deoarece wget nu poate spune că fișierul local X.html corespunde adresei URL de la distanță X (deoarece nu știe încă dacă adresa URL produce o ieșire de tip text/html sau application/xhtml+xml.

Începând cu versiunea 1.12, wget se va asigura, de asemenea, că toate fișierele descărcate de tip text/css se termină cu sufixul .css, iar opțiunea a fost redenumită din --html-extension, pentru a reflecta mai bine noul comportament. Vechiul nume al opțiunii este încă acceptabil, dar ar trebui considerat acum ca fiind depreciat.

Începând cu versiunea 1.19.2, wget se va asigura, de asemenea, că toate fișierele descărcate cu un „Content-Encoding\[u201D] de br, compress, deflate sau gzip se termină cu sufixul .br, .Z, .zlib și, respectiv, .gz.

La un moment dat în viitor, această opțiune ar putea fi extinsă pentru a include sufixe pentru alte tipuri de conținut, inclusiv tipuri de conținut care nu sunt analizate de wget.

Specifică numele de utilizator utilizator și parola parolă pe un server HTTP. În funcție de tipul provocării, wget le va codifica folosind fie „basic” (nesigur), „digest”, fie schema de autentificare „NTLM” de Windows.

Un alt mod de a specifica numele de utilizator și parola este în adresa URL însăși. Oricare dintre cele două metode dezvăluie parola oricui se deranjează să ruleze ps. Pentru a preveni ca parolele să fie văzute, utilizați --use-askpass sau stocați-le în .wgetrc sau .netrc și asigurați-vă că protejați aceste fișiere de alți utilizatori cu chmod. Dacă parolele sunt foarte importante, nu le lăsați nici în acele fișiere -- editați fișierele și ștergeți-le după ce wget a început descărcarea.

Dezactivează funcția „keep-alive” pentru descărcările HTTP. În mod normal, wget solicită serverului să mențină conexiunea deschisă, astfel încât, atunci când descărcați mai multe documente de pe același server, acestea să fie transferate prin aceeași conexiune TCP. Acest lucru economisește timp și, în același timp, reduce sarcina pe server.

Această opțiune este utilă atunci când, din anumite motive, conexiunile persistente (keep-alive) nu funcționează, de exemplu, din cauza unei erori a serverului sau din cauza incapacității scripturilor din partea serverului de a face față conexiunilor.

Dezactivează memoria cache de pe server. În acest caz, wget va trimite serverului de la distanță directivele corespunzătoare (Cache-Control: no-cache și Pragma: no-cache) pentru a obține fișierul de la serviciul de la distanță, în loc să returneze versiunea din memoria cache. Acest lucru este deosebit de util pentru recuperarea și golirea documentelor învechite de pe serverele proxy.

Stocarea în cache este permisă în mod implicit.

Dezactivează utilizarea modulelor cookie. Modulele cookie sunt un mecanism de menținere a stării pe server. Serverul trimite clientului un modul cookie folosind antetul „Set-Cookie”, iar clientul răspunde cu același modul cookie la solicitările ulterioare. Deoarece cookie-urile permit proprietarilor de servere să țină evidența vizitatorilor și siturilor să facă schimb de aceste informații, unii le consideră o încălcare a vieții private. Opțiunea implicită este de a utiliza cookie-uri; cu toate acestea, stocarea cookie-urilor nu este activată în mod implicit.
Încarcă cookie-urile din fișier înainte de prima recuperare HTTP. fișier este un fișier textual în formatul utilizat inițial de fișierul cookies.txt al Netscape.

De obicei, veți utiliza această opțiune atunci când oglindiți situri care necesită conectare pentru a accesa o parte sau tot conținutul lor. Procesul de conectare funcționează de obicei prin emiterea de către serverul web a unui modul cookie HTTP la primirea și verificarea acreditărilor dumneavoastră. Cookie-ul este apoi retrimis de către navigator atunci când accesați acea parte a sitului, dovedind astfel identitatea dumneavoastră.

Oglindirea unui astfel de sit necesită ca wget să trimită aceleași cookie-uri pe care navigatorul dvs. le trimite atunci când comunicați cu situl respectiv. Acest lucru se realizează prin --load-cookies --- simplu direcționați wget către locația fișierului cookies.txt, iar acesta va trimite aceleași cookie-uri pe care le-ar trimite și navigatorul dvs. în aceeași situație. Diferite navigatoare păstrează fișierele cookie textuale în locații diferite:

"Netscape 4.x."
Cookie-urile sunt în ~/.netscape/cookies.txt.
"Mozilla and Netscape 6.x."
Fișierul cookie al Mozilla se numește, de asemenea, cookies.txt, situat undeva sub ~/.mozilla, în directorul profilului dvs. Ruta completă ajunge de obicei să arate oarecum ca ~/.mozilla/default/un-șir-ciudat/cookies.txt.
"Internet Explorer."
Puteți produce un fișier cookie pe care wget îl poate utiliza folosind meniul Fișier, Import și Export, Export Cookies. Acest lucru a fost testat cu Internet Explorer 5; nu se garantează că va funcționa cu versiunile anterioare.
"Other browsers."
Dacă utilizați un alt navigator pentru a crea cookie-urile, --load-cookies va funcționa numai dacă puteți localiza sau produce un fișier cookie în formatul Netscape pe care wget îl așteaptă.

Dacă nu puteți utiliza --load-cookies, ar putea exista totuși o alternativă. Dacă navigatorul dvs. acceptă un „ administrator de cookie-uri”, îl puteți utiliza pentru a vedea cookie-urile utilizate la accesarea sitului pe care îl oglindiți. Notați numele și valoarea cookie-ului și indicați-i manual lui wget să trimită acele cookie-uri, ocolind suportul „oficial” pentru cookie-uri:

 wget --no-cookies --header "Cookie: <nume>=<valoare>"
Salvează cookie-urile în fișier înainte de a ieși. Acest lucru nu va salva cookie-urile care au expirat sau care nu au un termen de expirare (așa-numitele „cookie-uri de sesiune”), dar consultați și opțiunea --keep-session-cookies.
Atunci când este specificată, face ca --save-cookies să salveze și cookie-urile de sesiune. În mod normal, cookie-urile de sesiune nu sunt salvate, deoarece sunt destinate să fie păstrate în memorie și uitate atunci când ieșiți din navigator. Salvarea lor este utilă pe siturile care vă cer să vă autentificați sau să vizitați pagina principală înainte de a putea accesa anumite pagini. Cu această opțiune, mai multe rulări wget sunt considerate o singură sesiune de navigare în ceea ce privește situl în cauză.

Deoarece formatul fișierelor cookie nu conține în mod normal cookie-uri de sesiune, wget le marchează cu o dată de expirare de 0. Opțiunea --load-cookies a lui wget le recunoaște ca fiind cookie-uri de sesiune, dar ar putea deruta alte navigatoare. Rețineți, de asemenea, că cookie-urile astfel încărcate vor fi tratate ca alte cookie-uri de sesiune, ceea ce înseamnă că, dacă doriți ca --save-cookies să le păstreze din nou, trebuie să folosiți din nou --keep-session-cookies.

Din nefericire, unele servere HTTP (mai exact, programe CGI) trimit anteturi „Content-Length” false, ceea ce îl face pe wget să o ia razna, deoarece crede că nu tot documentul a fost recuperat. Puteți depista acest sindrom dacă wget încearcă din nou și din nou să obțină același document, pretinzând de fiecare dată că conexiunea (altfel normală) s-a închis pe același octet.

Cu această opțiune, wget va ignora antetul „Content-Length” --- ca și cum nu ar fi existat niciodată.

Trimiteți linie-antet împreună cu restul antetelor în fiecare cerere HTTP. Antetul furnizat este trimis așa cum este, ceea ce înseamnă că trebuie să conțină numele și valoarea separate prin două puncte și nu trebuie să conțină linii noi.

Puteți defini mai mult de un antet suplimentar specificând --header de mai multe ori.

 wget --header='Accept-Charset: iso-8859-2' \ 
--header='Accept-Language: hr' \  http://fly.srk.fer.hr/
    

Specificarea unui șir gol ca valoare a antetului va șterge toate anteturile anterioare definite de utilizator.

Începând cu Wget 1.10, această opțiune poate fi utilizată pentru a anula anteturile generate automat. Acest exemplu îi indică lui wget să se conecteze la localhost, dar să specifice foo.bar în antetul „Host”:

 wget --header="Host: foo.bar" http://localhost/
    

În versiunile de Wget anterioare versiunii 1.10, o astfel de utilizare a --header a cauzat trimiterea de anteturi duplicate.

Selectează tipul de comprimare care urmează să fie utilizat. Valorile posibile sunt auto, gzip și none.

Dacă se specifică auto sau gzip, wget solicită serverului să comprime fișierul folosind formatul de comprimare gzip. Dacă serverul comprimă fișierul și răspunde cu câmpul de antet „Content-Encoding” definit în mod corespunzător, fișierul va fi decomprimat automat.

Dacă se specifică none, wget nu va cere serverului să comprime fișierul și nu va decomprima niciun răspuns al serverului. Aceasta este valoarea implicită.

Suportul pentru comprimare este în prezent experimental. În cazul în care este activat, vă rugăm să raportați orice eroare la „bug-wget@gnu.org”.

Specifică numărul maxim de redirecționări care trebuie urmate pentru o resursă. Valoarea implicită este 20, care este de obicei mult mai mult decât este necesar. Cu toate acestea, în acele ocazii în care doriți să permiteți mai multe (sau mai puține), aceasta este opțiunea care trebuie utilizată.
Specifică numele de utilizator utilizator și parola parolă pentru autentificarea pe un server proxy. wget le va codifica folosind schema de autentificare „basic”.

Considerațiile de securitate similare cu cele din cazul --http-password se aplică și aici.

Include antetul „Referer: url” în cererea HTTP. Util pentru recuperarea documentelor cu procesare pe server care presupun că acestea sunt întotdeauna recuperate de către navigatoarele web interactive și ies corect doar atunci când Referer este definit la una dintre paginile care indică spre ele.
Salvează antetele trimise de serverul HTTP în fișier, înaintea conținutului propriu-zis, cu o linie goală ca separator.
Se identifică ca șir-agent față de serverul HTTP.

Protocolul HTTP permite clienților să se identifice cu ajutorul unui câmp de antet „User-Agent”. Acest lucru permite distingerea software-ului WWW, de obicei în scopuri statistice sau pentru urmărirea încălcărilor de protocol. wget se identifică în mod normal ca Wget/versiune, versiune fiind numărul versiunii curente a wget.

Cu toate acestea, se știe că unele siteuri au impus politica de adaptare a rezultatului în funcție de informațiile furnizate de „User-Agent”. Deși, în teorie, nu este o idee atât de rea, aceasta a fost abuzată de servere care au refuzat informații pentru alți clienți decât (istoric) Netscape sau, mai frecvent, Microsoft Internet Explorer. Această opțiune vă permite să modificați linia „User-Agent” emisă de wget. Utilizarea acestei opțiuni este descurajată, cu excepția cazului în care știți cu adevărat ce faceți.

Specificarea unui agent utilizator gol cu --user-agent="" îi indică lui wget să nu trimită antetul „User-Agent” în cererile HTTP.

Utilizează POST ca metodă pentru toate cererile HTTP și trimite datele specificate în corpul cererii. --post-data trimite șiruri ca date, în timp ce --post-file trimite conținutul lui fișier. În afară de aceasta, ele funcționează exact în același mod. În special, ambele așteaptă un conținut de forma „cheie1=valoare1&key2=valoare2”, cu codificare procentuală pentru caracterele speciale; singura diferență este că una dintre ele așteaptă conținutul ca parametru de linie de comandă, iar cealaltă acceptă conținutul dintr-un fișier. În special, --post-file nu este pentru transmiterea de fișiere ca atașamente la formulare: acestea trebuie să apară ca date „cheie=valoare” (cu codificarea procentuală corespunzătoare), la fel ca orice altceva. wget nu acceptă în prezent „multipart/form-data” pentru transmiterea de date POST; doar „application/x-www-form-urlencoded”. Trebuie specificată numai una dintre opțiunile --post-data și --post-file.

Vă rugăm să rețineți că wget nu solicită ca respectivul conținut să fie de forma "cheie1=valoare1&cheie2=valoare2" și nici nu testează acest lucru. wget va transmite pur și simplu orice date care îi sunt furnizate. Cu toate acestea, majoritatea serverelor se așteaptă ca datele POST să fie în formatul de mai sus atunci când procesează formulare HTML.

Când se trimite o cerere POST utilizând opțiunea --post-file, wget tratează fișierul ca pe un fișier binar și va trimite fiecare caracter din cererea POST fără a elimina caracterele de linie nouă sau salt de pagină. Orice alte caractere de control din text vor fi, de asemenea, trimise ca atare în cererea POST.

Vă rugăm să rețineți că wget trebuie să cunoască în prealabil dimensiunea datelor POST. Prin urmare, argumentul pentru „-post-file” trebuie să fie un fișier obișnuit; specificarea unei FIFO (conducte cu nume) sau a ceva precum /dev/stdin nu va funcționa. Nu este foarte clar cum se poate evita această limitare inerentă la HTTP/1.0. Deși HTTP/1.1 introduce transferul chunked (în bucăți) care nu necesită cunoașterea în avans a lungimii cererii, un client nu poate utiliza transferul în bucăți decât dacă știe că vorbește cu un server HTTP/1.1. Și nu poate ști acest lucru până când nu primește un răspuns, care la rândul său necesită ca cererea să fi fost finalizată - o problemă de tipul „oul și găina”.

Notă: Începând cu versiunea 1.15, în cazul în care Wget este redirecționat după ce cererea POST este finalizată, comportamentul său va depinde de codul de răspuns returnat de server. În cazul unei redirecționări 301 Moved Permanently (mutat permanent), 302 Moved Temporarily (mutat temporar) sau 307 Temporary Redirect (redirecționare temporară), Wget va continua, în conformitate cu RFC2616, să trimită o cerere POST. În cazul în care un server dorește ca clientul să schimbe metoda de solicitare la redirecționare, acesta trebuie să trimită un cod de răspuns 303. A se vedea secțiunea „Alt cod de răspuns”.

Acest exemplu arată cum să vă conectați la un server folosind POST și apoi să descărcați paginile dorite, probabil accesibile doar utilizatorilor autorizați:

 # Se conectează la server. Acest lucru se poate face doar o singură
dată.  wget --save-cookies cookies.txt \  --post-data
'user=foo&password=bar' \  http://example.com/auth.php    #
Acum ia pagina sau paginile care ne interesează.  wget --load-cookies
cookies.txt \  -p http://example.com/interesting/article.php
    

Dacă serverul utilizează cookie-uri de sesiune pentru a urmări autentificarea utilizatorului, cele de mai sus nu vor funcționa, deoarece --save-cookies nu le va salva (și nici navigatoarele nu le vor salva), iar fișierul cookies.txt va fi gol. În acest caz, utilizați --keep-session-cookies împreună cu --save-cookies pentru a forța salvarea cookie-urilor de sesiune.

În scopul scriptării RESTful, wget permite trimiterea altor metode HTTP fără a fi nevoie să le definiți în mod explicit folosind --header=linie-antet. wget va utiliza orice șir de caractere care îi este transmis după --method ca metodă HTTP către server.
Trebuie să fie definită atunci când este necesar să se trimită date suplimentare către server împreună cu metoda specificată cu ajutorul opțiunii --method. --body-data trimite șiruri ca date, în timp ce --body-file trimite conținutul lui fișier. În afară de aceasta, ele funcționează exact în același mod.

În prezent, opțiunea --body-file nu este pentru transmiterea fișierelor ca un întreg. wget nu acceptă în prezent „multipart/form-data” pentru transmiterea de date; doar „application/x-www-form-urlencoded”. În viitor, acest lucru poate fi modificat astfel încât wget să trimită --body-file ca fișier complet, în loc să trimită conținutul său către server. Vă rugăm să fiți conștienți de faptul că wget trebuie să cunoască în prealabil conținutul datelor BODY și, prin urmare, argumentul pentru --body-file trebuie să fie un fișier obișnuit. Pentru o explicație mai detaliată, consultați --post-file. Trebuie specificată doar una dintre opțiunile --body-data și --body-file.

În cazul în care wget este redirecționat după ce cererea este finalizată, wget va suspenda metoda curentă și va trimite o cerere GET până la finalizarea redirecționării. Acest lucru este valabil pentru toate codurile de răspuns de redirecționare, cu excepția 307 Temporary Redirect (Redirecționare temporară), care este utilizat pentru a specifica în mod explicit că metoda de solicitare nu trebuie să se schimbe. O altă excepție este atunci când metoda este stabilită „POST”, caz în care se respectă regulile de redirecționare specificate la --post-data.

Dacă este stabilită la «on», este activat suportul experimental (nu este complet funcțional) pentru antetele „Content-Disposition”. Acest lucru poate duce în prezent la mai multe drumuri dus-întors către server pentru o cerere „HEAD” și se știe că suferă de câteva erori, motiv pentru care nu este activat în mod implicit.

Această opțiune este utilă pentru unele programe CGI de descărcare de fișiere care utilizează antetele „Content-Disposition” pentru a descrie numele unui fișier descărcat.

Când este combinată cu opțiunile --metalink-over-http și --trust-server-names, un fișier Content-Type: application/metalink4+xml este denumit utilizând câmpul de nume de fișier „Content-Disposition”, dacă este disponibil.

Dacă această opțiune este stabilită la «on», wget nu va sări peste conținut atunci când serverul răspunde cu un cod de stare http care indică o eroare.
Dacă este definită, la o redirecționare, numele fișierului local se va baza pe adresa URL de redirecționare. În mod implicit, numele fișierului local se bazează pe adresa URL originală. În cazul recuperării recursive, acest lucru poate fi util, deoarece în multe situri web, adresele URL redirecționate corespund unei structuri de fișiere subiacente, în timp ce adresele URL de legătură nu corespund.
Dacă se specifică această opțiune, wget va trimite informații de autentificare HTTP de bază (nume de utilizator și parolă în text simplu) pentru toate solicitările, la fel cum Wget 1.10.2 și versiunile anterioare făceau în mod implicit.

Utilizarea acestei opțiuni nu este recomandată și este destinată doar pentru a permite utilizarea unor servere obscure, care nu trimit niciodată provocări de autentificare HTTP, dar acceptă informații de autentificare nesolicitate, adică, în plus față de autentificarea bazată pe formular.

Consideră erorile de gazdă, cum ar fi „Temporary failure in name resolution” (Eșec temporar în rezolvarea numelui), ca fiind erori nefatale, tranzitorii.
Consideră codurile de răspuns HTTP date ca fiind erori non-fatale, tranzitorii. Furnizează ca argument o listă de coduri de răspuns HTTP de 3 cifre, separate prin virgule. Util pentru a rezolva circumstanțe speciale în care sunt necesare încercări repetate, dar serverul răspunde cu un cod de eroare care, în mod normal, nu este încercat de wget. Astfel de erori pot fi 503 („Service Unavailable”, serviciu nedisponibil) și 429 („Too Many Requests”, prea multe cereri). Reîncercările activate de această opțiune sunt efectuate sub rezerva limitărilor normale de timp și număr de încercări ale wget.

Utilizarea acestei opțiuni este destinată doar pentru cazuri speciale de utilizare și, în general, nu este recomandată, deoarece poate forța reîncercări chiar și în cazurile în care serverul încearcă de fapt să își reducă sarcina. Vă rugăm să o utilizați cu înțelepciune și numai dacă știți ce faceți.

Opțiuni HTTPS (SSL/TLS)

Pentru a asigura suportul pentru descărcări HTTP (HTTPS) criptate, wget trebuie compilat cu o bibliotecă SSL externă. Cea implicită actuală este GnuTLS. În plus, wget acceptă și HSTS (HTTP Strict Transport Security). Dacă wget este compilat fără suport SSL, niciuna dintre aceste opțiuni nu este disponibilă.

Selectează protocolul securizat care urmează să fie utilizat. Valorile posibile sunt auto, SSLv2, SSLv3, TLSv1, TLSv1_1, TLSv1_2, TLSv1_3 și PFS. În cazul în care se utilizează auto, biblioteca SSL are libertatea de a alege automat protocolul adecvat, ceea ce se realizează prin trimiterea unui salut TLSv1. Aceasta este valoarea implicită.

Specificarea SSLv2, SSLv3, TLSv1, TLSv1_1, TLSv1_2 sau TLSv1_3 forțează utilizarea protocolului corespunzător. Acest lucru este util atunci când se vorbește cu implementări de servere SSL vechi și cu erori care fac dificilă alegerea versiunii corecte de protocol de către biblioteca SSL de bază. Din fericire, astfel de servere sunt destul de rare.

Specificarea PFS impune utilizarea așa-numitelor suite de coduri „Perfect Forward Security”. Pe scurt, PFS adaugă securitate prin crearea unei chei unice pentru fiecare conexiune SSL. Aceasta are un impact ceva mai mare asupra CPU-ului clientului și serverului. Utilizăm cifrări cunoscute ca fiind sigure (de exemplu, fără MD4) și protocolul TLS. De asemenea, acest mod exclude în mod explicit metodele de schimb de chei non-PFS, cum ar fi RSA.

When in recursive mode, only HTTPS links are followed.
Set the cipher list string. Typically this string sets the cipher suites and other SSL/TLS options that the user wish should be used, in a set order of preference (GnuTLS calls it 'priority string'). This string will be fed verbatim to the SSL/TLS engine (OpenSSL or GnuTLS) and hence its format and syntax is dependent on that. Wget will not process or manipulate it in any way. Refer to the OpenSSL or GnuTLS documentation for more information.
Don't check the server certificate against the available certificate authorities. Also don't require the URL host name to match the common name presented by the certificate.

As of Wget 1.10, the default is to verify the server's certificate against the recognized certificate authorities, breaking the SSL handshake and aborting the download if the verification fails. Although this provides more secure downloads, it does break interoperability with some sites that worked with previous Wget versions, particularly those using self-signed, expired, or otherwise invalid certificates. This option forces an "insecure" mode of operation that turns the certificate verification errors into warnings and allows you to proceed.

If you encounter "certificate verification" errors or ones saying that "common name doesn't match requested host name", you can use this option to bypass the verification and proceed with the download. Only use this option if you are otherwise convinced of the site's authenticity, or if you really don't care about the validity of its certificate. It is almost always a bad idea not to check the certificates when transmitting confidential or important data. For self-signed/internal certificates, you should download the certificate and verify against that instead of forcing this insecure mode. If you are really sure of not desiring any certificate verification, you can specify --check-certificate=quiet to tell wget to not print any warning about invalid certificates, albeit in most cases this is the wrong thing to do.

Use the client certificate stored in file. This is needed for servers that are configured to require certificates from the clients that connect to them. Normally a certificate is not required and this switch is optional.
Specify the type of the client certificate. Legal values are PEM (assumed by default) and DER, also known as ASN1.
Read the private key from file. This allows you to provide the private key in a file separate from the certificate.
Specify the type of the private key. Accepted values are PEM (the default) and DER.
Use file as the file with the bundle of certificate authorities ("CA") to verify the peers. The certificates must be in PEM format.

Without this option Wget looks for CA certificates at the system-specified locations, chosen at OpenSSL installation time.

Specifies directory containing CA certificates in PEM format. Each file contains one CA certificate, and the file name is based on a hash value derived from the certificate. This is achieved by processing a certificate directory with the "c_rehash" utility supplied with OpenSSL. Using --ca-directory is more efficient than --ca-certificate when many certificates are installed because it allows Wget to fetch certificates on demand.

Without this option Wget looks for CA certificates at the system-specified locations, chosen at OpenSSL installation time.

Specifies a CRL file in file. This is needed for certificates that have been revocated by the CAs.
Tells wget to use the specified public key file (or hashes) to verify the peer. This can be a path to a file which contains a single public key in PEM or DER format, or any number of base64 encoded sha256 hashes preceded by "sha256//" and separated by ";"

When negotiating a TLS or SSL connection, the server sends a certificate indicating its identity. A public key is extracted from this certificate and if it does not exactly match the public key(s) provided to this option, wget will abort the connection before sending or receiving any data.

[OpenSSL and LibreSSL only] Use file as the source of random data for seeding the pseudo-random number generator on systems without /dev/urandom.

On such systems the SSL library needs an external source of randomness to initialize. Randomness may be provided by EGD (see --egd-file below) or read from an external source specified by the user. If this option is not specified, Wget looks for random data in $RANDFILE or, if that is unset, in $HOME/.rnd.

If you're getting the "Could not seed OpenSSL PRNG; disabling SSL." error, you should provide random data using some of the methods described above.

[OpenSSL only] Use file as the EGD socket. EGD stands for Entropy Gathering Daemon, a user-space program that collects data from various unpredictable system sources and makes it available to other programs that might need it. Encryption software, such as the SSL library, needs sources of non-repeating randomness to seed the random number generator used to produce cryptographically strong keys.

OpenSSL allows the user to specify his own source of entropy using the "RAND_FILE" environment variable. If this variable is unset, or if the specified file does not produce enough randomness, OpenSSL will read random data from EGD socket specified using this option.

If this option is not specified (and the equivalent startup command is not used), EGD is never contacted. EGD is not needed on modern Unix systems that support /dev/urandom.

Wget supports HSTS (HTTP Strict Transport Security, RFC 6797) by default. Use --no-hsts to make Wget act as a non-HSTS-compliant UA. As a consequence, Wget would ignore all the "Strict-Transport-Security" headers, and would not enforce any existing HSTS policy.
By default, Wget stores its HSTS database in ~/.wget-hsts. You can use --hsts-file to override this. Wget will use the supplied file as the HSTS database. Such file must conform to the correct HSTS database format used by Wget. If Wget cannot parse the provided file, the behaviour is unspecified.

The Wget's HSTS database is a plain text file. Each line contains an HSTS entry (ie. a site that has issued a "Strict-Transport-Security" header and that therefore has specified a concrete HSTS policy to be applied). Lines starting with a dash ("#") are ignored by Wget. Please note that in spite of this convenient human-readability hand-hacking the HSTS database is generally not a good idea.

An HSTS entry line consists of several fields separated by one or more whitespace:

"<hostname> SP [<port>] SP <include subdomains> SP <created> SP <max-age>"

The hostname and port fields indicate the hostname and port to which the given HSTS policy applies. The port field may be zero, and it will, in most of the cases. That means that the port number will not be taken into account when deciding whether such HSTS policy should be applied on a given request (only the hostname will be evaluated). When port is different to zero, both the target hostname and the port will be evaluated and the HSTS policy will only be applied if both of them match. This feature has been included for testing/development purposes only. The Wget testsuite (in testenv/) creates HSTS databases with explicit ports with the purpose of ensuring Wget's correct behaviour. Applying HSTS policies to ports other than the default ones is discouraged by RFC 6797 (see Appendix B "Differences between HSTS Policy and Same-Origin Policy"). Thus, this functionality should not be used in production environments and port will typically be zero. The last three fields do what they are expected to. The field include_subdomains can either be 1 or 0 and it signals whether the subdomains of the target domain should be part of the given HSTS policy as well. The created and max-age fields hold the timestamp values of when such entry was created (first seen by Wget) and the HSTS-defined value 'max-age', which states how long should that HSTS policy remain active, measured in seconds elapsed since the timestamp stored in created. Once that time has passed, that HSTS policy will no longer be valid and will eventually be removed from the database.

If you supply your own HSTS database via --hsts-file, be aware that Wget may modify the provided file if any change occurs between the HSTS policies requested by the remote servers and those in the file. When Wget exits, it effectively updates the HSTS database by rewriting the database file with the new entries.

If the supplied file does not exist, Wget will create one. This file will contain the new HSTS entries. If no HSTS entries were generated (no "Strict-Transport-Security" headers were sent by any of the servers) then no file will be created, not even an empty one. This behaviour applies to the default database file (~/.wget-hsts) as well: it will not be created until some server enforces an HSTS policy.

Care is taken not to override possible changes made by other Wget processes at the same time over the HSTS database. Before dumping the updated HSTS entries on the file, Wget will re-read it and merge the changes.

Using a custom HSTS database and/or modifying an existing one is discouraged. For more information about the potential security threats arose from such practice, see section 14 "Security Considerations" of RFC 6797, specially section 14.9 "Creative Manipulation of HSTS Policy Store".

Use file as the destination WARC file.
Inserează șirul într-o înregistrare warcinfo.
Set the maximum size of the WARC files to size.
Scrie fișierele index CDX.
Nu stochează înregistrările listate în acest fișier CDX.
Nu comprimă fișierele WARC cu GZIP.
Nu calculează sumele de control SHA1.
Nu stochează fișierul de jurnalizare într-o înregistrare WARC.
Specifică locația pentru fișierele temporare create de scriitorul WARC.

Opțiuni FTP

Specify the username user and password password on an FTP server. Without this, or the corresponding startup option, the password defaults to -wget@, normally used for anonymous FTP.

Another way to specify username and password is in the URL itself. Either method reveals your password to anyone who bothers to run "ps". To prevent the passwords from being seen, store them in .wgetrc or .netrc, and make sure to protect those files from other users with "chmod". If the passwords are really important, do not leave them lying in those files either---edit the files and delete them after Wget has started the download.

Don't remove the temporary .listing files generated by FTP retrievals. Normally, these files contain the raw directory listings received from FTP servers. Not removing them can be useful for debugging purposes, or when you want to be able to easily check on the contents of remote server directories (e.g. to verify that a mirror you're running is complete).

Note that even though Wget writes to a known filename for this file, this is not a security hole in the scenario of a user making .listing a symbolic link to /etc/passwd or something and asking "root" to run Wget in his or her directory. Depending on the options used, either Wget will refuse to write to .listing, making the globbing/recursion/time-stamping operation fail, or the symbolic link will be deleted and replaced with the actual .listing file, or the listing will be written to a .listing.number file.

Even though this situation isn't a problem, though, "root" should never run Wget in a non-trusted user's directory. A user could do something as simple as linking index.html to /etc/passwd and asking "root" to run Wget with -N or -r so the file will be overwritten.

Turn off FTP globbing. Globbing refers to the use of shell-like special characters (wildcards), like *, ?, [ and ] to retrieve more than one file from the same directory at once, like:

 wget ftp://gnjilux.srk.fer.hr/*.msg
    

By default, globbing will be turned on if the URL contains a globbing character. This option may be used to turn globbing on or off permanently.

You may have to quote the URL to protect it from being expanded by your shell. Globbing makes Wget look for a directory listing, which is system-specific. This is why it currently works only with Unix FTP servers (and the ones emulating Unix "ls" output).

Disable the use of the passive FTP transfer mode. Passive FTP mandates that the client connect to the server to establish the data connection rather than the other way around.

If the machine is connected to the Internet directly, both passive and active FTP should work equally well. Behind most firewall and NAT configurations passive FTP has a better chance of working. However, in some rare firewall configurations, active FTP actually works when passive FTP doesn't. If you suspect this to be the case, use this option, or set "passive_ftp=off" in your init file.

Păstrează permisiunile fișierului de la distanță în loc de permisiunile stabilite de umask.
By default, when retrieving FTP directories recursively and a symbolic link is encountered, the symbolic link is traversed and the pointed-to files are retrieved. Currently, Wget does not traverse symbolic links to directories to download them recursively, though this feature may be added in the future.

When --retr-symlinks=no is specified, the linked-to file is not downloaded. Instead, a matching symbolic link is created on the local file system. The pointed-to file will not be retrieved unless this recursive retrieval would have encountered it separately and downloaded it anyway. This option poses a security risk where a malicious FTP Server may cause Wget to write to files outside of the intended directories through a specially crafted .LISTING file.

Note that when retrieving a file (not a directory) because it was specified on the command-line, rather than because it was recursed to, this option has no effect. Symbolic links are always traversed in this case.

Opțiuni FTPS

This option tells Wget to use FTPS implicitly. Implicit FTPS consists of initializing SSL/TLS from the very beginning of the control connection. This option does not send an "AUTH TLS" command: it assumes the server speaks FTPS and directly starts an SSL/TLS connection. If the attempt is successful, the session continues just like regular FTPS ("PBSZ" and "PROT" are sent, etc.). Implicit FTPS is no longer a requirement for FTPS implementations, and thus many servers may not support it. If --ftps-implicit is passed and no explicit port number specified, the default port for implicit FTPS, 990, will be used, instead of the default port for the "normal" (explicit) FTPS which is the same as that of FTP, 21.
Do not resume the SSL/TLS session in the data channel. When starting a data connection, Wget tries to resume the SSL/TLS session previously started in the control connection. SSL/TLS session resumption avoids performing an entirely new handshake by reusing the SSL/TLS parameters of a previous session. Typically, the FTPS servers want it that way, so Wget does this by default. Under rare circumstances however, one might want to start an entirely new SSL/TLS session in every data connection. This is what --no-ftps-resume-ssl is for.
All the data connections will be in plain text. Only the control connection will be under SSL/TLS. Wget will send a "PROT C" command to achieve this, which must be approved by the server.
Fall back to FTP if FTPS is not supported by the target server. For security reasons, this option is not asserted by default. The default behaviour is to exit with an error. If a server does not successfully reply to the initial "AUTH TLS" command, or in the case of implicit FTPS, if the initial SSL/TLS connection attempt is rejected, it is considered that such server does not support FTPS.

Opțiuni reîncercare recursivă

Activează reîncercarea recursivă a descărcării. Valoarea maximă implicită a adâncimii de descărcare este 5.
Set the maximum number of subdirectories that Wget will recurse into to depth. In order to prevent one from accidentally downloading very large websites when using recursion this is limited to a depth of 5 by default, i.e., it will traverse at most 5 directories deep starting from the provided URL. Set -l 0 or -l inf for infinite recursion depth.

 wget -r -l 0 http://<sit>/1.html
    

Ideally, one would expect this to download just 1.html. but unfortunately this is not the case, because -l 0 is equivalent to -l inf---that is, infinite recursion. To download a single HTML page (or a handful of them), specify them all on the command line and leave away -r and -l. To download the essential items to view a single HTML page, see page requisites.

This option tells Wget to delete every single file it downloads, after having done so. It is useful for pre-fetching popular pages through a proxy, e.g.:

 wget -r -nd --delete-after http://whatever.com/~popular/page/
    

The -r option is to retrieve recursively, and -nd to not create directories.

Note that --delete-after deletes files on the local machine. It does not issue the DELE command to remote FTP sites, for instance. Also note that when --delete-after is specified, --convert-links is ignored, so .orig files are simply not created in the first place.

After the download is complete, convert the links in the document to make them suitable for local viewing. This affects not only the visible hyperlinks, but any part of the document that links to external content, such as embedded images, links to style sheets, hyperlinks to non-HTML content, etc.

Each link will be changed in one of the two ways:

  • The links to files that have been downloaded by Wget will be changed to refer to the file they point to as a relative link.

    Example: if the downloaded file /foo/doc.html links to /bar/img.gif, also downloaded, then the link in doc.html will be modified to point to ../bar/img.gif. This kind of transformation works reliably for arbitrary combinations of directories.

  • The links to files that have not been downloaded by Wget will be changed to include host name and absolute path of the location they point to.

    Example: if the downloaded file /foo/doc.html links to /bar/img.gif (or to ../bar/img.gif), then the link in doc.html will be modified to point to http://hostname/bar/img.gif.

Because of this, local browsing works reliably: if a linked file was downloaded, the link will refer to its local name; if it was not downloaded, the link will refer to its full Internet address rather than presenting a broken link. The fact that the former links are converted to relative links ensures that you can move the downloaded hierarchy to another directory.

Note that only at the end of the download can Wget know which links have been downloaded. Because of that, the work done by -k will be performed at the end of all the downloads.

This option converts only the filename part of the URLs, leaving the rest of the URLs untouched. This filename part is sometimes referred to as the "basename", although we avoid that term here in order not to cause confusion.

It works particularly well in conjunction with --adjust-extension, although this coupling is not enforced. It proves useful to populate Internet caches with files downloaded from different hosts.

Example: if some link points to //foo.com/bar.cgi?xyz with --adjust-extension asserted and its local destination is intended to be ./foo.com/bar.cgi?xyz.css, then the link would be converted to //foo.com/bar.cgi?xyz.css. Note that only the filename part has been modified. The rest of the URL has been left untouched, including the net path ("//") which would otherwise be processed by Wget and converted to the effective scheme (ie. "http://").

When converting a file, back up the original version with a .orig suffix. Affects the behavior of -N.
Turn on options suitable for mirroring. This option turns on recursion and time-stamping, sets infinite recursion depth and keeps FTP directory listings. It is currently equivalent to -r -N -l inf --no-remove-listing.
This option causes Wget to download all the files that are necessary to properly display a given HTML page. This includes such things as inlined images, sounds, and referenced stylesheets.

Ordinarily, when downloading a single HTML page, any requisite documents that may be needed to display it properly are not downloaded. Using -r together with -l can help, but since Wget does not ordinarily distinguish between external and inlined documents, one is generally left with "leaf documents" that are missing their requisites.

For instance, say document 1.html contains an "<IMG>" tag referencing 1.gif and an "<A>" tag pointing to external document 2.html. Say that 2.html is similar but that its image is 2.gif and it links to 3.html. Say this continues up to some arbitrarily high number.

If one executes the command:

 wget -r -l 2 http://<sit>/1.html
    

then 1.html, 1.gif, 2.html, 2.gif, and 3.html will be downloaded. As you can see, 3.html is without its requisite 3.gif because Wget is simply counting the number of hops (up to 2) away from 1.html in order to determine where to stop the recursion. However, with this command:

 wget -r -l 2 -p http://<sit>/1.html
    

all the above files and 3.html's requisite 3.gif will be downloaded. Similarly,

 wget -r -l 1 -p http://<sit>/1.html
    

will cause 1.html, 1.gif, 2.html, and 2.gif to be downloaded. One might think that:

 wget -r -l 0 -p http://<sit>/1.html
    

would download just 1.html and 1.gif, but unfortunately this is not the case, because -l 0 is equivalent to -l inf---that is, infinite recursion. To download a single HTML page (or a handful of them, all specified on the command-line or in a -i URL input file) and its (or their) requisites, simply leave off -r and -l:

 wget -p http://<sit>/1.html
    

Note that Wget will behave as if -r had been specified, but only that single page and its requisites will be downloaded. Links from that page to external documents will not be followed. Actually, to download a single page and all its requisites (even if they exist on separate websites), and make sure the lot displays properly locally, this author likes to use a few options in addition to -p:

 wget -E -H -k -K -p http://<sit>/<document>
    

To finish off this topic, it's worth knowing that Wget's idea of an external document link is any URL specified in an "<A>" tag, an "<AREA>" tag, or a "<LINK>" tag other than "<LINK REL="stylesheet">".

Turn on strict parsing of HTML comments. The default is to terminate comments at the first occurrence of -->.

According to specifications, HTML comments are expressed as SGML declarations. Declaration is special markup that begins with <! and ends with >, such as <!DOCTYPE ...>, that may contain comments between a pair of -- delimiters. HTML comments are "empty declarations", SGML declarations without any non-comment text. Therefore, <!--foo--> is a valid comment, and so is <!--one-- --two-->, but <!--1--2--> is not.

On the other hand, most HTML writers don't perceive comments as anything other than text delimited with <!-- and -->, which is not quite the same. For example, something like <!------------> works as a valid comment as long as the number of dashes is a multiple of four (!). If not, the comment technically lasts until the next --, which may be at the other end of the document. Because of this, many popular browsers completely ignore the specification and implement what users have come to expect: comments delimited with <!-- and -->.

Until version 1.9, Wget interpreted comments strictly, which resulted in missing links in many web pages that displayed fine in browsers, but had the misfortune of containing non-compliant comments. Beginning with version 1.9, Wget has joined the ranks of clients that implements "naive" comments, terminating each comment at the first occurrence of -->.

If, for whatever reason, you want strict comment parsing, use this option to turn it on.

Opțiuni acceptare/respingere recursivă

Specify comma-separated lists of file name suffixes or patterns to accept or reject. Note that if any of the wildcard characters, *, ?, [ or ], appear in an element of acclist or rejlist, it will be treated as a pattern, rather than a suffix. In this case, you have to enclose the pattern into quotes to prevent your shell from expanding it, like in -A "*.mp3" or -A '*.mp3'.
Specify a regular expression to accept or reject the complete URL.
Specify the regular expression type. Possible types are posix or pcre. Note that to be able to use pcre type, wget has to be compiled with libpcre support.
Set domains to be followed. domain-list is a comma-separated list of domains. Note that it does not turn on -H.
Specify the domains that are not to be followed.
Follow FTP links from HTML documents. Without this option, Wget will ignore all the FTP links.
Wget has an internal table of HTML tag / attribute pairs that it considers when looking for linked documents during a recursive retrieval. If a user wants only a subset of those tags to be considered, however, he or she should be specify such tags in a comma-separated list with this option.
This is the opposite of the --follow-tags option. To skip certain HTML tags when recursively looking for documents to download, specify them in a comma-separated list.

In the past, this option was the best bet for downloading a single page and its requisites, using a command-line like:

 wget --ignore-tags=a,area -H -k -K -r
http://<site>/<document>
    

However, the author of this option came across a page with tags like "<LINK REL="home" HREF="/">" and came to the realization that specifying tags to ignore was not enough. One can't just tell Wget to ignore "<LINK>", because then stylesheets will not be downloaded. Now the best bet for downloading a single page and its requisites is the dedicated --page-requisites option.

Ignore case when matching files and directories. This influences the behavior of -R, -A, -I, and -X options, as well as globbing implemented when downloading from FTP sites. For example, with this option, -A "*.txt" will match file1.txt, but also file2.TXT, file3.TxT, and so on. The quotes in the example are to prevent the shell from expanding the pattern.
Enable spanning across hosts when doing recursive retrieving.
Follow relative links only. Useful for retrieving a specific home page without any distractions, not even those from the same hosts.
Specify a comma-separated list of directories you wish to follow when downloading. Elements of list may contain wildcards.
Specify a comma-separated list of directories you wish to exclude from download. Elements of list may contain wildcards.
Do not ever ascend to the parent directory when retrieving recursively. This is a useful option, since it guarantees that only the files below a certain hierarchy will be downloaded.

MEDIU

Wget supports proxies for both HTTP and FTP retrievals. The standard way to specify proxy location, which Wget recognizes, is using the following environment variables:

If set, the http_proxy and https_proxy variables should contain the URLs of the proxies for HTTP and HTTPS connections respectively.
This variable should contain the URL of the proxy for FTP connections. It is quite common that http_proxy and ftp_proxy are set to the same URL.
This variable should contain a comma-separated list of domain extensions proxy should not be used for. For instance, if the value of no_proxy is .mit.edu, proxy will not be used to retrieve documents from MIT.

STARE DE IEȘIRE

Wget may return one of several error codes if it encounters problems.

0
No problems occurred.
1
Generic error code.
2
Parse error---for instance, when parsing command-line options, the .wgetrc or .netrc...
3
File I/O error.
4
Network failure.
5
Verificarea SSL a eșuat.
6
Autentificarea nume de utilizator/parolă a eșuat.
7
Protocol errors.
8
Server issued an error response.

With the exceptions of 0 and 1, the lower-numbered exit codes take precedence over higher-numbered ones, when multiple types of errors are encountered.

In versions of Wget prior to 1.12, Wget's exit status tended to be unhelpful and inconsistent. Recursive downloads would virtually always return 0 (success), regardless of any issues encountered, and non-recursive fetches only returned the status corresponding to the most recently-attempted download.

FIȘIERE

/usr/local/etc/wgetrc
Default location of the global startup file.
.wgetrc
Fișierul de configurare al utilizatorului pentru wget.

ERORI

You are welcome to submit bug reports via the GNU Wget bug tracker (see <https://savannah.gnu.org/bugs/?func=additem&group=wget>) or to our mailing list <bug-wget@gnu.org>.

Visit <https://lists.gnu.org/mailman/listinfo/bug-wget> to get more info (how to subscribe, list archives, ...).

Before actually submitting a bug report, please try to follow a few simple guidelines.

1.
Please try to ascertain that the behavior you see really is a bug. If Wget crashes, it's a bug. If Wget does not behave as documented, it's a bug. If things work strange, but you are not sure about the way they are supposed to work, it might well be a bug, but you might want to double-check the documentation and the mailing lists.
2.
Try to repeat the bug in as simple circumstances as possible. E.g. if Wget crashes while downloading wget -rl0 -kKE -t5 --no-proxy http://example.com -o /tmp/log, you should try to see if the crash is repeatable, and if will occur with a simpler set of options. You might even try to start the download at the page where the crash occurred to see if that page somehow triggered the crash.

Also, while I will probably be interested to know the contents of your .wgetrc file, just dumping it into the debug message is probably a bad idea. Instead, you should first try to see if the bug repeats with .wgetrc moved out of the way. Only if it turns out that .wgetrc settings affect the bug, mail me the relevant parts of the file.

3.
Please start Wget with -d option and send us the resulting output (or relevant parts thereof). If Wget was compiled without debug support, recompile it---it is much easier to trace bugs with debug support on.

Note: please make sure to remove any potentially sensitive information from the debug log before sending it to the bug address. The "-d" won't go out of its way to collect sensitive information, but the log will contain a fairly complete transcript of Wget's communication with the server, which may include passwords and pieces of downloaded data. Since the bug address is publicly archived, you may assume that all bug reports are visible to the public.

4.
If Wget has crashed, try to run it in a debugger, e.g. "gdb `which wget` core" and type "where" to get the backtrace. This may not work if the system administrator has disabled core files, but it is safe to try.

CONSULTAȚI ȘI

This is not the complete manual for GNU Wget. For more complete information, including more detailed explanations of some of the options, and a number of commands available for use with .wgetrc files and the -e option, see the GNU Info entry for wget.

Also see wget2(1), the updated version of GNU Wget with even better support for recursive downloading and modern protocols like HTTP/2.

AUTOR

Originally written by Hrvoje Nikšić <hniksic@xemacs.org>. Currently maintained by Darshit Shah <darnir@gnu.org> and Tim Rühsen <tim.ruehsen@gmx.de>.

DREPTURI DE AUTOR

Drepturi de autor © 1996--2011, 2015, 2018--2024 Free Software Foundation, Inc.

Se acordă permisiunea de a copia, distribui și/sau modifica acest document în conformitate cu termenii Licenței GNU Free Documentation, versiunea 1.3 sau orice versiune ulterioară publicată de Free Software Foundation; fără secțiuni invariante, fără texte de copertă și fără texte de contra copertă. O copie a licenței este inclusă în secțiunea intitulată „GNU Free Documentation License”.

TRADUCERE

Traducerea în limba română a acestui manual a fost făcută de Remus-Gabriel Chelu <remusgabriel.chelu@disroot.org>

Această traducere este documentație gratuită; citiți Licența publică generală GNU Versiunea 3 sau o versiune ulterioară cu privire la condiții privind drepturile de autor. NU se asumă NICIO RESPONSABILITATE.

Dacă găsiți erori în traducerea acestui manual, vă rugăm să trimiteți un e-mail la translation-team-ro@lists.sourceforge.net.

10 martie 2024 GNU Wget 1.24.5