вторник, 23 июня 2009 г.

wget и сохранение файлов с кодировкой UTF8

Предистория.
Однажды, при скачивании одного сайта при помощи wget, я заметил, что на этом сайте страницы названы русскими именами в кодировке utf-8. Локаль у меня тоже utf-8, поэтому в роди бы как проблем быть не должно, однако после попытки открытия этого сайта из локального каталога, я заметил, что wget при сохранении страниц дал им некорректные имена. Как оказалось данный баг присутствует до сих пор, хотя и есть решение в виде патча.
Но не стоит отчаиваться, всё, на самом деле, очень просто и не требует особых "плясок с бубном".
Итак, приступим...
Скачиваем патч:

$wget http://m0sia.ru/files/wget.utf8.patch

ложим его в каталог с исходниками wget`а:

$mv wget.utf8.patch ~/temp/wget-1.11.4/


Теперь накладываем патч:

$patch -p0 < wget.utf8.patch

После наложения патча переконфигурируем:

...wget-1.11.4/>$ ./configure

а затем пере компилируем:

...wget-1.11.4/>$ make

и устанавливаем wget:

...wget-1.11.4/>$ make install clean

Вот и всё, сразу всё становиться, как в сказке...

При написании использовался материал со страницы: http://m0sia.ru/node/64#comment-567

1 комментарий:

  1. Ссылка на http://m0sia.ru/files/wget.utf8.patch не рабочая

    ОтветитьУдалить