CutyCapt は、Chrome, Microsoft Edge などに使われているHTMLのレンダリングエンジン WebKit を使って Web サイトを pdf や様々な画像ファイル変換してくれるツールです。CutyCapt は、以下のコマンドでインストールします。
$ sudo apt-get install cutycapt
実行方法は URL と出力形式を選択するだけです。
$ cutycapt --url=https://www.yahoo.co.jp/ --out=yahoo.png
$ cutycapt --url=https://www.yahoo.co.jp/ --out=yahoo.pdf
cutycapt には高度な User Agent を変更したり、JavaScript を OFF にしたり、Proxy を設定するオプションなどが用意されています。
–user-agent=
–javascript=
–http-proxy=
ブラウザによってページの見え方が異なるサイトなどは、以下のようにオプションを変更すれば出力画像も異なってきます。
$ cutycapt --user-agent="Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36" --url=http://www.yahoo.co.jp/ --out=yahoo.png
なお、cutycapt はデスクトップ環境(X ウィンドウシステムが起動していない)が無い環境では実行できません。サーバ上で情報取得の為に画像を収集したい場合は、xvfb パッケージをインストールして、xvfb-run コマンドで仮想ディスプレイを作成して cutycapt コマンドを実行します。
$ sudo apt install xvfb
$ xvfb-run --server-args="-screen 0, 1920x1080x24" cutycapt --url=http://www.yahoo.co.jp/ --out=yahoo.png