Webサイトで公開したページをPDF化して、ブックリーダーなどでオフラインでも読めるようにしたい。
解決策
Pandoc - indexを使うと、指定したURLのページを各種フォーマットのファイルに変換できる。
以下のように-f
で入力フォーマット、-t
で出力フォーマットを指定する。
pandoc -f html -t markdown https://www.fsf.org
以下のようにURLにアクセス時に、リクエストヘッダを修正してUse-Agent
を指定することもできる。
pandoc -f html -t markdown --request-header User-Agent:'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36' https://www.fsf.org