kanta's spike

Webサイトで公開したページをPDF化して、ブックリーダーなどでオフラインでも読めるようにしたい。

解決策

Pandoc - indexを使うと、指定したURLのページを各種フォーマットのファイルに変換できる。

以下のように-fで入力フォーマット、-tで出力フォーマットを指定する。

pandoc -f html -t markdown https://www.fsf.org

以下のようにURLにアクセス時に、リクエストヘッダを修正してUse-Agentを指定することもできる。

pandoc -f html -t markdown --request-header User-Agent:'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36' https://www.fsf.org

参考

作成日: 2024/02/28