如何利用python抓取网页中的内容并存到word中

高分请讲解下,如何利用python抓取网页中的内容并存到word中
最新回答
紫珺婳浅

2024-06-01 01:48:14

方法很多,比如之前提到的pypdf。然而用起来其实稍显麻烦,很多操作不够方便。

所以我一般用pdf2htmlex(github上有,一个国人项目,非python)先把pdf转html,接下来再用bs4来解析处理。好处是处理html的工具非常非常丰富,且pdf2htmlex对原页面的效果保持得特别好,特别是对于那些个用word和latex导出的pdf里,大量数据图表里的标签可以很方便地把值抓出来……