网页内容:有很多类似于<p>...</p>的东西,但是我只想要类似于
<h4>overview(可以是别的)</h4>
<p>想要的</p>
不想要类似于<p><strong>内容</strong> 内容</p>
另外再请教大神们:利用beautifulsoup中利用soup.get-text()返回的值是什么类型的 队列 还是字符串还是什么?
python中正则和beautifulsoup的使用
答案:1 悬赏:0
解决时间 2021-02-22 01:04
- 提问者网友:话酸浅沫
- 2021-02-21 16:15
最佳答案
- 二级知识专家网友:转身后的回眸
- 2021-02-21 17:36
你是要<p></p>里面没有其他标签的?还是要吧p里面的标签也去掉?
去掉字符串中的标签用
re.compile('\<.*?\>').sub('', 目标字符串)
查找所有p 用re.findall('<p>[\s\S]*?</p>',html)
查找里面没有其他标签的p,用re.findall( '<p>[^\<\>]*?></p>' , html )
另外 get-text 获得的是字符串
去掉字符串中的标签用
re.compile('\<.*?\>').sub('', 目标字符串)
查找所有p 用re.findall('<p>[\s\S]*?</p>',html)
查找里面没有其他标签的p,用re.findall( '<p>[^\<\>]*?></p>' , html )
另外 get-text 获得的是字符串
我要举报
如以上问答内容为低俗、色情、不良、暴力、侵权、涉及违法等信息,可以点下面链接进行举报!
大家都在看
推荐资讯