获取链接内容和属性
from lxml import etree import requests resp = requests.get(url) data = resp.text.encode(resp.encoding).decode('utf-8') tree = etree.HTML(data) list_news = tree.xpath(u"//div[@class='clist_con']/ul/li/a") for new in list_news: print(new.attrib) print(new.text) print(new.get('href'))
输入文本:
fromstring():解析字符串
HTML():解析HTML对象
XML():解析XML对象
parse():解析文件类型对象
标签搜索
可以使用find、findall或者xpath来搜索Element包含的标签对象。区别如下:
find():返回第一个匹配对象,并且xpath语法只能使用相对路径(以’.//’开头);
findall():返回一个标签对象的列表,并且xpath语法只能使用相对路径(以’.//’开头);
xpath():返回一个标签对象的列表,并且xpath语法的相对路径和绝对路径。