lxml初步使用获取href链接和文本

Blog Content

Python 2014-05-07 23:18:35

获取链接内容和属性

from lxml import etree
import requests


resp = requests.get(url)
data = resp.text.encode(resp.encoding).decode('utf-8')
tree = etree.HTML(data)
list_news = tree.xpath(u"//div[@class='clist_con']/ul/li/a")
for new in list_news:
    print(new.attrib)
    print(new.text)
    print(new.get('href'))

输入文本：

fromstring():解析字符串
HTML():解析HTML对象
XML():解析XML对象
parse():解析文件类型对象

标签搜索

可以使用find、findall或者xpath来搜索Element包含的标签对象。区别如下：
find():返回第一个匹配对象，并且xpath语法只能使用相对路径（以’.//’开头）；
findall():返回一个标签对象的列表，并且xpath语法只能使用相对路径（以’.//’开头）；
xpath()：返回一个标签对象的列表，并且xpath语法的相对路径和绝对路径。

上一篇：sqlalchemy多表join查询,label字段别名
下一篇：pandas的移动窗口函数rolling

One - One Code All

Blog Content

lxml初步使用获取href链接和文本

The minute you think of giving up, think of the reason why you held on so long.