One - One Code All

Blog Content

lxml初步使用获取href链接和文本

Python   2014-05-07 23:18:35

获取链接内容和属性

from lxml import etree
import requests


resp = requests.get(url)
data = resp.text.encode(resp.encoding).decode('utf-8')
tree = etree.HTML(data)
list_news = tree.xpath(u"//div[@class='clist_con']/ul/li/a")
for new in list_news:
    print(new.attrib)
    print(new.text)
    print(new.get('href'))


输入文本:

fromstring():解析字符串
HTML():解析HTML对象
XML():解析XML对象
parse():解析文件类型对象

标签搜索

可以使用find、findall或者xpath来搜索Element包含的标签对象。区别如下:
find():返回第一个匹配对象,并且xpath语法只能使用相对路径(以’.//’开头);
findall():返回一个标签对象的列表,并且xpath语法只能使用相对路径(以’.//’开头);
xpath():返回一个标签对象的列表,并且xpath语法的相对路径和绝对路径。


上一篇:sqlalchemy多表join查询,label字段别名
下一篇:pandas的移动窗口函数rolling

The minute you think of giving up, think of the reason why you held on so long.