调用方法:
from lxml import etree
解析文本:
etree.fromstring() # 用于解析字符串 etree.HTML() # 用于解析HTML对象 etree.XML() # 用于解析XML对象 etree.parse() # 用于解析文件类型的对象,parse{帕斯]=解析
elementpath:
iterfind() # 迭代所有符合条件的元素 findall() # 以列表形式返回所有元素 find() # 返回第一个元素 findtext() # 返回第一个元素的 text
实例:
data = urllib.request.urlopen(url).read() tree = etree.HTML(data) lis = tree.xpath(u"//table[@id='tb']/tr")
将element转为string,然后生成dict,再用json.dump()产生json字符串:
elem_data = etree.tostring(elem) elem_dict = xmltodict.parse(elem_data) elem_jsonStr = json.dumps(elem_dict)