通八洲科技

Python lxml库怎么安装和使用 lxml解析HTML和XML

日期:2025-12-21 00:00 / 作者:星降
lxml是Python中处理HTML/XML的高效工具,推荐用pip install lxml安装,支持XPath和CSS选择器,html.etree适合不规范HTML,etree适合严格XML,注意编码、命名空间等细节。

直接用 pip 安装 lxml,然后用 etree 模块解析 HTML 或 XML,它速度快、功能全,是 Python 里处理结构化文本的主力工具。

安装 lxml(推荐 pip)

在命令行运行:

用 etree 解析 HTML(常用场景)

lxml 的 html.etree 更适合处理不规范的网页 HTML(比如缺闭合标签、大小写混用)。

from lxml import html

从字符串解析

html_str = "

Hello

" tree = html.fromstring(html_str)

从文件解析

tree = html.parse("page.html")

用 XPath 提取内容

title = tree.xpath("//p[@class='title']/text()") # ['Hello'] print(title)

用 etree 解析 XML(严格格式)

XML 要求格式规范,推荐用 etree(不是 html.etree)。

from lxml import etree

xml_str = "AB" root = etree.fromstring(xml_str)

获取所有 item 元素

items = root.xpath("//item") for item in items: print(item.text, item.get("id")) # A 1 \n B 2

或用 find/findall(更面向对象)

first_item = root.find("item") print(first_item.get("id")) # '1'

常见问题和技巧