XML
Trong phần này, chúng ta sẽ parsing nội dung XML thành dữ liệu để xử lý. Để xử lý XML, ta sẽ sử dụng thư viện Beautifulsoup 4. Đây là một thư viện giúp việc triển khai việc parsing html, xml được nhanh chóng và tiện lợi.
Cài đặt
Bạn có thể tham khảo hướng dẫn cách cài đặt tại website: http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-beautiful-soup.
Trên MacOS, có thể cài bằng pip
như sau:
Cài đặt lxml
parser
lxml
parserĐể parsing xml
từ beautifulsoup
, tao sử dụng bộ parser xml
có tên là lxml
. Xem hướng dẫn cài đặt tại
http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing- a-parser
Trên MacOS, có thể cài bằng pip
như sau:
Ví dụ về parsing XML
Kết quả:
Đối tượng thuộc class Soup
(BeautifulSoup) sẽ giúp truy xuất các thành phần của file xml nhanh chóng và tiện lợi.
Trong ví dụ có một số cách truy xuất đến các phần tử như:
findAll()
Trả về mảng các thẻ có tên cần tìm.find()
Trả về phần tử đầu tiên có tên cần tìm.Truy xuất trực tiếp thông qua tên thẻ như
x.price.string.
Parsing HTML
Tương tự như xml
, BeautifulSoup
có thể parsing nội dung HTML thông qua hàm khởi tạo và chọn html ở tham số thứ 2.
Follower me
Facebook: https://www.facebook.com/lamsaodecode
Last updated