- [C#] Hướng dẫn convert HTML code sang PDF File trên NetCore 7 Winform
- [C#] Hướng dẫn viết ứng dụng chat với Gemini AI Google Winform
- Hướng dẫn khóa file bằng nhiều process id, không cho xóa tập tin
- Hướng dẫn cách tạo Product Id cho ứng dụng phần mềm XXXXX-XXXXX-XXXXX-XXXXX
- [SQLSERVER] Hướng dẫn tạo script sql từ ứng dụng Sqlserver management Studio
- [C#] Hướng dẫn sử dụng thư viện AutoITx lấy id và password Ultraviewer trên winform
- [VB.NET] Hướng dẫn lấy thông tin tài khoản đăng nhập windows và khởi động lại ứng dụng ở chế độ Administrator
- [C#] Sử dụng thư viện Polly gửi lại request api khi request bị lỗi hay rớt mạng
- [DEVEXPRESS] Chia sẻ source code tạo báo cáo report in tem nhãn label trên C# winform
- [DEVEXPRESS] Hướng dẫn vẽ biểu đồ Bar Chart trên Winform
- [C#] Tạo form đăng nhập và đăng ký với hiệu ứng Sliding Animation Effect
- [C#] Hướng dẫn tạo thanh toán đơn hàng qua mã vạch VietQR sử dụng API PayOS hoàn toàn miễn phí
- [C#] Hướng dẫn ghi log ra RichTextBox giống Console trên Winform sử dụng thư viện Serilog
- [C#] Hướng dẫn cách tạo mã QR Code trên file Excel
- [VB.NET] Gởi tin nhắn và file đính kèm qua ứng dụng gởi tin nhắn Whats App
- [C#] Viết ứng dụng Auto Fill list Textbox from clipboard Winform
- [TOOL] Chia sẻ phần mềm thay đổi thông tin cấu hình máy tính
- [C#] Hướng dẫn Export dữ liệu ra file Microsoft Word Template
- [C#] Chia sẻ source code tool kiểm tra domain website
- [C#] Hướng dẫn tạo file PDF sử dụng thư viện QuestPDF
[C#] Hướng dẫn sử dụng thư viện ScrapySharp Web Scraping
Xin chào các bạn bài viết hôm nay, mình sẻ giới thiệu các bạn sử dụng thư ScrapySharp Web Scraping, dùng để lấy dữ liệu từ Website truy xuất qua thẻ CssQuery.
[C#] ScrapySharp Web Scraping
Khi các bạn download code html từ website về, sau đó các bạn muốn đọc dữ liệu từng thẻ Html element để sử dụng.
Bình thường nếu các bạn không sử dụng thư viện nào, các bạn sẽ dùng Regular Expression để phân tích cú pháp HTML.
Tuy nhiên, các bạn có thể thư viện HTMLAglityPack hoặc ScrapySharp để lấy đọc dữ liệu từng thẻ HTML một cách nhanh chóng với chỉ vài dòng code.
Ở bài viết này, mình sẻ demo lấy đọc dữ liệu từ các thẻ UL, LI ở website hình bên dưới.
Các bạn, truy cập vào link bên dưới vào bấm phím F12 trên Chrome để mở Developer tool lên, để xem cấu trúc như hình bên dưới
Bây giờ mình sẽ tiến hành lấy dữ liệu trên về ứng dụng Winform.
Đầu tiên, các bạn cài cho mình thư viện ScrapySharp từ Nuget Console
PM> Install-Package ScrapySharp -Version 3.0.0
Thư viện hiện tại khi mình đang viết bài này là 3.0.0
Source code Web Scraping C#:
private void button1_Click(object sender, EventArgs e)
{
var web = new HtmlWeb();
var url = "https://tipidpc.com/catalog.php?cat=0&sec=s";
if (web.Load(url) is HtmlAgilityPack.HtmlDocument document)
{
var nodes = document.DocumentNode.CssSelect("#item-search-results li").ToList();
foreach (var node in nodes)
{
richTextBox1.Text += "Selling: " + node.CssSelect("h2 a").Single().InnerText + Environment.NewLine;
}
}
}
Ở đoạn code trên, các bạn thấy mình sử dụng hàm CssSelect
vào các truyền vào giống jquery selector css trên website để đọc dữ liệu.
Dưới đây là kết quả khi chạy ứng dụng lên:
Thanks for watching!