NEWS

[C#] Hướng dẫn sử dụng thư viện ScrapySharp Web Scraping

[C#] Hướng dẫn sử dụng thư viện ScrapySharp Web Scraping
Đăng bởi: Thảo Meo - Lượt xem: 5007 07:52:34, 29/10/2020DEVEXPRESS   In bài viết

Xin chào các bạn bài viết hôm nay, mình sẻ giới thiệu các bạn sử dụng thư ScrapySharp Web Scraping, dùng để lấy dữ liệu từ Website truy xuất qua thẻ CssQuery.

[C#] ScrapySharp Web Scraping

Khi các bạn download code html từ website về, sau đó các bạn muốn đọc dữ liệu từng thẻ Html element để sử dụng.

web scraping c#

Bình thường nếu các bạn không sử dụng thư viện nào, các bạn sẽ dùng Regular Expression để phân tích cú pháp HTML.

Tuy nhiên, các bạn có thể thư viện HTMLAglityPack hoặc ScrapySharp để lấy đọc dữ liệu từng thẻ HTML một cách nhanh chóng với chỉ vài dòng code.

Ở bài viết này, mình sẻ demo lấy đọc dữ liệu từ các thẻ UL, LI ở website hình bên dưới.

web_demo_scapy
https://tipidpc.com/catalog.php?cat=0&sec=s

Các bạn, truy cập vào link bên dưới vào bấm phím F12 trên Chrome để mở Developer tool lên, để xem cấu trúc như hình bên dưới

ScappingData_csharp

Bây giờ mình sẽ tiến hành lấy dữ liệu trên về ứng dụng Winform.

Đầu tiên, các bạn cài cho mình thư viện ScrapySharp từ Nuget Console

PM> Install-Package ScrapySharp -Version 3.0.0

Thư viện hiện tại khi mình đang viết bài này là 3.0.0

Source code Web Scraping C#:

private void button1_Click(object sender, EventArgs e)
{
    var web = new HtmlWeb();
    var url = "https://tipidpc.com/catalog.php?cat=0&sec=s";
    if (web.Load(url) is HtmlAgilityPack.HtmlDocument document)
    {
        var nodes = document.DocumentNode.CssSelect("#item-search-results li").ToList();
        foreach (var node in nodes)
        {
          richTextBox1.Text += "Selling: " + node.CssSelect("h2 a").Single().InnerText + Environment.NewLine; 
        }
    }
}

Ở đoạn code trên, các bạn thấy mình sử dụng hàm CssSelect vào các truyền vào giống jquery selector css trên website để đọc dữ liệu.

Dưới đây là kết quả khi chạy ứng dụng lên:

demo_scrapydata

Thanks for watching!

DOWNLOAD SOURCE

THÔNG TIN TÁC GIẢ

BÀI VIẾT LIÊN QUAN

[C#] Hướng dẫn sử dụng thư viện ScrapySharp Web Scraping
Đăng bởi: Thảo Meo - Lượt xem: 5007 07:52:34, 29/10/2020DEVEXPRESS   In bài viết

CÁC BÀI CÙNG CHỦ ĐỀ

Đọc tiếp
.