Kiến thức

Tìm kiếm
Hỗ trợ trực tuyến
Hỗ trợ trực tuyến - toankhoa1008
Mr.Khoa - 0909 017 015
Khuyến mãi
Khuyến mãi
Đối tác
Kiến thức thiết kế
Rút trích nội dung từ một link website bất kỳ trong ASP.NET
8/19/2012 12:33:08 PM
Bạn thiết kế một trang site tin tức đòi hỏi công việc cập nhật tin tức tự động một cách thường xuyên? Nhưng bạn không có đủ nhân lực và thời gian để làm công việc này một cách thủ công? WEBXAULA sẽ hướng dẫn các bạn cách lấy nội dung một website một cách tự động.
Rút trích nội dung từ một link website bất kỳ trong ASP.NET

 Để lấy được nội dung website thông qua một URL bất kì. Việc đầu tiên ta phải lấy về được toàn bộ html của link đó, sau đó phân tích chuỗi html đó, dựa vào các id hoặc name của div, table, span, v.v.... mà ta sẽ lấy được nội dung cần lấy. Để làm được việc này các bạn cần có một chút kiến thức về RegularExpressions.

 

Do mỗi website có cấu trúc khác nhau nên cách trích lọc và phân tích html cũng khác nhau. Ở đây tôi sẽ ví dụ cho các bạn lấy nội dung tin tức từ website vnexpress.net. Cụ thể tôi sẽ lấy nội dung của link sau: http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/

 

Đầu tiên, các bạn add thêm 4 thư viện sau:

 

 

using System.Text.RegularExpressions;
using System.Text;
using System.Net;
using System.IO;

 

 
Hàm lấy html của link bất kì:
 
public string GetWebContent(string strLink)
    {
        string strContent = "";
        try
        {
            WebRequest objWebRequest = WebRequest.Create(strLink);
            objWebRequest.Credentials = CredentialCache.DefaultCredentials;
            WebResponse objWebResponse = objWebRequest.GetResponse();
            Stream receiveStream = objWebResponse.GetResponseStream();
            StreamReader readStream = new StreamReader(receiveStream, System.Text.Encoding.UTF8);
            strContent = readStream.ReadToEnd();
            objWebResponse.Close();
            readStream.Close();
        }
        catch (Exception ex)
        {
            return ex.Message;
        }
        return strContent;
    }
 
 
Bây giờ công việc tiếp theo là lấy ra từng thành phần mà bạn muốn lấy. 
 
Phân tích lấy phần tiêu đề: Các bạn viết hàm sau:
 
public string LayTieuDe(string Content)
    {
        string pattern = "<H1 class=Title>[^<]+";
        Regex Title = new Regex(pattern);
        Match m = Title.Match(Content);
        if (m.Success)
            return m.Value.Substring(16, m.Value.Length - 16);
        return "";
    }
 
Phân tích lời phần mô tả: Hàm được viết tương tự như sau:
 
public string LayMoTa(string Content)
    {
        string pattern = "<H2 class=Lead>[^<]+";
        Regex Title = new Regex(pattern);
        Match m = Title.Match(Content);
        if (m.Success)
            return m.Value.Substring(15, m.Value.Length - 15);
        return "";
    }
 
 
Phân tích lấy phần nội dung. Các bạn tạo hàm sau:
 
public string LayNoiDung(string Content)
    {
        string pattern = "<P class=Normal>[^~]+";
        Regex Title = new Regex(pattern);
        Match m = Title.Match(Content);
        if (m.Success)
            return m.Value.Substring(16, m.Value.Length - 16).Replace("/Files", "http://vnexpress.net/Files").Replace("/gl", "http://vnexpress.net/gl");
        return "";
    }
 
 
Khi nào cần sử dụng thì bạn chỉ cần gọi các hàm này ra. VD:
 
lblThongBao.Text = LayTieuDe(GetWebContent("http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/"))
            + "<br/><br/>"
            + LayMoTa(GetWebContent("http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/"))
            + "<br/><br/>"
            + LayNoiDung(GetWebContent("http://vnexpress.net/gl/xa-hoi/2012/08/phu-nu-chet-loa-the-trong-khach-san/"))
            + "";
 
 
Đây là bước đầu căn bản để lấy nội dung một link bất kỳ, các bạn có thể dựa vào để phát triển thêm lấy các phần nâng cao hơn. Chúc các bạn thành công

 

Cám ơn các bạn đã đọc bài viết này. Nếu bạn cảm thấy bài viết này hay và có ích thì hãy ấn +1 hoặc like để khích lệ tác giả bài viết nhé, và nếu được thì share cho bạn bè cùng đọc. Thanks ^o^

Bài viết liên quan


8/19/2012 10:27:00 AM
Với số lượng dữ liệu quá nhiều không thể hiện lên hết trong 1 trang thì việc phân trang là một công việc chắc chắn phải làm. Có rất nhiều cá [....]
6/7/2012 11:19:49 AM
Bạn sử dụng một iframe trong website để hiển thị nội dung (nội dung một website khác hoặc nội dung từ các file tài liệu, ....) nhưng bạn gặp [....]
5/21/2012 8:12:43 AM
Khi publish một website chạy trên internet thì sẽ phát sinh nhiều lỗi ngoài mong muốn. Một lỗi thường xuyên gặp nhất là lỗi 404 (Page not fo [....]
5/19/2012 12:29:57 PM
Khi các bạn thực hiện rewrite URL cho website, công việc cần thiết là làm thế nào để chuyển đổi được từ tiếng Việt có dấu sang không dấu. Ở [....]
4/30/2012 9:41:42 PM
Bạn thiết kế một website cho khách hàng, giao quyền admin cho khách hàng có thể cập nhật dữ liệu. Nhưng khi khách hàng upload hình ảnh sản p [....]
4/28/2012 9:29:43 AM
Gọi một hàm từ server side bằng javascript là một câu hỏi được rất nhiều bạn hỏi WEBXAULA với nhiều lý do muốn truy xuất dữ liệu, gọi sessio [....]
4/25/2012 1:20:42 PM
Lần trước WEBXAULA đã giới thiệu với các bạn cách chọn xoá nhiều dòng dữ liệu trên gridview. Trong bài viết này, tôi sẽ giới thiệu với các b [....]
4/23/2012 3:48:42 PM
Trong bài viết này, WEBXAULA sẽ giới thiệu tới các bạn cách tạo chức năng xoá cùng lúc nhiều dòng dữ liệu giống Yahoo Mail hoặc Google Mail
4/23/2012 3:15:48 PM
Trong bài viết trước, WEBXAULA đã giới thiệu với các bạn cách làm đồng hồ đếm ngược trong asp.net. Có nhiều bạn phản hồi hỏi mình cách làm c [....]
4/22/2012 2:35:07 PM
Khi thiết kế một website, công việc phân dữ liệu thành nhiều trang hiển thị là bắt buộc khi dữ liệu lớn. Trong các control của Visual Studio [....]
1 2
Doanh Nghiệp Tư Nhân TM DV TAHI TAKA
Văn phòng: G7, ấp Mỹ Hoà 2, xã Xuân Thới Đông, huyện Hóc Môn, TPHCM
Điện thoại: (84-8) 6250 1751 - 0909.017.015
Email: contact@webxaula.com - ktwebpro@gmail.com
Website: www.webxaula.com