Thứ Tư, 29 tháng 7, 2009

Nhập gì vào mục Thuộc tính nguồn

Thuộc tính nguồn là những bổ sung mở rộng vào cấu hình kênh quét. Ngoài những cấu hình chung, cơ bản của một kênh quét, ta cần bổ sung thêm thông tin trong Thuộc tính nguồn để VietSpider có thể quét được dữ liệu hoặc quét tốt hơn.

2 nhận xét:

  1. 1. Login

    Một số website đòi hỏi phải login vào mới cho truy cập dữ liệu hoặc nội dung. Để VietSpider có thể quét được những trang này, bạn cần phải có tài khoản. Sau khi có tài khoản đăng nhập, bạn có thể bổ sung vào mục Login với ngữ pháp như sau:

    Tên địa chỉ trang login
    username : password

    Ví dụ, tôi muốn đăng nhập vào trang java.net, tôi thêm giá trị vào mục Login như sau:

    https://www.dev.java.net/servlets/TLogin
    thuannd:zhmllj

    2. Referer

    Một số trang web không cho phép truy cập trực tiếp mà phải vào trang chủ rồi mới quay lại trang nội dung. Chẳng hạn, khi truy cập vào một liên kết, nó đưa ra một thông báo "Click vào đây để xem trang của bạn". Khi đó bạn hãy nhập một được link bất kỳ thuộc trang web đó vào mục Referer thì VietSpider mới có khả năng quét được dữ liệu.

    3. User Agent

    Giả danh trình duyệt hoặc các Google bot hoặc Yahoo bot. Muốn giả danh Google bot, bạn nhập từ khóa google vào mục đó. Muốn giả danh yahoo, bạn nhập từ yahoo vào đó.

    4. LinkGenerator

    Cơ chế sinh liên kết. Hỗ trợ khách hàng thường mại.

    5. Proxy

    Đặt proxy riêng cho site khi truy cập do bị chặn. Ngữ pháp: proxy-host:proxy-port

    Ví dụ tôi muốn đặt proxy để truy cập vào trang talawas.org, tôi đặt giá trị vào mục này là:
    203.178.133.10:3124

    6. SessionParameter

    Một số forum viết bằng php sử dụng parameter để lưu session id . Chẳng hạn trang ddth.com có link là:

    http://ddth.com/showthread.php?s=fdskfjiu432432&t=123123

    Giá trị s=fdskfjiu432432 là session id. Phần này (fdskfjiu432432) bị thay đổi mỗi lần truy cập vào site. Để tránh việc Vietspider tải lại trang, ta đặt giá trị vào cho SessionParameter. Với ví dụ trên, ta đặt:

    s=

    Như vậy giá trị của parameter của s= sẽ bị bỏ qua mỗi khi Vietspider kiểm soát link.

    7. ContentFilter

    Lọc nội dung, nghĩa là VietSpider sẽ chỉ lưu lại nội dung có chứa từ khóa tương ứng. Toán tử OR thay bằng dấu "," và toán tử AND thay bằng dấu "+".

    Ví dụ tôi nhập vào mục này là: lụt lội,mưa,bão

    VietSpider sẽ chỉ lưu lại các nội dung có từ "lụt lội" hoặc "mưa" hoặc "bão".

    Trả lờiXóa
  2. Rất cảm ơn Thuận đã hướng dẫn chi tiết. Vietspider quả là một chương trình rất tiện ích cho mọi người

    Trả lờiXóa

nhudinhthuan@gmail.com