Thứ Ba, 30 tháng 1, 2007

Buồn đêm

Bỏ mặc chiều, mùa đông rớt dài trên vai áo, đánh thâm cái lạnh lùng lướt nhẹ bờ môi.

Chủ Nhật, 28 tháng 1, 2007

27_01_07

Hic, một bản được cài đặt tạm trên net thấy chạy khá ổn. Config lại và bổ sung một loạt các kênh tin mới, download gói zip sau về vứt vào thư mục data rồi giải nén (đè lên thư mục sources trong thư mục data của VietSpider). Build 7 (fix một số bug) sẽ sớm được release trên sourceforge (trước Tết).

Thứ Hai, 22 tháng 1, 2007

Update cho build 6.

Fix một số lỗi nhỏ ở VietSpider build 6 theo chế độ tự động cập nhật, để kiểm tra xem version VietSpider đang chạy đã cập nhật hay chưa, xin xem trong lib, hai file với version mới nhất là vs-crawler-3.0.3jar và vs-io-1.2.3.jar. Tắt chương trình và chạy lại để cập nhật hoàn tất.

Để lưu trữ dữ liệu lâu hơn thời gian 3 ngày xin và data/system/system.properties sửa EXPIRE_DATE=15(số ngày mà bạn muốn lưu dữ liệu). Những phiên bản không dùng database ngoài tức là dùng luôn thì không nên lưu trữ dữ liệu quá 3 ngày vì dữ liệu quá lớn sẽ làm tràn bộ nhớ chương trình gây ra lỗi.

Dự định

Một tuần qua chỉ ngồi để viết tài liệu cho VietSpider 3.

Chủ Nhật, 14 tháng 1, 2007

VietSpider 3 Build 6

Bản build 6 của VietSpider 3 release với một Content Publisher đơn giản cho phép truy cập và đọc nội dung qua Website, cổng 9245. Hỗ trợ Oracle, Postgres, MS SQL Server, MySql,...download
Bản build 4 của bộ HTMLParser 2 cũng được release, download.

VietSpider

VietSpider là phần mềm khai thác, tổng hợp dữ liệu từ Internet với các chức năng chính:

1. Hệ thống khai thác và tách lọc dữ liệu từ Internet (Tin tức+Bài viết, Blog, Thảo luận tại diễn đàn, Hàng hóa, Hồ sơ cá nhân,...).

2. Hệ thống tổng hợp, đánh chỉ mục và phân tích ngữ nghĩa dữ liệu. (http://nik.vn - Hệ thống tìm kiếm nhà đất thông minh)

3. Giải pháp xuất bản, lọc nội dung, cá nhân hóa, tìm kiếm,... trên giao diện đồ họa người dùng hoặc trình duyệt.

Chương trình có thể chạy trên nhiều nền tảng máy tính khác nhau (máy chủ, máy để bàn) với những hệ điều hành như Windows, Linux, Solaris, MacOS... Giải pháp
bóc tách bán tự động cho phép nhà quản trị truy cập từ xa để quản lý ứng dụng trên giao diện đồ họa người dùng. Giải pháp đánh chỉ mục kết hợp với cơ sở dữ liệu trong lưu trữ nội dung cho phép lọc, tìm kiếm, lưu vết thao tác,... Nội dung đã được khai thác có thể truy xuất trên Web thông qua trình duyệt. Khả năng đồng bộ nội dung với các hệ quản trị nội dung, Portal, Website,... VietSpider có thể khai thác cùng lúc nhiều nguồn khác nhau với đầu mục khai thác lên đến hàng chục nghìn. Thông qua phân tích ngữ nghĩa, VietSpider liên kết những nội dung liên quan hoặc cùng chủ đề giúp người dùng theo dõi luồng thông tin tốt hơn.


Phiên bản mới nhất VietSpider 3 (2011).
Website giới thiệu chương trình.
Xin download sản phẩm tại đây.

Với người dùng phổ thông, xin hãy tải bản Vietspider với JRE (nhấn tại đây) . Với bản này, chỉ cần giải nén là có thể chạy VietSpider.



PHẦN MỀM LỌC TIN


PHẦN MỀM BÓC TÁCH TIN TỨC


BÓC TÁCH WEBSITE


BÓC TÁCH NỘI DUNG


DATA MINING


SEMANTIC WEB


WEB NGỮ NGHĨA


TỔNG HỢP TIN


BÓC TÁCH TỰ ĐỘNG


PHẦN MỀM KHAI THÁC NỘI DUNG


SPIDER


CRAWLER


ENTERPRISE SEARCH


TÌM KIẾM CHO DOANH NGHIỆP


KHAI THÁC TIN TỨC


BÓC TÁCH DIỄN ĐÀN


BÓC TÁCH HÀNG HÓA


TÌM BLOG


BÓC TÁCH FORUM


BÓC TÁCH RAO VẶT


WEB EXTRACTOR


PHẦN MỀM THEO DÕI TIN TỨC


PHẦN MỀM TẢI TIN TỨC TỰ ĐỘNG


PHẦN MỀM KHAI THÁC TIN TỨC


PHẦN MỀM ĐỌC TIN TỨC TRỰC TUYẾN


PHẦN MỀM ĐỌC TỔNG HỢP TIN


PHẦN MỀM ĐỌC TIN TỨC


PHẦN MỀM ĐỌC BÁO


PHẦN MỀM PHÂN TÍCH THÔNG TIN


Thứ Bảy, 13 tháng 1, 2007

Thứ Ba, 9 tháng 1, 2007

Sở thích viết Java code (Phần 1 : dùng if-else)

Một loạt bài trình về cách thức tôi viết một đoạn code như thế nào ? Phần 1 : Trình bày về if else được vận dụng trong những hoàn cảnh thường gặp.

Thứ Hai, 8 tháng 1, 2007

Phiên bản 5 của VietSpider có gì mới ?

Tiếp tục hoàn thiện các chức năng còn thiếu hoặc yếu kém trong bản build 4, hiện tại tôi tung ra tạm bản build 5 sau một thời gian chạy thử.

Thứ Năm, 4 tháng 1, 2007

VietSpider 3 build 5

Release VietSpider 3 build 5 (Download):
- Cho phép tải ảnh.
- Thử nghiệm tính năng tự động cập nhật.
- Lọc nội dung.
- Bug lỗi.
- Bắt đầu support nhiều loại database khác nhau.
...

Thứ Tư, 3 tháng 1, 2007

Robots, Spiders, Crawlers and HTTP_User_Agents

Many search engines use programs called robots to gather web pages for indexing. These programs are not limited to a pre-defined list of web pages, they can follow links on pages they find, which makes them a form of intelligent agent. The process of following links is called spidering, wandering or gathering. More

Thứ Ba, 2 tháng 1, 2007

WebOS

Thành công bước đầu của AJAX là không thể phủ nhận, nó đã kích thích một luồng sáng tạo mới trong thế giới Web mà cụ thể tôi muốn đề cập một lĩnh vực ở đây là WebOS.