Thứ Ba, 23 tháng 12, 2008

VietSpider Build 12: Lấy cấu hình (config) bóc tách từ server

Bạn có thuộc típ lười? Bạn không muốn cấu hình các kênh bóc tách từ VietSpider? Khi đó, bạn có thể lấy từ server của chúng tôi về cho máy VietSpider của bạn chạy.

Thứ Năm, 18 tháng 12, 2008

Chính thức ra mắt VietSpider Build 12

Build 12 cải thiện bộ nhớ, tốc độ khai thác dữ liệu, hệ thống plugin cho chương trình, nâng cấp Joomla Plugin, fix lỗi connect với MySQL và rất nhiều những cái tiến khác nữa.

VietSpider 3 Build 12 đã trình làng. Tải bản:
- Cho Windows với Java (cho người dùng bình thường, chỉ cần giải nén và chạy).
- Cho Windows rút gọn (Không bao gồm Java).
- Cho Linux.

Fix nhanh một số vấn đề về ảnh với Joomla. Xin hãy tải links sau về: http://nhudinhthuan.googlepages.com/Fix_Joomla.zip. Sau đó giải nén và copy mấy file .jar vào trong lib rồi chạy lại VietSpider nhé. Sorry vì không test kỹ trước khi release do bị lỡ kế hoạch phát hành build 12.


Thứ Bảy, 13 tháng 12, 2008

VietSpider Build 12: Joomla Plugin

VietSpider build 12 sẽ sớm trình làng trong vài ngày tới.

Bản nâng cấp kế tiếp của VietSpider đã cải tiến Plugin cho phép gửi nội dung tới Joomla CMS.

Thứ Bảy, 6 tháng 12, 2008

Ngõ xoan

Mưa. Lất phất. Cơn phùn đẫm ướt đôi vai tôi. Ngõ buồn. Đạp chân lên phong rêu mà dẫm nát bùn đất. Tôi hốt hoảng tìm. Tôi ngẩn ngơ nhìn. Trời rộng một màu mưa trắng xóa. Bâng khuâng rải đầy ngõ dài những cánh hoa tím lất phất bay.

Thứ Tư, 26 tháng 11, 2008

Tuổi đã xa người

Rét. Tái thâm bờ môi tím bong từng mảng da trắng. Ta lầm lũi bước đi trong giá lạnh chiều.

Thứ Ba, 18 tháng 11, 2008

VietSpider 3: Build 12 có tốc độ lấy dữ liệu đã tăng 50%

Cải tiến về IO và HTMLParser đã bước đầu thành công cho phép VietSpider tăng tốc lấy dữ liệu lên đến 50%. Các phiên bản đang chạy thử nghiệm có thể lấy về 500 000 nội dung/một ngày từ hàng triệu trang với các đường truyền ở mức trung bình. Dĩ nhiên, mạng vẫn chưa dùng hết và VietSpider vẫn đang tối ưu.

Thứ Ba, 11 tháng 11, 2008

Câu chuyện hài hước với VietSpider

Quét dữ liệu, bị comment vào tài khoản dùng để đăng nhập. Cười chết ruột.

- hj^_^ lam wen nha
- cam on ban da ghe tham nha bobo nha...nice day
- ua ai day?seo vao nha tui ma hok chao hoi gi het?
- to dang gap chuyen bun` doc entry moj uj cho to loj khuyen nha
- ghé nhà mà ko nói gì hết trơn vậy na`! HII BEST WISHES!
- j zy choy
- seo zô nhè mè hem cm j` zị em. chúc em mau có nhìu bạn nha.

Thứ Tư, 5 tháng 11, 2008

VietSpider HTMLParser Build 8 ra mắt

Bản mới fix một số lỗi, tích hợp HttpClient và cho phép login vào các site.

Bản mới bổ sung các ví dụ về login vào gmail, yahoo, java.net.

Download tại http://sourceforge.net/project/showfiles.php?group_id=158429&package_id=177459

Chủ Nhật, 2 tháng 11, 2008

Cưỡi người

Đã hơn một năm, Nèo bị bỏ đói. Đói tình. Đói cái mùi đàn ông ngai ngái, nồng nồng. Những cơ thể cuồn cuộn nhầy nhụa đẫm nát da thịt. Ả thèm quá. Thèm hơi giai đến héo mòn. Trời sinh ra thân Nèo, cứ phải hơi giai nó mới mỡ. Làng nước nhỉ?

(Truyện viết đến ba bốn lần mà chửa ưng ý. Hix, hôm nay tạm trích vài đoạn tạm cho là được post lên blog.)

Toàn cảnh trận mưa lịch sử ở Hà Nội - VietSpider tổng hợp

VietSpider tổng hợp toàn cảnh về trận lụt lịch sử tại Hà Nội. Nội dung được đăng tải trên các báo tại Việt Nam.

Thứ Tư, 29 tháng 10, 2008

Tài liệu về Java Generic

Nằm trong series bài viết "Sở thích viết code của tôi" được post lên blog khá lâu. Nay có dịp tổng hợp lại thành một bản tài liệu đầy đủ về Java Generic.

Tài liệu dành cho người đã biết Java có tổng hợp kinh nghiệm thực tế công việc. Tài liệu tiếng Việt. Tải hoặc xem

Thứ Hai, 27 tháng 10, 2008

Kỹ thuật rút trích ý niệm trong moom.vn

Moom.vn đang tiến hành cài đặt và vận hành thử kỹ thuật rút trích ý niệm từ nội dung. Đây là một trong những tính năng "ngữ nghĩa" trong hệ thống search của chúng tôi.

Thứ Ba, 14 tháng 10, 2008

Sửa nội dung trong VietSpider Build 12

Bản build 12 đã tích hợp tích năng sửa nội dung trong VietSpider. Tính năng dành cho các bản thương mại của VietSpider. Xem hình.

Thứ Năm, 9 tháng 10, 2008

Cưỡi mộng

Lâu lắm rồi mới viết lách cái khoản này!

Ta thõng đời nhìn xuống đáy đêm thâu
Nghe nỉ non tiếng giãi giầu than vãn
Lũ ngoa ngôn rỉ tai lời bầu bạn
Để cung sầu hờn oán trách đằng lưng

Chủ Nhật, 28 tháng 9, 2008

Tư duy hướng đối tượng: Góc nhìn từ thực tế đời sống tới lập trình.

Một bài mới được viết gần đây. Các khái niệm cố gắng trình bày bằng cách tiếp cận hoặc liên hệ tới đời sống thực.

Thứ Tư, 24 tháng 9, 2008

VietSpider 3 build 11: Tích hợp thành công với Drupal, Yahoo 360.

VietSpider đã có plugin cho Drupal và Yahoo 360. Các plugin này cho phép cập nhật nội dung trực tiếp từ VietSpider tới CMS hay blog. Chúng tôi sẽ lần lượt cung cấp miễn phí các plugin cho các CMS hay Portal nổi tiếng. Nếu bạn có nhu cầu tích hợp, hãy contact tới VietSpider để được support.

Thứ Hai, 22 tháng 9, 2008

Trình diễn khả năng đồng bộ dữ liệu từ VietSpider tới ddth.com

Vừa thử nghiệm cài đặt tính năng gửi bài viết từ VietSpider tới ddth.com. Nội dung đã xong và rất ok. Mời mọi người xem một số hình ảnh tại đây.

Thứ Sáu, 19 tháng 9, 2008

Quãng trắng - Phần 9

Buồn chìm. Dãn mênh mông một khoảng rộng cho gió đẩy bước chân người. Người đi. Cõi lòng mở toang hào hứng hướng. Trần gian bỏ lại, nơi phía sau ngùn ngụt khói dâng ngút trời. Trời u ám. Những bóng ma chập chờn ẩn hiện ăn vạ cõi người bằng gào rú thê lương. Đã chai sạn tâm hồn. Tâm hồn nhẵn lì trơn tuột xúc cảm bỏ mặc mặn mòi dòng nước mắt hờn tủi lăn. 

Thứ Tư, 17 tháng 9, 2008

Demo cho VietSpider 3 build 11

Demo 1: Đọc tin và tải tin xem và tải về

Demo 2: Cấu hình một kênh khai thác (báo Vietnamnet) xem và tải về

Demo 3: Cấu hình vài kênh khai thác khác (báo VnExpress, Người lao động, Tuổi trẻ) xem và tải về

Thứ Ba, 16 tháng 9, 2008

VietSpider 3 build 11: Cấu hình cho Joomla Plugin

VietSpider 3 Build 11 bắt đầu được thiết kế để có thể giao tiếp với các hệ quản trị nội dung hoặc Portal. Ví dụ đầu tiên là một plugin post nội dung từ VietSpider lên Joomla CMS. Hãy xem hướng dẫn tại đây để có thể cài đặt Plugin này.

Thứ Năm, 11 tháng 9, 2008

Một số hình ảnh VietSpider 3 Build 11

Bản  build 11 đang build và test để chuẩn bị release.  Bạn có thể xem trước một số hình ảnh của bản build 11 tại đây.

Trước khi build 11 phát hành,  VietSpider đã cung cấp tài liệu trợ giúp trực tuyến tại địa chỉ http://headvances.com/site/documents/vn/. Bạn cũng  có thể download tài liệu này tại SourceForget.net. VietSpider 3 build 11 sẽ được release trong vài ngày tới.

Chủ Nhật, 7 tháng 9, 2008

Quãng trắng - Phần 8

Gã ốm, bỏ ăn gần ba ngày nằm bẹp xác trên giường. Xác gầy khô hốc hác như bộ xương phủ quanh bằng thứ ni lông mỏng tái thâm. Bà lão nhìn gã chẹp miệng lắc đầu. Cả tháng nay, bà hết lời khuyên gã ra lều ngủ mà không được. Gã quyết bám trụ căn nhà hòng được chết. Người già chán sống đã đành, đằng này.

Thứ Năm, 4 tháng 9, 2008

VietSpider build 11 xin ra chậm

Do VietSpider 3 build 11 đang phải thay đổi quá nhiều về giao diện nên xin phép được release trễ muộn nhất là 2 tuần nữa. 

Thứ Hai, 18 tháng 8, 2008

Website Parse Template

Một chuẩn xuất hiện trong thời đại Web 3.0?
(Bài tiếp theo của loạt bài viết Web 2.0, 3.0.)

Thứ Sáu, 8 tháng 8, 2008

Quãng trắng - Phần 7

Sòng sọc một hơi thuốc lào nhờ nhợ khói say. Gã chống tay lên cằm quăng vời vợi dõi. Những mảng hoen ố hồi ức bong phong rêu cũ vỡ. Chói nắng dài, ngưng giọt đắng đọng thời thiếu thốn, khom bụng nhô sườn rít ròn điếu nuốt ký ức vào tận ruột gan. Ruột gan điên đảo, cồn cào. Bởi lưỡi đã chấm vào mem say. Cái chai sành chổng đít lên trời rót giãy bỏng họng. Gã nghiêng ngả, gió đu vai, kéo đầu, văng sã cánh tay vung lùng quanh bốn phía.

Thứ Tư, 6 tháng 8, 2008

Extract data từ Forum

Ví dụ về extract data từ forum, cụ thể là từ một thread trong forum.java.net. Sử dụng thư viện VietSpider HTMLParser build 7 (download tại đây).

Chủ Nhật, 3 tháng 8, 2008

Thứ Năm, 31 tháng 7, 2008

Phần 3 của bài viết Web 2.0, 3.0.

Tôi đang chuẩn bị đề tài cho một buổi Seminar nhỏ ở Hà Nội. Đang có hai vấn đề lựa chọn, bao gồm:
- Bàn về việc ứng dụng AJAX, nên hay không?
- JavaFX trong xu thế RIA của Web Application.

Bài viết cũ nhưng hôm nay mới có dịp xem xét lại. Bàn viết bàn về những mặt trái của việc dùng AJAX trong Web Site.

Thứ Tư, 30 tháng 7, 2008

Thứ Bảy, 26 tháng 7, 2008

Chuyển từ Java Object sang XML và ngược lại

Bộ HTMLParser ngoài khả năng chuyển HTML Text sang HTML DOM còn đảm nhận rất nhiều chức năng khác dành riêng cho xử lý dữ liệu XML như parse XML document, chuyển dữ liệu từ Java object tới XML document hoặc ngược lại, đọc các chuẩn RSS, Atom,... (Thư viện xử lý riêng cho XML chỉ 130kb hỗ trợ hết reference character, CDATA,... = > Download tại đây)

Ví dụ dưới đây minh họa các thức chuyển một Java Bean sang XML và ngược lại.

Thứ Năm, 24 tháng 7, 2008

Quãng trắng - Phần 6

Ngoài trời đã tối đen như mực, mưa chỉ còn lất phất. Tiếng rầm rì tụng, tiếng mõ đều đặn gõ. Meo bụng đói, gã dại chân tê quỳ. Gió mạnh hơn, rít lên hờn hận, xoáy vào màng nhĩ rọi buốt. Hai cây nến đang bập bùng cháy bỗng dưng phụt tắt. Bát hương bùng lên thành một ngọn lửa lớn đùng đùng. Vị sư già mau miệng lâm dâm, tiếng mõ dồn nhịp vồn vã.

Thứ Bảy, 19 tháng 7, 2008

Ví dụ về XMLParser với VietSpider HTMLParser 2 build 7

Bộ HTMLParser ngoài khả năng chuyển HTML Text sang HTML DOM còn đảm nhận rất nhiều chức năng khác dành riêng cho xử lý dữ liệu XML như parse XML document, chuyển dữ liệu từ Java object tới XML document hoặc ngược lại, đọc các chuẩn RSS, Atom,... (Thư viện xử lý riêng cho XML chỉ 130kb hỗ trợ hết reference character, CDATA,... = > Download tại đây)

Ví dụ dưới đây minh họa các thức chuyển từ một tập XML text sang 1 XMLDocument.

Thứ Hai, 14 tháng 7, 2008

Quãng trắng - Phần 5

Say. Vui người ta uống, buồn người ta cũng uống, còn gã chán đời nên phải uống. Tiền nong kiếm được có khi nướng sạch vào hơi men. Những cơn say khiến gã phờ phạc, gầy mòn và bệnh tật. Những cơn say đập phá, chửi bới, điên loạn. Gã rống, vãn phận người, ăn vạ trời, vạ đất, vạ cả vợ con gã. Đứa trẻ cũng vì gã mà khóc thét. Hai tiếng khóc tranh giành, bẵng quên cam chịu của người đàn bà.

Thứ Hai, 30 tháng 6, 2008

Thứ Bảy, 28 tháng 6, 2008

Quãng trắng - phần 4

Trời đổ mưa. Như vạn năm bốc hơi hòng trút hết một ngày. Mưa xối xả, mưa ào ạt, mưa như tát nước vào mặt người. Gió rít lên từng cơn, kéo lá cành nghiêng ngả. Cô gái chửa, bụng vượt mặt, ngã dấp dúi trên quãng đê. Quãng đê trơn trợt, lép nhép bùn trong cơn nước. Sóng òng õng đánh bờ.

Thứ Sáu, 27 tháng 6, 2008

Ganymede - Eclipse 3.4 Release

Eclipse 3.4 đã release. Đây là một IDE mà tôi lựa chọn và làm việc mấy nay liền. Có lẽ tôi là người bảo thủ trong khi nhiều người dùng Eclipse đã chuyển sang NetBean. Tôi đã thử NetBean và vẫn lựa chọn Eclipse. Do đó, các phiên bản mới của IDE này luôn là một sự mong chờ. Ghé thăm Ganymede.

Chủ Nhật, 22 tháng 6, 2008

Thứ Bảy, 14 tháng 6, 2008

Quãng trắng - phần 3

Gã ngượng ngùng, ngờ nghệch. Nén thẹn thùng, hai kẻ cố gần gũi nhau. Gã đưa tay vuốt lên má thị, vén những lọn tóc lòa xòa. Bàn tay lướt xuống, lăn trên vùng da thịt mát rượi. Thị chồm hỗm, cái lẳng lơ e ấp dưới ánh trăng khuya. Cúi xuống, thị đặt môi lên má gã. Rồi môi gã. Hai cặp môi chạm vào nhau tạo thành luồng điện chạy rần rần dọc sống lưng. Gã rướn mình. Thị đẩy xuống. Nhịp nhàng trong nhễ nhại cơn đê mê. Đêm đầu tiên, gã trở thành đàn ông.

Thứ Bảy, 7 tháng 6, 2008

Quãng trắng - phần 2

Năm mười bảy tuổi, gã đã biết yêu. Tình yêu có một thứ men làm người ta say triền miên. Và gã đã say như thế. Mối tình của gã là một cô gái học cùng. Nhưng đó chỉ là một mối tình đơn phương, trộm thương thầm nhớ.

Chủ Nhật, 1 tháng 6, 2008

Quãng trắng - truyện

Sấm sét. Mưa gió. Xô nhau dồn đuổi bóng người. Đêm cô quạnh. Cõi trần gian khắp chốn rêu phong, phủ hoang rờn xanh bạt ngàn dại cỏ. Những bóng ma chấp chới. Khoảng tối hu hu vãn cõi u linh. Gã dấp dúi, sợt sệt vấp ngã, nằm gục nơi bờ suối. Nước suối đầy vết máu loang. Những khúc xương trắng lềnh bềnh trôi. Sau lưng gã, lờ lững bóng hồn, lạnh lùng nhìn không chớp mắt. Gã gầy guộc, đầm đìa mồ hôi nằm co quắp trên sàn. Trơ trọi. Quãng đất bụi bám trắng từng khoảng da thịt rám đen.

Thứ Ba, 27 tháng 5, 2008

VS3 Build 10: Dạng trang duyệt trong cấu hình luồng tải

Dạng trang duyệt là một dạng mẫu thức chung để chương trình tải (Crawler) dựa vào đó mà đi vào những liên kết sâu hơn trong website.