Thứ Bảy, 29 tháng 12, 2007

Một năm nữa sắp qua đi

Thắp nén nhang, khấn cuộc đời bầm tím
Cúng sinh tồn ngọt lịm những niềm đau
Khóc ba năm chưa cạn nửa vại sầu
Đem ngâm hết những ngày sau vàng úa.

Thứ Năm, 27 tháng 12, 2007

Xin lỗi! Em chỉ là robot

Buối sáng mồng bốn tháng chạp năm 2047, tôi chuẩn bị những tư liệu cho cuốn tiểu thuyết tiếp theo. Tôi vào Google để tìm kiếm những trải nghiệm ban đầu của một loại robot mới sắp có trên thị trường. Tiểu thuyết có tên là “Xin lỗi! Em chỉ là robot”. Xin bật mí một số thông tin: Đây về một mối tình giữa một anh sinh viên với một cô Robot chuyên đi điểm danh hộ cho cô chủ. Câu chuyện xảy ra ở một giảng được đại học, nó mang màu sắc lãng mạng, hài hước,... có tính giáo dục giới tính cao. “Xin lỗi! Em chỉ là robot” với hy vọng sẽ là liều thuốc kích thích cho giới trẻ yêu nhiều hơn trong thời đại chán yêu như hiện nay.

Bài viết về thế hệ Semantic Search – S2 – một góc trộm nhìn với những gì mà Wikiapedia và Google đang thể hiện. Bài đang được edit, sẽ sớm post lên blog. Xin tham kiến mọi người.


Sầu ca

Tiếng ve bủa bản sầu ca điên loạn
Tôi vội vàng hốt hoảng nửa tình xuân
Cuộc yêu đương chưa hẹn đủ một vần
Nên dang dở mấy lần thơ không kết

Thứ Hai, 24 tháng 12, 2007

Đếm từ trong một đoạn text với Regex

private static int count(CharSequence charSeq){
  Pattern pattern = Pattern.compile("\\b[\\p{L}\\p{Digit}]");
  int start = 0;
  int counter = 0;
  Matcher matcher = pattern.matcher(charSeq);
  while(matcher.find(start)) {
    start = matcher.start() + 1;
    counter++;
  }
  return counter;
}

Thứ Ba, 18 tháng 12, 2007

Ảo mộng tình

ta giết mộng buồn dưới gối chăn
giết yêu đương lết nỗi nhọc nhằn
những mùa thu chết bên quầng nhớ
giấu vết tình loang nét nợ trần

Thứ Tư, 12 tháng 12, 2007

Web 2.0, 3.0,... rồi có chấm không?

Bài viết cho blog lúc 0 giờ về Web 2.0 và Web 3.0.

Web 2.0 thành công từ đâu? Giới công nghệ Việt Nam với Web 2.0 và những dự đoán Web 3.0.

Thứ Năm, 6 tháng 12, 2007

Ghẹo sư

Chẳng oan là tiếng gái hư
Chẳng yêu thì cũng tựa như phải lòng
Mầu mê Thị Kính má hồng
Lên chùa cởi áo nâu sồng thả duyên

Chủ Nhật, 2 tháng 12, 2007

Sẽ bóc gì ở VietSpider mới?

Là một tổng thể mới, thoát thai khỏi lĩnh vực bóc tách tin tức, VietSpider build 10 tập trung khai thác nhiều kiểu dữ liệu mới. (Hình bên là dữ liệu tin tức và blog nổi tiếng của Joe).

Tài liệu free cho VietSpider build 9

Tài liệu kỹ thuật bao gồm trình bày một số lý thuyết xây dựng ứng dụng, một số mô tả dữ liệu và cấu hình hệ thống cho VietSpider build 9. Tài liệu có thể cần cho các nhà quản trị. Download.

Thứ Sáu, 23 tháng 11, 2007

Du mộng

Cách thủy vữa mêng mông, du mộng can vào im vắng khóe đêm lạc ánh sao trời. Cơn lạnh, kéo tấm chăn mềm, ta thở phà vào bẵng quên trong mộng mị. Thương, ảo ảnh đan xen những niềm thương cũ kỹ. Mùi của ẩm mốc tỏa từ chớm đông giá kéo dãn chiếc áo len. Mùa xa xăm thành một bản thương ca hò hẹn lúc thời khắc trở giời.

Thứ Năm, 22 tháng 11, 2007

Sorting Really Big Files - Merge Sort

Code sort nội dung của một file text lớn theo dòng trên mô hình của merge sort. Các thức này hiệu quả khi phải sort nội dung tập tin mà chúng ta không thể load hết chúng vào bộ nhớ. Hiệu quả làm việc khi dữ liệu lên đến hàng mb hoặc gb.

Thứ Bảy, 17 tháng 11, 2007

Danh sách các hệ thống tổng hợp dữ liệu và tìm kiếm của Việt Nam

Khoản này đang nóng nha, dưới đây là một số dịch vụ tìm kiếm, dĩ nhiên trong thời gian tới chúng ta sẽ chứng kiến thêm các dịch vụ tìm kiếm khác nữa.

Thứ Tư, 14 tháng 11, 2007

Điên 3

sư cả bầy kéo nhau đi niệm phật
sãi nằm không vắt yếm ở cửa thiền
mấy quan bà đương đội lễ nịnh tiên
quen thói nguýt, miệng than phiền: của nợ!

Thứ Tư, 7 tháng 11, 2007

BTree - Vài dòng code

Cài đặt BTree ở mức đơn giản, nhanh. Nó hỗ trợ 3 phương thức cơ bản insert (add or update), contains (kiểm tra có hay không), delete (xóa dữ liệu).

Chủ Nhật, 21 tháng 10, 2007

suy và nghĩ

Một tuần nữa trôi qua, công việc bị trễ so với kế hoạch nhưng những gì làm được đã tương đối thỏa mãn cho bản thân và tạo niềm hứng khởi cho những đồng nghiệp. Nếu như làm được, chỉ vài tháng nữa, tụi mình sẽ trình làng một ứng dụng mà theo sếp thì chỉ nên dùng một từ "choáng".

Thứ Ba, 16 tháng 10, 2007

VietSpider build 10 - Tiếp

Tôi mất quá nhiều thời gian để có những thay đổi bước ngoặt ở phần mềm con cưng này.

Thứ Tư, 10 tháng 10, 2007

Tầm mắt thu

Vươn tầm mắt, đẩy cái nhìn lên cao vút thăm thẳm xanh một quầng vô vọng. Thu, nhẹ nhàng lướt đi qua góc phố già. Hà nội mùa này, thoang thoảng hương hoa sữa chứ không rực lá vàng bay. Tôi lang thang những gót chân đạp vào sỏi đá trơ buồn dưới lớp bụi thời gian. Cũng gió, cũng nắng, cũng trời cao mây trắng rong chơi nhưng cái cảm giác mùa thu không còn xốn xang như lúc ở quê nhà.

Thứ Ba, 2 tháng 10, 2007

Có gì mới ở VietSpider build 10

Được đầu tư thời gian và phát triển nghiêm túc, VietSpider 3 build 10 sẽ là phiên bản cực mạnh dành cho khai thác thông tin.

Thứ Sáu, 28 tháng 9, 2007

Điên 2

những phú ông đứng dạy đời kệch cỡm
những đầm già đú đởn học làm tây
trát phấn son, tô vẽ mặt thêm dày
vai u bắp vắt hai dây đỏng đảnh

Thứ Bảy, 22 tháng 9, 2007

Dịch chuyển mô thức nguồn mở

Tháng 3/2007 tại Seminar về Số hoá tài liệu Hán Nôm của Viện Thông tin KHXH, GS. Ngô Thanh Nhàn, Đại học New York đã giới thiệu bài viết "Open Source Paradigm Shift" của Tim O'Reilly, Giám đốc điều hành Công ty O'Reilly Media (Mỹ). Bài viết đầy đủ đang tải trên website của Viện KHXHTT. Xem tại đây.

Thứ Sáu, 21 tháng 9, 2007

Mê mô!

Nắng nhạt màu, hệch hệch trong một chút gió thu lay động những không gian u tịch. Đâu đó trong một mớ mơn man, ùa về tiềm thức những buổi chiều vàng ong óng nét thơ ngây. Trên vầng vô vọng, tôi ngước nhìn những khoảng không thăm thẳm cõi những yên bình.


Thứ Ba, 11 tháng 9, 2007

VietSpider: Làm sạch dữ liệu sau bóc tách.

Bạn có thể khai báo một số thông số để chương trình thực hiện việc làm sạch nội dung bóc tách được trước khi lưu vào cơ sở dữ liệu.

Thứ Hai, 3 tháng 9, 2007

Bình mới rượu cũ ở Java 6.

Phần giới thiệu này sẽ lướt qua một vài điểm mới trong các cơ bản như java.lang, java.util, java.io.

Thứ Sáu, 31 tháng 8, 2007

Biện minh

Cuộc sống đa chiều và phức tạp, tôi thấy mình cô đơn giữa lúc phố xá nghìn nghịt người. Mới hôm qua thôi, bon chen và đua tranh đã khiến tôi phải rời bỏ công việc mình yêu thích. Hôm nay, tôi lạ lẫm dò dẫm một một tương lai gần, chầm chậm nhìn qua lăng kính u buồn của tuổi hăm tư đầy hoài niệm.

Thứ Hai, 27 tháng 8, 2007

Thứ Tư, 22 tháng 8, 2007

Phương đông huyền bí

Dịu dàng một nét hiền, đôi mắt bẵng vào khoảng không nỗi nhớ nhung xa lạ. Mùa thu đến, vẫn chưa có lá vàng rụng ngoài kia, vẫn chưa có cái heo may mơn trớn. Gió, đánh lặng bóng đêm kéo lạnh lùng đắp lên tấm thân trần trụi. Sương, lùa về từ phương đông huyền bí leo vào qua khung của nhỏ rồi òa vào giấc mơ hoang. Nơi ấy tôi cô đơn.

Thứ Hai, 20 tháng 8, 2007

mất việc

Cuối cùng thì mình cũng rời khỏi eXo sau hơn 2 năm ở công ty. Mình đã thực sự trưởng thành rất nhiều từ eXo. Các sếp đấu đá nhau, đúng ra thì việc này cũng không liên quan nhiều đến mình nhưng một môi trường làm việc như vậy thì không nên ở lại. Mình đã chọn phương án ra đi, nhẹ nhàng và thanh thản, ít ra là không còn cảm giác bất ổn và ngột ngạt như những ngày qua ở công ty. Kể thì cũng hơi tiếc, phát triển WebOS - với vai trò một Team Leader và cũng gần như một PM thực thụ, đến ngày gần hoàn thành thì mình phải ra đi. Cuộc sống là vậy, có những thứ không thể lường trước hết được, ra đi không một sự chuẩn bị và cũng chưa có kế hoạch gì cho tương lai.

Thứ Tư, 15 tháng 8, 2007

Thứ Năm, 9 tháng 8, 2007

điên

đời công danh khệnh khạng ôm bụng phệ
đĩ dạng chân phóng uế cõi văn đàn
trẻ lọt lòng chống nạnh chẹp miệng than
ôi thiên hạ vô vàn cơn lạ lẫm

Thứ Hai, 6 tháng 8, 2007

VietSpider-HTMLParser-Build 6

Release VietSpider-HTMLParser-Build 6, fix một số lỗi. Bản phát hành bao gồm một số chương trình nhỏ về Crawler và Download Website. Download tại http://sourceforge.net/project/showfiles.php?group_id=158429

Thứ Hai, 23 tháng 7, 2007

Sự cạnh tranh

Cuộc sống là vậy, có những thứ kỳ vọng ở tương lai nhưng sẽ đội nón ra đi một cách nhẹ nhàng, có thể tôi lại phải bước vào một cuộc hành trình tìm kiếm mới mà lý do không phải ở bản thân mình.

Thứ Bảy, 21 tháng 7, 2007

Sự tồi tệ của HTML

Vâng đúng là như vậy, HTML là một ngôn ngữ đánh dấu quá lỏng lẻo, sự lỏng lẻo thể hiện sự tích cự với tính cẩu thả nhưng lại là tai họa cho sự tỉ mỉ và chặt chẽ.

Thứ Năm, 12 tháng 7, 2007

Ngột

Tóc tai rối, kẻ bâng quơ dật dờ ngõ phố như một cái xác không hồn vật vờ giữa mưa gió bụi đời. Cuộc sống là để tồn tại, để hiện hữu, để đợi chờ cõi chết cô đơn. Hôm nay, nắng vẫn nóng và nỗi buồn thành từng giọt điểm trên vừng trán, nhìn cuộc đời ảm đạm trong từng thớ huyênh hoang.

Thứ Tư, 11 tháng 7, 2007

Tản văn: Nhiều chữ đem bán lấy tiền mua danh.

Thì cũng như người ta, cầm cái bằng cử nhân chữ nghĩa, nhưng thời buổi nổ đôm đốp, con người chẳng có chút danh mà khoe mẽ thì coi như vứt đi cuộc nửa đời, thế là em cầm bút ... viết.

Thứ Tư, 4 tháng 7, 2007

Con đường từ Portal tới WebOS: Cái nhìn vào ý tưởng.

Rảnh rang ngồi suy nghĩ lung tung về cái này, em thấy nó có cả một tham vọng là xây dựng một hệ điều hành tổ hợp các giải pháp cho một cộng đồng thông qua Web đấy chứ. Kể thì cũng khủng gớm nhưng thành công mỹ mãn thì chưa thấy, bởi lẽ người ta cứ làm trừu tượng hóa vấn đề. Phải làm sao cho lập trình viên dễ quản trị và phát triển Portlet nhất thì tốt hơn.

Thứ Tư, 27 tháng 6, 2007

HTTP Server với Java 6

Biết tỏng Java có cài một HTTP Server (chắc là phục phụ cho WebService) nên ngồi ăn cắp code của nó cho VietSpider để Java 5 có thể chạy được. Tranh thủ viết một ví dụ post lên đây.

Thứ Tư, 6 tháng 6, 2007

Mưa

Ướt mềm đôi mắt nhân gian, mây chở về che khuất những gì chói chang nhất lúc đương hè. Cái nóng mùa hạ, chợt bừng lên đôi má, chảy dài thành từng giọt mặn mòi trên khuôn mặt ngơ ngác giữa phố đông.

Thứ Bảy, 2 tháng 6, 2007

Jibx with HashMap and String Array

Trong các mô hình hoặc giải pháp Object Mapping thì Jibx đứng vào hàng top với runtime performance và thư viện khá nhỏ nhẹ. Do không dùng reflection để thực hiện việc mapping nên mặc dù hơi khó dùng như cái giá phải trả thì cũng đáng. Dưới đây là 2 mở rộng để làm việc với String array và HashMap với .

Thứ Tư, 30 tháng 5, 2007

Download một website

Download các gói DownloadSite.zip và HTMLParser2_build5.zip, sau đó sử dụng các thư viện commons-codec-1.3.jar, commons-httpclient-3.1-alpha1.jar, commons-logging-1.0.4.jar,vsHTMLParser.jar để chạy chương trình.
khả năng bao gồm:
- Cho phép load theo mức - độ sâu nào đó của website.
- load các tài nguyên gồm ảnh, css, js,...
- giữ nguyên các liên kết.
chương trình vẫn còn ở mức đơn giản, chưa xử lý được các scripting để lấy các link vào sâu hơn, hy vọng ai đó có thể code thêm, tốc độ quét cũng rất nhanh.

Thứ Ba, 29 tháng 5, 2007

Bới ngôn ngữ ra chuyện – tản mạn về JavaFX.

Độ này người của Sun đi đâu cũng khoe về JavaFX, nó như một tấm áo mới mặc mà đứa trẻ mặc vào đem đi khoe với bạn bè. Nghe nói và nghe nói, nhưng cũng chỉ là người của Sun nói chứ có mấy ai bới vào cái đống ngôn ngữ lộn xộn đó đâu. Rảnh rang một chút ngày mất điện, tôi rình mò để buôn chuyện trên blog này.

Thứ Năm, 24 tháng 5, 2007

VietSpider3 Build 8

Do thời gian qua bận quá nên hàng loạt các tính năng dự định tiếp theo vẫn hoàn thiện. Nếu kéo dài thêm nữa thì build 8 chắc sẽ rất lâu mới release trên SourceForge. Do đó, tạm thời tôi cắt lại để tung ra một bản build 8, các tính năng còn lại sẽ tiếp tục phát triển ở các bản build 9 và build 10. Download VietSpider 3 Build 8.

Thứ Sáu, 18 tháng 5, 2007

Seminar về JavaFX

JavaOne vừa kết thúc, một trong những điểm nhấn về đang được cư dân mạng trên thế bàn tán xôn xao chính là JavaFX. Do đó, doibuon quyết định làm một seminar nhỏ về JavaFX đầu tiên với nhóm học Java tại Hà nội.

Thứ Sáu, 11 tháng 5, 2007

Xin chào JavaFX ?

JavaOne đã bước sang ngày thứ 3 và ngôi sao công nghệ hiện tại đang được khoe một cách rất hào nhoáng chính là JavaFX. Nó là gì

Thứ Năm, 10 tháng 5, 2007

Lấy dữ liệu từ Web

Một vài bài toán muốn lấy các thông tin như thông tin chứng khoán, kết quả bóng đá, tỉ giá, thời tiết từ một website nào đó về. Các ví dụ minh họa sử dụng VietSpider HTMLParser được viết tại đây : http://www.javavietnam.org/javavn/mvnforum/viewthread?thread=17309

Thứ Bảy, 5 tháng 5, 2007

VietSpider HTMLParser2 build 5

Đã release trên sourceforge bao gồm việc fix một số bug, cho phép chuyển đổi qua lại giữa các kiểu unicode tổ hợp và dựng sẵn, mã nguồn giao diện đồ họa của công cụ HTMLExplorer,...
Download tại đây.

Thứ Ba, 1 tháng 5, 2007

Hoa xoan

U kể ngày xưa với ngày xưa
Ngày u đi đội lễ trên chùa
Cũng mùa xoan tím đương nở rộ
U bén duyên thầy trong nắng trưa

Thứ Năm, 26 tháng 4, 2007

Ginh goàn.

Thu nhẹ không gian, đẩy tất cả khoảng mênh mông lên cao tít, ánh mắt nhìn vòi vọi những hoan hỉ mơ hồ.

Thứ Bảy, 21 tháng 4, 2007

Làng tôi

Làng tôi, có từ thời cụ tổ tôi dựng dinh, lập trại. Cái làng ấy, bé tí ti với nhà xây thành dãy giống như con phố nửa vời. Cũng bụi tre, nhưng bờ giậu chẳng còn, cũng sân kho nhưng những con đường giờ đã là bê tông và nhựa. Có cô gái nghèo tóc ép cúi rửa chân.

Thứ Sáu, 20 tháng 4, 2007

Kiểm tra một ảnh có tồn tại trên server hay không (Code javascript)

function testImage(URL) {
var img = new Image;
img.onerror = isBad;
img.src = URL;
}
function isBad() {
alert('Image doesn\'t exist!');
}
Và thử dùng :
body onload="testImage('http://jroller.com/images/holmes.png1');"

Thứ Tư, 18 tháng 4, 2007

Thứ Hai, 16 tháng 4, 2007

Java - tản mạn đôi dòng suy ngẫm

Bản thân tôi biết mình sắp bước vào sự tới hạn kiến thức, cái giới hạn về năng lực của tôi lại cần một sức mạnh mới để vươn lên và vượt qua. Một năm nữa sắp trôi đi, sự trưởng thành về tư duy và nhận thức đã cảm nhận một cách rõ rệt. Như một chu kỳ, tôi sẽ lại bước vào một quá trình mới để rèn luyện bản thân mình.

Thứ Sáu, 6 tháng 4, 2007

Cơn say

Ta bàng hoàng tỉnh giữa cơn say
Đâu đấy đây một kiếp qua ngày
Ôi vạn lẻ, sầu vương vạn lẻ
Những nếp đời hoang phế cuồng quay

Thứ Tư, 4 tháng 4, 2007

Nhóm học Java

Như vậy là tôi đã bắt đầu tổ chức nhóm học Java tại Hà nội. Điều trước tiên nghĩ đến khi bắt đầu thành lập nhóm là thất bại, nhưng tôi vẫn làm.

Thứ Sáu, 30 tháng 3, 2007

Phân trang với Rowset Interface

Từ Java 5, Sun có bổ sung một số interface cho Rowset interface, chúng được extend từ CachedRowSet, và ta có thể phân trang với CachedRowSet Interface.

Thứ Ba, 27 tháng 3, 2007

Một ngày với JSon

Tôi mất trọn một ngày để cài đặt JSon lib, một thư viện cho phép chuyển đổi giữa Java Bean tới JSon Object.

Thứ Tư, 14 tháng 3, 2007

Sở thích viết code của tôi - Phần 5(Generic)

Với lập trình, kế thừa không còn là khái niệm xa lạ. Generic cũng vậy, là một trừu tượng dữ liệu, bản thân chúng cũng có thể kế thừa hoặc được kế thừa từ một kiểu dữ liệu khác.

Bài viết thứ hai.

Bài viết thứ nhất.


Hướng dẫn cài đặt database với Vietspider.

Để cài đặt database ngoài với Vietspider, bạn cần download gói sau với các script dành cho : Oracle, HSQL, ApacheDB, PostGres, MS SQL Server 2000-2005, MySQL ở đây. Nếu muốn sử dụng với các hệ quản trị cơ sở dữ liệu khác, bạn cần sửa các scripting này phù hợp với database mà bạn lựa chọn. Hướng dẫn cài đặt sau sẽ lựa chọn MySQL. Xem thêm nội dung bài viết.

Thứ Sáu, 9 tháng 3, 2007

Ảo vọng

Rét tháng hai, cái rét cứng người, cái rét của một chút lấm tấm mưa phùn, buốt đến thấu da, thấu thịt.

Thứ Năm, 8 tháng 3, 2007

U em - V2

Đầu thôn treo ánh trăng rằm
Cũng là chúng bạn mấy lần chủ trương
Cấm em u khóa cửa buồng
Sợ em mất nết ra đường tìm giai

Thứ Tư, 7 tháng 3, 2007

Thứ Năm, 1 tháng 3, 2007

Sở thích viết code của tôi - Phần 4 (Generic - 2)

phần trước, tôi đề cập đến generic cùng những hiểu biết về cài đặt trong Collections framework. Xét về khía cạnh sử dụng, chắc nó cũng không còn xa lạ với nhiều người. Ở bài viết này, xin được trình bày về các thức cài đặt generic trong code cụ thể.

Chủ Nhật, 25 tháng 2, 2007

Hôn

Chiều ấy tan thành muôn tóc mây
Dáng em đương mỏng lúc xuân gầy
Nắng cũ chẳng buồn nơi khóe mắt
Tôi cũng môi mềm nâng giấc say

Thứ Năm, 22 tháng 2, 2007

tôi

nắng, đủ để xua đi cái lạnh giá những ngày tết, ru lên những khúc buồn da diết, tôi đứng đây nhìn những khoảng không gian của lý trí, tình yêu, dục vọng và nếp yên bình theo quy luật cuộc đời.

Sở thích viết code của tôi - Phần 3(Generic)

Đó là điểm mới về mặt ngôn ngữ từ java 5. Mặc dù đã sử dụng Generic khá thành thạo từ lâu nhưng đến nay tôi mới có dịp đề cập về nó một cách chi tiết hơn.(Phần 1)

Thứ Ba, 13 tháng 2, 2007

Năm mới an khang

Nhân dịp năm mới, doibuon xin được gửi chúc sức khỏe, thành đạt, hạnh phúc,... tới tất cả mọi người.

Thứ Năm, 8 tháng 2, 2007

Tết

Một cái rùng mình giữa phố đông, Hà nội những ngày nắng ấm, đâu đó hơi thở của mùa xuân và Tết lại về.

Thứ Năm, 1 tháng 2, 2007

Mùa hoa buồn

Mồ hoang cỏ úa dưới chân đồi
Từ ấy lâu rồi không có tôi
Những mùa thu cũ đi lặng lẽ
Hoa cũ buồn thương thủa thiếu thời

Thứ Ba, 30 tháng 1, 2007

Buồn đêm

Bỏ mặc chiều, mùa đông rớt dài trên vai áo, đánh thâm cái lạnh lùng lướt nhẹ bờ môi.

Chủ Nhật, 28 tháng 1, 2007

27_01_07

Hic, một bản được cài đặt tạm trên net thấy chạy khá ổn. Config lại và bổ sung một loạt các kênh tin mới, download gói zip sau về vứt vào thư mục data rồi giải nén (đè lên thư mục sources trong thư mục data của VietSpider). Build 7 (fix một số bug) sẽ sớm được release trên sourceforge (trước Tết).

Thứ Hai, 22 tháng 1, 2007

Update cho build 6.

Fix một số lỗi nhỏ ở VietSpider build 6 theo chế độ tự động cập nhật, để kiểm tra xem version VietSpider đang chạy đã cập nhật hay chưa, xin xem trong lib, hai file với version mới nhất là vs-crawler-3.0.3jar và vs-io-1.2.3.jar. Tắt chương trình và chạy lại để cập nhật hoàn tất.

Để lưu trữ dữ liệu lâu hơn thời gian 3 ngày xin và data/system/system.properties sửa EXPIRE_DATE=15(số ngày mà bạn muốn lưu dữ liệu). Những phiên bản không dùng database ngoài tức là dùng luôn thì không nên lưu trữ dữ liệu quá 3 ngày vì dữ liệu quá lớn sẽ làm tràn bộ nhớ chương trình gây ra lỗi.

Dự định

Một tuần qua chỉ ngồi để viết tài liệu cho VietSpider 3.

Chủ Nhật, 14 tháng 1, 2007

VietSpider 3 Build 6

Bản build 6 của VietSpider 3 release với một Content Publisher đơn giản cho phép truy cập và đọc nội dung qua Website, cổng 9245. Hỗ trợ Oracle, Postgres, MS SQL Server, MySql,...download
Bản build 4 của bộ HTMLParser 2 cũng được release, download.

VietSpider

VietSpider là phần mềm khai thác, tổng hợp dữ liệu từ Internet với các chức năng chính:

1. Hệ thống khai thác và tách lọc dữ liệu từ Internet (Tin tức+Bài viết, Blog, Thảo luận tại diễn đàn, Hàng hóa, Hồ sơ cá nhân,...).

2. Hệ thống tổng hợp, đánh chỉ mục và phân tích ngữ nghĩa dữ liệu. (http://nik.vn - Hệ thống tìm kiếm nhà đất thông minh)

3. Giải pháp xuất bản, lọc nội dung, cá nhân hóa, tìm kiếm,... trên giao diện đồ họa người dùng hoặc trình duyệt.

Chương trình có thể chạy trên nhiều nền tảng máy tính khác nhau (máy chủ, máy để bàn) với những hệ điều hành như Windows, Linux, Solaris, MacOS... Giải pháp
bóc tách bán tự động cho phép nhà quản trị truy cập từ xa để quản lý ứng dụng trên giao diện đồ họa người dùng. Giải pháp đánh chỉ mục kết hợp với cơ sở dữ liệu trong lưu trữ nội dung cho phép lọc, tìm kiếm, lưu vết thao tác,... Nội dung đã được khai thác có thể truy xuất trên Web thông qua trình duyệt. Khả năng đồng bộ nội dung với các hệ quản trị nội dung, Portal, Website,... VietSpider có thể khai thác cùng lúc nhiều nguồn khác nhau với đầu mục khai thác lên đến hàng chục nghìn. Thông qua phân tích ngữ nghĩa, VietSpider liên kết những nội dung liên quan hoặc cùng chủ đề giúp người dùng theo dõi luồng thông tin tốt hơn.


Phiên bản mới nhất VietSpider 3 (2011).
Website giới thiệu chương trình.
Xin download sản phẩm tại đây.

Với người dùng phổ thông, xin hãy tải bản Vietspider với JRE (nhấn tại đây) . Với bản này, chỉ cần giải nén là có thể chạy VietSpider.



PHẦN MỀM LỌC TIN


PHẦN MỀM BÓC TÁCH TIN TỨC


BÓC TÁCH WEBSITE


BÓC TÁCH NỘI DUNG


DATA MINING


SEMANTIC WEB


WEB NGỮ NGHĨA


TỔNG HỢP TIN


BÓC TÁCH TỰ ĐỘNG


PHẦN MỀM KHAI THÁC NỘI DUNG


SPIDER


CRAWLER


ENTERPRISE SEARCH


TÌM KIẾM CHO DOANH NGHIỆP


KHAI THÁC TIN TỨC


BÓC TÁCH DIỄN ĐÀN


BÓC TÁCH HÀNG HÓA


TÌM BLOG


BÓC TÁCH FORUM


BÓC TÁCH RAO VẶT


WEB EXTRACTOR


PHẦN MỀM THEO DÕI TIN TỨC


PHẦN MỀM TẢI TIN TỨC TỰ ĐỘNG


PHẦN MỀM KHAI THÁC TIN TỨC


PHẦN MỀM ĐỌC TIN TỨC TRỰC TUYẾN


PHẦN MỀM ĐỌC TỔNG HỢP TIN


PHẦN MỀM ĐỌC TIN TỨC


PHẦN MỀM ĐỌC BÁO


PHẦN MỀM PHÂN TÍCH THÔNG TIN


Thứ Bảy, 13 tháng 1, 2007

Thứ Ba, 9 tháng 1, 2007

Sở thích viết Java code (Phần 1 : dùng if-else)

Một loạt bài trình về cách thức tôi viết một đoạn code như thế nào ? Phần 1 : Trình bày về if else được vận dụng trong những hoàn cảnh thường gặp.

Thứ Hai, 8 tháng 1, 2007

Phiên bản 5 của VietSpider có gì mới ?

Tiếp tục hoàn thiện các chức năng còn thiếu hoặc yếu kém trong bản build 4, hiện tại tôi tung ra tạm bản build 5 sau một thời gian chạy thử.

Thứ Năm, 4 tháng 1, 2007

VietSpider 3 build 5

Release VietSpider 3 build 5 (Download):
- Cho phép tải ảnh.
- Thử nghiệm tính năng tự động cập nhật.
- Lọc nội dung.
- Bug lỗi.
- Bắt đầu support nhiều loại database khác nhau.
...

Thứ Tư, 3 tháng 1, 2007

Robots, Spiders, Crawlers and HTTP_User_Agents

Many search engines use programs called robots to gather web pages for indexing. These programs are not limited to a pre-defined list of web pages, they can follow links on pages they find, which makes them a form of intelligent agent. The process of following links is called spidering, wandering or gathering. More

Thứ Ba, 2 tháng 1, 2007

WebOS

Thành công bước đầu của AJAX là không thể phủ nhận, nó đã kích thích một luồng sáng tạo mới trong thế giới Web mà cụ thể tôi muốn đề cập một lĩnh vực ở đây là WebOS.