Thứ Bảy, 29 tháng 12, 2007

Một năm nữa sắp qua đi

Thắp nén nhang, khấn cuộc đời bầm tím
Cúng sinh tồn ngọt lịm những niềm đau
Khóc ba năm chưa cạn nửa vại sầu
Đem ngâm hết những ngày sau vàng úa.

Thứ Năm, 27 tháng 12, 2007

Xin lỗi! Em chỉ là robot

Buối sáng mồng bốn tháng chạp năm 2047, tôi chuẩn bị những tư liệu cho cuốn tiểu thuyết tiếp theo. Tôi vào Google để tìm kiếm những trải nghiệm ban đầu của một loại robot mới sắp có trên thị trường. Tiểu thuyết có tên là “Xin lỗi! Em chỉ là robot”. Xin bật mí một số thông tin: Đây về một mối tình giữa một anh sinh viên với một cô Robot chuyên đi điểm danh hộ cho cô chủ. Câu chuyện xảy ra ở một giảng được đại học, nó mang màu sắc lãng mạng, hài hước,... có tính giáo dục giới tính cao. “Xin lỗi! Em chỉ là robot” với hy vọng sẽ là liều thuốc kích thích cho giới trẻ yêu nhiều hơn trong thời đại chán yêu như hiện nay.

Bài viết về thế hệ Semantic Search – S2 – một góc trộm nhìn với những gì mà Wikiapedia và Google đang thể hiện. Bài đang được edit, sẽ sớm post lên blog. Xin tham kiến mọi người.


Sầu ca

Tiếng ve bủa bản sầu ca điên loạn
Tôi vội vàng hốt hoảng nửa tình xuân
Cuộc yêu đương chưa hẹn đủ một vần
Nên dang dở mấy lần thơ không kết

Thứ Hai, 24 tháng 12, 2007

Đếm từ trong một đoạn text với Regex

private static int count(CharSequence charSeq){
  Pattern pattern = Pattern.compile("\\b[\\p{L}\\p{Digit}]");
  int start = 0;
  int counter = 0;
  Matcher matcher = pattern.matcher(charSeq);
  while(matcher.find(start)) {
    start = matcher.start() + 1;
    counter++;
  }
  return counter;
}

Thứ Ba, 18 tháng 12, 2007

Ảo mộng tình

ta giết mộng buồn dưới gối chăn
giết yêu đương lết nỗi nhọc nhằn
những mùa thu chết bên quầng nhớ
giấu vết tình loang nét nợ trần

Thứ Tư, 12 tháng 12, 2007

Web 2.0, 3.0,... rồi có chấm không?

Bài viết cho blog lúc 0 giờ về Web 2.0 và Web 3.0.

Web 2.0 thành công từ đâu? Giới công nghệ Việt Nam với Web 2.0 và những dự đoán Web 3.0.

Thứ Năm, 6 tháng 12, 2007

Ghẹo sư

Chẳng oan là tiếng gái hư
Chẳng yêu thì cũng tựa như phải lòng
Mầu mê Thị Kính má hồng
Lên chùa cởi áo nâu sồng thả duyên

Chủ Nhật, 2 tháng 12, 2007

Sẽ bóc gì ở VietSpider mới?

Là một tổng thể mới, thoát thai khỏi lĩnh vực bóc tách tin tức, VietSpider build 10 tập trung khai thác nhiều kiểu dữ liệu mới. (Hình bên là dữ liệu tin tức và blog nổi tiếng của Joe).

Tài liệu free cho VietSpider build 9

Tài liệu kỹ thuật bao gồm trình bày một số lý thuyết xây dựng ứng dụng, một số mô tả dữ liệu và cấu hình hệ thống cho VietSpider build 9. Tài liệu có thể cần cho các nhà quản trị. Download.

Thứ Sáu, 23 tháng 11, 2007

Du mộng

Cách thủy vữa mêng mông, du mộng can vào im vắng khóe đêm lạc ánh sao trời. Cơn lạnh, kéo tấm chăn mềm, ta thở phà vào bẵng quên trong mộng mị. Thương, ảo ảnh đan xen những niềm thương cũ kỹ. Mùi của ẩm mốc tỏa từ chớm đông giá kéo dãn chiếc áo len. Mùa xa xăm thành một bản thương ca hò hẹn lúc thời khắc trở giời.

Thứ Năm, 22 tháng 11, 2007

Sorting Really Big Files - Merge Sort

Code sort nội dung của một file text lớn theo dòng trên mô hình của merge sort. Các thức này hiệu quả khi phải sort nội dung tập tin mà chúng ta không thể load hết chúng vào bộ nhớ. Hiệu quả làm việc khi dữ liệu lên đến hàng mb hoặc gb.

Thứ Bảy, 17 tháng 11, 2007

Danh sách các hệ thống tổng hợp dữ liệu và tìm kiếm của Việt Nam

Khoản này đang nóng nha, dưới đây là một số dịch vụ tìm kiếm, dĩ nhiên trong thời gian tới chúng ta sẽ chứng kiến thêm các dịch vụ tìm kiếm khác nữa.

Thứ Tư, 14 tháng 11, 2007

Điên 3

sư cả bầy kéo nhau đi niệm phật
sãi nằm không vắt yếm ở cửa thiền
mấy quan bà đương đội lễ nịnh tiên
quen thói nguýt, miệng than phiền: của nợ!

Thứ Tư, 7 tháng 11, 2007

BTree - Vài dòng code

Cài đặt BTree ở mức đơn giản, nhanh. Nó hỗ trợ 3 phương thức cơ bản insert (add or update), contains (kiểm tra có hay không), delete (xóa dữ liệu).

Chủ Nhật, 21 tháng 10, 2007

suy và nghĩ

Một tuần nữa trôi qua, công việc bị trễ so với kế hoạch nhưng những gì làm được đã tương đối thỏa mãn cho bản thân và tạo niềm hứng khởi cho những đồng nghiệp. Nếu như làm được, chỉ vài tháng nữa, tụi mình sẽ trình làng một ứng dụng mà theo sếp thì chỉ nên dùng một từ "choáng".

Thứ Ba, 16 tháng 10, 2007

VietSpider build 10 - Tiếp

Tôi mất quá nhiều thời gian để có những thay đổi bước ngoặt ở phần mềm con cưng này.

Thứ Tư, 10 tháng 10, 2007

Tầm mắt thu

Vươn tầm mắt, đẩy cái nhìn lên cao vút thăm thẳm xanh một quầng vô vọng. Thu, nhẹ nhàng lướt đi qua góc phố già. Hà nội mùa này, thoang thoảng hương hoa sữa chứ không rực lá vàng bay. Tôi lang thang những gót chân đạp vào sỏi đá trơ buồn dưới lớp bụi thời gian. Cũng gió, cũng nắng, cũng trời cao mây trắng rong chơi nhưng cái cảm giác mùa thu không còn xốn xang như lúc ở quê nhà.

Thứ Ba, 2 tháng 10, 2007

Có gì mới ở VietSpider build 10

Được đầu tư thời gian và phát triển nghiêm túc, VietSpider 3 build 10 sẽ là phiên bản cực mạnh dành cho khai thác thông tin.

Thứ Sáu, 28 tháng 9, 2007

Điên 2

những phú ông đứng dạy đời kệch cỡm
những đầm già đú đởn học làm tây
trát phấn son, tô vẽ mặt thêm dày
vai u bắp vắt hai dây đỏng đảnh

Thứ Bảy, 22 tháng 9, 2007

Dịch chuyển mô thức nguồn mở

Tháng 3/2007 tại Seminar về Số hoá tài liệu Hán Nôm của Viện Thông tin KHXH, GS. Ngô Thanh Nhàn, Đại học New York đã giới thiệu bài viết "Open Source Paradigm Shift" của Tim O'Reilly, Giám đốc điều hành Công ty O'Reilly Media (Mỹ). Bài viết đầy đủ đang tải trên website của Viện KHXHTT. Xem tại đây.

Thứ Sáu, 21 tháng 9, 2007

Mê mô!

Nắng nhạt màu, hệch hệch trong một chút gió thu lay động những không gian u tịch. Đâu đó trong một mớ mơn man, ùa về tiềm thức những buổi chiều vàng ong óng nét thơ ngây. Trên vầng vô vọng, tôi ngước nhìn những khoảng không thăm thẳm cõi những yên bình.


Thứ Ba, 11 tháng 9, 2007

VietSpider: Làm sạch dữ liệu sau bóc tách.

Bạn có thể khai báo một số thông số để chương trình thực hiện việc làm sạch nội dung bóc tách được trước khi lưu vào cơ sở dữ liệu.

Thứ Hai, 3 tháng 9, 2007

Bình mới rượu cũ ở Java 6.

Phần giới thiệu này sẽ lướt qua một vài điểm mới trong các cơ bản như java.lang, java.util, java.io.

Thứ Sáu, 31 tháng 8, 2007

Biện minh

Cuộc sống đa chiều và phức tạp, tôi thấy mình cô đơn giữa lúc phố xá nghìn nghịt người. Mới hôm qua thôi, bon chen và đua tranh đã khiến tôi phải rời bỏ công việc mình yêu thích. Hôm nay, tôi lạ lẫm dò dẫm một một tương lai gần, chầm chậm nhìn qua lăng kính u buồn của tuổi hăm tư đầy hoài niệm.

Thứ Hai, 27 tháng 8, 2007

Thứ Tư, 22 tháng 8, 2007

Phương đông huyền bí

Dịu dàng một nét hiền, đôi mắt bẵng vào khoảng không nỗi nhớ nhung xa lạ. Mùa thu đến, vẫn chưa có lá vàng rụng ngoài kia, vẫn chưa có cái heo may mơn trớn. Gió, đánh lặng bóng đêm kéo lạnh lùng đắp lên tấm thân trần trụi. Sương, lùa về từ phương đông huyền bí leo vào qua khung của nhỏ rồi òa vào giấc mơ hoang. Nơi ấy tôi cô đơn.

Thứ Hai, 20 tháng 8, 2007

mất việc

Cuối cùng thì mình cũng rời khỏi eXo sau hơn 2 năm ở công ty. Mình đã thực sự trưởng thành rất nhiều từ eXo. Các sếp đấu đá nhau, đúng ra thì việc này cũng không liên quan nhiều đến mình nhưng một môi trường làm việc như vậy thì không nên ở lại. Mình đã chọn phương án ra đi, nhẹ nhàng và thanh thản, ít ra là không còn cảm giác bất ổn và ngột ngạt như những ngày qua ở công ty. Kể thì cũng hơi tiếc, phát triển WebOS - với vai trò một Team Leader và cũng gần như một PM thực thụ, đến ngày gần hoàn thành thì mình phải ra đi. Cuộc sống là vậy, có những thứ không thể lường trước hết được, ra đi không một sự chuẩn bị và cũng chưa có kế hoạch gì cho tương lai.

Thứ Tư, 15 tháng 8, 2007

Thứ Năm, 9 tháng 8, 2007

điên

đời công danh khệnh khạng ôm bụng phệ
đĩ dạng chân phóng uế cõi văn đàn
trẻ lọt lòng chống nạnh chẹp miệng than
ôi thiên hạ vô vàn cơn lạ lẫm

Thứ Hai, 6 tháng 8, 2007

VietSpider-HTMLParser-Build 6

Release VietSpider-HTMLParser-Build 6, fix một số lỗi. Bản phát hành bao gồm một số chương trình nhỏ về Crawler và Download Website. Download tại http://sourceforge.net/project/showfiles.php?group_id=158429

Thứ Hai, 23 tháng 7, 2007

Sự cạnh tranh

Cuộc sống là vậy, có những thứ kỳ vọng ở tương lai nhưng sẽ đội nón ra đi một cách nhẹ nhàng, có thể tôi lại phải bước vào một cuộc hành trình tìm kiếm mới mà lý do không phải ở bản thân mình.

Thứ Bảy, 21 tháng 7, 2007

Sự tồi tệ của HTML

Vâng đúng là như vậy, HTML là một ngôn ngữ đánh dấu quá lỏng lẻo, sự lỏng lẻo thể hiện sự tích cự với tính cẩu thả nhưng lại là tai họa cho sự tỉ mỉ và chặt chẽ.

Thứ Năm, 12 tháng 7, 2007

Ngột

Tóc tai rối, kẻ bâng quơ dật dờ ngõ phố như một cái xác không hồn vật vờ giữa mưa gió bụi đời. Cuộc sống là để tồn tại, để hiện hữu, để đợi chờ cõi chết cô đơn. Hôm nay, nắng vẫn nóng và nỗi buồn thành từng giọt điểm trên vừng trán, nhìn cuộc đời ảm đạm trong từng thớ huyênh hoang.

Thứ Tư, 11 tháng 7, 2007

Tản văn: Nhiều chữ đem bán lấy tiền mua danh.

Thì cũng như người ta, cầm cái bằng cử nhân chữ nghĩa, nhưng thời buổi nổ đôm đốp, con người chẳng có chút danh mà khoe mẽ thì coi như vứt đi cuộc nửa đời, thế là em cầm bút ... viết.

Thứ Tư, 4 tháng 7, 2007

Con đường từ Portal tới WebOS: Cái nhìn vào ý tưởng.

Rảnh rang ngồi suy nghĩ lung tung về cái này, em thấy nó có cả một tham vọng là xây dựng một hệ điều hành tổ hợp các giải pháp cho một cộng đồng thông qua Web đấy chứ. Kể thì cũng khủng gớm nhưng thành công mỹ mãn thì chưa thấy, bởi lẽ người ta cứ làm trừu tượng hóa vấn đề. Phải làm sao cho lập trình viên dễ quản trị và phát triển Portlet nhất thì tốt hơn.

Thứ Tư, 27 tháng 6, 2007

HTTP Server với Java 6

Biết tỏng Java có cài một HTTP Server (chắc là phục phụ cho WebService) nên ngồi ăn cắp code của nó cho VietSpider để Java 5 có thể chạy được. Tranh thủ viết một ví dụ post lên đây.

Thứ Tư, 6 tháng 6, 2007

Mưa

Ướt mềm đôi mắt nhân gian, mây chở về che khuất những gì chói chang nhất lúc đương hè. Cái nóng mùa hạ, chợt bừng lên đôi má, chảy dài thành từng giọt mặn mòi trên khuôn mặt ngơ ngác giữa phố đông.

Thứ Bảy, 2 tháng 6, 2007

Jibx with HashMap and String Array

Trong các mô hình hoặc giải pháp Object Mapping thì Jibx đứng vào hàng top với runtime performance và thư viện khá nhỏ nhẹ. Do không dùng reflection để thực hiện việc mapping nên mặc dù hơi khó dùng như cái giá phải trả thì cũng đáng. Dưới đây là 2 mở rộng để làm việc với String array và HashMap với .

Thứ Tư, 30 tháng 5, 2007

Download một website

Download các gói DownloadSite.zip và HTMLParser2_build5.zip, sau đó sử dụng các thư viện commons-codec-1.3.jar, commons-httpclient-3.1-alpha1.jar, commons-logging-1.0.4.jar,vsHTMLParser.jar để chạy chương trình.
khả năng bao gồm:
- Cho phép load theo mức - độ sâu nào đó của website.
- load các tài nguyên gồm ảnh, css, js,...
- giữ nguyên các liên kết.
chương trình vẫn còn ở mức đơn giản, chưa xử lý được các scripting để lấy các link vào sâu hơn, hy vọng ai đó có thể code thêm, tốc độ quét cũng rất nhanh.