Thứ Ba, 14 tháng 11, 2006

Phiên bản 4 của VietSpider có gì mới ?

Sau gần 4 tháng phát triển từ build 3 lên build 4, quãng thời gian đầu tư nghiêm túc cuối cùng cũng thu lại những kết quả cho bản thân mình, VietSpider 3 build đã hoàn thành mặc dù nó trễ hơn so với kế hoạch khá nhiều. Build 4 thực sự có những trưởng thành hơn rất nhiều cả về kinh nghiệm lập trình lẫn tư duy. Download.

3 nhận xét:

  1. Parser mới : nghiêm túc và có thành quả, phiên bản HTMLParser mới được đập đi làm lại hoàn toàn, với sự hỗ trợ của annotation, generic, enum,... cùng một loạt những tính toán có tuân thủ quy tắc parser theo HTML DTD, bản parser mới có khả năng parse tốt hơn rất nhiều, ổn định và chặt chẽ. Dĩ nhiên, để trưởng thành thực sự thì vẫn còn nhiều việc phải làm, hy vọng đến VietSpider 4 thì Parser của mình sẽ ngon.

    Crawler Service trong đó được hỗ trợ bởi một pool executor khá ngon, kinh nghiệp trên reflection, concurrent, cùng chain pattern đã giúp mình xây dựng một crawl linh hoạt mặc dù trước mắt thì bộ nhớ sẽ có thể sẽ tốn kém hơn nhiều. Crawl Service đã ổn định, ở những phiên phải sau có chăng là những cải tiến nhỏ.

    Support Database : Chuyển từ mô hình dữ liệu dạng folder-file sang db, VietSpider đang hướng dần tới các ứng dụng doanh nghiệp, support db bất kỳ với việc chỉnh sửa lại các sql scripting trong xml config, connect trực tiếp đến db. Chuyển sang dạng file sẽ giúp Vietspider quản lý dữ liệu tốt hơn và đơn giản hơn rất nhiều đồng thời có khả năng xây dựng thêm nhiều function mới .Tuy nhiên cái giá phải trả có thể là tốc độ và bộ nhớ.

    Mining: Tính năng cao cấp được giới thiệu ở VietSpider, khả năng tìm kiếm dữ liệu và đánh chỉ mục, sau đó tìm kiếm các nội dung liên quan và liên kết dữ liệu lại với nhau. Như vậy nội dung lấy về sẽ là một kho dữ liệu có liên hệ. Mining trong VietSpider build 4 mới chỉ là khởi điểm ban đầu trong việc xây dựng tính năng này, dĩ nhiên ở những bản build sau sẽ cố gắng có những cải tiến mới tốt hơn mặc dù kết quả bây giờ cũng khá hài lòng.

    GUI : Tổ chức lại giao diện, tiêu chuẩn là thống nhất, đơn giản, không quá nhiều chức năng, khác với các phiên bản cũ, phiên bản này tập trung hết tất cả các cửa sổ lại vào một cửa sổ và trình bày chúng dưới dạng tab, dữ liệu giao tiếp qua một simple http server.

    Giới thiệu bản build 4: Giải pháp khai thác nội dung trên mạng, thực hiện việc bóc tách dữ liệu từ các nguồn thông tin. Vietspider cho phép người dùng tự định nghĩa một kênh khai thác trên giao diện người dùng, cấu hình cố gắng ở mức đơn giản nhất. Ngoài ra, khả năng tìm kiếm những nội dung liên quan lại với nhau, tổ chức xuất bản trực tiếp trên giao diện, trong đó có khả năng lần vết các chủ đề cũng như đề xuất những nội dung nổi bật nhất được thu thập trong ngày.

    Trả lờiXóa
  2. Sao link không download được vậy bạn? Check lại giúp mình nha. Nhân tiện cho mình hỏi có JRE cho VietSpider4 chưa vậy và bạn còn tiếp tục phát triển cho Joomla không vậy

    Trả lờiXóa
  3. Download tại http://sourceforge.net/project/showfiles.php?group_id=158429

    Hiện tại đã là phiên bản 13 hỗ trợ rất tốt Joomla, Drupal và các CMS khác.

    Trả lờiXóa

nhudinhthuan@gmail.com