Hôm qua, cộng đồng mạng vừa có dịp đón chào một công cụ mới, hứa hẹn sẽ tống tiễn vị trí bá chủ của Google trong lĩnh vực tìm kiếm trực tuyến. Powerset, tên của công cụ này, sẽ không dựa vào công nghệ từ khoá thông thường mà được thiết kế để "thấu hiểu" ý nghĩa của các trang web.

Đâu là sự khác biệt?

Bộ máy tìm kiếm của Powerset hứa hẹn sẽ thay đổi một cách căn bản những mong đợi của người sử dụng đối với một công cụ, khi theo ý tưởng thiết kế, sẽ đề xuât một trải nghiệm thông minh và hiệu quả hơn.

Tuy nhiên, phiên bản beta của Powerset trong khi cho ra những kết quả ấn tượng thì phạm vi và số lượng chỉ mục liệt kê vẫn còn hạn chế, để lại những câu hỏi chưa có lời đáp về khả năng kì diệu của nó, liệu có thể đạt tới một mức độ phong phú như bộ máy tìm kiếm dựa trên từ khoá của Google hay không ?

"Chúng tôi đang thay đổi cách thức thông tin được tìm kiếm bằng cách thực hiện phép phân tích kĩ lưỡng hơn trên những trang chúng tôi liệt kê kết quả." Scott Prevost, giám đốc sản phẩm của Powerset cho biết.

Những bộ máy tìm kiếm dựa vào từ khoá coi các trang của mỗi website là những "cái túi" chứa đựng từ, sẽ liệt kê chỉ mục nội dung của chúng mà không quan tâm tới việc kết hợp chúng tạo ra ý nghĩa gì. Trong khi đó, bộ máy của Powerset áp dụng công nghệ phát triển trong phòng thí nghiệm dưới sự bảo trợ của viện Xerox PARC, tạo ra một đại diện ngữ nghĩa bằng cách phân tích cú pháp của mỗi câu và tóm lược ý nghĩa của nó. "Nghĩa là những gì chúng tôi liệt kê chỉ mục," ông nói.

Ảnh
Ba sáng lập viên của Powerset (từ trái sang: Steve Newcomb, Lorenzo Thione và Barney Pell)

Mới nên yếu ?

Trong một cuộc phỏng vấn vào tháng 10 với IDG News Service, Marissa Mayer, phó trưởng ban phụ trách các sản phẩm tìm kiếm và trải nghiệm người dùng của Google thừa nhận, một bộ máy tìm kiếm cần và sẽ vượt qua công cụ tìm kiếm dựa vào từ khoá về mức độ tin cậy trong thời gian chẳng xa.

"Mọi người có thể đặt câu hỏi và chúng tôi sẽ hiểu ý của họ, hoặc là họ có thể nói về mọi thứ ở mức độ khái niệm. Chúng tôi thấy rất nhiều câu hỏi dựa trên khái niệm, không chỉ về các từ sẽ xuất hiện trên các trang như thế nào mà còn giống như là "nó là cái gì thế". Nhiều người sẽ dùng các trang web thuộc về ngữ nghĩa giống như là câu trả lời khả dĩ cho vấn đề đặt ra đó." Cô nói.

Nhưng Marissa Mayer cũng thêm rằng, bộ máy tìm kiếm của Google hoạt động một cách thông minh đối với khối lượng dữ liệu quá khổng lồ mà nó "ngấu nghiến". "Với khối lượng dữ liệu khổng lồ, rút cục hẳn bạn cũng có thể thấy mọi thứ mà dường như chúng sáng sủa cho dù chúng được thống kê thông qua một cách thức còn lủng củng." Chẳng hạn, khi truy vấn từ "GM" thì bộ máy sẽ hiểu là ""General Motors" nhưng nến như truy vấn từ "GM foods," thì kết quả sẽ là "genetically-modified foods.". Bởi vì chúng tôi xử lí quá nhiều dữ liệu, chúng tôi có quá nhiều ngữ cảnh xung quanh mọi thứ giống như các từ cấu tạo bằng các chữ đầu tiên của một nhóm từ. Đột nhiên, bộ máy tìm kiếm dường như trở nên thông minh, giống như nó thành công trong việc hiểu được ngữ nghĩa, nhưng thực ra, nó vẫn chưa thể nào", cô giải thích.

Hiện tại chỉ mục của Powerset là rất giới hạn, chỉ bao gồm khoảng một triệu trang từ Wikipedia và Freebase với công nghệ của Metaweb, một dữ liệu thông tin được cấu trúc hoá dựa vào nền tảng web. Tuy nhiên Prevost, giám đốc sản phẩm của Powerset hứa hẹn trong tháng tới sau khi phát hành, chỉ mục của Powerset sẽ tăng vọt và cuối cùng sẽ đối trọng được so với mức của Google, Yahoo hay các đối thủ khác.

Hãy cùng quan sát bộ máy tìm kiếm đầy ấn tượng mới này cùng những lời hứa từ nhà phát hành. Thay vì chỉ thấy được khoảng 10 link màu xanh cách ngôn trong kết quả tìm kiếm, Powerset có thể làm được nhiều hơn thế, giống như thu lượm một bộ tập hợp các sự kiện liên quan tới thông tin truy vấn, cũng như có một bản lược thuật thông tin tìm thấy. Nó còn có thể cung cấp những câu trả lời trực tiếp tương ứng với những câu hỏi thực sự.

Bởi lẽ, nội dung từ Wikipedia và Freebase có thể được xuất bản lại nên Powerset có thể giữ lại những gì có liên quan sau khi một người sử dụng click vào toàn bộ kết quả tìm kiếm, bằng cách cung cấp một bản phác thảo chỉ hướng thông qua trang và bản tóm lược của các sự kiện. Điều này Powerset không thể thực hiện được với các nội dung có bản quyền, nhưng công ty sẽ tìm kiếm đối tác với các nhà xuất bản để được cấp quyền. "Chúng tôi nghĩ nó sẽ rơi vào một cảnh huống nơi các nhà xuất bản sẽ muốn nội dung của họ được đối xử một cách tốt nhất bằng cách thức này.". Prevost nói.

Ảnh
Một trang kết quả tìm kiếm từ Powerset

Phương thức kinh doanh

Ở thời điểm hiện tại, Powerset phải chứng minh bộ máy tìm kiếm của mình có thể tìm ra và hiển thị được so với một chỉ mục của hàng tỉ trong hàng tỉ các trang web đang phục vụ hàng triệu người sử dụng đầu cuối hiện nay. "Rõ ràng, có một nguồn tiềm lực ở đây để xây dựng một cái bẫy tốt hơn, nó sẽ xuất hiện. Nhưng để mang những gì Powerset đã làm được với Wikipedia tới toàn bộ mạng Internet thì dường như còn đó vô vàn thách thức đòi hỏi thời gian và rất nhiều những nguồn lực khác nữa." Greg Sterling thuộc Sterling Market Intelligence cho biết.

Prevost thừa nhận, mặc dù mỗi lần hiển thị chỉ mục, lấy lại thông tin từ các trang không cho thấy bất kì một thách thức đặc biệt nào, nhưng để làm được việc này với một quá trình kĩ lưỡng thì tốn rất nhiều nguồn lực điện toán.

Powerset cũng vấp phải những thách thức với một công ty công nghệ mới chập chững, giống như vấn đề nguồn lợi tạo sinh và vượt qua những khó khăn đi kèm đang lớn dần.

Phương thức kinh doanh của Powerset dựa vào quảng cáo, mặc dù bộ máy tìm kiếm này sẽ không khởi đầu cùng với nó. "Có rất nhiều thứ thú vị chúng tôi có thể làm trong lĩnh vực quảng cáo bằng cách chiếu xuất ý nghĩa của các truy vấn tới thông tin quảng cáo có liên quan, nhưng đó là một câu chuyện dài lâu về sau." Prevost cho biết.

Hãy dùng thử http://www.powerset.com/

Văn Vượng (theo PCworld)



Bình luận

  • TTCN (3)
Hải Nam  30903

Một năm trôi qua và Powerset chưa có cải tiến nào đáng kể. 10 triệu trang web vẫn còn quá nhỏ, chưa chắc Powerset vượt qua được Wikia trước khi so đấu với Google. Đúng như Mayer nói "Với khối lượng dữ liệu khổng lồ, rút cục hẳn bạn cũng có thể thấy mọi thứ mà dường như chúng sáng sủa cho dù chúng được thống kê thông qua một cách thức còn lủng củng." - cách thức đánh chỉ mục theo ngữ nghĩa chưa thực sự chứng tỏ được ưu thế của mình.

Vượng Nguyễn  3466

Công thức hiện tại của tớ: Firefox-->Tìm kiếm với Google sẵn có trên trình duyệt-->Wikipedia để nhận kết quả!

Minh Đạt  823

Cái tên Powerset không gây ấn tượng cho lắm.
Có thể xảy ra nhiều kịch bản. Nhưng một mình Powerset tự vươn lên chắc là không nổi.