Cách đơn giản hóa thông tin trên các trang web để tiết kiệm thời gian?
Lướt internet là một thực tế rất phổ biến hiện nay, để có được thông tin về bất cứ điều gì chỉ cần một cú nhấp chuột. Tuy nhiên, thông tin chúng ta nhận được có thể không phải lúc nào cũng chính xác như những gì chúng ta muốn. Sau đó, chúng ta di chuột xung quanh đoạn văn dưới mỗi liên kết để hiểu nó thực sự là về cái gì. Những đoạn này chỉ là tóm tắt của bài viết chính. Có vô số bài báo, trang web, tin tức, blog, nghiên cứu và dữ liệu khác trên internet, và chắc chắn không thể tóm tắt thủ công từng bài viết. Và mỗi phút, nhiều thông tin mới được tải lên trên internet. Ví dụ, một trong những lợi ích dễ nhận ra là đưa ra một bản tóm tắt ngắn gọn về các bài báo dài, và rất nhiều trường hợp tương tự như vậy trên Internet.
Các công cụ tìm kiếm như Yahoo, Google và Bing sử dụng các công cụ để tóm tắt văn bản tự động cho tất cả các tài liệu dài. Tóm tắt về cơ bản là sủ dụng một thuật toán để chọn các câu quan trọng nhất từ tài liệu văn bản và trình bày chúng theo định dạng có cấu trúc và dễ đọc nhưng ngắn gọn hơn nhiều.
Các công cụ để tóm tắt văn bản tự động sử dụng hai phương pháp chính, đó là các phương pháp trích xuất và trừu tượng.
Phạm vi tóm tắt văn bản được phân loại theo loại theo đầu vào của nó, chẳng hạn như một tài liệu hoặc nhiều tài liệu, mục đích như chung chung, chi tiết, dựa trên truy vấn hoặc đầu ra (trừu tượng hoặc trích xuất).
Phương pháp trích xuất tóm tắt văn bản, chọn câu và cụm từ nguồn tài liệu cơ bản để tạo ra bản tóm tắt. Nó đòi hỏi các kỹ thuật khác nhau từ việc quyết định mức độ phù hợp của cụm từ so với nghĩa của nguồn.
Phương pháp trừu tượng tạo ra các câu và cụm từ hoàn toàn mới rút ra từ ý nghĩa tài liệu nguồn. Nó khó hơn và kết quả của nó thực tế hơn vì nó hay được chúng ta sử dụng. Phương pháp này chọn và nén nội dung nguồn, có thể bao gồm các từ không có trong tài liệu nguồn.
Phương pháp trích xuất được sử dụng rộng rãi hơn vì tính sẵn có và cách tiếp cận dễ dàng hơn. Tuy nhiên, phương pháp trừu tượng được coi là đưa ra các giải pháp phổ quát hơn cho vấn đề trừu tượng hóa.
Print versionSender