Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU ỨNG DỤNG TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT CÓ XEM XÉT NGỮ NGHĨA"

Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là các cụm danh từ phổ biến được dùng để đặc trưng văn bản. Thuật toán tách từ, gán nhãn từ loại được sử dụng để rút trích các cụm danh từ. | TẠP CHÍ PHÁT TRIỂN KH CN TẬP 9 SÓ 2 -2006 NGHIÊN CỨU ỨNG DỤNG TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP VÀO BÀI TOÁN PHÂN LOẠI VAN bản tiếng việt có xEm xét nGữ nghĩa Đỗ Phúc Trung tâm Phát triển Công nghệ Thông tin ĐHQG-HCM Bài nhận ngày 25 tháng 08 năm 2005 hoàn chỉnh sửa chữa ngày 27 tháng 02 năm 2006 TÓMTĂT Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là các cụm danh từ phổ biến được dùng để đặc trưng văn bản. Thuật toán tách từ gán nhãn từ loại được sử dụng để rút trích các cụm danh từ. Thuật toán tập phổ biến và luật kết hợp được sử dụng để tạo đồ thị đồng hiện các từ trong ngữ cảnh nhất định nhằm xác lập nghĩa của từ trong văn bản và kết hợp với từ điển đồng nghĩa gần nghĩa để điều chỉnh thành phần của vector văn bản nhằm nâng cao khả năng phân lớp văn bản có xem xét ngữ nghĩa. Ngoài ra luật kết hợp có vế phải là các thuộc tính phân lớp sẽ được sử dụng để làm luật phân lớp. Chúng tôi đã thử nghiệm giải pháp đề xuất vào bài toán phân lớp các tóm tắt bài báo khoa học trong lĩnh vực CNTT tiếng Việt Từ Khoá Cụm danh từ Đồ thị đồng hiện Luật kết hợp Luật phân lớp Tập phổ biến 1. GIỚI THIỆU Với sự xuất hiện của Internet khối lượng thông tin chủ yếu và chiếm trên 80 vẫn là các thông tin văn bản. Các phương pháp phân loại văn bản trước đây đều dựa trên tiếp cận máy học mô hình xác suất cây quyết định qui nạp thuộc tính người láng giềng gần nhất và mới đây là phương pháp support vector machine 11 . Các thuật toán này thường tập trung vào bài toán phân làm 2 lớp và gặp khó khăn với khối lượng dữ liệu lớn. Trong bài báo này chúng tôi nghiên cứu dùng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản tiếng Việt gồm a Đặc trưng văn bản bao gồm tìm dãy từ phổ biến trong tập ngữ liệu văn bản và tạo đồ thị đồng hiện nhằm xác lập nghĩa của từ đặc trưng b Tạo luật phân lớp văn bản. Bài báo được tổ chức như sau 1 Giới thiệu 2 Bài .

Việt An 216 10 pdf

Upload

Không thể tạo bản xem trước, hãy bấm tải xuống

Tải xuống

TÀI LIỆU LIÊN QUAN

PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC - CÁCH TRÌNH BÀY MỘT BÀI BÁO KHOA HỌC

24 838 28

Hình thức trình bày bài báo cáo thực tập tốt nghiệp

19 731 28

Hướng dẫn trình bày, viết báo cáo và các phục lục

9 298 2

Báo cáo nghiên cứu khoa học: "Nghiên cứu thực trạng giống lợn địa phương (Lợn Cỏ) đang nuôi tại các huyện miền núi tỉnh Quảng Nam"

9 392 2

Bài giảng Kỹ năng trình bày báo cáo và thuyết trình

14 359 11

Hướng dẫn trình bày báo cáo thực tập chuyên ngành

14 210 2

Báo cáo khoa học: " Áp dụng thủ tục phân tích trong kiểm toán báo cáo tài chính"

8 311 3

Báo cáo nghiên cứu khoa học: "Vị thế và đặc trưng thi pháp của thể loại lục bát trong thơ mới 1932 - 1945"

10 374 1

Báo cáo nghiên cứu khoa học: "Nghiên cứu điều kiện chăn nuôi và sức sản xuất của giống lợn địa phương (Lợn Cỏ) đang nuôi tại các huyện miền núi tỉnh Quảng Nam."

11 203 0

Báo cáo nghiên cứu khoa học: " ĐÁNH GIÁ CHẤT LƯỢNG DNCH VỤ HƯỚNG DẪN DU LNCH CHƯƠNG TRÌNH 'HÀNH TRÌNH DI SẢN MIỀN TRUNG’"

8 324 2

TÀI LIỆU XEM NHIỀU

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 40876 2412

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 24938 248

31 Câu hỏi ôn tập môn Chủ nghĩa xã hội khoa học

25 24483 4281

Tiểu luận: Vai trò của Nguyễn Ái Quốc đối với việc thành lập Đảng Cộng sản Việt Nam

16 20060 2846

Tiểu luận Tình huống xử lý sai phạm trong thanh toán công tác phí lưu động

20 19492 1543

100 câu hỏi trắc nghiệm Triết học Mác-Lênin kèm đáp án

14 19294 2967

Bảng biến đổi Laplace và biến đổi Z

1 19265 616

Ebook Ôn luyện tiếng Anh 9 có đáp án: Phần 2 - Mai Lan Hương, Hà Thanh Uyên

37 16161 2958

Đề thi và Đáp án môn Tiếng Việt thực hành - ĐH SPKT TP.HCM

3 15976 330

Sự so sánh văn bản văn học và tác phẩm văn học

1 14577 133

TỪ KHÓA LIÊN QUAN

TÀI LIỆU MỚI ĐĂNG

Luận văn Thạc sĩ Khoa học môi trường: Đánh giá ảnh hưởng của chất thải đến sức khỏe người lao động và đề xuất giải pháp giảm thiểu cho ngành gỗ tại Bình Dương

134 75 1 29-05-2024

Chính sách phát triển nông nghiệp thông minh thích ứng với biến đổi khí hậu (CSA) tại Việt Nam

28 403 5 29-05-2024

Luận văn Thạc sĩ Luật học: Hợp đồng chuyển nhượng quyền sử dụng đất - Những vấn đề lý luận và thực tiễn

102 164 8 29-05-2024

Luận văn Thạc sĩ Tài chính ngân hàng: Nghiên cứu mối quan hệ giữa trách nhiệm xã hội và hành vi tránh thuế của doanh nghiệp

111 85 2 29-05-2024

Khóa luận tốt nghiệp Kinh tế: Quản lý nhà nước về phát triển nông nghiệp trên địa bàn huyện Thái Thụy tỉnh Thái Bình

68 492 3 29-05-2024

Epigenetic prediction of complex traits and death

11 68 1 29-05-2024

Đề thi giữa học kì 1 môn Tiếng Anh lớp 8 năm 2021-2022 - Trường THCS Nguyễn Trãi

5 100 4 29-05-2024

Luận văn Thạc sĩ Kỹ thuật điện tử: Nghiên cứu thực thi bộ điều khiển robot công nghiệp trên nền tảng FPGA

87 90 2 29-05-2024

Tóm tắt luận văn Thạc sĩ Kinh tế Phát triển: Một số giải pháp phát triển kinh tế huyện Thăng Bình, tỉnh Quảng Nam

12 70 4 29-05-2024

Đánh giá hiện trạng chất lượng nước mùa khô trên hệ thống thủy lợi Bắc Hưng Hải và khả năng xử lý ứng dụng công nghệ xanh

13 350 2 29-05-2024

Giáo trình Lắp đặt máy bơm nước, bảo dưỡng trạm bơm (Nghề: Điện nước - Trung cấp nghề) - Trường Cao đẳng nghề Xây dựng

121 153 12 29-05-2024

Đề thi học kì 2 môn Tiếng Anh lớp 10 năm 2020-2021 có đáp án - Trường THPT Lạc Long Quân (Chương trình 10 năm)

3 77 1 29-05-2024

Đề khảo sát chất lượng môn Toán năm 2020-2021 - Sở GD&ĐT Nghệ An - Mã đề 123

5 258 1 29-05-2024

Giáo trình Công tác xã hội với người cao tuổi (Nghề: Công tác xã hội - Trung cấp) - Trường Trung cấp Tháp Mười

48 1 1 29-05-2024

Đề thi chọn học sinh giỏi cấp tỉnh môn Toán lớp 9 năm 2021-2022 có đáp án - Sở GD&ĐT Bắc Ninh

6 219 2 29-05-2024

Văn học và y học nhìn từ mối quan hệ liên ngành

9 104 2 29-05-2024

Ebook Structural competency for architects: Part 2

146 2 1 29-05-2024

Bài giảng Nguyên lý marketing - Chương 2: Môi trường marketing (Trường ĐH Tài chính - Marketing)

29 107 10 29-05-2024

Bài giảng Sức bền vật liệu 2 - Trường ĐH Kỹ thuật công nghệ

80 76 1 29-05-2024

Giáo án môn Vật lí lớp 10 sách Kết nối tri thức: Bài 27

7 327 2 29-05-2024

TÀI LIỆU HOT

Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”

3 24938 248

Thiết kế kế hoạch bài học môn Toán theo định hướng phát triển năng lực học sinh

13 40876 2412

CẬP NHẬT KINH TẾ VĨ MÔ VIỆT NAM 6 tháng đầu năm 2020

3 2774 81

Sách trắng Doanh nghiệp Việt Nam năm 2020

580 5091 363

Việt Nam 2035 hướng tới thịnh vượng, sáng tạo, công bằng và dân chủ

584 3345 100

BÀI GIẢNG DỰNG HÌNH SKETCHUP 2020 BIÊN SOẠN : GV.KTS PHAN THỨC

62 6666 1

GIÁO TRÌNH TIẾNG ANH ENG BREAKING

171 5699 719

Quản trị khủng hoảng trong quan hệ công chúng

2 3134 78

Báo cáo thực tập chuyên ngành: Nghiên cứu, thiết kế, mô phỏng robot công nghiệp

51 4461 200

Đề tài “ Cân đối ngân sách nhà nước- thực trạng và hướng hoàn thiện”

53 4747 189