Nội dung của bài viết này được trình bày theo bố cục như sau: Phần I giới thiệu chung. Phần II giới thiệu các công trình liên quan đến đánh giá độ khó văn bản. Phần III trình bày các phương pháp chúng tôi đề xuất. Phần IV nói về cách thu thập ngữ liệu. Phần V là thực nghiệm và kết quả. Cuối cùng phần VI kết luận lại vấn đề và hướng đi trong tương lai. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR TP. HCM ngày 23-24 12 2021 DOI ĐÁNH GIÁ ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT SỬ DỤNG MÔ HÌNH TIỀN HUẤN LUYỆN KẾT HỢP VỚI CÁC ĐẶC TRƯNG NGÔN NGỮ Lương An Vinh1 2 3 Phan Thanh Quan1 2 Huỳnh Trọng Hùng1 2 1 Trung tâm Ngôn ngữ học Tính toán Trường Đại học Khoa học Tự nhiên Đại học Quốc gia TP. Hồ Chí Minh 2 Đại học Quốc gia TP. Hồ Chí Minh 3 Đại học Công nghệ Sài Gòn anvinhluong@ 1712686@ 1712471@ TÓM TẮT Đánh giá độ khó của văn bản là bài toán xác định mức độ phù hợp của văn bản với khả năng đọc hiểu của một nhóm đối tượng người đọc. Vì vậy việc xác định được độ khó của văn bản có ảnh hưởng lớn đến việc lựa chọn các văn bản phù hợp với lứa tuổi trình độ của độc giả cũng như việc soạn thảo các bài giảng trong sách giáo khoa sao cho phù hợp trình độ học sinh. Đã có nhiều nghiên cứu đạt thành tựu về đánh giá độ khó của văn bản trong tiếng Anh và một số ngôn ngữ phổ biến khác. Tuy nhiên trong tiếng Việt việc nghiên cứu độ khó văn bản còn mới mẻ và chủ yếu tập trung vào việc tìm hiểu những đặc trưng ngôn ngữ bằng các mô hình học máy thống kê. Trong nghiên cứu này chúng tôi muốn áp dụng một phương pháp tiếp cận mới đó là sử dụng mô hình học sâu tiền huấn luyện kết hợp với một số đặc trưng ngôn ngữ tiếng Việt. Mô hình học sâu chúng tôi dùng là BERT và RoBERTa sử dụng mô hình tiền huấn luyện có sẵn của PhoBERT kết quả thu được sẽ được dùng để tiếp tục huấn luyện. Các đặc trưng ngôn ngữ như số lượng câu từ ký tự độ dài trung bình của câu tỷ lệ từ địa phương sẽ được thêm vào mô hình trước khi cho ra kết quả phân lớp. Thực nghiệm đánh giá trên bộ ngữ liệu được thu thập từ sách giáo khoa Văn học Sinh học và Giáo dục công dân của học sinh Việt Nam. Kết quả của phương pháp mới cho thấy mô hình dự đoán đạt độ chính xác cao và có sự cải tiến so với các mô hình học máy thống kê. Tuy nhiên việc thêm vào các đặc trưng ngôn