import gradio as gr from transformers import AutoTokenizer, AutoModelForSeq2SeqLM import time # Load model and tokenizer def load_model(): tokenizer = AutoTokenizer.from_pretrained("VietAI/vit5-base-vietnews-summarization") model = AutoModelForSeq2SeqLM.from_pretrained("VietAI/vit5-base-vietnews-summarization") return tokenizer, model tokenizer, model = load_model() def summarize_text(text, max_length, min_length, num_beams): if not text.strip(): return "⚠️ Vui lòng nhập văn bản cần tóm tắt!", "", "" start_time = time.time() try: # Tokenize input input_ids = tokenizer.encode( "summarize: " + text, return_tensors="pt", max_length=512, truncation=True ) # Generate summary output_ids = model.generate( input_ids, max_length=max_length, min_length=min_length, length_penalty=2.0, num_beams=num_beams, early_stopping=True ) # Decode result summary = tokenizer.decode(output_ids[0], skip_special_tokens=True) end_time = time.time() processing_time = round(end_time - start_time, 2) # Calculate statistics original_words = len(text.split()) summary_words = len(summary.split()) compression_ratio = round((1 - summary_words / original_words) * 100, 1) stats = f""" 📊 **Thống kê:** - Văn bản gốc: {original_words} từ - Bản tóm tắt: {summary_words} từ - Tỷ lệ nén: {compression_ratio}% - Thời gian xử lý: {processing_time}s """ return summary, stats, "✅ Tóm tắt thành công!" except Exception as e: return f"❌ Có lỗi xảy ra: {str(e)}", "", "❌ Lỗi xử lý" # Sample texts sample_texts = { "Tin tức công nghệ": """Công nghệ trí tuệ nhân tạo (AI) đang phát triển với tốc độ chóng mặt và tạo ra những thay đổi sâu sắc trong nhiều lĩnh vực của đời sống. Từ y tế, giáo dục, giao thông đến tài chính, AI đang được ứng dụng rộng rãi để cải thiện hiệu quả và chất lượng dịch vụ. Trong lĩnh vực y tế, AI giúp chẩn đoán bệnh chính xác hơn thông qua phân tích hình ảnh y khoa và dữ liệu bệnh nhân. Các hệ thống AI có thể phát hiện ung thư sớm, dự đoán nguy cơ mắc bệnh và đề xuất phương án điều trị phù hợp. Tuy nhiên, sự phát triển nhanh chóng này cũng đặt ra nhiều thách thức về đạo đức, bảo mật thông tin và tác động đến thị trường lao động. Việc đảm bảo AI phát triển một cách có trách nhiệm và minh bạch là ưu tiên hàng đầu.""", "Tin tức kinh tế": """Nền kinh tế Việt Nam trong quý đầu năm 2024 ghi nhận nhiều tín hiệu tích cực với tốc độ tăng trưởng GDP đạt 6.14%, cao hơn so với cùng kỳ năm trước. Xuất khẩu tiếp tục là động lực chính thúc đẩy tăng trưởng, đặc biệt trong các ngành công nghiệp chế biến chế tạo và nông sản. Khu vực công nghiệp và xây dựng tăng 7.29%, trong đó công nghiệp chế biến, chế tạo tăng 7.99%. Khu vực dịch vụ phục hồi mạnh mẽ với mức tăng 6.93%, được thúc đẩy bởi du lịch và thương mại. Tuy nhiên, lạm phát vẫn là thách thức cần được kiểm soát chặt chẽ để đảm bảo ổn định kinh tế vĩ mô. Chính phủ đang thực hiện các biện pháp điều hành linh hoạt để duy trì tăng trưởng bền vững.""", "Tin tức giáo dục": """Bộ Giáo dục và Đào tạo vừa công bố kế hoạch đổi mới giáo dục toàn diện, tập trung vào phát triển năng lực và phẩm chất học sinh. Chương trình giáo dục mới nhấn mạnh việc giảm tải nội dung, tăng cường thực hành và ứng dụng kiến thức vào thực tế. Đặc biệt, việc tích hợp công nghệ thông tin vào giảng dạy được đẩy mạnh với việc trang bị thiết bị hiện đại cho các trường học. Giáo viên được đào tạo sử dụng các công cụ số để nâng cao chất lượng bài giảng. Bên cạnh đó, chương trình giáo dục hướng nghiệp được chú trọng để học sinh có định hướng rõ ràng về tương lai. Các trường đại học cũng liên kết chặt chẽ với doanh nghiệp để tạo cơ hội thực tập và việc làm cho sinh viên.""" } def load_sample(sample_name): return sample_texts.get(sample_name, "") # Custom CSS css = """ .gradio-container { font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif; } .main-header { text-align: center; background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); color: white; padding: 2rem; border-radius: 15px; margin-bottom: 2rem; box-shadow: 0 8px 32px rgba(0, 0, 0, 0.1); } .feature-box { background: linear-gradient(135deg, #f093fb 0%, #f5576c 100%); color: white; padding: 1.5rem; border-radius: 10px; margin: 1rem 0; box-shadow: 0 4px 15px rgba(0, 0, 0, 0.1); } .stats-box { background: #f8f9fa; border: 1px solid #dee2e6; border-radius: 8px; padding: 1rem; margin: 0.5rem 0; } footer { text-align: center; padding: 2rem; color: #6c757d; border-top: 1px solid #dee2e6; margin-top: 2rem; } """ # Create Gradio interface with gr.Blocks(css=css, title="Tóm tắt văn bản tiếng Việt", theme=gr.themes.Soft()) as app: # Header gr.HTML("""

📝 Tóm tắt văn bản tiếng Việt với AI

Powered by VietAI T5 Model

Công cụ tóm tắt văn bản tiếng Việt thông minh và chính xác

""") with gr.Row(): # Left column - Main content with gr.Column(scale=2): gr.Markdown("## ✍️ Nhập văn bản cần tóm tắt") # Sample text selector sample_dropdown = gr.Dropdown( choices=list(sample_texts.keys()), label="📚 Chọn văn bản mẫu (tùy chọn)", value=None ) # Text input text_input = gr.Textbox( label="📝 Văn bản đầu vào", placeholder="Nhập hoặc dán văn bản tiếng Việt cần tóm tắt vào đây...", lines=10, max_lines=15 ) # Load sample text sample_dropdown.change( fn=load_sample, inputs=sample_dropdown, outputs=text_input ) # Right column - Settings with gr.Column(scale=1): gr.Markdown("## ⚙️ Cài đặt tóm tắt") max_length = gr.Slider( minimum=50, maximum=300, value=150, step=10, label="📏 Độ dài tối đa" ) min_length = gr.Slider( minimum=20, maximum=100, value=40, step=5, label="📐 Độ dài tối thiểu" ) num_beams = gr.Dropdown( choices=[2, 4, 6, 8], value=4, label="🔍 Số beam search" ) # Model info gr.HTML("""

🤖 Thông tin Model

""") # Tips gr.HTML("""

💡 Mẹo sử dụng

""") # Summarize button summarize_btn = gr.Button("🔍 Tóm tắt văn bản", variant="primary", size="lg") # Output section gr.Markdown("## 📋 Kết quả") with gr.Row(): with gr.Column(scale=2): summary_output = gr.Textbox( label="✅ Bản tóm tắt", lines=5, max_lines=10, show_copy_button=True ) with gr.Column(scale=1): stats_output = gr.Markdown(label="📊 Thống kê") status_output = gr.Textbox(label="Trạng thái", visible=False) # Connect the summarize function summarize_btn.click( fn=summarize_text, inputs=[text_input, max_length, min_length, num_beams], outputs=[summary_output, stats_output, status_output] ) # Features section gr.HTML("""

🌟 Tính năng nổi bật

🎯 Độ chính xác cao

Mô hình VietAI T5 được huấn luyện chuyên biệt trên dữ liệu tiếng Việt

⚡ Xử lý nhanh

Tóm tắt văn bản dài trong vài giây với độ chính xác cao

🔧 Tùy chỉnh linh hoạt

Điều chỉnh độ dài và chất lượng tóm tắt theo nhu cầu

""") # Footer gr.HTML(""" """) # Launch the app if __name__ == "__main__": app.launch()