Spaces:

CultriX
/

RAG-Scraper

Running

App Files Files Community

RAG-Scraper / app.py

CultriX

feat: Overhaul WebUI, add PDF/Text export, use Poetry in Docker

b295bd5 3 months ago

raw

history blame

17.4 kB

	from __future__ import annotations
	import gradio as gr
	import subprocess
	import os
	import re
	import tempfile
	import json
	import csv
	from typing import Iterable # Added for Theme
	from rag_scraper.scraper import Scraper
	from rag_scraper.converter import Converter
	from rag_scraper.link_extractor import LinkExtractor, LinkType
	from rag_scraper.utils import URLUtils
	from gradio.themes.base import Base # Added for Theme
	from gradio.themes.utils import colors, fonts, sizes # Added for Theme
	import markdown_pdf # Added for PDF conversion

	# --- Custom Theme Definition ---
	class Seafoam(Base):
	def __init__(
	self,
	*,
	primary_hue: colors.Color \| str = colors.teal,
	secondary_hue: colors.Color \| str = colors.cyan,
	neutral_hue: colors.Color \| str = colors.gray,
	spacing_size: sizes.Size \| str = sizes.spacing_md,
	radius_size: sizes.Size \| str = sizes.radius_md,
	text_size: sizes.Size \| str = sizes.text_md, # Adjusted from lg for a more professional feel
	font: fonts.Font
	\| str
	\| Iterable[fonts.Font \| str] = (
	fonts.GoogleFont("Inter"), # Modern sans-serif
	"ui-sans-serif",
	"system-ui",
	"sans-serif",
	),
	font_mono: fonts.Font
	\| str
	\| Iterable[fonts.Font \| str] = (
	fonts.GoogleFont("IBM Plex Mono"),
	"ui-monospace",
	"monospace",
	),
	):
	super().__init__(
	primary_hue=primary_hue,
	secondary_hue=secondary_hue,
	neutral_hue=neutral_hue,
	spacing_size=spacing_size,
	radius_size=radius_size,
	text_size=text_size,
	font=font,
	font_mono=font_mono,
	)
	# Dark Mode First
	super().set(
	# Core Colors
	body_background_fill_dark="black", # True black
	body_text_color_dark=colors.gray50,
	block_background_fill_dark=colors.gray_900,
	block_border_color_dark=colors.gray_700,
	block_label_background_fill_dark=colors.gray_800,
	block_label_text_color_dark=colors.gray50,
	input_background_fill_dark=colors.gray_800,
	input_border_color_dark=colors.gray_600,
	input_text_color_dark=colors.gray_50,
	button_primary_background_fill_dark=colors.teal_600,
	button_primary_background_fill_hover_dark=colors.teal_500,
	button_primary_text_color_dark="white",
	button_secondary_background_fill_dark=colors.gray_700,
	button_secondary_background_fill_hover_dark=colors.gray_600,
	button_secondary_text_color_dark="white",
	slider_color_dark=colors.teal_500,
	# Light Mode
	body_background_fill="white",
	body_text_color=colors.gray_800,
	block_background_fill=colors.gray_50,
	block_border_color=colors.gray_300,
	block_label_background_fill=colors.gray50,
	block_label_text_color=colors.gray_700,
	input_background_fill=colors.white,
	input_border_color=colors.gray_300,
	input_text_color=colors.gray_900,
	button_primary_background_fill=colors.teal_500,
	button_primary_background_fill_hover=colors.teal_600,
	button_primary_text_color="white",
	button_secondary_background_fill=colors.gray50,
	button_secondary_background_fill_hover=colors.gray_300,
	button_secondary_text_color=colors.gray_800,
	slider_color=colors.teal_500,
	# General
	block_title_text_weight="600",
	block_shadow="*shadow_drop_lg",
	button_shadow="*shadow_drop"
	)

	seafoam_theme = Seafoam()

	def is_github_repo(url_or_id):
	"""Check if the input is a GitHub repository URL or ID."""
	if "github.com" in url_or_id:
	return True
	if re.match(r'^[a-zA-Z0-9_.-]+/[a-zA-Z0-9_.-]+$', url_or_id):
	return True
	return False

	def check_repomix_installed():
	"""Check if Repomix is installed."""
	try:
	result = subprocess.run(["repomix", "--version"],
	capture_output=True, text=True, check=False)
	return result.returncode == 0
	except Exception:
	return False

	def run_repomix(repo_url_or_id, progress=gr.Progress(track_tqdm=True)):
	"""Run Repomix on the GitHub repository and return the content."""
	progress(0, desc="Starting Repomix processing...")
	try:
	with tempfile.TemporaryDirectory() as temp_dir:
	output_file_name = "repomix-output.md"
	output_file_path = os.path.join(temp_dir, output_file_name)

	if '/' in repo_url_or_id and not repo_url_or_id.startswith('http'):
	repo_url = f"https://github.com/{repo_url_or_id}"
	else:
	repo_url = repo_url_or_id

	progress(0.2, desc=f"Running Repomix on {repo_url}...")
	cmd = [
	"repomix",
	"--remote", repo_url,
	"--output", output_file_path,
	"--style", "markdown",
	"--compress"
	]

	process = subprocess.run(cmd, capture_output=True, text=True, check=False, encoding='utf-8')
	progress(0.8, desc="Repomix command executed.")

	if process.returncode != 0:
	error_details = f"Return Code: {process.returncode}\nStderr: {process.stderr}\nStdout: {process.stdout}"
	return f"Error running Repomix:\n{error_details}", None

	if os.path.exists(output_file_path):
	with open(output_file_path, 'r', encoding='utf-8') as f:
	content = f.read()
	progress(1, desc="Repomix output processed.")
	return content, output_file_path
	else:
	error_details = f"Return Code: {process.returncode}\nStderr: {process.stderr}\nStdout: {process.stdout}"
	return f"Error: Repomix did not generate an output file at '{output_file_path}'.\nRepomix Output:\n{error_details}", None

	except Exception as e:
	progress(1, desc="Error during Repomix processing.")
	return f"Error processing GitHub repository: {str(e)}", None

	def scrape_and_convert_website(url, depth, progress=gr.Progress(track_tqdm=True)):
	"""Fetch HTML, extract links, convert to Markdown."""
	progress(0, desc=f"Starting web scrape for {url}...")
	visited_urls = set()
	all_markdown_content = ""

	def recursive_scrape(current_url, current_depth, total_links_estimate=1, link_index=0):
	if current_url in visited_urls or current_depth < 0:
	return ""

	visited_urls.add(current_url)

	try:
	progress_val = link_index / total_links_estimate if total_links_estimate > 0 else 0
	progress(progress_val, desc=f"Scraping: {current_url} (Depth: {depth - current_depth})")
	html_content = Scraper.fetch_html(current_url)
	except Exception as e:
	return f"Error fetching {current_url}: {str(e)}\n"

	markdown_content = f"## Extracted from: {current_url}\n\n"
	markdown_content += Converter.html_to_markdown(
	html=html_content,
	base_url=current_url,
	parser_features='html.parser',
	ignore_links=True
	)

	page_content = markdown_content + "\n\n"

	if current_depth > 0:
	try:
	links = LinkExtractor.scrape_url(current_url, link_type=LinkType.INTERNAL)
	valid_links = [
	link for link in links
	if URLUtils.is_internal(link, current_url) and link not in visited_urls
	]

	num_links = len(valid_links)
	for i, link_url in enumerate(valid_links):
	page_content += recursive_scrape(link_url, current_depth - 1, num_links, i)
	except Exception as e:
	page_content += f"Error extracting links from {current_url}: {str(e)}\n"
	return page_content

	all_markdown_content = recursive_scrape(url, depth)
	progress(1, desc="Web scraping complete.")

	with tempfile.NamedTemporaryFile(mode="w+", delete=False, suffix=".md", encoding="utf-8") as tmp_file:
	tmp_file.write(all_markdown_content)
	return all_markdown_content, tmp_file.name

	def convert_to_json(markdown_content, source_url_or_id):
	data = {"source": source_url_or_id, "content": markdown_content}
	return json.dumps(data, indent=2)

	def convert_to_csv(markdown_content, source_url_or_id):
	output = tempfile.NamedTemporaryFile(mode='w+', delete=False, newline='', suffix=".csv", encoding="utf-8")
	writer = csv.writer(output)
	writer.writerow(["source", "content"])
	writer.writerow([source_url_or_id, markdown_content])
	output.close()
	return output.name

	def save_output_to_file(content, output_format, source_url_or_id):
	"""Saves content to a temporary file based on format and returns its path."""
	processed_content = content # Default for Markdown and Text

	if output_format == "JSON":
	suffix = ".json"
	processed_content = convert_to_json(content, source_url_or_id)
	elif output_format == "CSV":
	# convert_to_csv returns a path directly
	return convert_to_csv(content, source_url_or_id)
	elif output_format == "Text":
	suffix = ".txt"
	elif output_format == "PDF":
	suffix = ".pdf"
	# PDF conversion happens differently, creates file directly
	pdf_output_path = ""
	try:
	with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_pdf_file:
	pdf_output_path = tmp_pdf_file.name

	# Basic PDF conversion from Markdown string
	# You might need to install a library like `markdown-pdf` or `WeasyPrint`
	# Example using markdown_pdf (ensure it's installed: pip install markdown-pdf)
	md_pdf = markdown_pdf.MarkdownPdf(toc_level=2)
	# md_pdf.meta["css"] = "your_custom_css_path.css" # Optional: for styling
	md_pdf.convert_from_string(content, pdf_output_path)
	return pdf_output_path
	except Exception as e:
	# Fallback: save as markdown with .pdf.md suffix if PDF fails
	print(f"PDF conversion failed: {e}. Saving as Markdown instead.")
	suffix = ".pdf.md" # Indicate it's markdown intended for PDF
	# No processed_content change needed, it's already markdown
	else: # Default to Markdown
	suffix = ".md"

	# For formats that don't return early (JSON, Text, Markdown, PDF fallback)
	with tempfile.NamedTemporaryFile(mode="w+", delete=False, suffix=suffix, encoding="utf-8") as tmp_file:
	tmp_file.write(processed_content)
	return tmp_file.name

	def process_input_updated(url_or_id, source_type, depth, output_format_selection, progress=gr.Progress(track_tqdm=True)):
	progress(0, desc="Initializing...")
	raw_content = ""
	error_message = ""
	output_file_path = None

	if source_type == "GitHub Repository":
	if not check_repomix_installed():
	error_message = "Repomix is not installed or not accessible. Please ensure it's installed globally."
	return error_message, None, None
	raw_content, _ = run_repomix(url_or_id, progress=progress)
	if "Error" in raw_content:
	error_message = raw_content
	raw_content = ""
	elif source_type == "Webpage":
	raw_content, _ = scrape_and_convert_website(url_or_id, depth, progress=progress)
	if "Error" in raw_content:
	error_message = raw_content
	raw_content = ""
	else:
	error_message = "Invalid source type selected."
	return error_message, None, None

	if error_message:
	return error_message, None, None

	try:
	progress(0.9, desc=f"Converting to {output_format_selection}...")
	output_file_path = save_output_to_file(raw_content, output_format_selection, url_or_id)

	preview_content = raw_content # Default for Markdown, Text
	if output_format_selection == "JSON":
	preview_content = convert_to_json(raw_content, url_or_id)
	elif output_format_selection == "CSV" and output_file_path:
	try:
	with open(output_file_path, 'r', encoding='utf-8') as f_csv:
	csv_preview_lines = [next(f_csv) for _ in range(5)]
	preview_content = "".join(csv_preview_lines)
	if not preview_content: preview_content = "[CSV content is empty or very short]"
	except StopIteration:
	with open(output_file_path, 'r', encoding='utf-8') as f_csv:
	preview_content = f_csv.read()
	if not preview_content: preview_content = "[CSV content is empty]"
	except Exception as e_csv_preview:
	preview_content = f"[Error reading CSV for preview: {str(e_csv_preview)}]"
	elif output_format_selection == "CSV" and not output_file_path:
	preview_content = "[CSV file path not available for preview]"
	elif output_format_selection == "PDF":
	preview_content = f"[PDF generated. Download to view: {os.path.basename(output_file_path if output_file_path else 'file.pdf')}]"
	if "Saving as Markdown instead" in (output_file_path or ""): # Check if PDF failed
	preview_content = raw_content + f"\n\n[Note: PDF conversion failed, showing Markdown. File saved as .pdf.md]"


	progress(1, desc="Processing complete.")
	return f"Successfully processed: {url_or_id}", preview_content, output_file_path
	except Exception as e:
	return f"Error during file conversion/saving: {str(e)}", raw_content, None

	with gr.Blocks(theme=seafoam_theme) as iface: # Applied custom theme
	gr.Markdown("# RAG-Ready Content Scraper")
	gr.Markdown(
	"Scrape webpage content or GitHub repositories to generate RAG-ready datasets."
	)

	with gr.Row():
	with gr.Column(scale=2):
	url_input = gr.Textbox(
	label="Enter URL or GitHub Repository ID",
	placeholder="e.g., https://example.com OR username/repo"
	)
	source_type_input = gr.Radio(
	choices=["Webpage", "GitHub Repository"],
	value="Webpage",
	label="Select Source Type"
	)
	depth_input = gr.Slider(
	minimum=0, maximum=3, step=1, value=0,
	label="Scraping Depth (for Webpages)",
	info="0: Only main page. Ignored for GitHub repos."
	)
	output_format_input = gr.Dropdown(
	choices=["Markdown", "JSON", "CSV", "Text", "PDF"], # Added Text and PDF
	value="Markdown",
	label="Select Output Format"
	)
	submit_button = gr.Button("Process Content", variant="primary")

	with gr.Column(scale=3):
	status_output = gr.Textbox(label="Status", interactive=False)
	preview_output = gr.Code(label="Preview Content", language="markdown", interactive=False)
	file_download_output = gr.File(label="Download Processed File", interactive=False)

	# Removed progress_bar = gr.Progress(track_tqdm=True) as it's passed directly

	gr.Examples(
	examples=[
	["https://gradio.app/docs/js", "Webpage", 1, "Markdown"],
	["gradio-app/gradio", "GitHub Repository", 0, "Text"], # Changed to Text
	["https://en.wikipedia.org/wiki/Retrieval-augmented_generation", "Webpage", 0, "JSON"],
	],
	inputs=[url_input, source_type_input, depth_input, output_format_input],
	outputs=[status_output, preview_output, file_download_output],
	fn=process_input_updated,
	cache_examples=False
	)

	with gr.Accordion("How it Works & More Info", open=False):
	gr.Markdown(
	"""
	Webpage Scraping:
	1. Enter a full URL (e.g., `https://example.com`).
	2. Select "Webpage" as the source type.
	3. Set the desired scraping depth.
	4. Choose your output format.

	GitHub Repository Processing:
	1. Enter a GitHub repository URL or ID (e.g., `username/repo`).
	2. Select "GitHub Repository". (Depth is ignored).
	3. Choose your output format. Uses RepoMix.

	Output Formats: Markdown, JSON, CSV, Text, PDF.

	Note: PDF generation requires `markdown-pdf` library.
	This app is designed for Docker/HuggingFace Spaces.

	[View Source Code on HuggingFace Spaces](https://huggingface.co/spaces/CultriX/RAG-Scraper)
	"""
	)

	submit_button.click(
	fn=process_input_updated,
	inputs=[url_input, source_type_input, depth_input, output_format_input],
	outputs=[status_output, preview_output, file_download_output],
	)

	if __name__ == "__main__":
	iface.launch()