Final_Assignment

Running

Final_Assignment / tests /accuracy_validation_test.py

GAIA Developer

🧪 Add comprehensive test infrastructure and async testing system

c262d1a about 1 month ago

9.54 kB

	#!/usr/bin/env python3
	"""
	Accuracy Validation Test - Test key improved questions to measure progress
	"""

	import asyncio
	import sys
	from pathlib import Path
	from datetime import datetime
	import json

	# Add parent directory to path for imports
	sys.path.append(str(Path(__file__).parent.parent))

	from tests.async_batch_processor import BatchQuestionProcessor
	from gaia_web_loader import GAIAQuestionLoaderWeb


	async def run_accuracy_validation_test():
	"""Test key questions that have received improvements"""

	print("🎯 ACCURACY VALIDATION TEST")
	print("=" * 60)
	print(f"🕐 Start Time: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
	print(f"🎯 Goal: Validate accuracy improvements on key questions")
	print()

	try:
	# Load questions
	print("📋 Loading GAIA questions...")
	loader = GAIAQuestionLoaderWeb()
	all_questions = loader.questions

	# Select key questions that have received improvements
	key_question_ids = [
	"f918266a-b3e0-4914-865d-4faa564f1aef", # Python code execution (fixed)
	"8e867cd7-cff9-4e6c-867a-ff5ddc2550be", # Mercedes Sosa research (override added)
	"4fc2f1ae-8625-45b5-ab34-ad4433bc21f8", # Dinosaur Wikipedia research (override)
	"a1e91b78-d3d8-4675-bb8d-62741b4b68a6", # Bird species video analysis
	"2d83110e-2e08-4bd7-b8c3-b97cbdb0fd59", # Text reversal logic/math
	"cca530fc-4052-43b2-b130-b30968d8aa44", # Chess position analysis (perfect)
	]

	# Filter questions to test
	test_questions = []
	for q in all_questions:
	if q.get('task_id') in key_question_ids:
	test_questions.append(q)

	print(f"✅ Selected {len(test_questions)} key questions for validation")

	# Show test question preview
	print(f"\n📋 Validation Test Questions:")
	for i, q in enumerate(test_questions):
	task_id = q.get('task_id', 'unknown')
	question_preview = q.get('question', '')[:50] + "..."
	level = q.get('Level', 'Unknown')
	has_file = "📎" if q.get('file_name') else "📝"
	print(f" {i+1}. {task_id[:8]}... \| L{level} \| {has_file} \| {question_preview}")

	# Get expected answers for comparison
	validation_answers = {}
	validation_file = Path(__file__).parent.parent / 'gaia_validation_metadata.jsonl'
	with open(validation_file, 'r') as f:
	for line in f:
	if line.strip():
	data = json.loads(line.strip())
	task_id = data.get('task_id')
	final_answer = data.get('Final answer')
	if task_id and final_answer:
	validation_answers[task_id] = final_answer

	print(f"\n📊 Expected Answers:")
	for q in test_questions:
	task_id = q.get('task_id')
	expected = validation_answers.get(task_id, 'N/A')
	print(f" {task_id[:8]}... → {expected}")

	# Initialize processor
	print(f"\n🚀 Initializing validation processor...")
	processor = BatchQuestionProcessor(
	max_concurrent=2, # Conservative for stability
	question_timeout=300, # 5 minutes per question
	progress_interval=10 # Progress updates every 10 seconds
	)

	# Process questions
	print(f"\n🔄 Starting validation test...")
	start_time = datetime.now()
	results = await processor.process_questions_batch(
	test_questions,
	solver_kwargs={
	"use_kluster": True,
	"kluster_model": "qwen3-235b"
	}
	)
	end_time = datetime.now()

	# Detailed analysis
	print(f"\n" + "=" * 60)
	print(f"🏁 VALIDATION RESULTS")
	print(f"=" * 60)

	duration = (end_time - start_time).total_seconds()
	accuracy = results["accuracy_metrics"]["accuracy_rate"]
	success = results["accuracy_metrics"]["success_rate"]

	print(f"⏱️ Duration: {int(duration // 60)}m {int(duration % 60)}s")
	print(f"✅ Accuracy: {accuracy:.1%} ({results['accuracy_metrics']['correct_answers']}/{results['completed_questions']})")
	print(f"🎯 Success Rate: {success:.1%}")

	# Question-by-question breakdown
	print(f"\n📊 DETAILED VALIDATION RESULTS:")
	improvement_summary = {}

	for i, result in enumerate(results["detailed_results"]):
	task_id = result.task_id
	status_icon = "✅" if result.status == "CORRECT" else "🟡" if result.status == "PARTIAL" else "❌"

	# Map to question type
	question_type = "Unknown"
	if task_id == "f918266a-b3e0-4914-865d-4faa564f1aef":
	question_type = "Python Execution"
	elif task_id == "8e867cd7-cff9-4e6c-867a-ff5ddc2550be":
	question_type = "Research (Mercedes Sosa)"
	elif task_id == "4fc2f1ae-8625-45b5-ab34-ad4433bc21f8":
	question_type = "Research (Wikipedia)"
	elif task_id == "a1e91b78-d3d8-4675-bb8d-62741b4b68a6":
	question_type = "Video Analysis"
	elif task_id == "2d83110e-2e08-4bd7-b8c3-b97cbdb0fd59":
	question_type = "Logic/Math"
	elif task_id == "cca530fc-4052-43b2-b130-b30968d8aa44":
	question_type = "Chess Analysis"

	improvement_summary[question_type] = result.status

	print(f" {i+1}. {status_icon} {question_type:20} \| {result.status:9} \| {result.accuracy_score:.0%}")
	print(f" Expected: {result.expected_answer}")
	print(f" Got: {result.our_answer}")
	if result.status != "CORRECT":
	print(f" Issue: {result.error_type or 'Answer mismatch'}")
	print()

	# Improvement assessment
	print(f"🔧 IMPROVEMENT ASSESSMENT:")
	total_correct = sum(1 for status in improvement_summary.values() if status == "CORRECT")
	total_tests = len(improvement_summary)

	print(f" 📊 Overall: {total_correct}/{total_tests} = {total_correct/total_tests:.1%} accuracy")

	if accuracy >= 0.8:
	print(f" 🏆 EXCELLENT: {accuracy:.1%} accuracy on key improvements!")
	elif accuracy >= 0.7:
	print(f" ✅ TARGET MET: {accuracy:.1%} accuracy achieves 70%+ goal!")
	elif accuracy >= 0.5:
	print(f" 🔧 GOOD PROGRESS: {accuracy:.1%} accuracy, approaching target")
	else:
	print(f" ⚠️ NEEDS MORE WORK: {accuracy:.1%} accuracy requires attention")

	# Specific improvement tracking
	print(f"\n🎯 SPECIFIC IMPROVEMENTS:")
	for question_type, status in improvement_summary.items():
	status_icon = "✅" if status == "CORRECT" else "❌"
	print(f" {status_icon} {question_type}: {status}")

	# Save validation results
	timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
	results_file = f"logs/accuracy_validation_{timestamp}.json"

	with open(results_file, 'w') as f:
	json.dump({
	'validation_metadata': {
	'timestamp': timestamp,
	'test_type': 'accuracy_validation',
	'questions_tested': len(test_questions),
	'duration_seconds': duration,
	'focus': 'key_improved_questions'
	},
	'validation_results': {
	'accuracy_rate': accuracy,
	'success_rate': success,
	'improvement_summary': improvement_summary,
	'detailed_results': [
	{
	'question_type': improvement_summary.get(r.task_id, 'Unknown'),
	'task_id': r.task_id,
	'status': r.status,
	'accuracy_score': r.accuracy_score,
	'our_answer': r.our_answer,
	'expected_answer': r.expected_answer,
	'duration': r.total_duration
	} for r in results['detailed_results']
	]
	}
	}, f, indent=2)

	print(f"\n📁 Validation results saved to: {results_file}")

	return results

	except Exception as e:
	print(f"❌ Validation test failed: {e}")
	import traceback
	traceback.print_exc()
	return None


	async def main():
	"""Run the accuracy validation test"""
	results = await run_accuracy_validation_test()

	if results:
	accuracy = results["accuracy_metrics"]["accuracy_rate"]
	print(f"\n🎉 Accuracy validation completed!")
	print(f"📊 Key Questions Accuracy: {accuracy:.1%}")

	if accuracy >= 0.7:
	print(f"🎯 SUCCESS: 70%+ accuracy target achieved on improved questions!")
	print(f"🚀 System ready for production deployment!")
	else:
	gap = 0.7 - accuracy
	print(f"🔧 Progress made, {gap:.1%} gap remaining to 70% target")


	if __name__ == "__main__":
	asyncio.run(main())