oberbics commited on
Commit
ba6db4d
·
verified ·
1 Parent(s): 6b0fde6

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +38 -3
app.py CHANGED
@@ -300,13 +300,48 @@ h2 {
300
  with gr.Blocks(css=custom_css, title="Daten Strukturieren und Analysieren") as demo:
301
  gr.HTML("""
302
  <div style="text-align: center; margin-bottom: 1rem">
303
- <h1>Historical Data Analysis Tools</h1>
304
  <p style="font-size: 1.1rem; margin-top: -10px;">Dies ist eine Demoversion für die Extrahierung und Visualisierung von Daten</p>
305
  </div>
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
306
  """)
307
 
308
  with gr.Tabs() as tabs:
309
- with gr.TabItem("🔍 Text Extraction"):
310
  gr.HTML("""
311
  <div class="info-box">
312
  <h3 style="margin-top: 0;">Extrahieren Sie strukturierte Daten aus unstrukturiertem Text</h3>
@@ -342,7 +377,7 @@ with gr.Blocks(css=custom_css, title="Daten Strukturieren und Analysieren") as d
342
  gr.HTML("""
343
  <div class="info-box">
344
  <h3 style="margin-top: 0;">Visualisieren Sie Daten auf Karten</h3>
345
- <p>Lade eine Excel-Tabelle hoch und erstelle eine interaktive Karte.</p>
346
  </div>
347
  """)
348
 
 
300
  with gr.Blocks(css=custom_css, title="Daten Strukturieren und Analysieren") as demo:
301
  gr.HTML("""
302
  <div style="text-align: center; margin-bottom: 1rem">
303
+ <h1>Daten Strukturieren und Analysieren</h1>
304
  <p style="font-size: 1.1rem; margin-top: -10px;">Dies ist eine Demoversion für die Extrahierung und Visualisierung von Daten</p>
305
  </div>
306
+ <p style="font-size: 1.1rem; margin-top: -10px;">In dieser Unterrichtseinheit befassen wir uns mit einer innovativen Methode zur Strukturierung unstrukturierter historischer Texte. Im Kern verbindet unsere Anwendung die systematische Strukturierung von Daten mit einem spezialisierten Sprachmodell, das auf der Question-Answering-Methode basiert.
307
+ Methodik: Vom unstrukturierten Text zur strukturierten Information
308
+ Die grundlegende Herausforderung bei der Arbeit mit historischen Quellen ist, dass relevante Informationen in langen Fließtexten eingebettet sind und manuell mühsam extrahiert werden müssen. Unser Ansatz automatisiert diesen Prozess.
309
+ Wie funktioniert die Informationsextraktion?
310
+
311
+ Template-Definition: Sie definieren ein JSON-Template mit den Informationstypen, die Sie extrahieren möchten:
312
+ json{"earthquake location": "", "dateline location": ""}
313
+
314
+ Question-Answering-Methode: Das Sprachmodell interpretiert jedes leere Feld als implizite Frage:
315
+
316
+ "earthquake location": "" → "Wo ist das Erdbeben passiert?"
317
+ "dateline location": "" → "Von wo wird berichtet?"
318
+
319
+
320
+ Sprachmodell-Verarbeitung: Das NuExtract-1.5 Modell (ein Sequence-to-Sequence Transformer) analysiert den Text vollständig und identifiziert die relevanten Informationen für jedes Template-Feld.
321
+ Strukturierte Ausgabe: Das Modell füllt das Template mit den extrahierten Informationen:
322
+ json{"earthquake location": "Japan, Yokohama", "dateline location": "Tokio"}
323
+
324
+
325
+ Technische Funktionsweise des Sprachmodells
326
+ Das Modell verarbeitet den Input in diesem Format:
327
+ <|input|>
328
+ ### Template:
329
+ {"earthquake location": "", "dateline location": ""}
330
+ ### Text:
331
+ Neues Erdbeben in Japan. Aus Tokio wird berichtet, daß in Yokohama bei einem Erdbeben sechs Personen getötet...
332
+ <|output|>
333
+ Intern erfolgt die Verarbeitung in mehreren Schritten:
334
+
335
+ Tokenisierung: Der Text wird in bearbeitbare Einheiten zerlegt.
336
+ Kontextuelle Analyse: Der Transformer-Mechanismus ermöglicht die Analyse von Beziehungen zwischen allen Textteilen gleichzeitig.
337
+ Selektive Aufmerksamkeit: Das Modell fokussiert sich auf Textpassagen, die Antworten auf die impliziten Fragen enthalten könnten.
338
+ Generierung: Die erkannten Informationen werden in das vorgegebene Template eingefügt.
339
+
340
+ Im Gegensatz zu regelbasierten Systemen oder klassischen Named Entity Recognition-Ansätzen versteht dieses Modell den semantischen Zusammenhang und kann flexibel auf verschiedene Extraktionsaufgaben angepasst werden.</p>
341
  """)
342
 
343
  with gr.Tabs() as tabs:
344
+ with gr.TabItem("🔍 Text Extrahierung"):
345
  gr.HTML("""
346
  <div class="info-box">
347
  <h3 style="margin-top: 0;">Extrahieren Sie strukturierte Daten aus unstrukturiertem Text</h3>
 
377
  gr.HTML("""
378
  <div class="info-box">
379
  <h3 style="margin-top: 0;">Visualisieren Sie Daten auf Karten</h3>
380
+ <p>Laden Sie eine Excel-Tabelle hoch und erstelle eine interaktive Karte.</p>
381
  </div>
382
  """)
383