Spaces:

dayannex
/

anonimizador_V2

Sleeping

App Files Files Community

dayannex commited on Sep 15, 2024

Commit

01084ee

1 Parent(s): 71b3cce

verificador de coincidencias token originales vs anonimizados

Browse files

Files changed (1) hide show

app.py +36 -9

app.py CHANGED Viewed

@@ -127,7 +127,27 @@ class Model:
               a = out_json(t.replace('##','').replace('Ġ','').replace('Ċ',''),pre_tokens[i].replace('▁',''))
               list.append(a)
            i=i+1
-       return MyEncoder().encode(list)
    def salida_texto( self,tokens,pre_tokens):
         new_labels = []
         current_word = None
@@ -306,16 +326,23 @@ class Model:
         if etiquetas:
                 out2 = self.salida_texto(new_tokens,new_identificadores)#solo identificadores
         else:
-                out2 = self.salida_texto(new_tokens,self.reemplazo_fake(new_identificadores))
         return (
             out1,
-            str(out2)
         )
 class ModeloDataset:
@@ -666,8 +693,8 @@ def procesar(texto,archivo, etiquetas):
     if len(texto)>0:
         print('text')
         model.identificacion_idioma(texto[:1700])
-        labels, textoProcesado= model.predict(etiquetas)
-        return model.idioma + "/" + model.categoria_texto,labels, textoProcesado,gr.Dataframe(),gr.File()
     else:
         if archivo.name.split(".")[1]=="csv":
@@ -687,7 +714,7 @@ def procesar(texto,archivo, etiquetas):
                 print('out csv:',out)
                 df_new[item] = modelo.unir_array(out)
-            return modelo.idioma,"","", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
         else:
             print('json')
@@ -711,9 +738,9 @@ def procesar(texto,archivo, etiquetas):
                     print('un')
-                return modelo.idioma,"","", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
-demo = gr.Interface(fn=procesar,inputs=["text",gr.File(), "checkbox"] , outputs=[gr.Label(label="idioma/categoría"),gr.Textbox(label="etiquetas"),gr.Textbox(label="texto procesado"),gr.Dataframe(label="Datos procesados en dataframe",interactive=False),gr.Textbox(label="datos csv")])
        #
 demo.launch(share=True)

               a = out_json(t.replace('##','').replace('Ġ','').replace('Ċ',''),pre_tokens[i].replace('▁',''))
               list.append(a)
            i=i+1
+       return MyEncoder().encode(list)
+   def tokens_identificados(self,tokens,pre_tokens):
+       list=[]
+       i=0
+       for t in tokens:
+           if pre_tokens[i]!='O':
+              a = t.replace('##','').replace('Ġ','').replace('Ċ','')
+              list.append(a)
+           i=i+1
+       return list
+   def metricas_anonimizacion(self,_f,t,id):
+       i=0
+       coincidencia=0
+       Z=['O']
+       _fake_filter= [x for x in _f if x not in Z]
+       new_tokens_filter= self.tokens_identificados(t,id)
+       for token in new_tokens_filter:
+          if token==_fake_filter[i]:
+             coincidencia=coincidencia+1
+          i=i+1
+       return str(coincidencia) + "/" + str(len(_fake_filter))
    def salida_texto( self,tokens,pre_tokens):
         new_labels = []
         current_word = None
         if etiquetas:
                 out2 = self.salida_texto(new_tokens,new_identificadores)#solo identificadores
+                out3=""
+                coincidencia=""
         else:
+                #out2 = self.salida_texto(new_tokens,self.reemplazo_fake(new_identificadores))
+                _fake=self.reemplazo_fake(new_identificadores)
+                coincidencia=self.metricas_anonimizacion(_fake,new_tokens,new_identificadores)
+                out2 = self.salida_texto(new_tokens,_fake)
+                out3 = self.salida_json(_fake,new_identificadores)
         return (
             out1,
+            str(out2),
+            out3,
+            coincidencia
         )
 class ModeloDataset:
     if len(texto)>0:
         print('text')
         model.identificacion_idioma(texto[:1700])
+        labels, textoProcesado, labels_fake, coincidencia= model.predict(etiquetas)
+        return model.idioma + "/" + model.categoria_texto,labels, textoProcesado,gr.Dataframe(),gr.File(),labels_fake, coincidencia
     else:
         if archivo.name.split(".")[1]=="csv":
                 print('out csv:',out)
                 df_new[item] = modelo.unir_array(out)
+            return modelo.idioma,"","", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False),"",""
         else:
             print('json')
                     print('un')
+                return modelo.idioma,"","", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False),"",""
+demo = gr.Interface(fn=procesar,inputs=["text",gr.File(), "checkbox"] , outputs=[gr.Label(label="idioma/categoría"),gr.Textbox(label="etiquetas"),gr.Textbox(label="texto procesado"),gr.Dataframe(label="Datos procesados en dataframe",interactive=False),gr.Textbox(label="datos csv"),gr.Textbox(label="labels anonimizados"),gr.Label(label="coincidencia tokens originales")])
        #
 demo.launch(share=True)