Spaces:

YanaGabelev
/

LingoSpace

Sleeping

App Files Files Community

YanaGabelev commited on Jun 22

Commit

117bc9e

verified ·

1 Parent(s): 0d8f631

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -4

app.py CHANGED Viewed

@@ -98,6 +98,10 @@ class RobustLanguageDetector:
             # Post-process common misdetections
             if ld_lang == 'mk' and self.is_cyrillic_russian(text):
                 return 'ru', 'RU', "langdetect_corrected"
             return ld_lang, ld_lang.upper(), "langdetect"
         except Exception as e:
@@ -109,27 +113,42 @@ class RobustLanguageDetector:
         """
         text_lower = text.lower()
         # Common Russian patterns
         russian_patterns = [
             'привет', 'как дела', 'спасибо', 'пожалуйста', 'здравствуйте',
-            'до свидания', 'добро пожаловать', 'извините', 'хорошо'
         ]
         # Common Hebrew patterns
         hebrew_patterns = [
-            'שלום', 'איך', 'תודה', 'בבקשה', 'סליחה', 'טוב', 'רע', 'כן', 'לא'
         ]
         # Common Spanish patterns
         spanish_patterns = [
-            'hola', 'como estas', 'gracias', 'por favor', 'perdon', 'bueno', 'malo'
         ]
         # Common French patterns
         french_patterns = [
-            'bonjour', 'comment allez-vous', 'merci', 's\'il vous plaît', 'pardon'
         ]
         for pattern in russian_patterns:
             if pattern in text_lower:
                 return 'ru'
@@ -148,6 +167,31 @@ class RobustLanguageDetector:
         return None
     def is_cyrillic_russian(self, text):
         """
         Check if Cyrillic text is likely Russian based on character patterns

             # Post-process common misdetections
             if ld_lang == 'mk' and self.is_cyrillic_russian(text):
                 return 'ru', 'RU', "langdetect_corrected"
+            elif ld_lang == 'so' and self.is_likely_english(text):
+                return 'en', 'EN', "langdetect_corrected"
+            elif ld_lang in ['no', 'da', 'sv'] and self.is_likely_english(text):
+                return 'en', 'EN', "langdetect_corrected"
             return ld_lang, ld_lang.upper(), "langdetect"
         except Exception as e:
         """
         text_lower = text.lower()
+        # Common English patterns
+        english_patterns = [
+            'hello', 'how are you', 'thank you', 'please', 'sorry', 'good', 'bad',
+            'yes', 'no', 'today', 'tomorrow', 'yesterday', 'morning', 'evening',
+            'welcome', 'goodbye', 'nice to meet you', 'see you later'
+        ]
         # Common Russian patterns
         russian_patterns = [
             'привет', 'как дела', 'спасибо', 'пожалуйста', 'здравствуйте',
+            'до свидания', 'добро пожаловать', 'извините', 'хорошо', 'сегодня'
         ]
         # Common Hebrew patterns
         hebrew_patterns = [
+            'שלום', 'איך', 'תודה', 'בבקשה', 'סליחה', 'טוב', 'רע', 'כן', 'לא',
+            'בוקר טוב', 'לילה טוב', 'מה שלומך', 'נעים להכיר'
         ]
         # Common Spanish patterns
         spanish_patterns = [
+            'hola', 'como estas', 'como estás', 'gracias', 'por favor', 'perdon',
+            'perdón', 'bueno', 'malo', 'buenos dias', 'buenas noches'
         ]
         # Common French patterns
         french_patterns = [
+            'bonjour', 'comment allez-vous', 'comment ça va', 'merci',
+            's\'il vous plaît', 'pardon', 'au revoir', 'bonne nuit'
         ]
+        # Check English first (most common in examples)
+        for pattern in english_patterns:
+            if pattern in text_lower:
+                return 'en'
         for pattern in russian_patterns:
             if pattern in text_lower:
                 return 'ru'
         return None
+    def is_likely_english(self, text):
+        """
+        Check if text is likely English based on common English words
+        """
+        text_lower = text.lower()
+        english_indicators = [
+            'the', 'and', 'you', 'are', 'how', 'what', 'where', 'when', 'why',
+            'hello', 'today', 'tomorrow', 'good', 'thank', 'please', 'welcome'
+        ]
+        # Check if text contains common English words
+        word_count = 0
+        english_word_count = 0
+        for word in text_lower.split():
+            word_count += 1
+            if word in english_indicators:
+                english_word_count += 1
+        # If more than 30% are English words, likely English
+        if word_count > 0:
+            return (english_word_count / word_count) > 0.3
+        return False
     def is_cyrillic_russian(self, text):
         """
         Check if Cyrillic text is likely Russian based on character patterns