tUpdate data - transliterate_data - Data for Urdu<->Hindi transliteration
HTML git clone git://lumidify.org/transliterate_data.git
DIR Log
DIR Files
DIR Refs
DIR README
---
DIR commit 07318adb84185ff609559815e24d2d3388aa9f4e
DIR parent 291679581baea9ce0efe6479bdacccfed866a49e
HTML Author: lumidify <nobody@lumidify.org>
Date: Wed, 22 Apr 2020 13:08:40 +0200
Update data
Diffstat:
D ExplanationForAdditionalFilesInHin… | 12 ------------
M Notes | 14 ++++++--------
M README | 2 ++
D ThingsToKeepMind | 6 ------
M config.hi_ur | 62 ++++++++++++++++---------------
M config.ur_hi | 34 ++++++++++++++++---------------
D data/exceptions.ur_hi.txt | 19 -------------------
D data/exceptions1.hi_ur.txt | 21 ---------------------
D data/exceptions2.hi_ur.txt | 4 ----
A data/exceptions_beginword.hi_ur.txt | 22 ++++++++++++++++++++++
A data/exceptions_beginword_endword.… | 25 +++++++++++++++++++++++++
A data/exceptions_beginword_endword.… | 23 +++++++++++++++++++++++
D data/misc_beginword.hi_ur.txt | 2 --
M data/misc_beginword.ur_hi.txt | 2 ++
M data/misc_endword.txt | 6 ++++--
M data/nouns_adjectives/adjectivereg… | 2 ++
M data/nouns_adjectives/ahmasc.txt | 14 +++++++++++++-
M data/nouns_adjectives/amasc.txt | 9 ++++++++-
M data/nouns_adjectives/cfem.txt | 23 ++++++++++++++++++-----
M data/nouns_adjectives/cmasc.txt | 82 +++++++++++++++++++++++++------
M data/nouns_adjectives/ifem.txt | 20 ++++++++++++++------
M data/nouns_adjectives/imasc.txt | 12 ++++++++++++
R data/nouns_adjectives/ifemshort.tx… | 0
R data/nouns_adjectives/ifemshort_fo… | 0
M data/nouns_adjectives/irregular.txt | 299 +++++++++++++++++++++++++------
M data/nouns_adjectives/o_a_staysfem… | 2 ++
M data/nouns_adjectives/o_a_staysmas… | 1 +
M data/nouns_adjectives/u_staysfem.t… | 2 ++
M data/nouns_adjectives/u_staysmasc.… | 2 ++
M data/nouns_adjectives/ui_oi_ai_mas… | 1 +
M data/pairs_middle_e_o.txt | 2 ++
M data/special.hi_ur.txt | 25 ++++++++++++++++++++++++-
M data/special.ur_hi.txt | 6 ++----
M data/verbs/irregular.txt | 5 +----
M data/verbs/regular_consonant_endin… | 1 +
M data/verbs/regular_ending_in_a_o.t… | 5 +++++
36 files changed, 558 insertions(+), 209 deletions(-)
---
DIR diff --git a/ExplanationForAdditionalFilesInHindiUrduTransliteration b/ExplanationForAdditionalFilesInHindiUrduTransliteration
t@@ -1,12 +0,0 @@
-In the HindiToUrdu transliteration,the order of tables has been rearranged in the list and a new table 'pairs.hi_ur' has been added.
-
-One problem is the بے, which is converted to बे. When converting back, the program cannot recognize if it is a بے as in بےشک (बेशक)or بی as in بیٹا (बेटा).
-
-Therefore misc_beginword.hi_ur.txt containing the بے replacement has been shifted to after replacement of the group of tables comprising of adjective_nouns and verbs.
-
-However, now it unable to find words such as बेशक; although शक is in the nouns_adjectives/cmasc.txt file, it is not recognized because it begins with बे.
-
-Another problematic rule is the Persian Genetive े- (मुल्के-मिसर), which conflicts with word pairs containing this such as नवासे-नवासियाँ. These word pairs are regular inflections and do not contain a Persian Genetive, so in Urdu script the first word of the pair ends in ے + space and not ِ + space.
-
-Therefore word pairs conflicting with the Persian Genetive have been put into the new file 'pairs.hi_ur'.
-
DIR diff --git a/Notes b/Notes
t@@ -37,13 +37,13 @@ There are a number of further tables in order to cope with punctuation, exceptio
ignore: adds words that are ignored permanently,
punctuation: for conversion of punctuation.
-misc_beginword: word parts ("prefixes") at the beginning of word compounds
+misc_beginword.ur_hi: word parts ("prefixes") at the beginning of word compounds
misc_endword: word parts ("suffixes") at the end of word compounds
-special: special cases
-exceptions: sometimes it is useful to override the tables. This can be done by adding words to this table.
-exceptions1.hi_ur: for beginword
-exceptions2.hi_ur: for beginword endword
-pairs_middle_e_o: The Persian Genetive े- (eg मुल्के-मिसर) conflicts with word pairs containing this such as नवासे-नवासियाँ. These word pairs are regular inflections and do not contain a Persian Genetive, so in Urdu script the first word of the pair ends in ے + space and not ِ + space. Word pairs conflicting with the Persian Genetive have been put into the new file 'pairs.middle_e_o'.
+special: special cases (no beginword endword)
+exceptions_beginword_endword.ur_hi: override multiple choices for common words found in the preceding tables.
+exceptions_beginword.hi_ur: exceptions which need to replaced before the following match statements.
+exceptions_beginword_endword.hi_ur: override multiple choices for common words found in the preceding tables.
+pairs_middle_e_o: The Persian Genetive े- (eg मुल्के-मिसर) conflicts with word pairs containing this such as नवासे-नवासियाँ. These word pairs are regular inflections and do not contain a Persian Genetive, so in Urdu script the first word of the pair ends in ے + space and not ِ + space. Word pairs conflicting with the Persian Genetive have been put into the new file 'pairs.middle_e_o'. Word pairs with و at the end of the first word have also been placed here, eg دو ایک दो-एक, as these conflict with the rule regarding the copula و linking words in Urdu.
CAREFUL: If you add the wrong words to these tables, you can mess up the conversion process!
t@@ -59,8 +59,6 @@ Tables which are not labelled in either way relate to both config files.
!!!THINGS TO KEEP IN MIND!!!!
-* When adding words do not add compounds with بخش at the end, as this can be the end of an adjective or a verb!
-
* -से needs to be done manually, as this is in most cases the postposition से and not the 'adjective' से. के-से can be done through search/replace. It is better to find the rest of the cases by reading through the text.
* Also make sure you have gtk2-perl installed!
DIR diff --git a/README b/README
t@@ -1 +1,3 @@
These are the data files for Urdu<->Hindi transliteration.
+
+See "Notes" for miscellaneous notes about the conversion process.
DIR diff --git a/ThingsToKeepMind b/ThingsToKeepMind
t@@ -1,6 +0,0 @@
-!!!THINGS TO KEEP IN MIND!!!!
-
-* When adding words do not add compounds with بخش at the end, as this can be the end of an adjective or a verb!
-
-* -से needs to be done manually, as this is in most cases the postposition से and not the 'adjective' से. के-से can be done through search/replace. It is better to find the rest of the cases by reading through the text.
-
DIR diff --git a/config.hi_ur b/config.hi_ur
t@@ -1,15 +1,14 @@
# Configuration for Hindi->Urdu
-split "[-?,;।\s\\۔،؟―!—‘’“”:؛()[\]{}%―]+"
-beforeword "[-?,;।\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
-afterword "[-?,;।\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
+split "[-.?,;।\s\\۔،؟―!—‘’“”:؛()[\]{}%―]+"
+beforeword "[-.?,;।\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
+afterword "[-.?,;।\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
ignore "data/ignore.txt"
-table misc_beginword.hi_ur "data/misc_beginword.hi_ur.txt" nodisplay revert
table misc_endword "data/misc_endword.txt" nodisplay revert
table special.hi_ur "data/special.hi_ur.txt" nodisplay revert
-table exceptions1.hi_ur "data/exceptions1.hi_ur.txt" revert
-table exceptions2.hi_ur "data/exceptions2.hi_ur.txt" revert
+table exceptions_beginword.hi_ur "data/exceptions_beginword.hi_ur.txt" revert
+table exceptions_beginword_endword.hi_ur "data/exceptions_beginword_endword.hi_ur.txt" revert
table pairs_middle_e_o "data/pairs_middle_e_o.txt" nodisplay revert
# Verbs
t@@ -22,7 +21,7 @@ table verbs_regular_ending_in_a_o_forms "data/verbs/regular_ending_in_a_o_forms.
# Nouns/Adjectives
-table na_ifemshort "data/nouns_adjectives/ifemshort.txt" revert
+table na_imascfemshort "data/nouns_adjectives/imascfemshort.txt" revert
table na_adjectiveregular_a_i "data/nouns_adjectives/adjectiveregular_a_i.txt" revert
table na_irregular "data/nouns_adjectives/irregular.txt" revert
table na_ahmasc "data/nouns_adjectives/ahmasc.txt" revert
t@@ -39,7 +38,7 @@ table na_o_a_staysmasc "data/nouns_adjectives/o_a_staysmasc.txt" revert
table na_u_staysmasc "data/nouns_adjectives/u_staysmasc.txt" revert
table na_ui_oi_ai_mascfem "data/nouns_adjectives/ui_oi_ai_mascfem.txt" revert
-table na_ifemshort_forms "data/nouns_adjectives/ifemshort_forms.txt" nodisplay revert
+table na_imascfemshort_forms "data/nouns_adjectives/imascfemshort_forms.txt" nodisplay revert
table na_adjectiveregular_a_i_forms "data/nouns_adjectives/adjectiveregular_a_i_forms.txt" nodisplay revert
table na_ahmasc_forms "data/nouns_adjectives/ahmasc_forms.txt" nodisplay revert
table na_aishortmasc_forms "data/nouns_adjectives/aishortmasc_forms.txt" nodisplay revert
t@@ -65,7 +64,7 @@ expand verbs_regular_ending_in_a_o verbs_regular_ending_in_a_o_forms
# Regular noun/adjective expansions
-expand na_ifemshort na_ifemshort_forms noroot
+expand na_imascfemshort na_imascfemshort_forms noroot
expand na_adjectiveregular_a_i na_adjectiveregular_a_i_forms noroot
expand na_ahmasc na_ahmasc_forms noroot
expand na_aishortmasc na_aishortmasc_forms noroot
t@@ -83,26 +82,22 @@ expand na_ui_oi_ai_mascfem na_ui_oi_ai_mascfem_forms noroot
# Conversion rules
-group beginword
-replace exceptions1.hi_ur override
-endgroup
+matchignore "[a-zA-Z=]+" beginword endword
-group beginword endword
-replace exceptions2.hi_ur override
+group beginword
+replace exceptions_beginword.hi_ur
endgroup
-match "(?<=ी)ओ-" " و "
+match "(?<=[ाीू])ओ-" " و " # the letters ी ा ू
match "(?<=ा)ए-" "ٔ "
-match "(?<=ी)ए-" "ِ "
-match "(?<=ा)ओ-" " و "
+match "(?<=[ीूुअ])ए-" "ِ " # the letters ी ू ु अ
match "(?<=[0123456789])वाँ" "واں" endword
match "(?<=[0123456789])वें" "ویں" endword
match "(?<=[0123456789])वीं" "ویں" endword
match "(?<=[0123456789]) ई." "ء" endword
match "(?<![0123456789]) :" ":" endword
-matchignore "[0123456789]+" beginword endword
-
+#The Persian Genetive े- conflicts with word pairs containing regular inflections and a dash.
group beginword endword
replace pairs_middle_e_o
endgroup
t@@ -111,8 +106,15 @@ group
replace special.hi_ur
endgroup
+match "बा-" "با " beginword
+match "ता-" "تا " beginword
+
+group endword
+replace misc_endword
+endgroup
+
group beginword endword
-replace na_ifemshort
+replace na_imascfemshort
replace na_adjectiveregular_a_i
replace na_irregular
replace na_ahmasc
t@@ -132,18 +134,19 @@ replace na_ui_oi_ai_mascfem
replace verbs_irregular
replace verbs_regular_consonant_ending
replace verbs_regular_ending_in_a_o
+replace exceptions_beginword_endword.hi_ur override #override multiple choices for common words
endgroup
-group endword
-replace misc_endword
-endgroup
+#In the above tables are words that begin with the prefixes below but don't contain them as prefixes. Therefore they are replaced first.
+match "बे" "بے" beginword
+match "ग़ैर" "غیر" beginword
-group beginword
-replace misc_beginword.hi_ur
-endgroup
+#because of numbers before Bible books, this needs to come after the tables above
+matchignore "[0123456789]+" beginword endword
+#After replacing "बे" and "ग़ैर" a second run is needed to replace the rest of the words.
group beginword endword
-replace na_ifemshort
+replace na_imascfemshort
replace na_adjectiveregular_a_i
replace na_irregular
replace na_ahmasc
t@@ -163,15 +166,16 @@ replace na_ui_oi_ai_mascfem
replace verbs_irregular
replace verbs_regular_consonant_ending
replace verbs_regular_ending_in_a_o
+replace exceptions_beginword_endword.hi_ur override #override multiple choices for common words
endgroup
group
replace punctuation
endgroup
-targetdiacritics "ُ" "ِ" "ّ" "َ"
+targetdiacritics "ُ" "ِ" "ّ" "َ" "ٰ"
-retrywithout "Diacritics" "ُ" "ِ" "ّ" "َ"
+retrywithout "Diacritics" "ُ" "ِ" "ّ" "َ" "ٰ"
retrywithout "Space" " "
retrywithout "Nothing"
comment "#"
DIR diff --git a/config.ur_hi b/config.ur_hi
t@@ -1,14 +1,14 @@
# Configuration for Urdu->Hindi
-split "[-\s\\۔،؟!—‘’“”:؛()[\]{}%―]+"
-beforeword "[-\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
-afterword "[-\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
+split "[-.\s\\۔،؟!—‘’“”:؛()[\]{}%―]+"
+beforeword "[-.\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
+afterword "[-.\s\\۔،؟!—‘’“”:؛()[\]{}%―]"
ignore "data/ignore.txt"
table misc_beginword.ur_hi "data/misc_beginword.ur_hi.txt" nodisplay
table misc_endword "data/misc_endword.txt" nodisplay
table special.ur_hi "data/special.ur_hi.txt" nodisplay
-table exceptions.ur_hi "data/exceptions.ur_hi.txt"
+table exceptions_beginword_endword.ur_hi "data/exceptions_beginword_endword.ur_hi.txt"
table pairs_middle_e_o "data/pairs_middle_e_o.txt" nodisplay
# Verbs
t@@ -21,7 +21,7 @@ table verbs_regular_ending_in_a_o_forms "data/verbs/regular_ending_in_a_o_forms.
# Nouns/Adjectives
-table na_ifemshort "data/nouns_adjectives/ifemshort.txt"
+table na_imascfemshort "data/nouns_adjectives/imascfemshort.txt"
table na_adjectiveregular_a_i "data/nouns_adjectives/adjectiveregular_a_i.txt"
table na_irregular "data/nouns_adjectives/irregular.txt"
table na_ahmasc "data/nouns_adjectives/ahmasc.txt"
t@@ -38,7 +38,7 @@ table na_o_a_staysmasc "data/nouns_adjectives/o_a_staysmasc.txt"
table na_u_staysmasc "data/nouns_adjectives/u_staysmasc.txt"
table na_ui_oi_ai_mascfem "data/nouns_adjectives/ui_oi_ai_mascfem.txt"
-table na_ifemshort_forms "data/nouns_adjectives/ifemshort_forms.txt" nodisplay
+table na_imascfemshort_forms "data/nouns_adjectives/imascfemshort_forms.txt" nodisplay
table na_adjectiveregular_a_i_forms "data/nouns_adjectives/adjectiveregular_a_i_forms.txt" nodisplay
table na_ahmasc_forms "data/nouns_adjectives/ahmasc_forms.txt" nodisplay
table na_aishortmasc_forms "data/nouns_adjectives/aishortmasc_forms.txt" nodisplay
t@@ -64,7 +64,7 @@ expand verbs_regular_ending_in_a_o verbs_regular_ending_in_a_o_forms
# Regular noun/adjective expansions
-expand na_ifemshort na_ifemshort_forms noroot
+expand na_imascfemshort na_imascfemshort_forms noroot
expand na_adjectiveregular_a_i na_adjectiveregular_a_i_forms noroot
expand na_ahmasc na_ahmasc_forms noroot
expand na_aishortmasc na_aishortmasc_forms noroot
t@@ -82,17 +82,16 @@ expand na_ui_oi_ai_mascfem na_ui_oi_ai_mascfem_forms noroot
# Conversion rules
-match "(?<=ی) و " "ओ-"
-match "(?<=[ہی])ٔ" "ए-" endword
-match "(?<=[ہی])ِ" "ए-" endword
-match "(?<=ا) و " "ओ-"
+matchignore "[a-zA-Z]+" beginword endword
+match "(?<=[یٰیاو]) و " "ओ-"
+match "(?<=[عوی])ِ " "ए-"
+match "ِ " "े-"
+match "(?<=[ہی])ٔ " "ए-"
match "(?<=[0123456789])واں" "वाँ"
match "(?<=[0123456789])ویں" "वें$वीं"
match "(?<=[0123456789])ء" " ई."
match "(?<![0123456789]):" " :"
-matchignore "[0123456789]+" beginword endword
-
group beginword
replace misc_beginword.ur_hi
endgroup
t@@ -107,7 +106,7 @@ endgroup
group beginword endword
replace pairs_middle_e_o
-replace na_ifemshort
+replace na_imascfemshort
replace na_adjectiveregular_a_i
replace na_irregular
replace na_ahmasc
t@@ -128,14 +127,17 @@ replace verbs_irregular
replace verbs_regular_consonant_ending
replace verbs_regular_ending_in_a_o
-replace exceptions.ur_hi override
+replace exceptions_beginword_endword.ur_hi override
endgroup
+#because of numbers before Bible books, this needs to come after the tables above
+matchignore "[0123456789]+" beginword endword
+
group
replace punctuation
endgroup
-retrywithout "diacritics" "ُ" "ِ" "ّ" "َ"
+retrywithout "diacritics" "ُ" "ِ" "ّ" "َ" "ٰ"
retrywithout "space" " "
retrywithout "Nothing"
comment "#"
DIR diff --git a/data/exceptions.ur_hi.txt b/data/exceptions.ur_hi.txt
t@@ -1,19 +0,0 @@
-میں में
-تو तो
-پر पर
-جو जो
-اور और
-بن बन
-ہو हो
-امام इमाम
-خود ख़ुद
-غیرت ग़ैरत
-قوم क़ौम
-کون कौन
-شور शोर
-دل दिल
-تیری तेरी
-تیرا तेरा
-تیرے तेरे
-دیا दिया
-مرد मर्द
DIR diff --git a/data/exceptions1.hi_ur.txt b/data/exceptions1.hi_ur.txt
t@@ -1,21 +0,0 @@
-ذرائعِ ज़राएये-
-انبیائے अंबियाए-
-دریائے दरियाए-
-خدائے ख़ुदाए-
-عصائے असाए-
-سزائے सज़ाए-
-ایشیائے एशियाए-
-دعائے दुआए-
-علمائے उलमाए-
-کارہائے कारहाए-
-ماورائے मावराए-
-اِبتدائے इब्तिदाए-
-بنائے बनाए $बिनाए-
-گھبرائے घबराए
-برائے बराए-
-رُوئے زمین रूए-ज़मीन
-رُوئے قرآن रूए-क़ुरान
-اشیائے अश्याए-
-سوائے सिवाए-
-جائے जाए-
-
DIR diff --git a/data/exceptions2.hi_ur.txt b/data/exceptions2.hi_ur.txt
t@@ -1,4 +0,0 @@
-نام नाम
-نامہ नामा
-یہی यही
-
DIR diff --git a/data/exceptions_beginword.hi_ur.txt b/data/exceptions_beginword.hi_ur.txt
t@@ -0,0 +1,22 @@
+ذرائعِ ज़राएये-
+انبیائے अंबियाए-
+دریائے दरियाए-
+خدائے ख़ुदाए-
+عصائے असाए-
+غذائے ग़िज़ाए-
+سزائے सज़ाए-
+ایشیائے एशियाए-
+دعائے दुआए-
+علمائے उलमाए-
+کارہائے कारहाए-
+ماورائے मावराए-
+اِبتدائے इब्तिदाए-
+بنائے बनाए $बिनाए-
+گھبرائے घबराए
+برائے बराए-
+رُوئے زمین रूए-ज़मीन
+رُوئے قرآن रूए-क़ुरान
+اشیائے अश्याए-
+جائے जाए-
+بالائے बालाए-
+
DIR diff --git a/data/exceptions_beginword_endword.hi_ur.txt b/data/exceptions_beginword_endword.hi_ur.txt
t@@ -0,0 +1,25 @@
+نام नाम
+نامہ नामा
+یہی यही
+لئے लिए
+اِس لئے इसलिए
+کئے किए
+نئی नई
+پتا पता
+کرکے करके
+اِظہار इज़हार
+آخرکار आख़िरकार
+سکول स्कूल
+ہیڈ ماسٹر हैड-मास्टर
+اِس کا इसका
+عیال अयाल
+روپئے रुपए
+خطرناک ख़तरनाक
+شکرگزار शुक्रगुज़ार
+بھروسا भरोसा
+ادنیٰ अदना
+امیر अमीर
+فارسی फ़रसी
+ادا अदा
+سارہ सारा
+
DIR diff --git a/data/exceptions_beginword_endword.ur_hi.txt b/data/exceptions_beginword_endword.ur_hi.txt
t@@ -0,0 +1,23 @@
+میں में
+تو तो
+پر पर
+جو जो
+اور और
+بن बन
+ہو हो
+امام इमाम
+خود ख़ुद
+غیرت ग़ैरत
+قوم क़ौम
+کون कौन
+شور शोर
+دل दिल
+تیری तेरी
+تیرا तेरा
+تیرے तेरे
+دیا दिया
+مرد मर्द
+بیاہ کر ब्याहकर$ब्याह कर
+امیر अमीर
+عوض एवज़
+
DIR diff --git a/data/misc_beginword.hi_ur.txt b/data/misc_beginword.hi_ur.txt
t@@ -1,2 +0,0 @@
-بے बे
-غیر ग़ैर
DIR diff --git a/data/misc_beginword.ur_hi.txt b/data/misc_beginword.ur_hi.txt
t@@ -5,3 +5,5 @@
غیر ग़ैर
غیر ग़ैर
ذی ज़ी-
+با बा-
+تا ता-
DIR diff --git a/data/misc_endword.txt b/data/misc_endword.txt
t@@ -5,10 +5,12 @@
والی वाली
والیوں वालियों
والیو वालियो
- سا -सा
- سی -सी$ सी
+بھر کر भरकर
بھر پور भरपूर
بھرپور भरपूर
بھر -भर$ भर
ترین तरीन
+ سا -सा
+ سی -सी$ सी
+ سالہ -साला
DIR diff --git a/data/nouns_adjectives/adjectiveregular_a_i.txt b/data/nouns_adjectives/adjectiveregular_a_i.txt
t@@ -191,3 +191,5 @@
نِر निर
کھر खर
کیس कैस
+رکھوال रखवाल
+
DIR diff --git a/data/nouns_adjectives/ahmasc.txt b/data/nouns_adjectives/ahmasc.txt
t@@ -477,7 +477,7 @@
حافظ हाफ़िज़
موازان मुवाज़न
دل داد दिलदाद
-تعزی ताजिय
+تعزی ताज़िय
مرثی मरसिय
حصّ हिस्स
شیع शिय
t@@ -511,3 +511,15 @@
غُنڈ ग़ुंड
گُزار गुज़ार
کیس कीस
+ڈاک خان डाकख़ान
+ناشائست नाशायस्त
+سررشت सररिश्त
+شہر शुहर
+معرک मारक
+کوچ कूच
+گان गान
+عریض अरीज़
+شبہ शुबह
+شُبہ शुबह
+صاحبزاد साहबजाद
+مدرس मदरस
DIR diff --git a/data/nouns_adjectives/amasc.txt b/data/nouns_adjectives/amasc.txt
t@@ -16,6 +16,7 @@
باج बाज
باڑ बाड़
بال بچ बाल-बच्च
+بال بچّ बाल-बच्च
بٹوار बटवार
بٹو बटव
بٹ बट्ट
t@@ -324,5 +325,11 @@
چُوہڑ चूहड़
پچھواڑ पिछवाड़
سنّاٹ सन्नाट
-سقّ सक़्क
+سقّ सक़्क़
کور कोर
+چاندی سون चाँदी-सोन
+تمغ तमग़
+بنگل बँगल
+مولان मौलान
+گُھٹن घुटन
+زُمر ज़ुमर
DIR diff --git a/data/nouns_adjectives/cfem.txt b/data/nouns_adjectives/cfem.txt
t@@ -109,7 +109,6 @@
بہبود बहबूद
بہن बहन
بوتل बोतल
-بوچھار बौछाड़
بوچھاڑ बौछाड़
بیگم बेगम
بیل बेल
t@@ -260,7 +259,6 @@
ٹِیس टीस
ٹیم टीम
جائیداد जायदाद
-جائے پناہ जाए-पनाह
جانب जानिब
جان जान
جاہ जाह
t@@ -269,7 +267,7 @@
جراحت जर्राहत
جڑ जड़
جسامت जसामत
-جست जस्त
+جست जुस्त
جگہ जगह
جلد जिल्द
جِلد जिल्द
t@@ -934,8 +932,7 @@
دُکان दुकान
سُنت सुन्नत
سنت सुन्नत
-مِسّ मिस्स
-مِس मिस्स
+مِس मिस
شِدّت शिद्दत
مَوت मौत
اُلُوہیّت उलूहियत
t@@ -993,3 +990,19 @@
وصیّت वसियत
پُشت पुश्त
ماسک मास्क
+ہچک हिचक
+اسکالرشپ स्कॉलरशिप
+میعاد मियाद
+سرٹیفکیٹ सर्टीफ़िकेट
+کُشُود कुशूद
+ملازمت मलाज़मत
+مناجات मुनाजात
+قرابت क़राबत
+سیادت सियादत
+امارت इमारत
+مصالحت मुसालहत
+بِھیڑ भीड़
+علمیّت इल्मियत
+مُدّت मुद्दत
+حقانیّت हक़ानियत
+گفتار गुफ़्तार
DIR diff --git a/data/nouns_adjectives/cmasc.txt b/data/nouns_adjectives/cmasc.txt
t@@ -19,7 +19,6 @@
آنگن आँगन
آوارہ گرد आवारागर्द
ابابیل अबाबील
-ابرو अबरू
اپاہج अपाहज
اتحاد इत्तहाद
اتفاق इत्तफ़ाक़
t@@ -100,7 +99,7 @@
اَصل असल
اصول उसूल
اُصول उसूल
-اضطراب इज़तिराब
+اضطراب इज़तराब
اطلاق इतलाक़
اِطلاق इतलाक़
اطمینان इतमीनान
t@@ -200,7 +199,7 @@
اندھا دُھند अंधा-धुंद
انسان इनसान
اِنسان इनसान
-انسپکٹر इनस्पेक्टर
+انسپکٹر इंस्पेक्टर
انصاف پرور इनसाफ़परवर
انصاف इनसाफ़
اِنصاف इनसाफ़
t@@ -903,6 +902,7 @@
دف दफ़
دکان دار दुकानदार
دکاندار दुकानदार
+دُکان دار दुकानदार
دکھ दुख
دُکھ दुख
دل آزار दिलआज़ार
t@@ -1021,7 +1021,6 @@
رخنہ انداز रख़ना-अंदाज़
رخ रुख़
رُخ रुख़
-رد रद्द
رسوخ रसूख़
رسول रसूल
رس रस
t@@ -1146,7 +1145,7 @@
سٹور स्टोर
سٹیڈیم स्टेडियम
سجدہ ریز सिजदारेज़
-سخت دل सख़्तदिल
+دل آزاد दिलआज़ाद
سخت کوش सख़्तकोश
سخت گیر सख़्तगीर
سخت مزاج सख़्तमिज़ाज
t@@ -1579,7 +1578,7 @@
کاشت کار काश्तकार
کاغذ काग़ज़
کافر काफ़िर
-کالج कालज
+کالج कॉलज
کالر कालर
کالم कालम
کامران कामरान
t@@ -1737,7 +1736,7 @@
گوبر गोबर
گودام गोदाम
گورخر गोरख़र
-گورنر गोरनर
+گورنر गवर्नर
گوشت गोश्त
گول مٹول गोल-मटोल
گوند गूँद
t@@ -1828,7 +1827,7 @@
متزلزل मुतज़लज़ल
متصادم मुतसादम
متضاد मुतज़ाद
-متعدد मुतअद्दिद
+متعدد मुतअद्दद
متعصب मुतअस्सिब
متعصّب मुतअस्सिब
متعلق मुताल्लिक़
t@@ -2045,7 +2044,7 @@
ملک मुल्क$मलिक
ملوث मुलव्वस
مَلیامیٹ मलियामेट
-ممبر मेम्बर
+ممبر मेंबर
ممتاز मुमताज़
ممکن मुमकिन
ممنوع ममनू
t@@ -2296,7 +2295,6 @@
واضح वाज़िह
واعظ वायज़
وافر वाफ़िर
-وافق वाक़िफ़
واقف کار वाक़िफ़कार
واقف वाक़िफ़
والد वालिद
t@@ -2429,7 +2427,7 @@
جفاکش जफ़ाकश
گھربار घरबार
حُکم हुक्म
-مجتہد मुज्तहिद
+مجتہد मुजतहिद
مُنہ मुँह
راست گُفتار रास्तगुफ़्तार
پریسیڈینٹ प्रेसीडेंट
t@@ -2452,7 +2450,7 @@
مُنحرف मुनहरिफ़
پٹھان पठान
جرمن जरमन
-نقاد नक़्क़
+نقاد नक़्क़ाद
کارگر कारगर
متناقص मुतनाक़िस
عالَم گیر आलमगीर
t@@ -2472,8 +2470,64 @@
متوجّہ मुतवज्जिह
سکھ सिख
سر سبز सरसब्ज़
-حسّاس دل हस्सासदिल
-روشن ضمیر रौशन-ज़मीर
+حسّاس دل हस्सासदिल$हस्सास दिल
+روشن ضمیر रौशन-ज़मीर$रौशन ज़मीर
ہر دل عزیز हर-दिल-अज़ीज़
ہم جماعت हम जमात$हमजमात
طلب گار तलबगार
+مال دار मालदार
+آئینہ دار आईनादार
+ہم راہ हमराह$हम राह
+تباہ حال तबाहहाल
+خانہ خراب ख़ानाख़राब
+شاہ وار शाहवार
+غضب ناک गज़बनाक
+طلب گار तलबगार
+پریشان حال परेशानहाल
+منصف مزاج मुंसिफ़मिज़ाज
+مناظر मुनाज़िर
+مشرب मशरब
+سجّادہ نشین सज्जादा-नशीन
+مرشد मुरशिद
+منظوم मंज़ूम
+ناصر नासिर
+ہم مکتب हममकतब$हम मकतब
+میل मेल
+کار گر कारगर
+ریگ रेग
+خداداد ख़ुदादाद
+ہنر हुनर
+لفٹیننٹ लेफ़्टिनेन्ट
+پروفیسر प्रोफ़ेसर
+پریس प्रेस
+مُرشد मुरशिद
+فادر फ़ादर
+شغل शुग़ल
+کرنیل कर्नल
+معروف मारूफ़
+خاں ख़ान
+موصوف मौसूफ़
+قصد क़स्द
+کیٹی کسٹ कैटकिस्ट
+حج हज
+ایڈیٹر एदिटर
+احرام एहराम
+روڈ रोड
+کیٹی کِسٹ कैटकिस्ट
+اراکین अराकीन
+عمیق अमीक़
+مَوقوف मौक़ूफ़
+فیلسوف फ़ैलसूफ़
+جِن जिन
+مجسّم मुजस्सम
+سیماب सीमाब
+گزٹ गज़ट
+سرور सरूर
+محقّق मुहक़्क़िक़
+طاق ताक़
+مُہلک मोहलक
+زنا کار ज़िनाकार
+مروج मुरवज्ज
+کبیر कबीर
+تہہ بند तहबंद
+
DIR diff --git a/data/nouns_adjectives/ifem.txt b/data/nouns_adjectives/ifem.txt
t@@ -23,6 +23,7 @@
اطمینان इतमीनान
اعتقاد एतक़ाद
اعلیٰ ظرف आला-ज़र्फ़
+اعلی ظرف आला-ज़र्फ़
افرا تفر अफ़रा-तफ़र
افراتفر अफ़रा-तफ़र
افسردگ अफ़सुरदग
t@@ -139,7 +140,6 @@
پٹ पट्ट
پچی کار पच्चीकार
پختگ पुख़्तग
-پروا परवा
پروردگار परवरदिगार
پریشان परेशान
پست पस्त
t@@ -531,6 +531,7 @@
عقل अक़्ल
عکاس अक्कास
علیٰحدگ अलहदग
+علیحدگ अलहदग
عمدگ उम्दग
عہد شکن अहदशिकन
عیاش ऐयाश
t@@ -668,7 +669,7 @@
گہما گہم गहमा-गहम
گواہ गवाह
گوڈ गोड
-گورنر गोरनर
+گورنر गवर्नर
گول गोल
لائبریر लाइब्रेर
لاٹھ लाठ
t@@ -731,8 +732,8 @@
موقع شناس मौक़ाशनास
میزبان महरबान
نااتفاق ना-इत्तफ़ाक़
-ناامید ना-ऊम्मीद
-نااُمید ना-ऊम्मीद
+ناامید ना-उम्मीद
+نااُمید ना-उम्मीद
ناانصاف ना-इनसाफ़
ناپاک नापाक
ناچاق नाचाक़
t@@ -814,7 +815,7 @@
کَوڑ कौड़
کفایت شعار किफ़ायत-शार
ڈیوڑھ ड्योढ़
-مُناد मुनादी
+مُناد मुनाद
سوسائٹ सोसायट
تبرّا باز तबर्राबाज़
گُستاخ गुस्ताख़
t@@ -848,5 +849,12 @@
مغز خور मग़ज़-ख़ोर
دکان دار दुकानदार
بیمار پُرس बीमारपुरस
-رکھوال रखवाल
توہّم پرست तवह्हुमपरस्त
+سخت زبان सख़्तज़बान
+
+کم سِن कमसिन
+غریب الوطن ग़रीबुल-वतन
+فلاسف फ़िलासफ़
+خانگ ख़ानग
+قدر دان क़दरदान
+عرض अरज़
DIR diff --git a/data/nouns_adjectives/imasc.txt b/data/nouns_adjectives/imasc.txt
t@@ -331,3 +331,15 @@
مُنجّ मुनज्ज
ہندوستان हिंदुस्तान
مشنر मिशनर
+مُنش मुंश
+ریاض रियाज़
+منجّ मुनज्ज
+مفت मुफ़्त
+مدرّس मुदर्रिस
+تجرب तजरिब
+شاستر शास्त्र
+نامی گرام नामी-गिराम
+متّق मुत्तक़
+زان ज़ान
+مروّ मुरव्व
+
DIR diff --git a/data/nouns_adjectives/ifemshort.txt b/data/nouns_adjectives/imascfemshort.txt
DIR diff --git a/data/nouns_adjectives/ifemshort_forms.txt b/data/nouns_adjectives/imascfemshort_forms.txt
DIR diff --git a/data/nouns_adjectives/irregular.txt b/data/nouns_adjectives/irregular.txt
t@@ -85,7 +85,7 @@
آضل आज़ल
آفات आफ़ात
آفرین आफ़रीन
-آگرہ अगरा
+آگرہ आगरा
آگے आगे
آلات आलात
آل आल
t@@ -123,7 +123,7 @@
ابلیعام इबलियाम
اِبلیعام इबलियाम
ابلینے अबिलेने
-ابن السبیل इब्न-उस-सबील
+ابن السبیل इब्नस्सबील
ابن الوقت इब्नुल-वक़्त
ابن عزر अबन-अज़र
ابنیاہ इबनियाह
t@@ -134,6 +134,7 @@
اَبھی अभी
ابواب अबवाब
ابو العلیٰ अबुल-उला
+ابو العلی अबुल-उला
ابو العُلیٰ अबुल-उला
ابو جہل अबू जहल
ابو अब्बू
t@@ -197,7 +198,7 @@
اِترعام इत्रआम
اتری इतरी
اِتری इतरी
-اتفاق الرائے इत्तफ़ाक़-उर-राए
+اتفاق الرائے इत्तफ़ाक़ुर-राए
اتفاقاً इत्तफ़ाक़न
اتلاہ इतला
اِتلاہ इतला
t@@ -338,6 +339,7 @@
ادُمیم अदुम्मीम
ادمین अदमीन
ادنیٰ अदना
+ادنی अदना
ادھر ادھر इधर-उधर
اِدھر اُدھر इधर-उधर
ادھر इधर
t@@ -487,6 +489,7 @@
استخس इस्तख़ुस
استخُس इस्तख़ुस
استعفیٰ इस्तीफ़ा
+استعفی इस्तीफ़ा
استموع इस्तिमुअ
اِستموع इस्तिमुअ
استموہ इस्तमोह
t@@ -638,7 +641,9 @@
اعظم आज़म
اعلانات एलानात
اعلیٰ ترین आलातरीन
+اعلی ترین आलातरीन
اعلیٰ आला
+اعلی आला
اعمال आमाल
اغوا इग़वा
اِغوا इग़वा
t@@ -734,7 +739,7 @@
اِلداد इलदाद
الدعا इल्दआ
اِلدعا इल्दआ
-نظام الدین निज़ामुद-दीन
+نظام الدین निज़ामुद्दीन
الرکم इल्लुरिकुम
اِلُّرکُم इल्लुरिकुम
الزامات इलज़ामात
t@@ -777,7 +782,7 @@
اِلناتن इलनातन
النعم इलनाम
اِلنعم इलनाम
-الہٰی इलाही
+الہی इलाही
الوداعی अलविदाई
الوداع अलविदा
الوس अलूस
t@@ -1140,7 +1145,7 @@
باغیانہ बाग़ियाना
باقاعدہ बाक़ायदा
باقیات बाक़ियात
-بالآخر बिलआख़िर
+بالآخر बिल-आख़िर
بالاتر बालातर
بالاہ बाला
بالا बाला
t@@ -1235,6 +1240,7 @@
برطرف बरतरफ़
برعکس बरअक्स
برعیسیٰ बरईसा
+برعیسی बरईसा
برع बिरा
بِرَع बिरा
برقرار बरक़रार
t@@ -1627,6 +1633,7 @@
پرچھائیاں परछाइयाँ
پرخار पुरख़ार
پُرخار पुरख़ार
+پُر خار पुरख़ार
پرخرس प्रुख़ुरुस
پرخلوص पुरख़ुलूस
پُرخلوص पुरख़ुलूस
t@@ -1745,9 +1752,9 @@
تابع ताबे
تاثرات तअस्सुरात
تاحال ताहाल
-تادم ता-दम
+تا دم ता-दम
تارح तारह
-تارک الدنیا तारिकुद-दुनिया
+تارک الدنیا तारिकुद्दुनिया
تاریع तारीअ
تاریک ترین तारीकतरीन
تار तार
t@@ -1846,6 +1853,7 @@
تصنیفات तसनीफ़ात
تصورات तसव्वुरात
تعالیٰ तआला
+تعالی तआला
تعصبات तास्सुबात
تعظیماً ताज़ीमन
تعلقات ताल्लुक़ात
t@@ -2050,6 +2058,7 @@
جبع जिबा
جِبع जिबा
جبکہ जबकि
+جب کہ जबकि
جبلپور जबलपुर
جبل जबल
جبی जब्बी
t@@ -2071,7 +2080,7 @@
جدلیاہ जिदलियाह
جِدلیاہ जिदलियाह
جدھر जिधर
-جدہ जद्दा
+جدہ जेद्दा
جد و جہد जिद्दो-जहद
جدوری जदूरी
جدور जदूर
t@@ -2118,7 +2127,7 @@
جگر پاش जिगर-पाश
جگ مگ जगमग
جگہ بہ جگہ जगह बजगह
-جلال الدین जलालुद-दीन
+جلال الدین जलालुद्दीन
جل بھن जल-भुन
جلبوعہ जिलबुअ
جِلبوعہ जिलबुअ
t@@ -2137,7 +2146,7 @@
جلیم जल्लीम
جلّیم जल्लीम
جماد जम्माद
-جمال الدین जमालुद-दीन
+جمال الدین जमालुद्दीन
جمریاہ जमरियाह
جمر जुमर
جُمر जुमर
t@@ -2308,6 +2317,7 @@
حتمی हतमी
حتی المقدور हत्तल-मक़दूर
حتیٰ हत्ता
+حتی हत्ता
حجابہ हजाबा
حجر القمر हज्रुल-क़मर
حجر हजर
t@@ -2418,6 +2428,7 @@
حقائق हक़ायक़
حق بجانب हक़-बजानिब
حق تعالیٰ हक़-तआला
+حق تعالی हक़-तआला
حقہ پانی हुक़्क़ा-पानी
حقوفا हक़ूफ़ा
حقوق हुक़ूक़$हुक़्क़ोक़
t@@ -2581,7 +2592,7 @@
خلق ख़ल्क़$ख़लक़
خلک ख़लक
خلوئے ख़लोए
-خلیل اللہ ख़लील-उल्लाह
+خلیل اللہ ख़लीलुल्लाह
خلیہ جات ख़लियाजात
خلیہ جات ख़ुलियाजात
خُلیہ جات ख़ुलियाजात
t@@ -2611,7 +2622,7 @@
خیالات ख़यालात
خیالاً ख़यालन
خیرات ख़ैरात
-خیر الدین ख़ैरुद-दीन
+خیر الدین ख़ैरुद्दीन
خیرباد ख़ैरबाद
خیس ख़ियुस
خیُس ख़ियुस
t@@ -2629,7 +2640,7 @@
داد दाद
دار الانصاف दारुल-इनसाफ़
دار الحکومت दारुल-हुकूमत
-دار السلطنت दार-उस-सलतनत
+دار السلطنت दारुस्सलतनत
دارا दारा
دارع दारा
داڑھی مونچھ दाढ़ी-मूँछ
t@@ -2701,6 +2712,7 @@
دعوایل दऊएल
دعووں दावों
دعویٰ दावा
+دعوی दावा
دعوے दावे
دفاعی दिफ़ाई
دفعہ दफ़ा
t@@ -2807,7 +2819,7 @@
دیسان दीसान
دیسون दीसोन
دیکھ بھال देख-भाल
-دیگرے दीगरे
+یکے بعد دیگرے यके-बाद-दीगरे
دیماس देमास
دیمونہ दीमूना
دیمون दीमोन
t@@ -2826,7 +2838,7 @@
ذریعہ ज़रीअ
ذریعے ज़रीए
ذلیل ترین ज़लीलतरीन
-ذو الجلال ज़ुलजलाल
+ذو الجلال ज़ुल-जलाल
ذومعنی ज़ूमानी
ذی حیات ज़ी-हयात
ڈاک डाक
t@@ -2996,8 +3008,8 @@
روپ रूप
روت रूत
روح القدس रूहुल-क़ुद्स
-روح اللہ रूह-उल्लाह
-رُوح اللہ रूह-उल्लाह
+روح اللہ रूहुल्लाह
+رُوح اللہ रूहुल्लाह
روح المقدس रूहुल-मुक़द्दस
روح المُقدّس रूहुल-मुक़द्दस
رودانی रोदानी
t@@ -3195,7 +3207,7 @@
سِدّیم सिद्दीम
سرائے सराय
سراپا सरापा
-سراج الدین सिराजुद-दीन
+سراج الدین सिराजुद्दीन
سرار ہراری सरार-हरारी
سرار सरार
سراسر सरासर
t@@ -3544,7 +3556,6 @@
شبناہ शिबनाह
شبناہ शिब्नाह
شِبناہ शिब्नाह
-شبہ शुबहा
شبولیت शिब्बोलेत
شتربوزنی शतर-बोज़नी
شجی शजी
t@@ -3562,7 +3573,7 @@
شرع शरअ
شرفا शुरफ़ा
شروع शुरू
-شریف النفس शरीफ़-उन-नफ़स
+شریف النفس शरीफ़ुन्नफ़स
شش शश
شطیم शित्तीम
شِطّیم शित्तीम
t@@ -3605,6 +3616,7 @@
شِمیبر शिमेबर
شمینیت शमीनीत
شوریٰ शूरा
+شوری शूरा
شور शूर
شُور शूर
شوشا शौशा
t@@ -3717,7 +3729,7 @@
ضِبیہ ज़िबिया
ضرتان ज़रतान
ضرت ज़रत
-ضرۃ السحر ज़िरत-उस-सहर
+ضرۃ السحر ज़िरतुस्सहर
ضرۃ ज़िरत
ضروریات ज़रूरियात
ضرور ज़रूर
t@@ -3731,9 +3743,9 @@
ضلتی ज़िल्लती
ضِلّتی ज़िल्लती
ضلضخ ज़िलज़ख़
-ضلعوں ज़िलओं
-ضلعے ज़ले
-ضلع ज़िला
+ضلعوں ज़िलों
+ضلعے ज़िले
+ضلع ज़िला$ज़िले
ضلمنع ज़लमुन्ना
ضلمُنّع ज़लमुन्ना
ضلمونہ ज़लमूना
t@@ -3751,7 +3763,6 @@
طابئیل ताबियेल
طاب رمون ताबरिम्मोन
طاب رِمّون ताबरिम्मोन
-طاب ताब
طاری तारी
طافت ताफ़त
طال ताल
t@@ -3985,9 +3996,10 @@
علیان अलयान
علیاہ अलया
علیٰحدہ अलहदा
+علیحدہ अलहदा
علیکم अलैकुम
علی अली
-عماد الدین इमादुद-दीन
+عماد الدین इमादुद्दीन
عمادیہ इमादिया
عماسا अमासा
عماسی अमासी
t@@ -4076,7 +4088,7 @@
عیسوی ईसवी
عیسو एसौ
عیسَو एसौ
-عیسیٰ ईसा
+عیسی ईसा
عیشق ईशक़
عیطام ऐताम
عیفہ ऐफ़ा
t@@ -4151,8 +4163,9 @@
فتنہ فساد फ़ितना-फ़साद
فتوایل फ़तुएल
فتوحات फ़ुतूहात
-فتور फ़तोर
+فتور फ़तूर$फ़तोर
فتویٰ फ़तवा
+فتوی फ़तवा
فتوے फ़तवे
فٹ फ़िट
فِٹ फ़िट
t@@ -4286,10 +4299,10 @@
فُوّہ फ़ुव्वा
فوی फ़ुव्वी
فُوّی फ़ुव्वी
-فی التوحید फ़ित-तौहीद
+فی التوحید फ़ित्तौहीद
فی الحال फ़िलहाल
فی الحقیقت फ़िलहक़ीक़त
-فی الواقع फ़िल-वाकि
+فی الواقع फ़िलवाके
فیبے फ़ीबे
فیتون फ़ीतून
فیروزہ फ़ीरोज़ा
t@@ -4353,7 +4366,7 @@
قرنَیم क़रनैम
قرن क़रन
قروس क़रूस
-قرولی क़ारौली
+قرولی क़रौली
قریب الموت क़रीबुल-मौत
قریباً क़रीबन
قریب ترین क़रीबतरीन
t@@ -4379,7 +4392,7 @@
قزح क़ुज़ह
قسیون क़िसियोन
قِسیون क़िसियोन
-قصداً क़सदन
+قصداً क़स्दन
قصیص क़सीस
قصیعہ क़सियह
قضاة क़ुज़ात
t@@ -4514,7 +4527,7 @@
کریت करीत
کریر करीर
کریسکینس क्रेसकेन्स
-کریم الدین करीमुद-दीन
+کریم الدین करीमुद्दीन
کریم करीम
کرینی कुरेनी
کرین कुरेन
t@@ -4572,7 +4585,7 @@
کلمات कलिमात
کلم بند कलमबंद
کلمس कलमस
-کلمۃ اللہ कलिमत-उल्लाह
+کلمۃ اللہ कलिमतुल्लाह
کلنہ कलना
کلنو कलनो
کلوبی कलूबी
t@@ -4733,7 +4746,7 @@
گنیسرت गन्नेसरत
گھپ घुप
گھٹیا घटिया
-گھر بار घर-बार
+گھر بار घरबार
گھریلو घरेलू
گھیراؤ घेराव
گوئیم गोयम
t@@ -5070,7 +5083,6 @@
مرمہ मिरमा
مِرمہ मिरमा
مروجہ मुरव्वजा
-مروج मुरवज्ज
مرودک بلدان मरूदक-बलदान
مرودک بلَدان मरूदक-बलदान
مرودک मरूदक
t@@ -5132,7 +5144,7 @@
مسور मसूर
مسیحانہ मसीहाना
مسیح मसीह
-مس मस
+مس मिस$मस
مَس मस
مشائخ मशायख़
مشابہت मुशाबहत
t@@ -5202,7 +5214,7 @@
معونی मऊनी
معون मऊन
معیاری मेयारी
-معین الدین मुईनुद-दीन
+معین الدین मुईनुद्दीन
معینہ मुअय्यना
مغربی मग़रिबी
مفت मुफ़्त
t@@ -5323,7 +5335,7 @@
مناہیم मनाहेम
مناہ मिन्नाह
مِنّاہ मिन्नाह
-منجانب اللہ मिनजानिब-उल्लाह
+منجانب اللہ मिनजानिबुल्लाह
مندرجات मुंदरजात
مندرجہ بالا मुंदरिजाए-बाला
مندرجہ ذیل मुंदरिजाए-ज़ैल
t@@ -5383,6 +5395,7 @@
موسیروت मौसीरोत
موسیہ मूसिया
موسیٰ मूसा
+موسی मूसा
موشی मूशी
مُوشی मूशी
موضا मौज़ा
t@@ -5786,6 +5799,7 @@
وزیرِاعظم वज़ीरे-आज़म
وسائل वसायल
وسطیٰ वुस्ता
+وسطی वुस्ता
وسیع वसी
وشتی वशती
وضع वज़ा
t@@ -5875,6 +5889,7 @@
یحیاہ यहियाह
یحی ایل यहियेल
یحییٰ यहया
+یحیی यहया
یحی यही
یدایاہ यदायाह
یدعیاہ यदायाह
t@@ -6185,6 +6200,7 @@
فردوسی फ़िरदौसी
زُبدۃ الاقوال ज़ुब्दतुल-अक़्वाल
علیٰ अला
+علی अला
محرّم मुहर्रम
لکھنو लखनऊ
یو۔پی यूपी
t@@ -6215,7 +6231,7 @@
ملتان मुल्तान
جنیب اللہ जनीबुल्लाह
نار नार
-خواجگان ख़ाजागान
+خواجگان ख़ाजगान
راجا राजा
راجاؤں राजाओं
ایّام ऐयाम
t@@ -6238,12 +6254,12 @@
اَن تھک अनथक
باجوہ बाजवा
احمد अहमद
-حمید الدین हमीदुद-दीन
+حمید الدین हमीदुद्दीन
سالک सालिक
ناتھ नाथ
وِدھاوا विधावा
ودھاوا विधावा
-میراں मीरान
+میراں मीराँ
عطارو अत्तारू
پریتو प्रेतू
دِتّا दित्ता
t@@ -6281,7 +6297,7 @@
طِفلانہ तिफ़लाना
اَجناس अजनास
مندراں मंदराँ
-اوصاف ओसाफ़
+اوصاف औसाफ़
نَو नौ
ایس एस
اٹھارہ अठारा
t@@ -6290,18 +6306,19 @@
سِیَر सियर
بغور बग़ौर
آنحضرت आँहज़रत
-فی التثلیث फ़ित-तसलीस
+فی التثلیث फ़ित्तसलीस
پَولُس पौलुस
-معاذ اللہ मआज़ुल्लाह
+معاذ اللہ माज़ुल्लाह
زوجہ ज़ौजा
حیوانات हैवानात
-تاسّف तअस्सुफ़
+تاسّف तास्सुफ़
اُردو उर्दू
حتّٰی کہ हत्ताकि
حتّٰی المقدور हत्ताल-मक़दूर
طعن तान
تشنیع तशनी
صغریٰ सुग़रा
+صغری सुग़रा
کَون कौन
صدہا सदहा
اشعار अशआर
t@@ -6326,7 +6343,7 @@
اُلٹ پُلٹ उलट-पुलट
بالکُل बिलकुल
کولکاتا कोलकाता
-حقہ پانی हुक़्क़ा-पानी
+حُقّہ پانی हुक़्क़ा-पानी
ایشن ईशन
احسان اللہ एहसानुल्लाह
ایم एम
t@@ -6335,7 +6352,7 @@
انگلینڈ इंग्लैंड
کِس किस
تُم तुम
-یاران बारान
+یاران यारान
مُشفِقہ मुश्फ़िक़ा
لاگ लाग
ہیولٹ ह्यूलट
t@@ -6354,8 +6371,9 @@
گورداسپور गुरदासपुर
کُرنتھیوں कुरिंथियों
روح افزا रूहअफ़्ज़ा
-بیا نویلا नया-नवेला
-نویلی नइ-नवेली
+نیا نویلا नया-नवेला
+نئی نویلی नइ-नवेली
+نئے نویلے नए-नवेले
رتّی रत्ती
دوات दवात
مبادیات मबादियात
t@@ -6374,6 +6392,7 @@
بقر बक़र
مروّجہ मुरव्वजा
حتّٰیٰ المقدور हत्ताल-मक़दूर
+حتی المقدور हत्ताल-मक़दूर
الحمد अल-हम्द
اثمار असमार
تورات तौरात
t@@ -6415,7 +6434,7 @@
اِخوان इख़वान
دامَ لُطفُہُ۔ दामा लुत्फ़ुहु
ابد الآباد अबदुल-आबाद
-دِتّی अल्लाह-दित्ती
+اللہ دِتّی अल्लाह-दित्ती
کیمبیل कैंबल
نصف निस्फ़
منقولہ मंक़ूला
t@@ -6472,7 +6491,7 @@
خالی الذہن ख़ालिज़-ज़हन
دو تین दो-तीन
کلارک آباد क्लार्काबाद
-خادم الدین ख़ादिमुद-दीन
+خادم الدین ख़ादिमुद्दीन
جلا کٹا जला-कटा
جلی کٹی जली-कटी
چھوٹا موٹا छोटा-मोटा
t@@ -6481,7 +6500,179 @@
چھوٹی بڑی छोटी-बड़ी
جد जिद्द
سال بسال साल बसाल
-وارث الدین वारिसुद-दीन
+وارث الدین वारिसुद्दीन
بمشکل बमुश्किल
ذی عزت ज़ी-इज़्ज़त
محرم मुहर्रम
+نجات بخش नजातबख़्श
+رحمت اللہ रहमतुल्लाह
+حشمت اللہ हशमतुल्लाह
+خیر اللہ ख़ैरुल्लाह
+عنایت اللہ इनायतुल्लाह
+نعمت اللہ नेमतुल्लाह
+برکت اللہ बरकतुल्लाह
+دن رات दिन-रात
+پیر فقیر पीर-फ़क़ीर
+پیروں-فقیروں पीरों-फ़क़ीरों
+کرتہ پاجامہ कुरता पाजामा
+دینا ناتھ दीना नाथ
+چند روزہ चंद-रोज़ा
+خاطر خواہ ख़ातिरख़ाह
+تھوک थोक
+پُر جوش पुरजोश
+محنت مشقّت महनत-मशक़्क़त
+آتا جاتا आता-जाता
+آتی جاتی आती-जाती
+آتے جاتے आते-जाते
+اچھا بھلا अच्छा-भला
+اچھی بھلی अच्छी-भली
+اچھے بھلے अच्छे-भले
+پڑھا لکھا पढ़ा-लिखा
+پڑھی لکھی पढ़ी-लिख़ी
+پڑھے لکھے पढ़े-लखे
+ایک دو एक-दो
+روٹی پانی रोटी-पानी
+کم گو कमगो
+نرم گو नरमगो
+پانچ سات पाँच-सात
+امام الدین इमामुद्दीन
+قال क़ाल
+ظفر وال ज़फ़रवाल
+فرشتہ خَصلت फ़रिश्ता-ख़सलत
+بروس बरूस
+وقتاً فوقتاً वक़्तन फ़वक़्तन
+سدووالہ सदूवाला
+گوگیرہ गोगेरा
+عمائد अमाइद
+عُمال उम्माल
+پاکپتن पाकपतन
+پسرور पसरूर
+عیسی ईसा
+عیسیٰ ईसा
+خوب رو ख़ूबरू
+جاذبہ जाज़िबा
+الہٰ باد इलाहाबाद
+خالد ख़ालिद
+محمود महमूद
+عارف आरिफ़
+پَے पै
+ہندی हिंदी
+سنسکرت संस्कृत
+عبادات इबादात
+دینیات दीनियात
+بنارس बनारस
+نیچرل नैचरल
+سالہا سال सालहासाल
+راول پنڈی रावलपिंडी
+جہلم झेलम
+صوفیہ सूफ़िया
+درویشاں दरवेशाँ
+اضلاع अज़ला
+جھنگ झंग
+مظفر گڑھ मुज़फ़्फ़रगढ़
+عربستان अरबिस्तान
+حرمین हरमैन
+وداع विदा
+یکا یک यकायक
+نیلکنٹھ नीलकंठ
+یا جداہ या-जदाह
+وا تباہ वा-तबाह
+قاسم कासिम
+سہورا साहोरा
+ناحق नाहक़
+سلطان सुलतान
+افغانستان अफ़ग़ानिस्तान
+لوگر लोगर
+بَرَکی बरकी
+راجان राजान
+کابل क़ाबुल
+پچیس पच्चीस
+پایندہ पायंदा
+ما मा
+سید सैयिद
+عبد الرحمان अब्दुर्रहमान
+روس रूस
+سربرآوردہ सर-बर-आवरदा
+غازی ग़ाज़ी
+قندہار क़ंदहार
+ابدال अबदाल
+پشاور पेशावर
+یارقند यारकंद
+بخارا बुख़ारा
+ق क़
+اظہار الحق इज़हारुल-हक़
+وِزٹنگ विज़िटिंग
+تپاک तपाक
+تاکیداً ताकीदन
+مباحثین मुबाहिसीन
+ذکریا ज़करिया
+عبد الواحد अब्दुल-वाहिद
+لین लेन
+سمتھ स्मिथ
+جوزف जोज़फ़
+بہاری बहारी
+ہیڈ हैड
+رُفقا रुफ़क़ा
+عباس अब्बास
+ندوۃ المتکلمین नदवतुल-मुतकल्लिमीन
+مکّہ मक्का
+مدینہ मदीना
+فی الفور फ़िलफ़ौर
+جدّہ जेद्दा
+حسام الدین हुस्सामुद्दीन
+کشف الحقائق कश्फ़ुल-हक़ाइक़
+عرفات अरफ़ात
+وضیع वज़ी
+الہٰی इलाही
+ندوَۃ المتکلّمین नदवतुल-मुतकल्लिमीन
+ندوَۃ المتکلمین नदवतुल-मुतकल्लिमीन
+ضیاء الاسلام ज़ियाउल-इस्लाम
+عبد الرؤف अब्दुर-रौफ़
+گرینڈ ग्रैंड
+منصور मंसूर
+سامعین सामईन
+یک قلم यक-क़लम
+الزلزلہ अज़्ज़लज़ला
+علیہ السلام अलैहिस्सलाम
+مُصلِحان मुसलिहान
+متقین मुत्तक़ीन
+مشکوٰۃ मिश्कात
+مسعود मसूद
+بموجب बमूजिब
+ترمذی तिरमिज़ी
+دارمی दारिमी
+کتاب الفتن किताबुल-फ़ितन
+فی الحوض फ़िल-हौज़
+الشفاعت अश-शफ़ाअत
+
+مطبوعہ मतबुआ
+مجتبائی मुजतबाई
+ابی ذر अबी-ज़र
+بالاعمال बिलआमाल
+لا الٰہ الّا اللہ ला इलाहा इल्लल्लाह
+ابو ذر अबू-ज़र
+بخاری बुख़ारी
+راویان रावियान
+ابو ہریرہ अबू-हुरैरा
+قریش क़ुरैश
+عبد مناف अब्द-मुनाफ़
+عبد المطلّب अब्दुल-मुतत्लिब
+صفیہ सफ़िया
+نورانی नूरानी
+علی الاعلان अलल-एलान
+محقّقانہ मुहक़्क़िक़ाना
+مخالفانہ मुख़ालिफ़ाना
+بالمقابل बिल-मुक़ाबिल
+توہمّات तवह्हुमात
+کینن कैनन
+لیجرڈ लीजर्ड
+سینٹ संट
+پالز पाल्ज़
+حزب हिज़बुल्लाह
+افعال अफ़ाल
+سہواً सहवन
+ربّنا रब्बुना
+حسن हसन
+سوائے सिवाए
+جائے پیدائش जाए-पैदाइश
+
DIR diff --git a/data/nouns_adjectives/o_a_staysfem.txt b/data/nouns_adjectives/o_a_staysfem.txt
t@@ -42,3 +42,5 @@
چُٹیا चुटिया
دُعا दुआ
سبھا सभा
+غزا ग़िज़ा
+کرزن कर्ज़न
DIR diff --git a/data/nouns_adjectives/o_a_staysmasc.txt b/data/nouns_adjectives/o_a_staysmasc.txt
t@@ -27,3 +27,4 @@
ناروا नारवा
نازیبا नाज़ेबा
عُضو अज़ु
+عضو अज़ु
DIR diff --git a/data/nouns_adjectives/u_staysfem.txt b/data/nouns_adjectives/u_staysfem.txt
t@@ -9,3 +9,5 @@
آبر आबर
گفتگ गुफ़्तग
گُفتگ गुफ़्तग
+جست ج जुस्तज
+ابرو अबरू
DIR diff --git a/data/nouns_adjectives/u_staysmasc.txt b/data/nouns_adjectives/u_staysmasc.txt
t@@ -34,3 +34,5 @@
ہند हिंद
لہ लह
باب बाब
+سُرخ رُ सुर्ख़र
+
DIR diff --git a/data/nouns_adjectives/ui_oi_ai_mascfem.txt b/data/nouns_adjectives/ui_oi_ai_mascfem.txt
t@@ -81,3 +81,4 @@
سچّا सच्चा
راست گو रास्तगो
ہمسا हमसा
+بہنو बहनो
DIR diff --git a/data/pairs_middle_e_o.txt b/data/pairs_middle_e_o.txt
t@@ -88,4 +88,6 @@
لو دبار लो-दिबार
نشو و نما नशो-नुमा
نو آمون नो-आमून
+دو ایک दो-एक
+ڈیڑھ دو दो-डेढ
DIR diff --git a/data/special.hi_ur.txt b/data/special.hi_ur.txt
t@@ -1,5 +1,28 @@
ِ े-
و ो-
سالہ -साला
- با बा-
+حوالہ हवाला
+حوالے हवाले
+حوالوں हवालों
+حوالو हवालो
+زوالوں ज़वालों
+زوالو ज़वालो
+سوالوں सवालों
+سوالو सवालो
+لازوالوں लाज़वालों
+لازوالو लाज़वालो
+نوالوں नवालों
+نوالو नवालो
+متوالوں मतवालों
+متوالو मतवालो
+متوالی मतवाली
+متوالیوں मतवालियों
+متوالیو मतवालियो
+رکھوالی रखवाली
+رکھوالیوں रखवालियों
+رکھوالیو रखवालियो
+رکھوالا रखवाला
+رکھوالے रखवाले
+رکھوالوں रखवालों
+رکھوالو रखवालो
DIR diff --git a/data/special.ur_hi.txt b/data/special.ur_hi.txt
t@@ -1,10 +1,10 @@
-ِ े-
و ो-
ذرائعِ ज़राएये-
انبیائے अंबियाए-
دریائے दरियाए-
خدائے ख़ुदाए-
عصائے असाए-
+غذائے ग़िज़ाए-
سزائے सज़ाए-
ایشیائے एशियाए-
دعائے दुआए-
t@@ -18,8 +18,6 @@
رُوئے زمین रूए-ज़मीन
رُوئے قرآن रूए-क़ुरान
اشیائے अश्याए-
-سوائے सिवाए
- سالہ -साला
- با बा-
بہ ब
+بالائے बालाए-
DIR diff --git a/data/verbs/irregular.txt b/data/verbs/irregular.txt
t@@ -344,7 +344,4 @@
سہنی सहनी
سہئے सहिए
کِیا किया
-
-خوب رو ख़ूबरू
-میل मेल
-کار گر कारगर
+تفکّرات तफ़क्कुरात
DIR diff --git a/data/verbs/regular_consonant_ending.txt b/data/verbs/regular_consonant_ending.txt
t@@ -514,3 +514,4 @@
گِن गिन
کُوٹ कूट
کھِنچ खिंच
+بُھول भूल
DIR diff --git a/data/verbs/regular_ending_in_a_o.txt b/data/verbs/regular_ending_in_a_o.txt
t@@ -314,3 +314,8 @@
گِڑگِڑا गिड़गिड़ा
مُسکرا मुसकरा
چُھڑا छुड़ा
+چھُپا छुपा
+تُڑوا तुड़वा
+بکوا बिकवा
+دبوا दबवा
+پہنچوا पहुँचवा