在术语列表中对项目进行排名_python

我有以下格式的平行语料库：

parallel_corpus =
one sentence in Italian : one sentence in English
one sentence in Italian : one sentence in English

我有这种格式的双语术语列表

bigram_list =
Difensori dei diritti umani, libertà di espressione > Human rights defenders, freedom of expression

sgomberi forzati, violazioni dei diritti umani > forced evictions, human rights violations

因此，双语术语文件中的每一行都包含两种语言的术语，并用“>”分隔

我想要的是，针对以上文件中的每一行，关联成对的候选翻译（一种语言的术语，另一种语言的术语）。 因此，对于上面的第一个示例，二元组将如下所示：

('Difensori dei diritti umani','Human rights defenders')
('Difensori dei diritti umani','freedom of expression')
('libertà di espressione','Human rights defenders')
('libertà di espressione','freedom of expression')

然后，我想估计像上述每个双元组的相互信息，将选择具有高价值的双元组。 我尝试了这段代码

for line in bigram_list.splitlines():
    n = 0
    s = 0.001
    a = 0
    b = 0
    c = 0
    d = 0
    mi = ''
    bi= []
    trans = line.split(' > ')
    left =  trans[0].split(', ')
    right = trans[1].split(', ')
    for i in left:
            for j in right:
                    for line in parallel_corpus.splitlines():
                            n += 1
                            if i in line and j in line:
                                    a += 1
                            elif i in line and not j in line:
                                    b+= 1
                            elif j in line and not i in line:
                                    c+= 1
                            else:
                                    d +=1
                    mi = log(((a +s)/n)/(((b+s)/n)*((c+s)/n)))
                    bi.append((i,j,mi)) 
    print (bi)

此代码给出以下输出

[('Difensori dei diritti umani', 'Human rights defenders', 9.747427586368971), ('Difensori dei diritti umani', 'freedom of expression', 4.054309816276213), ('libertà di espressione', 'Human rights defenders', 1.7964873912918353), ('libertà di espressione', 'freedom of expression', 3.5916971873132355)]
[('sgomberi forzati', 'forced evictions', 9.971061859787796), ('sgomberi forzati', 'human rights violations', 5.278014664230184), ('violazioni dei diritti umani', 'forced evictions', 4.3759922075718447), ('violazioni dei diritti umani', 'human rights violations', 2.760410122135915)]

我需要的是bigram_list中的每一行，如果有成对的第一个元素相同，请选择一对具有较高值的??对。 一个例子：在下一行

[('Difensori dei diritti umani', 'Human rights defenders', 4.747427586368971), ('Difensori dei diritti umani', 'freedom of expression', 4.054309816276213), ('libertà di espressione', 'Human rights defenders', 3.7964873912918353), ('libertà di espressione', 'freedom of expression', 3.5916971873132355)]

我们有

('Difensori dei diritti umani', 'Human rights defenders', 9.747427586368971)

'Difensori dei diritti umani', 'freedom of expression', 4.054309816276213

因此，我们必须选择第一对，它们与第二对包含相同的第一元素（“ Difensori dei diritti umani”），但具有很高的价值。

有人可以帮忙吗？

由于只需要具有相同的第一个元素和最大值的对，因此可以创建一个以first element为键的字典。 您可以遍历元组列表，并检查键（元组的第一个元素）是否存在。 如果确实存在，请检查该值是否大于字典中的值，如果为true，则将其替换。

以下是与您的示例相关的代码：

temp_dict = {}
for i in a:
    if temp_dict.has_key(i[0]):
        if (temp_dict[i[0]][2] < i[2]):
            temp_dict[i[0]] = i
    else:
        temp_dict[i[0]] = i

遍历示例代码中的两个列表后的输出：

{'violazioni dei diritti umani'：（'violazioni dei diritti umani'，'强迫迁离'，4.375992207571844），'Difensori dei diritti umani'：（'Difensori dei diritti umani'，'人权捍卫者'，9.747427586i971，' forzati” ：（“ sgomberi forzati”，“强行驱逐”，9.971061859787795），“ libert \\ xc3 \\ xa0 di espressione” ：（“ libert \\ xc3 \\ xa0 di espressione”，“表达自由”，3.5916971873132355）

在术语列表中对项目进行排名

问题描述

1楼