Disambiguation in Linguistics and Computational Linguistics

I lingvistik är disambiguation processen att bestämma vilken känsla av ett ord som används i ett visst sammanhang. Även känd som lexikal disambiguation.

I beräkningslingvistik kallas denna diskriminerande process word-sense disambiguation (WSD).

Exempel och observationer

"Det händer så att vår kommunikation på olika språk tillåter samma ordform att användas för att betyda olika saker i enskilda kommunikativa transaktioner. Konsekvensen är att man i en viss transaktion måste ta reda på den avsedda betydelsen av en ordet bland dess potentiellt associerade sinnen tvetydigheter som härrör från sådana multipla formbetydande föreningar på lexikal nivå, måste de ofta lösas med hjälp av ett större sammanhang från diskursen som inbäddar ordet. Därför kunde de olika sinnena i ordet "service" endast berättas om man kunde se bortom själva ordet, som i kontrast till "spelarens tjänst på Wimbledon" med "servitörens tjänst i Sheraton." Denna process för att identifiera ordbetydningar i en diskurs är allmänt känd som ordkänsla disambiguering (WSD). "(Oi Yee Kwong, Nya perspektiv på beräkning och kognitiva strategier för Word Sense Disambiguation. Springer, 2013)

Lexical Disambiguation and Word-Sense Disambiguation (WSD)

"Lexikalisk disambiguering i sin bredaste definition är inget mindre än att bestämma innebörden av varje ord i sammanhang, vilket verkar vara en i stort sett omedveten process hos människor. Som ett beräkningsproblem beskrivs det ofta som "AI-complete", det vill säga ett problem vars lösning förutsätter en lösning för fullständig förståelse av naturspråk eller resonemang av sunt förnuft (Ide och Véronis 1998).

"Inom området beräkningslingvistik kallas problemet vanligtvis word sense disambiguation (WSD) och definieras som problemet att beräkna vilken" känsla "av ett ord som aktiveras genom att använda ordet i ett visst sammanhang. WSD är huvudsakligen en klassificeringsuppgift: ordavkänningar är klasserna, sammanhanget ger bevis, och varje förekomst av ett ord tilldelas en eller flera av dess möjliga klasser baserat på bevisen. Detta är den traditionella och gemensamma karaktäriseringen av WSD som ser det som en uttrycklig process för disambiguering med avseende på en fast inventering av ordavkänningar. Ord antas ha en begränsad och diskret uppsättning sinnen från en ordlista, en lexikal kunskapsbas eller en ontologi (i det senare motsvarar sinnen begrepp att ett ord leksikaliserar). Applikationsspecifika inventeringar kan också användas. Till exempel i en maskinöversättning (MT) kan man behandla ordöversättningar som ordavkänningar, en metod som är mingas allt mer genomförbart på grund av tillgängligheten av stora flerspråkiga parallella företag som kan fungera som utbildningsdata. Den fasta inventeringen av traditionell WSD minskar komplexiteten i problemet, men alternativa fält finns ... "(Eneko Agirre och Philip Edmonds," Introduktion. " Word Sense Disambiguation: algoritmer och applikationer. Springer, 2007)

Homonymi och disambiguation

"Lexikalisk disambiguering är väl lämpad särskilt för fall av homonymi, till exempel en förekomst av bas måste kartläggas på någon av de leksikaliska föremålens bas1 eller bas2, beroende på den avsedda betydelsen.

"Lexisk disambiguation innebär ett kognitivt val och är en uppgift som hämmar förståelseprocesser. Det bör skiljas från processer som leder till en differentiering av ordsensor. Den förra uppgiften utförs ganska pålitligt också utan mycket kontekstuell information medan den sistnämnda inte är (jfr. Veronis 1998, 2001). Det har också visats att homonyma ord, som kräver disambiguation, bromsar lexikal tillgång, medan polysemiska ord, som aktiverar ett flertal ordkänslor, påskyndar lexikal tillgång (Rodd ea 2002).

"Både den produktiva modifieringen av semantiska värden och det enkla valet mellan lexiskt olika objekt har gemensamt att de kräver ytterligare icke-leksikalisk information." (Peter Bosch, "Produktivitet, polysemi och predikatindexualitet." Logik, språk och beräkning: 6: e internationella Tbilisi-symposiet om logik, språk och beräkning, ed. av Balder D. ten Cate och Henk W. Zeevat. Springer, 2007)

Lexikalisk kategori disambiguation och principen om sannolikhet

"Corley och Crocker (2000) presenterar en bred täckningsmodell i lexikalisk kategori disambiguering baserat på Sannolikhetsprincip. De föreslår specifikt att för en mening som består av ord w0... wn, meningsprocessorn antar den mest troliga del-av-tal-sekvensen t0... tn. Mer specifikt utnyttjar deras modell två enkla sannolikheter: (jag) den villkorade sannolikheten för ord wjag givet en viss del av talet tjag, och (ii) sannolikheten för tjag med tanke på föregående del av talet ti-1. När varje ord i meningen träffas, tilldelar systemet det som en del av talet tjag, vilket maximerar produkten av dessa två sannolikheter. Denna modell utnyttjar insikten att många syntaktiska oklarheter har en lexikalisk grund (MacDonald et al., 1994), som i (3):

(3) Lagerpriserna / märkena är billigare än resten.

"Dessa meningar är tillfälligt tvetydiga mellan en läsning där priser eller gör är huvudverb eller del av ett sammansatt substantiv. Efter att ha tränats på ett stort korpus, förutspår modellen den mest troliga delen av talet för priser, korrekt redogöra för det faktum att människor förstår pris som ett substantiv men gör som ett verb (se Crocker & Corley, 2002, och referenser citerade däri). Modellen redogör inte bara för en rad otvetydighetspreferenser som är förankrade i lexikalisk kategori-tvetydighet, utan förklarar också varför människor i allmänhet är mycket noggranna när de löser sådana oklarheter. "(Matthew W. Crocker," Rational Models of Comprehension: Addressing the Prestationsparadox. " Twenty-First Century Psycholinguistics: Fyra hörnstenar, ed. av Anne Cutler. Lawrence Erlbaum, 2005)