Definition av disambiguation in Language Studies

I lingvistik, disambiguation är processen att bestämma vilken känsla av a ord används i en viss sammanhang. Även känd som lexikal disambiguation.

Inom beräkningslingvistik kallas denna diskriminerande process ord-känsla disambiguation (WSD).

Exempel och observationer

"Det är så att vår kommunikation, likgiltig språk lika, tillåter att samma ordform används för att betyda olika saker i individuella kommunikativa transaktioner. Konsekvensen är att man måste räkna ut, i en viss transaktion, den avsedda betydelsen av ett givet ord bland dess potentiellt associerade betydelser. Medan oklarheter som härrör från sådana multipla form-betydande associationer är vid lexikalisk nivå måste de ofta lösas med hjälp av ett större sammanhang från samtala bädda in ordet. Därför kunde de olika betydelserna av ordet "tjänst" bara skiljas åt om man kunde se bortom själva ordet, som att kontrastera "den spelarens tjänst på Wimbledon' med 'servitörens tjänst i Sheraton.' Denna process att identifiera ordbetydelser i en diskurs är generellt känd som

instagram viewer

ordet mening disambiguation (WSD)." (Oi Yee Kwong, Nya perspektiv på beräknings- och kognitiva strategier för disambiguation av ordkänsla. Springer, 2013)

Lexical disambiguation and Word-Sense Disambiguation (WSD)

"Lexikalisk disambiguation i sin bredaste definition är inget mindre än att bestämma betydelsen av varje ord i sitt sammanhang, vilket framstår som en i stort sett omedveten process hos människor. Som ett beräkningsproblem beskrivs det ofta som 'AI-komplett', det vill säga ett problem vars lösning förutsätter en lösning för att slutföra naturligt språk förståelse eller sunt förnuft (Ide och Véronis 1998).

"Inom området beräkningslingvistik kallas problemet allmänt för ordbetydningsdisambiguation (WSD) och definieras som problemet med att beräkningsmässigt bestämma vilken "känsla" av ett ord som aktiveras av användningen av ordet i ett visst sammanhang. WSD är i huvudsak en klassificeringsuppgift: ordsinne är klasserna, sammanhanget ger bevis, och varje förekomst av ett ord tilldelas en eller flera av dess möjliga klasser baserat på bevis. Detta är den traditionella och vanliga karaktäriseringen av WSD som ser det som en explicit process av disambiguering med avseende på en fast inventering av ordsinne. Ord antas ha en ändlig och diskret uppsättning sinnen från a ordbok, en lexikal kunskapsbas eller en ontologi (i den senare bemärkelserna motsvarar begrepp som ett ord lexikaliserar). Applikationsspecifika inventeringar kan också användas. Till exempel, i en maskinöversättning (MT)-inställning, kan man behandla ordöversättningar som ordsinne, en tillvägagångssätt som blir alltmer genomförbart på grund av tillgången på stora flerspråkiga parallell korpora som kan fungera som träningsdata. Det fasta lagret av traditionella WSD minskar komplexiteten i problemet, men alternativa fält finns.. .." (Eneko Agirre och Philip Edmonds, "Introduktion." Disambiguation av ordkänsla: Algoritmer och applikationer. Springer, 2007)

Homonymi och disambiguation

"Lexikalisk disambiguation är väl lämpad särskilt för fall av homonymitill exempel en förekomst av bas måste mappas till någon av de lexikala posterna bas₁ eller bas₂, beroende på den avsedda innebörden.

"Lexikal disambiguation innebär ett kognitivt val och är en uppgift som hämmar förståelseprocesser. Det bör särskiljas från processer som leder till en differentiering av ordsinne. Den förra uppgiften utförs ganska tillförlitligt även utan mycket kontextuell information medan den senare inte gör det (jfr. Veronis 1998, 2001). Det har också visat sig att homonyma ord, som kräver disambiguation, bromsar lexikal tillgång, medan polysemiska ord, som aktiverar en mångfald av ordsinne, påskyndar lexikal tillgång (Rodd e.a. 2002).

"Men både den produktiva modifieringen av semantiska värden och det enkla valet mellan lexikalt olika objekt har gemensamt att de kräver ytterligare icke-lexikalisk information." (Peter Bosch, "Productivity, Polysemy, and Predicate Indexicality." Logik, språk och beräkningar: 6:e internationella Tbilisisymposium om logik, språk och beräkningar, red. av Balder D. ten Cate och Henk W. Zeevat. Springer, 2007)

Lexisk kategoridisambiguation och principen om sannolikhet

"Corley och Crocker (2000) presenterar en modell med bred täckning av lexikal kategoridisambiguation baserat på Principen om sannolikhet. Specifikt föreslår de det för en mening som består av ord w₀... w_n, antar meningsbehandlaren det mest troliga del av tal sekvens t₀... t_n. Mer specifikt utnyttjar deras modell två enkla sannolikheter: (i) ords betingade sannolikhet w_i ges en viss del av talet t_i, och (ii) sannolikheten för t_i med tanke på föregående del av talet t_i-1. När varje ord i meningen påträffas, tilldelar systemet det den del av talet t_i, vilket maximerar produkten av dessa två sannolikheter. Denna modell drar nytta av den insikt som många syntaktisk tvetydigheter har en lexikal grund (MacDonald et al., 1994), som i (3):

(3) Lagerpriserna/märkena är billigare än resten.

"Dessa meningar är tillfälligt tvetydiga mellan en läsning där priser eller gör är huvudverb eller del av en sammansatt substantiv. Efter att ha tränats på en stor korpus förutsäger modellen den mest sannolika delen av talet för priser, korrekt redogörelse för det faktum att folk förstår pris som ett substantiv men gör som ett verb (se Crocker & Corley, 2002, och referenser som citeras där). Modellen står inte bara för en rad disambigueringspreferenser med rötter i lexikal kategori tvetydighet, det förklarar också varför människor i allmänhet är mycket noggranna när det gäller att lösa sådana oklarheter." (Matthew W. Crocker, "Rationella modeller för förståelse: Adressering av prestationsparadoxen." Tjugoförsta århundradets psykolingvistik: fyra hörnstenar, red. av Anne Cutler. Lawrence Erlbaum, 2005)