4000-520-616
欢迎来到免疫在线!(蚂蚁淘生物旗下平台)  请登录 |  免费注册 |  询价篮
主营:原厂直采,平行进口,授权代理(蚂蚁淘为您服务)
咨询热线电话
4000-520-616
当前位置: 首页 > 新闻动态 >
新闻详情
...Eine parametrisierbare Suchmaschine für intertextuelle...
来自 : www.researchgate.net/publicati 发布时间:2021-03-25
6.1.2020 „The Vectorian“ – Eine parametrisierbare Suchmaschine für intertextuelle Referenzenfile:///Users/burghardt/Dropbox/03_FORSCHUNG/01 Publikationen/2020 DHd Paderborn/2_Vectorian/_FINAL/BURGHARDT_Manuel__The_Vectorian____…4/55. “ Similarity Threshold” regelt den Schwellwert zur Ähnlichkeitsbewertung zwischen Wörtern. Ein niedrigerSchwellwert erlaubt bspw. größere Abweichungen und kann dadurch auch zu einem größeren Rauschendurch mehr false positives führen.3. BeispielabfragenDer Vectorian wurde als parametrisierbare und interpretierbare Suchmaschine konzipiert, um einen explorativenZugang zur Analyse unterschiedlicher Parameterkonfigurationen auf potenzielle Suchergebnisse, also in unseremFalle Shakespeare-Referenzen, zu ermöglichen. Nachfolgend illustrieren wir einige Auswirkungen unterschiedlicherParametereinstellungen am Beispiel der kurzen Shakespeare-Phrase “under the greenwood tree” (aus Shakespeares„As you like it“).Die am besten bewerteten Ergebnisse sind zunächst viele Varianten nach dem Schema “under the X tree”, bspw.“under the chestnut tree”. Mit dem Parameter mismatch length penalty kann man zusätzlich steuern, wie vieleEinfügungen in den Treffern erlaubt sind. Werden Einfügungen nur in geringem Umfang erlaubt, dann erhält man vorallem Sätze bei denen die Präposition variiert wird, bspw. “ beneath the beech tree”. Erlaubt man hingegen mehrEinfügungen, kommt es entsprechend auch zu Ergebnissen wie “under the dear old plane tree”.Beim Parameter der embeddings-Wahl sieht man sehr gut, wie FastText und WordNet ganz unterschiedlichePräferenzen bei der Auswahl von alternativen „trees“ liefern ( FastText: „ chestnut“ „ beech“ vs. WordNet: „ beech“ „ oak“). Das mixed embedding (also eine Aktivierung beider embeddings zu gleichen Teilen) scheint Vorteile beiderembeddings optimal zu kombinieren, indem z.B. „oak tree“ höher gewertet wird als „bodhi tree“, wobei es sich beiLetzterem um einen spezifischen Baum aus einem religiösen Kontext handelt.POST-STSS, ein Parameter der unterschiedliche POS unterschiedlich stark gewichtet, ist in Kombination mit demWordNet embedding am aufschlussreichsten: Mit POST STSS werden im Zweifel reine Baumphrasen bevorzugt( the fir tree , the yew tree ). Ohne POST-STSS werden auch Substantive hoch bewertet, die mit Bäumen zwarnichts zu tun haben, dafür aber eine hohe semantische Nähe zu anderen Wörtern aufweisen, z.B. „greenwood“ und„garden“.4. Fazit und AusblickIm aktuellen Stadium dient der Vectorian wie eingangs geschildert zunächst als Experimentierplattform, mit derenHilfe man explorativ die Auswirkungen unterschiedlicher Einstellungsparameter erproben kann. Im nächsten Schrittsoll eine systematische Evaluierung der Suchmaschine erfolgen, indem gegen eine vorab definierte ground truth anShakespeare-Zitaten in einem Teilkorpus aus Fantasy-Romanen gesucht wird. Dabei werden alle möglichenParameterkonfigurationen (insgesamt 72 Kombinationsmöglichkeiten) nacheinander durchgerechnet und diejeweiligen Bewertungen der einzelnen Sätze dokumentiert. Weiterhin soll berücksichtigt werden, wie viele falsepositives sich unter die true positives aus der ground truth mischen. Ziel ist es, diejenige Konfiguration zuidentifizieren, die für möglichst viele Sätze der ground truth einen hohen alignment score aufweist und dabei die Zahlder false positives minimiert. Im nächsten Schritt sollen dann mit der bestbewerteten Konfiguration systematischmehrere hundert Shakespeare-Zitate, die aus bestehenden Zitate-Datenbanken wie WikiQuote(https://en.wikiquote.org/) extrahiert werden, in einem großen Korpus von Fantasy-Literatur und Transkripten vonFilmen und TV-Serien gesucht werden 5 .Appendix ABibliographie1. Bär, D., Zesch, T. Gurevych, I. (2012). Text Reuse Detection using a Composition of Text Similarity Measures. Proceedings ofCOLING 2012, 167-184.2. Bär, D., Zesch, T. Gurevych, I. (2015). Composing Measures for Computing Text Similarity. Technical Report TUD-CS-2015-0017,TU Darmstadt.3. Batanović, V., Bojić, D. (2015). “Using Part-of-Speech Tags as Deep Syntax Indicators in Determining Short Text SemanticSimilarity . In Computer Science and Information Systems, 12(1), S. 1–31.4. Beeferman, D., Berger, A., Lafferty, J. (1997). A model of lexical attraction and repulsion. In Proceedings of the 8th Conference onEuropean Chapter of the Association for Computational Linguistics, S. 373-380.5. Bubenhofer, N. (2019). Word Embeddings: Funktionale Äquivalenz statt Synonymie. Publiziert auf Sprechtakel-Blog (2.3.2019),online verfügbar unter https://www.bubenhofer.com/sprechtakel/2019/03/02/.word-embeddings-funktionale-aequivalenz-statt-synonymie/6. Burghardt, M., Meyer, S., Schmidtbauer, S. Molz, J. (to appear in 2019). “The Bard meets the Doctor” – ComputergestützteIdentifikation intertextueller Shakespearebezüge in der Science Fiction-Serie Dr. Who. In Book of Abstracts, DHd 2019.7. Garber, M. (2005). Shakespeare after All. New York: Anchor Books.8. Genette, G. (1993). Palimpseste. Die Literatur auf zweiter Stufe. Frankfurt am Main: Suhrkamp. Translation of the revised secondedition. [Genette, G. (1982). Palimpsestes. La littérature au second degré. Paris: Éditions de Seuil. Revised 2nd edition 1983.]

本文链接: http://intertexworld.immuno-online.com/view-774517.html

发布于 : 2021-03-25 阅读(0)