Bilgisayar Mühendisliği Bölümü Koleksiyonu
Permanent URI for this collectionhttps://hdl.handle.net/20.500.11779/1940
Browse
5 results
Search Results
Conference Object Citation - WoS: 1Neural Language Generation for a Turkish Task-Oriented Dialogue System(PROCEEDINGS OF THE WORKSHOP ON INTELLIGENT INFORMATION PROCESSING AND NATURAL LANGUAGE GENERATION, 2020) Mecik, Artun Burak; Özer, Volkan; Bilgin, Batuhan; Çakar, Tuna; Demir, ŞenizRapidly growing language and speech-enabled technologies contribute to the development of task-oriented dialogue systems. The demand for better user engagement has been increasing at an accelerating pace and this brings new remarkable challenges including the generation of informative and natural system utterances. In this work, our ultimate goal is to develop a Turkish task-oriented dialogue system that enables users to navigate over a map in order to get informed about dining venues that best match their preferences and make reservations based on received recommendations. This paper presents the pipeline architecture of our dialogue system with a particular focus on the language generator. We utilize an open source framework for building the components of our system and develop a sequence-to-sequence (Seq2Seq) neural model for language generation. This pioneering work is the first that proposes the use of a neural generation model in a Turkish conversational system. Our evaluations suggest that Turkish neural generation from meaning representations given in the form of dialogue acts is effective, but still in need of further improvements.Conference Object Citation - Scopus: 1Does Prompt Engineering Help Turkish Named Entity Recognition?(Institute of Electrical and Electronics Engineers Inc., 2024-10-26) Pektezol, A.S.; Ulugergerli, A.B.; Öztoklu, V.; Demir, ŞenizThe extraction of entity mentions in a text (named entity recognition) has been traditionally formulated as a sequence labeling problem. In recent years, this approach has evolved from recognizing entities to answering formulated questions related to entity types. The questions, constructed as prompts, are used to elicit desired entity mentions and their types from large language models. In this work, we investigated prompt engineering in Turkish named entity recognition and studied two prompting strategies to guide pretrained language models toward correctly identifying mentions. In particular, we examined the impact of zero-shot and few-shot prompting on the recognition of Turkish named entities by conducting experiments on two large language models. Our evaluations using different prompt templates revealed promising results and demonstrated that carefully constructed prompts can achieve high accuracy on entity recognition, even in languages with complex morphology. © 2024 IEEE.Article Citation - WoS: 3Citation - Scopus: 3A Benchmark Dataset for Turkish Data-To Generation(Elsevier, 2023-01-01) Demir, Şeniz; Öktem, SezaIn the last decades, data-to-text (D2T) systems that directly learn from data have gained a lot of attention in natural language generation. These systems need data with high quality and large volume, but unfortunately some natural languages suffer from the lack of readily available generation datasets. This article describes our efforts to create a new Turkish dataset (Tr-D2T) that consists of meaning representation and reference sentence pairs without fine-grained word alignments. We utilize Turkish web resources and existing datasets in other languages for producing meaning representations and collect reference sentences by crowdsourcing native speakers. We particularly focus on the generation of single-sentence biographies and dining venue descriptions. In order to motivate future Turkish D2T studies, we present detailed benchmarking results of different sequence-to-sequence neural models trained on this dataset. To the best of our knowledge, this work is the first of its kind that provides preliminary findings and lessons learned from the creation of a new Turkish D2T dataset. Moreover, our work is the first extensive study that presents generation performances of transformer and recurrent neural network models from meaning representations in this morphologically-rich language.Conference Object Citation - Scopus: 3An Xml Parser for Turkish Wikipedia(IEEE, 2019-04-01) Demir, Şeniz; Vardar, Uluç Furkan; Devran, İlkay TevfikNowadays, visual and written data that can be easily accessed over the internet has enabled the development of research in many different fields. However, the availability of data is not sufficient by itself. It is of great importance that these data can be effectively utilized and interpreted in accordance with the requirements. Access to written content in the Wikipedia encyclopedia, which is becoming increasingly common in Turkish natural language processing, can be done via XML dumps. In this study, our aim is to develop and demonstrate the applicability of an XML parser for the processing of Turkish Wikipedia dumps. The use of the open-source parser, which allows information extraction at different levels of granularity, is reported on pages containing biography infoboxes and textual contents.Research Project Özyinelemeli Sinir Ağları ile Türkçe Doğal Dil Üretimi(TÜBİTAK, 2018) Demir, Şeniz; Gökmen, Muhittin; Gökmen, Muhittinİnsanlar arasındaki iletişimi sağlayan doğal diller, zaman içinde insanlarla etkin ve kullanıcı dostu etkileşim kurabilmek amacıyla sistemler ve yazılımlar tarafından kullanılmaya başlanmıştır. Tıpkı insanlar gibi sesli veya yazılı doğal dil ifadelerini anlayabilen ve sonrasında kullanıcıların beklentilerini karşılayabilen dil tabanlı teknolojiler (örn. arama motorları, bilgisayar destekli eğitici sistemler ve diyalog sistemleri) bu motivasyonla ortaya çıkmıştır. Bu çalışmalarda, problemin doğası ve hedef dilin yapısındaki zorluklara ek olarak insanların doğal dilleri nasıl öğrendiğini ve kullandığını modellemedeki kısıtlar başarım oranlarını etkilemiştir. Günümüzde, dil tabanlı teknolojiler insanlar tarafından yaygın şekilde kullanılıyor olsalar da (örn. Google Arama Motoru ve Apple Siri), ulaşılan teknolojik seviye hedef dile göre çeşitlilik göstermektedir. Sondan eklemeli ve zengin dil yapısı ile Türkçe geliştirilen teknolojik çözümler ve üretilen veri kaynakları açısından pek çok doğal dilin gerisinde kalmaktadır. Ayrıca, bugüne kadar Türkçe dil teknolojileri konusunda yapılan çalışmaların ağırlıklı olarak dili işleme, anlama ve analiz etmeye dönük (örn. kelimelerin morfolojik analizi, özel isim tespiti, bağlılık çözümlemesi, metin sınıflandırma ve metin özetleme) olduğu gözlemlenmektedir. Türkçe dil üretimi konusunda sınırlı yeteneklere sahip ve akademik seviyede kalarak devamı getirilmemiş birkaç çalışma mevcuttur. Fakat bu çalışmalar karmaşık sayılabilecek dilbilimi teorileri ile ifade edilen içerik ifadelerini cümlelere dönüştürmekten öteye geçmemiştir ve başka uygulamalarla entegre olarak test edilmemiştir. Bu çalışmada, Türkçe dilinin derin öğrenme tabanlı bir sistem (dil aracı) ile otomatik olarak üretimi hedeflenmektedir. Bu sistemin, girdi olarak verilen içerik ifadelerini Türkçe dili kurallarına uygun ve anlaşılır cümlelere dönüştüreceği öngörülmektedir. Literatürdeki en kapsamlı Türkçe dil üretimi sistemi olması planlanan bu çalışmada son yıllarda pek çok dil teknolojisinde başarımı ispat edilmiş diziden diziye öğrenebilen (örn. kelime dizisinden başka bir kelime dizisi) özyinelemeli sinir ağı yapıları kullanılacaktır. Bu ağların sağladığı dinamiklik ile farklı çeşitler (örn. uzun kısa süreli bellek ve girişli özyinelemeli birim) ve genişlemeler (örn. dikkat mekanizması) denenecektir ve başarımı en yüksek sinir ağı mimarisi belirlenecektir. Buna ek olarak, sinir ağlarının kullanımı bazı faktörlerin (örn. bağlam bilgisi ve kullanıcı tercihleri) sisteme entegrasyonuna ve üretim aşamasına olan etkilerinin incelenmesine imkân sağlayacaktır.
