Bc. Jan PAŠEK

Master's thesis

Source Code Generation from Descriptions in a Natural Language

Source Code Generation from Descriptions in a Natural Language
Abstract:
This work introduces CodeFormer, a Python source code generator pre-trained on a massive GitHub crawl consisting of 230M Python functions. The released model, built on BART architecture, generates Python functions based on descriptions in English. On a CodeSearchNet dataset, the CodeFormer sets a new state of the art with 46.12 BLEU, representing an improvement of 13.86 BLEU. We also release a new …more
Abstract:
Tato diplomová práce představuje CodeFormer, nový model neuronové sítě, schopný na základě popisu úlohy v anglickém jazyce generovat funkce v programovacím jazyce Python. Tento model, založený na architektuře modelu BART, je předtrénovaný na 230 milionech funkcích získaných z veřejných GitHub repozitářů. Po dotrénování na CodeSearchNet datasetu náš model překonává konkurenční modely a nastavuje tak …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 18. 5. 2022
Accessible from:: 31. 12. 2999

Thesis defence

  • Supervisor: Ing. Miloslav Konopík, Ph.D.

Citation record

The right form of listing the thesis as a source quoted

PAŠEK, Jan. Source Code Generation from Descriptions in a Natural Language. Plzeň, 2022. diplomová práce (Ing.). ZÁPADOČESKÁ UNIVERZITA V PLZNI. Fakulta aplikovaných věd

Full text of thesis

Accessibility: Autor si nepřeje zpřístupnění práce veřejnosti

Contents of on-line thesis archive
Published in Theses:
  • Soubory jsou nedostupné.
Other ways of accessing the text
Institution archiving the thesis and making it accessible: ZÁPADOČESKÁ UNIVERZITA V PLZNI, Fakulta aplikovaných věd
Vázaný výtisk práce naleznete v Univerzitní knihovně ZČU, více na http://www.knihovna.zcu.cz/kvalifikacni-prace/