Creu offer gwyddor data

Read this blog in English

Y blog hwn yw’r trydydd mewn cyfres sy’n cyflwyno rhywfaint o’r gwaith rydym wedi bod yn ei wneud yn Uned Gwyddor Data Llywodraeth Cymru. Mae llawer o’r gwaith a wnawn fel gwyddonwyr data yn cynnwys dadansoddi data mewn rhyw ffordd, ond rydym hefyd yn hoffi datblygu offer sy’n helpu pobl i weithio gyda data. Dyma ychydig o enghreifftiau o bethau rydyn ni wedi bod yn eu datblygu.

Datblygu pecynnau meddalwedd i wneud dadansoddi’n haws

Mae ieithoedd rhaglennu ffynhonnell agored fel R a Python yn offer gwych ar gyfer gweithio gyda data. Mae’r rhan fwyaf o’r gwaith a wnawn yn cynnwys defnyddio pecynnau, sy’n ddarnau o feddalwedd a adeiladwyd gan raglenwyr i wneud tasgau penodol. Mae pecynnau R a Python yn ein galluogi i wneud llawer o bethau anhygoel, fel glanhau a strwythuro data, gwneud lleiniau hardd, neu adeiladu modelau dysgu peirianyddol.

Yn ôl ym mis Ionawr 2020, datblygais becyn R ar gyfer lawrlwytho data o StatsCymru, storfa data ystadegol Llywodraeth Cymru. Rhoddais y teitl creadigol iawn statswalesr iddo a’i gyhoeddi ar GitHub (llwyfan ar-lein ar gyfer datblygu a rhannu codau). Mae digonedd o becynnau meddalwedd yn eistedd yn hapus ar GitHub, ond mae gan R a Python eu rhwydweithiau “swyddogol” eu hunain ar gyfer pecynnau meddalwedd. Mae cael pecyn wedi’i gyhoeddi ar rwydwaith swyddogol yn dangos ei fod yn bodloni safon benodol, ac mae’n ffordd dda o roi cyhoeddusrwydd iddo hefyd. Un o’r prif rwydweithiau R yw’r Rhwydwaith Archifau R Cynhwysfawr (a elwir hefyd yn CRAN). Ym mis Hydref, gyda rhywfaint o anogaeth gan eraill yn y tîm gwyddor data, fe wnes i rai gwelliannau i statswalesr, ei gyflwyno i CRAN, ac ar ôl ychydig o newidiadau fe’i derbyniwyd!

""
Rhai o’r pecynnau R rydym wedi bod yn eu defnyddio yn ein gwaith datblygu

Mae creu pecynnau yn wahanol iawn i’r gwaith dadansoddi nodweddiadol a wnewch fel gwyddonydd data. Er enghraifft, mae’n rhaid creu pecynnau i weithio ar systemau gweithredu lluosog a rhaid iddynt chwarae’n dda gyda phecynnau eraill sydd gan y defnyddiwr ar eu cyfrifiadur. Mae’n rhaid i chi hefyd brofi eich cod yn drylwyr, a cheisio dychmygu’r holl senarios y gallai eich pecyn fethu ynddynt. Mae hyn yn bwysig oherwydd eich bod am i’ch pecyn roi negeseuon gwall defnyddiol pan aiff rhywbeth o’i le.

Pam rydym am ddatblygu pecynnau fel hyn? Yn syml, maent yn cyflymu’r rhannau o weithio gyda data sy’n cymryd llawer o amser. Mae’r pecyn statswalesr yn lleihau’r amser rydych chi’n ei dreulio yn ceisio lawrlwytho’r data sydd ei angen arnoch. Mae hyn yn golygu eich bod yn treulio mwy o amser yn dadansoddi.

Rwy’n gyffrous am y potensial sydd gennym yn yr uned i adeiladu pecynnau ffynhonnell agored. Rydym eisoes yn cynllunio mwy o becynnau ar gyfer y dyfodol – mae’r cyntaf ar y rhestr yn Python sy’n cyfateb i statswalesr!

Arbed amser gyda dogfennau rhyngweithiol

Yn 2021 rydym yn disgwyl y bydd offer gwyddor data ar gael yn ehangach ac yn cael eu defnyddio gan ddadansoddwyr Llywodraeth Cymru. Rydym wedi bod yn edrych ar sut y gall timau wneud eu llif gwaith yn haws gan ddefnyddio dogfennau adweithiol yn R. Mae dogfen adweithiol yn gwneud yn union yr hyn y byddech yn ei ddisgwyl – mae’n ymateb i’r newidiadau y mae’r defnyddiwr yn eu gwneud iddo. Gallai hyn fod yn rhywbeth fel llwytho ffeil i fyny neu glicio botwm. Mae’r pecyn R shiny yn eich galluogi i adeiladu elfennau adweithiol yn hawdd gyda rhywfaint o god R, y gallwch ei ymgorffori mewn dogfen a adeiladwyd gyda’r pecyn rmarkdown. Yna, mae eich defnyddiwr yn agor y ffeil, yn clicio “rhedeg”, ac mae’r ddogfen yn ymddangos yn eu porwr lleol (cyn belled â’u bod wedi gosod R ar eu cyfrifiadur).

Pryd allai tîm fod eisiau dogfen ryngweithiol? Gallai timau dadansoddol ddisodli tasgau ailadroddus sy’n cymryd llawer o amser, fel ysgrifennu ymholiadau cronfa ddata neu wneud llyfrau gwaith Excel, gyda phethau fel blychau ticio a bwydlenni gollwng. Gallai hyn fod o gymorth wrth ddelio â cheisiadau dadansoddol mynych. Mantais arall dogfennau R rhyngweithiol dros Excel yw y gallwch adeiladu ychwanegion yn hawdd ar ben y dadansoddiad rydych chi’n ei wneud, fel siartiau awtomataidd neu wiriadau ansawdd data.

Rydym eisoes wedi dangos y gall dogfennau awtomataidd yn R gyda rmarkdown arbed llawer o amser i ni a gallai ychwanegu rhyngweithedd fod yn ffordd wych o’n gwneud yn fwy effeithlon yn yr hyn a wnawn.

Os ydych chi am gysylltu â ni, e-bostiwch at: unedgwyddordata@llyw.cymru

Jamie Ralph, Gwyddonydd Data