บล็อก “วารสารศาสตร์ข้อมูล” DataJournalism.in.th โพสต์ชวนโพสต์ทำ visualization วาดภาพข้อมูลงบประมาณรายจ่ายประจำปีของประเทศไทย และให้ลิงก์ไปที่ PDF ของพ.ร.บ.งบประมาณรายจ่ายประจำปีงบประมาณ ซึ่งถ้าใครได้ลองก็จะพบว่า มันเป็นข้อมูลที่อยู่ในรูปแบบที่เอาไปใช้ต่อได้ยาก ส่วนหนึ่งเพราะ:
- อยู่ในรูปแบบ PDF ซึ่งเอาไปประมวลผลต่อได้ยาก จำเป็นต้องคัดลอกออกมาหรือแปลงให้อยู่ในรูปแบบข้อความหรือแฟ้มแบบสเปรดชีตเสียก่อน
- แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2550) เป็นรูปภาพ (สแกนมา) ไม่ใช่ข้อความ ไม่สามารถคัดลอกข้อความมาใช้ได้
- แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2545) แม้จะดูเป็นแบบข้อความ แต่เมื่อลองคัดลอกไปวางที่โปรแกรมอื่น จะพบว่ากลายเป็นข้อความที่อ่านไม่ได้หรือผิดเพี้ยนไป ตัวอย่างเช่น งบเบี้ยหวัด บำเหน็จ บำนาญ ที่ข้อความแสดงให้เห็นเป็น “๔๕,๐๐๐,๐๐๐,๐๐๐” เมื่อคัดลอกออกมา (copy & paste) จะกลายเป็น “Ùı,,,” ซึ่งไม่มีความหมาย ใช้งานต่อไม่ได้
- ในกรณีที่ดีที่สุด คือสามารถคัดลอกมาเป็นข้อความได้ไม่ผิดเพี้ยน แต่เนื่องจากเอกสารราชการไทย ใช้เลขไทย ซึ่งบางโปรแกรมอาจจะไม่รองรับ (คือพิมพ์ลงไปได้ แต่โปรแกรมไม่รับรู้ว่ามันเป็นตัวเลข/จำนวน ทำให้บวกลบคำนวณไม่ได้) — ทั้งนี้เท่าที่ทดสอบ โปรแกรมสเปรดชีตของ Google Docs ไม่รองรับเลขไทย, ส่วน OpenOffice.org/LibreOffice นั้นสามารถใส่เลขไทยลงไปได้ แล้วโปรแกรมจะแปลงให้เป็นจำนวนอัตโนมัติ
ต่าง ๆ เหล่านี้ ทำให้นึกถึงประโยคที่เกริ่นนำเอาไว้ในหน้า “อะไรคือวารสารศาสตร์ข้อมูล” ของบล็อก DataJournalism.in.th ที่ว่า:
กฎหมายกำหนดให้ข้อมูลจำนวนมากถูกเผยแพร่ต่อสาธารณะ แต่น้อยคนนักที่จะใช้ประโยชน์จากมันได้ เพราะมันไม่อยู่ในสภาพที่เข้าใจง่ายหรือเอาไปใช้ต่อได้สะดวก
การเป็น “แฟ้มอิเล็กทรอนิกส์” ไม่ได้หมายความโดยอัตโนมัติว่า มันจะ “อ่านได้ด้วยเครื่อง” (machine readable) ซึ่งเป็นคุณสมบัติสำคัญของข้อมูลที่จะถูกประมวลผลด้วยเครื่องคอมพิวเตอร์ได้
เพื่อความสะดวกสำหรับคนที่อยากจะลองวาดภาพสนุก ๆ จากข้อมูลงบประมาณเหล่านี้ เราก็เลยจัดการ “แปลง” (แปลว่าอ่าน PDF แล้วนั่งจิ้มตัวเลขทีละตัวลง Google Docs, ใช้เวลาประมาณ 50 นาทีต่อ 1 ปีงบประมาณ) ข้อมูลบางส่วนของงบประมาณปี พ.ศ. 2544-2554 มาเป็นรูปแบบสเปรดชีต (ตารางคำนวณ) จะได้ไม่ต้องเสียเวลาวุ่นวายแปลงกันอีก 🙂
ดาวน์โหลดสเปรดชีต “งบประมาณรายจ่ายประจำปีงบประมาณ 2544-2554” :
รูปแบบ OpenDocument spreadsheet (.ods) | รูปแบบ Excel (.xls) (ทั้งสองรูปแบบเอาไปแปลงเป็น CSV ต่อได้)
ตัวอย่างบางส่วน (ดูทั้งหมดในแบบ HTML):
ที่มาข้อมูล: เว็บไซต์ สำนักงบประมาณ สำนักนายกรัฐมนตรี
หมายเหตุ:
- ปีในชุดข้อมูลนี้ เป็นปีงบประมาณ ไม่ใช่ปีตามปฏิทินปกติ
- ตัวเลขอาจจะเทียบข้ามปีตรง ๆ ไม่ได้ เพราะมีทั้งหน่วยงานเกิดใหม่ ถูกยุบรวม หรือย้ายกระทรวงสังกัด แต่ก็พอจะเห็นภาพกว้าง ๆ
- ตั้งแต่ปีงบประมาณ 2552 งบส่วนของ “รัฐสภา” และ “ศาล” แยกออกมาเป็นหมวดต่างหาก ก่อนหน้านี้บางส่วนอยู่ใน “ส่วนราชการไม่สังกัดสำนักนายกรัฐมนตรี กระทรวง หรือทบวง”
- งบ “จังหวัด” เพิ่มมาในปีงบประมาณ 2552 และเปลี่ยนเป็น “จังหวัดและกลุ่มจังหวัด” ในปีงบประมาณ 2553
- งบ “สภากาชาดไทย” เพิ่มมาในปีงบประมาณ 2551
- วิธีการคิดยอดรวม ตั้งแต่ปีงบประมาณ 2552 การคิดงบประมาณรายจ่ายรวมทั้งหมด จะรวมรายจ่าย “ชดใช้เงินคงคลัง” ด้วย — ก่อนปี 2552 จะไม่รวมรายจ่าย “ชดใช้เงินคงคลัง”
- รายละเอียดงบประมาณ ที่แจกแจงในหมวดย่อย ไม่ได้รวมอยู่ในสเปรดชีตนี้
ประกาศ: ฐานข้อมูลเปิดภาครัฐ data.pm.go.th เปิดตัวแล้ว ไปเล่นและติชมกันได้