1. ແນວຄວາມຄິດຂອງ Data Masking
ການປິດບັງຂໍ້ມູນຍັງເອີ້ນວ່າການປິດບັງຂໍ້ມູນ. ມັນເປັນວິທີການດ້ານວິຊາການທີ່ຈະແປງ, ແກ້ໄຂຫຼືກວມເອົາຂໍ້ມູນທີ່ລະອຽດອ່ອນເຊັ່ນ: ເບີໂທລະສັບໂທລະສັບມືຖື, ເລກບັດທະນາຄານແລະຂໍ້ມູນອື່ນໆໃນເວລາທີ່ພວກເຮົາໄດ້ໃຫ້ກົດລະບຽບແລະນະໂຍບາຍຫນ້າກາກ. ເຕັກນິກນີ້ຖືກນໍາໃຊ້ຕົ້ນຕໍເພື່ອປ້ອງກັນບໍ່ໃຫ້ຂໍ້ມູນທີ່ລະອຽດອ່ອນຈາກການນໍາໃຊ້ໂດຍກົງໃນສະພາບແວດລ້ອມທີ່ບໍ່ຫນ້າເຊື່ອຖື.
ຫຼັກການ Masking ຂໍ້ມູນ: ການໃສ່ຫນ້າກາກຂໍ້ມູນຄວນຮັກສາຄຸນລັກສະນະຂອງຂໍ້ມູນຕົ້ນສະບັບ, ກົດລະບຽບທຸລະກິດແລະຄວາມກ່ຽວຂ້ອງຂອງຂໍ້ມູນເພື່ອຮັບປະກັນວ່າການພັດທະນາ, ການທົດສອບແລະການວິເຄາະຂໍ້ມູນຕໍ່ໄປຈະບໍ່ໄດ້ຮັບຜົນກະທົບຈາກການໃສ່ຫນ້າກາກ. ຮັບປະກັນຄວາມສອດຄ່ອງ ແລະຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນກ່ອນ ແລະຫຼັງການໃສ່ໜ້າກາກ.
2. ການຈັດປະເພດການປິດບັງຂໍ້ມູນ
ການປິດບັງຂໍ້ມູນສາມາດແບ່ງອອກເປັນການປິດບັງຂໍ້ມູນແບບຄົງທີ່ (SDM) ແລະການປິດບັງຂໍ້ມູນແບບເຄື່ອນໄຫວ (DDM).
ການປິດບັງຂໍ້ມູນແບບຄົງທີ່ (SDM): ການປິດບັງຂໍ້ມູນແບບຄົງທີ່ຮຽກຮ້ອງໃຫ້ມີການສ້າງຖານຂໍ້ມູນສະພາບແວດລ້ອມທີ່ບໍ່ແມ່ນການຜະລິດໃຫມ່ສໍາລັບການໂດດດ່ຽວຈາກສະພາບແວດລ້ອມການຜະລິດ. ຂໍ້ມູນທີ່ລະອຽດອ່ອນຖືກສະກັດຈາກຖານຂໍ້ມູນການຜະລິດແລະຫຼັງຈາກນັ້ນເກັບໄວ້ໃນຖານຂໍ້ມູນທີ່ບໍ່ແມ່ນການຜະລິດ. ດ້ວຍວິທີນີ້, ຂໍ້ມູນ desensitized ແມ່ນໂດດດ່ຽວຈາກສະພາບແວດລ້ອມການຜະລິດ, ເຊິ່ງຕອບສະຫນອງຄວາມຕ້ອງການຂອງທຸລະກິດແລະຮັບປະກັນຄວາມປອດໄພຂອງຂໍ້ມູນການຜະລິດ.
ການປິດບັງຂໍ້ມູນແບບໄດນາມິກ (DDM): ມັນຖືກນໍາໃຊ້ໂດຍທົ່ວໄປໃນສະພາບແວດລ້ອມການຜະລິດເພື່ອ desensitize ຂໍ້ມູນທີ່ລະອຽດອ່ອນໃນເວລາທີ່ແທ້ຈິງ. ບາງຄັ້ງ, ລະດັບທີ່ແຕກຕ່າງກັນຂອງຫນ້າກາກແມ່ນຈໍາເປັນເພື່ອອ່ານຂໍ້ມູນທີ່ລະອຽດອ່ອນດຽວກັນໃນສະຖານະການທີ່ແຕກຕ່າງກັນ. ຕົວຢ່າງ, ພາລະບົດບາດແລະການອະນຸຍາດທີ່ແຕກຕ່າງກັນອາດຈະປະຕິບັດໂຄງການຫນ້າກາກທີ່ແຕກຕ່າງກັນ.
ການລາຍງານຂໍ້ມູນແລະຜະລິດຕະພັນຂໍ້ມູນຄໍາຮ້ອງສະຫມັກຫນ້າກາກ
ສະຖານະການດັ່ງກ່າວສ່ວນໃຫຍ່ແມ່ນປະກອບມີຜະລິດຕະພັນການກວດສອບຂໍ້ມູນພາຍໃນຫຼືປ້າຍໂຄສະນາ, ຜະລິດຕະພັນຂໍ້ມູນການບໍລິການພາຍນອກ, ແລະບົດລາຍງານໂດຍອີງໃສ່ການວິເຄາະຂໍ້ມູນ, ເຊັ່ນ: ບົດລາຍງານທຸລະກິດແລະການທົບທວນໂຄງການ.
3. Data Masking Solution
ຮູບແບບການປົກປິດຂໍ້ມູນທົ່ວໄປລວມມີ: ບໍ່ຖືກຕ້ອງ, ຄ່າສຸ່ມ, ການປ່ຽນຂໍ້ມູນ, ການເຂົ້າລະຫັດແບບສົມມາຕຣິກ, ຄ່າສະເລ່ຍ, ການຊົດເຊີຍ ແລະຮອບວຽນ, ແລະອື່ນໆ.
ບໍ່ຖືກຕ້ອງ: ບໍ່ຖືກຕ້ອງຫມາຍເຖິງການເຂົ້າລະຫັດ, ຕັດອອກ, ຫຼືການເຊື່ອງຂໍ້ມູນທີ່ລະອຽດອ່ອນ. ໂຄງການນີ້ປົກກະຕິແລ້ວທົດແທນຂໍ້ມູນທີ່ແທ້ຈິງທີ່ມີສັນຍາລັກພິເສດ (ເຊັ່ນ: *). ການດໍາເນີນງານແມ່ນງ່າຍດາຍ, ແຕ່ຜູ້ໃຊ້ບໍ່ສາມາດຮູ້ຮູບແບບຂອງຂໍ້ມູນຕົ້ນສະບັບ, ເຊິ່ງອາດຈະສົ່ງຜົນກະທົບຕໍ່ຄໍາຮ້ອງສະຫມັກຂໍ້ມູນຕໍ່ມາ.
ຄ່າສຸ່ມ: ຄ່າສຸ່ມໝາຍເຖິງການແທນທີ່ຂໍ້ມູນລະອຽດອ່ອນແບບສຸ່ມ (ຕົວເລກແທນຕົວເລກ, ຕົວອັກສອນແທນຕົວອັກສອນ ແລະ ຕົວອັກສອນແທນຕົວອັກສອນ). ວິທີການຫນ້າກາກນີ້ຈະຮັບປະກັນຮູບແບບຂອງຂໍ້ມູນທີ່ລະອຽດອ່ອນໃນລະດັບໃດຫນຶ່ງແລະສ້າງຄວາມສະດວກໃນການນໍາໃຊ້ຂໍ້ມູນຕໍ່ມາ. ການປິດບັງວັດຈະນານຸກົມອາດຈະຈໍາເປັນສໍາລັບບາງຄໍາທີ່ມີຄວາມຫມາຍ, ເຊັ່ນ: ຊື່ຂອງຄົນແລະສະຖານທີ່.
ການທົດແທນຂໍ້ມູນ: ການທົດແທນຂໍ້ມູນແມ່ນຄ້າຍຄືກັນກັບການປິດບັງຄ່າ null ແລະ random, ຍົກເວັ້ນວ່າແທນທີ່ຈະໃຊ້ຕົວອັກສອນພິເສດ ຫຼືຄ່າສຸ່ມ, ຂໍ້ມູນການໃສ່ໜ້າກາກຈະຖືກແທນທີ່ດ້ວຍຄ່າສະເພາະ.
ການເຂົ້າລະຫັດແບບ Symmetric: ການເຂົ້າລະຫັດແບບ Symmetric ແມ່ນວິທີການປິດບັງແບບປີ້ນກັບກັນແບບພິເສດ. ມັນເຂົ້າລະຫັດຂໍ້ມູນທີ່ລະອຽດອ່ອນຜ່ານກະແຈການເຂົ້າລະຫັດ ແລະສູດການຄິດໄລ່. ຮູບແບບ ciphertext ແມ່ນສອດຄ່ອງກັບຂໍ້ມູນຕົ້ນສະບັບໃນກົດລະບຽບທີ່ມີເຫດຜົນ.
ສະເລ່ຍ: ໂຄງການສະເລ່ຍມັກຈະຖືກນໍາໃຊ້ໃນສະຖານະການສະຖິຕິ. ສໍາລັບຂໍ້ມູນຕົວເລກ, ພວກເຮົາທໍາອິດຄິດໄລ່ຄ່າສະເລ່ຍຂອງພວກມັນ, ແລະຫຼັງຈາກນັ້ນແຈກຢາຍຄ່າ desensitized ແບບສຸ່ມປະມານຄ່າສະເລ່ຍ, ດັ່ງນັ້ນຈຶ່ງເຮັດໃຫ້ຜົນລວມຂອງຂໍ້ມູນຄົງທີ່.
Offset ແລະ Rounding: ວິທີນີ້ປ່ຽນຂໍ້ມູນດິຈິຕອນໂດຍການປ່ຽນແບບສຸ່ມ. ການປິດຮອບອອບເຊັດຮັບປະກັນຄວາມຖືກຕ້ອງປະມານຂອງຊ່ວງໃນຂະນະທີ່ຮັກສາຄວາມປອດໄພຂອງຂໍ້ມູນ, ເຊິ່ງໃກ້ຊິດກັບຂໍ້ມູນທີ່ແທ້ຈິງຫຼາຍກ່ວາໂຄງການທີ່ຜ່ານມາ, ແລະມີຄວາມສໍາຄັນຢ່າງຫຼວງຫຼາຍໃນສະຖານະການການວິເຄາະຂໍ້ມູນໃຫຍ່.
ແບບທີ່ແນະນໍາ "ML-NPB-5660"ສໍາລັບການ Masking ຂໍ້ມູນ
4. ເຕັກນິກການປິດບັງຂໍ້ມູນທີ່ໃຊ້ທົ່ວໄປ
(1). ເຕັກນິກສະຖິຕິ
ການເກັບຕົວຢ່າງຂໍ້ມູນແລະການລວບລວມຂໍ້ມູນ
- ການເກັບຕົວຢ່າງຂໍ້ມູນ: ການວິເຄາະແລະປະເມີນຜົນຂອງຊຸດຂໍ້ມູນຕົ້ນສະບັບໂດຍການເລືອກຊຸດຍ່ອຍຕົວແທນຂອງຊຸດຂໍ້ມູນເປັນວິທີການທີ່ສໍາຄັນເພື່ອປັບປຸງປະສິດທິພາບຂອງເຕັກນິກການ de-identification.
- ການລວບລວມຂໍ້ມູນ: ເປັນການລວບລວມເຕັກນິກສະຖິຕິ (ເຊັ່ນ: ການສະຫຼຸບ, ການນັບ, ຄ່າສະເລ່ຍ, ສູງສຸດແລະຕໍາ່ສຸດທີ່) ນໍາໃຊ້ກັບຄຸນລັກສະນະໃນ microdata, ຜົນໄດ້ຮັບແມ່ນເປັນຕົວແທນຂອງບັນທຶກທັງຫມົດໃນຊຸດຂໍ້ມູນຕົ້ນສະບັບ.
(2). ການເຂົ້າລະຫັດລັບ
Cryptography ແມ່ນວິທີການທົ່ວໄປເພື່ອ desensitize ຫຼືເພີ່ມປະສິດທິພາບຂອງ desensitization. ປະເພດຕ່າງໆຂອງລະບົບການເຂົ້າລະຫັດສາມາດບັນລຸຜົນກະທົບ desensitization ທີ່ແຕກຕ່າງກັນ.
- ການເຂົ້າລະຫັດຕົວກໍານົດ: ການເຂົ້າລະຫັດສະສົມທີ່ບໍ່ແມ່ນ Random. ໂດຍປົກກະຕິແລ້ວມັນປະມວນຜົນຂໍ້ມູນ ID ແລະສາມາດຖອດລະຫັດ ແລະຟື້ນຟູລະຫັດລັບໃຫ້ກັບ ID ເດີມເມື່ອມີຄວາມຈໍາເປັນ, ແຕ່ກະແຈຕ້ອງໄດ້ຮັບການປົກປ້ອງຢ່າງຖືກຕ້ອງ.
- ການເຂົ້າລະຫັດທີ່ບໍ່ປ່ຽນແປງໄດ້: ຟັງຊັນ hash ຖືກນໍາໃຊ້ເພື່ອປະມວນຜົນຂໍ້ມູນ, ເຊິ່ງປົກກະຕິແລ້ວແມ່ນໃຊ້ສໍາລັບຂໍ້ມູນ ID. ມັນບໍ່ສາມາດຖືກຖອດລະຫັດໂດຍກົງໄດ້ ແລະຄວາມສຳພັນຂອງແຜນທີ່ຈະຕ້ອງຖືກບັນທຶກໄວ້. ນອກຈາກນັ້ນ, ເນື່ອງຈາກຄຸນນະສົມບັດຂອງຫນ້າທີ່ hash, ການຂັດກັນຂໍ້ມູນອາດຈະເກີດຂື້ນ.
- ການເຂົ້າລະຫັດ homomorphic: ສູດການຄິດໄລ່ homomorphic ciphertext ຖືກນໍາໃຊ້. ຄຸນລັກສະນະຂອງມັນແມ່ນວ່າຜົນຂອງການດໍາເນີນງານ ciphertext ແມ່ນຄືກັນກັບການປະຕິບັດຂໍ້ຄວາມທໍາມະດາຫຼັງຈາກການຖອດລະຫັດ. ດັ່ງນັ້ນ, ມັນຖືກນໍາໃຊ້ໂດຍທົ່ວໄປເພື່ອປະມວນຜົນພາກສະຫນາມຕົວເລກ, ແຕ່ມັນບໍ່ໄດ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງສໍາລັບເຫດຜົນການປະຕິບັດ.
(3). ເຕັກໂນໂລຊີລະບົບ
ເທກໂນໂລຍີສະກັດກັ້ນລຶບຫຼືປ້ອງກັນລາຍການຂໍ້ມູນທີ່ບໍ່ຕອບສະຫນອງການປົກປ້ອງຄວາມເປັນສ່ວນຕົວ, ແຕ່ບໍ່ໄດ້ເຜີຍແຜ່ພວກມັນ.
- Masking: ມັນຫມາຍເຖິງວິທີການ desensitization ທົ່ວໄປທີ່ສຸດເພື່ອ mask ມູນຄ່າ attribute, ເຊັ່ນ: ຈໍານວນ opponent, ບັດປະຈໍາຕົວແມ່ນຫມາຍດ້ວຍດາວ, ຫຼືທີ່ຢູ່ຖືກຕັດອອກ.
- ການສະກັດກັ້ນທ້ອງຖິ່ນ: ຫມາຍເຖິງຂະບວນການລຶບຄຸນລັກສະນະສະເພາະ (ຄໍລໍາ), ການຖອນຊ່ອງຂໍ້ມູນທີ່ບໍ່ຈໍາເປັນ;
- ການສະກັດກັ້ນການບັນທຶກ: ໝາຍເຖິງຂະບວນການລຶບບັນທຶກສະເພາະ (ແຖວ), ລຶບບັນທຶກຂໍ້ມູນທີ່ບໍ່ຈຳເປັນອອກ.
(4). ເທັກໂນໂລຍີນາມສະກຸນ
Pseudomanning ແມ່ນເຕັກນິກການ de-identification ທີ່ໃຊ້ນາມສະກຸນເພື່ອທົດແທນຕົວລະບຸໂດຍກົງ (ຫຼືຕົວລະບຸທີ່ລະອຽດອ່ອນອື່ນໆ). ເຕັກນິກການໃສ່ນາມສະກຸນສ້າງຕົວລະບຸທີ່ເປັນເອກະລັກສໍາລັບແຕ່ລະຫົວຂໍ້ຂໍ້ມູນສ່ວນບຸກຄົນ, ແທນທີ່ຈະເປັນຕົວລະບຸໂດຍກົງຫຼືລະອຽດອ່ອນ.
- ມັນສາມາດສ້າງຄ່າ Random ເປັນອິດສະຫຼະທີ່ຈະສອດຄ່ອງກັບ ID ຕົ້ນສະບັບ, ຊ່ວຍປະຢັດຕາຕະລາງການສ້າງແຜນທີ່, ແລະການຄວບຄຸມຢ່າງເຂັ້ມງວດການເຂົ້າເຖິງຕາຕະລາງການສ້າງແຜນທີ່.
- ທ່ານຍັງສາມາດໃຊ້ການເຂົ້າລະຫັດເພື່ອຜະລິດນາມສະກຸນ, ແຕ່ຕ້ອງຮັກສາລະຫັດການຖອດລະຫັດໃຫ້ຖືກຕ້ອງ;
ເທກໂນໂລຍີນີ້ຖືກນໍາໃຊ້ຢ່າງກວ້າງຂວາງໃນກໍລະນີຂອງຜູ້ໃຊ້ຂໍ້ມູນເອກະລາດຈໍານວນຫລາຍ, ເຊັ່ນ OpenID ໃນສະຖານະການເວທີເປີດ, ບ່ອນທີ່ນັກພັດທະນາທີ່ແຕກຕ່າງກັນໄດ້ຮັບ Openids ທີ່ແຕກຕ່າງກັນສໍາລັບຜູ້ໃຊ້ດຽວກັນ.
(5). ເຕັກນິກການທົ່ວໄປ
ເຕັກນິກການໃຫ້ຂໍ້ມູນທົ່ວໄປຫມາຍເຖິງເຕັກນິກການ de-identification ທີ່ຫຼຸດຜ່ອນ granularity ຂອງຄຸນລັກສະນະທີ່ເລືອກໃນຊຸດຂໍ້ມູນແລະສະຫນອງລາຍລະອຽດທົ່ວໄປແລະ abstract ຂອງຂໍ້ມູນ. ເທັກໂນໂລຍີ Generalization ແມ່ນງ່າຍທີ່ຈະປະຕິບັດແລະສາມາດປົກປ້ອງຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນລະດັບບັນທຶກ. ມັນຖືກນໍາໃຊ້ທົ່ວໄປໃນຜະລິດຕະພັນຂໍ້ມູນຫຼືບົດລາຍງານຂໍ້ມູນ.
- Rounding: ມີການຄັດເລືອກເອົາພື້ນຖານການມົນສໍາລັບຄຸນລັກສະນະທີ່ເລືອກເຊັ່ນການຂຶ້ນຫຼືລົງ forensics , ຜົນຜະລິດ 100, 500, 1K, ແລະ 10K.
- ເທັກນິກການເຂົ້າລະຫັດເທິງ ແລະລຸ່ມ: ແທນທີ່ຄ່າຂ້າງເທິງ (ຫຼືຕ່ຳກວ່າ) ຂີດຈຳກັດດ້ວຍເກນທີ່ສະແດງເຖິງລະດັບເທິງ (ຫຼືລຸ່ມ), ຜົນໄດ້ຮັບຂອງ "ຂ້າງເທິງ X" ຫຼື "ຂ້າງລຸ່ມ X"
(6). ເຕັກນິກການ Randomization
ໃນຖານະເປັນປະເພດຂອງເຕັກນິກການ de-identification, ເຕັກໂນໂລຊີການສຸ່ມຫມາຍເຖິງການດັດແກ້ມູນຄ່າຂອງຄຸນລັກສະນະໂດຍຜ່ານການສຸ່ມ, ດັ່ງນັ້ນມູນຄ່າຫຼັງຈາກການສຸ່ມແມ່ນແຕກຕ່າງຈາກມູນຄ່າທີ່ແທ້ຈິງຕົ້ນສະບັບ. ຂະບວນການນີ້ຫຼຸດລົງຄວາມສາມາດຂອງຜູ້ໂຈມຕີທີ່ຈະເອົາມູນຄ່າຄຸນລັກສະນະຈາກຄ່າຄຸນລັກສະນະອື່ນໆໃນບັນທຶກຂໍ້ມູນດຽວກັນ, ແຕ່ຜົນກະທົບຕໍ່ຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນຜົນໄດ້ຮັບ, ເຊິ່ງແມ່ນທົ່ວໄປກັບຂໍ້ມູນການທົດສອບການຜະລິດ.
ເວລາປະກາດ: ກັນຍາ-27-2022