Ẩn dữ liệu và siêu dữ liệu trong tệp Adobe PDF.

20/05/2014 | 09:15 Phân tích

Hãy chắc chắn rằng bạn không cung cấp nhiều thông tin hơn bạn dự định chia sẻ tập tin và tải lên hình ảnh.

Dự án Immersion của MIT Media Lab ánh xạ mối quan hệ của bạn với các phóng viên bằng cách sử dụng siêu dữ liệu từ email.

Siêu dữ liệu của bạn có thể cho bạn biết nhiều điều về bạn. Sau khi các tin nhắn Gmail cách đây 10 năm được chạy qua công cụ trực quan hóa siêu dữ liệu email của MIT Media Labs Immersion, hình ảnh thu được (ở trên) cho thấy mối quan hệ với những người thường xuyên trao đổi thư với độ chính xác vượt trội.

Immersion chỉ quét các trường Từ, Đến, Cc và Ngày/Giờ trong Gmail. Yahoo Mail hoặc MSExchange. Đang quét tài khoản Gmail cho thấy hơn 50.000 tin nhắn đã được nhận trong 10 năm. Immersion đã xác định được 189 phóng viên và dự đoán sẽ có bao nhiêu phóng viên mới xuất hiện trong năm nay cũng như số lượng tin nhắn sẽ được gửi và nhận vào cuối năm 2014.

Siêu dữ liệu email rất dễ truy cập nhưng khó xóa. Guy McDowell của MakeUseOf giải thích cách xem thông tin tiêu đề trong Tin nhắn Gmail và cách giải mã siêu dữ liệu được đính kèm trong thư của bạn. Nhà truyền giáo khám phá điện tử nói về tất cả các loại siêu dữ liệu có trong tin nhắn của bạn và cung cấp liên kết đến định nghĩa về siêu dữ liệu trong tài liệu Tiêu chuẩn Internet RFC 2822.

Như hướng dẫn về siêu dữ liệu của Guardian cho biết, bạn không thể làm được gì nhiều với hầu hết siêu dữ liệu liên quan đến bằng email, ngoài việc tắt dịch vụ định vị trên điện thoại của bạn. Tuy nhiên, bạn có thể xóa siêu dữ liệu khỏi các tệp bạn đính kèm email. Dưới đây bạn sẽ tìm thấy hướng dẫn xóa siêu dữ liệu khỏi tệp Office, tệp PDF và hình ảnh.

Xóa siêu dữ liệu khỏi tệp của bạn

Microsoft cung cấp công cụ miễn phí Thanh tra Tài liệu để loại bỏ "cá nhân hoặc thông tin bí mật", trước khi cung cấp truy cập công cộngĐẾN Tập tin văn phòng. Trang mạng Hỗ trợ của Microsoft cung cấp thông tin cụ thể về cách xóa siêu dữ liệu khỏi Word 2013, Word 2010, Excel 2013, Excel 2010, PowerPoint 2013, PowerPoint 2010, Word 2007, Excel 2007, PowerPoint 2007, Word 2003, Excel 2003 và PowerPoint 2003.

Trang web của Adobe giải thích cách xóa siêu dữ liệu khỏi tệp PDF trong Acrobat X Pro và Acrobat X Standard. Có một chủ đề trên diễn đàn B4Print.com với hướng dẫn từng bước mộtđể cắt bỏ siêu dữ liệu hoặc "nội dung ẩn" khỏi tệp PDF bằng công cụ Kiểm tra Tài liệu trong Acrobat 9.

Windows Explorer (trong Windows 8.1) cho phép bạn xem và xóa siêu dữ liệu khỏi tệp trong hộp thoại Thuộc tính. Hầu hết đường tắt- nhấp vào Thuộc tính > Thông tin > Xóa thuộc tính và thông tin cá nhân > “Tạo bản sao với tất cả các thuộc tính có thể đã bị xóa.”


Hộp thoại "Xóa thuộc tính" trong Windows Explorer cho phép bạn tạo phiên bản "xóa tất cả các thuộc tính có thể có" của tệp.

Tuy nhiên, Chris Hoffman của MakeUseOf chỉ ra rằng phương pháp này có thể không hoạt động khi cố gắng cạo siêu dữ liệu EXIF ​​​​từ tệp hình ảnh. Hoffman khuyến nghị sử dụng phần mềm loại bỏ Metability QuickFix miễn phí. Dữ liệu GPS từ nhiều bức ảnh cùng một lúc.

Một công cụ loại bỏ siêu dữ liệu khác tập tin đồ họa dành cho Windows là Trình thoát y JPEG & PNG miễn phí từ Steel Byte. Người dùng Mac OS X có thể xóa dữ liệu EXIF ​​​​khỏi file ảnh bằng cách sử dụng chương trình miễn phí ImageOptim, như được mô tả trên trang OS X Daily.

Nasim Mansurov từ Photography Life giải thích cách xóa dữ liệu EXIF ​​​​và XMP khỏi tệp Adobe Photoshop và Lightroom. Hướng dẫn của Mansurov có chứa liên kết đến công cụ miễn phí ExifTool.
Không gắn thẻ vị trí trên ảnh trên điện thoại của bạn.

Facebook, Twitter và các trang xã hội khác cũng như dịch vụ chia sẻ ảnh sẽ tự động ẩn thông tin vị trí và siêu dữ liệu khác được đính kèm với hình ảnh bạn tải lên để ngăn không cho thông tin được xem cùng với ảnh. Tuy nhiên, bạn vẫn đang cung cấp dữ liệu cho chính dịch vụ đó. Có lẽ bạn không muốn cung cấp thông tin cho dịch vụ về nơi bạn ở khi bức ảnh được chụp.

Xóa thẻ vị trí khỏi ảnh được chụp bằng sử dụng iPhone hoặc iPad thông qua Cài đặt vị trí.
Để tắt dịch vụ định vị cho camera trên iPhone hoặc iPad, hãy đi tới Cài đặt > Quyền riêng tư > Dịch vụ định vị và tắt chúng cho camera.

Martin Brinkman giải thích trên gHacks cách dễ nhất để xóa dữ liệu GPS khỏi hình ảnh trên điện thoại Android bằng cách sử dụng ứng dụng miễn phí Quyền riêng tư của hình ảnh, bổ sung tùy chọn "Xóa siêu dữ liệu" cho Thực đơn Android Chia sẻ. Khi bạn chọn tùy chọn này, một menu sẽ xuất hiện. Bây giờ, khi bạn chọn một dịch vụ (Twitter, Facebook, Dropbox, Flickr, v.v.), hình ảnh sẽ tải mà không có dữ liệu vị trí.

Một tùy chọn khác để xóa thông tin vị trí khỏi hình ảnh là dịch vụ miễn phí Verexif.com. Trang web này mặc định bằng tiếng Tây Ban Nha nhưng có thể xem bằng tiếng Anh. Chọn tùy chọn Chọn tệp, tìm và chọn một hình ảnh rồi nhấp vào Mở. Bạn có thể xóa dữ liệu EXIF ​​​​hoặc xem nó. Tùy chọn xóa xuất hiện trên màn hình duyệt web.

VerExif.com chỉ hoạt động với một tệp hình ảnh cùng một lúc, không giống như các chương trình được mô tả ở trên cho phép bạn xóa thông tin vị trí khỏi nhiều tệp hình ảnh cùng một lúc.

Tiện ích ExifTool được thiết kế để xem và chỉnh sửa siêu dữ liệu số lượng lớn các định dạng tập tin. Chủ yếu được sử dụng để xem và chỉnh sửa các thông số chụp trong tập tin ảnh kỹ thuật số. Giấy phép: GPL. Trang web: sno.phy.queensu.ca/~phil/exiftool/

Thông tin chung

Nhiều định dạng file ngoài nội dung chính còn chứa siêu dữ liệu. Siêu dữ liệu này có thể mô tả khác nhau Tùy chọn bổ sung nội dung tập tin.

Chuẩn siêu dữ liệu nổi tiếng nhất là chuẩn EXIF. (Định dạng tệp hình ảnh có thể trao đổi bằng tiếng Anh)- một tiêu chuẩn cho phép bạn thêm vào nhiều loại khác nhau các tập tin Thông tin thêm, mô tả các điều kiện và phương pháp để có được chúng, tọa độ GPS, quyền tác giả, bình luận và nhiều hơn nữa. Tiêu chuẩn EXIF ​​​​được sử dụng tích cực nhất cho hình ảnh chụp ảnh và hầu hết mọi thiết bị hiện đại máy ảnh kỹ thuật số ghi lại một số lượng lớn Dữ liệu EXIF cho mỗi bức ảnh.

Các định dạng dữ liệu khác cũng có thể có siêu dữ liệu riêng. Đây là những tập tin video tập tin khác nhau tài liệu - PDF, Djvu, v.v.

Bạn có thể xem và chỉnh sửa siêu dữ liệu tệp bằng nhiều tiện ích và chương trình. Chúng tôi đặc biệt lưu ý tiện ích bảng điều khiển ExifTool là tiện ích phổ biến nhất và công cụ đắc lựcđể làm việc với siêu dữ liệu tệp.

Tiện ích này hoạt động từ dòng lệnh. Nó tồn tại cho bất cứ ai các hệ điều hành- Linux, Windows, MacOS. Tuy nhiên, cũng có những tiện ích bổ sung cho nó dưới dạng một ứng dụng có Giao diện đồ họa, chẳng hạn như Exiftoolgui cho Windows.

Một vi dụ khac vỏ đồ họađối với ExifTool, tiện ích này có thể được gọi là PyExifToolGUI. ()

Đúng như tên gọi của nó, ExifTool được thiết kế chủ yếu để hoạt động với siêu dữ liệu EXIF ​​​​trong ảnh kỹ thuật số. Các định dạng ảnh được hỗ trợ: JPEG, TIFF, PNG, DNG, NEF, PEF, CRW, JP2, CR2, MRW, ARW, SR2, ORF, RAF và các định dạng khác.

Nhưng hãy nhớ rằng tiện ích ExifTool cũng có thể hoạt động với siêu dữ liệu ở các loại tệp khác.

  • video và âm thanh: 3gp, AVI, MPG, MOV, WEBM, MP3, MP4, Ogg, v.v.;
  • tài liệu: PDF, Djvu, RTF, PPT, EPUB, v.v.;
  • kho lưu trữ và tập tin nhị phân: ZIP, DLL, v.v.

Đồng thời, đối với một số tệp, cả việc đọc và chỉnh sửa siêu dữ liệu đều khả dụng. Và đối với các loại tệp khác, chỉ đọc có sẵn. Đầy đủ thông tin Bạn có thể tìm hiểu về nhiều khả năng của tiện ích ExifTool bằng cách thực thi lệnh sau khi cài đặt chương trình

Người đàn ông Exiftool

Sẽ có một bảng trong hướng dẫn sử dụng trong đó các ký hiệu sẽ biểu thị khả năng chỉnh sửa siêu dữ liệu cho loại tệp này. Ký hiệu (r) - siêu dữ liệu chỉ đọc, (w) - siêu dữ liệu có thể được truy cập sử dụng ExifTool ghi đè, (c) - siêu dữ liệu có thể được tạo.

Một số ví dụ về ExifTool làm việc với ảnh

Hãy xem xét một số tùy chọn của tiện ích bảng điều khiển này cần thiết cho công việc cơ bản với siêu dữ liệu EXIF ​​​​trong các tệp ảnh chụp, vì định dạng siêu dữ liệu này được sử dụng trong hầu hết các máy ảnh kỹ thuật số. Mặc dù ExifTool cũng hoạt động với các định dạng siêu dữ liệu XMP và IPTC.

Đọc và chỉnh sửa thẻ

Exiftool FOTO.JPG

Exiftool -ISO FOTO.JPG

Hiển thị các thẻ có thể được chỉnh sửa.

Exiftool -listw FOTO.JPG

Việc ghi giá trị của thẻ EXIF ​​cụ thể vào file ảnh được thực hiện thông qua ký hiệu gán =.

Exiftool -ISO="200" FOTO.JPG

Việc xóa giá trị của thẻ EXIF ​​​​cụ thể trong tệp hình ảnh được thực hiện thông qua việc gán cho giá trị trống.

Exiftool -ISO="" FOTO.JPG

Một cách tự nhiên tiện ích bảng điều khiển Exiftool tốt cho xử lý hàng loạt tập tin khi một hoặc nhiều thẻ giống hệt nhau cần được ghi lại hoặc xóa trong nhiều hình ảnh. Lệnh bên dưới sẽ ghi giá trị ISO vào tất cả các tệp có phần mở rộng jpg trong thư mục hiện tại. Ký hiệu * trong tên tệp là ký tự đại diện cho bất kỳ tên nào.

Exiftool -ISO="200" *.JPG

Khi chỉnh sửa thẻ, tiện ích sẽ tạo một tệp gốc có hậu tố "_origin" bên cạnh tệp mới. Nếu điều này là không cần thiết, bạn cần sử dụng tùy chọn bổ sung-overwrite_origin.

Exiftool -ISO="200" -overwrite_origin *.JPG

Lưu ý: nếu bạn quên viết tùy chọn này và ExifTool đã tạo nhiều bản sao lưu trữ có hậu tố “_origin”, thì bạn có thể xóa các bản sao này bằng cách thực thi trong bảng điều khiển cho Hệ thống Linux trong thư mục hiện tại một tập lệnh một dòng đơn giản:

Đối với f trong *_origen ; làm rm $f; xong

Bạn có thể sao chép thẻ từ tệp này sang tệp khác. Dưới đây là ví dụ về lệnh trong đó thẻ EXIF ​​​​sẽ được sao chép từ tệp FOTO.DNG sang FOTO.JPG

Exiftool -TagsFromFile FOTO.DNG FOTO.JPG

Bằng cách này, có thể sao chép thẻ cho một số tệp trong một thư mục (tệp gốc và tệp phái sinh nằm cạnh nhau).

Exiftool -TagsFromFile %d%f.DNG -r -ext JPG folder_path

Tên và giải thích các thẻ EXIF ​​​​phổ biến nhất

  • Make - nhà sản xuất máy ảnh
  • Người mẫu - mẫu máy ảnh
  • Ngày Giờ - ngày thay đổi cuối cùng Hình ảnh
  • Thời gian phơi sáng - tốc độ màn trập
  • Số F - số khẩu độ
  • ISO - độ nhạy sáng
  • DateTimeOriginal - thời gian chụp
  • Tiêu cự - tiêu cự của ống kính trên máy ảnh
  • Nghệ sĩ - tác giả
  • Bản quyền - bản quyền
  • UserComment - nhận xét của người dùng về tập tin

Để không phải nhập bất kỳ bộ thẻ nào mỗi lần, chúng có thể được ghi vào một tệp văn bản riêng. Ví dụ: một tập hợp các thẻ chung cho bất kỳ bức ảnh số hóa nào từ máy ảnh Smena 8M có thể được viết như sau tập tin văn bản với một cái tên như lens8M.txt.

N -EXIF:LensModel=LOMO T-43 (Bộ ba) 40mm f/4 -EXIF:Model=Smena 8M -EXIF:FocalLength=40 -EXIF:MaxApertureValue=4

Và sau đó chỉ cần gọi tùy chọn -@ làm tham số.

Exiftool -@ lens8M.txt *.JPG

Gắn thẻ địa lý, đọc và chỉnh sửa

Exiftool là công cụ đơn giản nhất và cách hợp lý Thêm siêu dữ liệu vị trí địa lý (thẻ địa lý) vào cả tệp ảnh và video kỹ thuật số.

Xóa thẻ địa lý cụ thể thông qua giá trị trống. Ví dụ: khi xuất bản ảnh lên Internet, việc xóa thẻ địa lý khỏi chúng được coi là đúng. Lưu ý: giữa hai dấu nháy đơn-geotag="" phải là giá trị trống, không phải khoảng trắng.

Exiftool -geotag="" FOTO.JPG

Ngược lại, ví dụ: bạn có thể đặt kinh độ và vĩ độ trong siêu dữ liệu của ảnh kỹ thuật số bằng cách sử dụng các tham số -GPSLongitude và -GPSlatitude tương ứng. Ví dụ

Exiftool -GPSLongitude="27.46" -GPSLatitude="53.89" FOTO.JPG

ExifTool có thể hoạt động với các tuyến đường GPS, nhờ đó bạn có thể đồng bộ hóa tọa độ của tuyến đường GPS và thời gian chụp ảnh. Nghĩa là, nếu đường GPS được tạo trong quá trình chụp ảnh, thì khi sử dụng ExifTool, bạn có thể tự động trích xuất tọa độ địa lý tương ứng với thời điểm ảnh được chụp và ghi chúng vào siêu dữ liệu của ảnh.

Exiftool -thẻ địa lý track.gpx *.JPG

Thao tác ngày và giờ

Cài đặt thời gian không chính xác trong máy ảnh là một lỗi khó chịu phổ biến khác mà ExifTool sẽ giúp bạn khắc phục. Điều này đặc biệt khó chịu khi đồng bộ hóa đường đi và hình ảnh GPS. Bởi vì quá trình đồng bộ hóa với tọa độ của đường đi GPS diễn ra theo thời gian chụp ảnh và độ trễ hoặc tốc độ máy ảnh dù chỉ một phút cũng có thể dẫn đến sai số lớn về tọa độ của vị trí chụp trong siêu dữ liệu của ảnh kỹ thuật số. Bạn có thể khắc phục tình huống này bằng cách sử dụng định dạng đặc biệt năm:tháng:ngày giờ:phút:giây cho tùy chọn -DateTimeOriginal, dễ hiểu bằng cách sử dụng ví dụ sau. Giả sử chúng ta cần làm cho một bức ảnh cũ hơn một năm một giờ.

Exiftool "-DateTimeOriginal-=1:0:0 1:00:00" FOTO.JPG

Hãy chú ý đến dấu giảm - trước dấu =. Nếu bức ảnh cần được làm cho “trẻ hơn” theo thời gian nó được tạo thì dấu + sẽ được thêm vào.

Bạn có thể thay đổi ba thẻ thời gian cùng một lúc - DateTimeOriginal, CreateDate và ModifyDate. Để thực hiện việc này, hãy sử dụng tùy chọn -AllDates.

Bạn có thể đổi tên tên file ảnh dựa trên ngày EXIF, loại bỏ tên khai sinh tài liệu.

Exiftool -d %Y%m%d-%H%M%S.%%e "-filename

Đổi tên dựa trên ngày tạo mà không xóa tên tệp ban đầu.

Exiftool -d %Y%m%d-%H%M%S%%-c-%%f.%%e "-filename

Trong quá trình thao tác, ExifTool sẽ thay đổi ngày sửa đổi của tệp. Khôi phục ngày gốc ban đầu:

Exiftool "-filemodifydate

Metadata:

Siêu dữ liệu phổ biến trong các tệp PDF vì dữ liệu chứa trong tài liệu được điền tự động thông qua các ứng dụng chuyển đổi PDF. Ngoài ra, mặc dù Acrobat Professional cung cấp giao diện để quản lý dữ liệu này nhưng miễn phí chương trình đọc file PDF trên máy tính Cho phép bạn chỉ đọc.

Nội dung nhúng và tệp đính kèm:

Các tệp PDF có thể chứa nhiều loại nội dung khác nhau. Điều này có thể được nhúng hoặc đính kèm. Nội dung được nhúng thường xuất hiện và chạy như một phần của trang trong tệp, mặc dù các ứng dụng của bên thứ ba có thể cung cấp chức năng cần thiết để hỗ trợ nội dung. Tệp đính kèm thường yêu cầu người dùng mở tệp từ ứng dụng bên ngoài thay vì xuất hiện dưới dạng một phần của tệp PDF. Nhiều loại nội dung nhúng khác nhau có thể được trình bày trong tệp PDF. Các phiên bản PDF mới hơn hỗ trợ đa phương tiện như nội dung Flash, Windows Media Video và QuickTime. Mỗi loại nội dung này có thể chứa dữ liệu và siêu dữ liệu ẩn có thể khó xem. Ngoài ra, cách lưu trữ và mã hóa nội dung có thể gây khó khăn cho việc kiểm tra nội dung một cách chính xác và kỹ lưỡng. Acrobat cũng hỗ trợ đa phương tiện, kết hợp với các tính năng khác như bình luận bằng âm thanh để xem xét. Ngoài ra, âm thanh có thể được nhúng trực tiếp vào tệp. Khi âm thanh (hoặc phương tiện khác) tồn tại trong tệp PDF, tác giả có khả năng thay đổi trang web (biểu tượng) đại diện cho đối tượng. Nếu một hình ảnh trắng trơn được chọn, không có viền, nội dung có thể ẩn trong tệp. Sự thay đổi về cách hiển thị nội dung đa phương tiện sẽ làm tăng khả năng nội dung đó có thể được chứa trong tệp PDF mà nhà xuất bản không biết. PDF cũng hỗ trợ các nội dung nhúng khác, chẳng hạn như PostScript, không thể mở được trong giao diện Acrobat.

Kịch bản:

Giống như hầu hết các định dạng tài liệu phức tạp khác, lợi ích và rủi ro của tập lệnh là rất đáng kể. Theo mặc định, Adobe Reader cho phép nội dung hoạt động như JavaScript. Các tập lệnh như vậy có thể được cấu hình để tải khi tài liệu được mở. Người dùng có thể tắt chức năng này, nhưng hầu hết người dùng không tắt tập lệnh vì chúng có mục đích sử dụng hợp pháp. Một ví dụ về chức năng hợp pháp của tập lệnh là có thể phát hiện phiên bản cho người đọc sao cho nó ít nhất khớp với phiên bản của tài liệu. Mặc dù các tập lệnh có thể làm phong phú thêm trải nghiệm của người tiêu dùng về tài liệu trên mạng nội bộ nhưng chúng cũng có thể chứa nhiều thông tin hơn tác giả dự định xuất bản. Ví dụ về các loại thông tin có thể vô tình bị tiết lộ là dữ liệu hệ thống, thuộc tính mạng và dữ liệu quy trình kinh doanh.

Ẩn các lớp:

Khả năng sử dụng các lớp cho phép tác giả bao gồm nhiều chế độ xem nội dung trong một vùng hiển thị duy nhất. Nó thường được sử dụng trong các dự án kiến ​​trúc và kỹ thuật. Ví dụ: cho phép người dùng xem các thành phần khác nhau của một đối tượng phức tạp trong cùng một ngữ cảnh, thay đổi mức độ hiển thị của các thành phần. Trong nhiều trường hợp, điều này có thể được liên kết với JavaScript để kiểm soát khả năng hiển thị của lớp. Một nút có thể được hiển thị cho người dùng để họ có thể kiểm soát các thành phần riêng lẻ nào được hiển thị trên màn hình.

Chỉ mục tìm kiếm tích hợp:

Chỉ mục tìm kiếm tích hợp giúp người dùng tìm kiếm nhanh hơn và đặc biệt hữu ích trong các tài liệu rất lớn. Tuy nhiên, chỉ mục tìm kiếm có thể giữ lại nội dung từ các phiên bản trước của tài liệu đã bị xóa. Vì lý do này, điều quan trọng là các chỉ mục tìm kiếm tích hợp phải được loại bỏ trước khi phân phối.

Dữ liệu biểu mẫu tương tác đã lưu:

Các tính năng của biểu mẫu PDF phổ biến hơn và hiện được sử dụng để thu thập dữ liệu người dùng mà lẽ ra sẽ được viết hoặc nhập trên các biểu mẫu truyền thống. Acrobat thậm chí còn cho phép tác giả biểu mẫu bao gồm nút gửi để gửi địa chỉ email đã hoàn thành được xác định trước của người dùng. Ngoài ra, JavaScript có thể được sử dụng để kích hoạt chức năng biểu mẫu tùy chỉnh, tự động điền vào các khu vực nhất định hoặc để tạo điều kiện cho sự tương tác phức tạp của dữ liệu từ các nguồn bên ngoài.

Xem và bình luận:

Các tính năng cộng tác thường được sử dụng để liên lạc nhóm về nội dung của tài liệu. Nếu nhiều người dùng đang muốn cộng tác thì khả năng làm việc trong một môi trường duy nhất và chia sẻ ý tưởng là rất quan trọng. Vì lý do này, chức năng nhận xét và sửa đổi thường được sử dụng trong quá trình tạo tài liệu. Tuy nhiên, khi tài liệu đã sẵn sàng để phân phối, các tính năng này vẫn có thể lưu trữ dữ liệu không nhằm mục đích chia sẻ với đối tượng mục tiêu.

Các trang ẩn, hình ảnh và cập nhật dữ liệu:

Các tập tin PDF có thể được lấy bằng nhiều cách. Chúng có thể được tạo trong một lần duy nhất, trong đó nội dung được tạo từ đầu đến cuối. Nếu tệp PDF được cập nhật dần dần, các phiên bản trước của dữ liệu trong tệp có thể vẫn được giữ nguyên nhưng người dùng không hiển thị. Điều này tạo ra một rủi ro tiềm tàng đáng kể. Tệp PDF anh ấy tạo trong một lần không thể được sắp xếp theo cách hiệu quả nhất.

Ẩn văn bản và hình ảnh:

Văn bản có thể được ẩn trong một hàng theo nhiều cách khác nhau. Vì vậy, ví dụ: văn bản màu trắng trên nền trắng (hoặc văn bản khác có màu bất kỳ cho nền) có thể bị ẩn nhưng vẫn có thể truy xuất được nếu toàn bộ nội dung được sao chép và dán vào Notepad. Kỹ thuật tương tự cũng có thể trích xuất văn bản vô tình bị ẩn đằng sau hình ảnh. Đây có thể là một vấn đề khó khăn trong việc quản lý tài liệu vì các đối tượng được sao chép từ chương trình này sang chương trình khác trước quá trình chuyển đổi PDF có thể chứa văn bản không dễ phát hiện.

Nhận xét TPDF:

Ở định dạng PDF, nhận xét có thể được chèn vào dữ liệu nhị phân không được hiển thị trong Acrobat. Chúng có thể được sử dụng để cung cấp thông tin bổ sung về cách cấu trúc các thành phần tệp hoặc thông tin về nơi dữ liệu được tạo. Nhận xét xuất hiện trong tệp nhị phân đứng trước dấu phần trăm (%). Vì những nhận xét này không được hiển thị trong Acrobat nên chúng có thể chứa dữ liệu khó xem.

Dữ liệu chưa sử dụng:

Dữ liệu chứa trong tài liệu PDF có thể không sử dụng được. Ví dụ: một đối tượng có thể tồn tại trong Nội dung của tệp PDF không được tham chiếu bởi bảng tham chiếu chéo. Trong trường hợp này, nội dung đó sẽ bị ẩn và hoàn toàn không xuất hiện trong ứng dụng Acrobat. Có một số hạn chế về nội dung có thể tồn tại giữa các đối tượng trong tệp PDF, vì vậy hầu như mọi thứ đều có thể được lưu trữ ở đó. Điều này tạo ra nguy cơ đáng kể về dữ liệu ẩn.

Bạn có biết rằng nhiều tệp chứa thông tin ẩn, có thể bao gồm thông tin cá nhân? Thông tin ẩn này được gọi là "siêu dữ liệu" và có thể tiết lộ nhiều thông tin cá nhân của bạn hơn bạn có thể nhận ra. Trong bài viết này, bạn sẽ tìm hiểu ý nghĩa của siêu dữ liệu và cách bạn có thể chỉnh sửa hoặc xóa nó.

Ngoài nội dung của tệp (nội dung thực tế của nó, tức là thông tin), cùng với tệp còn có thông tin về chính tệp đó - dữ liệu về dữ liệu. Loại thông tin này được gọi là siêu dữ liệu. Một số dữ liệu này, chẳng hạn như kích thước tệp và ngày tạo, quen thuộc với mọi người nhưng có rất nhiều dữ liệu khác cũng được lưu trữ dưới dạng siêu dữ liệu. Ví dụ: các nhiếp ảnh gia có thể biết rằng các tệp hình ảnh có thể lưu trữ các chi tiết như tên của nhiếp ảnh gia, ảnh được chụp ở đâu và khi nào, cài đặt máy ảnh khi ảnh được chụp và các chi tiết khác. Theo mặc định, hầu hết siêu dữ liệu này bị ẩn khỏi người dùng và yêu cầu nhiều phương pháp bổ sung khác nhau để xem nó. Và đây là một số trong số họ.

Xem và chỉnh sửa siêu dữ liệu từ Windows Explorer

Một số, nhưng không phải tất cả siêu dữ liệu đều có thể được chỉnh sửa bằng cách sử dụng Windows Explorer. Để thực hiện việc này, nhấp chuột phải vào tệp và chọn "Thuộc tính" từ menu ngữ cảnh, sau đó chuyển đến tab "Chi tiết". Cửa sổ thuộc tính hiển thị một bảng có siêu dữ liệu có sẵn. Loại và bộ siêu dữ liệu sẽ tùy thuộc vào loại tệp và phiên bản hệ điều hành Windows của bạn. Một số siêu dữ liệu có thể được chỉnh sửa và xóa bằng cách chọn chuột. Trong Windows 7 trở lên, ở cuối cửa sổ còn có liên kết “Xóa thuộc tính và thông tin cá nhân”, nhấp vào đó sẽ mở ra một hộp thoại có khả năng chọn thông tin cần xóa. Xin lưu ý rằng đối với nhiều loại tệp, sẽ không có nhiều siêu dữ liệu để chỉnh sửa. Tuy nhiên, các tập tin media, tài liệu và các loại văn phòng khác sẽ có khá nhiều dữ liệu như vậy.

Trong Windows XP, trong số những thứ khác, bạn có thể thêm thẻ hoặc nhận xét vào siêu dữ liệu của bất kỳ tệp nào. Bắt đầu với Vista, Microsoft đã hạn chế khả năng chỉnh sửa một số siêu dữ liệu của một số loại tệp nhất định, chẳng hạn như ảnh, nhạc và tệp Office. Do đó, bạn có thể dễ dàng gặp phải tình huống không thể chỉnh sửa một số siêu dữ liệu theo cách chuẩn.

Siêu dữ liệu trong tài liệu và bảng tính Microsoft Office

Các tệp Office có thể được đặc biệt quan tâm vì siêu dữ liệu của chúng có thể chứa lượng thông tin cá nhân đáng kể của bạn. Tên của bạn, tên máy tính, tên công ty, tên của đồng tác giả và người biên tập, v.v. Phần lớn dữ liệu này được chôn trong một tệp và bạn thậm chí có thể không biết nó ở đó.

Các phiên bản khác nhau của Office có một công cụ gọi là Trình kiểm tra Tài liệu cho phép bạn xóa dữ liệu cá nhân khỏi tài liệu và bảng tính văn phòng. Đường dẫn đến chúng sẽ phụ thuộc vào phiên bản Office. Ví dụ: trong Office 2007, Trình kiểm tra Tài liệu nằm trong đường dẫn "Tệp -> Chuẩn bị -> Trình kiểm tra Tài liệu". Khi bạn khởi chạy nó, hộp thoại Trình hướng dẫn Dọn dẹp Tài liệu sẽ mở ra, trong đó sẽ trình bày chi tiết các bước để dọn sạch dữ liệu cá nhân của bạn. Tất cả bạn phải làm là chọn các mục bạn cần.

Siêu dữ liệu trong tệp và tài liệu PDF chứa thông tin cá nhân

Các tệp PDF cũng có thể chứa siêu dữ liệu không thể phát hiện hoặc chỉnh sửa bằng Windows Explorer. Để đọc chúng, bạn cần có trình đọc PDF. Ví dụ: Adobe Reader cho phép bạn xem và chỉnh sửa một số siêu dữ liệu nhất định, chẳng hạn như tên tác giả. Các chương trình khác dành cho Trình đọc PDF cũng sẽ cho phép bạn xem siêu dữ liệu nhưng không nhất thiết cho phép bạn chỉnh sửa hoặc xóa nó. Ví dụ: Sumatra chỉ cho phép bạn xem dữ liệu. Trong hầu hết các trình đọc PDF, con đường chungđể xem siêu dữ liệu sẽ tương tự như "Tệp -> Thuộc tính". Ngoài ra còn có một số sắc thái khi chỉnh sửa siêu dữ liệu, chẳng hạn như bạn không thể chỉnh sửa các tệp được bảo vệ theo cách thông thường.

Bây giờ, bạn biết rằng cùng với các tập tin của bạn có thể được phân phối thông tin cá nhân, và cũng biết một số cách để chỉnh sửa nó.


  • Phần mềm sao lưu Areca Backup

Mẹo kỹ thuật

  • Bảo mật thông tin, PDF

    Đây là một nhiệm vụ có vẻ tầm thường - xóa siêu dữ liệu khỏi tài liệu. Đã ngàn lần chuyên gia hoang tưởng bảo mật thông tinđưa ra khuyến nghị tương tự: “hãy đảm bảo xóa siêu thông tin dư thừa khỏi tài liệu trước khi xuất bản.” Và họ giải thích lý do tại sao điều này có thể cần thiết (ví dụ). Có rất nhiều hướng dẫn trên Internet về cách thực hiện việc này định dạng khác nhau hình ảnh và tài liệu, nhưng đồng thời cũng có khá nhiều thông tin dễ hiểu về một định dạng phổ biến như PDF.

    Sau đó, giữa một đống crapware, một thứ tuyệt vời tiện ích windows BeCyPDFMetaEdit , nhưng nó tự tin đối phó với PDF v 1.6 trở xuống và đối với các bản sửa đổi định dạng mới hơn, kết quả không được đảm bảo.

    Giải pháp Tối ưu, như thường lệ, đến từ thế giới *nix và cộng đồng những người ủng hộ phần mềm nguồn mở và miễn phí mã nguồn. Đây là gói tiện ích ExifTool, QPDF và Xpdf, mỗi tiện ích đều có sẵn trong Windows. Bởi vì Vì giấy phép của các tiện ích này không cấm chúng được phân phối tự do mà không sửa đổi nên tôi đã mạnh dạn thu thập chúng vào một kho lưu trữ duy nhất (WINx64) kèm theo tập lệnh và hướng dẫn sử dụng cơ bản. Nói tóm lại, bạn giải nén kho lưu trữ, đặt nó vào để làm sạch file PDF vào thư mục kết quả và sau đó kéo nó vào DEMETA.bat. Tập lệnh sẽ hoạt động và tập tin của bạn sẽ trở nên nguyên sơ.

  •