Playwright 实战：轻松掌握 PDF 内容验证

在自动化测试中，PDF 文件的验证常常被忽视，但其重要性不容小觑。PDF 文件常用于展示发票、合同等关键信息，确保其内容准确无误对保障应用质量至关重要。本文将带你深入了解如何利用 Playwright，结合 pdf-parse 和 fs 模块，实现 PDF 内容的自动化验证。

为什么选择 Playwright？

Playwright 是一款强大的开源自动化测试工具，支持多浏览器和多平台运行。虽然它没有内置的 PDF 验证功能，但通过与其他工具配合，我们可以轻松填补这一空白。

准备工作

首先，安装所需依赖：

<svg height="13px" version="1.1" viewbox="0 0 450 130" width="45px" x="0px" xmlns="http://www.w3.org/2000/svg" y="0px"></svg>npm install playwright fs pdf-parse
npm init playwright@latest

实战步骤

1. 下载 PDF 文件

使用 Playwright 模拟用户行为，下载 PDF 文件：

<svg height="13px" version="1.1" viewbox="0 0 450 130" width="45px" x="0px" xmlns="http://www.w3.org/2000/svg" y="0px"></svg>const { test, expect } = require("@playwright/test");

test("下载 PDF 文件", async ({ page }) => {
  // 导航到包含 PDF 的页面
  await page.goto("https://pdfobject.com/pdf/sample.pdf");
  
  // 同时等待下载事件并触发下载
  const [download] = await Promise.all([
    page.waitForEvent("download"), // 监听下载事件
    page.getByRole("link", { name: "A Simple PDF File" }).click() // 点击下载链接
  ]);
  
  // 保存文件到指定路径
  const filePath = "ExportData/" + download.suggestedFilename();
  await download.saveAs(filePath);
});

2. 提取 PDF 内容

借助 pdf-parse 提取 PDF 中的文本，并保存为文本文件：

<svg height="13px" version="1.1" viewbox="0 0 450 130" width="45px" x="0px" xmlns="http://www.w3.org/2000/svg" y="0px"></svg>const fs = require("fs");
const pdf = require("pdf-parse");

async function extractPdfText(filePath) {
  try {
    // 读取 PDF 文件内容
    const dataBuffer = fs.readFileSync(filePath);
    // 解析 PDF 获取文本
    const data = await pdf(dataBuffer);
    // 将提取的文本保存到 actual.txt
    fs.writeFileSync("./ExportData/actual.txt", data.text);
  } catch (error) {
    // 处理解析失败的情况
    console.error("PDF 解析失败:", error);
  }
}

// 调用函数提取文本
extractPdfText("./ExportData/sample.pdf");

3. 验证内容

比较提取的文本与预期内容，确保一致性：

<svg height="13px" version="1.1" viewbox="0 0 450 130" width="45px" x="0px" xmlns="http://www.w3.org/2000/svg" y="0px"></svg>test("验证 PDF 内容", async () => {
  // 读取预期和实际文本内容
  let expected = fs.readFileSync("./ExportData/expected.txt", "utf-8");
  let actual = fs.readFileSync("./ExportData/actual.txt", "utf-8");
  
  // 使用 Playwright 的 expect 断言内容一致
  expect(actual).toBe(expected);
});

项目目录结构

为方便理解，项目文件组织如下：

<svg height="13px" version="1.1" viewbox="0 0 450 130" width="45px" x="0px" xmlns="http://www.w3.org/2000/svg" y="0px"></svg>- ExportData
  - actual.txt    # 提取的实际文本
  - expected.txt  # 预期的文本
  - sample.pdf    # 下载的 PDF 文件
- node_modules    # 依赖包
- playwright-report  # 测试报告
- tests
  - example.spec.js  # 测试脚本
- package-lock.json
- package.json
- playwright.config.js