如何通过 API 正确调用巴西电影分级系统(ClassInd)网站进行影片搜索

本文详解如何绕过 400 错误,成功向巴西司法部 classind 门户的后端 api 发起带身份认证的 post 请求,完成影片标题搜索并结构化解析响应数据。

要成功调用 https://classindportal.mj.gov.br/api/solicitacao-classificacao-consultas/list 进行影片搜索,仅发送 {'tituloBr': 'shrek'} 是不够的——该接口受 OAuth 2.0 保护,必须携带有效的 Bearer Token。直接使用 requests.post(..., data=payload) 会因缺失认证头和错误的请求格式导致 400 Bad Request。

关键问题在于:
Token 获取:需先向 Keycloak 认证服务申请访问令牌;
请求格式:目标 API 接收的是 application/json 格式的 JSON body(非 x-www-form-urlencoded),因此应使用 json= 参数而非 data=;
完整请求头:除 Authorization 外,还需模拟浏览器行为,包含 Origin、Referer、User-Agent 等必要头字段。

以下是可直接运行的完整 Python 示例(基于 requests):

import requests

SEARCH_TERM = "shrek"

# Step 1: 获取访问令牌
token_url = "https://sso.mj.gov.br/auth/realms/PRD/protocol/openid-connect/token"
token_data = {
    "client_id": "classind-consultapublica-frontend",
    "client_secret": "4PmaBa8bBeVow40SKFNb7qNHzAxuLoqz",
    "grant_type": "client_credentials",
    "scope": "classind-backend",
}

# Step 2: 构建搜索请求头与载荷
movies_url = "https://classindportal.mj.gov.br/api/solicitacao-classificacao-consultas/list"
headers = {
    "Accept": "application/json, text/plain, */*",
    "Origin": "https://classindportal.mj.gov.br",
    "Referer": "https://classindportal.mj.gov.br/consulta-filmes",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
    "Connection": "keep-alive",
    "Sec-Fetch-Dest": "empty",
    "Sec-Fetch-Mode": "cors",
    "Sec-Fetch-Site": "same-origin",
}

json_payload = {
    "currentPage": 0,
    "pageSize": 10,
    "sortItem": None,
    "totalResults": None,
    "itens": None,
    "tituloBr": SEARCH_TERM,
    "tituloOr": "",
    "requerente": "",
    "produtor": "",
    "editora": "",
    "idModulo": 1,
}

# Step 3: 使用 Session 自动管理会话与 Token 注入
with requests.Session() as session:
    # 获取 token
    token_resp = session.post(token_url, data=token_data)
    token_resp.raise_for_status()
    access_token = token_resp.json()["access_token"]

    # 注入 Authorization 头
    headers["Authorization"] = f"Bearer {access_token}"

    # 发起搜索请求(注意:使用 json= 而非 data=)
    search_resp = session.post(movies_url, json=json_payload, headers=headers)
    search_resp.raise_for_status()

    result = search_resp.json()
    print("共返回", len(result.get("itens", [])), "条匹配结果")
    for item in result.get("itens", [])[:3]:
        print(f"ID: {item['id']}, 标题: {item['tituloBrasil']}, 分级: {item.get('classificacaoAtribuida', 'N/A')}")
⚠️ 注意事项: client_secret 属于前端公开凭证,虽可安全使用,但请勿在公开仓库中硬编码;生产环境建议通过环境变量加载。 currentPage 和 pageSize 支持分页,如需获取全部结果,请循环递增 currentPage 并合并 itens 列表。 若响应中 itens 为空,请检查 tituloBr 是否严格匹配(该字段区分大小写且可能截断空格)。 若频繁请求遭遇限流或 401 Unauthorized,说明 Token 已过期(通常有效期约 5 分钟),需重新获取。

进阶提示:可将结果快速转为 Pandas DataFrame 进行分析:

import pandas as pd
# ...(上述 session 代码块内,search_resp 成功后)
df = pd.DataFrame(result["itens"])
print(df[["id", "tituloBrasil", "classificacaoAtribuida"]].head())

至此,你已掌握调用 ClassInd 官方 API 的完整链路:认证 → 搜索 → 解析。该模式适用于所有受 Keycloak 保护的巴西政府开放 API,具备良好的复用性与工程扩展基础。