c++如何将string转换为wstring_c++宽窄字符转换【源码】_技术教程

应使用MultiByteToWideChar（Windows）或std::mbrtowc（跨平台），而非弃用的std::codecvt或locale依赖的mbstowcs；源字符串编码必须明确为UTF-8，不可依赖系统locale。

std::string 转 std::wstring 用 mbstowcs 还是 std::codecvt？

在 C++11 及以后，std::codecvt 已被弃用（C++17 标准中标记为 deprecated），且 MSVC 和 GCC 都不推荐继续使用。直接调用 mbstowcs 或 MultiByteToWideChar（Windows）更可靠、更可控。

关键点在于：源 std::string 的编码必须明确——它通常是 UTF-8（Linux/macOS 默认）、GBK（中文 Windows 系统本地代码页），或其它 locale-dependent 编码。不能假设“系统 locale 就是 UTF-8”。

Linux/macOS 下多数终端和文件 I/O 默认 UTF-8，mbstowcs 在 LC_CTYPE 设为 en_US.UTF-8 时可安全转换 UTF-8 到 wchar_t
Windows 控制台默认是 GBK（如 Chinese_PRC.936），此时若传入 UTF-8 字符串却用 mbstowcs，会乱码或截断
std::wstring_convert 同样已弃用，不要在新项目中使用

Windows 下用 MultiByteToWideChar 转 UTF-8 到 wstring

这是 Windows 上最稳妥的方式，尤其当你明确知道输入是 UTF-8（比如从 JSON、网络 API、UTF-8 文本文件读取的 std::string）。

示例（无异常处理简化版）：

std::wstring string_to_wstring(const std::string& str) {
    if (str.empty()) return std::wstring();
    int len = MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, nullptr, 0);
    std::wstring result(len - 1, L'\0'); // -1 排除 null terminator
    MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, &result[0], len);
    return result;
}

CP_UTF8 明确指定输入为 UTF-8；别用 CP_ACP（当前 ANSI 代码页），它在中文 Windows 上是 GBK，和 UTF-8 混用必出错
两次调用：第一次获取所需缓冲区长度，第二次写入；避免硬分配过大 buffer 或栈溢出
返回值含末尾 L'\0'，但 std::wstring 自身不依赖它，所以 len - 1 是安全的字符数

跨平台（UTF-8 输入）用 std::mbrtowc 手动转换

如果不想引入 Windows API，又需兼容 Linux/macOS，可用 std::mbrtowc 逐字符解析 UTF-8 —— 它是 C 标准库函数，行为定义清晰，且不依赖全局 locale 设置（只要传入正确的 mbstate_t 初始化状态）。

注意：std::mbrtowc 不是“一次转整个字符串”，需循环调用：

std::wstring utf8_to_wstring(const std::string& u8str) {
    std::wstring result;
    result.reserve(u8str.size()); // 粗略预分配（UTF-8 中 ASCII 占 1 字节，汉字占 3，wchar_t 通常 4 字节）
    mbstate_t state = {};
    const char* ptr = u8str.c_str();
    const char* end = ptr + u8str.size();
    while (ptr < end) {
        wchar_t wc;
        size_t r = std::mbrtowc(&wc, ptr, end - ptr, &state);
        if (r == static_cast(-1)) break; // 无效 UTF-8
        if (r == static_cast(-2)) break; // 截断（不完整多字节序列）
        if (r > 0) {
            result.push_back(wc);
            ptr += r;
        } else {
            ptr++; // r == 0，遇到 '\0'
        }
    }
    return result;
}

必须初始化 mbstate_t state = {}，否则未定义行为
返回值 -1 表示非法字节序列（如 "\xFFabc"），-2 表示输入结束但多字节未完成（如只剩 "\xE4\xB8"）
该函数不修改 locale，因此比 mbstowcs 更可预测——前提是输
入确实是 UTF-8

为什么不能直接 reinterpret_cast(str.data())？

因为 std::string 和 std::wstring 的内存布局完全不同：前者是连续 char（1 字节），后者是连续 wchar_t（Windows 是 2 字节，Linux/macOS 通常是 4 字节）。直接 reinterpret_cast 会导致：

字节序错乱（如 UTF-8 的 "中" 是 \xE4\xB8\xAD，强制当 wchar_t 读成 0xE4B8 或 0x00E4B800，完全不是 U+4E2D）
越界访问（str.size() 字节 ≠ wstr.size() 个 wchar_t）
程序崩溃或静默数据损坏，尤其在开启 ASAN 或不同平台时表现不一