




应使用MultiByteToWideChar(Windows)或std::mbrtowc(跨平台),而非弃用的std::codecvt或locale依赖的mbstowcs;源字符串编码必须明确为UTF-8,不可依赖系统locale。
在 C++11 及以后,std::codecvt 已被弃用(C++17 标准中标记为 deprecated),且 MSVC 和 GCC 都不推荐继续使用。直接调用 mbstowcs 或 MultiByteToWideChar(Windows)更可靠、更可控。
关键点在于:源 std::string 的编码必须明确——它通常是 UTF-8(Linux/macOS 默认)、GBK(中文 Windows 系统本地代码页),或其它 locale-dependent 编码。不能假设“系统 locale 就是 UTF-8”。
mbstowcs 在 LC_CTYPE 设为 en_US.UTF-8 时可安全转换 UTF-8 到 wchar_t
Chinese_PRC.936),此时若传入 UTF-8 字符串却用 mbstowcs,会乱码或截断std::wstring_convert 同样已弃用,不要在新项目中使用这是 Windows 上最稳妥的方式,尤其当你明确知道输入是 UTF-8(比如从 JSON、网络 API、UTF-8 文本文件读取的 std::string)。
示例(无异常处理简化版):
std::wstring string_to_wstring(const std::string& str) {
if (str.empty()) return std::wstring();
int len = MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, nullptr, 0);
std::wstring result(len - 1, L'\0'); // -1 排除 null terminator
MultiByteToWideChar(CP_UTF8, 0, str.c_str(), -1, &result[0], len);
return result;
}CP_UTF8 明确指定输入为 UTF-8;别用 CP_ACP(当前 ANSI 代码页),它在中文 Windows 上是 GBK,和 UTF-8 混用必出错L'\0',但 std::wstring 自身不依赖它,所以 len - 1 是安全的字符数如果不想引入 Windows API,又需兼容 Linux/macOS,可用 std::mbrtowc 逐字符解析 UTF-8 —— 它是 C 标准库函数,行为定义清晰,且不依赖全局 locale 设置(只要传入正确的 mbstate_t 初始化状态)。
注意:std::mbrtowc 不是“一次转整个字符串”,需循环调用:
std::wstring utf8_to_wstring(const std::string& u8str) {
std::wstring result;
result.reserve(u8str.size()); // 粗略预分配(UTF-8 中 ASCII 占 1 字节,汉字占 3,wchar_t 通常 4 字节)
mbstate_t state = {};
const char* ptr = u8str.c_str();
const char* end = ptr + u8str.size();
while (ptr < end) {
wchar_t wc;
size_t r = std::mbrtowc(&wc, ptr, end - ptr, &state);
if (r == static_cast(-1)) break; // 无效 UTF-8
if (r == stati
c_cast(-2)) break; // 截断(不完整多字节序列)
if (r > 0) {
result.push_back(wc);
ptr += r;
} else {
ptr++; // r == 0,遇到 '\0'
}
}
return result;
} mbstate_t state = {},否则未定义行为-1 表示非法字节序列(如 "\xFFabc"),-2 表示输入结束但多字节未完成(如只剩 "\xE4\xB8")mbstowcs 更可预测——前提是输入确实是 UTF-8因为 std::string 和 std::wstring 的内存布局完全不同:前者是连续 char(1 字节),后者是连续 wchar_t(Windows 是 2 字节,Linux/macOS 通常是 4 字节)。直接 reinterpret_cast 会导致:
"中" 是 \xE4\xB8\xAD,强制当 wchar_t 读成 0xE4B8 或 0x00E4B800,完全不是 U+4E2D)str.size() 字节 ≠ wstr.size() 个 wchar_t)这种“捷径”只在极特殊场景(如你 100% 确定 string 是按 wchar_t 大小对齐的二进制 dump,且平台一致)下才可能成立,日常开发中等同于埋雷。