Python脚本实现CSV到WOS格式转换及CiteSpace文献分析全流程

## 1. 从“奇葩”数据到规范格式：为什么我们需要这个转换？我猜点开这篇文章的你，可能正对着一个从老师、同学或者某个奇怪的数据源那里拿到的CSV格式文献数据发愁。数据列倒是挺全，标题、作者、摘要、关键词、年份一应俱全，但当你兴冲冲地想把它扔进CiteSpace，准备大干一场，生成几张漂亮的共现图谱或聚类视图时，软件却冷冰冰地弹出一个错误：“无效的数据格式”或者干脆不认。这种感觉，就像你拿到了一把钥匙，却怎么也插不进锁孔。这事儿我太有共鸣了。很多学术场景下，为了方便统计或初步分析，大家会把从Web of Science（WOS）这类权威数据库导出的标准数据，处理成CSV或Excel表格。表格固然直观，但像CiteSpace、VOSviewer这类专业的文献计量学软件，它们“认”的“母语”往往是WOS、Scopus等数据库的**原生导出格式**。这些格式不是简单的行列数据，而是一种带有特定字段标签（如`TI`代表标题，`AB`代表摘要）的**文本记录格式**。每篇文献是一条独立的、结构化的文本记录，记录之间用分隔符隔开。所以，我们面临的核心问题就是：如何把“表格形态”的数据，还原成“记录形态”的、CiteSpace能“读懂”的WOS格式文本文件？手动操作？2000条文献，每条十几二十个字段，复制粘贴到天荒地老，还容易出错。这时候，一个自动化的Python脚本就成了救命稻草。它不仅能帮你把CSV转成WOS格式，更重要的是，这个过程是可复现、可批处理的。今天处理2000条，明天换个数据集有5000条，你只需要改个文件名，跑一下脚本，几分钟就搞定，省下的时间喝杯咖啡、多读几篇文献不香吗？接下来，我就把自己踩过坑、验证过的方法，从思路拆解到代码细节，再到最后的CiteSpace导入实战，完整地分享给你。即使你Python刚入门，跟着步骤一步步来，也绝对能搞定。 ## 2. 动手之前：彻底搞懂WOS格式的“密码” 磨刀不误砍柴工。直接写代码转换，很容易转出一堆CiteSpace不认的“四不像”。我们必须先当一回“侦探”，仔细研究一下正版WOS导出的文件长什么样。你手头最好有一份从Web of Science官网正常导出的、CiteSpace能成功导入的`txt`文件（通常命名为`download_xxx.txt`）。用记事本或任何代码编辑器打开它，你会看到类似下面的结构： ``` FN Clarivate Analytics Web of Science VR 1.0 PT J AU Smith, J Jones, M TI This is a Sample Article Title SO JOURNAL OF SAMPLE STUDIES VL 15 IS 3 BP 123 EP 135 PY 2023 AB This is the abstract of the article... DE keyword1; keyword2; keyword3 ER PT J AU Lee, K Wang, Q TI Another Research Paper SO ANOTHER JOURNAL VL 22 IS 1 BP 45 EP 67 PY 2022 AB Another abstract here... DE analysis; method; application ER ``` 观察几分钟，你会发现几个铁律，这就是我们脚本要实现的“目标格式”： 1. **文件头尾**：文件以 `FN` 和 `VR` 开头（标识文件来源和版本），以 `EF` 结尾。我们转换时需要在生成的文件首尾手动或通过代码加上这几行。 2. **记录结构**：**每篇文献是一条独立的记录**。记录以 `PT J`（表示出版物类型为期刊）开始，以 `ER`（End of Record）结束。 3. **字段格式**：每个字段占一行。格式是 `字段标签字段内容`。注意，是**一个空格**分隔标签和内容，而不是冒号、逗号或制表符。例如 `TI A Study on...`。 4. **多值字段**：像作者（`AU`）、关键词（`DE`）这类可能有多个值的字段，每个值单独占一行，但**共用同一个字段标签**。比如上面例子中的作者字段。 5. **记录分隔**：每条`ER`记录结束后，通常会有一个**空行**，再开始下一条记录。这能让文件结构更清晰。而你的CSV表格，很可能长这样： | Title | Authors | Abstract | Year | Keywords | | :--- | :--- | :--- | :--- | :--- | | Article One | Zhang, S; Li, H | This is abstract one... | 2022 | AI; Machine Learning | | Article Two | Wang, F | Abstract two... | 2023 | Data Mining | 看出来了么？CSV是“字段名在上，所有数据在下”的**矩阵视图**；而WOS格式是“一篇文献一套字段，逐篇罗列”的**记录视图**。我们的转换，本质上就是一次**数据结构的重塑**：把横着铺开的一行数据（一篇文献的所有信息），变成竖着排列的一条记录。 ## 3. 核心战场：Python脚本的逐行拆解与实战理解了目标，我们就可以动手写代码了。我会把整个过程拆成几个清晰的步骤，每个步骤对应一个Python脚本或一个关键操作。你可以跟着一步一步来，我会解释每一行代码在干什么。 ### 3.1 第一步：准备原料——清洗与映射CSV表头拿到CSV文件，先别急着运行脚本。用Excel或WPS打开它，看看你的列名是什么。它们可能是英文的`Title`, `Author`，也可能是中文的`标题`, `作者`。我们的脚本需要知道每一列对应WOS的哪个标准字段。你需要准备一个“映射字典”。这是整个转换的“翻译官”。去查一下“Web of Science 字段标签”，常见的对应关系如下： * `Title` -> `TI` * `Abstract` -> `AB` * `Author` -> `AU` * `Year` -> `PY` * `Source` (期刊名) -> `SO` * `Volume` -> `VL` * `Issue` -> `IS` * `Pages` -> `BP` (起始页) & `EP` (结束页) *（注意：这个可能需要从一列如“123-135”中拆分）* * `Keywords` -> `DE` **操作建议**：在你的CSV文件里，**直接修改列名**。把`Title`改成`TI`，把`Abstract`改成`AB`……以此类推。这样后续脚本处理起来最简单，因为脚本可以直接把这些列名当作WOS字段标签来用。如果原数据是中文列名，这一步更是必须的。如果CSV里“作者”或“关键词”这些字段是用分号、逗号隔开的（如`Zhang, S; Li, H`），这正好符合WOS多值字段的格式，我们后续可以直接利用。 ### 3.2 第二步：行列转置——从“一行一篇”到“一列一篇” 这是关键的数据结构转换。在原始文章中，作者提到了用Excel的“选择性粘贴->转置”功能。这对于小数据量、一次性操作是没问题的。但为了全流程自动化，我们用Python来实现它，这样更稳健，也便于处理大批量数据。假设你已经把修改好列名的CSV文件保存为`input.csv`。新建一个Python脚本，比如叫`step1_transpose.py`。 ```python # step1_transpose.py import csv def csv_to_wos_format(input_csv, output_txt): """ 将CSV文件转换为类WOS格式的文本。核心：将CSV的每一行（一篇文献）转置为一列，并格式化为WOS记录。 """ # 读取CSV文件 with open(input_csv, 'r', encoding='utf-8-sig') as f: # 注意编码，防止中文乱码 reader = csv.DictReader(f) # 使用DictReader，方便通过列名（字段标签）访问数据 data = list(reader) # 准备写入输出文件 with open(output_txt, 'w', encoding='utf-8') as f_out: # 1. 写入WOS文件头 (CiteSpace有时不严格需要，但加上更规范) f_out.write('FN Web of Science\n') f_out.write('VR 1.0\n\n') # 2. 遍历每一行（每一篇文献） for record in data: # 开始一条新记录 f_out.write('PT J\n') # 3. 遍历当前文献的每一个字段（除了空字段） for field_tag, value in record.items(): if value and str(value).strip(): # 跳过空值 # 处理多值字段（如AU, DE） if field_tag in ['AU', 'DE']: # 假设值是用分号分隔的，例如 "Author1; Author2" sub_values = [v.strip() for v in str(value).split(';') if v.strip()] for sub_val in sub_values: f_out.write(f'{field_tag} {sub_val}\n') else: # 单值字段直接写入 f_out.write(f'{field_tag} {value}\n') # 4. 结束一条记录 f_out.write('ER\n\n') if __name__ == '__main__': # 使用示例 input_file = 'input.csv' # 你的输入文件 output_file = 'output_raw.txt' # 中间输出文件 csv_to_wos_format(input_file, output_file) print(f"转换完成！原始WOS格式文件已保存为: {output_file}") ``` **这段代码干了什么？** 1. `csv.DictReader`把CSV读成一个字典列表，每行是一个字典，键是列名（我们之前改好的`TI`, `AB`等），值是对应的内容。 2. 先写入`FN`和`VR`头信息。 3. 对于每一篇文献（每个字典）： * 先写`PT J`。 * 然后遍历这个字典的所有键值对。对于`AU`（作者）和`DE`（关键词）这种多值字段，我们按分号`;`拆分，每个值单独写成一行`AU 作者名`。 * 其他字段直接写`字段标签内容`。 * 最后写`ER`并空一行。 4. 输出一个初步的`output_raw.txt`。跑一下这个脚本，用记事本打开`output_raw.txt`看看，是不是已经很像WOS格式了？恭喜你，核心转换已经完成了80%！ ### 3.3 第三步：格式微调与最终清理上一步生成的`output_raw.txt`可能还存在一些小问题，比如有些字段内容里本身有换行符（比如长的摘要），这可能会破坏WOS的记录结构。或者你想过滤掉一些不必要的列。我们可以写一个简单的清理脚本。 ```python # step2_cleanup.py def finalize_wos_file(input_txt, output_final): """ 对初步转换的WOS文件进行最终清理和格式化。 """ with open(input_txt, 'r', encoding='utf-8') as f_in: lines = f_in.readlines() cleaned_lines = [] for line in lines: # 移除每行首尾的空白字符 stripped_line = line.strip() if not stripped_line: # 保留记录间的空行，但移除连续多个空行可能造成的多余空行 if cleaned_lines and cleaned_lines[-1] != '': cleaned_lines.append('') continue # 确保是有效的“字段标签内容”行（简单判断：包含空格且不以特定注释符开头） if ' ' in stripped_line: cleaned_lines.append(stripped_line) else: # 对于可能意外出现的无空格行，可以选择跳过或特殊处理 # 这里我们选择保留（可能是PT J, ER等） cleaned_lines.append(stripped_line) # 确保文件以EF结束 # 首先移除末尾可能存在的空行 while cleaned_lines and cleaned_lines[-1] == '': cleaned_lines.pop() # 写入最终文件 with open(output_final, 'w', encoding='utf-8') as f_out: for line in cleaned_lines: f_out.write(line + '\n') # 添加文件结束符 f_out.write('EF\n') if __name__ == '__main__': input_file = 'output_raw.txt' final_output = 'download_1.txt' # CiteSpace期望的文件名格式 finalize_wos_file(input_file, final_output) print(f"清理完成！最终文件已保存为: {final_output}") ``` 这个脚本做了几件事：移除多余空白、确保格式整洁，最后在文件末尾加上`EF`。现在，你得到的`download_1.txt`就是一个可以被CiteSpace识别的、标准的WOS格式文献数据文件了。 ## 4. 临门一脚：在CiteSpace中导入与验证脚本跑通了，文件生成了，最后一步就是把它喂给CiteSpace。这一步其实很简单，但有些细节不注意也会报错。 1. **准备数据目录**：在电脑上找一个位置，新建一个文件夹，例如叫`MyCiteSpaceData`。将我们刚刚生成的`download_1.txt`文件放进去。 2. **启动CiteSpace**：打开CiteSpace，在第一个界面（Project）点击`New`创建一个新项目。 * `Project Home`: 浏览到你刚创建的`MyCiteSpaceData`文件夹。 * `Data Directory`: **同样选择这个文件夹**。这是关键，CiteSpace会在这个文件夹里寻找`download_*.txt`格式的文件。 * 其他项目名称可以按喜好填写。 3. **数据源与过滤**：点击`Next`，进入数据界面。 * 在`Data Import/Export`选项卡下，`Data Source`选择`Web of Science`。 * 点击`Import/Export`按钮旁边的`...`，正常情况下，CiteSpace会自动检测到`MyCiteSpaceData`文件夹下的`download_1.txt`文件。你会在下方看到文件列表。 * 你可以在这里设置时间切片（Time Slicing）、关键词来源等。对于初次导入，可以先保持默认。 4. **执行数据转换**：点击`Go`按钮旁边的`Start`。CiteSpace会开始解析你的`download_1.txt`文件，并将其转换为自己内部的数据库格式。这个过程会在`MyCiteSpaceData`文件夹下生成一个`data`子文件夹，里面存放转换后的数据。 5. **验证成功**：如果一切顺利，你会看到进度条完成，并且没有红色错误提示。在CiteSpace主界面，你可以尝试进行一个简单的分析，比如`Keyword`（关键词）分析，点击`Visualize`，如果能成功生成一个网络图谱，那就大功告成了！ **可能遇到的坑与解决**： * **编码问题**：如果导入后发现作者名、标题里有乱码，回到第一步的Python脚本，检查`open`函数是否指定了正确的编码（如`utf-8`或`gbk`），确保读写编码一致。 * **字段缺失**：CiteSpace进行某些分析（如作者共现`Author`）需要`AU`字段，进行机构分析需要`C1`（作者地址）字段。如果你的原始CSV里没有这些字段，相应的分析就无法进行。转换前请确认你的数据包含了分析所需的字段。 * **日期格式**：`PY`（出版年）字段最好是四位数字年份。确保你的CSV中年份列是规整的数值格式。 ## 5. 不止于转换：脚本的扩展与高级技巧掌握了基础转换，你的脚本可以变得更强大，更能适应各种“奇葩”数据。 **处理更复杂的CSV结构**：有时CSV里一列包含了复合信息，比如`Pages`列是`123-135`。你可以在转换脚本中增加预处理步骤，将其拆分成`BP`（123）和`EP`（135）两列。 ```python # 在遍历记录时，可以添加这样的逻辑 if field_tag == 'Pages' and '-' in value: start_page, end_page = value.split('-') f_out.write(f'BP {start_page.strip()}\n') f_out.write(f'EP {end_page.strip()}\n') else: # 其他字段正常处理 ``` **批量处理多个文件**：如果你有多个CSV文件（比如分不同年份下载的），可以稍微修改脚本，让它遍历一个文件夹下的所有CSV文件，合并转换成一个大的`download.txt`文件，或者生成多个`download_1.txt`, `download_2.txt`供CiteSpace分别分析。 **添加日志和错误检查**：在脚本中加入`try...except`语句和`print`日志，记录下转换过程中跳过哪些空行、处理了多少条记录，这样在数据量很大时，你能清楚知道转换是否完整。 **集成到工作流中**：你可以把这个Python脚本和你的数据收集流程（比如用Selenium自动爬取文献元数据并存为CSV）结合起来，形成一个从数据采集到分析准备的全自动化管道。回过头看，整个流程的核心思想并不复杂：理解目标格式（WOS）的规则，然后用代码将源数据（CSV）重新组装成目标格式。这个过程锻炼的不仅是Python编程能力，更是对数据结构的理解和处理实际问题的能力。下次再遇到任何需要格式转换的任务，你都可以用类似的思路去拆解和解决。希望这个详细的流程能帮你把那些“用不了”的CSV数据，变成CiteSpace里闪闪发光的知识图谱。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇数值和类别特征怎么用Pipeline分别做缺失值填充和标准化/编码？

目录

Python脚本实现CSV到WOS格式转换及CiteSpace文献分析全流程

Python内容推荐

test_212_python爬虫_wos数据库_

Python爬取WOS论文信息[项目代码]

Python库 | ibm_wos_utils-2.0.4-cp36-cp36m-manylinux1_x86_64.whl

基于Python语言的WOS引文检索软件设计与实现.zip

基于Python语言的WOS引文检索软件设计与实现.pdf

基于Python的WoS论文条目自动化处理方法研究

使用python处理WoS导出的论文条目，批量查询期刊的影响因子、翻译论文摘要，

Python库 | ibm_wos_utils-1.2.0-cp37-cp37m-manylinux1_x86_64.whl

Python库 | ibm_wos_utils-1.1.0-cp36-cp36m-manylinux1_x86_64.whl

Python库 | wos_api_wrapper-0.4.4-py3-none-any.whl

利用citespace对知网和WOS文献做文献综述

Wos核心数据集批量下载油猴脚本.zip

Wos核心数据集批量下载油猴脚本

互联网在线学习行为研究的热点及趋势——基于CSSCI和SCI文献的CiteSpace可视化分析.pdf

citespace5.7.r2

最新版本citespace

国外深度学习研究的现状与进展——基于WOS数据库中SSCI文献的分析.pdf

1983—2019煤矿安全研究现状与热点前沿可视化分析——基于WOS核心合集数据库的CiteSpace图谱呈现

Pajek格式转换软件WoS2Pajek

Citespace一站式资料包.zip

XX一号地工程模板支撑系统监理实施细则分析

别再为PyG安装头疼了！手把手教你用pip搞定PyTorch Geometric（附版本匹配避坑指南）

Windows下用YOLO时路径写法有什么讲究？斜杠、盘符和相对路径怎么处理？

现代自动控制系统理论与应用前沿综述

Jetson Nano环境配置避坑指南：TF卡初始化与镜像烧录全流程（Win11实测）

Hibernate懒加载字段在JSON序列化前怎么提前初始化？

VScode环境下LVGL运行指南及安装包下载

Prescan8.5+MATLAB2020b联合仿真避坑指南：从安装到第一个场景搭建全流程

Monkey测试中频繁出现ANR和崩溃，该怎么快速定位和修复？

2023年大学VB编程考试题库精编与解析