import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.OutputStreamWriter;
import java.io.PrintStream;
import java.io.PrintWriter;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class ReadTxtFile {
public static void main(String[] args){
String raw = ReadTxtFile.readTxtFile("/Users/yourname/Downloads/a.txt");
String noNumRaw = raw.replaceAll("\\d+", "").replaceAll(",", "");
//String noRaw = noNumRaw.replaceAll("[,|\\\"]", "\t").replace("[\t|\n]", "\r\n");
//String result = noRaw.replaceAll("[\\n]", "").replaceAll("\\s", "\n").replaceAll("(?m)^\\s+", "");
//String result = noRaw.replaceAll("^\\n", "").replaceAll("\\t", "");
//System.out.println(result);
String regex = "\\\"([^\\\"]+)\\\"\\b";
Matcher m = Pattern.compile(regex).matcher(noNumRaw);
String result = m.replaceAll("$1\r\n");
result = result.replaceAll("\\\"\\\"", "\r\n");
result = result.replaceAll("\\\"", "");
//m = Pattern.compile("^[\u4E00-\u9FFF]+").matcher(result);
//result = m.replaceAll("");
System.out.println(result);
try {
ReadTxtFile.writeFromBuffer(result, "/Users/yourname/Downloads/b.txt");
} catch (IOException e) {
e.printStackTrace();
}
}
public static void writeFromBuffer(String str, String outFileName) throws IOException {
OutputStream os = new FileOutputStream(outFileName);
PrintStream ps = new PrintStream(os);
ps.print(str);
PrintWriter writer = new PrintWriter(new OutputStreamWriter(os));
writer.flush();
os.close();
}
@SuppressWarnings("finally")
public static String readTxtFile(String filePath) {
StringBuilder sb = new StringBuilder();
try {
//String encoding = "GBK";
File file = new File(filePath);
if (file.isFile() && file.exists()) { // 判断文件是否存在
InputStreamReader read = new InputStreamReader(
new FileInputStream(file));// 考虑到汉字编码格式
BufferedReader bufferedReader = new BufferedReader(read);
String lineTxt = null;
while ((lineTxt = bufferedReader.readLine()) != null) {
System.out.println(lineTxt);
sb.append(lineTxt);
}
read.close();
} else {
System.out.println("找不到指定的文件");
}
} catch (Exception e) {
System.out.println("读取文件内容出错");
e.printStackTrace();
} finally {
return sb.toString();
}
}
}
分享到:
相关推荐
2.8 操作符和标点符号 2.9 操作符的优先级和结合性 2.10 增值操作符和减值操作符 2.11 赋值操作符 2.12 例子:计算2的乘方 2.13 c系统 2.13.1 预处理器 2.13.2 标准函数库 2.14 总结 2.15 练习 第3章 基本数据类型 ...
React降价-el 提供一个简单的React组件,用于在元素中呈现 Markdown 文本。安装 $ npm install react-markdown-el用法基本用法只是将 markdown 作为text属性: var Markdown = require('react-markdown-el');...
通过lemmatization,停用词和/或标点过滤器,上/下外壳,搬运程序词干为字符串流。 安全且易于腌制到磁盘的。 使用配置驱动器解析和令牌规范化。 漂亮的打印功能可轻松选择自然语言功能。 文献资料 取得 安装...
任务 2 使用以下类为编程教科书创建文本处理程序:符号、单词、句子、标点符号等。在所有具有文本格式的任务中,用单个空格替换制表符和空格序列。 选项 10. 有一个文本和一个单词列表。 对于给定列表中的每个单词,...
导入模块:代码开始部分导入了多个Python模块,包括正则表达式、CSV文件处理、时间处理、请求处理、网页解析、词云生成、数据可视化等模块。 登录Cookie和反爬虫:设置了用于登录的Cookie和HTTP请求的User-Agent头部...
CSTParser 使用Julia的解析器,旨在通过提供附加的元信息以及生成的AST来扩展内置解析器。安装及使用using PkgPkg . add ( " CSTParser " ) using CSTParser 说明文件:结构体CSTParser.EXPR在结构上大致等同于Base....
实现了对xml文件的解析,并提取了许可证名称,SPDX标识符和许可证主体。 实现了从pub获取包的压缩文件并找到其LICENSE的代码。 将用于测试和极端情况检测 根据License Classifer v2和SPDX指南,实现了规范化器类来...
提供了解析查询语句的QueryParser类 7) util模块:包含一些公共工具类。 5. 创建索引 1) IndexWriter:索引写出器 a) 构造方法: IndexWriter(Directory d, Analyzer a, IndexWriter.MaxFieldLength mfl) ...
其中是这个属性的名称,是一个字符串,来规定该怎样解析和显示日期或时间的格式,默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-MM-ddTHH:mm:ss”。 数据信息部分表达日期的字符串必须符合声明中规定的格式...
ASCII码是西欧编码的方式,采取7位编码,所以是2^7=128,共可以表示128个字符,包括34个字符,(如换行LF,回车CR等),其余94位为英文字母和标点符号及运算符号等。GB2321 GB2312 是对 ASCII 的中文扩展。兼容...
实例027 小明去学校和医院分别要走哪条路 34 实例028 利用条件语句判断用户登录身份 35 实例029 判断指定月份属于哪个季节 36 实例030 使用switch语句更改窗体颜色 37 实例031 循环向控制台中输入内容 38 实例032 ...
XMLParser:使用 libxml++ 解析流入的 XML 文件,仅将需要解析的数据添加到处理器处理的堆栈中。 处理器:多线程类,从解析器获取数据并对其进行必要的操作。 忽略任何停用词、删除不必要的标点符号、词干并计算...
主要原理: CST包含来自已解析文件的所有信息(包括空格和注释)。 与AST( )兼容。 需要令牌来修改CST结构。 该树始终是有效的(它保护自己免受重大更改)。 CST可以随时渲染为有效的JS。 让我们来看一个例子: x...
可能性。 该功能不太可能第一次工作,但是, 根据文本的长度,... 它从原始文件中删除了所有标点符号和大小写文本。 另一个 m 文件可用于在替换密码中对消息进行编码,使用字母的随机排列并为用户提供密钥和编码消息。
去做: 添加更多部分: 单词比较(至少5个) 重构代码使开源友好添加部分,或显示其工作原理的部分,以及分析如何分析数据的部分添加对群聊的支持从单词列表中删除标点符号分析.js的自定义设置让图表显示单独的用户...
@[\]^_`{|}~ \p{Punct} 标点符号: 包括 !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ * \p{Graph} A visible character: [\p{Alnum}\p{Punct}] \p{Graph} 可视字符: [\p{Alnum}\p{Punct}] * \p{Print} A ...