`
千年松鼠
  • 浏览: 25168 次
文章分类
社区版块
存档分类
最新评论

抓取到的数据中文乱码

 
阅读更多
自己备忘一下:
  1:将抓取到的数据保存到本地后,经常会出现中文乱码的情况。
  解决办法:保存数据的时候用字节流去写。
  原因:我们知道计算机的基本存储单位是字节,而java中一个字符占两个字节。当用字符流去写文件时,java会将字符流转换为字节流再输出,这里面的转换过程使用的java默认的字符集,因此当默认的编码方式不对时可能会出现乱码。如果用字节流写入就可以手动的设置字符集,从而避免乱码。需要注意的是以后读取该文件的时候也要用相同的字符集。
  如输出流
FileOutputStream fileOutputStream = new FileOutputStream(file);
			fileOutputStream.write(dataString.getBytes("chartset1"));
			fileOutputStream.close();


  输入流
InputStreamReader inputStreamReader = new InputStreamReader(new FileInputStream(file2), "chartset1");//要确保"chartset1"相同
分享到:
评论

相关推荐

    java读取远程网页乱码解决方案

    java读取远程网页乱码解决方案 java读取远程网页乱码解决方案

    抓取方法标题和内容取出(包括乱码问题

    爬虫数据获取 标题和内容取出(包括乱码问题)

    PHP中使用file_get_contents抓取网页中文乱码问题解决方法

    本文实例讲述了PHP中使用file_get_contents抓取网页中文乱码问题解决方法。分享给大家供大家参考。具体方法如下: file_get_contents函数本来就是一个非常优秀的php自带本地与远程文件操作函数,它可以让我们不花吹挥...

    数据库 MySQL中文乱码解决办法总结

    主要介绍了数据库 MySQL中文乱码解决办法总结的相关资料,数据库保存中文字符,所以经常遇到数据库乱码情况,这里提供了几种方法,需要的朋友可以参考下

    java读取解析DXF文件信息.rar

    java解析DXF文件信息,这里涉及到各种转换字符串编码的操作,解决了解析过程中遇到中文的乱码问题,包括circle,ellipse,line,lwpolyline等,还涉及到从DXF文件中读取一个字符串、判断CIRCLE实体、判断ellipse实体、...

    2014最新Snoopy.class.php

    希望对大家有所帮助 ... Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetchtext ...9提交数据并且获取返回值 10 支持跟踪HTML框架 11支持重定向的时候传递cookies

    HtmlAgilityPack.rar

    HtmlAgilityPack抓取网页数据&解决中文乱码的调用dll项目文件 2020年9月

    Python大作业--爬虫(完美应付大作业).zip

    程序说明: 程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码,同时会在./image下保存所有的文章图标,命名为$id.png,ID为程序内部使用的ID,对应CSV表格中第一列的ID 如果被封IP或服务器返回任何异常,...

    stata爬数据案例dofile中国统计信息网上前50页1000市的GDP

    将do文件打开时,需要将编码格式选择为Chinese GBK,否则汉字乱码 ****************************************************************** * * *范例:抓取 http://www.tjcn.org 中国统计信息网上前50页1000市的...

    python大作业-基于python实现微信公众号文章爬虫源码+详细代码注释+项目说明.zip

    程序说明: 程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码,同时会在./image下保存所有的文章图标,命名为$id.png,ID为程序内部使用的ID,对应CSV表格中第一列的ID 如果被封IP或服务器返回任何异常,...

    一个简单的java爬虫产品

    原先公司的网站是用GB2312编码做的页面,现在采用的是UTF-8的编码,虽然我已经判断了页面的编码,可是依然不能解决保存的文件中文乱码的问题,不知道大家有什么好办法没有。错误信息为:java.io....

    搜索引擎代码

    2.优化编码识别规则,大幅件减少搜索日志乱码现象 3.后台可批量删除某一域名下的所有搜引文件的功能! 4.可过滤某一ip的搜索记录,避免数据库迅速膨胀 5.将广告内容的字数限制由100个字符增长到128个字符 6.升级优化...

    最新淘宝客程序api2.0技术 v1.4 修正版.rar

    (请将下拉框里的所有分类都选择一次并更新才可以将首页商品完全更新,需要注意的是每个分类你只需要选择一页即可,他的意思是你抓取哪一页的内容放到首页,前期很多朋友理解错误) 备注:列表页商品、搜索页商品...

    淘客帝国破解版

    有效解决因API调用频率不够而无法调取到商品数据的情况! 其他高级功能:更多功能不再细致描述! 【运行环境】 1:Windows 平台:IIS/Apache + PHP(V5.1以上) 2:Linux/Unix 平台:Apache + PHP(V5.1以上)

Global site tag (gtag.js) - Google Analytics