判断字符串是否是中文

格式：doc
大小：45.50 KB
文档页数：6

下载文档原格式

js判断输入是否中文,数字,身份证等等js函数

用正则表达式限制只能输入全角字符： onkeyup="value=value.replace(/[^\uFF00-\uFFFF]/g,'')" onbeforepaste="clipboardData.setData('text',clipboardData.getData('text').replace(/[^\uFF00-\uFFFF]/g,''))"
}else if(c=="-"&&str.length==1){
return false;
}
}else if(c < "0" || c > "9"){
return false;
}
}
return true;
}
/*
英文判断函数，返回true表示是全部英文，返回false表示不全部是英文
return false;
}
}
return true;
}
/*
身份证判断函数，是返回true，不是返回false
15位数字，18位数字或者最后一位为X（大写）
*/
function isSFZ(str){
if(""==str){
return false;
*/
function isXZ(str){
if(""==str){
return false;
}
var reg = /^[1-6](\.5)?$/;
var r = str.match(reg);

Oracle中如何用SQL检测字段是否包括中文字符

Oracle中如何用SQL检测字段是否包括中文字符
今天有一个同事的数据迁移程序有个问题，没有考虑中文编码字符，由于迁移的表有几千万数据，但是有中文的记录集很少，问我能否找出有中文内容的记录数。

首先我想到的是采用检测每个字节ASCII的方式，这样的话需要写一个自定义函数，然后SQL中调用得到结果。

但是感觉这个方法估计很耗时，毕竟每个字符都要比较，所以没有去实现。

突然想到Oracle有一个编码转换的函数叫Convert，如果一个字符串编码转换前后不一样就表示字符串里面含有非ASCII字符，这样就得到结果。

最后写出来测试了一下，确实可行，5500万记录10秒钟就扫描结束。

以下是测试用例：
SQL> select *
2 from (select 'abcd' c1 from dual
3 union all
4 select 'ab测试cd' c1 from dual)
5 where c1 <> CONVERT(c1, 'US7ASCII', 'ZHS16GBK');
C1
--------
ab测试cd
CONVERT函数说明：
CONVERT(inputstring,dest_charset,source_charset)
inputstring：要转换的字符串
dest_charset：目标字符集
source_charset：原字符集
这只是一个小技巧，也许有一天你也有这样的需求，或许能派上用场。

java判断汉字和字符长度的方法

java判断汉字和字符长度的方法全文共四篇示例，供读者参考第一篇示例：在Java编程中，有时候我们需要判断一个字符串中包含的汉字个数以及字符长度。

汉字的特殊性导致了在判断汉字个数和字符长度时需要使用特定的方法。

下面我们将介绍一些常用的方法来判断汉字和字符长度。

我们需要知道汉字在Java中占用的字节数。

在UTF-8编码中，一个汉字占用3个字节，而在GBK编码中，一个汉字占用2个字节。

我们可以通过判断一个字符的字节数来确定其是否为汉字。

下面是一个简单的方法来判断一个字符是否为汉字：```javapublic static boolean isChinese(char c) {Character.UnicodeBlock ub =Character.UnicodeBlock.of(c);return ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS|| ub ==Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION _A|| ub ==Character.UnicodeBlock.GENERAL_PUNCTUATION|| ub ==Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION|| ub ==Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS;}```通过以上代码，我们可以利用UnicodeBlock来判断一个字符是否为汉字。

UnicodeBlock包含了所有Unicode字符的范围，我们只需要检查目标字符是否在汉字的UnicodeBlock中即可。

接下来，我们可以通过如下代码来判断一个字符串中汉字的个数：```javapublic static int countChinese(String str) {int count = 0;for (int i = 0; i < str.length(); i++) {char c = str.charAt(i);if (isChinese(c)) {count++;}}return count;}```在countChinese方法中，我们遍历字符串中的每一个字符，判断其是否为汉字，若是则汉字个数加一。

java 实现中文匹配方法

java 实现中文匹配方法Java是一种高级的面向对象编程语言，它具有广泛的应用领域。

在本篇文章中，我们将重点讨论如何使用Java实现中文匹配方法。

中文匹配是指在一段文本中查找与给定中文字符串相匹配的部分。

在实际应用中，中文匹配常常用于文本搜索、敏感词过滤、自然语言处理等场景。

下面我们将介绍如何使用Java实现中文匹配方法。

我们需要了解Java中的字符串处理方法。

Java提供了String类来处理字符串，它包含了许多有用的方法。

例如，我们可以使用String的indexOf方法来查找一个字符串在另一个字符串中第一次出现的位置。

在中文匹配中，我们可以利用这个方法来判断给定的中文字符串是否在文本中出现。

然而，由于中文字符的特殊性，我们需要注意一些问题。

中文字符通常采用Unicode编码表示，一个中文字符由多个字节组成。

因此，如果我们直接使用indexOf方法查找中文字符串，可能会出现错误的结果。

为了解决这个问题，我们可以使用Java的正则表达式功能。

Java的正则表达式功能通过Pattern类和Matcher类实现。

我们可以使用Pattern类的compile方法编译一个正则表达式，并使用Matcher类的find方法在文本中查找与正则表达式匹配的部分。

在中文匹配中，我们可以使用正则表达式来匹配中文字符。

下面是一个使用Java实现中文匹配的示例代码：```javaimport java.util.regex.Matcher;import java.util.regex.Pattern;public class ChineseMatcher {public static void main(String[] args) {String text = "这是一段包含中文的文本，我们要在其中查找中文字符串。

";String chineseString = "中文";// 编译正则表达式Pattern pattern = pile("[\\u4e00-\\u9fa5]+"); Matcher matcher = pattern.matcher(text);// 查找中文字符串while (matcher.find()) {String match = matcher.group();if (match.equals(chineseString)) {System.out.println("找到了中文字符串：" + match); }}}}```在上面的示例中，我们定义了一个包含中文的文本和一个中文字符串。

常用正则表达式大全!(例如：匹配中文、匹配html)

说明： //u0000-u00ff.包含unicode单字节编码（ 0-255编码）包含基本控制字符和拉丁文字母。采用该否定表达式，粗略判断是否含有中文。
具体的匹配中文及字符方法：/[\u4E00-\u9FA5\uF900-\uFA2D]/
说明： u4e00-u9fbf : unicode CJK(中日韩)统一表意字符。u9fa5后至u9fbf为空
匹配双字节字符(包括汉字在内)：[^x00-xff]
匹配空行的正则表达式：n[s| ]*r
匹配HTML标记的正则表达式：/<(.*)>.*|<(.*) />/
匹配首尾空格的正则表达式：(^s*)|(s*$)
匹配Email地址的正则表达式：w+([-+.]w+)*@w+([-.]w+)*.w+([-.]w+)*
(5)应用：利用正则表达式限制网页表单里的文本框输入内容
用正则表达式限制只能输入中文：onkeyup="value=value.replace(/[^u4E00-u9FA5]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^u4E00-u9FA5]/g,''))"
用正则表达式限制只能输入数字和英文：onkeyup="value=value.replace(/[W]/g,'') "onbeforepaste="clipboardData.setData(''text'',clipboardData.getData(''text'').replace(/[^d]/g,''

C判断中文字符的八种方法

} } return false; } 方法二： public bool IsChina(string CString) { bool BoolValue = false; for (int i = 0; i < CString.Length; i++) { if (Convert.ToInt32(Convert.ToChar(CString.Substring(i, 1))) < Convert.ToInt32(Convert.ToChar(128))) { BoolValue = false; } else { return BoolValue = true; } } return BoolValue; } 方法三： /// <summary> /// 判断句子中是否含有中文 /// </summary> /// <param >字符串</param> public bool WordsIScn(string words) { string TmmP; for (int i = 0; i < words.Length; i++) { TmmP = words.Substring(i, 1); byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetByt
byte byte1 = bytes[0]; byte byte2 = bytes[1]; if (byte1 >= 176 && byte1 <= 247 && byte2 >= 160 && by

java判断中文字符串相似度的方法

java判断中文字符串相似度的方法一、编辑距离算法编辑距离算法（Levenshtein Distance）是一种常用的字符串相似度计算方法。

它衡量两个字符串之间的差异程度，即需要多少次操作（插入、删除、替换）才能将一个字符串转换为另一个字符串。

在中文字符串相似度的计算中，我们可以将每个汉字视为一个字符，然后使用编辑距离算法来计算相似度。

二、实现编辑距离算法在Java中，我们可以使用动态规划的思想来实现编辑距离算法。

具体步骤如下：1. 创建一个二维数组dp，其中dp[i][j]表示将字符串s1的前i个字符转换为字符串s2的前j个字符所需要的最少操作次数。

2. 初始化第一行和第一列，即dp[0][j]=j和dp[i][0]=i。

3. 遍历字符串s1和s2，计算dp[i][j]的值：- 如果s1的第i个字符等于s2的第j个字符，则dp[i][j]=dp[i-1][j-1]；- 否则，dp[i][j]等于dp[i-1][j-1]+1（替换操作）、dp[i][j-1]+1（插入操作）和dp[i-1][j]+1（删除操作）中的最小值。

4. 返回dp[s1.length()][s2.length()]，即字符串s1和s2的相似度。

三、使用示例下面是一个使用编辑距离算法判断中文字符串相似度的示例代码：```javapublic class ChineseSimilarity {public static int calculateSimilarity(String s1, String s2) {int[][] dp = new int[s1.length() + 1][s2.length() + 1];for (int i = 0; i <= s1.length(); i++) {dp[i][0] = i;}for (int j = 0; j <= s2.length(); j++) {dp[0][j] = j;}for (int i = 1; i <= s1.length(); i++) {for (int j = 1; j <= s2.length(); j++) {if (s1.charAt(i - 1) == s2.charAt(j - 1)) {dp[i][j] = dp[i - 1][j - 1];} else {dp[i][j] = Math.min(dp[i - 1][j - 1] + 1, Math.min(dp[i][j - 1] + 1, dp[i - 1][j] + 1));}}}return dp[s1.length()][s2.length()];}public static void main(String[] args) {String s1 = "中国人民";String s2 = "中华人民共和国";int similarity = calculateSimilarity(s1, s2);System.out.println("字符串相似度：" + similarity);}}```在上面的示例代码中，我们定义了一个calculateSimilarity方法，该方法接受两个中文字符串作为参数，并返回它们的相似度。

JS判断是否为数字，中文，小写、大写字母

JS判断是否为数字，中⽂，⼩写、⼤写字母/** 取得字符串的字节长度**/代码function strlen(str){var i;var len;len = 0;for (i=0;i<str.length;i++){if (str.charCodeAt(i)>255) len+=2; else len++;}return len;}/* * 判断是否为数字，是则返回true,否则返回false */代码function f_check_number(obj){if (/^\d+$/.test(obj.value)){return true;}else{f_alert(obj,"请输⼊数字");return false;}}/* * 校验数字的最⼩最⼤值 * 返回bool */代码function f_check_interval(obj){var value = parseFloat(obj.value);var dtype = obj.eos_datatype;var pos_dtype = dtype.substring(dtype.indexOf("(")+1,dtype.indexOf(")")).split(",");var minLimit = pos_dtype[0];var maxLimit = pos_dtype[1];var minVal = parseFloat(pos_dtype[0]);var maxVal = parseFloat(pos_dtype[1]);if(isNaN(value)){f_alert(obj, "值必须为数字");return false;}if((isNaN(minVal) && (minLimit != "-")) || (isNaN(maxVal) && (maxLimit != "+"))){f_alert(obj, "边界值必须为数字或-、+");return false;}if(minLimit == "-" && !isNaN(maxVal)){if(value > maxVal){f_alert(obj, "值不能超过" + maxVal);return false;}}if(!isNaN(minVal) && maxLimit == "+"){if(value < minVal){f_alert(obj, "值不能⼩于" + minVal);return false;}}if(!isNaN(minVal) && !isNaN(maxVal)){if(minVal > maxVal){f_alert(obj, "起始值" + minVal + "不能⼤于终⽌值" + maxVal);}else{if(!(value <= maxVal && value >= minVal)){f_alert(obj, "值应该在" + minVal + "和" + maxVal + "之间");return false;}}}return true;}/* ⽤途：检查输⼊字符串是否只由汉字组成如果通过验证返回true,否则返回false */ 代码function f_check_zh(obj){if (/^[\u4e00-\u9fa5]+$/.test(obj.value)) {return true;}f_alert(obj,"请输⼊汉字");return false;}/* * 判断是否为⼩写英⽂字母，是则返回true,否则返回false */代码function f_check_lowercase(obj){if (/^[a-z]+$/.test( obj.value )){return true;}f_alert(obj,"请输⼊⼩写英⽂字母");return false;}/* * 判断是否为⼤写英⽂字母，是则返回true,否则返回false */代码function f_check_uppercase(obj){if (/^[A-Z]+$/.test( obj.value )){return true;}f_alert(obj,"请输⼊⼤写英⽂字母");return false;}/* * 判断是否为英⽂字母，是则返回true,否则返回false */代码function f_check_letter(obj){if (/^[A-Za-z]+$/.test( obj.value )){return true;}f_alert(obj,"请输⼊英⽂字母");return false;/* ⽤途：检查输⼊字符串是否只由汉字、字母、数字组成输⼊： value：字符串返回：如果通过验证返回true,否则返回false */代码function f_check_ZhOrNumOrLett(obj){ //判断是否是汉字、字母、数字组成var regu = "^[0-9a-zA-Z\u4e00-\u9fa5]+$";var re = new RegExp(regu);if (re.test( obj.value )) {return true;}f_alert(obj,"请输⼊汉字、字母或数字");return false;}/* ⽤途：检查输⼊对象的值是否符合⽹址格式输⼊：str 输⼊的字符串返回：如果通过验证返回true,否则返回false */代码function f_check_URL(obj){var myReg = /^((http:[/][/])?\w+([.]\w+|[/]\w*)*)?$/;if(myReg.test( obj.value )) return true;f_alert(obj,"请输⼊合法的⽹页地址");return false;}/* ⽤途：检查输⼊对象的值是否符合E-Mail格式输⼊：str 输⼊的字符串返回：如果通过验证返回true,否则返回false */代码function f_check_email(obj){var myReg = /^([-_A-Za-z0-9\.]+)@([_A-Za-z0-9]+\.)+[A-Za-z0-9]{2,3}$/;if(myReg.test( obj.value )) return true;f_alert(obj,"请输⼊合法的电⼦邮件地址");return false;}/* ⽤户ID，可以为数字、字母、下划线的组合，第⼀个字符不能为数字,且总长度不能超过20。

js 判断中文简体字的方法

js 判断中文简体字的方法全文共四篇示例，供读者参考第一篇示例：随着中文网络内容的不断增加，对中文简体字的判断变得越来越重要。

在多种情况下，我们需要使用JavaScript来判断一个字符是否为中文简体字。

本文将介绍几种常见的方法，供大家参考。

一、Unicode值范围判断Unicode是一种字符编码标准，它为每个字符分配了一个唯一的数字编号。

中文简体字通常位于Unicode编码的范围：0x4E00至0x9FA5之间。

我们可以通过判断一个字符的Unicode值是否在这个范围内来判断该字符是否为中文简体字。

```javascriptfunction isChineseChar(char) {return char >= '\u4e00' && char <= '\u9fa5';}// 使用方法console.log(isChineseChar('中')); // trueconsole.log(isChineseChar('a')); // false```这种方法简单直观，适合只需判断个别字符的情况。

但如果需要判断整个字符串是否全部为中文简体字，则效率较低。

二、正则表达式判断使用正则表达式是一个更加灵活和高效的方法。

我们可以使用正则表达式来匹配中文简体字。

三、第三方库判断除了自己编写判断函数外，也可以使用第三方库来判断中文简体字。

可以使用第三方库pinyin来判断一个字符是否为中文简体字。

```javascriptvar pinyin = require('pinyin');这种方法适合在已有项目中引入第三方库的情况下使用。

常用的中文处理库还有：hanzi和chinese-conv等。

四、结合多种方法判断在实际项目中，为了提高准确性和灵活性，我们可以结合多种方法来判断中文简体字。

结合Unicode值范围判断和正则表达式判断来实现更精准的中文简体字判断。

js中判断数字字母中文的正则表达式 (实例)

for(var i=0;i var c = str.charAt(i); if((c<"a"||c>"z")&&(c<"A"||c>"Z")){ return false; } } return true; } /* 空格判断，当包含有空格返回 false，当不包含一个空格返回 true ""不能被判断 */ function notInSpace(str){ if(""==str){ return false; } var badChar =" "; badChar += " "; for(var i=0;i var c = str.charAt(i);//字符串 str 中的字符 if(badChar.indexOf(c) > -1){ return false; } } return true; } /* **号判断函数，返回 true 表示是**号，返回 false 表示不符合规范 */ function isFPH(str){ if(""==str){ return false; } for(var i=0;i var c = str.charAt(i); if((c < "0" || c > "9") && (c!="-")&&(c!=",")){ return false; } } return true; } /* 电话判断函数，允许“数字” 、 “;” 、 “-” 、 “ (” 、 ”)“， true 表示是电话号码 */ function isTelephone(str){ var trueChar = "()-;1234567890";

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

{
byte[] bytes = Encoding.GetEncoding("Big5").GetBytes(word.ToString());
if (bytes.Length <= 1) // if there is only one byte, it is ASCII code
{
return false;
{
byte[] bytes = Encoding.GetEncoding("GBK").GetBytes(word.ToString());
if (bytes.Length <= 1) // if there is only one byte, it is ASCII code
{
return false;
}
else
{
byte byte1 = bytes[0];
byte byte2 = bytes[1];
if ( (byte1 >= 129 && byte1 <= 254) && ((byte2 >= 64 && byte2 <= 126) || (byte2 >= 161 && byte2 <= 254)) ) //判断是否是Big5编码
{
return true;
}
else
{
return false;
}
}
}
if (sarr.Length == 2)
{
return true;
}
}
return false;
}
方法四：
for (int i=0; i<s.length; i++)
{
Regex rx = new Regex("^[\u4e00-\u9fa5]$");
if (rx.IsMatch(s[i]))
//是
int chfrom = Convert.ToInt32("4e00", 16); //范围（0x4e00～0x9fff）转换成int（chfrom～chend）
int chend = Convert.ToInt32("9fff", 16);
if (input != "")
{
code = Char.ConvertToUtf32(input, index); //获得字符串input中指定索引index处字符unicode编码
判断字符串是否是中文
Unicode CJK的范围分布在多个区段中，带有CJK的区块名中都拥有汉字。但最常用的范围是U+4E00～U+9FA5，即名为：CJK Unified Ideographs的区块，但U+9FA6～U+9FFF之间的字符还属于空码，暂时还未定义，但不能保证以后不会被定义。
在正则表达式中使用[\u4e00-\u9fa5]这种方式属于写死的代码，并不能根据平台所提供的字符集范围不同而改变，不过对于要求不是很高的话的是可以了。如果对字符集的要求很高，可以采用下面的这种Unicode块的方式：
foreach (char word in words)
{
if ( IsGBCode(word.ToString()) || IsGBKCode(word.ToString()) ) // it is a GB2312 or GBK chinese word
{
continue;
}
else
{
return false;
for( int i = 0; i < unicodebytearray.length; i++ )
{
i++;
//如果是中文字符那么高位不为0
if ( unicodebytearray[i] != 0 )
{
}
……
方法六:
/**//**//**//// <summary>
///给定一个字符串，判断其是否只包含有汉字
}
else
{
byte byte1 = bytes[0];
byte byte2 = bytes[1];
if ( byte1 >= 129 && byte1 <= 254 && byte2 >= 64 && byte2 <= 254) //判断是否是GBK编码
{
return true;
}
else
{
return false;
else
//否
}
正解！
\u4e00-\u9fa5汉字的范围。
^[\u4e00-\u9fa5]$汉字的范围的正则
方法五：
unicodeencoding unicodeencoding = new unicodeencoding();
byte [] unicodebytearray = unicodeencoding.getbytes( inputstring );
{
BoolValue = false;
}
else
{
return BoolValue = true;
}
}
return BoolValue;
}
方法三：
**/**///// <summary>
///判断句子中是否含有中文
/// </summary>
/// <param >字符串</param>
public bool WordsIScn(string words)
{
byte[] bytes = EntBytes(word);
if (bytes.Length <= 1) // if there is only one byte, it is ASCII code or other code
{
return false;
String regex = "[\\p{InCJK Unified Ideographs}&&\\P{Cn}]]";
在当前的JDK版中与[\u4e00-\u9fa5]的意义一致。但这样可以匹配Java平台所支持Unicode块名为CJK Unified Ideogrpahs中已定义的字符，这种方式就属于“活”代码今后的JDK版本升级了，定义到了\u9fa6的字符，同样能够满足匹配。
Matcher m = p.matcher(str);
while (m.find()) {
for (int i = 0; i <= m.groupCount(); i++) {
count = count + 1;
}
}
System.out.println("共有" + count + "个");
}
方法一：
/// </summary>
/// <param name="testStr"></param>
/// <returns></returns>
public bool IsOnlyContainsChinese(string testStr)
{
char[] words = testStr.ToCharArray();
}
else
{
byte byte1 = bytes[0];
byte byte2 = bytes[1];
if (byte1 >= 176 && byte1 <= 247 && byte2 >= 160 && byte2 <= 254) //判断是否是GB2312
{
return true;
}
else
{
return false;
{
string TmmP;
for (int i = 0; i < words.Length; i++)
{
TmmP = words.Substring(i, 1);
byte[] sarr = System.Text.Encoding.GetEncoding("gb2312").GetBytes(TmmP);
在unicode字符串中，中文的范围是在4E00..9FFF:CJK Unified Ideographs。
通过对字符的unicode编码进行判断来确定字符是否为中文。
protected bool IsChineseLetter(string input,int index)
{
int code = 0;
}
}
return true;
}
/**//**//**//// <summary>
///判断一个word是否为GB2312编码的汉字
/// </summary>
/// <param name="word"></param>
/// <returns></returns>
private bool IsGBCode(string word)
{
bool BoolValue = false;
for (int i = 0; i < CString.Length; i++)
{
if (Convert.ToInt32(Convert.ToChar(CString.Substring(i, 1))) < Convert.ToInt32(Convert.ToChar(128)))